打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
南栖仙策:让决策走出游戏,解决真实业务需求 | 甲子光年

让决策更优越,更简单。



作者 | 俞扬
编辑 | 刘景丰 高雅

1月9日,以“洞悉先知·策见未来”为主题的南栖仙策智能决策发布会在南京景枫万豪酒店举行。发布会上,南栖仙策推出新一代智能决策系统“REVIVE”,南栖仙策创始人俞扬博士发表了技术篇的主旨演讲。


「甲子光年」根据俞扬现场演讲内容,整理如下:


大家好,我是俞扬,我非常喜欢看科幻片,科幻片里汇集了未来的世界。《I,ROBOT》是我最喜欢的电影之一,它描述了芝加哥的2035年,离现在也没有太长的距离,只有15年。电影的情节并不重要,重要的是电影中,我们看到未来机器人在帮我们服务,帮我们做事。

机器人,实际上是人工智能经常研究的综合体,它有手、脚、眼睛、鼻子和嘴,更重要的是机器人需要智能,我们经常把机器人称为智能体,是从概念上把它称为一个对象。

我们人的智能有很多方面,比如如何去看、如何去听。而对于如何让机器帮助我们做事,为我们服务而言,就需要机器有行动的智能。我们需要有一个能行动的智能体,它和我们操作同样的事情,完成我们给它布置的任务,存在于我们生产和生活的环境中。

对于各种各样的场景来说,可能我们面临的行为是有差异的。但是我们可以提炼出一个共同的框架来,那就是我们的智能体可以看到我们的世界是什么样子的,它可以做出行为来改变我们的世界,可以改变这个智能体看到的世界的状态。那么下一个时刻它看到我们的世界发生了什么变化以后,又会做出进一步的行为——这是一个会做出行为的智能体。

并不是所有的行为,或者世界所有的变化都是我们想要的,我们想要朝好的方向来发展,所以我们希望给智能体定义一个任务,让它实现这个任务,达到我们预定的目标。

那么,怎么告诉智能体要达到的目标呢?一个简单的方式就是设定一个奖励机制,如果它做对了、做好了,朝好的方向发展,我们就给它一个奖励;如果它做得不好,朝我们不希望的地方发展,我们肯定给它小的或者负的奖励。

我们希望这个智能体,能从奖励中自主学习如何完成这个任务,拿到最多的奖励,通过这样的方式让智能体具有行动的智能。实现行动的智能,对应的人工智能分支叫做强化学习。对于强化学习,我们可以简单的认为,如果一个任务需要通过一系列的行动去改变我们的未来,并且需要通过一个简单的奖励,定义出我们的目标、任务,那么它就是强化学习能够解决的问题。


我举一个大家很清楚的例子——下围棋。我们面临的决策和行动的空间,就是按照规则把棋子走到棋盘上,这就是我们的行动。我们通过一系列的行动,要达成一定的目标。那么和棋盘以及棋盘上的对手进行交互以后,我们希望设定这样的一个目标——打赢对手。所以我们希望获胜,它如果获胜了,我们给它正1的奖励;如果输了,就给它负1的奖励。


这只是其中一种任务,还有其他的任务,我们希望赢得更多,希望让对手下的比较开心,这都是其他的任务,可以通过设置不同的奖励来定义任务。大家都知道,在围棋上,机器已经能够打败顶尖的人类了,事实上还包括其他的棋类,比如现在复杂的、大规模的游戏里面,我们强化学习的技术已经可以达到甚至超越人类专家的水平。

游戏是一个可以去演练、去检验人工智能技术的场景。通过演练和检验之后,我们希望这种技术能够真实帮助我们解决生产生活中的问题。如果我们去看一个生产线,在这个产线上面需要做一系列的操作,一系列的行为。我们同样也有目标——效率最高,品质最好,成本最低。这一系列的行为要达成一个目标,要实现最好的目标,这就是用强化学习可以解决的问题。


除了产线以外,其他很多场景也需要面对类似的问题。我们都有一系列行动和决策的空间,我们都有KPI要去完成,我们要最快地达成我们的效率,或者降成本降到最低,这些都是我们想要达成的目标。

那么我们如何去完成这些事情?如果强化学习能够帮我们解决在生产过程中面临的问题,那么我们面对的将是一个非常巨大的市场。因此我们也希望,用这样的技术来帮助我们去解决实际问题。所以这样的场景下,我们每一步都要做出选择,通向最好的未来。

强化学习如何做到这些事情呢?我们经常说失败是成功之母,对强化学习也是一样的,强化学习要找到一条成功的路径,需要经历大量的失败。所以不管是下棋还是打电动游戏,这类游戏场景下的每一次失败都不会有太大的代价。如果我们在游戏里面死掉,重来就好了,我们可以做很多次重来。但是我们真实的人生没有重来,真实的业务很难容忍大量的试错、失败。

由于在整个训练过程中,强化学习需要尝试非常多次的失败,而且它的试错往往是随机的,所以它很难直接应用在真实业务场景下。虽然强化学习已经有五、六十年的历史,但是真正在工业中,在我们的生产环境中,这些技术的使用场景非常少,成功的案例也屈指可数。


想要摆脱游戏的环境,在真实的生产生活中,怎么样能够训练强化学习呢?我们拥有的训练素材都是什么呢?

今天来看,我们有一些数据,这些数据是在真实场景下可能通过人工的方式,通过我们的预先设置,积累下来的。这些数据是我们能拥有的所有信息,我们没办法进行更多的试错,那样会有更多的代价。

能不能从历史的数据里学到一个很好的决策呢?也就是说,我们从历史的数据中来学习如何做决策,而不是从试错中学习如何做决策。如果能做到这件事情,那我们就可以找到一种方法,寻找最优的决策。现在,我们把这个领域叫做离线强化学习。所谓离线,也就是我们不要在环境中交互和试错,而是通过历史的经验来学到最好的决策。

怎么做到这个事情呢?这个方向最近一两年在国际上得到了很大的关注,在强化学习领域,已经有好几种方法进行试探。其中一类方法是从数据上直接学习决策。但是从数据上学习决策的时候,我们会发现很多数据是没有的,能看到的决策数据只是一小部分。我们画的这个图和当年AlphaGO发布的图比较类似,很多数据上有很多的决策和动作,但只能执行其中很少的动作出来,所以我们拿到的数据不能够完全覆盖我们能够做决策的范围。

拿到这样的数据,我们知道历史上朝左走看到了大海,但我们不知道向右走能看到什么,历史数据从来没有告诉我们,向另外一个方向走能得到什么样的结果,所以这样的数据上很难做泛化。

此外,我们真实应用的时候需要对模型进行验证,得到很好的验证结果才能实际使用,如果只有数据,其实很难知道得到的决策到底会有多好。

所以另外一条途径是我们觉得很有希望的一条途径,就是不再只是从历史的数据中直接获得一个决策,而是从历史的数据中寻找一个虚拟的环境。如果构建出一个虚拟的环境,我们就可以利用今天所有强化学习技术获得最优决策,这个环节和打游戏利用的环境是一样的,我们从数据中还原一个像游戏一样的环境,剩下的任务就交给算法自动完成。

如何从数据中获得比较好的虚拟环境,是一个关键的问题。我们对它的需求是什么呢?如果此时此刻做了一个决策和行为,下一步会变成什么样子?我们的虚拟世界就要给我们这样的答案。答案怎么获得?我们收集数据的时候,可以看到数据上已经体现出来了一部分,我们做出决策以后会进入下一个什么样的状态。

我们有一部分这样的数据,就可以有输入和输出。现在的预测技术是不是可以完成虚拟环境的学习?这个预测技术和人脸识别、图像识别技术如出一辙。

如果我们能够比较好地构建这个虚拟环境,下面就可以回答很多问题:我走了上面这个方案会怎么样,我走了下面这个方案会怎么样。这一切都会发生在虚拟的环境中,不需要付出任何真实的代价,在虚拟环境中完成的所有试错,就可以得到一个最好的决策和方案,这个方案我们就可以拿去使用。


所以虚拟的环境是我们非常渴望得到的目标。但是如果我们用一个简单的预测技术来完成它,是不是可以行得通呢?实际上用预测技术来还原虚拟的环境,这个方案已经尝试了很多年,但是一直以来都不是那么成功,原因在于我们的虚拟环境多少都会有一些误差,哪怕有很好的数据,也不太可能得到一个完美的环境。

更重要的是,我们面临的决策并不是一次决策,而是在环境里做一系列决策。这一系列决策做完以后,就会发现其误差在不断的积累和放大。按我们已知的以往结果,误差会随着决策进行平方级的放大,会使得最后得到的结果差别很大。

误差这么大,我们拿到真实的世界里面,就很难把它用起来。

从之前获得平方级误差的思想出发,想控制这个误差,以往最好的技术是尽量减少对虚拟环境的使用,这样就可以控制误差的放大。但是另一方面,如果想要验证我们的决策到底得到一个什么样的结果,我们要知道我们的决策到底有多好,我们就没有办法放弃对虚拟环境的使用。

幸运的是我们有很好的人才,我们最近得到了这样的结果,将平方级的误差降到了线性误差,这样就会使得我们构造的虚拟环境,足以支撑我们在实际中对环境的建模。下面看到的是最近我们在Benchmark的对比,在不同的环境下,在不同的搜集数据的策略影响下,在不同的数据量的情况下,我们都能够获得比较好的结果,这样的结果也就使得我们能够跨过虚拟的门槛,进入真实的世界。


除了在Benchmark上做对比,我们也已经完成在真实环境上进行强化学习做决策的落地验证。在电商环境下,我们做的决策是如何对商品进行推荐,我们要做的决策就是,把哪些产品按照什么样的顺序展示给用户。在这样一个决策上,我们把历史的数据拿过来,然后进行环境的还原。这里的环境指的就是有很多用户来买东西。所以我们的环境里第一次展示出有虚拟的用户,然后我们和虚拟的用户进行交互,看怎么给虚拟的用户做推荐最好,做完以后可以把这样的决策拿到真实的线上。测试显示,我们可以获得2%以上的提升。

我们还在网约车环境上进行了验证。我们面对的是司机,我们要做的决策是为司机安排一个行程,怎样安排会使司机会获得最大的收益、接更多的单,这是我们的目标。我们还是从历史数据里还原出虚拟司机。根据虚拟的司机设定不同的程序,看看什么样的程序会使虚拟司机表现地最好,然后把这样的决策拿给真实的司机来用。结果显示,我们可以提升11%以上的完单量,以及8%以上的司机收入。

我们还在物流场景进行了验证。以往我们总觉得物流是流程化的场景,可以人工把这个过程刻画出来,往往我们会忽略这里面有人工的因素。我们有工人在里面运作,工人的行为是什么样子的呢?以往我们往往把工人当成机器人,他是按照固定流程来做的。但实际上我们的工人和机器人之间有很大的差别。所以面对这样的场景,我们从历史数据上还原出了工人的模型,所以我们有虚拟的工人,并针对虚拟工人做了捡货路径,得到了10%以上的效率提升。

这些场景告诉我们,通过新的技术构建虚拟的世界,在虚拟世界里免费做大量的试错,得到的最终决策结果可以拿到真实的线上来用。

决策在很多业务里面有长期的需求,我们一直在解决决策的问题。最开始我们用机器来解决决策,是先在人的大脑里想好,再把它固化在代码上,变成一条条代码,这是最原始的用机器来做决策,就是把人的经验固化下来。

再进一步,在工业上面其实我们做了很多年的工业模拟,这个思路实际是通过人依据自己的经验和知识,把世界的运作过程刻画出来,然后交由场景去解决。人的能力有多强,就决定了系统性能有多好。对于一个包含有客户、有用户的复杂系统,人工往往没办法很精确的把运转规则写下来,当人工建立一个模拟器的时候,往往面临模拟器和真实数据脱节的情况,哪怕结果再好,我们的决策也不是最好的。


所以打破真实和虚拟世界,我们需要数据驱动,以往数据驱动我们是用预测的方法替代决策,预测和决策两者之间有很大的区别。如果我们以购物为例,预测只是对一个用户而言,他历史上看到了什么样的商品,购买的概率是多少,这是我们要做的预测。但是这样的预测和我们最终想要做的决策——把什么样的商品按照什么顺序展示出来——是有断层的,这个断层往往是人工的方式来弥补。

比如说我们按照购买概率从高到低的顺序把商品陈列出来,这是不是最好的一种方式呢?其实不是。所以当我们用预测的技术来做决策,我们的好处在于数据启动和真实世界能够联动,但是缺少一个寻找最优决策的环境。所以如果最终能从数据构建虚拟的世界,然后在虚拟的世界中用机器寻找最优的决策,那么这一条道路能够实现自主地从数据中进行决策的系统。


我们今天需要实现这样一个完整的系统,让决策能够走出游戏,在很多真实的业务中解决大量的需要,寻找最好的未来。

谢谢大家!



END.


【俞扬介绍】

俞扬,2004年获得南京大学计算机系学士学位,2011年获得南京大学博士学位。研究方向为机器学习,目前主要集中在强化学习理论与应用技术的研究。因为他在演化学习理论与开放环境强化学习方法方面所做出的突出贡献,CCF与IEEE CS决定授予俞扬博士2020年CCF-IEEE CS青年科学家奖。

为促进相关领域的研究,俞扬联合发起了亚洲强化学习研讨会,并承担了多届研讨会的组织,他还担任了2020年在南京举办的国际分布式人工智能会议程序主席,该会议以智能体和多智能体为主要议题。

【关于REVIVE】


REVIVE是面向各行业领域专家的新一代通用智能决策系统,系统通过将复杂的决策过程梳理成可操作的业务流程,并依托云计算资源和深度强化学习算法库进行大数据整理和训练任务,为用户提供完整的数据化决策服务和模型管理服务。

在这里,让决策更优越更简单。

【关于南栖仙策】
南栖仙策是南京大学人工智能创新研究院(南京智谷人工智能研究院新型研发机构)技术孵化企业。南栖仙策专注于智能决策领域,独特的开放环境自主决策的核心技术,打破了 AlphaGo 等以往决策技术无法突破封闭环境的屏障,实现了实际业务中智能决策的落地,在多种业务场景中得到验证。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
俞扬:强化学习真实环境不好用?那就模拟器来凑!
海阔凭鱼跃:记一场工业场景下的AI技术实践
我买了个冰箱,算法又推荐我买冰箱,这么个人工智障我要教会它强化学习
元宇宙赋能指挥控制:未来虚实融生的作战推演
人工智能测试:关于无人车测试的案例研究
Pathdreamer在视觉导航任务中的应用
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服