周星驰的睡梦罗汉拳心法现在AI也学会了:梦中修炼醒来实战_模子_记忆
量子位 出品 | 公众年夜众号 QbitAI
听说过“睡梦罗汉拳”么?
电影《武状元苏乞儿》中,周星驰在梦中得到老托钵人心法传授,学会了睡梦罗汉拳。
只是睡了一觉,醒来就武功天下第一。
边睡边学习,可能不少同学都YY过……真正做到能有几人?
没想到,现在AI已经学会了。
刚刚,两位人工智能界的大牛:Google Brain团队的David Ha(从高盛董事总经理任上转投AI研究),瑞士AI实验室的Jürgen Schmidhuber(被誉为LSTM之父),共同发布了最新的研究成果:
World Models(天下模型)。
简而言之,他们教会了AI在梦里“修炼”。
AI智能体不仅仅能在它自己抱负出来的梦境中学习,还能把学到的技能用到实际运用中。
一众人工智能界同仁纷纭发来贺电。
还有人说他们俩搞的是现实版《盗梦空间》,并且P了一张电影海报图:把Ha和Schmidhuber头像换了上去……
这种神奇能力是怎么回事?
量子位结合两位大牛的论文,考试测验阐明一下。
在梦里开车在梦境中学,在现实中用,可以说是高阶技能了,我们先看一个比较根本的:
在现实里学,到梦境中用。
David Ha和Schmidhuber让一个AI在真正的仿照环境中学会了开车,然后,把它放到了“梦境”里,我们来看看这个学习过程:
先在真实的仿照环境中学开车:
当然,上图是人类视角。在这个学习过程中,AI所看到的天下是这样的:
把演习好的AI智能体放到AI的梦境中,它还是一样在开车:
这个梦境是怎么来的?要讲清楚这个问题,量子位还得先大略先容一下这项研究的方法。他们所构建的智能体分为三部分,不雅观察周围天下的视觉模型、预测未来状态的影象模型和卖力行动的掌握器。
卖力做梦的紧张力量,便是个中的影象模型。他们所用的影象模型是MDN-RNN,正这个神经网络,让Google Brain的SketchRNN,能预测出你还没画完的简笔画究竟是一只猫还是一朵花。
在开车过程中,影象模型卖力“抱负”出自己在开车的场景,根据当前状态天生出下一韶光的概率分布,也便是环境的下一个状态,视觉模型卖力将这个状态解码成图像。他们结合在一起天生的,便是我们开头所说的“天下模型”。
然后,模型中的掌握器就可以在影象模型天生出来的虚假环境中开车了。
在梦里学打Doom做梦开车很大略,但两位大牛的研究显然不止于此。既然AI抱负出来的环境很靠近真实,那理论上讲,他们这项研究的终极目的也是可以实现的:让AI做着梦学技能,再用到现实中。
这一次,他们用了VizDoom,一个专门供AI练习打Doom的平台。
“做梦”的主力,又是我们前面提到过的影象模型。和赛车稍有不同的是,它现在不仅须要预测环境的下一状态,为了让这个虚拟环境只管即便真实,同时还要预测AI智能体的下一状态是去世是活。
这样,强化学习演习所需的信息就完好了,梦境中的演习,GO!
梦境重现了真实环境中的必要元素,和真正的VizDoom有着一样的游戏逻辑、物理规则和(比较模糊的)3D图形,也和真实环境一样有会扔火球的怪物,AI智能体要学着躲避这些火球。
更cool的是,这个梦境可以增加一些不愿定成分,比如说让火球飞得更没有规律。这样,梦中游戏就比真实环境更难。
在梦境中演习之后,AI就可以去真正的VizDoom中一试技艺了:
AI在VizDoom中的表现相称不错,在连续100次测试中跑过了1100帧,比150帧的基准得分赶过不少。
真是666啊……
怎么做到的?他们所用的方法,大略来说便是RNN和掌握器的结合。
这项研究把智能体分为两类模型:大型的天下模型和小型的掌握器模型,用这种办法来演习一个大型神经网络来办理强化学习问题。
详细来说,他们先演习一个大型的神经网络用无监督办法来学习智能体所在天下的模型,然后演习一个小型掌握器利用这个天下模型来学习如何办理任务。
这样,掌握器的演习算法只须要在很小的搜索空间中专注于信赖度分配问题,而大型的天下模型又保障了全体智能体的能力和表达性。
这里的天下模型包括两部分,一个视觉模型(V),用来将不雅观察到的高维信息编码成低维隐蔽向量;一个是影象RNN(M),用来借历史编码预测未来状态。掌握器(C)借助V和M的表征来选择好的行动。
在我们上面讲到的开车、打Doom实验中,视觉模型V用了一个VAE,变分自编码器;影象模型M用的是MDN-RNN,和谷歌大脑让你画简笔画的SketchRNN一样;掌握器C是一个大略的单层线性模型。
把这三个模型组装在一起,就形成了这项研究中智能体从感知到决策的全体流程:
视觉模型V卖力处理每个韶光步上对环境的原始不雅观察信息,然后将这些信息编码成隐蔽向量zt,和影象模型M在同一韶光步上的隐蔽状态ht串联起来,输入到掌握器C,然后C输出行为向量at。
然后,M根据当前的zt和at,来更新自己的隐蔽状态,天生下一步的ht+1。
这有什么用?让AI会“做梦”,还能在“梦境”中学习,实在有很多实际用场。
比如说在教AI打游戏的时候,如果直接在实际环境里演习,就要摧残浪费蹂躏很多打算资源来处理每一帧图像中的游戏状态,或者打算那些和游戏并没有太大关系的物理规则。用这个“做梦”的办法,就可以在AI自己抽象并预测出来的环境中,不消耗那么多打算资源,一遍又一各处演习它。
在这项研究中,他们还借助了神经科学的成果,紧张感知神经元最初出于抑制状态,在吸收到褒奖之后才会开释,也便是说神经网络紧张学习的是任务干系的特色。
将来,他们还打算给VAE加上非监督分割层,来提取更有用、可阐明性更好的特色表示。
干系链接论文:https://worldmodels.github.io/
解释:World Models是一个持续的研究项目,两位大牛说打算写一系列论文,这只是第一篇。他们还专门为这项目开了个GitHub账号,可以持续关注:https://github.com/worldmodels
其余,上面的Demo演示,基于p5.js和deeplearn.js构建。作者还感谢了来自Google Brain团队其他成员、distill.pub以及其他研究者的支持。
— 完 —
诚挚招聘
量子位正在招募编辑/,事情地点在北京中关村落。期待有才华、有激情亲切的同学加入我们!
干系细节,请在量子位"大众号(QbitAI)对话界面,回答“招聘”两个字。
量子位 QbitAI · 号签约作者
վ'ᴗ' ի 追踪AI技能和产品新动态
本文系作者个人观点,不代表本站立场,转载请注明出处!