李飞飞团队：若何制造更聪明的人工智能？让人工生命进化_性命_形态

2024-11-09 00:33:31 云服务

研究领域：人工生命，进化算法，具身认知

李飞飞团队：若何制造更聪明的人工智能？让人工生命进化_性命_形态云服务

论文题目：

Embodied intelligence via learning and evolution

论文链接：

https://www.nature.com/articles/s41467-021-25874-z

1. 智能和身体形态有关

动物能够完成适宜其物理形态的特界说务，这被称为具身智能（ embodied smarts）。
每个动物的智力在与环境相互浸染的过程中，都是与其物理形态协同进化的。
因此，蜘蛛用它们苗条的腿编织网，海狸拍打它们宽阔的尾巴发出警报，猎豹飞快地跑去抓斑马，而人类有手指去抓握工具。

虽然人工智能也很聪明，但它的聪慧与动物不同。
人工智能常日是无实体的，如自然措辞处理等机器学习，常日是在打算机内部的硅基芯片上完成的，在真实天下中没有物理实体。
虽然打算机视觉须要摄像机或传感器，但它常日独立于任何物理形态。

斯坦福大学李飞飞等研究职员想知道：物理形态对智力的进化有影响吗？如果是这样的话，打算机科学家该当如何利用物理形态来创造更聪明的人工智能呢？

为了回答这些问题，它们创建了一个打算机仿照的游乐场。
在那里，被称为“ unimals”的节肢动物主体可以在突变和自然选择的约束下学习。
随后，研究职员开始不雅观察unimals的虚拟身体是如何影响其智力进化的。

研究创造，虚拟生命的身体形态影响了它们学习新任务的能力。
在更具寻衅性的环境中或在实行更繁芜的任务时进化出的生命形态，比那些在大略环境中进化出的生命形态，能够更快更好地学习。
在这项研究中，具有最成功形态特色的人工生命，比较其前几代先人能更快地完成任务ーー只管它们在学习开始时的智力水平与其前几代先人相同。

图1.研究中创建的 Unimal，即通用动物（universal animal），能通过进化产生胳膊，以在仿照环境中生存下来。

2. 人工生命的角斗场

在仿照中，研究者不仅改变了人工生命的身体形态，还改变了它们的演习环境和实行的任务，使得实验的繁芜度远高于之前的同类研究。
通过锦标赛式的达尔文进化方案，该仿照能够确保每一种人工生命的形态都不会被一票反对，就算在不利的环境下依然有机会将形态通报给下一代。
该方法既保持了种群的多样性，又降落了仿真的打算量。

图2.

深度进化强化学习框架（Deep Evolutionary Reinforcement Learning），绿框标出的强化学习发生在个体层面，而红框的突变改变身体形态，是该框架中进化算法的表示。

每次仿照开始于576个独特的人工生命，包括一个“球体”（头部）和一个由不同数量的圆柱形节肢以不同办法排列而成的“身体”。
每个人工生命都以相同的办法感知天下，并以相同的神经构造和学习算法开始仿照。
换句话说，所有的人工生命在开始它们的虚拟生活时，都拥有相同程度的聪慧，只是身体形状不同。

图3. 人工生命所须要经历的各种环境

然后，每一个人工生命都要经由一个学习阶段。
在这个阶段中，它要么穿越平坦的地形，要么穿越包括块状山脊、阶梯和平滑山丘等更具寻衅性的地形。
还有一些人工生命必须移动箱子到目标位置，才可以超过繁芜的地形。

图4. 人工生命分别通过平坦、须要绕障和须要将箱子推至指定位置的环境。

演习结束后，每个人工生命与其它三个在相同的环境/任务组合下演习的人工生命参加锦标赛，得胜者能够产生后代。
后代在面临与其父母相同的任务之前，经历了四肢或枢纽关头的眇小突变。
所有的人工生命（包括得胜者）都参加了多项锦标赛，只有当新的后代涌现时才会开始朽迈。

3. 身体进化，使得习得有利的行为更快

在每个环境完成三次进化迭代（每次迭代产生4000种形态）后，幸存下来的人工生命均匀经历了10代的进化，其形态十分多样，包括两足动物、三足动物以及有或没有手臂的四足动物（见图5）。

图5. 在平坦（a）、须要绕障（b）和须要将箱子推至指定位置（c）的三种环境下，进化得出的最佳形态十分多样

研究职员从每个环境中挑选出了10种表现最好的人工生命，并从头开始演习它们完成绕过障碍物、推球或者把箱子推上斜坡等全新的八个任务（见图6）。

图6. 人工生命须要完成的8种新任务，包括巡逻、越障、探索和逃离等。

结果是：在须要绕障的环境中进化的人工生命，比在平坦环境中进化的人工生命表现更好，而当在须要将箱子推至指定位置的环境下进化出的人工生命表现最好。
表现好的人工生命，无论是单独学习（通过较少的演习得到更好的表现）还是跨代学习都更快。
事实上，经由10代进化后，表现好的人工生命已经十分适应环境，以至于它们学习相同任务的韶光只须要它们最早先人的一半。

图7.

（a）在三种环境下，使种群中表现前100名的主体适应度达到种群初始值的75%所需的均匀迭代次数（纵轴）；（b）三种环境中稳定形态的比例，该值在平坦、需绕障和须要推箱子至指定位置的环境中依次增加，解释繁芜的环境对稳定性的选择压较高；（c）均匀事情本钱（纵轴）随进化代数（横轴）的变革；（d）在平坦环境下，不同代人工生命的学习曲线，表明后代不仅表现好，而且学习的更快。

这与19世纪美国生理学家鲍德温（Baldwin）提出的一个假说是同等的，他推测在进化的早期，先人习得的行为将逐渐成为本能，乃至可能在后代中遗传。
鲍德温效应指出：学习适应性上风的能力，可以通过达尔文的自然选择遗传给后代，即“大自然选择的身体形态变革，使得后代能更快学习有利的行为。
例如，如果一种动物在生命早期不能学会走路，可能更随意马虎去世亡，从而对基因型产生直接的选择压力，选出能更快学会走路的动物。
该效应描述的从表型到基因型的能力转移，可能为习得更繁芜的行为（如措辞能力及模拟能力）腾出学习资源。

4. 总结：制造更聪明的人工智能

该研究在人工生命的蜕变中结合进化算法和强化学习，论证了以下三点：首先，环境的繁芜性能够促进具身智能的进化，从而使后代形态有助于学习新的任务。
其次，人工生命的仿照重现了鲍德温效应，进化能够将早期先人学会的有利行为表达在后代的基因中。
第三，学习效率和物理形态有关，某些形态更加稳定，事情效率更高，因此可以促进学习和掌握。

一贯以来，设计在繁芜环境下完成任务的机器人都是一个难题。
然而，真实天下须要机器人的场景每每又都是繁芜的，比如爬过核反应堆提取核废物，在人体血管中穿行运送药物，在地震后的废墟中征采生命等。
大概办理这一问题的唯一道路是通过进化来设计机器人。
通过让人工生命在日益繁芜的仿照环境中进化，帮助开拓现实天下实行繁芜任务的机器人，增强其泛化能力和稳定性。

郭瑞东 | 作者

张澳 | 审校

邓一雪 | 编辑

商务互助及投稿转载｜swarma@swarma.org◆ ◆ ◆

搜索公众年夜众号：集智俱乐部

加入“没有围墙的研究所”

让苹果砸得更剧烈些吧!