虽然视觉很主要,但在日常任务中,声音实际上更有用,比如通过洋葱在炉子上嘶嘶作响的声音,来判断锅的温度是否得当。

斯坦福建立AI音频数据收集系统能让机械人判断杯中是否有骰子_机械人_音频 科技快讯

然而,用声音演习机器人只在高度受控的实验室环境中进行,而且这些技能掉队于其他快速机器人演习方法。

美国斯坦福大学机器人与人工智能实验室的研究职员正动手改变这一现状。
他们首先建立了一个网络音频数据的系统,包括一个 GoPro 相机和一个带麦克风的夹持器。
该麦克风可以过滤环境噪声。

人类演示者会带着设备完成各种家庭任务,然后利用这些数据教机器臂如何独自实行任务。

该团队的新演习算法帮助机器人从音频旗子暗记中网络线索,以更有效地实行任务。

“到目前为止,机器人一贯在无声的***上演习。
”斯坦福大学博士生、该研究的紧张作者 Zeyi Liu 说,“但音频中有很多有用的数据。

为了测试如果机器人能够“听见”,以及它能取得更好的成绩,研究职员选择了四项任务:在平底锅里翻转百吉饼、擦白板、把两条尼龙条粘在一起、以及从杯子里倒出骰子。

在每项任务中,声音都会供应摄像头或触觉传感器难以处理的线索,比如知道橡皮擦是否精确打仗到白板,或者杯子里是否有骰子。

在对每项任务进行几百次演示后,研究小组比较了利用音频演习和仅利用视觉演习的成功率。
干系论文揭橥在一个未经同行评审的预印本网站上。

当在骰子测试中单独利用视觉时,机器人可以在 27% 的韶光里准确判断杯子里是否有骰子,但当包括声音时,这一数字上升到了 94%。

(来源:ZEYI LIU ET AL)

这项研究的实验室卖力人 Shuran Song 表示,这不是第一次将音频用于演习机器人,但这是朝着大规模演习迈出的一大步:“我们正在让从‘真实天下’网络的音频更随意马虎利用,而不是局限于在实验室网络,由于这更耗时。

这项研究表明,在用人工智能演习机器人的竞赛中,音频可能会成为更受欢迎的数据源。

通过利用模拟学习的方法,研究职员演习机器人的速率比以往任何时候都快。

他们向机器人展示了数百个正在进行中的任务的示例,而不是人工编码每个任务。

如果可以利用研究中的设备大规模网络音频,这将给机器人一种全新的“觉得”,帮助它们更快地适应能见度有限或看不见的环境。

美国密歇根大学机器人学副教授德米特里·贝伦森(Dmitry Berenson)没有参与这项研究,他说:“可以肯定地说,音频是(机器人)感知研究中最缺失落的地方。

这是由于演习机器人操纵物体的大部分研究都是针对工业分拣和放置任务,比如将物体分类到垃圾箱中。

这些任务并不会从声音中得到太多代价,而是更依赖于触觉或视觉传感器。

但贝伦森说,随着机器人的运用范围扩展到家庭、厨房和其他环境中,音频将变得越来越有用。

假设一个机器人试图找到哪个包或口袋里有一串钥匙,但可见性有限。
贝伦森说:“在你摸到钥匙之前,你就能听到它们碰撞的声音。
这表明钥匙就在那个口袋里,而不是其他的。

只管如此,音频仍然具有局限性。
该团队指出,声音对衣服等质地优柔或灵巧的物体没有那么有用,由于它们不会发出那么多可用的(故意义的)声音。

机器人在实行任务时也很难过滤掉自己发出的噪音,由于人类产生的演习数据中不存在这种噪音。

为理解决这个问题,研究职员须要将机器人的“声音”和致动器噪音添加到演习集中,这样机器人就可以学会将它们过滤掉。

Liu 说,下一步是看看这些模型是否能用更多的数据得到多好的结果。
这可能意味着增加更多的麦克风来网络空间音频,并将麦克风集成到其他类型的数据网络设备中。

支持:Ren

运营/排版:何晨龙