英伟达专家分享AI Agent最新开拓经验!(专业长文建议收藏)_机械人_技巧
直播中,王煜全见告大家,GTC2024共用1010场开拓者、专家分享,有非常多前沿动态值得关注。
本日,创新舆图的小伙伴就为大家带来Jim Fan 英伟达研究经理的最新分享,以及现场问答。
Jim Fan的研究领域涵盖AI根本模型、策略学习、机器人技能、多模型学习和大规模系统,目前关注AI最前沿的AI Agent开拓。
以下是整理后的内容实录,如果你想理解更多科技家当前沿趋势,欢迎点击文首入口,加入前哨科技特训营。
Jim Fan演讲内容
我来跟大家分享一个2016年春天上课的故事。
我那时并没专心听课,反而在看一个棋类游戏的比赛。这不但是一场比赛,它很特殊。比赛是DeepMind AlphaGo对战AI,AI赢了五场中的三场,成为第一个击败人类冠军的AI。
我仍旧记得当时兴奋的觉得,第一次看到AI Agent降服人类,展示出了技能无限的可能,但很快我意识到AlphaGo只能下棋,它不能玩其他游戏,也不能洗衣服。
我们想要的是像《星球大战》中的机器人那样多才多艺的AI Agent。要达到这个目标,我们须要关注技能数量、掌握力和实际情形。
我一贯在思考如何实现这个目标。今年早些时候,在老黄的支持下我创建了Gear实验室,接管研发通用人工智能的寻衅。
站在本日,要研发通用人工智能须要什么呢?
首先,须要能够开放编辑的环境。
Agent的繁芜性由环境决定,地球的多样性使得自然蜕变能够产生多种行为,开拓聪明的智能体也是如此。
如果我们有一个仿照器,它基本上是一个简化的地球,我们可以在它上面运行,为Agent供应大量的预先演习的数据。这些数据只是一个关于如何干事的参考手册。末了,我们须要一个可以处理这些大数据的模型。
这个想法导致我们选择了Minecraft,一个非常受欢迎的***游戏。
对付不熟习的人,Minecraft是一个由3D方块天生的天下,你可以在里面做任何你想做的事情。Minecraft的特点是没有明确的目标,这使得它非常适宜作为一个开放的仿照器。
在Minecraft中,我们看到了很多令人印象深刻的创作,比如有人建造了霍格沃茨城堡的模型,还有人建造了一个有功能的大型神经网络。
Minecraft有1.4亿用户,这是英国人口的两倍多。这些生动的游戏玩家产生了大量的数据。
问题是,我们如何利用这些数据?这便是我们利用Mine Dojo的缘故原由,它是一个新的框架,帮助开拓者利用Minecraft开拓AI Agent。Mine Dojo包括一个仿照器和一个数据库,并供应了一些API,可以帮助我们解锁游戏的潜力,完成很多自定义事情。
,时长00:09
其次,要有演习Agent的数据。
我们想让一个机器人建造屋子,必须先回答什么是屋子,建造屋子该怎么做?大略的措辞规则中很难定义。
我们最开始想到的便是用互联网知识演习根本模型,让AI Agent能理解并利用这些知识。
这很困难,由于我们的数据库包括***、Minecraft的页面和子论坛。我们网络了很多Minecraft的***和页面,感谢玩家们很热衷于谈论各种游戏的细节,让我们得到足够多的数据。
现在我们要开始演习了。
第一步很大略。我们考试测验对YouTube的***剪辑进行对齐,把那些教授人类玩家的教程***变成可以用来演习AI的数据。
然后我们可以通过一个叫做“压缩学习”的过程来演习,基本上便是把***和笔墨压缩在一起,让AI学会各种操作的关系
开拓中我们喜好称这个过程为通过人类反馈来加强学习,实质便是用玩家分享的***教会Agent该怎么做,终极Agent在Minecraft里走路这件事做得比AlphaGo好。
但这里仍旧有个问题,我们必须手动设置每个任务的目标,一个技能一个技能演习AI,每个技能都必须有教程才行,能不能让AI自己学会新的技能?
于是我们用上GPT4,通过它的编程和方案能力,Agent可以无休止地玩游戏,一个名为Voyager的Agent就一贯在游戏中,穿越地形,和怪物战斗,制作各种配方。
,时长01:07
我们是如何实现的呢?多亏了一个叫Flare的开源Minecraft模组,Voyage利用GPT4天生javascript代码,积累技能,进行各种操作。
就像人类工程师一样,AI编码总会有Bug,以是我们开拓了一个自我反省的系统来帮助它优化。
自我反省关注三个方面:javascript程序缺点,Agent的身体状态和环境状态。
Agent会采纳的行动,如果代码成功实行,就会不雅观察天下和自己的变革,思考如何能做得更好,考试测验更多的行动,然后重复这个过程。
对人类而言当技能成熟,它就会被存储在影象中。你可以把影象看作是通过试错编写的代码库,Agent也一样,以是它碰着相似情形,可以从库中查找技能,然后办理问题。
让我们来看看一个例子,Agent的饥饿条低落得很厉害,以是它须要找到食品。
它开始思考,种子怎么样?我可以种一片农场。但这会花费太永劫光。以是,很抱歉,它打开代码库,找一个旧技能来制作铁剑,然后开始学习一个新技能,叫做佃猎。
没有了生存需求,Voyager是如何保持兴趣的呢?我们可以给Voyager一个高等的直接指令,那便是尽可能获取新奇的物品,在GPT4的驱动下,Voyager能够不断创造新技能。
我们没有预先设定其他的要素,Agent由于好奇一贯在探索,获取尽可能多的新奇物品,学会新技能。
Agent已经在虚拟天下中学会了很多技能,那下一步它能不能利用到现实中呢?
这就须要办理人工智能和机器人的跨学科问题,以是我们创建了一个模型metamorph,让它编写机器人的电机掌握,由于我们想让AI拥有适配不同机器人的通用策略。
采取与Minecraft中相同的演习策略,我们为AI大模型设定了一个目标,并让它自己判断是否成功,仅仅通过***数据就演习不同的虚拟机器人完成繁芜的任务,成功地进行物理仿照,速率等到时演习快1000倍,一个虚拟环境中的AI机器人只用三天的仿照完成了十年的演习,学会了令人印象深刻的武术技能。
这统统都可以在英伟达的Isaac Sim中完成。
接下来,我为大家展示Euraka实验项目。
开拓机器手的操作,常日须要人类工程师反复调度,花费很多韶光,只有非常熟习的工程师才能完成。
现在有了基于AI大模型的褒奖机制,就可以演习Eureka主动得到褒奖,并自动反馈结果,强化学习。
Eureka还会自己设定目标,能找到比专家更好的褒奖标准来演习机器手旋转笔。
我希望Eureka的下一代将成为一个完备自动化的平台,以演习更好的Agent并进行迭代。我的梦想是有一天我可以悄悄过一个长假,Eureka自己连续事情,并向我报告进度。
不过这事不能让老黄知道。
,时长00:24
我相信演习都是相似的,所有的措辞任务,无论是表达文本还是打算税收,都可以通过ChatGPT接管收入,并输出行动完成。
昨天,老黄发布了英伟达的人型机器人操持,我们的任务便是创建一个AI大模型驱动的机器人,并让它看起来像人。
为什么要让它看起来像人呢?由于人的形态是最常见的。我们生活的天下是为人类设计的,以是我们能做的事情,一个前辈的机器人理论上也能做。
我很高兴能和一群领先的人一起事情,让AI大模型能够学会各种技能,并转移到真实的天下里。
我相信,在我们的未来,所有能动的东西都会动,就像在《机器人总动员》《星球大战》和《头号玩家》中看到的那样,这便是我们的目标,把通用人工智能带到开放的天下中。
欢迎大家加入我们的旅程。
现场问答
提问人1:很感谢Jim。我对接下来的事情感到愉快。我很好奇你怎么看这两条开拓路线,用GPT-4学会所有的技能操作游戏中的AI Agent,或者像你说的用GPT-4进行强化学习,教会另一个AI完成任务。你以为哪种方法更有效,或者可能是它们的结合?Jim:我以为这是个好问题。
Jim Fan:人脑中系统1是快速反应,而系统2是缓慢的高等推理。你的大脑有慢速部分,比如设定褒奖目标,检讨问题,也有快速部分进行自动化掌握。
利用GPT4的问题在于总要输出笔墨进行掌握,这永久会有一个延迟,以是我认为两条路线会有差异。
提问人2:我的问题是Nvidia的Gear实验室目的是什么?你们只是做研究,还是打算生产一个高等办理方案给机器人公司?
Jim Fan:这是一个很好的问题,我认为Gear的定位便是义务驱动。
从根本上说我们还是一个研究实验室,并不是方案供应商,一个紧张缘故原由是现在并没有成熟的机器人硬件标准。
天下上没有人真正知道如何开拓机器人,这便是为什么对付机器人行业仿照很主要的缘故原由,须要通过仿照来确定有用的机器人是什么样。
就像现在的人形机器人,大家都期待家里有一个可以做所有脏活的人形机器人。
要实现它,须要确保机器人能事情,然后要能大规模支配,还要有AI模型供应智能,这统统都还没有准备好,以是朝着这个愿景进发更像是义务驱动。
提问人3:现在很多人都担心AI对现有职业和教诲的冲击,请你分享一放学生和教诲体系该做些什么呢?
Jim Fan:现在AI的一个好处是学习门槛已经大大降落。任何中学生都可以注册一个账户,然后开始利用AI,开拓AI Agent。
他们乃至可以在不用费太多资金的情形下,复制前面提到的Voyager,代码是开源的。
现在的AI门槛已经降落到,高中生不会代码也能参与,以是我希望年轻人能从中学开始就利用AI大模型,做一些API开拓。
本文系作者个人观点,不代表本站立场,转载请注明出处!