在今年 5 月的谷歌年度 I/O 会议上,谷歌重点先容了其新推出的名为“Astra”的新人工智能体,用户可以利用音频和***与之交互。
此外,在谷歌之前,OpenAI 的新推出的 GPT-4o 模型也被称为人工智能体。

AI Agents 究竟是什么?_人工智能_智能 智能助手

这不仅仅是炒作(只管个中肯定也存在一些炒作的身分),科技公司正在投入巨额资金创建人工智能体,这些公司的研究事情可能会带来我们数十年来一贯所愿望的那种真正有用的人工智能。

包括奥特曼在内的许多业内人士表示,“人工智能体将会是下一个行业重点。
”但人工智能体是什么?我们该当如何利用它们?

如何定义“人工智能体”?

事实上,业界对人工智能体的研究还处于初期阶段,还没有对其进行明确的定义。
“大略地理解,它们实质上便是人工智能模型和算法,可以在动态天下中自主做出决策。
”英伟达高等研究科学家、人工智能体项目卖力人 Jim Fan 表示。

人工智能体的宏伟愿景是一个可以实行大量任务的系统,就好比是一个“人类助手”。
未来,它可以帮助你制订假期操持,记住你是否更喜好豪华酒店,并在四星级或四星级以上的酒店里预订个中的一家;然后,它还将建议最适宜你日程的航班,并根据你的喜好方案行程;它可以根据旅行操持和蔼象预报列出须要携带的个人物品清单;它乃至可能把你的行程安排发送给你的好朋友并约请他们一起旅行;而在事情中,它可以剖析你的待办事项列表并实行任务,例如发送会议约请、备忘录以及电子邮件等。

“多模态”是人工智能体的主要愿景之一,这意味着它们可以处理措辞、音频和***等。
例如,在谷歌的演示中,用户可以用智好手机摄像头对准各种物体并向 Astra 提问,人工智能体可以对文本、音频以及***输入做出回应。

“这些人工智能体还可以使企业和公共组织的流程更加顺畅。
”伦敦大学学院人工智能中央主任 David Barber 表示。

比如,人工智能体可能能够充当更繁芜的客户做事机器人。
当前基于措辞模型的助手只能天生句子中下一个可能的单词并组成句子,而人工智能体将有能力自主处理自然措辞命令,并且在没有监督的情形下处理客户做事任务。
再比如,人工智能体将能够剖析客户的投诉电子邮件,然后知道如何检讨客户的单号,访问客户关系管理和交付系统等数据库,以查看投诉是否合法,并根据公司的政策进行处理。

“广义上讲,有两类不同的人工智能体:软件智能体(Software Agents)和具身智能体(Embodied Agents)。
”Jim Fan 说道,“软件智能体在电脑或手机上运行并利用运用程序,这些智能体对办公室事情、发送电子邮件或完成这一系列活动非常有用。

具身智能体是位于 3D 天下(比如电脑游戏中)或机器人中的智能体。
具身智能体可以让人们与人工智能掌握的非玩家角色一起互动,从而使电子游戏更具吸引力。
这类智能体还可以帮助构建更有用的机器人,帮助人们完成家里的日常任务,如叠衣服和做饭等。

Jim Fan 所在的团队在一个名为“Minecraft”的电脑游戏中构建了一个人工智能体(MineDojo)。
该人工智能体利用从互联网上网络的大量数据能够学习新的技能和任务,能够在虚拟的 3D 天下中进行自由探索,并完成一系列繁芜的任务,比如用栅栏围住骆驼,或是将熔岩铲到桶里。
毕竟,电脑游戏能够对真实天下进行仿照,须要让智能体理解物理、推理和知识等。

普林斯顿大学的研究职员在一篇尚未经由同行评审的新论文中表示,人工智能体每每具有三种不同的特色:如果人工智能系统能够在繁芜的环境中不受辅导地追求困难的目标,那么它们就被认为是智能体;或者能在没有监督的情形下接管自然措辞的辅导并自主行动,它们也称得上是智能体;末了,“智能体”一词也适用于能够利用网络搜索或编程等工具,以及能够进行方案的系统。

人工智能体并非新鲜事物

华盛顿大学打算机科学教授 Chirag Shah 表示,“人工智能体”一词实在已经存在了很多年,但是其在不同的韶光意味着不同的东西。

“已经涌现了两波人工智能体热潮,眼下的这一波热潮紧张归功于措辞模型的繁荣和 ChatGPT 的兴起。
”Jim Fan 指出,“上一波热潮是在 2016 年,当时谷歌 DeepMind 推出了 AlphaGo,这是一个强大的围棋人工智能系统,能够做出决策并制订计策。
AlphaGo 紧张依赖于强化学习,这是一种褒奖人工智能算法做出空想行为的技能。

谷歌 DeepMind 研究副总裁 Oriol Vinyals 表示,“但这些人工智能体太过于‘专一’,换句话说,这些智能体只是为完成某种特地任务而创建的,比如 AlphaGo 就只是会下围棋。
相较之下,新一代基于根本模型的人工智能使智能体更加普遍,由于它们可以从人类互动的天下中进行学习。

“你会以为这个模型是在与天下互动,然后给你更好的答案或更好的赞助等等。
”Oriol Vinyals 说。

来源:MIT Technology Review

当前还存在哪些限定?

然而现阶段仍有许多悬而未决的问题须要回答。
人工智能初创公司 Imbue 的首席实行官兼创始人邱侃君致力于开拓能够推理和编码的智能体,她将目前智能体的现状与十多年前的自动驾驶汽车比较较。
在她看来目前的人工智能体虽然可以完成一些事情,但它们并不可靠,而且仍旧没有真正的自主性。

邱侃君说,“举个例子,编码智能体可以天生代码,但有时会出错,而且它也不知道如何测试正在创建的代码。
因此,人类仍旧须要参与到这一过程中。
人工智能系统仍旧无法完备实现推理,这是在繁芜且模糊的人类天下中运行的关键一步。

Jim Fan 则表示:“我们还远远没有一个可以为我们自动化所有这些家务的智能体。
目前的系统可能会产生幻觉,而且它们也不总是严格遵照指令,显然这就很麻烦了。

除此之外还有一个限定,人工智能体在一段韶光后可能会完备忘却它们的事情内容,要知道,人工智能系统受到其高下文窗口的限定,这意味着它们能够思考的数据量是有限的。

“ChatGPT 可以敲写代码,但不能很好地处理较长的内容。
但对付人类开拓职员来说要查阅的是全体 GitHub 代码库,个中有几十行乃至数百行代码,显然,这对付人类而言完备没有任何压力。
”Jim Fan 说。

为理解决这个限定,谷歌提高了其模型处理数据的能力,这使得用户可以与他们进行更长的互动,从而更多地记住过去的互动内容。
谷歌声称正在努力使其高下文窗口在未来能够变得无限多。

对付像机器人这样的具身智能体来说,局限性就更多了。
研究职员还没有足够的演习数据来演习它们,刚刚才开始利用机器人根本模型的力量。

因此,在当下所有的炒作和愉快中,须要把稳的是,人类对人工智能体的研究仍处于早期阶段,我们可能须要花费数年的韶光才能充分体验它们的潜力。

现在可以体验人工智能体吗?

实际上,从某种程度来说,你很可能已经体验过它们的早期原型,比如 OpenAI 的 ChatGPT 和 GPT-4。
“如果你正在与觉得很智能的软件进行交互,那它实在便是一种智能体。
”邱侃君说。

“就目前而言,我们所拥有的最好的智能体都是专一的、具有特定用场的系统,比如编码助理、客户做事机器人或 Zapier 等事情流自动化软件等等,这些与能够完成繁芜任务的通用型人工智能体比较,还差得很远。
”她补充说。

她表示:“本日我们有了这些打算机,它们真的很强大,但我们必须对它们进行‘微不雅观管理’。

“比如,OpenAI 的 ChatGPT 插件许可儿们为网络浏览器创建人工智能助手,这是对智能体的一次考试测验,但这些系统仍旧笨拙、不可靠,而且无法推理。
”邱侃君说。

只管如此,邱侃君认为,这些系统总有一天会改变人类与技能互动的办法,这是人们须要关注的趋势。

“这并不是说,我们溘然之间有了通用型人工智能体,而是说,我的电脑比五年前能做更多事情。
”她表示。

原文链接:

1.https://www.technologyreview.com/2024/07/05/1094711/what-are-ai-agents/