《我的世界》：AI智能体的摇篮_智能_数据

2024-11-08 09:18:12 智能问答

斯坦福大学华人科学家吴恩达教授定义了AI Agent智能体的四个设计模式能力。

《我的世界》：AI智能体的摇篮_智能_数据智能问答

反思(Reflection)：LLM检讨自己的事情，并提出改进的方法。

工具利用(Tool use)：LLM利用Web搜索、代码实行或任何其他功能的工具，来帮助自己网络信息、采纳行动或处理数据。

方案(Planning)：LLM提出并实行实现目标的多步骤操持（比如一篇论文，首先写大纲，然后搜索和研究各部分内容，再写草稿）。

多智能体协作(Multi-agent collaboration)：多个AI agent协同事情，分工任务，谈论和辩论想法，提出比单个智能体更好的办理方案。

在商汤科技高等研发总监卢乐炜看来，智能驾驶系统便是一种“智能体”，AI智能体在繁芜的交通环境中，做的会频年夜模型更好。

例如智能驾驶大模型理解车辆与道路、专注于开车任务，而智能驾驶的智能体则面对天下繁芜场景有类似于人的更为通用的理解、行为，比如主动礼让救护车、小学生招手过马路时停车、阅读不同地区的指路牌。
未来的智能驾驶汽车是没有方向盘的，这就哀求汽车智能体能够应对所有突发情形。

在2024年初清华大学智能家当研究院发布的《个人大措辞模型智能体》论文中，设计了L1-L5级AI Agent智能等级[1]：

图：LLM根本大模型与Agent其他部分的关系图（信息来源：清华大学）

该报告中做了业内调研，得出一些AI Agent产品的设计结论：

Agent的根本能力：第一种能力是“高下文感知”，即从硬件、软件、多传感领悟感知环境、感知目标用户，例如当Agent感知我在图书馆，就会通过文本来和我互换；第二种能力是“任务实行”，基于代码、用户界面实行，采取Auto-GPT、LangChain等架构，并在实行任务后做基准评估、测试指标度量；第三种能力是“影象”，通过历史记录、内容推理获取影象，管理和利用永劫天下影象、短时事情影象，并基于原始数据和推理实现自我进化。
例如Agent根据交通位置和支付记录推理发现，我每天放工都勾留5分钟是为了买一束鲜花。

Agent云端一体支配：88%的人方向于本地与云端稠浊方案，仅有云侧支配会带来做事延迟高、个人数据保护等风险。

Agent的措辞理解能力第一：Agent做事年夜大好人类的条件是用户的意图识别，其次才是高下文学习、知识推理、长文本等能力。

Agent交互办法首选语音：相对付笔墨、图形界面、虚拟现实等办法，大多数人会方向于语音和Agent互换。

Agent的关键功能：数据管理和搜索、事情和生活助手、个性化做事推举、自主方案并完成任务、情绪支持和社交互动、数字分身，都是大众对Agent功能的日常需求。

二、中国AI智能体水平如何？

在2023年，商汤科技、清华大学、上海人工智能实验室等机构的研究职员，做了一个有趣的智能体实验。
用GITM智能体(Ghost in the Minecraft)在经典游戏《我的天下》中探险，完成了面向人类玩家100%的任务覆盖率，成功解锁262个物品的完全科技树。

与中国GITM的领先成绩不同，包括美国谷歌旗下DeepMind和OpenAI在内的所有智能体统共只能完成30%的游戏任务，而且其他智能体一共只解锁了78个物体。
尤其是在游戏中最难的任务“获取钻石”上，中国GITM智能体取得了67.5%的成功率，比之前的最佳成绩（OpenAI VPT）提高了47.5%。

图：智能体完成游戏任务成功率（信息来源：商汤科技）

演习一个智能体须要多少算力呢？

OpenAI VPT智能体须要6480个GPU天来完成演习，DeepMind DreamerV3智能体须要17个GPU天，而商汤科技和清华大学联合研发的GITM智能体进须要2个CPU天，演习效率呈现“指数级”提升。

图：演习《我的天下》智能体耗费的算力（信息来源：商汤科技）

如人类一样，GITM智能体在《我的天下》中白手起身，在单CPU上只通过2天就能节制生存技能，例如完成避难所、农田、铁傀儡等繁芜任务，并能够创造出自动扮装备所需的红石电路，培植进入下界所需的传送门等，这解释中国GITM智能体具有强大的学习能力和可扩展性，在仿真真实天下的陌生虚拟环境中能够永劫光生存发展，探索更加高等繁芜的天下环境。

传统模式采取强化学习架构，而GITM智能体采取大措辞模型作为核心[2]。
GITM的研发卖力人卢乐炜说，在我们走向通用人工智能AGI的路上，不仅须要一个智能体打游戏，更须要多个智能体分工协作，合营多个人共同完成任务，智能体底层模型的适应性、扩展性非常关键，大措辞模型学习“天下知识”，多模态大模型通过强化学习提升游戏、工业、驾驶等仿真环境中的感知能力、推理能力、决策能力、实行能力、改进能力。

环球AI Agent创新浪潮已经到来，2024-2026年会一代更比一代强。
有干系预测GPT-5的推理能力显著提升，可能采取了Q等强化学习技能。

用围棋举例，GPT-4像AlphaGo一样学习人类“棋谱”知识，以是一贯超不过人类的顶尖水平，而GPT-5像AlphaZero一样自我博弈“下棋”，就有较大胜算赢过柯洁等天下冠军，由于人类对自己思维的认识存在局限性、误区、盲区，在一些能力上抛开人类的履历智能体反而能得到长足的进展。

另一个值得把稳的科技浪潮是“具身智能”，2024年下半年OpenAI有可能将GPT-5和Figure01机器人相领悟；马斯克也很可能将大模型、擎天柱机器人“合体”，放入特斯拉超级工厂中提升人机协同的产能和效率。

以是，中国的多模态根本模型与机器人的领悟势在必行，而且须要以制造业为目标赛道，逐步构建起新质生产力的国际竞争力。

三、合成数据是AI智能体的“生命线”

在智能体研发中，须要极为重视合成数据。
目前Minecraft《我的天下》游戏已经成为高效强化学习的主要环境，对付研究开放天下智能体具有极为主要的意义，这里我们就能明白为什么OpenAI打造Sora文生***软件，由于Sora能天生高质量、非常逼真的《我的天下》***，把稳这里不是人类玩家的***，而是大模型直接天生，这就为OpenAI下一步研究智能体、具身智能机器人供应了无穷无尽的AI合成***数据。

图：合成数据类型（信息来源：Gartner）

Gartner在《为了合成数据的天生式人工智能》[3]报告中提出，环球97%的数据和AI领导者机构都面临真实数据的寻衅，并给出了采取合成数据的几点实践履历：

真实天下中的数据集存在访问难、错综繁芜、获取难，以是研发机构采取合成数据。

合成部分数据是最常见的方法，84%的机构合成文本数据，其次是合成图片(54%)、合成表格(53%)、合成***(28%)、合成音频(11%)，伴随音视比年夜模型的提升，会有更多***等多媒体数据合成出来。

环球AI领导者已经看到合成数据带来了模型准确性、演习效率的显著提高。

合成数据的大部分寻衅，来自于真实天下数据源存在偏见、低质量问题。

为了确保合成数据的高质量，65%的环球AI研发机构会从多个数据源、合成数据集交叉验证，堪称最佳实践。

图：为什么须要合成数据？（信息来源：Gartner）

我国的合成数据、仿真平台与智能体水平，决定新一代具身智能机器人的综合能力，与全民新质生产力、中国制造竞争力密切干系。

参考来源：

[1]《Personal LLM Agents: Insights and survery about the capability, efficiency and security》,清华大学智能家当研究院、小米、华为、Vivo、空想等合著，2024年1月

[2]《Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory》论文，商汤科技、清华大学、上海人工智能实验室等，2023年

[3]《Generative AI for Synthetic Data》，Gartner，2023年8月3日