具身智能计算系统机械人时代的 Android | 新轨范员_机械人_智能
本文深度阐发了具身智能打算系统在当今社会经济转型中的核心角色,环绕自主经济的内涵、具身智能的理念及其打算系统的寻衅与发展进行了深入阐述,展现了具身智能如何通过提升机器人对物理天下的感知、理解和决策能力,进而重塑未来的经济构造和社会生活。
具身智能打算系统的内核为不同形态的机器人供应了感知、认知和行动的根本能力,还许可开拓者在此根本上构建更加繁芜和多样化的机器人运用。通过这样的系统,机器人能够更好地理解和互动于其所处的物理天下中,从而实现更加自然和高效的做事与协作。总而言之,具身智能打算系统的内核驱动了多样化机器人运用生态的发展,而具身智能打算运用生态进一步促进了自主经济的爆发。
自主经济是什么
自主经济(the Autonomy Economy)标志着社会转型的新阶段,紧张由各式机器人(比如自动驾驶汽车、配送机器人和无人机)与商品及做事的领悟驱动。这场经济变革的核心在于机器人打算 (Autonomous Machine Computing),即为这些多样化机器人供应支持的关键打算技能[1]。
自主机器的涌现预示着数字经济模式的演化[2]。这些机器最开始只用于大略的机器人技能和工业运用,现在却已经深入我们的日常生活,发布着自主经济时期的到来。举例来说,中国的一些酒店已经投入利用送餐机器人,将所需物品送至住客的房间。而在订购食品和生活用品投递上,某些城市已经涌现了机器人将餐食或商品直接送至用户家门口的景象。在家庭环境中,机器人吸尘器更是成了家庭常备电器。
AIGC 天生图片
为了赋能自主经济的大爆发,当前我们的主要事情在于设计并实现前辈的具身智能打算系统,为不同形态的机器人供应脑力,类似于移动互联网时期 Android 系统对多种移动设备的赋能。正如智好手机时期 Android 系统重塑市场软件生态一样,对具身智能机器人软硬件系统的研究与开拓,将引领机器人领域的重大变革,也将为机器人时期开启新的篇章。
具身智能是什么?
具身智能(Embodied AI)是一种全新的人工智能理念,它差异于传统人工智能的不雅观念,主见智能的产生不仅依赖算法和算力,还须要通过与实际天下的互动来实现。这意味着,智能体(例如机器人)须要具备感知环境、实行物理操作和与环境互动的能力,以便更全面地理解和节制天下知识。
同样的一套具身智能系统可以赋能不同的机器人形态,使它们能够直接与周围环境互动和感知的智能形式。这种智能不仅涉及到算法和数据处理,还包括对物理天下的理解和操作。具身智能打算系统的技能寻衅紧张包括如何使机器人能够准确地感知环境、理解繁芜的人类指令以及在多变的环境中自主作出决策和实行任务。此外,如何优化机器人的能量效率、处理速率和安全性也是主要的技能寻衅。
具身智能研究超过了机器人学、人工智能、认知科学及神经科学等多个学科,旨在深化对智能实质的理解。具身智能的寻衅在于如何构建高度适应性的感知和决策系统,使机器人能够准确理解和预测物理天下的繁芜动态,并确保机器人能以自然有效的办法与人类及其他智能体交互。办理这些寻衅有望将智能机器人运用推向家庭、工业、医疗和探索等多个领域,促进人机交互的自然化和任务实行的效率化。
历史启迪——良性循环以及生态的主要性
机器人打算成为自主经济转型的关键,继个人打算与移动打算之后,它成为了机器人时期不可或缺的技能核心[3, 4]。机器人打算支撑着从智能汽车、自主无人机、配送机器人、家用做事机器人到农业、工业机器人等多种形态的机器人,乃至包括我们还未能想象到的机器人类型。它涵盖了传感技能、打算技能、通信技能、自主掌握算法、可靠性和安全性等多个技能领域,至今仍在持续发展与蜕变中。
历史上的先例明确展示了机器人打算对自主经济发展的主要性。例如,个人打算和移动打算领域的市场规模及其对应的打算系统市场之间的干系性,展示了移动系统市场 351 亿美元的代价与移动打算生态系统 8000 亿美元市场规模之间、个人打算系统 550 亿美元的市场代价与其生态系统 9000 亿美元代价之间的显著差异(拜会图 1)。这表明,随着打算时期的演进,打算系统行业在造就出其市场规模 15 到 25 倍的生态系统方面扮演着至关主要的角色。
这些洞察力揭示了半导体行业作为当代经济基石的事实。随着机器人打算等新兴领域的发展,打算系统行业推动了技能创新和关键技能的发展,这些技能进步又反过来促进了新兴领域的发展,形成了一个相互增强的发展循环。这一良性循环突显了打算系统行业在推动未来经济关键行业增长中的核心浸染,尤其是在新兴的自主经济中。
如图 2 所示,在生态系统增长中,算力分配扮演了决定性角色,特殊是在移动打算行业的演化中尤为明显。21 世纪初期,以功能手机为主流的移动电话虽广泛遍及,但功能受限,90% 的打算力被用于实行编解码等根本通讯任务。运用程序可用的打算力不敷 10%,这极大限定了运用多样性,使得移动打算生态系统的市场规模仅约 100 亿美元。
智好手机的兴起改变了这一格局,引发了市场对更高打算能力的需求,以适应和支持日益增多且繁芜度不断提升的移动运用。这种需求催生了从根本的单芯片系统到繁芜的片上系统(SoC)的进化,这些系统集成了多核心 CPU、移动 GPU、移动 DSP 以及前辈的电源管理系统。技能的这一飞跃使得高达 90% 的打算能力能够支持 YouTube、WhatsApp、Uber 等运用,将移动打算生态系统的市场规模扩展至现今的 8,000 亿美元。这一发展轨迹凸显了打算系统技能进步的革命性影响。通过支持更多样化的运用,这些技能不仅增强了现有市场,还开辟了新的生态系统,使得市场规模达到了打算系统行业代价的多倍。
目前,家庭扫地机器人、做事机器人和无人驾驶车辆的打算系统,通过环境感知、自身定位和建图、决策、路径方案和掌握软件已实现了自主移动等功能。图 3 展示了一种具身机器人系统,其与传统机器人打算类似,也须要舆图、决策掌握、导航和运动掌握等模块。
那么,比较于传统的机器人打算系统,具身智能打算系统的核心不同之处是什么,它为什么可以直接吸收人类的笔墨指令表示的任务,并在不须要提前为任务编程的情形下进行灵巧和自主的决策?我们认为,构建具身智能打算的关键在于打造能够领悟多模态信息的天下模型,以及能够承载此类多模态模型与具身软件的实时高效的打算系统。
多模态的天下模型:天下模型是赋能具身智能的最关键软件。
按照 M. Mitchell 等人在《科学》杂志的表述[5],天下模型“构建针对物理天下和社会天下的抽象模型,并反响事宜发生的缘故原由而非仅仅是事宜之间的干系性”。借助天下模型,机器人将能够理解物理天下和人类社会的运行机制,并据此产生自主、灵巧、可信、有益的决策。
DeepMind 的 RT 系列模型[6]是构建天下模型的一次初步考试测验:通过多模态大模型处理自然措辞和视觉图像,机器人能够将命令中的信息与物理天下的物体关联,还能命令拆分成多个子任务,并逐个实行。
实时高效的打算系统:在一定本钱范围内,能够高效、实时地完成传感、打算和掌握任务的打算系统是具身智能机器人大规模运用的关键。
比较于传统机器人打算系统,多模态大模型等软件对打算平台的算力、存储和通信的需求成倍增加,具身智能打算平台的设计充满寻衅。目前具身机器人研究中常用的打算架构是在云端或边缘做事器端运行多模态大模型,在机器人端运行传感和掌握实行等任务。这类方案仍处于实验室演示阶段,仍须要大量的系统方面的研究和优化,才能实现规模化的支配。
在具身智能打算系统的根本上,多模态大模型支持的智能体智能(Agent AI)是具身智能运用生态的关键技能[7]。 这些具身智能 APP 将成为我们日常生活中无处不在的存在。
具身智能打算系统利用现有的根本模型(Foundation Model)作为创建 APP 的基本构件。将 APP 嵌入到具身智能打算系统中有助于提高机器人本体处理、理解天下信息,以及与天下互动的能力。例如,一个能够感知用户行为、人类行为、环境物体、音频表达和场景的集体感情的 APP,可赋能机器人本体作为人类的陪伴机器人。如果说工具是人类智能的延申,那么智能体便是人工智能的延申。而人工智能本身便是人类的工具,因此智能体智能的发展将为人类供应有史以来最强大的智能工具。
为了推进具身智能 APP 的研究与运用,我们在智能体的智能方向开展了多项研究,成功开拓了三类智能体(框架)。这些智能体将为机器人供应更强大的感知、学习、决策和行动能力,推动机器人技能与行业需求的深度领悟。
方案智能体 AIRS-Bot(见图 4)。借助多模态大模型能力,该智能体可以与人类进行自然措辞交互、通过图像感知环境、基于笔墨天生图像、以及以用户定制的语音进行交互。该智能体能够通过系统 prompt 扮演任意角色,并支持多种形式的 API 调用,可以为机器人供应行为方案与决策能力,知足机器人具身智能的功能实现。
编程智能体 AIRS-Coder(见图 5)。该智能体的能力包括诊断缺点,优化代码,供应详细的编程观点阐明,并供应各种编程措辞和技能的步骤辅导。该智能体在 7B 大小的大模型根本上,在 HumanEval 指标上 pass@1 性能达到 43.4%,超过了 CodeLlama-Python-13B 的 43.3%,用更少的参数得到了更好的性能。该智能体可以为机器人供应自主编程能力,知足机器人的自主繁芜操作技能需求。
群智智能体框架 AIRS-Agents(见图 6)。该智能体框架支持定义多个不同类型的机器人智能体以及它们的方案智能体,将它们构成智能体集群并进行统一的调度方案。不同智能体可以调用不同软件 APP 处理各自领域内的问题,也可以编程并在沙盒中实行代码。该智能体可以为机器人集群供应群体智能,实现大范围的机器人具身智能。
智能体是具身智能 APP 的实例,其涌现和发展开启了从人工操作软件 APP 到智能体自行调用软件 APP 的时期,并在这一过程中推动了具身智能的进程。随着技能进步,我们相信会有更多的智能体构成弘大的具身智能 APP 群,进一步引发智能体调用软件 APP 到机器人调用具身智能 APP 的范式转变。
具身智能被视为人工智能赋能于机器人的主要技能,可以将机器人从传统的预编程模式解放出来,授予机器人更强的自主性温柔应能力。具身智能的打算和运用将推动机器人技能与生产制造、做事和医疗康复等行业的深度领悟,成为经济和社会发展的主要推动成分。我们将具身智能打算系统类比为智能机器人领域的 Android 系统,在底层实时打算平台、天下大模型的根本上,延伸出诸多基于机器人的运用。具身智能技能刚刚兴起,在具身软件与运用、多模态天下模型、实时打算系统等方面面临着寻衅。这些领域也将是学术和家当界研究的热点。
参考文献
[1] S. Liu, \公众The Role of Autonomous Machine Computing in Shaping the Autonomy Economy.\"大众, Communications of the ACM, https://cacm.acm.org/blogs/blog-cacm/279636-the-role-of-autonomous-machine-computing-in-shaping-the-autonomy-economy/fulltext
[2] S. Liu, \公众The Transition to the Autonomy Economy and China-US Tech Competition\"大众, the Diplomat, 2023.
[3] S. Liu, J.L., Gaudiot,\"大众Rise of the autonomous machines.\"大众 Computer, 55(1), pp.64-73, 2022.
[4] 刘少山,甘一鸣,韩银和,\"大众机器人打算正在崛起:中国美国实力全面比拟\"大众, 知识分子, 2024.
[5] M. Mitchell, \"大众AI's challenge of understanding the world\"大众. Science 382, eadm8175, 2023. DOI:10.1126/science.adm8175.
[6] A. Brohan, et al., \公众Rt-2: Vision-language-action models transfer web knowledge to robotic control.\公众 arXiv preprint arXiv:2307.15818, 2023.
[7] Z. Durante, et al., \"大众Agent ai: Surveying the horizons of multimodal interaction.\"大众 arXiv preprint arXiv:2401.03568, 2024.
本文系作者个人观点,不代表本站立场,转载请注明出处!