作者:sophiasong@QQ机器人

研究背景

AI智能体深度调研!设计一个属于自己的机械人!_才能_记忆 智能助手

随着大模型的兴起,AI Agent被认为是大模型最主要的落地方向之一,无论是在学术界还是在工业界,对AI Agent的各种研究和实践一贯热度很高。
本文紧张从 AI Agent的研究背景、学术界对AI Agent的探索、工业界对AI Agent的探索、基于AI Agent的QQ机器人设计构思这几个角度展开,聊聊AI Agent的一些调研结果。
我们先来看下AI Agent的发展历史。

AI Agent发展历史

AI Agent(智能体)的发展史是一个从哲学思想启蒙到当代人工智能实体落地的漫上进程,大致可以分为以下几个阶段:

1. 哲学启蒙与观点化阶段(古希腊 - 20世纪中叶)

特点: 这一阶段见证了哲学家们对智能机器的早期设想和理论探索。
案例: 哲学家们如赫拉克利特斯、庄子、亚里士多德和丹尼斯·狄德罗等,对思维、意识和知识表示进行了深入思考,为AI的理论根本埋下了种子。
莱布尼兹的“通用打算机”观点和对形式逻辑的贡献对打算机科学和AI产生了影响。
图灵也在1950年提出了图灵测试,成为判断机器智能的主要标准,对AI的发展产生了深远影响。

2. 早期探索与规则根本阶段(1950s-1970s)

特点: 这个期间的特点是基于规则的系统,旨在仿照人类的逻辑和决策过程。
案例: 约瑟夫·魏森鲍姆开拓的ELIZA谈天机器人是这一期间的代表作,它利用模式匹配技能来仿照生理治疗师的角色。
此外,Newell和Simon的"Logic Theorist"和"General Problem Solver"也是主要的早期AI项目。

3. 知识系统与专家系统阶段(1980s-1990s)

特点: 这一阶段的重点是利用专业知识库来赞助决策,仿照专家的思维过程。
案例: MYCIN是一个著名的医学诊断系统,它利用专家知识来诊断传染并推举治疗方案。
DENDRAL是一个化学领域的专家系统,用于推断分子构造。
此外,CLIPS和PROLOG等工具和措辞也促进了专家系统的发展。

4. 机器学习与数据挖掘阶段(1990s-2000s)

特点: 机器学习的涌现使得AI系统能够从数据中自动学习模式和规律,而无需明确的规则,从而提高其泛化能力。
案例: 用于邮件过滤的朴素贝叶斯分类器是一个范例的机器学习运用。
推举系统,如Amazon和Netflix的推举引擎,利用协同过滤等技能为用户供应个性化推举。

5. 互联网规模的AI与大数据阶段(2000s-2010s)

特点: 随着互联网的遍及和大数据时期的到来,AI开始处理海量数据,并运用于各种互联网做事中,同时云打算和分布式系统等技能的发展为此供应了支持。
案例: IBM Watson是一个著名的问答系统,它在Jeopardy!比赛中降服了人类冠军。
Google的搜索引擎算法优化利用了机器学习技能,PageRank算法基于链接剖析为互联网搜索带来了重大影响。
Amazon的推举系统也是一个范例的大数据AI运用。

6. 深度学习与神经网络阶段(2010s-至今)

特点: 深度学习技能,特殊是深度神经网络,在处理繁芜数据(如图像和语音)方面显示出强大的能力。
案例: Google DeepMind的AlphaGo降服围棋天下冠军李世石,展示了深度学习在繁芜决策问题中的巨大潜力。
同时,深度神经网络技能在图像识别、语音识别和自然措辞处理等领域取得了打破性进展,如ImageNet竞赛中的AlexNet和VGGNet等。

7. 强化学习与自主决策阶段(2010s-至今)

特点: 强化学习的发展使得AI系统能够通过与环境交互来学习最优策略,从而实现自主决策。
案例: DeepMind的AlphaGo Zero和AlphaZero通过强化学习自我对弈,不仅在围棋领域取得了打破,还在国际象棋和将棋等棋类游戏中展示了强大实力。
OpenAI Five在DOTA 2游戏中的成功也证明了强化学习在多智能体系统中的运用前景。

8. 基于LLM的AI Agent阶段(2020s至今)

特点: 大措辞模型的涌现授予了AI系统更强的措辞理解和天生能力,推动了AI Agent的智能化。
案例:OpenAI的GPT系列模型是一种基于Transformer的天生式大措辞模型,能够天生连贯的文章和故事,对自然措辞处理领域产生了重大影响。
GitHub Copilot利用大措辞模型为程序员供应代码自动补全和编程建议。
DALL·E能够根据文本描述天生新颖的图像。

AI Agent经典案例

AI Agent一个很经典的案例便是AI斯坦福小镇。

论文地址:https://arxiv.org/pdf/2304.03442.pdf项目地址:https://github.com/joonspk-research/generative_agents

AI斯坦福小镇是一个经典的基于LLM的AI Agent案例,斯坦福和谷歌的研究员构建了一个名为Smallville 的虚拟小镇,把25个基于GPT的AI角色放入虚拟小镇,让它们自己生活。
他们有事情,会八卦,能组织社交,结交新朋友,乃至举办情人节派对,每个小镇居民都有独特的个性和背景故事。
为了让小镇居民更加真实,Smallville小镇还设置了许多公共场景,包括咖啡馆、酒吧、公园、学校、宿舍、房屋和商店等。
小镇居民的行为有多像人?举例来说如果他们看到早餐着火了,会走过去关掉炉子;如果看到浴室有人,会在表面等待;如果碰着一个想交谈的个体,会停下来谈天等等。

个中智能体的紧张架构如下:

智能体感知他们的环境,所有感知都保存在智能体履历的综合记录中,称为影象流。
根据他们的感知,该架构检索干系影象并利用这些检索到的动作来确定动作。
这些检索到的影象还用于形成长期操持并创建更高等别的反思,这两者都被输入到影象流中以供将来利用。

为什么要有AI Agent

AI Agent可以办理下面两个问题:

从LLM的角度而言,传统LLM只能通过自然措辞的形式与外界交互,有脑无手,功能受限,如果可以通过api或者其他办法与外部做事进行通信,就能供应更丰富的功能。
从工具实行的角度而言,工具链在实行时如果拥有类人的自主决策方案能力,就能对繁芜多变的任务场景有更好的适应性。
借助LLM作为大脑,对繁芜的大任务做方案和拆分后编排工具去实行,全体工具链的实行过程也能更加连贯合理。
学术界对AI Agent的探索

关于AI Agent理论方面的定义和架构有许多不同的描述,这里结合一些综述性文章,给出目前接管度比较广的几种定义和架构。

AI Agent组成四要素

目前一种比较主流的定义来自OpenAI人工智能运用研究卖力人Lilian Weng给出的一个AI Agent组成公式:

这里给出了Agent组成的四要素:

Agent = LLM + 影象能力 + 方案能力 + 工具利用能力

Lilian Weng在她的技能博客《LLM Powered Autonomous Agents》中给出了对自主智能体(Autonomous Agent)的定义和描述,并给出了如下的智能体架构图:

可以看出这里紧张包含三个模块:影象(Memory)、方案(Planning)和工具(Tools),Action是末了的行为表示。

影象能力

短期影象:所有的高下文学习(比如Prompt Engineering)都是利用模型的短期影象来学习。
长期影象:这为agent供应了永劫光存储和召回(无限)信息的能力,常日是通过利用外部向量存储和快速检索。

方案能力

任务分解:办理目标问题,须要拆分为哪些步骤,先做什么再做什么自我反思:agent可以对过去的行动进行自我反思,从缺点中学习并改进未来的步骤,从而提高终极结果的质量。

工具利用能力

agent通过学会调用外部API来获取模型权重(常日在预演习后很难修正)中缺失落的信息,包括当前最新的信息、代码实行能力、访问专有信息源等。
LLM-based Agent架构图

复旦大学自然措辞处理团队(FudanNLP)在论文《The Rise and Potential of Large Language Model Based Agents: A Survey》给出了LLM-based Agent的观点框架图:

可以看到Agent架构图里包含三个组成部分:大脑(Brain)、感知(Perception)和行动(Action)。
这个架构是比较“类人”的,大脑模块作为掌握器,承担影象、思考、决策等基本任务。
感知模块感知并处理来自外部环境的多模态信息,动作模块利用工具进行实行并影响周围环境。
举一个例子来解释事情流程:当人类讯问是否会下雨时,感知模块将指令转换为LLM可以理解的表示。
然后大脑模块开始根据当前景象和互联网上的景象报告进行推理。
末了,动作模块做出相应并将雨伞递给人类。
通过重复上述过程,智能体可以不断得到反馈并与环境交互。
对人类而言。
通过重复上述过程,代理可以不断地得到反馈并与环境交互。

关于这几个模块各自包括哪些组成部分,可以详细参考论文,比如大脑的组成如下图所示,个中每个部分的浸染都在论文里有详细描述。

中国公民大学高瓴人工智能学院也揭橥了一篇关于自主代理的文章综述《A Survey on Large Language Model based Autonomous Agents》,详细先容了Agent观点,目前的Agent的进展等,以及各种目前的技能架构等。

作者调研了2021年1月至2023年8月揭橥的论文,下图是一份包含不同类别的Agent精选列表:

不同颜色代表不同类别的智能体,可以看出在各种类别的智能体上,都有一些比较出圈的产品。

同时作者给出了基于LLM的智能体架构图:

可以看到Memory、Planning、Action这几个部分都非常眼熟,此外这里的Profile配置模块紧张卖力定义和表示智能体的属性和特色,比如扮演的角色是编码员、西席、领域专家等。
除了角色定义、属性配置外,配置模块还卖力布局输入prompts,这些提示将被用来勾引LLM天生特定类型的相应和行为。
其余配置模块还可以用于实现智能体的个性化,这意味着智能体可以根据用户的特定需求和偏好来定制其行为和交互风格。

工业界对AI Agent的探索AI Agent技能难点

AI Agent的技能难点紧张包括以下几个方面:

理解繁芜任务:AI Agent须要能够理解并实行繁芜的、多步骤的任务,这哀求模型具备强大的理解能力和方案能力。
影象和知识管理:为了在实行任务时保持连贯性和高下文理解,AI Agent须要具备长期影象的能力,这涉及到有效的信息存储和检索机制。
工具利用和集成:AI Agent须要能够与外部环境进行交互,须要能够利用和集成各种工具和做事,包括调用API、利用软件运用程序等。
这哀求模型具备一定的外部工具利用能力,以完成任务,同时须要把稳不同工具之间的互操作性和集成问题。
多模态理解:AI Agent在实际运用中可能须要处理和理解多种类型的输入,如文本、图像、音频等,这哀求模型具备多模态理解的能力,并能够与用户进行自然的交互。
安全性和可靠性:在实行任务时,AI Agent须要确保操作的安全性和可靠性,避免产生不可预测的缺点或风险。
伦理和隐私问题:AI Agent的开拓和利用涉及到安全和伦理问题,如隐私保护、偏见和公正性等,须要确保AI Agent的行为符合道德和社会规范。

可以看出,前3个属于Agent = LLM + 影象能力 + 方案能力 + 工具利用能力里的后三个,后面的多模态理解、安全可靠以及伦理隐私属于LLM该当办理的范畴。
有了技能难点后,那么工业界也出身了一些对应的办理方案,比如开拓框架LangChain串通了全体AI Agent的各环节,比如Milvus这类的向量数据库为影象能力供应了支持等等,等都为AI Agent在工程实现方面供应了支持。
这里从一些常用且关键的技能出发,大略谈谈AI Agent都涉及到了哪些详细的技能。

大措辞模型(LLM)

LLM是AI Agent的根本,供应了强大的自然措辞理解和天生能力。
通过预演习和微调,这些模型能够理解和回应各种繁芜的措辞任务。
下面列出了目前国内外比较有名的大措辞模型:

国外有名大措辞模型

海内有名大措辞模型

影象(Memory)

影象模块是AI Agent的核心组成部分,它许可代理存储和利用过去的交互信息和知识。
影象可以是短期的高下文影象,也可以是长期的外部知识库,如数据库或知识图谱。

短期影象常日是利用当前任务在实行过程中产生信息,可能利用会话状态管理、把稳力机制、循环神经网络(RNN)、是非期影象网络(LSTM)、缓存机制等实现。
长期影象是永劫光保留的信息,一样平常利用通用数据库、向量数据库或知识图谱等技能,实现信息的持久化存储,便于后续检索和利用。

在影象这个模块里,常日会提到一种信息检索方法:检索增强天生(RAG),检索过程可以参考下面这张图:

大略说便是把用户query转为向量,再根据query的向量从向量数据库里检索出最干系的向量,作为补充知识结合用户最初的query一起喂给大模型。
大型措辞模型结合检索到的高下文信息,天生准确且干系的回答。

RAG技能的核心上风在于其能够:

提高精确度:通过检索干系信息,RAG减少了天生虚假或误导性信息的风险。
增强时效性:确保供应的回答基于最新信息,避免了过期的内容。
确保威信性:优先从威信和可靠的数据源中检索信息,增强了回答的可信度。
避免理解偏差:通过精确的检索,减少了因术语稠浊导致的误解。

只管基于嵌入的向量搜索技能如Faiss自2019年已存在,但RAG推动了向量搜索技能的进一步发展。
新兴的开源搜索索引引擎和向量数据库公司,如chroma、weaviate.io和pinecone等,最近正在积极开拓并优化他们的产品,以确保他们的向量数据库办理方案能够知足大模型和AI Agent不断增长的需求。

关于RAG里如何检索最干系的向量也有一些有趣的算法,目前最盛行方法是利用近似最近邻(Approximate Nearest Neighbor, ANN)搜索算法。
个中HNSW(Hierarchical Navigable Small World)是一种基于图的近似最近邻搜索算法。
它通过构建一个分层的图形构造,实现高效的相似度搜索。

HNSW算法的紧张思想是通过构建一个分层的图形构造,从上到下进行导航式检索,上面图层的点稀疏,点和点之间间隔大,下面图层的点逐渐密集,点和点之间的间隔变小,有种先确定大方向再风雅化找方向的觉得。
在搜索过程中,算法从图的顶层开始,逐层向下搜索,直到找到目标数据点的近似最近邻。
通过这种分层搜索策略,HNSW能够在较短的韶光内找到与目标向量相似的向量。
NMSLIB、FAISS、Milvus等向量数据库或相似度搜索库都支持了该算法。

方案(Planning)

AI Agent的方案模块是实现目标导向任务的核心,涉及以下关键技能和方法:

任务方案框架:利用DialogueGPT、AgentFormer等框架进行繁芜任务的分解与方案。
强化学习库:通过OpenAI Gym、Ray RLlib等库演习AI Agent的决策与方案技能,以适应多样化环境。
思维链技能:运用Chain of Thoughts (CoT)、Tree of Thoughts (ToT)等技能提升AI Agent的逐步推理与方案能力。
自动方案系统:采取基于状态空间的方案(如PDDL)和基于逻辑的方案(如SAT方案)办理繁芜任务。
决策支持系统:供应决策赞助,帮助AI Agent在繁芜情形下做出选择。
多目标优化:使AI Agent能够综合考虑并优化多个目标。
情境感知:增强AI Agent对环境的感知能力,以制订更合理的方案。
仿照与预测:通过仿照可能的场景和预测结果来优化决策过程。

工具利用(Tool Use)

AI Agent的工具利用模块让其能够利用现有工具和API高效完成任务:

开拓框架:利用LangChain和LlamaIndex等框架集成模型管理、数据连接、影象、方案与实行等功能。
网络接口:调用云做事API等,以利用外部做事和数据。
自动化工具:利用Selenium、Puppeteer等工具进行Web自动化操作。
AI Agent开源框架:如AutoGPT、AutoGen、Langfuse、ChatDev、GPT-Engineer、BabyAGI等开源项目也是一些AI Agent更加详细的工程实现,供应工程实现的开源资源,便于开拓者进行定制和扩展。

除此之外,像是数值打算、文件读取、数据库访问等常见工具能力,AI Agent都该当拥有。

多模态交互(Multimodal Interaction)

多模态AI Agent能够处理和理解多种类型的数据,如文本、图像、音频、视频等,还包括目前可能还没做的那么完善的触觉、嗅觉等等。
这种能力使AI Agent能够更好地与人类和环境互动,并供应更丰富的用户体验。

涉及到的技能比如有自然措辞处理、打算机视觉、语音识别和天生、情绪剖析、高下文感知、动作识别与预测、生理旗子暗记处理、环境感知技能、跨模态领悟技能、增强现实和虚拟现实技能等。

国外科技大厂Agent产品

这里以OpenAI和Google作为例子,看一下国外科技大厂在AI Agent上都有哪些方面的研究。

OpenAI的Agent产品

Google的Agent产品

海内科技大厂Agent产品

以下是中国紧张科技公司在AI Agent领域的一些关键产品和研究方向的概览。

海内AI创业公司Agent产品

随着大模型技能的兴起,海内AI创业公司在AI Agent领域推出了多样的产品。
以下是一些有名AI独角兽公司的产品概览:

实在各公司和各行各业都有很多AI Agent的产品在持续发展中,不论详细的产品形态是什么,技能上的重点终极还是落到如何把影象能力、方案能力、行动能力这几项打磨的更风雅完善和安全可靠,包括交互上多模态如何做的体验更好等。

基于AI Agent的QQ机器人设计构思

知道了AI Agent是什么,那么是否可以自己实践一下开拓一个AI Agent呢?现在市情上或许有一些比较成熟的平台,可以帮助我们快速开拓一个有实用功能的智能体。
恰好我留神到最近QQ机器人平台正在做能力的全面升级,结合我自己也是QQ多年的老用户,之前也有利用小冰机器人的履历,于是从QQ机器人这个角度入手,去开拓一个AI Agent或许是个不错的选择。

QQ机器人开放平台QQ机器人开放平台官网:https://bot.q.QQ.com/wikiQQ机器人开放平台API接入文档:https://bot.q.QQ.com/wiki/develop/api-v2/

QQ机器人开放平台是供应QQ机器人开放接口的官方平台,基于这套开放接口,用户可以开拓实现功能丰富的QQ机器人。
QQ机器人业务在QQ内部已经有比较悠久的历史,借着近期AI发达发展的契机,QQ机器人也做了新老架构的领悟,全面升级了各种能力,包括完成了私聊、群聊、频道三场景的领悟,支持webhook提升机器人接入体验,支持丰富的AI能力插件式接入等,并且对高下行都接入了安全大模型打击,从标准化、开放化和安全性等维度来看都有着不错的体验,以及平台本身还在持续发展和优化。

以AI Agent角度设计QQ机器人

下图便是基于QQ机器人平台开拓的一个具有AI Agent能力的智能体架构图。

对用户而言,评价一个机器人能力如何,关键点有两个:一个是机器人的功能实现能力,能不能充分理解用户的诉求并给出高质量的回答(文本回答+行为回答);另一个是千人千面能力,是否针对用户的特点做了个性化回答。
前者依赖于大模型+外挂的影象能力+方案能力+实行能力,后者紧张依赖于用户画像质量的准确和能否在历史对话里检索出最有用的信息作为赞助信息供应给大模型。
影象辅导方案,短期方案处理用户所需的功能性操作,长期方案主动操持个性化互动策略,同时行为方面扩充类似funcation call的能力以实现更丰富的功能。
这里能实行的function越多,对付各种繁芜场景能给出的应对选择就更多,用户在体验上也就会更自然和智能。
末了将实行后用户的反馈又持续注入影象模块里,持续改进与提升方案能力。

同时,QQ本身又是一个巨大的资源池,个中的各种关系链和各种内容也供应了人与机器人之间很多种互动思路,比如最近比较火的鹅探长机器人便是借助了QQ群这块土壤证明了群玩法和群扩散的可行性,这种玩法便是一种范例的借助关系链的玩法。
在内容方面,像是QQ的官方AI助手babyQ,也能做到通过自然措辞对话理解用户的兴趣从而分发各种用户感兴趣的频道、机器人和真人pymk,这些都是在QQ这个平台上搭建智能体特有的上风。

总结AI Agent的发展路径

有人认为AI Agent是AGI的实现路径,由于NLP到AGI的发展路线大概分为五级:

语料库 -- 最早NLP有专门的演习数据互联网 -- 大模型时期,具有互联网规模的文本输入和输出感知 -- 多模态的输入,可以感知空间具身 -- 硬件身体,可以有行动空间社会属性 -- AI有自己的社会身份,同时AI之间可以通过互动与互助办理更繁芜的任务,反响涌实际天下的社会行为

目前LLM时期已经做到了2,有了互联网规模的文本输入和输出,同时3和4也正在逐步发展中。
关于4,行动能力本来便是大家对AI Agent的期望,实在具身实体机器人完备可以认为是AI Agent的一种,AI Agent的定义该当是更广的。
可以看出AI Agent的发展与NLP到AGI的发展路线是基本同等的,3强调多模态输入,4强调多模态输出(输出可以是任何,只要可以与周围环境产生互动),3和4代表的多模态交互是AI Agent存在的主要缘故原由。
5里的社会属性便是一个更AGI的标准了,一方面每个AI Agent可以有自己的社会身份,其余多个AI Agent可以协同事情完成更繁芜的任务,像个小社会群体一样有一些社会行为,这也可能会对人类社会构造和文化产生影响。

有人可能会关心AI Agent是否终极能像人类一样思考和行动,实在这里基本等价于问AGI是否能实现。
我以为这里可能可以从两个角度剖析这个问题,一个是什么是真正的理解力(有没有可能实现),另一个是AGI的实现方向是什么(如何实现)。

什么是真正的理解力

关注AI是否有真正的理解力,这个问题也是很多人感兴趣与质疑的。
为什么我们认为人类便是有真正理解力的,但是AI就不会拥有呢?哪怕将来它在各方面能对外表现得和大多数人类一样好,也还是会让人产生疑惑它是不是真的会思考。
大概是由于潜意识里把有生命当成了能真正思考的条件,乐意相信宇宙和自然经由数百亿年蜕变出身出的生命才是具有智能的,而人类自身作为造物主造出来的机器还处于一个很低级的阶段。

在《Do large language models understand us?》这篇文章里有一些很有趣的不雅观点:

详细来说,从任何可证伪的意义上,统计的量变的确会引起理解的质变。
此外,大部分我们以是为的智能实质上是对话性的,因此是社会性的, 它须要生理理论。
由于我们只能通过交互来理解其他人的内部状态,因此人工智能何时变成人这个问题永久不会有客不雅观的答案。

关于真正的理解:

目前仍不清楚我们如何区分“真正的理解”和“虚假的理解”。
在我们能够做出这样的区分之前,我们可能该当抛开“虚假理解”的想法。

如果人类可以明确定义出什么才算是真正的理解,并给出可操作的考验方法,那么我们就可以来判断AI是否真的具有逻辑思考能力,毕竟有标准是做判断的条件。
但目前为止,我们无法拿出来一个检测标准,人类就一定都能做到,AI就一定都做不到。
以是什么才是有真正的思考能力,从某种程度上看,是无法被证明的。
“是否具有智能”目前更多是依赖输入和输出做判断,就像我们判断一个人的智能程度很多时候也是基于对话,这种判断更像是一个黑盒。

大概AI给的答案看起来很完美像是经由了逻辑思考,但给黑盒内部的运算过程真的是具有逻辑性的吗?或者说这种逻辑性是否必须和人脑的逻辑性类似,才能被称为是逻辑思考能力。
大概未来AI可以对付什么是真正的理解和人类对付什么是真正的理解这件事本身有不一样的意见,毕竟“真正的理解”这种说法目前实在是非凡人类角度的。
或许随着AI的发展,这个问题的答案也变得不再主要,只要AI能在它善于的领域表现得很智能,大概就够了。

AGI,架构与效率

之前Ilya Sutskever有篇访谈,主持人问Ilya说transformer是否是实现AGI最好的架构,是否还须要其他架构,由于像是人脑就有专门的区域卖力处理专门的问题,transformer是否足够。
Ilya说transformer是足够的,这实在是一个效率和本钱的问题,你可以设计出效率更高的架构,但是付出的努力和本钱如何。
他提到我们认为人脑不同区域便是处理不同事情,它是专门的,实在这件事有点奇妙和具有欺骗性。

Ilya举了两个例子,一个是年幼的儿童患有癫痫病例,当时的办理办法便是切掉一半的大脑,但这些孩子末了还是发展为了非常实用的成年人,他们和正凡人具有相同的大脑区域,但是以某种办法被压缩到一个大脑半球上,大概会丢失一些信息处理效率,但不知何故所有这些大脑区域都会重新排列。

另一个实验是大约30或40年前在雪貂身上完成的,有研究者取下了雪貂的视神经,并连接到它的听觉皮层,他们记录了不同神经元的特点,经由几天不雅观察后,研究者在听觉皮层中创造了神经元,这些神经元与视觉皮层非常类似,也便是说来自眼睛的视觉输入开始映射到大脑的语音处理区域。
后面研究者也做了类似的事情,要么眼睛映射到耳朵,要么映射到听觉等,都有类似的创造。

Ilya阐明,人和动物的大脑皮层非常均匀,就像AI只须要一个大的统一的架构一样。
也便是说,transformer可以做出惊人的事情,其他架构也可以做出更好的改进,实在只是效率不同。
就像半球的大脑也能重新排列和承载所有区域,雪貂的听觉皮层也能重新成长出视觉神经元一样,只要架构足够大和统一,有差异的只是效率和本钱。

以是,AI Agent未来还是有很大的发展空间,首先目前不能证明AI无法拥有类似人类乃至更高的聪慧,其余在实现路径上只要有大且统一的架构就能担保方向是可行的。
除此之外,也有更多学术界的研究者从理论角度对AI Agent的架构和组成给了详细剖析和拆解,工业界也有很多对应的技能、框架和产品在不断推出,同时也有很多开拓者在做各种实践与考试测验。
期待未来AI Agent可以有更多更实用或者更惊艳的产品,给人类的生活,给天下的可能性,增加更多的色彩。

一些比较故意思的扩展阅读硅谷101-【深度】聊聊AI机器人为什么发展如此缓慢 -- 很有趣的一期讲AI机器人的视频,紧张先容了AI机器人的定义、软硬件难点、LLM给AI机器人带来的进展等,个中也提到了目前LLM无法在根本上帮助具身智能的一个缘故原由在于大模型提高的是通用性,而AI机器人须要办理的问题是准确性。
斯坦福大学研究团队-通过学习和进化实现具身智能--这篇paper的作者是斯坦福打算机科学系、运用物理系、神经科学研究所、人工智能研究所的一些研究员包括李飞飞等,paper里提出了深度进化强化学习(DELRL)的观点,是一种非常新的发展具身智能的思路,这种思路受进化论的影响,强调智能生物的智能化程度和它的身体构造之间存在很强的正干系性,与其人为设计机器人的详细态态,不如让AI自己选择具身的进化,也便是身体本身就该当参与了算法的进化。
向量数据库鉴赏 -- b站上一期讲向量数据库讲的非常清晰的视频,有高下两期,紧张先容了一些比较常用的最近邻搜索算法,以及这些算法如何在速率、质量和存储三者之间实现平衡。

参考资料

Weng, L. (2023). LLM-powered Autonomous Agents. Retrieved from https://lilianweng.github.io/posts/2023-06-23-agent/Wang, L., Ma, C., et al. (2023). A Survey on Large Language Model based Autonomous Agents. Retrieved from https://arxiv.org/pdf/2308.11432.pdfXi, Z., Chen, W., et al. (2023). The Rise and Potential of Large Language Model Based Agents: A Survey. Retrieved from https://arxiv.org/pdf/2309.07864.pdfPark, J. S., et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. Retrieved from https://arxiv.org/pdf/2304.03442.pdfTencent Developer. (2023). Article Title. Retrieved from https://cloud.tencent.com/developer/news/1221560Zhihu. (2023). Article Title. Retrieved from https://zhuanlan.zhihu.com/p/662159120Zhihu. (2023). Article Title. Retrieved from https://zhuanlan.zhihu.com/p/673922981Zhihu. (2024). Article Title. Retrieved from https://zhuanlan.zhihu.com/p/657737603Zhihu. (2024). Article Title. Retrieved from https://zhuanlan.zhihu.com/p/670574382Aliyun Developer. (2023). Article Title. Retrieved from https://developer.aliyun.com/article/1232074