大年夜佬们都在关注的AI Agent到底是什么？用5W1H分析框架拆解AI Agent_记忆_模子

2025-01-12 06:08:22 绘影字幕

大模型的横空出世，重新点燃了市场对AI的激情亲切。
AI Agent的观点，更是将AI的热潮推向了新的高度。
从去年开始，AI Agent就成为了炙手可热的名词，其热度丝毫不亚于对大模型的谈论，乃至一众大佬都纷纭为AI Agent站台。

大年夜佬们都在关注的AI Agent到底是什么？用5W1H分析框架拆解AI Agent_记忆_模子绘影字幕

2023年下半年，OpenAI联合创始人，前TeslaAI总监Andrej Karpathy说道：

“如果一篇论文提出了某种不同的演习方法，OpenAI内部会嗤之以鼻，认为都是我们玩剩下的。
但是当新的AI Agents论文出来的时候，我们会十分负责且愉快地谈论。
普通人、创业者和极客在构建AI Agents方面比较OpenAI这样的公司更有上风。
”

在AI Ascent 2024大会上，斯坦福大学教授、前谷歌大脑项目创始人，吴恩达分享了关于AI Agent的最新趋势与洞察

AI Agent（AI智能体）事情流将在今年推动人工智能取得巨大进步——乃至可能超过下一代根本模型。
这是一个主要的、令人愉快的趋势，我呼吁所有人工智能从业者都关注它。

微软创始人比尔盖茨，也通过个人网站揭橥了对AI Agent的意见：

AI Agent将成为下一个平台，简而言之，AI Agent险些将在任何活动和生活领域供应帮助，对软件行业和社会产生深远的影响。

与此同时，趁着这波浪潮，在短短的一年韶光内，AI Agent（AI智能体）领域的创业公司和独角兽也实现了爆发式的增长。
早在去年3月份，AutoGPT就在GitHub上得到了7.4万星，并快速成为史上Star数量增长最快的开源项目，如今已经得到超过16万星。
后续发布的BabyAGI、AgentGPT也如雨后春笋般呈现，调研报告、订购披萨、发送邮件、旅行攻略，无数的Agent运用处景纷纭开始落地。

在海内，AI Agents干系的产品也相继出身。
早在去年7月，阿里云就发布了旗下第一个智能体——ModelScopeGPT，面向开拓者群体。
随后百度文心智能体平台、字节Coze、腾讯元器，各大厂商的AI智能体平台也纷至沓来。

面对如此巨大的热潮，相信很多读者在心潮澎湃的同时，也会心存疑虑。
AI Agent到底是什么？是真正的科技打破还是科技泡沫？对企业和个人能带来什么影响？

接下来，风叔将利用5W1H剖析框架来详细拆解AI Agent，一步步带着大家理解AI Agent的全貌。
由于内容比较多，风叔将通过三篇文章来逐步阐述全部内容。

上篇：先容What + Why，紧张解答以下问题。

What：AI Agent是什么？有哪些组成部分？AI Agent的事理是什么？AI Agent是怎么分类的？

Why：为什么会产生AI Agent？AI Agent的上风和劣势是什么？为什么企业和个人都要关注AI Agent？

中篇：先容When + Where + Who，紧张解答以下问题。

When：AI Agent的发展进程是若何的？AI Agent未来的发展趋势是若何的？

Where：AI Agent有哪些运用处景？

Who：AI Agent领域的玩家有哪些？AI Agent领域的行业代价链是若何的？

下篇：先容 How，紧张解答以下问题。

How：如何实现AI Agent？AI Agent包括哪些系统模块？如何开始学习AI Agent？

下面正式开始5W1H框架对AI Agent的拆解之旅！

一、5W1H剖析框架之What1.1 AI Agent到底是什么？

从观点上来说，AI Agent（智能体）是一种不须要持续人类干预的AI系统，可以基于环境和背景信息，自主剖析各种问题，做出逻辑决策，并且在没有持续人类输入的情形下处理多种任务。

AlphaGo便是一个范例的AI Agent，它可以在和人类对弈围棋的过程中，根据当前的棋局和对手的行动，自主决策下一步的动作。
AI助手也是AI Agent，比如你只须要给AI助部下达一个指令，“帮我预订明早10点上海飞深圳的机票”，AI助手就能自动帮你完成从机票搜索、查询、下单、确认的全部动作。

从构造上来说，一个AI Agent包括三个部分，如下图所示：

Perception（输入）：AI Agent通过笔墨输入、传感器、摄像头、麦克风等等，建立起对外部天下或环境的感知。

Brain（大脑）：大脑是AI Agent最主要的部分，包括信息存储、影象、知识库、方案决策系统。

Action（行动）：基于Brain给出的决策进行下一步辇儿为，对付AI Agent来说，行动紧张包括对外部工具的API 调用，或者对物理掌握组件的旗子暗记输出。

目前在大模型热潮的背景下，媒体上所讲的AI Agent，更严格意义上来说该当叫做LLM Agent，由于全体Agent最主要的掌握中枢Brain，其底层是LLM大模型。
如果未来产生了比LLM更强大更智能的AI技能基座，那同样也会产生基于新的AI基座的Agent。
下文所先容的AI Agent，如无分外解释，都指代LLM Agent。

那么Agent和LLM大措辞模型到底是什么关系呢？可以这样进行大略类比，如果把LLM（比如GPT）比作大脑中的一堆神经元，具有影象、知识和推理等能力，那么AI Agent便是独立的人，除了拥有大脑之外，还拥有视觉、听觉、味觉等多种感官，以及拥有手和脚操作外部的工具。

因此从实质来讲，AI Agent = 大措辞模型+影象+方案+工具利用。

接下来，我们逐步拆解AI Agent的组成部分。

1.2 详细拆解AI Agent的构成

1.2.1 构成一，方案Planning

Planning是全体AI Agent中最核心最关键的部分，Agent会把大型任务分解为子任务，并方案实行任务的流程。
同时Agent还会对任务实行的过程进行思考和反思，从而决定是连续实行任务，还是判断任务完结并终止运行。

全体Planning模块包括两个步骤：子任务分解，反思和完善。

步骤一，子任务分解

Agent 将大型任务分解为更小、更易于管理的子目标，从而高效处理繁芜任务。
紧张的子任务分解办法包括：思维链COT（Chain of thought）、思维树TOT（Tree of thought）、思维图GOT（Graph of thought）、方案器LLM+P。

a. 思维链COT

思维链COT的全称是Chain of Thought，当我们对LLM这样哀求「think step by step」，会创造LLM会把问题分解成多个步骤，一步一步思考和解决，能使得输出的结果更加准确。
这便是思维链，一种线性思维办法。

b. COT-SC

一个CoT涌现缺点的概率比较大，我们可以让Agent进行发散，考试测验通过多种思路来办理问题，然后投票选择出最佳答案，这便是CoT-SC。

c. 思维树TOT

思维树TOT是对思维链CoT的进一步扩展，在思维链的每一步，推理出多个分支，拓扑展开成一棵思维树。
利用启示式方法评估每个推理分支对问题办理的贡献。
选择搜索算法，利用广度优先搜索（BFS）或深度优先搜索（DFS）等算法来探索思维树，并进行前瞻和回溯。

d. 思维图GOT

思维树ToT 的办法也存在一些毛病，对付须要分解后再整合的问题，比如排序问题，排序我们可能须要分解和排序，然后再merge。
这种情形下TOT就弗成了，可以引入思维图GOT来办理。

e. LLM+P

其事理是依赖外部传统方案器来进行长视野方案，利用方案域定义措辞（PDDL）作为中间接口来描述方案问题。
在此过程中，LLM先将问题转化为成”Problem PDDL”形式，然后要求经典方案器根据现有的 “Domain PDDL “天生 PDDL 操持，末了将 PDDL 操持翻译回自然措辞。

步骤二，反思和完善

反思和完善机制在Agent 运用中发挥着重要的浸染，Agent 通过完善过去的行动决策和纠正以前的缺点来不断改进。
尤其是在现实天下的任务中，不可能在方案环节就能做出万无一失的操持和策略，试错是不可避免的，只有通过自我反思和逐步完善，才能一步步逼近最佳结果。

反思和完善机制的实现，紧张有以下几种办法。

a. ReAct

ReACT的全称是Reasoning-Action，这种模式是让大模型前辈行思考，思考完再进行行动，然后根据行动的结果再进行不雅观察，再进行思考，这样一步一步循环下去。

和ReAct相对应的是Reasoning-Only和Action-Only。
在Reasoning-Only的模式下，大模型会基于任务进行逐步思考，并且不管有没有得到结果，都会把思考的每一步都实行一遍。
在Action-Only的模式下，大模型就会处于完备没有方案的状态下，前辈行行动再进行不雅观察，基于不雅观察再调度行动，导致终极结果不可控。

在实际的测试不雅观察中，ReAct模式的效果要好于Reasoning-Only和Action-Only。

b. Reflexion

Reflecxion是一个为 Agent 配备了动态影象和自我反思能力的框架，能够提高 Agent 的推理能力。
Reflexion 具有标准的强化学习机制，其褒奖模型供应了一个大略的二进制褒奖机制，实行空间则遵照 ReAct 中的设置。
每次行动，Agent 都会打算一个启示式 ht，并根据自我反思的结果决定环境重置以开始新的试验。

c.Basic Reflection

还有一种反思和完善的办法，实在质是利用旁边互搏来实现协同进化。
比如设计一个帮助用户完成市场调研报告的Agent系统，个中Generator卖力输出，Reflector卖力检讨，通过两个角色之间不断的协同，来实现全体任务的反思和完善。

1.2.2 构成二，影象Memory

影象是Agent用于获取、存储、保留和随后检索信息的过程，我们先用人脑的影象做个类比，人脑中有多种影象类型：

感官影象：这是影象的最早阶段，能够在原始刺激结束后保留对感官信息（视觉、听觉等）的印象，常日只能持续几秒钟。
包括图标记忆、反应影象和触觉影象三种类型。

短时影象（STM）或事情影象：指的是我们当前意识到的信息，或者在学习和推理等繁芜认知任务中所须要的信息。
人类的短时影象容量约为 7 items（Miller, 1956）、持续时长为 20-30 秒。

永劫影象（LTM）：永劫影象指的是能够存储很永劫光，从几天到几十年不等的信息，它的存储容量基本上是无限的。
永劫影象又包括显性影象和隐性影象，显性影象是可以故意识地回顾起来的事实，比如事宜经历和语义影象；隐性影象是内化后无意识的行为，比如骑自行车。

理解了人类的影象模式，我们再来看如何将其映射到AI Agent。

感官影象是对原始输入的嵌入表征的理解，包括文本、图像或其他模式，比如图片的纹理和风格。
短时影象即高下文学习，由于受到Transformer高下文窗口长度的限定，它是短暂的和有限的。
长期影象则可对应为外部的向量数据存储，Agent 可在查询时引用，并可通过快速检索进行访问。

还有一个非常关键的成分，大模型知识的更新。
由于大模型是用海量的通用数据演习的，根本的大模型可以理解为是一个及格的通才，什么话题都知道一些，但是存在胡言乱语和幻觉征象。
尤其是在面向企业真个场景，一个及格的通才是无法利用的，须要利用企业的专属数据进行喂养和演习。
这个时候，就可以通过RAG【检索增强天生】技能，在根本大模型的根本上挂载企业专属的知识库，以向量数据库的办法存储，将Agent演习为一个精良的专才。

RAG技能在AI Agent的运用中非常关键，大家可以提前标记一下这个观点。
在后续文章中，风叔还将重点先容RAG技能的事理和利用方法。

1.2.3 构成三，工具Tooling

为AI Agent配备工具API，比如打算器、搜索工具、代码实行器、数据库查询等工具，AI Agent就可以和物理天下交互，来办理更加实际的问题。

Agent利用工具的办法紧张有以下几种：

a. TALM & ToolFormer

TALM和ToolFormer都是对 LLM 进行微调，以学习利用外部工具API。
该数据集根据新增的 API 调用注释是否能够提高模型输出的质量而进行扩展。

b.HuggingGPT

HuggingGPT =ChatGPT+HuggingFace，HuggingFace是大模型领域的Github，来自环球的开拓职员、企业和机构在huggingFace社区进行模型的上传、分享和支配。

从实质上来说，HuggingGPT是一个利用ChatGPT作为任务方案器的框架，ChatGPT 可根据模型的描述选择 HuggingFace 平台中可用的模型，并根据实行结果总结相应结果。

c. API-Bank

它包含 53 种常用的 API 工具、完全的工具增强的 LLM 事情流程。
API 的选择相称多样化，包括搜索引擎、打算器、日历查询、智能家居掌握、日程管理、康健数据管理、账户认证事情流程等。
由于 API 数量浩瀚，LLM 首先可以访问 API 搜索引擎，找到要调用的 API，然后利用相应的文档进行调用

d. Function Calling

是一种实现大型措辞模型连接外部工具的机制。
通过API调用LLM时，调用方可以描述函数，包括函数的功能描述、要求参数解释、相应参数解释，让LLM根据用户的输入，得当地选择调用哪个函数，同时理解用户的自然措辞，并转换为调用函数的要求参数。

前面的内容中，风叔抛出了非常多较为晦涩的观点和专业名词，大家先初步理解一下这些观点，风叔会在后续文章中对这些观点和事理进行详细先容。

方案Planning、影象Memory和工具Tooling，便是AI Agent系统最核心的三个模块。
接下来，我们再来看看AI Agent的分类。

1.3 AI Agent的分类

从去年开始，各种AI Agent层出不穷。
面对形形色色的AI Agent，合理的分类有助于我们进一步理解AI Agent的事理和模式。

我们可以从三个角度来给AI Agent进行分类，分别是事情模式、决策办法和运用处景。
在本篇文章中，风叔先先容前两种分类办法，不才一篇文章先容”Where”的时候，再详细先容AI Agent的运用处景。

1.3.1 按事情模式分类

从事情模式来看，AI智能体可以分为单Agent、多Agent和稠浊Agent。

单Agent：即通过单一的Agent来办理问题，不须要与其他Agent进行交互。
单Agent可以根据任务实行不同的操作，如需求剖析、项目读取、代码天生等。
比如专门用于进行市场剖析调研的Agent便是单Agent系统，只能处理市场剖析这个单一任务。

多Agent：这种模式侧重于多个Agent之间的互动和信息共享，多个Agent协同事情，相互互换信息，共同完成更繁芜的任务或目标。
多agent运用处景在软件行业开拓、智能生产、企业管理等高度协同的事情中非常有帮助。
比如有一家公司就创建了一个多Agent系统，由Agent来扮演产品经理、UI设计师、研发工程师、测试职员、项目经理等角色，乃至可以接一些实际的软件开拓任务。

稠浊Agent：这种模式中，Agent系统和人类共同参与决策过程，交互互助完成任务，强调的是人机协作的主要性和互补性。
聪慧医疗、聪慧城市等专业领域可以利用稠浊Agent来完成繁芜的专业事情。
比如年夜夫和AI Agent可以共同进行病情诊断，AI Agent卖力快速剖析病人的医疗记录、影像资料等，供应初步的诊断建议；而年夜夫则可以基于AI Agent的剖析结果和自己的专业知识和履历，做出终极的诊断决定。

1.3.2 按决策制订办法分类

大略反射型Agent：基于“如果-那么”规则直接相应该前的环境状态，不存储任何历史数据或状态。
这种Agent设计大略，反应迅速，但适用范围有限。
比如当软件系统发生告警时，就自动向系统掩护职员打电话，便是一个大略反射型Agent。

基于模型的反射型Agent：拥有环境的内部模型，能够基于对环境的理解和过去的履历做出更繁芜的决策。
它能够适应环境变革，处理更繁芜的任务。
比如Nest的智能温控器，不仅能根据当前温度调节室内气温，还能学习用户的偏好，便是一个基于模型的反射型Agent。

基于目标的Agent：这类Agent的决策办法，从根本上不同于前面描述的条件-动作规则，由于它涉及对未来的考虑。
比如智能导航软件，根据用户的出发点和目标，结合交通拥堵状况和用户的偏好，输出最佳导航路线。

基于效用的Agent：基于效用的Agent旨在最大化效用功能或代价，精心挑选具有最高预期效用的行动，以衡量结果的有利程度。
比如同样是导航到达目标，有的用户须要用时最短，有的用户须要路费最少，那么基于不同的效用，系统就会给出不同的导航结果。

学习型Agent：这些Agent设计用于在未知环境中运行，从自己的经历中学习，并随着韶光的推移调度自己的行动。
比如AlphaGo便是学习型Agent，从不断的对弈中进行策略调度。

基于逻辑的Agent：常日基于一系列逻辑规则，通过推理来办理问题，适宜须要高度逻辑判断的场景，例如法律咨询谈天机器人。

LLM大模型和这些Agent的关系就在于，LLM大模型为Agent的后续行动供应了输入和推理。
比如LLM大模型上面接了一个基于目标的Agent，那么这个Agent就会从用户的输入中，提取用户的目标和哀求，再结合上文提到的子任务分解、反思和完善等动作，逐步完成终极目标。

二、5W1H剖析框架之Why2.1 为什么会产生AI Agent？

为什么会产生AI Agent（特指LLM Agent）？我们从两个方面来回答这个问题，技能发展的局限性，以及人和AI的交互性。

从技能发展的局限性来考虑

在LLM大措辞模型涌现以前，一样平常通过规则和强化学习的方法来让机器智能化的完成一些任务，但是这两种方法各有弊端。

规则的方法是指把繁芜的自然措辞问题转化为规则符号，每每须要行业专家的参与，缺少容错能力，一个小的缺点就可能导致全体系统的失落败。

而强化学习一样平常是构建策略网络或褒奖模型，须要大量样本进行演习，但是网络数据每每本钱很高，以是这种方法可行性不大，很难推广开来。

LLM大措辞模型涌现之后，人们创造LLM大措辞模型在逻辑推理、工具运用、策略方案、指令遵照等方面都有非常不错的表现，工程师们开始意识到，将大措辞模型作为Agent运用的核心认知系统，可以极大的提高Agent的方案能力。

但是LLM大模型毕竟还无法像人类一样，拥有更深度的方案思考能力、利用各种工具与物理天下互动，以及拥有人类的长期影象能力。

在这样的背景下，涌现了非常多的研究方向，来让Agent逐渐逼近人类，比如前文提到的COT/TOT/GOT、ReAct、Reflexion等技能，提升Agent的Planning能力；比如通过RAG增强检索天生技能，提升Agent的影象能力；以及ToolFormer、Function Calling等技能，提升Agent的工具利用能力。

从人和AI互动的角度来考虑

从人和AI互动的角度，紧张经历了三种模式。

最早涌现的是Embedding模式，即人类完成大多数事情，AI只是作为某些单点能力，嵌入在人类完成事情的某些节点。
比如很范例的SaaS+AI模式，像OCR、人脸识别、语义剖析等能力，作为一些提升效率的点，嵌入在SaaS软件里。
大多数的事情，还是通过人工操作SaaS软件完成的。

随着大模型的涌现，在部分场景下，人类和AI的协同进化到了Copilot模式，即AI作为人类的坚实助手，随时赞助人类的事情。
比如Notion AI和微软Copilot，人类在AI的帮助下进行写作，AI随时可以进行内容提示、扩充、修正。

而AI Agent模式，则是将人类与AI的协同进化到了新的高度，人类只是提出任务和目标，然后由AI自主完成大多数事情。
以是从人和AI互动的角度来看，AI Agent也是AGI发展过程中的必经之路。

2.2 AI Agent有哪些上风和局限？

对付用户来讲，AI Agent的紧张上风包括：

第一，以任务为导向。
AI Agent分开了传统Chatbot那种闲聊的交互模式，能够弥合措辞理解与采纳行动之间的鸿沟。
直接基于用户输入中所表示出来的意图，自动进行后续的推理和行动，可以大幅提升事情效率。

第二，自然的交互办法。
由于AI Agent本身以LLM大措辞模型为底座，固有的措辞理解和措辞天生能力，确保了自然无缝的用户交互。

第三，进化的决策能力。
AI Agent的决策能力依赖于背后的LLM大模型，虽然目前LLM大模型的决策能力还远远不如人类，但这项能力在持续不断的进化。

第四，灵巧的适应性。
在RAG和Function Calling等技能的支撑下，AI Agent可以快速适应各种不同的行业和运用处景，并通过API调用和外部环境产生交互。

但是由于LLM大模型本身固有的局限，这种局限也同样影响了AI Agent。

第一，可靠性不敷。
众所周知，LLM大模型随意马虎涌现幻觉和不一致性，将多个步骤连起来会进一步加剧可靠性问题，从而难以得到用户信赖。
举个例子，假设每个步骤LLM的可靠性是95%，如果一个任务须要被分解到5步以上，那么终极的可靠性将不到80%，这会大大限定AI Agent在一些Critical场景下的运用。

第二，法律问题。
对付企业对外输出的AI Agent，企业可能要对其产生的缺点卖力。
比如，最近一位客户由于被加拿大航空公司的谈天机器人误导而耽误航班，终极由加拿大航空予以赔偿。

第三，性能和本钱。
GPT-4、Gemini-1.5在推理和function calling的表现不错，但仍旧较慢且本钱高，特殊是须要进行循环调用和自动重试时。

对付AI Agent可靠性的问题，个中一个办理方案是Agentic Workflow，即借助人工履历进行任务分解、配置实行任务。
AI Agent在全体workflow中，更多起到意图识别、检索、归纳、分类的浸染。

比如通过workflow创建一个输出财务剖析报表的AI Agent，由人类见告AI Agent，当吸收到剖析某家公司的财务报表时，先去某财务网站搜索该公司的财务报表，然后***报表数据进行本地化存储，再提取特定字段的数据进行打算和同比，末了再以自然措辞的办法输出财务剖析报告。

对付Agentic Workflow，后面风叔将专门用一篇文章进行先容。

2.3 企业和个人为什么要关注AI Agent？

企业用户常日面临更加繁芜的业务需求，有更明确的业务场景、业务逻辑以及更多行业数据和行业知识的积累，非常适配 Agent 自主性、决策与实行、工具利用等特点，这让企业端领域成为 Agent 施展能力的绝佳舞台。

同时，AI Agent可以用工程化的思想对抗个体事情的不愿定性，过往的SOP、PDCA、OKR等管理方法可以与AI Agent进行适配，完成管理事情的科学升级。

因此，企业须要关注AI Agent，结合企业所在的行业特点以及自身的业务属性，通过AI Agent提升业务效率。
在企业的供应链、产品研发、市场营销、内部办公等环节，AI Agent都有非常多的运用处景。

比如在供应链环节，AI Agent可以运用在智能配补货、质料自动下单、库存优化、供应商协同、条约自动审查等场景。
在产品研发环节，AI Agent可以运用在产品身分剖析、新品研发建议、产品设计出图等场景。
在市场营销环节，AI Agent可以用于智能客服、精准推举、营销创意制作、广告智能投放等场景。

我们再来看AI Agent对付个人的影响。
虽然到目前为止，面向C端用户，市场上还没有涌现killer级的C端运用，包括 OpenAI 的 GPTs，实在只是用于特定知识库或数据的 Chatbot。
但是从AI的长期发展趋势来看，AI Agent一定会在越来越多的场景进行渗透。

同时，个人作为企业真个事情者，AIAgent对个人在事情效率上带来的提升，也是显而易见的。
利用AI Agent武装自己，让事情和学习效率更上一级台阶。

对付个人来讲，未来可能只有两种人，驱动Agent的人，和被Agent驱动的人。

总结

本篇文章是利用5W1H剖析框架拆解AI Agent的上篇，环绕What和Why，详细阐述了AI Agent的观点、构成、分类、产生缘故原由、上风劣势、以及对企业和个人的影响。

不才一篇文章中，风叔将环绕When、Who和Where，详细先容AI Agent的发展进程、行业玩家和详细运用处景。

作者：风叔，微信公众年夜众号：风叔云

本文由@风叔原创发布于大家都是产品经理，未经作者容许，禁止转载。

题图来自Unsplash，基于CC0协议。

该文不雅观点仅代表作者本人，大家都是产品经理平台仅供应信息存储空间做事。