这篇论文先容了一种新的打算机仿照软件,称为“天生代理”,可以仿照逼真的人类行为。
这些天生代理可以像真实人一样进行日常生活行为,例如起床做早餐、去上班、形成见地、相互把稳到并开始对话等。
为了实现天生代理,论文提出了一种架构,该架构基于大型措辞模型,可以存储天生代理的自然措辞体验记录,并将这些影象随着韶光的推移合成为更高层次的反思,然后动态检索这些反思以方案行为。
论文还展示了如何将这些天生代理实例化,用于添补一个类似于《仿照城市》的互动沙箱环境,该环境可与二十五个天生代理进行自然措辞交互。
在评估中,这些天生代理产生了可信的个体和群体行为,例如从一个用户指定的不雅观念开始,即一个代理想举办情人节派对,代理们在接下来的两天内自主传播派对的约请,结交新朋友,相互约请参加派对,并折衷在精确的韶光一起参加派对。
论文通过溶解证明了天生代理架构的各个组成部分——不雅观察、操持和反思——对付代理行为的可信度都至关主要。
通过将大型措辞模型与打算交互代理相结合,该事情为实现逼真的人类行为仿照供应了架构和交互模式。

论文链接:
https://www.aminer.cn/pub/64337e3190e50fcafd76ef32/

AI改造之路:14篇AI Agents论文磋商人工智能未来_编纂器_论文 智能写作

三、Introspective Tips: Large Language Model for In-Context Decision Making

这篇论文谈论了利用大型措辞模型 (LLM) 进行高下文决策制订的方法。
近年来,大型措辞模型 (LLM) 已经在自然措辞处理领域产生了重大影响,在多种任务中取得了出色的结果。
在这项研究中,作者利用“自察提示”来帮助 LLM 自我优化其决策制订。
通过自察地检讨轨迹,LLM 天生简洁且有代价的提示,来改进其政策。
这种方法在很少或没有示例的情形下提高了代理的表现,考虑了三个主要场景:从代理过去的履历中学习、集成专家演示,并泛化到不同的游戏。
主要的是,我们实现这些改进并不须要微调 LLM 参数,而是调度提示以概括上述三个场景的洞察力。
我们的框架不仅支持,而且强调利用 LLM 进行高下文决策制订的上风。
通过超过 100 个 TextWorld 游戏的实验,我们展示了我们的方法的上风。
论文链接:
https://www.aminer.cn/pub/646aecaad68f896efa05a6f6

四、Interactive Natural Language Processing

这篇论文综述了交互自然措辞处理 (iNLP) 的观点及其在不同领域的运用。
iNLP 是一种新兴的自然措辞处理 (NLP) 范式,旨在办理现有框架中存在的限定,同时与人工智能的终极目标保持同等。
在这个框架中,措辞模型被视为能够不雅观察、行动和从外部实体得到反馈的代理。
详细而言,措辞模型可以与人类进行交互,更好地理解和知足用户需求,个性化回答,符合人类代价不雅观,并改进用户体验;与知识库进行交互,增强措辞表示,提高相应的高下文干系性,并动态利用外部信息天生更准确、明智的回答;与模型和工具进行交互,有效地分解和处理繁芜的任务,利用特定领域的专业知识办理特定子任务,并促进社交行为仿照;与环境进行交互,学习着地表示措辞,有效处理推理、操持和决策等任务。
该论文提出了 iNLP 的统一定义和框架,并对 iNLP 进行分类,包括交互工具、交互界面和交互方法等各个组件。
此外,论文还磋商了该领域的评估方法、运用、伦理和安全问题,并谈论了未来的研究方向。
该综述论文为对 iNLP 感兴趣的研究职员供应了一个全面的指南,并为该领域确当前景不雅观和未来趋势供应了一个广阔的视角。

论文链接:
https://www.aminer.cn/pub/646c3addd68f896efa5d195b/

五、Voyager: An Open-Ended Embodied Agent with Large Language Models

Voyager是 Minecraft 中第一个由 LLM 驱动的嵌入式终生学习代理,可以在没有人类干预的情形下不断探索天下、获取各种技能并做出新创造。
Voyager由三个关键部分组成:

1)最大化探索的自动课程;
2)用于存储和检索繁芜行为的不断增长的可实行代码技能库;
3)结合环境反馈、实行缺点和自我验证以改进程序的全新迭代提示机制。

Voyager 通过黑盒查询与 GPT-4 进行交互,从而避免了模型参数微调的须要。
Voyager 所开拓的技能具有韶光扩展性、可阐明性和组合性,能迅速增强代理的能力,减少灾害性遗忘。
从履历上看,Voyager表现出很强的在情境中终生学习的能力,在玩 Minecraft 时表现出非凡的闇练程度。
与之前的 SOTA 比较,它得到的独特物品数量增加了 3.3 倍,旅行间隔延长了 2.3 倍,解锁关键技能树里程碑的速率提高了 15.3 倍。
Voyager 能够在新的 Minecraft 天下中利用学习到的技能库从头开始办理新任务,而其他技能则很难做到这一点。

论文链接:
https://www.aminer.cn/pub/64702deed68f896efa5202ea/

六、Decision-Oriented Dialogue for Human-AI Collaboration

这篇论文描述了一种名为“决策导向对话”的人机互助方法,用于帮助人类做出繁芜决策。
在该方法中,人工智能助手必须与一个或多个人类通过自然措辞进行互助,以帮助用户做出最佳决策。
论文涵盖了三个日常决策场景:选择将审稿人分配给会议论文、在城市中进行多步骤旅行操持以及与朋友协商旅行操持。
在这些场景中,人工智能助手和用户拥有不同的能力和需求,必须相互结合以做出最佳决策。
为了每个任务,论文建立了一个对话环境,使代理人根据他们终极决策的质量得到褒奖。
利用这些环境,论文网络了人类与人类之间的对话,人类扮演助手的角色。
为了比较当古人工智能助手在这些场景中的沟通能力,论文还供应了基于大型措辞模型的自我对弈的根本线。
末了,论文强调了决策导向对话中面临的许多寻衅,包括高效沟通、推理和优化,并开释了我们的环境作为未来建模事情的测试平台。
论文链接:
https://www.aminer.cn/pub/647817b2d68f896efa85106e/

七、Minimum Levels of Interpretability for Artificial Moral Agents

这篇论文的主题是人工道德代理(AMA)的最低可阐明性水平。
随着人工智能(AI)模型的不断扩展和运用,如何理解和信赖这些模型的内部推理机制变得尤为主要。
对付参与道德决策的模型,即人工道德代理,可阐明性供应了一种路子。
本文概述了这个迅速发展的 AI 可阐明性子领域,并引入了“最低可阐明性水平”(MLI)的观点,为各种类型的代理在现实天下的安全支配供应了建议。

论文链接:
https://www.aminer.cn/pub/64a39885d68f896efa31e1ca/

八、Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration

这篇论文紧张磋商如何在大型措辞模型(LLM)中实现认知协同浸染,以提高其办理繁芜任务的能力。
只管 LLM 作为通用任务办理代理表现出一定的性能,但在须要深入领域知识和繁芜推理的任务中,它们仍旧存在寻衅。
作者提出了一种名为 Solo Performance Prompting(SPP)的方法,通过与多个角色进行多轮自我协作,将单个 LLM 转变为认知协同者。
这种认知协同者是指一个智能代理,它与多个智能体互助,结合各自的上风和知识,以提高在繁芜任务中的问题办理和整体性能。
通过根据任务输入动态识别和仿照不同的角色,SPP 开释了 LLM 中认知协同的潜力。
作者创造,为 LLM 分配多个、细粒度的角色比利用单个或固天命量的角色能更好地办理问题。
SPP 在三个具有寻衅性的任务上进行评估:知识密集型的 Trivia 创意写作,推理密集型的 Codenames 协作和 Logic Grid 谜题。
与仅提高 LLM 推理能力的先前事情(如 Chain-of-Thought)不同,SPP 有效地引发了内部知识获取能力,减少了虚构征象,并保持了强大的推理能力。
干系代码、数据和提示可访问:https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git

论文链接:
https://www.aminer.cn/pub/64ae259c3fda6d7f0658f403/

九、Communicative Agents for Software Development

这篇论文先容了一种用于软件开拓的通信代理范式,该范式利用大型措辞模型在全体软件开拓过程中进行自然措辞沟通,简化和统一关键过程,从而肃清了每个阶段须要专门模型的须要。
该范式的核心是 ChatDev,一个由谈天驱动的软件 development 公司,类似于传统的瀑布模型,将开拓过程分为四个明显的韶光阶段:设计、编码、测试和文档。
每个阶段都涉及一组代理,如程序员、代码审查职员和测试工程师,促进协为难刁难话并供应无缝事情流程。
谈天链充当促进者,将每个阶段分解为原子子任务,从而具有双重角色,许可提出和验证办理方案,以高效办理特定子任务。
instrumental analysis of ChatDev 表明,它具有出色的软件天生能力,能够在不到七分钟内完玉成部软件开拓过程,本钱不到 1 美元。
它不仅识别和缓解潜在漏洞,而且还纠正潜在幻觉,同时保持出色的效率和本钱效益。
ChatDev 的潜力揭示了将 LLMs 集成到软件开拓中的新可能性。

论文链接:
https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaea2a/

十、AgentBench: Evaluating LLMs as Agents

这篇论文先容了一个名为 AgentBench 的多维度蜕变基准,用于评估大型措辞模型 (LLM) 作为智能体的能力。
随着 LLM 变得越来越智能和自主,在传统自然措辞处理任务之外的现实天下实用任务中发挥浸染,因此评估 LLM 在交互环境中的寻衅性任务上作为智能体的能力变得紧迫。
论文测试了 25 个 LLM(包括 API 和开源模型),创造顶级商业 LLM 在繁芜环境中作为智能体的表现很强,但与开源竞争者之间存在显著的性能差距。
该基准是正在进行的一个更广泛覆盖和更深入考虑系统评估 LLM 的项目的一部分。
干系数据集、环境和 AgentBench 的集成评估软件包已发布在 https://github.com/THUDM/AgentBench 上。

论文链接:
https://www.aminer.cn/pub/64d1bdf93fda6d7f06ec4af3

十一、Forming Effective Human-AI Teams: Building Machine Learning Models that Complement the Capabilities of Multiple Experts

论文涉及的问题是在与人类专家共同事情的运用领域中,如何构建机器学习模型以补充多个专家的能力。
之前的研究紧张集中在只有一个不同专家的场景上,但实际情形中可能有多个能力不同的专家可供选择。
为理解决这个问题,该论文提出了一种演习分类模型的方法,使其能够补充多个人类专家的能力。
通过与分配系统一起进行联合演习,分类器学习准确预测那些对人类专家来说很难预测的实例,而分配系统学习将每个实例分配给最得当的团队成员,可以是分类器或某个人类专家。
该方法在多个实验中利用“合成”专家的公共数据集和由多个放射科年夜夫注释的真实医疗数据集进行评估。
该方法优于之前的研究,比最好的人类专家或分类器更准确。
此外,该方法适应能力强,可以灵巧地适应不同规模和不同水平的专家多样性的团队。

论文链接:
https://www.aminer.cn/pub/634d809c90e50fcafd4e75bc

十二、Human-AI Symbiosis: A Survey of Current Approaches

这篇论文旨在对人工智能与人类协同互助的不同方法进行全面概述。
文章突出了人类与 AI 团队互助的各个方面,如互补流程、任务范围、模型表示、知识层次和团队目标,并根据这些维度对近年来的事情进行分类。
作者希望这份调查能为人工智能与人类团队之间的研究供应更清晰的联系,并给该领域的新研究职员供应辅导。

论文链接:
https://www.aminer.cn/pub/6054791591e0116f82f2d5f4/

十三、MindCraft - Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks

这篇论文紧张研究了如何让自主代理能够在人类天下中以人类的办法进行互助。
个中,心智理论在人类互助和互换中起着重要的浸染。
为了实现心智理论建模在情境交互中的运用,作者引入了一个由人类主体在 Minecraft 的 3D 虚拟方块天下中实行的协作任务的细粒度数据集。
这个数据集供应了在交互过程中互助伙伴对天下和对方的信念信息,为研究人类在情境措辞互换中的协作行为供应了丰富的机会。
作为实现我们目标的第一步,即开拓能够推断协作伙伴情境信念状态的具身 AI 代理,我们构建并展示了打算模型对付几种心智理论任务的结果。

论文链接:
https://www.aminer.cn/pub/614164545244ab9dcb9dd85a/

十四、It Takes Two to Tango: Towards Theory of AI's Mind

这篇论文谈论了人工智能(AI)与人类协作的必要性,并提出了一种名为“AI 心智理论(ToAIM)”的方法。
论文认为,要让人机协作团队有效运作,不仅要让 AI 更理解人类,还要让人类更好地理解 AI。
作者在视觉问答(VQA)领域中实例化了这些不雅观点,创造只需利用少量示例(50 个),非专业人士就可以通过演习更好地预测繁芜 VQA 模型的相应和即将涌现的故障。
此外,论文还评估了现有阐明(或可阐明性)方法在帮助人类建立 ToAIM 方面的浸染。
出人意料的是,得到模型内部状态——例如对前 k 个预测的置信度、显式或隐式把稳力争等——并不能帮助人们更好地预测其行为。

论文链接:
https://www.aminer.cn/pub/599c7971601a182cd263e0b6
来源:"大众号【AMiner科技】

Illustration by IconScout Store from IconScout

-The End-

扫码不雅观看!

本周上新!

“AI技能流”原创投稿操持

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。
社区上线480+期talk***,2400+篇技能干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上互换活动,不定期举办技能人线下聚会互换活动。
我们正在努力成为AI人才喜好的高质量、知识型互换平台,希望为AI人才打造更专业的做事和体验,加速并陪伴其发展。

投稿内容

// 最新技能解读/系统性知识分享 //

// 前沿资讯讲授/心得经历讲述 //

投稿须知

稿件须要为原创文章,并标明作者信息。

我们会选择部分在深度技能解析及科研心得方向,对用户启示更大的文章,做原创性内容褒奖

投稿办法

发送邮件到

chenhongyuan@thejiangmen.com

或添加事情职员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众年夜众号,后台回答“投稿”二字,得到投稿解释。

>>> 添加