近日,一项名为 AppAgent 的创新技能引起了广泛关注。

分享丨大年夜模型竟然能玩手机了还能用软件修图:「AppAgent」_庞杂_动作 智能写作

大略来说,AppAgent 的智能代理能力可以用于操作任何 App,它在 50 个繁芜手机任务上展示了强大的能力。

AppAgent 幕后团队来自腾讯,干系技能论文也已经公布。

论文地址:https://arxiv.org/abs/2312.13771主页地址:https://appagent-official.github.io/

据论文先容,这项技能通过引入一种基于大型措辞模型(LLMs)的多模态智能代理(Agent)框架,授予了智能体操作智好手机运用的能力。
与传统的智能助手如 Siri 不同,AppAgent 不依赖于系统后端访问,而是通过仿照人类的点击和滑动等操作,直接与手机运用的图形用户界面(GUI)互动。
这种独特的方法不仅提高了安全性和隐私性,还确保了智能体能够适应运用界面的变革和更新。

AppAgent 的核心在于其创新的学习办法。
智能体可以通过自主探索或不雅观察人类演示来学习如何导航和利用新运用。
在自主探索过程中,智能体通过一系列预定义的动作与运用互动,不雅观察每个动作带来的界面变革,从而构建知识库。
这个过程还可以通过不雅观察少数几个人类演示来加速,使智能体能够更快地理解繁芜功能。

为了验证其实用性,研究团队对 AppAgent 进行了广泛测试,覆盖了社交媒体、电子邮件、舆图、购物以及繁芜的图像编辑工具等 10 种不同的运用中的 50 个任务。
测试结果证明,AppAgent 在处理各种高等任务方面表现出色,显示出其适应性、用户友好性以及高效的学习和操作能力。

推特大 V Andrew Torba 评价道:「统统都结束了,自 2017 年以来全体互联网都已经是 AI 的天下。
互联网已去世的理论是真实的。
构建并推动尽可能多的基于 AI 的机器人来充斥网络空间,用赤色药丸 (来自电影《黑客帝国》) 淹没它们是唯一的出路。

推特用户 Ate-a-Pi 评价道:「它来了!
苹果的创新者困境。
如果代理完成所有事情,那么精良的智好手机用户界面有什么意义呢? 如果代理使得智好手机操作系统变得多余,苹果将怎么做?他们有多永劫光来办理这个问题?」

推特用户 Morally Clear 评价道:「AI 代理将会成为 2024 年的 ChatGPT。

也有很多用户表示了对此项技能的担心。

推特用户 Benjamin Cox 评价道:「这太猖獗了。
我们所知的运用程序可能仅仅会变成集成。
此外,机器人用户参与度指标将变得完备不可靠。

推特用户 Karma 表示了这项技能可能被用来造孽牟利:“建立一个拥有 500,000 台这样的做事器农场。
点击你在 Instagram 或 Twitter 上看到的每个广告。
短期投资你点击的广告公司并购买 Meta、X 和其他社交媒体运用的看涨期权?利润?谁在进行这项事情?”

推特用户 Logan Thorneloe 评价道:“这太酷了!
但是我知道它会被用来制造水军机器人,这让我有些担心。

方法概述

环境搭建

AppAgent 的实验环境是基于命令行界面(CLI),使得代理能与安卓系统上的智好手机运用进行交互。
代理吸收两种关键输入:一是展示运用界面的实时屏幕截图,二是详细描述交互元素的 XML 文件。
为了提升代理识别和交互这些元素的能力,每个元素都被授予了一个唯一标识符。
这些标识符要么来源于 XML 文件中的资源 ID(如果供应),要么通过结合元素的类名、大小和内容来构建。
这些以半透明数字形式覆盖在屏幕截图上的元素,帮助代理在不需指定精确位置的情形下准确互动,从而提升掌握手机的精确度。

动作空间仿照了人类与智好手机的常见交互办法,包括点击和滑动。
设计了四个基本功能:点击(Tap)、长按(Long_press)、滑动(Swipe)和文本输入(Text),以及两个别系级功能:返回(Back)和退出(Exit)。
这些预定义动作旨在简化代理的交互流程,并减少瞄准确屏幕坐标的依赖,办理了措辞模型在准确预测中可能碰着的寻衅。

App 探索阶段

探索阶段是 AppAgent 框架的核心,代理通过自主交互或不雅观察人类演示来学习运用程序的功能和特性。
在自主交互模式下,代理被分配一个任务并开始与 UI 元素进行自主互动。
它考试测验不同的动作,并不雅观察运用界面的变革以理解其事情事理。
代理通过剖析每个动作前后的屏幕截图,考试测验弄清楚 UI 元素的功能和特定动作的效果,并将这些信息编译成文档,记录下不同元素所实行动作的效果。
当一个 UI 元素被多次操作时,代理会根据之前的文档和当前的不雅观察来更新信息,以提高认知质量。

为了提高探索效率,如果当前 UI 页面彷佛与运用的紧张任务无关(如广告页面),代理将停滞进一步探索并利用 Android 系统的返回功能返回到前一个 UI 页面。
这种目标导向的探索方法,比较随机探索(如深度优先搜索和广度优先搜索),确保代理专注于对运用有效操作至关主要的元素。
此外,代理还利用措辞模型的现有关于用户界面的知识来提高探索效率,直到完身分派的任务。

在通过不雅观察人类演示进行探索的办法中,代理通过不雅观察人类用户的操作来学习运用的繁芜功能,这对付那些可能难以通过自主交互创造的功能尤其有效。
在此方法中,代理记录人类利用的元素和动作,这种策略缩小了探索空间,并阻挡代理与无关的运用页面进行交互,从而比自主交互更为高效和有条理。

AppAgent 通过不雅观察 app 的操作相应来理解 UI 界面功能和操作逻辑,并整理成文档

支配阶段

经由探索阶段的演习,AppAgent 已准备好实行基于其累积履历的繁芜任务。
在支配阶段,代理遵照逐步方法,每一步都包括获取当前用户界面的屏幕截图和一个动态天生的文档,详细描述了用户界面元素的功能和当前用户界面页面上动作的效果。
代理首先对当前用户界面进行不雅观察,然后阐述其关于任务和当前不雅观察的思考过程。
随后,代理通过调用可用函数实行动作。
每次动作后,代理总结交互历史和当前步骤中采纳的动作。
这些信息被整合进下一个提示中,为代理供应了一种影象形式。
这种细致的方法提高了代理动作的可靠性和可阐明性,从而促进了更明智的决策。
支配阶段持续进行,直到代理确定任务已经完成,此时它可以通过实行退出(Exit)动作结束过程。

支配阶段,AppAgent 参考整理好的文档,不断的不雅观察思考总结来完成繁芜的任务。

实验结论

AppAgent 通过一系列的量化和定性实验,证明了其在操控多样化智好手机运用方面的显著能力。
该评估涉及了 10 种广泛利用的运用,覆盖了从社交媒体、舆图导航到音乐播放和图片编辑等多个领域。
通过特殊针对 Adobe Lightroom 这一图像编辑运用的深入案例研究,AppAgent 的视觉处理能力得到了详尽的稽核。

AppAgent 采取了前辈的多模态大型措辞模型 GPT-4 来处理交错的图像和文本输入,这种独特的能力使其能够无缝地阐明和互动运用中的视觉及文本信息。
实验结果表明,通过简化动作空间的设计,AppAgent 在准确性和效率上大幅度超越了原始的 GPT-4 模型。
这紧张是由于简化动作空间肃清了对天生精确 xy 坐标的需求,这是传统措辞模型的一个寻衅点。
在成功率、褒奖和均匀步骤数三个关键性能指标上,AppAgent 表现精良。
即便在任务步骤上碰着失落败,它也能根据其终极状态得到一定的褒奖分数,这反响出其在理解和实行任务方面的适应性和韧性。
特殊是在多样化的运用中,AppAgent 通过有效地完成任务,展现了其出色的操作能力。

通过自主探索和不雅观察人类演示天生的文档,AppAgent 的性能显著优于仅依赖原始 GPT-4 模型的基线。
这些文档的有效性与人工编写的文档相媲美,凸显了设计在增强代理跨多样化运用表现的有效性。
定性结果进一步证明了 AppAgent 在准确感知、推理和相应任务哀求方面的能力。

在 Adobe Lightroom 的案例研究中,AppAgent 对具有不同视觉问题的图片进行编辑,展现了其处理视觉任务的高等能力。
用户研究的结果显示,相较于 GPT-4 基线,AppAgent 在图像编辑质量上有了明显提升。
尤其是在利用不雅观察演示天生的文档时,AppAgent 方向于利用更多工具来提升图像质量,而 GPT-4 基线常日利用较少的工具。

总而言之,AppAgent 在多项任务中展示了出色的性能温柔应性。
其创新的多模态框架和有效的探索策略,不仅验证了 AppAgent 的实用性,还为智能代理在理解和操作多样化智好手机运用方面的研究供应了宝贵的见地和基准。

用 AppAgent 操作 Lightroom 修图软件修图的例子

总结

腾讯的 AppAgent 技能标志着智能代理领域的一个重大进步,不仅提升了多模态大型措辞模型在实际运用中的能力,而且开辟了未来智好手机运用操作和交互的新境界。
这项技能的核心上风在于其创新性和灵巧性:通过仿照人类的互动办法,AppAgent 能够直接与运用的图形用户界面进行交互,从而摆脱了对传统后端接口的依赖。
这不仅提高了操作的安全性和隐私性,而且使得智能体能够更加灵巧地适应运用界面的变革和更新。

AppAgent 的多模态学习框架,结合自主探索和不雅观察人类演示的办法,使其能够快速适应和节制新运用,无论是处理繁芜的图像编辑任务,还是导航繁芜的社交媒体平台。
这种学习方法的高效性温柔应性,证明了 AppAgent 在理解和实行多样化任务方面的高等能力,同时也突显了其在未来运用开拓和用户体验改进中的巨大潜力。

随着技能的不断进步和优化,我们可以期待 AppAgent 在多个领域中的运用,如提高事情效率、改进用户体验、赞助残障人士等。
AppAgent 的成功不仅为智能代理技能的发展树立了新的里程碑,而且为我们如何与智好手机和其他智能设备互动供应了全新的视角。
它不仅有望改变个人用户的日常生活,还可能对商业、教诲和互联网等行业产生深远影响。