机器之心编辑部

Windows、Office直接上手大年夜模型智能体操作电脑太6了_模子_准确 智能问答

当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。
贾维斯不仅是托尼・斯塔克的得力助手,更是他与前辈科技的沟通者。
如今,大模型的涌现颠覆了人类利用工具的办法,我们或许离这样的科幻场景又近了一步。
想象一下,如果一个多模态 Agent,能够直接像人类一样通过键盘和鼠标直接操控我们身边的电脑,这将是多么令人振奋的打破。

AI助手贾维斯

近期,吉林大学人工智能学院发布了一项利用视觉大措辞模型直接掌握电脑 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,它将这一想象映射进了现实。
该事情提出了 ScreenAgent 模型,首次探索在无需赞助定位标签的情形下,利用 VLM Agent 直接掌握电脑鼠标和键盘,实现大模型直接操作电脑的目标。
此外,ScreenAgent 通过「操持-实行-反思」的自动化流程首次实现对 GUI 界面的连续掌握。
该事情是对人机交互办法的一次探索和改造,同时开源了具备精准定位信息的数据集、掌握器、演习代码等。

论文地址:https://arxiv.org/abs/2402.07945项目地址:https://github.com/niuzaisheng/ScreenAgent

ScreenAgent 可以帮助用户轻松实现在线娱乐活动,购物,旅行,阅读等也不在话下。
它还可以是最理解你的知心管家,帮助用户管理个人电脑。
乃至无需动手,就帮助用户实现快速办公,成为你最得力的办公助手!
话不多说,直接看效果。

带你网上冲浪,实现娱乐自由

ScreenAgent 根据用户文本描述上网查找并播放指定的***:

系统操作管家,授予用户高阶技能

让 ScreenAgent 打开 Windows 的事宜查看器:

节制办公技能,轻松玩转 office

此外,ScreenAgent 可以利用 office 办公软件。
例如根据用户文本描述,删除所打开的第二页 PPT:

谋定而后动,知止而有得

对付要完成某一任务,在任务实行前必须要做好方案活动。
ScreenAgent 可以在任务开始前,根据不雅观测到的图像和用户需求,进行方案,例如:

将***播放速率调至 1.5 倍速:

在 58 同城网站上搜索二手迈腾车的价格:

在命令行里安装 xeyes:

视觉定位能力迁移,鼠标选定无压力

ScreenAgent 还保留了对付自然事物的视觉定位能力,可以通过鼠标拖拽的办法绘制出物体的选框:

方法

事实上,要教会 Agent 与用户图形界面直接交互并不是一件大略的事情,须要 Agent 同时具备任务方案、图像理解、视觉定位、工具利用等多种综合能力。
现有的模型或交互方案都存在一定妥协,例如 LLaVA-1.5 等模型缺少在大尺寸图像上的精确视觉定位能力;GPT-4V 有非常强的任务方案、图像理解和 OCR 的能力,但是谢绝给出精确的坐标。
现有的方案须要在图像上人工标注额外的数字标签,并让模型选择须要点选的 UI 元素,例如 Mobile-Agent、UFO 等项目;此外,CogAgent、Fuyu-8B 等模型可以支持高分辨率图像输入并有精确视觉定位能力,但是 CogAgent 缺少完全函数调用能力,Fuyu-8B 则措辞能力欠缺。

为理解决上述问题,文章提出为视觉措辞模型智能体(VLM Agent)构建一个与真实打算机屏幕交互的全新环境。
在这个环境中,智能体可以不雅观察屏幕截图,并通过输出鼠标和键盘操作来操纵图形用户界面。
为了勾引 VLM Agent 与打算机屏幕进行持续的交互,文章构建了一个包含「操持-实行-反思」的运行流程。
在操持阶段,Agent 被哀求将用户任务拆解为子任务。
在实行阶段,Agent 将不雅观察屏幕截图,给出实行子任务的详细鼠标和键盘动作。
掌握器将实行这些动作,并将实行结果反馈给 Agent。
在反思阶段,Agent 不雅观察实行结果,并剖断当前的状态,选择连续实行、重试或调度操持。
这一流程持续进行,直到任务完成。
值得一提的是,ScreenAgent 无需利用任何笔墨识别或图标识别模块,利用端到真个办法演习模型所有的能力。

ScreenAgent 环境参考了 VNC 远程桌面连接协议来设计 Agent 的动作空间,包含最根本的鼠标和键盘操作,鼠标的点击操作都须要 Agent 给出精确的屏幕坐标位置。
比较起调用特定的 API 来完成任务,这种办法更加通用,可以适用于各种 Windows、Linux Desktop 等桌面操作系统和运用程序。

ScreenAgent 数据集

为了演习 ScreenAgent 模型,文章人工标注了具备精准视觉定位信息的 ScreenAgent 数据集。
这一数据集涵盖了丰富的日常打算机任务,包括了 Windows 和 Linux Desktop 环境下的文件操作、网页浏览、游戏娱乐等场景。

数据集中每一个样本都是完成一个任务的完全流程,包含了动作描述、屏幕截图和详细实行的动作。
例如,在亚马逊网站上「将最便宜的巧克力加入到购物车」的案例,须要先在搜索框中搜索关键词,再利用过滤器对价格进行排序,末了将最便宜的商品加入购物车。
全体数据集包含 273 条完全的任务记录。

实验结果

在实验剖析部分作者将 ScreenAgent 与多个现有的 VLM 模型从各个角度进行比较,紧张包括两个层面,指令跟随能力和细粒度动作预测的精确率。
指令跟随能力紧张磨练模型能否精确输出 JSON 格式的动作序列和动作类型的精确率。
而动作属性预测的精确率则比较每一种动作的属性值是否预测精确,例如鼠标点击的位置、键盘按键等。

指令跟随

在指令跟随方面,Agent 的紧张任务便是能够根据提示词输出精确的工具函数调用,即输出精确的 JSON 格式,在这方面 ScreenAgent 与 GPT-4V 都能够很好的遵照指令,而原版的 CogAgent 由于在视觉微调演习时缺少 API 调用形式的数据的支撑,反而损失了输出 JSON 的能力。

动作属性预测的精确率

从动作属性的精确率来看,ScreenAgent 也达到了与 GPT-4V 相称的水平。
值得把稳的是,ScreenAgent 在鼠标点击的精确度上远远超过了现有模型。
这表明视觉微调有效增强了模型的精确定位能力。
此外,我们还不雅观察到 ScreenAgent 在任务方案方面与 GPT-4V 比较存在明显差距,这凸显了 GPT-4V 的知识知识和任务方案能力。

结论

吉林大学人工智能学院团队提出的 ScreenAgent 能够采取与人类一样的掌握办法掌握电脑,不依赖于其他的 API 或 OCR 模型,可以广泛运用于各种软件和操作系统。
ScreenAgent 在「操持-实行-反思」的流程掌握下,可以自主地完成用户给定的任务。
采取这样的办法,用户可以看到任务完成的每一步,更好地理解 Agent 的行为想法。

文章开源了掌握软件、模型演习代码、以及数据集。
在此根本上可以探索更多迈向通用人工智能的前沿事情,例如在环境反馈下的强化学习、Agent 对开放天下的主动探索、构建天下模型、Agent 技能库等等。

此外,AI Agent 驱动的个人助理具有巨大的社会代价,例如帮助肢体受限的人群利用电脑,减少人类重复的数字劳动以及遍及电脑教诲等。
在未来,或许不是每个人都能成为像钢铁侠那样的超级英雄,但我们都可能拥有一位专属的贾维斯,一位可以陪伴、赞助和辅导我们的智能伙伴,为我们的生活和事情带来更多便利与可能。