首个交互式网页搜索的中文问答开源框架清华人大年夜腾讯宣告WebCPM_模子_相干

2024-09-11 21:10:27 智能写作

机器之心编辑部

首个交互式网页搜索的中文问答开源框架清华人大年夜腾讯宣告WebCPM_模子_相干智能写作

2021 年 12 月 WebGPT 的横空出世标志了基于网页搜索的问答新范式的出身，在此之后，New Bing 首先将网页搜索功能整合发布，随后 OpenAI 也发布了支持联网的插件 ChatGPT Plugins。
大模型在联网功能的加持下，回答问题的实时性和准确性都得到了飞跃式增强。

近期，来自清华、人大、腾讯的研究职员共同发布了中文领域首个基于交互式网页搜索的问答开源模型框架 WebCPM，干系事情任命于自然措辞处理顶级会议 ACL 2023。

论文地址：https://arxiv.org/abs/2305.06849

项目地址：https://github.com/thunlp/WebCPM

WebCPM 是开源大模型工具学习引擎BMTools的首个成功实践，其特点在于其信息检索基于交互式网页搜索，能够像人类一样与搜索引擎交互从而网络回答问题所须要的事实性知识并天生答案。
WebCPM 背后的根本模型 CPM 是由面壁智能与 OpenBMB 开源社区开拓的百亿参数中文措辞模型，霸占多个中文领域措辞模型排行榜前列。

WebCPM 研究背景

在当今信息化时期，人们在日常生活和事情中，须要不断地获取各种知识和信息，而这些信息每每分散在互联网上的海量数据中。
如何快速、准确地获取这些信息，并且对这些信息进行合理的整合，从而回答繁芜、开放式问题，是一个极具寻衅性的问题。
长文本开放问答（Long-form Question Answering, LFQA）模型便是为了回答这种繁芜的问题而设计的。

目前的 LFQA 办理方案常日采取检索 - 综合范式，包括信息检索和信息综合两个核心环节。
信息检索环节从外部知识源（如搜索引擎）中搜索多样化的干系支持事实，信息综合环节则将搜集到的事实整合成一个连贯的答案。

然而，传统的 LFQA 范式存在一个毛病：它常日依赖于非交互式的检索方法，即仅利用原始问题作为查询语句来检索信息。
相反，人类能够通过与搜索引擎实时交互来进行网页搜索而筛选高质量信息。
对付繁芜问题，人类每每将其分解成多个子问题并依次提问。
通过识别和浏览干系信息，人类逐渐完善对原问题的理解，并不断查询新问题来搜索更多样的信息。
这种迭代的搜索过程有助于扩大搜索范围，提高搜索结果质量。
总体而言，交互式网页搜索不仅为我们供应了获取多样化信息来源的路子，同时也反响了人类办理问题的认知过程，从而提高了可阐明性。

微软整合 OpenAI ChatGPT 搭建新必应系统

2021 年 12 月 OpenAI 发布 WebGPT，这是支持 LFQA 的交互式网页搜索的一项先驱性事情。
作者首先构建了一个由微软必应搜索（Bing）支持的网页搜索界面，然后招募标注员利用该界面网络信息来回答问题。
然后微调 GPT-3 模型，让其模拟人类的搜索行为，并将网络到的信息整理成答案。
实验结果显示，WebGPT 在 LFQA 任务具备出色的能力，乃至超过了人类专家。
而 WebGPT 也正是微软近期推出的 New Bing 背后的新一代搜索技能。

只管效果十分惊人，但 WebGPT 、New Bing 对学术圈和工业界来说仍旧充满神秘感。
这是由于 WebGPT 的干系细节并未完备公开，其核心设计元素的事情事理也不透明。
鉴于当前交互式网页搜索的主要代价，我们急迫须要一个标准数据集与干系的开源模型以支持后续研究。

WebCPM 搜索交互界面和数据集

WebCPM 搜索交互界面。

为推动干系领域发展，这篇 ACL 论文的研究团队首先构建了一个开源的交互式网页搜索界面，用于记录人类为开放式问题网络干系信息时的网页搜索行为。
该界面底层调用必应搜索 API 支持网页搜索功能，席卷 10 种主流网页搜索操作（如点击页面、返回等等）。
在这个界面中，用户可以实行预定义的操作来进行多轮搜索和浏览。
在找到网页上的干系信息时，他们可以将其作为支持事实记录下来。
当网络到足够的信息后，用户可以完成网页搜索，并根据网络到的事实来回答问题。
同时，界面会自动记录用户的网页浏览行为，用于构建 WebCPM 数据集。

WebCPM 数据集与干系问答数据集的比较。

基于这个界面，作者构建了中文领域首个基于交互式网页搜索的 LFQA 数据集。
它包含 5,500 对高质量的问题 - 答案对以及十万多条真实用户网页搜索行为。
与现有的中文问答数据集比较，WebCPM 的问题、支持事实和答案都更长，表示了其问题的繁芜性和答案内容的丰富性。

WebCPM 模型框架

作者提出了的 WebCPM 框架包括：搜索模型与答案综合模型。

WebCPM 模型框架

搜索模型

该模型模拟人类网页搜索行为、与搜索引擎交互并进行信息检索。
作者将网页搜索任务划分为 3 个子任务：搜索行为预测（action prediction）、查询语句天生（search query generation）和支持事实择要（supporting fact extraction）。
搜索行为预测模块在每一步决定实行哪个详细的搜索行为。
该模块可以调用其它两个模块来天生下一步查询语句或摘录主要信息。
每个子任务都基于天生式中文大模型来演习。
通过组合 3 个演习得到的模块，该模型能够在搜索引擎界面上实行一系列操作以网络与问题干系的信息。
每个模块在当前界面状态的条件下实行推理。
包括原始问题、当前搜索的查询语句、历史操作序列

，上一个窗口和当前窗口中显示的内容和、当前已经摘录的支持事实

。

答案综合模型

该模型根据原问题与网络到的事实天生连贯的答案。
然而与人类不同，经由演习的搜索模型偶尔会网络到不干系的噪声，这将影响天生答案的质量。
为理解决这一问题，作者在答案综合模型的演习数据中引入噪声，使其具备一定的去噪的能力，从而忽略不干系的事实，只关注主要的事实以天生答案。

作者首先对每个子模块分别评估，然后，将所有模块组合起来形成整体的 pipeline，并测试厥后果。
末了，作者对每个模块的性能进行深入剖析。

单个子任务的性能评估结果，作者测试了包括 CPM 模型在内的多个有代表性的中文大模型。

单个子任务评估

作者测试了多个有代表性的中文大模型，并得出以下结论（结果如上图所示）：不同模型在四个子任务上的性能各有利害。
例如在搜索行为预测、查询语句天生和支持事实择要中，mT0 的表现优于 mT5，但在综合信息方面表现较差。
此外，CPM 系列模型的性能随着模型参数量的增加也不断提高。
得益于 scaling law ，更大的模型常日拥有更强的理解和天生能力，能表现出更好的下贱任务性能。

整体 pipeline 评测

对付每个测试问题，作者比较了模型（CPM 10B 模型）和人类用户利用搜索引擎回答问题和做相同任务的表现，并进行人工评测。
详细而言，给定一个问题和模型与人类分别给出的答案，标注员将根据多个成分（包括答案整体实用性、连贯性和与问题的干系性）决定哪个答案更好。
从下图 (a) 的结果可以得出以下结论：模型天生的答案在 30%+ 的情形下与人写的答案相称或更优。
这个结果表明全体问答系统的性能在未来仍有巨大的提升空间（例如演习性能更加强大的基底模型）；当将人工网络的事实运用于信息综合模型时，性能提高到了 45%，这可以归因于网络的事本色量的提高。

整体 pipeline 评测效果，作者测试了 WebCPM 数据集和 DuReader 数据集

此外，作者也将整体 pipeline 运用于 DuReader 中文 QA 数据集（包含 Zhidao 和 Search 两个子数据集），并比较了模型天生的答案和人工标注的答案，从上图 (b) 可以不雅观察到模型天生的答案比 DuReader 标注答案更好的情形靠近 50%，这反响了该模型强大的泛化能力，表示了 WebCPM 数据标注的高质量。

WebCPM 案例剖析

为了探究查询模块所学习到的人类行为，作者抽样不同测试问题天生的查询语句来进行案例剖析。
下图展示了部分结果，以研究查询模块的性能。
可以看出，该模块已经学会了复制原始问题，将问题分解为多个子问题，用干系术语改写问题等多种人类搜索策略。
这些策略使查询语句更加多样化，有助于从更多的来源网络更丰富的信息。

WebCPM 成功实践 BMTools

近年来，大模型在诸多领域展现出惊人的运用代价，持续刷新各种下贱任务的效果上限。
只管大模型在很多方面取得了显著的成果，但在特定领域的任务上，仍旧存在一定的局限性。
这些任务每每须要专业化的工具或领域知识才能有效办理。
因此，大模型须要具备调用各种专业化工具的能力，这样才能为现实天下任务供应更为全面的支持。
最近，

新的范式大模型工具学习（Tool Learning）

应运而生。
这一范式的核心在于将专业工具与根本模型的上风相领悟，以在问题办理方面达到更高的准确性、效率和自主性，工具学习极大地开释了大模型的潜力。

在运用方面，ChatGPT Plugins 的涌现补充了 ChatGPT 末了的短板，使其可以支持连网、办理数学打算，被称为 OpenAI 的 “App Store” 时候。
然而直到现在，它仅支持部分 OpenAI Plus 用户，大多数开拓者仍旧无法利用。
为此，工具学习引擎 BMTools 也应运而生，它是一个基于措辞模型的开源可扩展工具学习平台。
研发团队将各种各样的工具（例如文生图模型、搜索引擎、股票查询等）调用流程都统一到一个框架上，使全体工具调用流程标准化、自动化。
开拓者可以通过 BMTools，利用给定的模型（ChatGPT、GPT-4）调用多种多样的工具接口，实现特定功能。
此外，BMTools 工具包也已集成最近爆火的 Auto-GPT 与 BabyAGI。

BMTools 工具包：https://github.com/OpenBMB/BMTools工具学习综述链接：https://arxiv.org/abs/2304.08354工具学习论文列表：https://github.com/thunlp/ToolLearningPapers

WebCPM 是 BMTools 的一次成功实践，相信在不断发展和完善大模型工具学习技能的过程中，大模型工具学习的范式将会有更加广泛的运用。