人工智能学会数学推理了考试造诣比CS博士还高_模子_数学
编辑:杜伟、陈萍
这是措辞模型推理能力的一个主要里程碑。
AI 在数学方面也有超越人类的趋势了?
昨天,谷歌提交的一篇论文引发了机器学习圈的关注,其提出的措辞模型学会了人类做数学题时的方法「一步一步推理」。
在 MATH 数据集上,谷歌的新模型能实现 50% 的准确率——此前对人类的评测结果是:「一个不特殊喜好数学的打算机科学博士生能答对大约 40%,而三届国际数学奥林匹克竞赛(IMO)金牌得主能达到 90%。」
措辞模型在各种 NLP 任务上都表现出了卓越的性能。事实上,在浩瀚研究中科研职员总结出一条履历,即以无监督办法在大规模不同数据上演习的神经网络,在不同任务上表现更好。这条履历也适用于 BERT、GPT-3、Gopher 和 PaLM 在内的模型。
和人类比较,在定量推理方面,措辞模型的差距还很大。想让措辞模型能够办理数学和科学类问题,措辞模型还须要节制各种综合技能,这些技能包括模型能够利用自然措辞和数学符号精确解析问题、可以准确利用干系公式和常数、以及天生涉及数值打算和符号操作的办理方案。
但这些都面临着寻衅,人们常日认为,利用机器学习来办理议量推理问题,须要在模型架构和演习技能方面取得显著进步,这样一来许可模型访问外部工具,如 Python 阐明器。
在 Google Research 提交的这篇论文中,他们推出了措辞模型 Minerva,该模型能够办理数学和科学问题,让模型一步一步来。通过网络与定量推理问题干系的演习数据、大规模演习模型,以及利用前辈的推理技能,该研究在各种较难的定量推理任务上取得了显著的性能提升。
论文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Minerva:不仅会数学,物理、化学也难不倒
Minerva 通过天生办理方案来办理问题,办理方案包括数值打算、符号操作,而不须要依赖打算器等外部工具。Minerva 将自然措辞和数学符号进行结合来解析和回答数学问题。此外,Minerva 还结合了多种技能,包括小样本提示、思维链、暂存器提示以及多数投票原则,从而在 STEM 推理任务上实现 SOTA 性能。
这次,谷歌还供应了交互式示例浏览器来探索 Minerva 的输出!
从 Minerva 浏览器界面可以看出,Minerva 不仅可以办理代数问题,还能办理物理、数论、几何、生物、化学、天文学等浩瀚问题。
试用地址:https://minerva-demo.github.io/#category=Algebra&index=1
下面是 Minerva 办理几何问题,立方体的每个边都是 3 英寸长,求立方体的总表面积是多少平方英寸?模型回答:由于立方体有 6 个面,每个面是一个边长为 3 英寸的正方形,总表面积为 (6)(3)^2=54。
Minerva 办理数学问题:平行于 y=4x+6 的线,且穿过 (5,10)。问这条线与 y 轴相交的点的 y 坐标是多少?下面是 Minerva 解答过程:
定量推理,让模型一步一步来
Minerva 建立在 PaLM(Pathways Language Model ) 的根本上,在 118GB 数据集上进一步演习完成,数据集来自 arXiv 上关于科技方面的论文以及包含利用 LaTeX、MathJax 或其他数学表达式的网页的数据进行进一步演习。演习之后模型学会利用标准数学符号进行对话。
下表 2 包含了 Minerva 紧张的模型和演习超参数,最大的模型具有 540B 参数,在 26B token 上进行了微调。
Minerva 措辞模型的不同变体,包括 8B,62B 和 540B。
下图为印度高中学生参加的 2020 年联合入学数学考试(左),这个考试每年有近 200 万参加;波兰国家数学考试(2022 年 5 月)(右),每年约有 27 万高中生参加。以下是 Minerva 答题过程,就像考生一样,分步打算答案:
下图为用于定量推理的数据集:研究者在数据处理过程中保留了数学信息,使模型能够在更高的水平长进修数学。
Minerva 还结合了最新的提示和评估技能,以更好地办理数学问题,包括思维链或 scratchpad 提示。
在回答新问题之前,Minerva 会将办理方案进行分解,进行多数投票。像大多数措辞模型一样,Minerva 将可能输出分配不同的概率。在回答问题时,Minerva 不是将单个办理方案得分视为最有可能,而是通过从所有可能的输出中随机抽样来天生多个办理方案。这些办理方案是不同的(例如,步骤不相同),但常日会得出相同的终极答案。Minerva 对这些办理方案利用多数投票,将最常见的结果作为终极答案。
多数投票 Minerva 为每个问题天生多个办理方案,并选择最常见的答案作为办理方案,显著提高性能。
STEM 基准评估结果
为了测试 Minerva 的定量推理能力,谷歌在不同的 STEM 基准上进行了评估,覆盖从小学水平的问题到研究生水平的课程。利用的基准数据集包括如下:
MATH:高中数学竞赛水平的问题;MMLU-STEM:大规模多任务措辞理解(MMLU)基准中专注于 STEM 的子集,涵盖了高中和大学级别的工程、化学、数学和物理等;GSM8k:小学水平的数学题,包括根本算数运算等。此外,谷歌还在 OCWCourses 上评估了 Minerva,这是一个大学和研究生水平的问题凑集,涵盖了从 MIT OpenCourseWare 中网络的固态化学、天文学、微分方程和狭义相对论等各种 STEM 主题。
结果表明,在所有数据集的评估中,Minerva 都实现了 SOTA 结果,有时乃至是大幅提升。
下图为 MATH 和 MMLU-STEM 上的评估结果,个中高中和大学级别的问题涵盖了一系列 STEM 主题。可以看到,Minerva 62B 和 Minerva 540B 在 MATH 上的准确率均高于已有 SOTA,Minerva 540B 在 MMLU-STEM 上均高于已有 SOTA。
总体来看,Minerva 540B 在小学、高中和大学级别的 STEM 评估数据集上,均取得了显著优于已有 SOTA 的结果。
与 PaLM 8B、62B 和 540B 的更详细比较结果如下表所示。
谷歌研究科学家、论文作者之一 Aitor Lewkowycz 给出了更详细的评估示例。他们在 2022 年波兰国家数学考试中对 Minerva 进行了评估,它办理了 80% 以上的 GCSE 高档数学问题,评估了 MIT 的各种本科级别的 STEM 问题并办理了个中的近三分之一。
Minerva 也会出错
不过,Minerva 仍旧犯了很多缺点。为了更好地确认模型可以改进的领域,谷歌剖析了模型出错的问题样本,创造大多数缺点很随意马虎阐明。结果表明,大约一半是打算缺点,另一半是推理偏差,缘故原由是办理步骤没有遵照逻辑思考链。
缺点类型。
同时,Minerva 也有可能得出精确的终极答案,但推理依然缺点。谷歌将这种情形称为「误报」,由于它们被缺点地计入到了模型的整体性能得分。剖析结果显示,误报率相对较低,Minerva 62B 在 MATH 数据集上的均匀误报率低于 8%。
谷歌供应了 Minerva 出错的一些样本示例。比如下图中的打算缺点,模型缺点地消去了方程两边的平方根。
下图为推理缺点,模型在第四次练习中计算了罚球次数,但之后却将这一数字作为第一次练习的终极答案。
局限性及未来改进方向
谷歌的定量推理方法并不因此形式数学为根本。Minerva 利用自然措辞和 LaTeX 数学表达式的组合来解析问题并天生答案,没有明确的底层数学构造。
因此,这种方法存在一个主要局限,模型的答案无法得到自动验证。纵然终极答案已知并且可以验证,模型也可以利用缺点的推理步骤得出精确的终极答案,而这无法自动检测到。这种局限在 Coq、Isabelle、HOL、Lean、Metamath 和 Mizar 等形式化定理证明方法中不存在。
另一方面,非形式方法的一个上风是它可以运用在高度多样化的问题中。
未来,谷歌希望能够办理议量推理问题的通用模型推动科学和教诲的前沿发展。定量推理模型具有很多潜在的运用,包括为研究职员供应有用的帮助,为学生供应新的学习机会。Minerva 模型朝着这些目标迈出了一小步。
原文链接:
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
本文系作者个人观点,不代表本站立场,转载请注明出处!