当AI赶上高考数学题4个大年夜模型“考生”“造诣单”出炉_模子_标题

2024-11-09 14:29:19 计算机

我们选取了4名有代表性的大模型“考生”，分别是九章大模型、星火大模型（v3.5版本）、文心一言（3.5版）、智谱清言（GLM-4），选取2024全国高考数学新课标1卷客不雅观题部分进行测评。
大模型的数学能力究竟如何？其在数学学科教诲场景中能够发挥多大代价？结果值得期待。

当AI赶上高考数学题4个大年夜模型“考生”“造诣单”出炉_模子_标题计算机

四位“考生”表现参差不齐

这次测评选取的4个大模型中，星火大模型（v3.5版本）、文心一言（3.5版）、智谱清言（GLM-4）为通用大模型，九章大模型则为以数学能力见长的教诲垂类模型。

在试题选择上，为便于评价统计，统一选择了2024年数学新课标Ⅰ卷中的14道客不雅观题进行测试，个中包括8道单选题、3道多选题、3道填空题。
此外，由于试题中存在图形、大量数学符号，为防止以文本形式输入题目产生偏差，统一选择以图片形式呈现题目并供应给大模型进行解答。

四个大模型在这次“考试”中，整体表现如何？

据新京报统计，14道题目中，九章大模型共答对11道，星火大模型共答对12道，二者不相上下。
而其余两位差别较大，文心一言共答对1道，智谱清言共答对4道。

终极统计结果显示，四位“考生”这次作答精确率从高到低依次为星火大模型（85.71%）、九章大模型（78.57%）、智谱清言（28.57%）、文心一言（7.14%）。

四个大模型精确率测评统计数据。
制图/新京报冯琪

从不同题目类型的答题情形来看，九章大模型8道单选题全部答对，3道多选题答错2道，3道填空题答错1道；星火大模型单选题全部答对，多选题答错2道，填空题全部答对；文心一言仅答对1道单选题；智谱清言仅答对3道单选、1道多选（另有3道题目因大模型提示无法识别图片未参与作答）。

须要指出的是，由于测试的是客不雅观题，上述精确率仅根据大模型作答的终极选项进行判断和统计，不涉及解题过程。
但在测评过程中把稳到，的确存在不少选项精确、但解题过程存在差错及瑕疵的情形。

部分大模型“蒙”对答案打算推理过程存在明显缺点

精确率的背后受多个维度能力影响，而数学能力是这次测评关注的核心。
在测评过程中把稳到，几位“考生”在题目理解能力、打算推理能力以及解析过程的详略上，均存在差异和不同特色。

就精确率而言，星火大模型表现较好，但部分题目的打算推理过程却经不起考虑，虽然结果精确，但过程中涌现了明显缺点。
例如单选题第1题中，星火大模型的解题步骤中提到“2不在区间(−2.236,2.236)(−2.236,2.236)内（由于它超过了上界）”，存在明显谬误，但末了却“蒙”对答案。
再如单选题第2题，一位数学专业人士看到解题过程后评价称“推理的高下两行公式之间没有任何关联，也无法推导得出这个答案，为何终极选出了精确选项，令人匪夷所思。
”

九章大模型的部分解题过程也存在瑕疵。
在一道多选题中，九章大模型在推理中明明认为C选项缺点，但末了又把C选为精确答案，“这个表述高下文之间没啥逻辑关系，让人摸不到头脑。
”上述数学专业人士指出。

如果看看精确率排名倒数第一的“考生”文心一言的试卷，令人匪夷所思的地方就更多了。
看完这位考生答对的唯一一道题目，上述专业人士称，解题过程中连基本的输入都有多处缺点，能得出精确答案可能只是“歪打正着”。

测评中可以创造，文心一言具备读取图片内容的能力，但无法识别仅带有繁芜分数的公式和图形。
且读取后涌现了理解缺点，例如单选题第3题，明明成功读出题目中的“⊥”符号为“垂直”，却在后面的步骤中理解为“平行”（题面中未涌现任何平行干系字眼或符号），经提示，文心一言创造理解缺点，却在再次解答时又涌现理解偏差。

实际上，从单选题第5题的答题情形不丢脸出，文心一言解答数学题并不是用数理逻辑，而是试图用笔墨论证的办法去预测一个靠近的结果。
在多次提示下，它仍旧执着于靠预测来答题——“这个打算过程并不是题目所哀求的，由于题目只须要我们根据给定的选项来选择答案。
”

文心一言险些对每一题都进行了详细的推理，但终极大部分题目都得出了缺点的答案。
在第11题，文心一言非常坦诚地做出答复，并揭示了大模型处理数学问题背后的实质：“由于我们没有详细的数学工具或方程来直接进行打算，只能根据给定的信息进行逻辑推理。
因此，我无法确定任何选项的精确性。
”对付第12题，文心一言也奉告称“我只能供应解题的思路和步骤，而不能直接给出确切值。
”

智谱清言在部分题目中也存在类似的问题。
在第12题中，经由一番剖析后，智谱清言见告用户无法计算出结果。
在第13题中，智谱清言重复地剖析、创造问题、重新核阅问题，又一遍一各处创造行不通，进行了十轮以上的去世循环，直到人工点击停息才停下。

面对多选题，能否自行判断每个选项精确与否、有几个选项符合题目哀求，对大模型来说也是一个磨练。

经测试，九章大模型、星火大模型、智谱清言均能够在未提示此题目为多选题的情形下，识别出多个精确选项；而文心一言在这方面稍逊色，且在提示某题目为多选题的情形下，仍旧只选出一个选项（且是错的）。

根据这次测评的整体答题情形，一位不愿具名的数学教研专家对四个大模型的表现分别作出点评。
他认为，个中，九章大模型回答较为大略，短缺深入剖析，部分题目的表达力度也比较低，回答也不足全面。
星火大模型的剖析有一定的深度和见地，但有些地方的回答不足简洁，有的题目的回答不足准确，在表述和数学符号的运用上存在一些问题。

文心一言（3.5版）思考比较全面，方方面面都会涵盖，由此推测前期建模分类分得比较细，措辞表达相对来说也比较流畅。
但回答特殊冗长，也没有重点，答案也存在一些偏差。
智谱清言的解答比较简洁，一样平常会直接回应题目，也有一定的逻辑性和条理性，但答案不是特殊详细，也没有深入剖析。
有些题目的回答和标准答案的匹配度不高，有些题目虽然答对了，但会漏掉一些关键点。

大模型在“数学图形识别及图文关系理解”等方面存在短板

昔时夜模型运用于教诲场景中，除准确性这个核心哀求外，如何启示学生思考、对学生进行勾引也备受关注。
从这个角度看，四个受测大模型均能够做到“不直接给出答案”，而是呈现解题过程，这是有别于传统产品“拍照搜题”之处。

在启示勾引方面，九章大模型能够依次进行剖析、详解、点睛，末了才会给出答案，但在部分题目关键重难点步骤一带而过，须要追问才会展开解答。
星火大模型也能够给出解题步骤及精确结果，但较少呈现每一步背后的思路和思考逻辑；智谱清言可以从入手点开始一步一步勾引解答，终极给出精确答案，但偶有剖析缺点、重新剖析的情形涌现；而文心一言在答题的每一步都会做详细的推理剖析，但剖析方向每每是缺点的。

题目的识别读取对解题效率有较大影响。
这次测试统一采纳上传题目图片的办法由大模型进行识别读取，也磨练着大模型的图片处理能力。

对付多选题第11题，四个大模型均未能成功识别，也是唯一一道让四个大模型“全军覆没”的题目。
可以看到，四个大模型在数学图形识别及图文关系理解上，普遍存在短板。

九章大模型在图片题目识别上，会先在输入文本框中识别读取出题面，并以文本形式呈现，用户可在框内确认题目的准确性。
若创造识别缺点，点击即可涌现数学符号的赞助输入工具栏，进行编辑修正，防止题目读取缺点。

星火大模型在图片题目识别上亦未涌现明显障碍，但由于并不显示识别内容，而是直接作答，因此无法确定识别结果是否影响了答题。
智谱清言则在多道题目中均给出“未能识别”的反馈，须要将题目以文本形式进行人工输入，方可进行后续解答。
文心一言对付图片及数学符号的识别略优于智谱清言，但繁芜分数公式、图形亦识别不佳。

在测评过程中创造，几个大模型对高下文语境及语义的理解能力也存在差异。
这一能力在教诲场景中则关乎与学生的互动能否顺利达成。

把稳到，文心一言在答数学题能力上虽然逊色，但通过一系列的追问、对话可以创造，这位“考生”对语义语境的把控能力非常精良，很随意马虎明白用户在说什么，在用户补充提醒的时候，它很快就可以知道根据新信息去阐明上面的题目。

如果说文心一言是个不错的“文科生”，那九章大模型和星火大模型可以说是地隧道道的“理科生”，虽然非常善于解题，但高下文语义语境的理解是它们的弱势。

例如，当用户对星火大模型提出“上面这道题可以再详细剖析一下吗”时，星火并不能理解指向的是什么，而是回答“很抱歉，由于我无法看到您提到的详细问题，以是无法为您供应更详细的剖析。
请供应问题的详细信息，以便我能够更好地帮助您。
”

再如，当用户对九章大模型追问“请你检讨一下这道题，D选项到底对不对”时，九章并不明白用户问的是什么，回应称“当然可以,请您供应题目的详细内容,包括选项D的表述,我会尽力帮助您检讨。
”解释其比较善于解题，但很难联系高下文语境语义来与用户互动对话。

大模型的数学能力取决于算法和数据量

在大模型这一新事物面世初期，不少网友用开源的大模型去测试一些大略数学题，创造很多答案并不准确。
与自然措辞理解不同，大型措辞模型在办理算术推理任务时性能欠佳。

九章大模型是这次四位“考生”中唯一一个、也是海内首个专为数学打造的大模型。
2023年5月，好未来公布正在进行自研数学大模型的研发，因此解题和讲题算法为核心的数学垂直领域大模型，其官网显示，其数学打算能力已覆盖小学、初中、高中的数学题，题目类型涵盖打算题、运用题、代数题等多个类型。

为何不同模型的精确率及利用体验会存在差别？

中国社科院***与传播研究所所长胡正荣指出，大模型虽然是措辞模型，但这个措辞不是人们常日理解的字面意思，音频、解题等都是大模型可以做的。
从理论上看，数学大模型这个技能方向是可行的，但终极结果如何，取决于两个成分，一是算法是不是足够好，二是是否有足够量的数据做支撑。

数据是大模型最基本的要素之一，如果要让大模型解题精准，那么演习大模型的数据量须要足够大。
“精确率的差别，一方面是由于输入的数据量的差别造成的。
”之以是大模型解数学题会出错、没有达到空想效果，便是由于演习的题库不足大，数据量越大、质量越高，精准度就会越好。

另一方面，胡正荣也强调了算法的主要性。
“如果大模型的算法不足聪明，不是真正的数学思维，也会影响到答题的精确率。
”

北京教诲科学研究院根本教诲传授教化研究中央中学数学教研员丁明怡指出，通过四位“考生”的答题状况可以看到，都存在答案精确但过程缺点的情形。
从当下情形来看，如果运用到真实教诲场景中，无论是给老师用还是给学生用，都还有较大的提升空间。

这次测评暴露出几个大模型存在的几个普遍问题。
第一，题目识别上存在比较大的困难，涉及一些数学符号、分式等会影响识别效果，还有一些图形、表格识别存在问题，以及一些数学专业术语的表述识别也不足精准。

第二，几个大模型在逻辑推理能力上还存在不敷。
逻辑推理强调连贯性、严谨性，但几个大模型这方面做得不足好，例如，常常会涌现跳步，或者关键步骤缺失落的情形。
有时候不见得是打算缺点，而是逻辑推理涌现问题，导致末了结果缺点。

第三是解题方法较为单一。
例如此次测试的第十二题，实际上是一道中等偏下难度的题目，常日会基于双曲线的定义和性子进行求解，这样可以避免比较繁芜的坐标打算、联立方程求解等，可以大幅减少打算量、节省考试韶光，但是这几位“考生”在答这道题时都利用了常规方法，打算量很大、步骤也特殊多。
大模型彷佛只能按照固定的模板去答题，而不能依据题目的特色因时制宜地选择最优方法。
“如果用这样的方法辅导学生，对付学生知识学习和知识构造建立都是有弊病的。
”

若用于数学教诲，大模型还需优化对学生的启示勾引

针对上述大模型存在的普遍问题，丁明怡提出多方面建议。

首先是要提升题目的识别能力，包括术语、符号、图形、表格等等的识别。
第二，建议加强大模型的逻辑推理能力演习，通过算法的优化提升逻辑的严谨性、连贯性，改进跳步、表述不严谨的问题。
第三，建议优化解题方法，能够利用观点运用、数学结合等方法，来对学生进行辅导。
实际传授教化中，无论是代数还是几何，都要依赖数形结合的方法让学生快速理解、简洁解题。
建议大模型提升画图技能和运用能力，包括几何图形、函数图形、统计图形等。

丁明怡特殊强调，还有特殊主要的一点，要提高大模型的思维能力。
“在创新性题型和情景创设性题型上，大模型大多数不太善于。
这类题一样平常会基于比较繁芜的现实情境，表述形式也比较综合，可能会有笔墨、表格、图像等，而且须要办理真实的问题，比如提出最优策略或者建议等。
这种题目是没有答题模板的，稽核学生的阅读能力和问题办理能力。
实际上这对大模型也提出了更高的哀求，须要真正读懂这道题说的是什么，然后再把它转化成数学问题，再利用数学知识进行解答，随后再回到现实问题中提出办理方案。
这方面大模型还有比较大的提升空间。
”丁明怡阐明道。

其余丁明怡提到，如果大模型运用到数学教诲场景中，对付学生的启示勾引还需优化。

“比如，拿到一道题，希望能够先讲一下题目所涉及的知识点和知识构造，再去讲这道题求解的方法，如果说基于定义性子来求解，可以一边画图，一边结合知识构造进行分步讲解，得出答案后，还可以再进行解法比较，提出更优的方法等。
既有前期知识框架的剖析，又有后期一步步的启示以及和前期框架之间的联系。
”在丁明怡看来，这才是大模型运用于教诲场景中的代价表示。

新京报冯琪

编辑缪晨霞巫慧校正付春愔