首个AI高考全卷评测结果宣告这个大年夜模型排名第一_模子_人工智能

2024-11-09 20:35:48 云服务

演习生贺怡萍魏文婧

首个AI高考全卷评测结果宣告这个大年夜模型排名第一_模子_人工智能云服务

6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，月初开源的阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中得到303分，高于OpenAI的GPT-4o和上海人工智能实验室的诗人·浦语2.0文曲星（InternLM2-20B-WQX）。

语文和英语表现良好，数学不及格

纵目***看到，上海人工智能实验室"大众年夜众号文章先容，高考覆盖各种学科及题型，这一壁向人类设计的高难度综合性测试，目前普遍被研究者用于稽核大模型的智能水平。
2024年全国高考甫一结束，上海人工智能实验室的司南评测体系OpenCompass就选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。
因无法确定闭源模型的更新韶光，为公正起见，这次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。

本次评测采取全国新课标Ⅰ卷，参与评测的所有开源模型，开源韶光均早于高考，确保评测 “闭卷”性。
全卷试题既包含选择、填空等“答案唯一性”题目，也包括简答、阅读理解及作文等主不雅观题，在更加靠近真实高考的环境中测试模型能力。
大模型的成绩由具有高考评卷履历的西席人工评判，更加靠近真实阅卷标准。

评测结果显示，Qwen2-72B以语数外303分的总成绩，成为本次大模型高考“状元”，领先于GPT-4o（296分）及诗人·浦语2.0文曲星（InternLM2-20B-WQX，295.5）。
本次评测的其余三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的稠浊专家（MoE）模型Qwen2-57B-A14B，通义千问的MoE模型同样表现不俗，总分（254分）位列第四名。

上海人工智能实验室指出，大部分模型考生的语文、英语科目表现良好，但在数学方面还有很大的提升空间。

InternLM2-20B-WQX取得了数学单科的最高分，但仍未达到及格水平，表明大模型的数学能力存在较大提升空间。

后续将引入多模态大模型测评

与以往多采取高考客不雅观题评测大模型的办法不同，在这次测试中，既有选择、填空等“答案唯一性”题目，也包括简答、阅读理解、作文等主不雅观题，在更靠近真实高考的环境中测试模型的能力。

为贴近高考评卷模式，研究团队约请多位有阅卷履历的高中西席对主不雅观题答案评分，每份考卷至少由3人分别打分。
碰着评分悬殊的情形，老师们会进行复核，只管即便做到评分公道，为人工智能学术界和家当界供应更有代价的参考指标。
与真实的高考一样，所有大模型答卷均进行了匿名处理，避免阅卷西席产生“先入为主”的不雅观念。

对付这些“AI考生”的语数外水平，老师们给出了中肯的评价——

语文评卷显示，大模型的当代文阅读理解能力普遍较强，但不同模型的文言文阅读理解能力差距较大。
大模型写的作文更像问答题，虽有针对性，但缺少润色，险些不用人类考生都会利用的举例论证、引用论证、名人名言等手腕。
多数大模型不理解“本体”“喻体”“暗喻”等语文观点。
对付文章中的一些“潜台词”，大模型也无法完备理解。

数学评卷显示，大模型的主不雅观题回答相对缭乱，解题过程有迷惑性，乃至涌现过程缺点但得到精确答案的情形。
大模型的公式影象能力很强，但无法在解题过程中灵巧利用。

大模型的英语整体表现良好，大模型写的英语作文普遍存在因超出字数限定被扣分的情形，而人类考生大多由于字数不足被扣分。

据理解，本次“大模型高考”答案天生脚本、各模型答卷、西席评分细节全部公开。
后续，研究团队将在评测中引入多模态大模型，以稽核模型应对更多题型的能力，并陆续发布覆盖不同学科和地区的完全高考评测。

（来源：纵目***）

更多精彩资讯请在运用市场***“纵目***”客户端，未经授权请勿转载，欢迎供应***线索，一经采纳即付报酬。
24小时报料热线027-86777777。