ChatGPT“高考成绩”出炉人工智能居然也偏科？_测试_复旦年夜学

2024-12-14 21:34:04 智能助手

ChatGPT是美国OpenAI公司去年11月发布的一款人工智能技能驱动的自然措辞处理工具，去年11月30日推出以来，60天内月活用户直接破亿，被认为是史上用户增长最快的消费级运用。

ChatGPT“高考成绩”出炉人工智能居然也偏科？_测试_复旦年夜学智能助手

写代码、文案，做数学题，进行不同措辞之间的翻译，ChatGPT的强大功能让学习人工智能干系专业的复旦大学硕士研究生张啸天感到既震荡又愉快。

“我紧张让它写代码，包括一些技能问题，办理方案。
我觉得到它很聪明，笃定它可以通过图灵测试。
但它的极限是什么？我想知道它究竟有多聪明。
”

于是，去年12月，张啸天和两位同学一起搜集了2010年到2022年的高考全国卷试题，剔除部分含有图片的题目，让ChatGPT作答。

经由近5个月的测试，近日，ChatGPT的高考测试报告新鲜出炉。
包括选择题、填空题和问答题在内，ChatGPT共回答了2811道题目。
结果显示， ChatGPT更善于文科，在历史、地理、政治上取得了不错的成绩；而在生物、化学、物理等理科学科上表现不佳，尤其在物理上。

高考全国卷满分为750分。
复旦大学打算机科学技能学院硕士研究生宗一见告看看***Knews，“综合历年得分情形，ChatGPT做文科卷的得分会更高一些，靠近400分；理科题的话，只有300分出头。
”。

对付ChatGPT“文强理弱”的偏科情形，该项目的卖力人、复旦大学打算机科学技能学院教授邱锡鹏阐明说，与文科试题侧重稽核知识不同，理科试题更关注逻辑推理能力，这正好是目前通用人工智能模型的短板。

据悉，通过对超过1万亿个人类词汇和1700亿个模型参数进行高效迭代演习，ChatGPT具备强大的自我学习、推理和归纳总结能力。
既然如此，为何它的“高考”成绩却不太空想呢？

邱锡鹏认为，一方面是由于高考试题确实有难度；另一方面，测试成绩与评价办法干系。
“早期我们采取的是人工评分，创造ChatGPT的水平大概可以达到500分。
现在我们利用了更严格的办法，也便是机器评分，以是成绩有一定的颠簸。
”

值得把稳的是，这次测试的版本为ChatGPT-3.5。
随着该模型不断升级迭代，它的能力会越来越强。
这次测试除了理解ChatGPT的高考水平外，研究团队还有一个更大胆的设想。

“我们布局一个数据集，这个数据集可以用来衡量不同大型措辞模型的效果。
由于现在不同的公司、单位、机构都在做自己的大模型，那么便是说我们就要有一个客不雅观的评价标准。
大家都说自己的模型水平可以达到ChatGPT的百分之七八十，到底怎么样，须要有一个客不雅观的测试。
我认为高考评测是比较客不雅观综合的一种测试办法。
”邱锡鹏表示，未来该数据集将大有可为。

（看看***Knews：周智敏徐玮）