今年参加高考的AI分数出来了_模子_人类

2025-01-08 22:54:30 AI快讯

但他们敢做数学题吗？今年之后，AI大概就会直接断送了这些人吹牛的机会。

今年参加高考的AI分数出来了_模子_人类 AI快讯

2024年的河南高考分数线已经出炉，文科本科一批录取分数线为521分，理科511分。

众所周知，河南是人口大省，根据2023年的数据，河南以9605万排名全国第三。
相应地，河南也是高考大省，2023年河南高考考生高达131万人。

经历过高考的人，都会记得班主任常常会说这样一句话：“高考是你们人生中唯一一次公正的竞争”。
在全国的大多数省份，考生要想考上心仪的学校，除了过线，必须赶过分数线不少分才能被录取，像是清北这样的名校，乃至要超过百分。

河南高考一贯被称为“地狱难度”

数据也支持这样的判断，以河南省为例，在全国历年985和211学校的录取比例中，河南一贯处于倒数5名旁边，这意味着考生们不仅要和同学内卷，更要和“名额数量”“录取比例”斗争。

如今，高考的赛道上又多了一名新“同学”。
当AI也参与个中之后，所取得的成绩也同样令人木鸡之呆，并且以我们意想不到的速率进步着。

在2024年河南省高考新课标Ⅰ卷大模型评测报告中，OpenAI的Chat GPT - 4o以562分在浩瀚AI中排名文科总分第一。
Chat GPT - 4o不愧是全能（4o的o便是“Omini”，全能之意）。
海内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。

与文科比较，大模型的理科成绩要差很多，最高分还不到480分，大多数大模型的理科总分在400分以下。
比较河南理科511分的一本线，大模型尚有较大差距。

各大模型高考评测取得的分数

本次大模型高考评测与河南省高考考卷完备相同，按照录取分数线，豆包等三款国产AI成功冲上一本线。
但如果豆包同学在河南，恐怕依然上不了一今年夜学。

在大模型的各个科目得分中我们不难创造，无论是Chat GPT - 4o还是浩瀚的国产大模型，都有明显的劣势，尤其是数学和语文的写作，都没有得到太高的分数。

大模型也和人类一样“偏科” 大模型也和人类一样“偏科”

为什么写作无法得到高分？缘故原由是Chat GPT实际上是无法真正理解问题的。
Chat GPT所做的是模式匹配，它可以通过算法找到和输入问题干系的信息，然后提取出信息中的答案。

这种答案其条理性、逻辑性拉满，但是在阅卷过程中，还要考虑人类写作的特点，比如递进关系、思维过程、层次、修辞等等。
在这些方面，人工智能的表现更像是信息的堆砌。

试着把大模型的写作给专业的阅卷老师看，得到了如下回答。
老师也是一眼辨识出了大模型写作的结果，现场戳穿，大写的尴尬。

AI写作被一眼认出

既然写作不灵，那以推理与逻辑为主的数学，为什么大模型反而也得不到高分呢？

还以2024年高考数学卷中的两道题为例，从结果中可以看到，国产大模型险些全军覆没，只有Chat GPT给出了精确答案，个中一题是这样的：

甲、乙两人各有四张卡片，每张卡片上标有一个数字，甲的卡片分别标有数字 1，3，5，7，乙的卡片上分别标有数字2，4，6，8，两人进行四轮比赛，在每轮比赛中，两个各自从自己持有的卡片中随机选一张，并比较所选卡片的数字的大小，数字大的人得1分，数字小的人得0分，然后各自弃置此轮所选的卡片（弃置的卡片在此后的轮次中不能利用）。
则四轮比赛后，甲的总得分小于2的概率为多少？

这道题，我是肯定算不出来的（你们可以试试），精确答案为1/2。
再来看看大模型的作答结果。

原来以为算概率这种事情，该当是打算机最善于的。
结果，海内的8款大模型全部翻车。

究其缘故原由还要从大模型自身讲起，大模型是基于人类措辞研发和演习的，要想准确回答问题，首先是要理解人类措辞，明白题目本身的含义。

来看一个非常范例的例子，“3个苹果加2个梨统共有几个水果”，这道小学生都会做的题，在大模型出身之初，给出的回答每每是缺点或者不知所云的答案，缘故原由便是人类可以很随意马虎地把苹果和梨抽象为水果，大模型无法做到。

而随着技能的进步，大模型的进步已经能够给出这类抽象问题的答案，但如果你问点繁芜的，大模型还是会胡扯。
以足球运动员为例：

而精确答案是：

这种抽象的观点，到了高中阶段就会变得更加繁芜，无法将措辞题目转化为数学公式是大模型是个数学学渣的缘故原由之一。

其次是大模型回答问题的办法，前文提到过，大模型是通过匹配的办法找寻与之最干系的内容再通过严密的逻辑组合成答案。

比如我们让模型画一幅人类肖像，在模型的演习数据中海量的关系证明，眼睛下方是鼻子，鼻子下方是嘴，以是模型很随意马虎通过找寻匹配的办法画出与哀求附近的答案。
由于结果单一，但笔墨不然。
比如我们提到一款手机，那与之干系的内容可能是电路板，可能是价格，可能是品牌，大模型须要不断地推理，找到最近似的结果。
这便是所谓的扩散模型。

以是当给到模型的信息不全，或者存在很多隐含寓意的时候，模型就开始了不苟言笑地胡说八道，这便是我们常说的“模型幻觉”。

问题实在是在问我有多少个水果，Chat GPT回答为16，它没有精确理解“banana weighs 0.5 lbs and I have 7 lbs”这句话的含义，精确答案该当是7/0.5+9=23个。

看多了大模型不着边际的答案以及不苟言笑的胡说八道之后，我们乃至会疑惑号称颠覆性的大模型技能，连小学数学都做不利索，到底行弗成？

答案是肯定的，大模型在很多专业领域，尤其是尖端科学领域，依然是人类社会的希望。

海量数据的处理能力

虽然在大模型之前也有类似的数据中央、超级打算机，但是实在质差异还是方法。
传统的方法是查找与匹配，找到近似的结果给用户展示，大模型的事情机制除了查找与匹配之外还有推理，大略说便是能够像人一样思考。
这样给出的结果更加精确。

泛化能力

我们都碰着过利用百度的时候搜不到结果的情形，是由于对付未知数据确实是找不到结果的，机器也给了精确的返回。
但实在机器并没有思考输入问题的实质，大模型可以通过不断地理解和泛化，适应新的未曾见过的数据。

自我学习进化能力

目前人类自出身以来有笔墨记载的各种知识、数据、资料都可以作为演习的数据，以Chat GPT - 4o为例，据OpenAI表示大概已经把目前人类的知识都看过一遍了。
模型本身会不断进化，这个过程时候都在发生。

基于这些强大基因，大模型已经被运用于很多专业领域，并取得了古人无法企及的成果。

一群来自上海财经大学、哈尔滨工业大学（深圳）、北京措辞大学、西安电子科技大学、加拿大皇后大学以及万得信息技能有限公司的博士生和工程师网络了超过三万七千个问题，以及对应的超过8万条人类专家回答和超过4万条Chat GPT回答。
覆盖了开放域、打算机、金融、医疗、法律、生理学等多个领域。
比拟大模型和专家的作答。
评判标准是在双盲的情形下看谁的答案更加有用？结果如下：

大模型的答案略胜于人类专家，但是如果被评测者被奉告哪个是大模型的话，结果是专家答案反超20%。
可见大模型在专业知识方面靠近人类专家水平，专家的上风在于能够简明扼要，直指核心，而大模型的回答略显疲塌和格式化。

生理学领域，大模型在情绪上比人类更中立，乃至偏积极，能够更好地供应感情支持和开导。

在表述的办法上，人类频年夜模型拥有更大的词汇量且回答更加简短。

除了普遍的措辞问答，大模型在推理上也是大放光彩。

Google DEEP MIND 公司的Alphafold3发布，生物领域Al即将参与人类的生老病去世

一款药物从开始研发到上市发卖要经历漫长的韶光，极度情形下，有些科学家乃至都看不到“孩子”上市就已经离世。
更别说研发期间巨大的资金花费。
以是像《我不是药神》中提到的“格列卫”，也经历了漫长的岁月。
而作为垄断企业的药企，显然不会轻易地交出专利。

但大模型的涌现让这个过程至少提高了36%的速率，其主要的功能便是在推测先导药物分子式这一过程中，通过模型极强的学习和推理能力，极大地加快了创造新的分子式（新药物根本）的过程。

大概几年后就会有无数种新药问世，它们可以治疗多种目前束手无策的病症，并大幅降落研发本钱，而终极受益的依然是患者和家属。
全体人类群体的寿命和生活质量也将同步提升。

前几天openAI宣告禁止中国地区用户利用API（运用编程接口）办法访问其做事，技能垄断的背后，中国也在不遗余力地研发自己的技能。
在同样的技能背景下，其商业模式以及对用户的影响，中美可能会走上两条不同的路线。

如果回顾一下AI的上一波浪潮，即移动互联网，不难创造，同样的技能和终端，在商业模式上走上了两条不同的道路。

细数移动互联网出身的十余年里，以原创产品为标准。
中国呈现出了支付宝，字节跳动，美团网，共享自行车，短***，直播带货，手机游戏等。
反不雅观美国企业则紧张集中在生态和更上游，比如硬件制造的苹果，操作系统安卓和iOS，云做事器等，元宇宙等。

再看当下的AI生态，中国的公司更聚焦在终端用户的身上，比如AI虚拟人、AI绘图作画、AI写ppt、AI做淘宝模特图、AI试衣等等。
并把上一波浪潮中的履历完美领悟个中，比如会员订定阅收费、营销手段等等。
移动互联网“先圈用户再赢利”这个逻辑一贯被默默地继续了下来。

AI作图的生硬“直译”

诚然，美国也有弗成偻指算的类似公司，比如C.AI（虚拟人）、Notion（写作）、Replica（元宇宙）、Cavana（创意），但是目前在硅谷投资行业中更为投资人看好的，并已经实现盈利的却是一些“to B”（面向企业）的买卖。
有个很生动的例子，阐释了AI的巨大浸染。

美国有一种工伤保险，当员工因公受伤在家休养期间，保险公司会支付50%的薪水给员工，该保险由企业投保，员工受益。
但是在被保险客户中，其伤愈的韶光是因人而异的，很多人并不知道自己已经可以回去上班领全额的薪水，也不知道自己的医疗到何种阶段。
这项事情以前是由人工完成的，即保险公司致电每一个可以或即将可以上班的员工返回事情岗位。
显然这是极其低效的。
AI运用在电话回访之后极大地提高了效率和准确性，AI吸收医院的医疗信息，找出对应的被保险人，然后拨打电话，无需任何人为干预，一天可以打几百上千个电话。
而一旦被保险人返回事情，保险公司便可以停滞支付工伤期间的薪水。
据统计一年下来，仅这一项运用为该公司节省了至少6000万美元的保费。

以是，一个现存的需求，利用AI的高效率办理问题。
这种买卖显然Open AI不会做，马斯克也不会做，足够的垂直和足够大的体量，是极度受投资者青睐的。

反不雅观中国对付AI的投资，呈现两种截然不同的境遇，其一是大厂做AI，不差钱但不能错过风口，担心“别人有我没有”是计策决策失落误，怕被落下。
另一种是大模型套娃，大多雷同，投资人认为门槛低复制大略，也没有竞争上风，绝大多数被冷遇。

留给中国大模型的机会很多，参加高考不过是牛刀小试，成绩也不会像很多人进了复读班一样，不升反降。
AI能为人类供应更精密的推导，更厉害的算力，我们很高兴能看到这些被运用在药物研究、外太空探索之上。

电影《流浪地球》中的人工智能MOSS

但就像一个孩子说的一样：科技是为人类做事的。
大模型的涌现，是希望能够给人类供应更多的机会和便捷的生活办法，而不因此一些急功近利的办法，去剥夺人们赖以生存的手段。
或许，智能驾驶是办理交通拥堵和未来人类出行的手段，但挤占人类的生存空间的办法，显然不是人工智能的初衷。

END

来源：微信公众号“三联生活实验室”

作者：Jimmy

编辑：潘茜、杨敏（演习）

【声明：本号为“全民阅读推广”官方***账号，转载此文是出于通报更多信息之目的。
若有来源标注缺点或其它欠妥之处，请联系我们。
我们将及时更正。
感激】