“不是大模型失落智,是我们描述问题不准确。
很多时候我们习气这样问问题,以为表对了意思而已。

人工智能也犯傻?大年夜模型齐声喊“9.11比9.9大年夜”这波操作太离谱_模子_这一 绘影字幕

“ai不懂9.9实在是9.90!

最近,多个顶尖大措辞模型,包括OpenAI的GPT-4、谷歌的Gemini Advanced和Anthropic的Claude 3.5 Sonnet等,在面对这个大略的数学问题时集体“翻车”。
它们不谋而合地认为9.11比9.9大,乃至还煞有介事地给出了离谱的打算过程。

这一创造源于提示词工程师Riley Goodside的有时考试测验。
他在利用GPT-4时,溘然萌生了测试这个大略问题的想法。
没想到,这一测试竟揭开了人工智能天下的潘多拉魔盒。

Goodside不去世心,又陆续测试了其他有名大模型。
结果令人大跌眼镜:险些所有模型都犯了同样的缺点。
这一集体“失落智”征象立即在AI圈内引发热议。

有人开玩笑说:“难道是全天下的AI联合起来骗人类了?”也有人严明地指出,这暴露了当前AI系统在处理根本数学观点时的重大毛病。

更有趣的是,当问题的表述办法稍作调度,比如将数字顺序颠倒或者明确指出是在比较实数时,部分AI就能给出精确答案。
这种对问题表述敏感的特性,也引发了人们对AI理解能力的深入思考。

国产大模型在这场“智力测试”中的表现也不尽如人意。
从Kimi到智谱清言,再到备受瞩目的文心一言,都或多或少地在这个大略问题上栽了跟头。
不过,也有少数模型如腾讯的元宝和字节的豆包,展现出了较好的理解能力和解题思路。

专家们剖析,这可能与AI处理信息的办法有关。
大模型常日利用“分词”的办法来理解笔墨。
在这个过程中,“9.11”可能被拆解为“9”、“.”和“11”三个部分。
由于11确实大于9,AI就可能得出错误的结论。

这个征象也引发了人们对AI演习数据的思考。
有人指出,在书本目录等场景中,9.11确实“大于”9.9(如第9.11节在第9.9节之后)。
这种在特定语境下的“精确”可能影响了AI的判断。

更深层次的缘故原由可能在于,AI并不真正理解数字的实质和数学规则,它只是基于大量数据进行模式匹配和预测。
这也阐明了为什么在明确指出是比较实数时,部分AI能够给出精确答案。

这个看似大略的问题,实际上揭示了当前AI技能的一个主要局限:虽然在繁芜任务上表现出色,但在一些根本的、知识性的问题上却可能涌现猜想之外的缺点。

有专家指出,这种征象反响了AI与人类思维办法的根本差异。
人类在办理问题时会利用逻辑推理和知识判断,而AI更多依赖于统计模型和模式识别。
这也提醒我们,在利用AI工具时须要保持当心,不能盲目信赖。

这一事宜也引发了对AI教诲和演习方法的思考。
有研究者提出,大概我们须要更多地关注如何让AI节制根本数学观点和逻辑推理能力,而不仅仅是提高它们在繁芜任务上的表现。

有趣的是,这个大略的数学问题正在成为测试AI能力和改进提示词技巧的新标准。
研究者们正在考试测验各种方法,希望找到能够勾引AI精确理解和回答这类问题的最佳办法。

与此同时,AI技能的发展仍在快速推进。
最新显示,OpenAI可能正在测试一个在数学能力上更为出色的新模型。
据宣布,这个模型在MATH数据集上的得分超过了90%,远超当前的最高水平。

然而,面对“9.11和9.9哪个大”这样的根本问题,纵然是最前辈的AI模型是否能够始终给出精确答案,仍旧是一个未知数。
这再次提醒我们,AI技能虽然日月牙异,但间隔真正的“通用人工智能”还有很长的路要走。

这个看似大略的数学问题,实际上打开了一个磋商AI实质的潘多拉魔盒。
它不仅暴露了当前AI系统的局限性,也为我们供应了一个重新思考AI教诲、演习和运用的机会。

在未来,我们或许须要更多地关注如何让AI真正理解和利用根本知识,而不仅仅是在繁芜任务上表现出色。
只有这样,我们才能期待AI在各个领域都能发挥其真正的潜力,成为人类可靠的助手和伙伴。

无论如何,这个事宜提醒我们,在拥抱AI技能的同时,也要保持理性和当心。
AI的能力确实令人惊叹,但它们仍旧存在局限性。
作为利用者和开拓者,我们有任务不断完善这项技能,让它真正成为造福人类的工具。

在AI和人类的共同进化过程中,像这样的“失落误”或许正是推动技能进步的主要契机。
它让我们看到了改进的方向,也让我们更加理解AI的实质。
未来的AI之路,必定充满寻衅,也充满希望。

(免责声明:本文,***,图片,文章内容都来源于网络,仅供参考!
如有事宜存疑部分,联系后即刻删除或作出变动!