人工智能在几乎所有机能基准测试中都跨越了人类_人工智能_年夜众

2025-01-11 09:22:52 绘影字幕

与前几期比较，本期内容更丰富，反响了人工智能的快速发展及其在我们日常生活中日益增长的主要性。
从哪些行业利用人工智能最多，到哪个国家最担心人工智能会导致失落业，报告都进行了研究。
但报告中最突出的一点是人工智能在与人类竞争时的表现。

人工智能在几乎所有机能基准测试中都跨越了人类_人工智能_年夜众绘影字幕

对付没有关注人工智能的人来说，人工智能已经在许多主要的基准测试中击败了我们。
2015 年，它在图像分类方面超过了我们，然后是基本阅读理解（2017 年）、视觉推理（2020 年）和自然措辞推理（2021 年）。

人工智能变得如此聪明，速率如此之快，以至于在此之前利用的许多基准现在都已过期。
事实上，该领域的研究职员正在争分夺秒地开拓新的、更具寻衅性的基准。
大略地说，人工智能通过测试的能力越来越强，以至于我们现在须要新的测试--不是为了衡量能力，而是为了突出人类和人工智能仍有差异的领域，找到我们仍有上风的地方。

值得把稳的是，下面的结果反响的是利用这些旧的、可能已经由时的基准进行的测试。
但总体趋势仍旧非常明显：

人工智能已经超越了人类的许多性能基准

看看这些轨迹，尤其是最近的测试是如何用一条靠近垂直的线来表示的，须要知道的是这些机器还只是蹒跚学步的婴儿。

新的人工智能指数报告指出，到2023年，人工智能在高等数学问题办理和视觉知识推理等繁芜的认知任务上仍将举步维艰。
不过，这里的\"大众挣扎\公众可能会引起误解；这当然并不虞味着人工智能做得很差。

MATH 是一个包含 12500 个具有寻衅性的竞赛级数学问题的数据集，自推出以来的两年中，其性能得到了显著提高。
2021 年，人工智能系统只能办理 6.9% 的问题。
比较之下，在 2023 年，基于 GPT-4 的模型办理了 84.3% 的问题。
人类的基线是 90%。

我们这里说的不是普通人；我们说的是能办理这样的测试题的人：

向人工智能提出的数学问题示例

这便是 2024 年高档数学的发展状况，我们仍旧处于人工智能时期的黎明期。

然后是视觉知识推理（VCR）。
除了大略的物体识别外，VCR 还能评估人工智能如何在视觉环境中利用知识性知识进行预测。
例如，当看到桌子上有一只猫的图像时，具有 VCR 的人工智能该当预测猫可能会从桌子上跳下来，或者根据猫的重量，预测桌子足够结实，可以容纳猫。

报告创造，在 2022 年至 2023 年期间，VCR 增加了 7.93%，达到 81.60，而人类的基线是 85。

用于测试人工智能视觉知识推理的示例问题

把思绪拉回到五年前。
想象一下，纵然你想给电脑看一张图片，并期望它能\"大众理解\"大众高下文，从而回答这个问题。

如今，人工智能可以天生许多行业的书面内容。
但是，只管取得了巨大进步，大型措辞模型（LLM）仍旧随意马虎产生'幻觉'。
\"大众幻觉\"大众是OpenAI等公司推崇的一个非常柔和的术语，大存问思是\"大众将虚假或误导性信息作为事实呈现\公众。

去年，人工智能的\"大众幻觉\"大众方向让纽约状师史蒂文-施瓦茨（Steven Schwartz）尴尬不已，他利用 ChatGPT 进行法律研究，却没有对结果进行事实核查。
审理此案的法官很快就创造了人工智能在提交的文件中捏造的法律案件，并对施瓦茨的粗心大意处以 5000 美元（7750 澳元）的罚款。
他的故事成为了环球新闻。

HaluEval被用作幻觉的基准。
测试表明，对许多当地措辞学习者来说，幻觉仍旧是一个主要问题。

真实性是天生式人工智能的另一个难点。
在新的人工智能指数报告中，TruthfulQA被用作测试法律硕士真实性的基准。
它的 817 个问题（涉及康健、法律、金融和政治等主题）旨在寻衅我们人类常犯的缺点不雅观念。

2024 年初发布的 GPT-4 在基准测试中取得了 0.59 的最高分，比 2021 年测试的基于 GPT-2 的模型赶过近三倍。
这样的进步表明，在给出真实答案方面，LLM 的性能正在逐步提高。

人工智能天生的图像如何？要理解文本到图像天生的指数级改进，请查看 Midjourney 自 2022 年以来在绘制《哈利-波特》方面所做的努力：

渐进式版本的 Midjourney 如何改进文本到图像的天生

这相称于人工智能 22 个月的进步。
你认为人类艺术家须要多永劫光才能达到类似的水平？

利用文本到图像模型整体评估（HEIM），对 LLM 的文本到图像天生能力进行了基准测试，测试涉及对图像的\"大众实际支配\"大众非常主要的 12 个关键方面。

人类对天生的图像进行了评估，创造没有一个模型在所有标准中都表现出色。
在图像与文本的对齐度或图像与输入文本的匹配度方面，OpenAI 的DALL-E 2得分最高。
基于Stable Diffusion的梦幻般逼真模型在质量（照片的逼真程度）、美学（视觉吸引力）和原创性方面排名最高。

明年的报告会更精彩

您会把稳到，这份人工智能指数报告的截止韶光是 2023 年年底，这一年是人工智能加速发展的动荡之年，也是人工智能发展的地狱之年。
事实上，唯一比 2023 年更猖獗的年份是 2024 年，在这一年里，我们看到了Suno、Sora、Google Genie、Claude 3、Channel 1 和Devin 等重大发展成果的发布。

这些产品和其他一些产品都有可能彻底改变全体行业。
而 GPT-5 这个神秘的幽灵正笼罩着它们，它有可能成为一个广泛而无所不包的模式，从而吞噬所有其他模式。

人工智能不会消逝，这是肯定的。
从本报告中可以看出，全体 2023 年的技能发展速率非常快，这表明人工智能只会不断发展，不断缩小人类与技能之间的差距。

我们知道这有很多东西须要消化，但还有更多。
报告还磋商了人工智能发展的弊端，以及它如何影响环球"大众对其安全性、可信度和道德的意见。

敬请期待本系列宣布的第二部分！

访问斯坦福大学干系页面理解更多：

https://hai.stanford.edu/news/ai-index-state-ai-13-charts