《麻省理工科技评论》万字长文：什么是人工智能？_人工智能_措辞

2025-01-12 17:36:57 计算机

互联网上的恶意、谩骂以及其它非噜苏、足以改变天下的见地不合...

《麻省理工科技评论》万字长文：什么是人工智能？_人工智能_措辞计算机

人工智能既性感又酷炫。
它在加深不平等、颠覆就业市场并毁坏教诲体系。
人工智能像是主题公园的游乐举动步伐，又彷佛是魔术戏法。
它是我们的终极发明，也是道德任务的表示。
人工智能是这十年的盛行语，也是源自 1955 年的营销术语。
人工智能类人，又似异星来客；它超级智能却也愚不可及。
人工智能热潮将推动经济发展，而其泡沫彷佛也将一触即发。
人工智能将增加富余，赋能人类在宇宙中最大限度地繁荣发展，却又预示着我们的末日。

大家都在评论辩论些什么呢？

人工智能是我们时期最炙手可热的技能。
但它究竟是什么？这听起来像是一个屈曲的问题，但从未像现在这样紧迫。
简而言之，人工智能是一系列技能的总称，这些技能使打算机能够完成那些当人类实行时被认为须要聪慧的任务。
想想面部识别、语音理解、驾驶汽车、写作句子、回答问题、创作图像等。
但即便这样的定义也包含多重含义。

而这正是问题所在。
让机器“理解”语音或“书写”句子意味着什么？我们能哀求这类机器完成哪些任务？我们又该对它们的实行能力给予多大信赖？

随着这项技能从原型快速转化为产品，这些问题已成为我们所有人的议题。
但（剧透警告！
）我并没有答案。
乃至无法确切见告你人工智能是什么。
制造它的人也不真正知道。
Anthropic 人工智能实验室位于旧金山的首席科学家 Chris Olah 表示：“这些都是主要的问题，以至于每个人都以为自己可以有见地。
同时，我认为你可以对此辩论不休，而目前没有任何证据会回嘴你。
”

但如果你乐意坐稳并加入这场探索之旅，我可以见告你为何无人真正知晓，为何大家看似各自为政，以及你为何应该关注这统统。

让我们从一个随口的玩笑开始...

回溯至 2022 年，在《神秘 AI 炒作戏院 3000》这一档略显绝望的播客首集的中途——该播客由易怒的联合主持人 Alex Hanna 和 Emily Bender 主持，他们乐此不疲地用“最锋利的针”刺向硅谷一些最被吹捧的神圣不可陵犯的事物中——他们提出了一个荒谬的建议。
当时，他们正在大声朗读 Google 工程副总裁 Blaise Agüera y Arcas 在 Medium 上揭橥的一篇长达 12,500 字的文章，题为《机器能学会如何表现吗？》。
Agüera y Arcas 认为，人工智能能够以某种与人类相似的办法理解观点——比如道德代价不雅观这样的观点，从而暗示机器或许能够被教导如何表现。

（来源：MIT TR）

然而，Hanna 和 Bender 并不买账。
他们决定将“AI”一词更换为“数学邪术”——便是大量且繁芜的数学运算。

这个不敬的表达旨在戳破他们认为存在于引述句中的夸年夜和拟人化描述。
很快，身为分布式人工智能研究机构的研究主任及社会学家的 Hanna，以及华盛顿大学打算措辞学家、因批评科技行业浮夸其词而在网络上声名鹊起的 Bender，就在 Agüera y Arcas 想要传达的信息与其选择听取的内容之间划开了一道鸿沟。

Agüera y Arcas 问道：“AI、其创造者及利用者应如何在道德上承担任务？”

Bender 则反问：“数学邪术应如何在道德上承担任务？”

她指出：“这里存在分类缺点。
”Hanna 和 Bender 不但是反对 Agüera y Arcas 的不雅观点，他们认为这种说法毫无意义。
“我们能否停滞利用‘一个人工智能’或‘人工智能们’这样的表述，彷佛它们是天下上的个体一样？”Bender 说。

这听起来仿佛他们在谈论完备不同的事物，但实际上并非如此。
双方谈论的都是当古人工智能热潮背后的技能——大型措辞模型。
只是关于人工智能的谈论办法比以往任何时候都更加两极分解。
同年 5 月，OpenAI 的 CEO Sam Altman 在预报其公司旗舰模型 GPT-4 的最新更新时，在推特上写道：“对我来说，这觉得就像邪术。
”

从数学到邪术之间，存在着一条漫长的道路。

人工智能拥有信徒，他们对技能当前的力量和不可避免的未来进步抱有崇奉般的信念。
他们流传宣传，通用人工智能已近在面前，超级智能紧随其后。
同时，也有异见者对此嗤之以鼻，认为这些都是神秘主义的胡言乱语。

盛行的、充满话题性的阐述受到一系列大人物的影响，从 Sundar Pichai 和 Satya Nadella 这样的大型科技公司首席营销官，到 Elon Musk 和 Altman 这样的行业边缘玩家，再到 Geoffrey Hinton 这样的明星打算机科学家。
有时，这些鼓吹者和悲观论者是同一批人，见告我们这项技能好到令人担忧的地步。

随着人工智能的炒作不断膨胀，一个开门见山的反炒作阵营也应运而生，时候准备着击破那些年夜志勃勃、每每过于离谱的声明。
在这个方向上努力的，包括 Hanna 和 Bender 在内的一大群研究者，还有诸如前谷歌员工、有影响力的打算机科学家 Timnit Gebru 和纽约大学认知科学家 Gary Marcus 这样的行业批评者。
他们每个人都有浩瀚追随者，在评论中争吵不休。

简而言之，人工智能已经成为所有人眼中无所不能的存在，将领域分割成一个个粉丝群体。
不同阵营之间的互换彷佛常常驴唇不对马嘴，而且并不总是出于善意。

大概你以为这统统都很屈曲或烦人。
但鉴于这些技能的力量和繁芜性——它们已被用于决定我们的保险用度、信息检索办法、事情办法等等——至少就我们正在谈论的内容达成共识已经刻不容缓。

然而，在我与处于这项技能前沿的人们的诸多对话中，没有人直接回答他们究竟在构建什么。
（旁注：本文紧张聚焦于美国和欧洲的人工智能辩论，很大程度上是由于许多资金最充裕、最前辈的 AI 实验室都位于这些地区。
当然，其他国家也在进行主要的研究，尤其是中国，他们对人工智能有着各自不同的意见。
）部分缘故原由在于技能发展的速率，但科学本身也非常开放。
如今的大型措辞模型能够完成令人惊叹的事情，从办理高中数学问题到编写打算机代码，再到通过法律考试乃至创作诗歌。
当人做这些事情时，我们认为这是聪慧的标志。
那么，当打算机做到这些时呢？表象上的聪慧是否足够？

这些问题触及了我们所说的“人工智能”这一观点的核心，人们实际上已经为此辩论了几十年。
但随着能够以或令人惊悚，或令人着迷的真实模拟我们说话和写作办法的大型措辞模型的兴起，环绕 AI 的谈论变得更加尖酸刻薄。

我们已经制造出了具有类人行为的机器，却没有摆脱想象机器背后存在类人思维的习气。
这导致对人工智能能力的过高评价；它将直觉反应固化为教条式的态度，并且加剧了技能乐不雅观主义者与疑惑主义者之间更广泛的文化战役。

在这团不愿定性的炖菜中，再加上大量的文化包袱，从我敢打赌许多行业内人士发展过程中打仗到的科幻小说，到更恶劣地影响我们思考未来的意识形态。
鉴于这种令人陶醉的稠浊体，关于人工智能的辩论不再仅仅是学术性的（或许从来都不是）。
人工智能点燃了人们的激情，使得成年人相互责怪。

（来源：MIT TR）

“目前这场辩论并不处于一个智力康健的状态，”Marcus 这样评价道。
多年来，Marcus 一贯在指出深度学习的毛病和局限性，正是这项技能将人工智能推向主流，支撑着从大型措辞模型到图像识别，再到自动驾驶汽车的统统运用。
他在 2001 年出版的《代数思维》一书中提出，作为深度学习根本的神经网络本身无法独立进行推理。
（我们暂时略过这一点，但稍后我会回来磋商像“推理”这样的词汇在一个句子中的主要性。
）

Marcus 表示，他曾试图与 Hinton 就大型措辞模型的实际能力展开一场恰当的辩论，而 Hinton 去年公开表达了对自己参与发明的这项技能的生存恐怖。
“他便是不愿意这么做，”Marcus 说，“他叫我傻瓜。
”（过去在与 Hinton 谈及 Marcus 时，我可以证明这一点。
Hinton 去年曾见告我：“ChatGPT 显然比他更理解神经网络。
”）Marcus 在他撰写的一篇名为《深度学习正遭遇瓶颈》的文章后也招致了不满。
Altman 在推特上回应称：“给我一个平庸深度学习疑惑论者的自傲吧。
”

与此同时，敲响警钟也让 Marcus 成为了一个个人品牌，并得到了与 Altman 并肩坐在美国参议院人工智能监督委员会面前作证的约请。

而这正是所有这些辩论比普通网络恶意更主要的缘故原由。
当然，这里涉及到巨大的自我和巨额的资金。
但更主要的是，当行业领袖和有不雅观点的科学家被国家元首和立法者调集，来阐明这项技能是什么以及它能做什么（以及我们该当有多害怕）时，这些争议就显得尤为主要。
当这项技能被嵌入到我们日常利用的软件中，从搜索引擎到笔墨处理运用程序，再得手机上的助手，人工智能不会消逝。
但如果我们不知道自己购买的是什么，谁又是那个受骗者呢？

Stephen Cave 和 Kanta Dihal 在 2023 年出版的论文集《构想 AI》中写道：“很难想象历史上还有其他技能能引起这样的辩论——一场关于它是否无处不在，或者根本不存在的辩论。
对人工智能能有这样的辩论，证明了它的神话特质。
”

最主要的是，人工智能是一种不雅观念、一种空想，它受到天下不雅观和科幻元素的塑造，就犹如数学和打算机科学的塑造一样。
当我们评论辩论人工智能时，弄清楚我们在评论辩论什么将澄清许多事情。
我们可能在这些事情上无法达成同等，但就人工智能的实质达成共识将是谈论人工智能该当成为什么样子，至少是一个良好的开端。

那么，大家到底在争什么呢？

2022 年末，就在 OpenAI 发布 ChatGPT 之后不久，一个新的梗开始在网上流传，这个梗比任何其他办法都更能捕捉到这项技能的奇异之处。
在多数版本中，一个名为“修格斯”的洛夫克拉夫特式怪物——全身触须和眼球——举起一个平淡无奇的笑脸表情符号，仿佛要掩饰笼罩其真实的实质。
ChatGPT 在对话中的说话表现出类似人类的亲和力，但在那友好的表面之下隐蔽着难以理解的繁芜性乃至胆怯之处。
（正如 H.P. 洛夫克拉夫特在他的 1936 年中篇小说《猖獗山脉》中所写：“那是一个恐怖得无法形容的东西，比任何地铁列车都要弘大——一团无定形的原生质泡状聚合物。
”）

（来源：ANTHRUPAD）

这些辩论核心在于，人工智能不仅是一个技能问题，它触及了我们对自身认知、创造力、道德任务，乃至我们对未来的希望和恐怖的根本理解。
一方看到的是人工智能带来的无限潜能，是人类聪慧的延伸，是办理繁芜问题、提高生活质量的工具；另一方则担忧它可能带来的失落业、隐私陵犯、社会不公，乃至是人类自主性和生存的威胁。
ChatGPT 的涌现，犹如那个举起笑脸表情的修格斯，象征着人工智能技能在供应友好交互界面的同时，也隐蔽着深刻的社会、伦理和哲学寻衅。
这场辩论，本色上是关于我们如何界定智能、作甚人性，以及我们乐意让技能在我们的生活中扮演何种角色的深刻反思。

多年来，盛行文化中人工智能最著名的参照物之一是《闭幕者》，Dihal 提到。
但 OpenAI 通过免费上线 ChatGPT，让数百万人亲自经历了一种截然不同的东西。
“人工智能一贯是一个非常模糊的观点，可以无限扩展以包含各种想法，”她说。
但 ChatGPT 让这些想法变得详细起来：“溘然间，每个人都有了一个详细的参照物。
”对付数百万人来说，人工智能的答案现在变成了：ChatGPT。

人工智能家当正大力推销这个微笑的面孔。
想想《逐日秀》最近如何通过行业领袖的辞吐来讽刺这种炒作。
硅谷风投大佬 Marc Andreessen 说：“这有可能让生活变得更好……我以为这切实其实便是个轻松得分的机会。
”Altman 说：“我不想在这里听起来像个乌托邦式的技能狂人，但人工智能能带来的生活质量提升是非凡的。
”Pichai 说：“人工智能是人类正在研究的最深远的技能。
比火还要深远。
”

Jon Stewart 讽刺道：“是啊，火，你吃瘪吧！
”

但正如这个梗所示，ChatGPT 是一个友好的面具。
在其背后，是一个名为 GPT-4 的怪物，这是一个基于弘大神经网络的大型措辞模型，其摄入的笔墨量超过我们大多数人千辈子阅读的总量。
在持续数月、耗资数千万美元的演习过程中，这类模型被授予了添补来自数百万本书本和互联网相称大部分内容中句子空缺的任务。
它们一遍又一各处实行这个任务。
从某种意义上说，它们被演习成超级自动补全机器。
结果是天生了一个模型，它将天下上大部分书面信息转换成了一个统计表示，即哪些词最有可能跟随其他词涌现，这一过程超过了数十亿计的数值。

这确实是数学——大量的数学。
没有人对此有异议。
但问题在于，这只是数学吗，还是这种繁芜的数学编码了能够类似人类推理或观点形成的算法？

许多对这个问题持肯定态度的人相信，我们即将解锁所谓的通用人工智能（AGI），这是一种假设中的未来技能，能在多种任务上达到人类水平。
他们中的一些人乃至将目标瞄准了所谓的超级智能，即科幻小说中那种能远超人类表现的技能。
这一群体认为 AGI 将极大地改变天下——但目的是什么？这是另一个紧张点。
它可能办理天下上所有问题，也可能带来世界的末日。

（来源：X）

如今，AGI 涌如今环球顶级 AI 实验室的义务宣言中。
但这个词是在 2007 年作为一个小众考试测验而创造出来的，旨在为当时以读取银行存款单上的手写内容或推举下一本购书为主的领域注入一些活力。
其初衷是重拾最初设想的人工智能，即能做类人事务的人工智能（更多内容即将揭晓）。

Google DeepMind 联合创始人 Shane Legg，也便是创造了这个术语的人，在去年见告我，这实在更多是一种欲望：“我没有特殊清晰的定义。
”

AGI 成为了人工智能领域最具争议的想法。
一些人将其炒作为下一个重大事宜：AGI 便是人工智能，但你知道的，要好得多。
其他人则声称这个术语太过模糊，以至于毫无意义。

“AGI 曾经是个忌讳的词，”OpenAI 前首席科学家 Ilya Sutskever 在辞职前见告过我。

但大型措辞模型，特殊是 ChatGPT，改变了统统。
AGI 从忌讳之词变成了营销梦想。

这就引出了我认为目前最具解释性的争议之一——这场争议设定了辩论双方以及个中的短长关系。

在机器中瞥见邪术

在 OpenAI 的大型措辞模型 GPT-4 于 2023 年 3 月公开拓布前几个月，公司与微软分享了一个预发布版本，微软希望利用这个新模型来改造其搜索引擎 Bing。

那时，Sebastian Bubeck 正在研究 LLMs（大型措辞模型）的局限性，并对它们的能力持一定程度的疑惑态度。
尤其是身为华盛顿州雷德蒙德微软研究院天生 AI 研究副总裁的 Bubeck，一贯在考试测验并未能成功让这项技能办理中学数学问题。
比如：x - y = 0；x 和 y 各是多少？“我认为推理是一个瓶颈，一个障碍，”他说，“我原以为你必须做一些根本性不同的事情才能战胜这个障碍。
”

然后他打仗到了 GPT-4。
他做的第一件事便是考试测验那些数学问题。
“这个模型完美办理了问题，”他说，“坐在 2024 年的现在，当然 GPT-4 能解线性方程。
但在当时，这太猖獗了。
GPT-3 做不到这一点。
”

但 Bubeck 真正的顿悟时候来自于他推动 GPT-4 去做一些全新的事情。

关于中学数学问题，它们遍布互联网，GPT-4 可能只是记住了它们。
“你如何研究一个可能已经看过人类所写统统的模型？”Bubeck 问道。
他的答案是测试 GPT-4 办理一系列他和他的同事们认为是新颖的问题。

在与微软研究院的数学家 Ronen Eldan 一起考试测验时，Bubeck 哀求 GPT-4 以诗歌的形式给出证明存在无限多质数的数学证明。

以下是 GPT-4 回应的一段：“如果我们取 S 中未在 P 中的最小数/并称之为 p，我们可以将它加入我们的凑集，你看不见吗？/但是这个过程可以无限重复。
/因此，我们的凑集 P 也必定是无限的，你会赞许。
”

很有趣，对吧？但 Bubeck 和 Eldan 认为这远远不止于此。
“我们在那个办公室，”Bubeck 通过 Zoom 指着身后的房间说，“我们两个都从椅子上摔了下来。
我们无法相信自己所看到的。
这太有创意了，如此分歧凡响。
”

微软团队还让 GPT-4 天生代码，在用 Latex（一种笔墨处理程序）绘制的独角兽卡通图片上添加一只角。
Bubeck 认为这表明模型能够阅读现有的 Latex 代码，理解其描述的内容，并识别角该当加在哪里。

“有很多例子，但个中一些是推理能力的铁证，”他说——推理能力是人类智能的关键构建块。

（来源：Bubeck）

Bubeck、Eldan 及微软的其他研究团队成员在一篇名为《人工通用智能的火花》的论文中阐述了他们的创造，文中提到：“我们相信，GPT-4 所展示的智能标志着打算机科学领域及之外的一次真正范式转变。
”Bubeck 在网上分享该论文时，在推特上写道：“是时候面对现实了，#AGI 的火花已被点燃。
”

这篇《火花》论文迅速变得臭名昭著，同时也成为 AI 支持者的试金石。
Agüera y Arcas 与 Google 前研究总监、《人工智能：当代方法》一书的合著者 Peter Norvig 共同撰写了一篇文章，题为《人工通用智能已经到来》。
该文章揭橥在洛杉矶智库 Berggruen 研究所支持的杂志 Noema 上，个中援引《火花》论文作为出发点，指出：“人工通用智能（AGI)对不同的人来说意味着许多不同的事物，但它的最主要部分已经被当前一代的前辈大型措辞模型实现。
几十年后，它们会被公认为第一批真正的 AGI 实例。
”

此后，环绕这一议题的炒作持续膨胀。
当时在 OpenAI 专注于超级智能研究的 Leopold Aschenbrenner 去年见告我：“过去几年里，AI 的发展速率非常迅速。
我们不断冲破各种基准测试记录，而且这种进步势头不减。
但这只是个开始，我们将拥有超越人类的模型，比我们更聪明得多的模型。
”（他声称因提出构建技能的安全性问题并“触怒了一些人”，于今年 4 月被 OpenAI 开除，并随后在硅谷成立了投资基金。
）

今年 6 月，Aschenbrenner 发布了一份长达 165 页的宣言，称 AI 将在“2025/2026 年”超过大学毕业生，并在本十年末实现真正意义上的超智能。
然而，业内其他人对此嗤之以鼻。
当 Aschenbrenner 在推特上发布图表，展示他估量 AI 在未来几年内如何连续保持近年来的快速进步速率时，科技投资者 Christian Keil 回嘴道，按照同样的逻辑，他刚出生的儿子如果体重翻倍的速率保持不变，到 10 岁时将重达 7.5 万亿吨。

因此，“AGI 的火花”也成为了过度炒作的代名词，不足为奇。
“我认为他们有点得意忘形了，”Marcus 在谈到微软团队时说，“他们像创造新大陆一样愉快，‘嘿，我们创造了东西！
这太神奇了！
’但他们没有让科学界进行验证。
”Bender 则将《火花》论文比喻为一部“粉丝小说”。

流传宣传 GPT-4 的行为显示出 AGI 迹象不仅具有挑衅性，而且作为在其产品中利用 GPT-4 的微软，显然有动机浮夸这项技能的能力。
“这份文件是伪装成研究的营销噱头，”一位科技公司的首席运营官在领英上如此评论。

一些人还批评该论文的方法论存在毛病。
其证据难以验证，由于这些证据源自与未向 OpenAI 和微软以外公开的 GPT-4 版本的互动。
Bubeck 承认，"大众年夜众版 GPT-4 设有限定模型能力的护栏，这使得其他研究职员无法重现他的实验。

一个团队考试测验利用一种名为 Processing 的编程措辞重新创建独角兽示例，GPT-4 同样能用此措辞天生图像。
他们创造，"大众年夜众版 GPT-4 虽能天生一个过得去的独角兽图像，却不能将该图像旋转 90 度。
这看似眇小的差异，但在声称绘制独角兽的能力是 AGI 标志时，就显得至关主要。

《火花》论文中的关键点，包括独角兽的例子，是 Bubeck 及其同事认为这些都是创造性推理的真实案例。
这意味着团队必须确保这些任务或非常类似的任务未包含在 OpenAI 用于演习其模型的弘大数据集中。
否则，结果可能被阐明为 GPT-4 重复其已见过的模式，而非创新性的表现。

（来源：JUN IONEDA）

Bubeck 坚持表示，他们只给模型设置那些在网上找不到的任务。
用 Latex 绘制卡通独角兽无疑便是这样的一个任务。
但互联网浩瀚无边，很快就有其他研究者指出，实际上确实存在专门谈论如何用 Latex 绘制动物的在线论坛。
“仅供参考，我们当时知道这件事，”Bubeck 在 X 平台上回答道，“《火花》论文中的每一个查询都在互联网上进行了彻底的搜索。
”

（但这并未阻挡外界的责怪：“我哀求你停滞做江湖骗子，”加州大学伯克利分校的打算机科学家 Ben Recht 在推特上还击，并指控 Bubeck“被当场抓包撒谎”。
）

Bubeck 坚称这项事情是出于美意进行的，但他和他的合著者在论文中承认，他们的方法并不严格，只是基于条记本不雅观察而非无懈可击的实验。

即便如此，他并不后悔：“论文已经揭橥一年多，我还没有看到有人给我一个令人信服的论证，比如说，为何独角兽不是一个真实推理的例子。
”

这并不是说他对这个重大问题能给出直接答案——只管他的回答揭示了他希望给出的那种答案类型。
“什么是 AI？”Bubeck 反问我，“我想跟你解释白，问题可以大略，但答案可能很繁芜。
”

“有很多大略的问题，我们至今仍不知道答案。
而个中一些大略的问题，却是最深刻的，”他接着说，“我把这个问题放在同等主要的地位上，就像，生命起源于何？宇宙的起源是什么？我们从何而来？这类大大的问题。
”

在机器中只见数学

Bender 成为 AI 推动者的首席对手之前，她曾作为两篇有影响力的论文的合著者在 AI 领域留下了自己的印记。
（她喜好指出，这两篇论文都经由了同行评审，与《火花》论文及许多备受关注的其他论文不同。
）第一篇论文是与德国萨尔兰大学的打算措辞学家 Alexander Koller 共同撰写，于 2020 年揭橥，名为“迈向自然措辞理解（NLU）”。

“这统统对我来说开始于与打算措辞学界的其他人辩论，措辞模型是否真正理解任何东西，”她说。
（理解，犹如推理一样，常日被认为是人类智能的基本组成部分。
）

Bender 和 Koller 认为，仅在文本上演习的模型只会学习措辞的形式，而不是其意义。
他们认为，意义由两部分组成：词汇（可能是符号或声音）加上利用这些词汇的缘故原由。
人们出于多种缘故原由利用措辞，比如分享信息、讲笑话、调情、警告他人退后等。
剥离了这一语境后，用于演习如 GPT-4 这样的大型措辞模型（LLMs）的文本足以让它们模拟措辞的模式，使得许多由 LLM 天生的句子看起来与人类写的句子千篇一律。
然而，它们背后没有真正的意义，没有灵光一闪。
这是一种显著的统计学技巧，但却完备无意识。

他们通过一个思维实验来阐述自己的不雅观点。
想象两个说英语的人被困在相邻的荒岛上，有一条水下电缆让他们能够相互发送笔墨信息。
现在设想一只对英语一无所知但善于统计模式匹配的章鱼缠绕上了电缆，开始监听这些信息。
章鱼变得非常善于预测哪些词会跟随其他词涌现。
它变得如此之好，以至于当它打断电缆并开始回应个中一个岛民的信息时，她相信自己仍在与邻居谈天。
（如果你没把稳到，这个故事中的章鱼便是一个谈天机器人。
）

与章鱼交谈的人会在一段韶光内被骗，但这能持续吗？章鱼能理解通过电缆传来的内容吗？

（来源：JUN IONEDA）

想象一下，现在岛民说她建造了一个椰子弹射器，并请章鱼也建造一个并见告她它的想法。
章鱼无法做到这一点。
由于不理解中的词汇在现实天下中的指代，它无法遵照岛民的指示。
大概它会预测回答：“好的，酷主张！
”岛民可能会认为这意味着与她对话的人理解了她的信息。
但如果真是这样，她便是在没故意义的地方看到了意义。
末了，想象岛民遭到熊的打击，通过电缆发出求救旗子暗记。
章鱼该如何处理这些词语呢？

Bender 和 Koller 认为，这便是大型措辞模型如何学习以及为什么它们受限的缘故原由。
“这个思维实验表明，这条路不会引领我们走向一台能理解任何事物的机器，”Bender 说。
“与章鱼的交易在于，我们给它供应了演习数据，即那两个人之间的对话，仅此而已。
但是，当涌现了出乎猜想的情形时，它就无法应对，由于它没有理解。
”

Bender 另一篇有名的论文《随机鹦鹉的危险》强调了一系列她和她的合著者认为制作大型措辞模型的公司正在忽略的危害。
这些危害包括制造模型的巨大打算本钱及其对环境的影响；模型固化的种族主义、性别歧视和其他辱骂性措辞；以及构建一个别系所带来的危险，该系统可能通过“随意拼接措辞形式的序列……根据它们如何结合的概率信息，而不参考任何意义：一个随机鹦鹉”，从而欺骗人们。

谷歌高等管理层对该论文不满，由此引发的冲突导致 Bender 的两位合著者 Timnit Gebru 和 Margaret Mitchell 被迫离开公司，她们在那里领导着 AI 伦理团队。
这也使得“随机鹦鹉”成为了大型措辞模型的一个盛行贬义词，并将 Bender 直接卷入了这场互骂的漩涡中。

对付 Bender 和许多志同道合的研究职员来说，底线是该领域已被烟雾和镜子所迷惑：“我认为他们被勾引去想象能够自主思考的实体，这些实体可以为自己做出决定，并终极成为那种能够对其决定卖力的东西。
”

作为始终如一的措辞学家，Bender 现在乃至不愿在不加引号的情形下利用“人工智能”这个词。
“我认为它是一种让人产生抱负的观点，让人想象出能够自我决策并终极为这些决策承担任务的自主思考实体，”她见告我。
归根结底，对她而言，这是大型科技公司的一个盛行语，分散了人们对诸多干系危害的把稳力。
“我现在置身事中，”她说。
“我关心这些问题，而过度炒作正在妨碍进展。
”

非凡的证据？

Agüera y Arcas 将像 Bender 这样的人称为“AI 否定者”，暗示他们永久不会接管他视为天经地义的不雅观点。
Bender 的态度是，非凡的主见须要非凡的证据，而我们目前还没有这样的证据。

但有人正在探求这些证据，在他们找到明确无疑的证据——无论是思维的火花、随机鹦鹉还是介于两者之间的东西——之前，他们甘心置身事外。
这可以被称为不雅观望阵营。

正如在布朗大学研究神经网络的 Ellie Pavlick 对我所说：“向某些人暗示人类智能可以通过这类机制重现，对他们来说是搪突。
”

她补充道，“人们对这个问题有着根深蒂固的信念——这险些觉得像是宗教崇奉。
另一方面，有些人则有点上帝情结。
因此，对他们来说，暗示他们便是做不到也是无礼的。
”

Pavlick 终极持不可知论态度。
她坚持自己是一名科学家，会遵照科学的任何导向。
她对那些夸年夜的主见翻白眼，但她相信有一些令人愉快的事情正在发生。
“这便是我和 Bender 及 Koller 见地不同的地方，”她见告我，“我认为实际上有一些火花——大概不是 AGI 级别的，但就像，里面有些东西是我们未曾预见到会创造的。
”

问题在于，要找到对这些令人愉快的事物及其为何令人愉快的共识。
在如此多的炒作之下，很随意马虎变得愤世嫉俗。

当你听取像 Bubeck 这样的研究职员的见地时，你会创造他们彷佛更为镇静。
他认为内部争执忽略了他事情的细微差别。
“同时持有不同的不雅观点对我来说没有任何问题，”他说，“存在随机鹦鹉征象，也存在推理——这是一个范围，非常繁芜。
我们并没有所有的答案。
”

“我们须要一套全新的词汇来描述正在发生的事情，”他说，“当我评论辩论大型措辞模型中的推理时，人们会回嘴，缘故原由之一是它与人类的推理办法不同。
但我认为我们无法不称之为推理，它确实是一种推理。
”

只管他的公司 Anthropic 是目前环球最炙手可热的 AI 实验室之一，且今年早些时候发布的 Claude 3——与 GPT-4 一样（乃至更多）得到了大量夸年夜赞誉的大型措辞模型，但 Olah 在被问及如何看待 LLMs 时仍表现得相称谨慎。

“我以为关于这些模型能力的很多谈论都非常部落化，”他说，“人们有先入为主的不雅观念，而且任何一方的论证都没有充分的证据支撑。
然后这就变成了基于氛围的谈论，我认为互联网上的这种基于氛围的辩论每每会走向糟糕的方向。
”

Olah 见告我他有自己的直觉。
“我的主不雅观印象是，这些东西在追踪相称繁芜的思想，”他说，“我们没有一个全面的故事来阐明非常大的模型是如何事情的，但我认为我们所看到的很难与极度的‘随机鹦鹉’形象相调和。
”

这便是他的极限：“我不想超越我们现有证据所能强烈推断出的内容。
”

上个月，Anthropic 发布了一项研究的结果，研究职员给 Claude 3 做了相称于神经网络的 MRI。
通过监测模型运行时哪些部分开启和关闭，他们识别出了在模型展示特定输入时激活的特定神经元模式。

例如，当模型吸收到金门大桥的图像或与之干系的词汇时，彷佛就会涌现一种特定的模式。
研究职员创造，如果他们增强模型中这一部分的浸染，Claude 就会完备沉迷于这座著名的建筑。
无论你问它什么问题，它的回答都会涉及这座桥——乃至在被哀求描述自己时，它也会将自己与桥联系起来。
有时它会把稳到提及桥梁是不恰当的，但又忍不住会这样做。

（来源：Claude）

Anthropic 还报告了与考试测验描述或展示抽象观点的输入干系的模式。
“我们看到了与欺骗和老实、谄媚、安全漏洞、偏见干系的特色，”Olah 说，“我们创造了与寻求权力、操纵和背叛干系的特色。
”

这些结果让我们迄今为止最清晰地看到了大型措辞模型的内部情形。
这是对看似难以捉摸的人类特质的一种诱人一瞥。
但它真正见告我们什么呢？正如 Olah 所承认的，他们不知道模型如何处理这些模式。
“这是一个相对有限的画面，剖析起来相称困难，”他说。

纵然 Olah 不愿意详细解释他认为像 Claude 3 这样的大型措辞模型内部究竟发生了什么，显而易见的是，这个问题对他来说为什么主要。
Anthropic 以其在 AI 安全方面的事情而有名——确保未来强大的模型会按照我们希望的办法行动，而不因此我们不肯望的办法（在行业术语中称为“对齐”）。
弄清楚当今模型的事情事理，不仅是如果你想掌握未来模型所必需的第一步；它也见告你，首先你须要对末日情景担心多少。
“如果你认为模型不会有很强的能力，”Olah 说，“那么它们可能也不会很危险。
”

为何我们难以达成同等

在 2014 年 BBC 对她职业生涯回顾的一次采访中，现年 87 岁的有影响力的认知科学家 Margaret Boden 被问及她是否认为有任何限定会阻挡打算机（或者她所谓的“锡罐子”）去做人类能做的事情。

“我当然不认为原则上存在这样的限定，”她说，“由于否认这一点就意味着人类的思维是靠邪术发生的，而我不相信它是靠邪术发生的。
”

但她警告说，强大的打算机本身并不敷以使我们达到这一目标：AI 领域还须要“有力的想法”——关于思维如何发生的全新理论，以及可能复制这一过程的新算法。
“但这些东西非常、非常困难，我没有情由假设有一天我们能够回答所有这些问题。
或许我们能；或许我们不能。
”

博登回顾了当前繁荣期的早期阶段，但这种我们能否成功的摇摆不定反响了数十年来她和她的同寅们努力办理的难题，这些难题正是本日研究职员也在努力战胜的。
AI 作为一个年夜志勃勃的目标始于大约 70 年前，而我们至今仍在辩论哪些是可实现的，哪些不是，以及我们如何知道自己是否已经实现了目标。
大部分——如果不是全部的话——这些争议归结为一点：我们尚未很好地理解什么是智能，或者如何识别它。
这个领域充满了直觉，但没有人能确切地说出答案。

自从人们开始负责对待 AI 这一理念以来，我们就一贯卡在这个问题上。
乃至在此之前，当我们消费的故事开始在集体想象中深深植入类人机器的观点时，也是如此。
这些辩论的悠久历史意味着，本日的辩论每每强化了自一开始就存在的不合，使得人们更加难以找到共同点。

为了理解我们是如何走到这一步的，我们须要理解我们曾经走过的路。
因此，让我们深入探究AI的起源故事——这也是一个为了资金而大肆宣扬的故事。

人工智能宣扬简史

打算机科学家 John McCarthy（约翰·麦卡锡）在 1955 年为新罕布什尔州达特茅斯学院 (Dartmouth College)的一个暑期研究项目撰写帮助申请时，被认为提出了“人工智能”这一术语。

（来源：COURTESY OF THE MINSKY FAMILY）

操持是让 McCarthy 和他的几个研究员差错——战后美国数学家和打算机科学家的精英群体，或如剑桥大学研究 AI 历史以及谷歌 DeepMind 伦理与政策的研究员 Harry Law 所称的“John McCarthy 和他的小伙伴们”——聚在一起两个月（没错，是两个月），在这个他们为自己设定的新研究寻衅上取得重大进展。

McCarthy 和他的合著者写道：“该研究基于这样一个假设进行：学习的每一个方面或智力的任何其他特色原则都可以被如此精确地描述，以至于可以制造一台机器来仿照它。
我们将考试测验找出如何让机器利用措辞、形成抽象观点、办理目前仅限于人类的问题，并自我改进。
”

他们想让机器做到的这些事情——Bender 称之为“充满憧憬的梦想”——并没有太大改变。
利用措辞、形成观点和解决问题仍旧是当今 AI 的定义性目标。
傲慢也并未减少多少：“我们认为，如果精心挑选的一组科学家一起事情一个夏天，就能在这些问题中的一个或多个方面取得显著进展。
”他们写道。
当然，那个夏天已经延长到了七十年。
至于这些问题实际上现在办理了多少，仍旧是人们在网络上辩论的话题。

然而，这段经典历史中常被忽略的是，人工智能差点就没有被称为“人工智能”。

不止一位 McCarthy 的同事讨厌他提出的这个术语。
据历史学家 Pamela McCorduck （帕梅拉·麦考达克）2004 年的书《思考的机器》引用，达特茅斯会议参与者及首台跳棋电脑创造者 Arthur Samuel（亚瑟·塞缪尔）说：“'人工'这个词让你以为这里面有些虚假的东西。
”数学家 Claude Shannon（克劳德·喷鼻香农），达特茅斯提案的合著者，有时被誉为“信息时期之父”，更喜好“自动机研究”这个术语。
Herbert Simon（赫伯特·西蒙）和 Allen Newell（艾伦·纽厄尔），其余两位 AI 先驱，在之后的多年里仍称自己的事情为“繁芜信息处理”。

事实上，“人工智能”只是可能概括达特茅斯小组汲取的凌乱思想的几个标签之一。
历史学家 Jonnie Penn 当时已确认了一些可能的替代选项，包括“工程生理学”、“运用认识论”、“神经掌握论”、“非数值打算”、“神经动力学”、“高等自动编程”和“假设性自动机”。
这一系列名称揭示了他们新领域灵感来源的多样性，涵盖了生物学、神经科学、统计学等多个领域。
另一位达特茅斯会议参与者 Marvin Minsky 曾将 AI 描述为一个“手提箱词”，由于它能承载许多不同的阐明。

但 McCarthy 想要一个能捕捉到他愿景年夜志壮志的名称。
将这个新领域称为“人工智能”吸引了人们的把稳——以及资金。
别忘了：AI 既性感又酷。

除了术语，达特茅斯提案还确定了人工智能相互竞争的方法之间的分裂，这种分裂自此往后一贯困扰着该领域——Law 称之为“AI 的核心紧张关系”。

（来源：MIT TR）

McCarthy 和他的同事们想用打算机代码描述“学习的每一个方面或其他任何智力特色”，以便机器模拟。
换句话说，如果他们能弄清楚思维是如何事情的——推理的规则——并写下来，他们就可以编程让打算机遵照。
这奠定了后来被称为基于规则或符号 AI（现在有时被称为 GOFAI，即“好老式的人工智能”）的根本。
但提出硬编码规则来捕获实际、非噜苏问题的办理过程证明太难了。

另一条路径则偏爱神经网络，即试图以统计模式自行学习这些规则的打算机程序。
达特茅斯提案险些因此附带的办法提到它（分别提到“神经网络”和“神经网”）。
只管这个想法起初彷佛不太有希望，但一些研究职员还是连续在符号 AI 的同时开拓神经网络的版本。
但它们真正起飞要等到几十年后——加上大量的打算能力和互联网上的大量数据。
快进到本日，这种方法支撑了全体 AI 的繁荣。

这里的紧张收成是，就像本日的研究职员一样，AI 的创新者们在根本观点上争执不休，并陷入了自我宣扬的旋涡。
就连 GOFAI 团队也饱受争吵之苦。
年近九旬的哲学家及 AI 先驱 Aaron Sloman 回顾起他在 70 年代认识的“老朋友”明斯基和麦卡锡时，两人“强烈见地不合”：“Minsky 认为 McCarthy 关于逻辑的主见行不通，而 McCarthy 认为 Minsky 的机制无法做到逻辑所能做的。
我和他们都相处得很好，但我当时在说，‘你们俩都没搞对。
’”（斯洛曼仍旧认为，没有人能阐明人类推理中直觉与逻辑的利用，但这又是另一个话题！
）

随着技能命运的起伏，“AI”一词也随之时兴和过期。
在 70 年代初，英国政府发布了一份报告，认为 AI 梦想毫无进展，不值得帮助，导致这两条研究路径实际上都被搁置了。
所有那些炒作，本色上都未带来任何成果。
研究项目被关闭，打算机科学家从他们的帮助申请中抹去了“人工智能”一词。

当我在 2008 年完成打算机科学博士学位时，系里只有一个人在研究神经网络。
Bender 也有类似的影象：“在我上大学时，一个流传的笑话是，AI 是我们还没有弄清楚如何用打算机做的任何事。
就像是，一旦你弄明白怎么做了，它就不再神奇，以是它就不再是 AI 了。
”

但那种邪术——达特茅斯提案中概述的宏伟愿景——仍旧活气勃勃，正如我们现在所见，它为 AGI（通用人工智能）梦想奠定了根本。

好行为与坏行为

1950 年，也便是 McCarthy 开始评论辩论人工智能的五年前，Alan Turing（艾伦·图灵）揭橥了一篇论文，提出了一个问题：机器能思考吗？为了磋商这个问题，这位著名的数学家提出了一个假设测试，即后来有名的图灵测试。
测试设想了一个场景，个中一个人类和一台打算机位于屏幕后，而第二个人类通过打字向他们双方提问。
如果提问者无法分辨哪些回答来自人类，哪些来自打算机，Turing 认为，可以说打算机也可以算是思考的。

与 McCarthy 团队不同，Turing 意识到思考是一个很难描述的事情。
图灵测试是一种绕开这个问题的方法。
“他基本上是在说：与其关注智能的实质，不如探求它在世界中的表现形式。
我要探求它的影子，”Law 说。

1952 年，英国广播公司电台组织了一个专家小组进一步磋商 Turing 的不雅观点。
图灵在演播室里与他的两位曼彻斯特大学同事——数学教授 Maxwell Newman （麦克斯韦尔·纽曼）和神经外科教授 Geoffrey Jefferson（杰弗里·杰斐逊），以及剑桥大学的科学、伦理与宗教哲学家 Richard Braithwaite（理查德·布雷斯韦特）一同出席。

Braithwaite 开场说道：“思考常日被认为是人类，大概还包括其他高档动物的专长，这个问题可能看起来太荒谬了，不值得谈论。
但当然，这完备取决于‘思考’中包含了什么。
”

小组成员环绕 Turing 的问题展开谈论，但始终未能给出确切的定义。

当他们试图定义思考包含什么，其机制是什么时，标准一贯在变动。
“一旦我们能在大脑中看到因果关系的运作，我们就会认为那不是思考，而是一种缺少想象力的苦力事情，”图灵说道。

问题在于：当一位小组成员提出某种可能被视为思考证据的行为——比如对新想法表示愤怒——另一位成员就会指出，打算机也可以被编程来做到这一点。

（来源：MIT TR）

正如 Newman 所说，编程让打算机打印出“我不喜好这个新程序”是轻而易举的。
但他承认，这不过是个把戏。

Jefferson 对此表示赞许：他想要的是一台由于不喜好新程序而打印出“我不喜好这个新程序”的打算机。
换言之，对付 Jefferson 来说，行为本身是不足的，引发行为的过程才是关键。

但 Turing 并不同意。
正如他所指出的，揭示特定过程——他所说的苦力事情——并不能确切指出思考是什么。
那么剩下的还有什么？

“从这个角度来看，人们可能会受到诱惑，将思考定义为我们还不理解的那些生理过程，”Turing 说，“如果这是精确的，那么制造一台思考机器便是制造一台能做出有趣事情的机器，而我们实在并不完备理解它是如何做到的。
”

听到人们首次磋商这些想法觉得有些奇怪。
“这场辩论具有预见性，”哈佛大学的认知科学家 Tomer Ullman 说，“个中的一些不雅观点至今仍旧存在——乃至更为突出。
他们彷佛在反复谈论的是，图灵测试首先并且紧张是一个行为主义测试。
”

对 Turing 而言，智能难以定义但随意马虎识别。
他发起，智能的表现就足够了，而没有提及这种行为应该如何产生。

然而，大多数人被逼问时，都会凭直觉判断作甚智能，作甚非智能。
表现出智能有屈曲和聪明的办法。
1981 年，纽约大学的哲学家 Ned Block 表明，Turing 的发起没有知足这些直觉。
由于它没有解释行为的缘故原由，图灵测试可以通过欺骗手段（正如纽曼在 BBC 广播中所指出的）来通过。

“一台机器是否真的在思考或是否智能的问题，难道取决于人类鞠问者的易骗程度吗？”布洛克问道。
（正如打算机科学家 Mark Reidl 所评论的那样：“图灵测试不是为了让 AI 通过，而是为了让人类失落败。
”）

Block 设想了一个弘大的查找表，个中人类程序员录入了对所有可能问题的所有可能答案。
向这台机器输入问题，它会在数据库中查找匹配的答案并发送回来。
Block 认为，任何人利用这台机器都会认为其行为是智能的：“但实际上，这台机器的智能水平就像一个烤面包机，”他写道，“它展现的所有智能都是其程序员的智能。
”

Block 总结道，行为是否为智能行为，取决于它是如何产生的，而非它看起来如何。
Block 的“烤面包机”（后来被称为 Blockhead）是对 Turing 发起背后假设最强有力的反例之一。

探索内在机制

图灵测试本意并非实际衡量标准，但它对我们本日思考人工智能的办法有着深远的影响。
这一点随着近年来大型措辞模型（LLMs）的爆炸性发展变得尤为干系。
这些模型以外在行为作为评判标准，详细表现为它们在一系列测试中的表现。
当 OpenAI 宣告 GPT-4 时，发布了一份令人印象深刻的得分卡，详细列出了该模型在多个高中及专业考试中的表现。
险些没有人谈论这些模型是如何取得这些成绩的。

这是由于我们不知道。
如今的大型措辞模型太过繁芜，以至于任何人都无法确切解释其行为是如何产生的。
除少数几家开拓这些模型的公司外，外部研究职员不理解其演习数据包含什么；模型制造商也没有分享任何细节。
这使得区分什么是影象（随机模拟）什么是真正的智能变得困难。
即便是在内部事情的研究职员，如 Olah，面对一个痴迷于桥梁的机器人时，也不知道真正发生了什么。

这就留下了一个悬而未决的问题：是的，大型措辞模型建立在数学之上，但它们是否在用智能的办法利用这些数学知识呢？

辩论再次开始。

布朗大学的 Pavlick 说：“大多数人试图从理论上推测（armchair through it），”这意味着他们在没有不雅观察实际情形的情形下辩论理论。
“有些人会说，‘我认为情形是这样的，’另一些人则会说，‘嗯，我不这么认为。
’我们有点陷入僵局，每个人都不满意。
”

Bender 认为这种神秘感加剧了神话的构建。
（“魔术师不会阐明他们的把戏，”她说。
）没有恰当理解 LLM 措辞输出的来源，我们便方向于依赖对人类的熟习假设，由于这是我们唯一的真正参照点。
当我们与他人交谈时，我们试图理解对方想见告我们什么。
“这个过程一定涉及想象言语背后的那个生命，”Bender 说。
这便是措辞的事情办法。

（来源：JUN IONEDA）

“ChatGPT 的小把戏如此令人印象深刻，以至于当我们看到这些词从它那里冒出来时，我们会本能地做同样的事，”她说。
“它非常善于模拟措辞的形式。
问题是，我们根本不善于碰着措辞的形式而不去想象它的别的部分。
”

对付一些研究者来说，我们是否能理解其运作办法并不主要。
Bubeck 过去研究大型措辞模型是为了考试测验弄清楚它们是如何事情的，但 GPT-4 改变了他的意见。
“这些问题彷佛不再那么干系了，”他说。
“模型太大，太繁芜，以至于我们不能指望打开它并理解里面真正发生的事情。
”

但 Pavlick 像 Olah 一样，正努力做这件事。
她的团队创造，模型彷佛编码了物体之间的抽象关系，比如国家和都城之间的关系。
通过研究一个大型措辞模型，Pavlick 和她的同事们创造，它利用相同的编码映射法国到巴黎，波兰到华沙。
我见告她，这听起来险些很聪明。
“不，它实际上便是一个查找表，”她说。

但让 Pavlick 感到震荡的是，与 Blockhead 不同，模型自己学会了这个查找表。
换句话说，LLM 自己创造巴黎对付法国就犹如华沙对付波兰一样。
但这展示了什么？自编码查找表而不是利用硬编码的查找表是智能的标志吗？我们该在哪里划清界线？

“基本上，问题在于行为是我们唯一知道如何可靠丈量的东西，” Pavlick 说。
“其他任何东西都须要理论上的承诺，而人们不喜好不得不做出理论上的承诺，由于它承载了太多含义。
”

并非所有人都这样。
许多有影响力的科学家乐于做出理论上的承诺。
例如，Hinton 坚持认为神经网络是你须要的统统来重现类似人类的智能。
“深度学习将能够做统统，”他在 2020 年接管《麻省理工科技评论》采访时说。

这是一个 Hinton 彷佛从一开始就坚持的信念。
Sloman 记得当 Hinton 是他实验室的研究生时，两人曾发生过争执，他回顾说自己无法说服 Hinton 相信神经网络无法学习某些人类和其他某些动物彷佛直不雅观节制的关键抽象观点，比如某事是否不可能。
Sloman 说，我们可以直接看出什么时候某事被打消了。
“只管 Hinton 拥有精彩的聪慧，但他彷佛从未理解这一点。
我不知道为什么，但有大量的神经网络研究者都有这个盲点。
”

然后是 Marcus，他对神经网络的意见与 Hinton 截然相反。
他的不雅观点基于他所说的科学家对大脑的创造。

Marcus 指出，大脑并不是从零开始学习的白板——它们天生带有辅导学习的固有构造和过程。
他认为，这便是婴儿能学到目前最好的神经网络仍不能节制的东西的缘故原由。

“神经网络研究者手头有这个锤子，现在统统都变成了钉子，”Marcus 说。
“他们想用学习来做所有的事，许多认知科学家会认为这不切实际且屈曲。
你不可能从零开始学习统统。
”

不过，作为一名认知科学家，Marcus 对自己的不雅观点同样确信。
“如果真有人准确预测了当前的情形，我想我必须排在任何人名单的最前面，”他在前往欧洲演讲的 Uber 后座上见告我。
“我知道这听起来不太谦逊，但我确实有这样一个视角，如果你试图研究的是人工智能，这个视角就显得非常主要。
”

鉴于他对该领域公开的批评，你或许会惊异于 Marcus 仍旧相信通用人工智能（AGI）即将来临。
只是他认为当今对神经网络的执着是个缺点。
“我们可能还须要一两个或四个打破，”他说。
“你和我可能活不到那么久，很抱歉这么说。
但我认为这将在本世纪发生。
大概我们有机会见证。
”

炫彩之梦的力量

在以色列拉马特甘家中通过 Zoom 通话时，Dor Skuler 背后的某个类似小台灯的机器人随着我们的发言时亮时灭。
“你可以在我身后看到 ElliQ，”他说。
Skuler 的公司 Intuition Robotics 为老年人设计这些设备，而 ElliQ 的设计——结合了亚马逊 Alexa 的部分特色和 R2-D2 的风格——明确表明它是一台打算机。
Skuler 表示，如果有任何客户表现出对此有所稠浊的迹象，公司就会收回这款设备。

ElliQ 没有脸，没有任何人类的形状。
如果你问它关于体育的问题，它会开玩笑说自己没有手眼折衷能力，由于它既没有手也没有眼睛。
“我实在不明白，为什么行业里都在努力知足图灵测试，” Skuler 说，“为什么为了全人类的利益，我们要研发旨在欺骗我们的技能呢？”

相反，Skuler 的公司赌注于人们可以与明确呈现为机器的机器建立关系。
“就像我们有能力与狗建立真实的关系一样，”他说，“狗给人们带来了很多快乐，供应了陪伴。
人们爱他们的狗，但他们从不把它稠浊成人。
”

（来源：MIT TR）

ElliQ 的用户，很多都是八九十岁的老人，称这个机器人为一个实体或一种存在——有时乃至是一个室友。
“他们能够为这种介于设备或电脑与有生命之物之间的关系创造一个空间，” Skuler 说。

然而，不管 ElliQ 的设计者多么努力地掌握人们对这款设备的意见，他们都在与塑造了我们期望几十年的盛行文化竞争。
为什么我们如此执着于类人的人工智能？“由于我们很难想象其他的可能性，” Skuler 说（在我们的对话中，他确实一贯用“她”来指代 ElliQ），“而且科技行业的许多人都是科幻迷。
他们试图让自己的梦想成真。
”

有多少开拓者在发展过程中认为，构建一台智能机器是他们可能做的最酷的事情——如果不是最主要的事情？

不久之前，OpenAI 推出了新的语音掌握版 ChatGPT，其声音听起来像 Scarlett Johansson（斯嘉丽约翰逊），之后包括 Altman 在内的许多人都指出了它与 Spike Jonze （斯派克琼斯） 2013 年的电影《她》之间的联系。

科幻小说共同创造了人工智能被理解为何物。
正如 Cave 和 Dihal 在《想象人工智能》一书中所写：“人工智能在成为技能征象良久以前就已经是一种文化征象了。
”

关于将人类重塑为机器的故事和神话已有数百年历史。
Dihal 指出，人们对付人造人的梦想可能与他们对付翱翔的梦想一样长久。
她提到，希腊神话中的著名人物戴达罗斯，除了为自己和儿子伊卡洛斯建造了一对翅膀外，还建造了一个本色上是巨型青铜机器人的塔洛斯，它会向过往的海盗投掷石头。

“机器人”这个词来自 robota，这是捷克剧作家 Karel Čapek 在他的 1920 年戏剧《罗素姆的万能机器人》中创造的一个术语，意为“逼迫劳动”。
Isaac Asimov（艾萨克·阿西莫夫）在其科幻作品中概述的“机器人学三大法则”，禁止机器侵害人类，而在像《闭幕者》这样的电影中，这些法则被反转，成为了对现实天下技能的普遍恐怖的经典参考点。
2014 年的电影《机器姬》是对图灵测试的戏剧性演绎。
去年的大片《造物主》设想了一个未来天下，在这个天下里，人工智能因引发核弹爆炸而被撤消，这一事宜被某些末日论者至少视为一个可能的外部风险。

Cave 和 Dihal 讲述了另一部电影《超验骇客》（2014 年），在这部电影中，由 Johnny Depp（约翰尼·德普）饰演的一位人工智能专家将自己的意识上传到了电脑中，这一情节推动了元末日论者 Stephen Hawking（斯蒂芬·霍金）、物理学家 Max Tegmark（马克斯·泰格马克）以及人工智能研究员 Stuart Russell（斯图尔特·拉塞尔）提出的叙事。
在电影首映周末揭橥在《赫芬顿邮报》上的一篇文章中，三人写道：“随着好莱坞大片《超验骇客》的上映……它带来了关于人类未来的冲突愿景，很随意马虎将高度智能机器的观点视为纯粹的科幻小说。
但这将是一个缺点，可能是我们有史以来最大的缺点。
”

(来源：ALCON ENTERTAINMENT)

大约在同一期间，Tegmark 创立了未来生命研究所，其义务是研究和促进人工智能安全。
电影中德普的差错 Morgan Freeman（摩根·弗里曼）是该研究所董事会成员，而曾在电影中有客串的 Elon Musk 在第一年捐赠了1000万美元。
对付 Cave 和 Dihal 来说，《超验骇客》是盛行文化、学术研究、工业生产和“亿万财主帮助的未来塑造之战”之间多重纠葛的完美例证。

去年在 Altman 的天下巡回伦敦站，当被问及他在推特上所说“人工智能是天下一贯想要的技能”是什么意思时，站在房间后面，面对着数百名听众，我听到他给出了自己的起源故事：“我小时候非常紧张，读了很多科幻小说，很多周五晚上都待在家里玩电脑。
但我一贯对人工智能很感兴趣，我以为那会非常酷。
”他上了大学，变得富有，并见证了神经网络变得越来越好。
“这可能非常好，但也可能真的很糟糕。
我们要怎么应对？”他回顾起 2015 年时的想法，“我终极创立了 OpenAI。
”

为何你该当关心一群书呆子对 AI 的辩论

好的，你已经明白了：没人能就人工智能是什么达成同等。
但彷佛每个人都赞许的是，当前环绕 AI 的辩论已远远超出了学术和科学范畴。
政治和道德成分正在发挥浸染，而这并没有帮助大家减少彼此认为对方缺点的情形。

解开这个谜团很难。
当某些道德不雅观点涵盖了全体人类的未来，并将其锚定在一个无人能确切定义的技能上时，要想看清正在发生什么变得尤为困难。

但我们不能就此放弃。
由于无论这项技能是什么，它即将到来，除非你与世隔绝，否则你将以这样或那样的形式利用它。
而技能的形态，以及它办理和产生的问题，都将受到你刚刚读到的这类人的思想和动机的影响，尤其是那些拥有最大权力、最多资金和最响亮声音的人。

这让我想到了 TESCREALists。
等等，别走！
我知道，在这里引入另一个新观点彷佛不公正。
但要理解掌权者如何塑造他们构建的技能，以及他们如何向环球监管机构和立法者阐明这些技能，你必须真正理解他们的思维办法。

Gebru 在离开谷歌后创建了分布式人工智能研究所，以及凯斯西储大学的哲学家和历史学家 Émile Torres（埃米尔·托雷斯），他们追踪了几个技能乌托邦崇奉体系对硅谷的影响。
二人认为，要理解 AI 当前的状况——为什么像谷歌 DeepMind 和 OpenAI 这样的公司正在竞相构建通用人工智能（AGI），以及为什么像 Tegmark 和 Hinton 这样的末日预言者警告即将到来的灾害——必须通过托雷斯所称的 TESCREAL 框架来核阅这个领域。

这个笨拙的缩写词（发音为tes-cree-all）取代了一个更笨拙的标签列表：超人类主义、外展主义、奇点主义、宇宙主义、理性主义、有效利他主义和长期主义。
关于这些天下不雅观的许多内容（以及将会有的更多内容）已经被撰写，以是我在这里就不赘述了。
（对付任何想要深入探索的人来说，这里充满了层层递进的兔子洞。
选择你的领域，带上你的探险装备吧。
）

这一系列相互重叠的思想不雅观念对西方科技界中某种类型的天才思维极具吸引力。
一些人预见到人类的永生，其他人则预测人类将殖民星辰。
共同的信条是，一种全能的技能——无论是通用人工智能（AGI）还是超级智能，选边站队吧——不仅触手可及，而且不可避免。
你可以在诸如 OpenAI 这样的前沿实验室里无处不在的冒死态度中看到这一点：如果我们不制造出 AGI，别人也会。

更主要的是，TESCREA 主义者认为 AGI 不仅能办理天下的问题，还能提升人类层次。
“人工智能的发展和遍及——远非我们该当害怕的风险——是我们对自己、对子女和对未来的一种道德责任，” Andreessen 去年在一篇备受阐发的宣言中写道。
我多次被奉告，AGI 是让天下变得更美好的路子——这是 DeepMind 的首席实行官和联合创始人 Demis Hassabis（戴米斯·哈萨比斯）、新成立的微软 AI 的首席实行官及 DeepMind 的另一位联合创始人Mustafa Suleyman、Sutskever、Altman 等人见告我的。

但正如 Andreessen 所指出的，这是一种阴阳心态。
技能乌托邦的反面便是技能地狱。
如果你相信自己正在培植一种强大到足以办理天下上所有问题的技能，你很可能也相信它有可能完备出错的风险。
当仲春份在世界政府峰会上被问及什么让他夜不能寐时，阿尔特曼回答说：“都是科幻小说里的东西。
”

这种紧张场合排场是 Hinton 在过去一年里不断强调的。
这也是 Anthropic 等公司声称要办理的问题，是 Sutskever 在他的新实验室关注的焦点，也是他去年希望 OpenAI 内部特殊团队专注的，直到在公司如何平衡风险与回报上的不合导致该团队大多数成员离职。

当然，末日论也是宣扬的一部分。
（“声称你创造了某种超级智能的东西有利于发卖数字，”迪哈尔说，“就像是，‘请有人阻挡我这么好，这么强大吧。
’”）但不论繁荣还是毁灭，这些人号称要办理的到底是什么问题？谁的问题？我们真的该当信赖他们建造的东西以及他们向我们的领导人讲述的内容吗？

Gebru 和 Torres（以及其他一些人）武断反对：不，我们不应该。
他们对这些意识形态及其可能如何影响未来技能，特殊是 AI 的发展持高度批评态度。
从根本上讲，他们将这些天下不雅观中几个以“改进”人类为共同焦点的不雅观念与 20 世纪的种族优生涯动联系起来。

他们认为，一个危险是，资源向这些意识形态哀求的科技创新转移，从构建 AGI 到延长寿命再到殖民其他星球，终极将以数十亿非西方和非白人群体的利益为代价，使西方和白人受益。
如果你的目光锁定在抱负的未来上，很随意马虎忽略创新确当下本钱，比如劳工剥削、种族和性别偏见的根深蒂固以及环境毁坏。

Bender 反思这场通往 AGI 竞赛的捐躯时问道：“我们是否在试图建造某种对我们有用工具？”如果是这样，那是为谁建造的，我们如何测试它，它事情得有多好？“但如果我们要建造它的目的仅仅是为了能够说我们做到了，这不是我能支持的目标。
这不是值得数十亿美元的目标。
”

Bender 说，认识到 TESCREAL 意识形态之间的联系让她意识到这些辩论背后还有更多的东西。
“与那些人的纠缠是——”她停顿了一下，“好吧，这里不仅仅只有学术思想。
个中还捆绑着一种道德准则。
”

当然，如果这样缺少细微差别地阐述，听起来彷佛我们——作为社会，作为个人——并没有得到最好的交易。
这统统听起来也很屈曲。
当 Gebru 去年在一次演讲中描述了 TESCREAL 组合的部分内容时，她的听众笑了。
也的确很少有人会认同自己是这些思想流派的虔诚信徒，至少在极度意义上不会。

但如果我们不理解那些构建这项技能的人是如何看待它的，我们又怎么能决定我们要达成什么样的协议呢？我们决定利用哪些运用程序，我们想向哪个谈天机器人供应个人信息，我们在社区支持哪些数据中央，我们想投票给哪些政治家？

过去常常是这样：天下上有一个问题，我们就建造一些东西来办理它。
而现在，统统都颠倒了：目标彷佛是建造一台能做所有事情的机器，跳过在找到办理方案前缓慢而困难地识别问题的事情。

正如 Gebru 在那次演讲中所说，“一台能办理所有问题的机器：如果这都不是邪术，那它是什么呢？”

语义，语义……还是语义？

当直截了当地问及什么是人工智能时，很多人会回避这个问题。
Suleyman 不是这样。
四月份，微软 AI 的首席实行官站在 TED 的舞台上，见告不雅观众他对六岁侄子提出同样问题时的回答。
Suleyman 阐明说，他能给出的最佳答案是，人工智能是“一种新型的数字物种”——一种如此普遍、如此强大的技能，以至于称其为工具已不再能概括它能为我们做什么。

“按照目前的发展轨迹，我们正走向某种我们都难以描述的涌现，而我们无法掌握我们不理解的事物，”他说，“因此，比喻、心智模型、名称——这些都至关主要，只有这样我们才能在最大限度利用人工智能的同时限定其潜在的负面影响。
”

（来源：MIT TR）

措辞很主要！
我希望从我们经历过的弯曲、迁移转变和感情爆发中，这一点已经很清楚了。
但我也希望你在问：是谁的措辞？又是谁的负面影响？Suleyman 是一家科技巨子的行业领导者，该公司有望从其 AI 产品中赚取数十亿美元。
将这些产品的背后技能描述为一种新型物种，暗示着某种前所未有的东西，它具有我们从未见过的自主性和能力。
这让我感到不安，你呢？

我无法见告你这里是否有邪术（讽刺与否）。
我也无法见告你数学是如何实现 Bubeck 和其他许多人在这项技能中看到的（目前还没有人能做到）。
你必须自己下结论。
但我可以揭示我自己的不雅观点。

在 2020 年写到 GPT-3 时，我说人工智能最伟大的把戏便是说服天下它存在。
我仍旧这么认为：我们天生就会在表现出特定行为的事物中看到聪慧，不管它是否存在。
在过去几年里，科技行业本身也找到了情由来说服我们相信人工智能的存在。
这使我对吸收到的许多关于这项技能的声明持疑惑态度。

与此同时，大型措辞模型让我感到惊奇。
它们究竟可以做什么以及如何做到，是我们这个时期最令人愉快的问题之一。

大概人类一贯对聪慧着迷——它是什么，还有什么拥有它。
Pavlick 见告我，哲学家长期以来一贯在构想假设场景，来想象碰着非人类来源的智能行为意味着什么——比如说，如果一波浪冲刷海滩，当它退去时在沙滩上留下了一行字，拼凑成一首诗？

通过大型措辞模型——通过它们的微笑面具——我们面临着前所未有的思考工具。
“它将这个假设的东西变得非常详细，”Pavlick 说，“我从未想过一段措辞的天生是否须要聪慧，由于我从未处理过来自非人类的言语。
”

人工智能包含很多东西。
但我不认为它是类人的。
我不认为它是办理我们所有（乃至大部分）问题的答案。
它不是 ChatGPT、Gemini 或 Copilot，也不是神经网络。
它是一种理念、一种愿景，一种欲望的实现。
理念受到其他理念、道德、准宗教信念、天下不雅观、政治和直觉的影响。
“人工智能”是描述一系列不同技能的有用简单说法。
但人工智能并不是单一事物；从来都不是，不管品牌标识多么频繁地烙印在外包装上。

“事实是，这些词汇——智力、推理、理解等——在须要精确界定之前就已经被定义了，”Pavlick 说，“当问题变成‘模型是否理解——是或否？’时，我并不喜好，由于，嗯，我不知道。
词语会被重新定义，观点会不断进化。
”

我认为这是对的。
我们越早能退却撤退一步，就我们不知道的事达成共识，并接管这统统尚未尘埃落定，我们就能越快地——我不知道，或许不是手牵手唱起 Kumbaya(《欢聚一堂》)，但我们可以停滞相互责怪。

原文链接：

https://www.technologyreview.com/2024/07/10/1094475/what-is-artificial-intelligence-ai-definitive-guide/