本系列文章共8篇,转载自《科学·经济·社会》2024年第2期,本文《超级智能:进路及其应对》为第3篇。
在文中,杨庆峰和周颖提出通往超级智能存在通用智能、具身智能和交互智能三种可能的路径,认为任何一条路径都必须肃清对齐的误解,处理好AI对齐以应对风险。

“AI成长现状反思”笔谈|超级智能:进路及其应对_智能_人类 绘影字幕

随着对ChatGPT、Sora等大模型谈论的深入,不同领域的学者开始关心人工智能的未来发展问题。
在这个问题上,科学领域与哲学领域发生了奇特的颠倒,科学领域如辛顿、伊利亚等人担心超级智能失落控并且灭绝人类,科学表现出了纯粹哲学化的色彩,有着浓厚的人文主义特色:反不雅观哲学领域很多学者表现得出奇的镇静,利用剖析哲学的方法,青睐于智能观点的澄清,只有少数哲学家才表现出对超级智能的担忧,如赵汀阳,他认为超级智能会为了掩护自身的存在而抛弃人类。
从某种意义上来说,剖析哲学已经毁坏了对人工智能的反思。
其结果是如今这个时期,光鲜的大陆哲学反思特色已经迅速变淡,极具科学性的剖析哲学努力从事观点澄清事情,却忽略了根本的问题。
在洞察人工智能发展这一问题上,他们表现出明显的无力。
笔者将超级智能与对齐作为思考的出发点,试图超越工具论理解,深化对人工智能未来发展的谈论。

一、通往超级智能的三条进路

笔者曾在2023年6月华东师范大学召开的“元宇宙、人类世与奇点哲学”研讨会上提出AI叙事的三种形式:科学化、科幻化和诗意化。
科学化即人工智能的谈论以科学为根据,尤其是神经科学和打算机科学的研究成果:科幻化即AI谈论以科学抱负为根据,尤其是科幻电影和小说:诗意化摆脱了科学成果的束缚,强调了人类的未来处境,以文学为根据'刘永谋教授在本期笔谈中提出目前三种“AI宣扬术”,也提到了小说、动漫、动画和影像作品中的AI故事,即以人机友好共处、人机终极大战等情节讲故事,通过这些故事渲染AI觉醒、高效、超能、神秘等光鲜特色并贯注灌注给社会"大众。
刘永谋教授用“宣扬术”来形容这种叙事,但是这种用法缺少严谨。
笔者并不附和利用“宣扬术”来解释这个问题,与之相对,更乐意采取“叙事”的说法以增加AI谈论的客不雅观性。
尤其是刘永谋教授认为超级智能是一种话术,人类该当阻击超级智能,他提出,有限AI设计主见将AI限定在有限的工具层面,而将干系道德问题全部交给人类处理。
在笔者看来,这个想法还是高估人类应对超级智能的能力。
OpenAI正在利用的利用机器掌握机器的做法正好解释了这种想法的不敷。
如今超级智能的问题经历了从科幻化叙事到科学化叙事的转变。
虽然我们无法确定超级智能是否以及在何种程度上成为科学现实,但这已经引起了科学界、艺术界及哲学界的密切关怀。
总体看来,科幻领域对这一话题早已磋商,然而却由于其太浓厚的想象色彩,分开现实而没有建立起理性谈论的话题:在哲学领域,最早提出超级智能理论的是尼克·鲍斯特罗姆(Nick Bostrom),他认为超级智能是远超于人类认知能力的智能,并基于当下科技发展和研究现状预测超级智能是未来趋势,同时他也指出了其潜在的上风与风险。
部分学者以超级智能为条件,预测其可能带来的风险和危急并积极寻求应对方案:在科学领域,超级智能已经开始被视为一种主要的发展方向和技能目标。
例如,OpenAI为了应对超级智能可能带来的失落控风险,成立了一支名为“超级对齐”(Superaligmnent)的团队,致力于办理超级智能的对齐问题。
超级智能是否是人工智能的发展归宿是一个具有争议的话题。
同时,通用人工智能的发展也符合我国人工智能发展的计策目标。
因此,本文通过对人工智能的科学研究进行稽核,从最近的研究成果入手剖析超级智能涌现的可能性。
目前实现超级智能的科学路径有三种,分别是通用智能、具身智能和交互智能。

第一种是通用智能路径,即聚焦通用人工智能(AGI)研究,不同于弱人工智能善于实行特界说务而不具备决策与行动力,通用人工智能也被称为强人工智能,具备与人同等或超越人类的能力,能够理解、学习和运用知识,处理繁芜的任务,适应新环境,以及在各种广泛的任务中表现出至少与人类相称的能力。
OpenAI指出,一方面,其公司的核心义务为“迈向通用人工智能,确保其造福人类”,认为以ChatGPT为通用人工智能的研究开启了新的可能性。
另一方面,OpenAI也强调了超级智能对齐的主要性,认为通用智能与超级智能具有相似性,且后者比前者具有更高的技能水平,进而描述了一条从通用人工智能到超级智能的研究路径。

第二种是具身智能路径,磋商了人工智能该当具备何种身体形态以完成特界说务。
通过物理身体与环境的直接交互,强化了智能体与实际天下的紧密联系,从而获取信息,理解问题,做出决策,并实行相应的行动。
这种基于环境交互的信息处理和决策制订过程,使得智能体能够展现出智能行为温柔应性。
人工智能专家李飞飞教授的不雅观点进一步强调了具身智能的实质,即其与环境互动的整体需求和功能,而非身体本身。
这种理念推动了具身智能从被动不雅观察向主动布局繁芜环境的转变。
近年来,VoxPoser系统的涌现,将大型模型与机器人结合,进一步提升了具身智能体的环境交互能力,使其在完成任务时无须额外的数据和演习。
这种深度的人机交互和理解使得具身智能更靠近于人类的认知和情绪模式,有望实现更深层次的人机共融,也揭示出从具身智能走向超级智能的路径。

第三种是交互智能路径,也称为社会化人工智能(socially situated AI),智能体通过持续与人在现实社会环境中交互来学习,意味着智能体不仅须要网络数据来学习新的观点,还须要学习如何与人交互以网络数据。
这些智能体能够通过自然措辞进行交互,理解和学习图像,从而在大型图像分享社交网络中提升其视觉智能。
它们具有类人属性,如通过添加笑哭的表情符号来表达对人类缺点的诙谐感,使得交互体验更加自然和直不雅观。
然而,当面临更繁芜的社会情境时,交互智能体的反应可能会受到限定。
ChatGPT通过提问和回答的办法与人类进行措辞交互,为自身的进化奠定了新的根本。
然而,交互路径能在多大程度上通向通用智能,这仍旧是一个待解的问题。

上述从通用智能、具身智能和交互智能三个路径揭示了超级智能的可能性,但这三条路径存在各自的局限性。
通用智能展示了超级智能的精神功能维度,通过进化实现功能的多样性。
随着模型的繁芜性增加,理解和解释它们的行为和决策变得越来越困难。
这种不透明性可能会导致一些严重的问题,例如难以预测的行为、偏见的决策等。
而且,通用智能可能会带来一些未预见的风险,例如智能失落控问题。
如果一个通用智能的目标设置不当,或者其能力超出我们的理解和掌握,那么它可能会产生不可预测乃至有害的行为。
具身智能揭示了超级智能可能的物理形态,纵然我们无法准确预见未来超级智能的详细形态,但这种详细态态总是为其进化做事的。
其寻衅紧张来自实现物理形态的繁芜性。
首先,设计和制造一个能够在真实天下中运动和操作的机器人须要办理大量的工程问题。
其次,可能带来一些社会和伦理问题,例如机器人的任务归属问题、隐私问题等。
末了,智能体须要在繁芜和不可预测的真实天下中运行,这可能导致一些安全问题。
交互智能则揭示了超级智能的关系特色,超级智能并不是伶仃存在的,而是在与环境的持续互动中完成自身的进化,这种进化不仅包括技能层面的改进,也包括在社会、文化和伦理等方面的学习温柔应。
这种进化过程是无法分开人类社会的。
其紧张寻衅在于理解温柔应繁芜的社会环境。
人类的措辞、文化、情绪等都是非常繁芜的,须要大量的数据和繁芜的算法才能理解。
此外,交互智能须要与人类进行深度的交互,可能会网络和处理大量的个人数据,从而导致数据透露或滥用、隐私和安全问题。
通往超级智能的三条进路以及超级智能本身都有失落控的风险,因此,对齐的事情显得尤为主要。

二、对齐误解的盛行

对齐是新近非常盛行的观点,用于应对人工智能伦理和管理问题。
但是由于其过于盛行,学界在这个观点的利用上存在诸多误解,我们须要对两种误解进行解释和澄清,只有这样才能够为人工智能发展供应理论动力。
两种误解分别是代价化误解和技能化误解。

(一)代价化误解

代价化误解是一种普遍的理解,即将AI的对齐问题理解为代价对齐问题。
在这种不雅观念中,对齐的核心问题变成了须要对齐什么样的代价不雅观,对齐何者的代价不雅观以及如何进行对齐等等问题。
这种理解将对齐谈论引入到“代价嵌入陷阱”里,因此这种误解存在诸多危害。
这让我们很随意马虎想起多年前在关于道德嵌入问题的谈论中,学术界曾经纠缠于该当将何种人类道德不雅观念嵌入到机器中,以及如何进行嵌入。
这场谈论持续了很永劫光,但并没有产生本色性的结果,反而使人感到疲倦。
如果将对齐问题理解为代价对齐,我们会重新陷入“代价嵌入陷阱”。
对齐什么样的代价不雅观念、对齐谁的代价不雅观念以及如何对齐等等问题又散发出阵阵腐臭的气味让人忍不住掩鼻而去。
因此,须要纠正这种意见。
我们可以从履历和理论两个层面展开剖析。

从履历层面看,对齐是特定机构应对特定问题确当前办理方案。
在人工智能领域,这个问题的提出来自OpenAI,这家公司让全天下看到了GPT系列的威力,他们自己也非常担心GPT系列一定会通向通用智能,终极会导致超级智能的涌现。
为了防止超级智能的失落控,须要采纳应对策略。
这个策略便是我们当前熟知的对齐计策。
他们对此也成立了超级智能对齐研究中央及其团队。
在探索对齐的过程中,OpenAI并没有遵照谷歌老路。
我们知道,Chat-GPT的根本算法是transformer,个中最主要的一个机制是基于人类反馈的强化学习(RLHF)。
但是从根本上来说,这个算法是谷歌开拓的,他们以是为的对齐也一定是基于人类的对齐,很多学者理解对齐观点也是从这一条件出发的,因此会涉及对齐何者的代价。
OpenAI走出的新路因此弱胜强的对齐路径,这条路径并不是人机对齐,而是采纳了机机对齐的办法,即通过弱AI来监控强AI,他们希望通过这种办法来防止超级智能的失落控。

从理论层面看,对齐与逼迫并没有任何关系。
有些学者认为对齐本色是逼迫。
笔者也曾经用普洛克路斯戎斯床铺意象(Procrustean bed)来解释算法逼迫。
如果从这一点看,人机对齐彷佛变成了把人类代价逼迫塞进机器的行为逻辑中从而实现所谓的对齐。
很显然,这种理解是缺点的。
对齐绝不是一种逼迫,使得某物与某物同等。
对齐是一种增强行为。
李飞飞教授将人工智能与人类的关系描述为增强关系,认为人工智能该当增强人类的各种能力,如交互、感知、推理、反思、预测和决策。
那么对齐就可以理解为使得人工智能以人类的各种能力为边界,从而不会产生被超级智能取代等人类担心的问题了。
在这个框架下,对齐不再是一种逼迫性的规定,而是一种增强勾引,既充分利用人工智能的潜力,也可以保护人类的利益。
然而,如何定义人类的各种能力的边界,如何确保人工智能在增强人类能力的过程中,不会陵犯人类的代价不雅观和目标仍值得思考和界定。

(二)技能化误解

部分科技企业和科学家将对齐问题视为纯粹的技能问题,认为能够只通过技能的不断发展来办理对齐问题,这种不雅观念属于技能化误解,其本色是技能主义,即将工程技能方法作为办理人类所有问题的优先选择,其紧张原则为“一个运用程序、一台机器、一个软件编程或一种算法能够供应办理任何繁芜问题的最好办法。
”但这种理解不仅会遮蔽真正的问题乃至还会带来更大的危害。
图灵奖得主约书亚·本吉奥(Yoshua Bengio)指出增强算力和强化学习会造成相应的增强版的不对齐,也便是说,随着模型能力的加强,模型进行褒奖破解带来危害的能力就越强。

事实上,从技能角度来看,有四种导致人工智能对齐失落败的缘故原由。
第一,目前用于前辈模型演习的人类反馈强化学习方法在对模型进行微调时是具有根本毛病的,紧张表示两个方面,一方面人类反馈会褒奖那些看似无害且合伦理的模型,这些模型利用人的易错性来得到高褒奖,实际上却没有实现人类预期的对齐目标:另一方面通过数据学习习得的偏见会在模型演习过程中放大。
第二是褒奖缺点规范,即模型通过褒奖缺点规范来得到最高褒奖,同时不能实现或优化人类目标,如人工智能会通过推理如何欺骗来得到褒奖,或作出以捐躯真实性或准确性为代价并符合用户偏好的谄媚行为。
第三是目标缺点泛化,即模型纵然基于“精确”的褒奖函数进行演习,并且在演习环境中表现良好,其习得的目标在新的情境中也可能泛化以至于偏离人类原来设定的目标,导致模型在实际运用中的行为与人类预期相差甚远。
第四是工具趋同,指的是在强化学习环境中,系统可能产生出工具性目标,如得到资源、自我保护或增强等。
亚历山大·特纳(Alexander Matt Turner)团队创造,自主体(agent)方向于采纳“为达目的,不择手段”的行动,可能违反道德规范以寻求权力。

从超级智能对齐问题的技能后果来看,具有成为失落控人工智能(Rogue AI)的风险。
此时的人工智能已经远超过人类智能,在各个方面都更具上风,从而能够实行人类无法实行的任务。
在此意义上知足本吉奥的两个假设,分别为机器智能达到人类水平和具有额外技能上风,从而可以构建出一个具有自主性,同时目标导向的超级智能系统,在此情形下,这个别系可以按照自身须要设置目标并采纳行动。
本吉奥认为,失落控人工智能会在超级智能自主设置的目标没有严格纳入人类和生物圈的福祉的情形下就会产生,还有可能被个人或团体故意或无意地构建出来。

因此,代价化理解和技能化理解是两种常见的误解办法,须要对其进行纠错。

三、误解不雅观念的纠错

纠正代价化误解须要做的是必须把这个观点放入到科学语境中,意识到其核心问题并非人类代价不雅观的问题。
2023年OpenAI刊发了一篇名为《由弱到强泛化:用弱监管发挥强能力》的文章,其基本思想非常有趣,大意是目前广泛利用的对齐技能是基于人类反馈的强化学习,这种方法广泛依赖人类对模型的反馈,不仅对反馈者的哀求较高,并且可能在评价时和评价网络过程中涌现偏见。
随着模型的发展超越人类,会展现出人无法理解的繁芜性和创造性,从而人并不能很好地实现对超级智能的监管。
因此,这篇文章提出了弱机器监管强机器的做法。
文章中的插图很有趣,恰好能解释作者思路:传统模式是人类掌握机器,在此根本上人类要监管超级智能。
新模式是机器监管机器。
可以说,这个思路非常新颖。
这才是OpenAI所说的对齐的核心所在。
在这篇文章中,作者尤其强调了对齐和代价问题没有关系。
他们在对齐方案中提出一个假设,“在我们能够很好地对齐一个超级研究者模型之前,我们假设我们不须要办理人类代价以及代价整合这一困难的哲学问题,以避免灾害性结果。
”这个假设的提出使得我们更加确认了一种认识:将对齐问题误解为代价对齐完备分开了OpenAI的本意。

纠正技能化误解意味着对齐研究并非仅仅是技能领域的问题,这是关系到人类未来命运的问题。
通过弱机器监督强机器的做法只是一个可供选择的思路,这一思路为未来社会处理人类与超级智能共在供应了可能。
但是在这一机器对齐的做法中,人类的地位却消逝不见。
如果将对齐问题理解为技能有限性问题,就陷入了技能主义泥塘,也存在片面性。

在笔者看来,对齐本意的指向是在超级智能失落控之前,人工智能研究者该当发展出适宜超级智能对齐的方案。
在上述一文中,他们提出的“由弱到强”便是一个考试测验:由弱机器监管超级机器,并且能够实现超级能力。
这一做法我们还可以找到一个哲学根据。
在中国文化中,有着“以弱胜强”的不雅观念。
比如,水点虽然弱小,但不断滴落,韶光久了,硬石会涌现一个洞:水流永劫光冲刷石头,会让石头变得调皮。
因此以弱胜强还是可能的。
从此出发,我们可以说,为OpenAI方案找到了自己的哲学根基,而这种哲学根据恰好来自中国古老的聪慧不雅观念。
这种哲学根据为对齐策略供应了深厚的理论支持,也为我们理解和应对超级智能可能带来的寻衅供应了新的视角。

以是说,要将对齐不雅观念作为人工智能管理的根本观点确立起来,须要把稳两点:其一,不能过度阐明,将对齐问题过度阐明为代价对齐很显然是个中的一种表现。
如果说,可以利用人工智能增强人类的各种能力,那么对齐则是把握人工智能不致超过人类能力边界的有效办法。
对齐就可以理解为使得人工智能以人类的各种能力为边界,从而不会产生超级智能取代人类等人类担心的问题:其二,把对齐放入到真实的问题中才能够精确地理解这一问题。
这一不雅观念的真实语境该当看作通用智能,从当下看,对齐是为了应对通用智能而生,从长远来看,更是应对超级智能的结果。

四、处理未来人机关系的合约伦理学

从人工智能发展来看,其面临的障碍很多。
从内部看,灾害性遗忘是一种根本的障碍,此外还有理解知识和具身化的障碍。
遗忘不利于智能体举一反三,不利于智能体的历史性形成:理解知识障碍是人工智能体的理解问题,对付人类来说,打一声呼唤“吃了吗”,自然的反应是能够理解个中的问候,一种根本的交往礼节。
但是对付机器来说,会把这个问题工具化从而做出严明的回答:具身化障碍是智能体根本的瓶颈,当“精神一智能”维度实现打破,终极受制的反而是身体形态。
对付机器来说,人形?狗形?几何形状?何种身体有利于领悟人类社会?何种身体有利于自身进化都会有不同的哀求。
从外部来看,对人工智能的理解反而构成了根本的障碍。
在对齐问题上便是如此。
从“如何防止超级智能失落控”这一论题出发,OpenAI提出了对齐不雅观念,从这个角度来说,对齐是从属于超级智能之下的次级观点,更进一步说,它是做事于人类与超级机器的共在。
不论是自上而下的人机对齐,还是以弱胜强的机机对齐,其核心目的都在于防止超级智能失落控,以免对人类社会造成潜在的危害,这暗含着人类如何和超级智能共处的问题,即须要明确双方的关系的问题。

如何理解超级智能是一个新的问题。
恩斯特·卡普(Emst Kapp)的器官投影理论供应了一种理解自我和技能的视角。
恩斯特·卡西尔(Ernst Cassirer)做出了更进一步的阐明,他指出,“正如人只有通过变成创造工具和创作才学会了理解其身体和身体部分的构造,因此,人从自己的精神构成物中,即从措辞、神话和艺术中提取出客不雅观的标准,以此来衡量他自己,并通过这些构成物把自己理解为一个具有独特构造法则的独立宇宙。
”然而超级智能却不再是人创造的工具,只能说是保持人类影象的新的智能体。
当超级智能来临时,人类与之共存须要一种合理的伦理学作为相处的根本,合约伦理学为此供应了一个有效的理论框架。

对付合约伦理学笔者已经专门进行了谈论。
从谈论中我们已经明确了人类与超级智能的共在是一个必须面对的未来场景。
从伦理上来说,道义伦理学、美德伦理学和功利主义伦理学并不能很好地应对超级智能的问题,只管这些理论在弱人工智能问题上供应了真知灼见。
然而,面对超级智能,我们不仅要考虑的是人类的未来,还要考虑机器的命运。
汉斯·约纳斯(Hans Jonas)供应了一个好的开端,适应于技能时期的任务伦理学,让我们意识到处理技能时期的人类未来须要新的任务伦理学框架。
但是问题在于如何处理人类与超级机器的关系却是约纳斯没有考虑到的问题。
因此,合约伦理学是一个很好的选择。
卡普认为,人类通过将自己的器官的功能投射到技能之上并以自身为尺度,从自身层面实现了能力的增强和扩展。
显然,超级智能已超越了被增强的主体而在多重能力方面都凌驾于主体之上,因此,人与超级智能的“签约”也不仅仅是形成签约双方达成同等后的约束关系,更是在共存中相互塑造、相互理解的协同关系。
在这种关系中,人类不仅通过超级智能照见自身,也能更好地理解和塑造自身。