从“深蓝”到“寻思”_阿尔法_人工智能

2024-12-13 12:12:11 智能助手

如今40岁以上的人——尤其是象棋或科技的爱好者——大概大都对发生在1997年5月的一个有趣事宜留有影象。
在那个月里，国际象棋天下冠军加里·卡斯帕罗夫与IBM公司名叫“深蓝”的超级电脑进行了总计六盘棋的对决，结果“深蓝”以3.5∶2.5（二胜三和一负）的总比分胜出。

从“深蓝”到“寻思”_阿尔法_人工智能智能助手

这是人工智能首次在国际象棋领域以总比分胜出的办法击败人类顶尖棋手。

服还是不服

“深蓝”在人工智能的发展史上有很大的象征意义，乃至可以说是一个里程碑。
对这一里程碑，最少在最月朔段韶光，很多民气理上难以承受，而且也不甚服气。
不服气的一条理由是“深蓝”与卡斯帕罗夫只赛了六盘棋，数量太少，胜负有较大的有时性。
卡斯帕罗夫本人同样不甚服气，发起跟“深蓝”再次对决。

不幸为这种不服气推波助澜的是：IBM公司不仅谢绝了卡斯帕罗夫发起的再次对决，乃至干脆将“深蓝”大卸八块，以一种悲观的办法保持了胜果。

这种有失落派头的做法无可避免地给人留下了侥幸得胜、见好就收的印象，可以说是公关上的失落败。
但另一方面，打算机领域有一个著名的“摩尔定律”，与硬件指数式发展齐头并进的，则是软件的突飞年夜进。
两者共同发展的一定推论是：人工智能作为以这种发展为后盾的技能，其演进速率绝非人类智能的演进速率可比。
也因此，人工智能一旦在某个领域击败人类，那么这种击败便是不可逆转的。
任何生理上或公关上的成分都改变不了这一宿命。
事实上，只管IBM公司的公关有落人口实之处，能让人在生理上以此为由“阿Q”一番，但人工智能在国际象棋领域击败人类仍很快变成了铁的事实。

这一事实在2015年以一种特殊悲剧性的办法得到了表示。

那年4月，在迪拜国际象棋公开赛上，格鲁吉亚国际特级大师盖奥兹·尼加利泽被创造利用手机上的国际象棋程序作弊。
尼加利泽当即被逐出了比赛，其国际特级大师的头衔也遭撤销。
但国际特级大师居然用手机上的国际象棋程序作弊，实在是特殊悲剧性地揭示出了人工智能在国际象棋领域已何等地超越人类。
要知道，昔日的“深蓝”可是位列天下500强之内的超级电脑。
不到20年的韶光，人工智能在国际象棋领域的硬件门槛居然从超级电脑降为了手机，乃至有人戏称说哪怕用微波炉芯片也能打败天下冠军，对人类真是情何以堪啊。

宿命论

人工智能在国际象棋领域击败人类，也自动意味着人类在一系列更大略的同类游戏中“全军尽墨”。
从数学上讲，这类游戏的“沦陷”险些是一定的。
由于从数学上讲，这类游戏属于所谓的“有完备信息的组合游戏”——这个中“有完备信息”指的是不带概率（即不带骰子之类），也不带隐蔽信息（即不像扑克那样只能看到自己的而非全部的牌），“组合游戏”则是指游戏的难度源自巨大的组合数（即源自每一步都必须从数量巨大的可能性中作出选择这一特点）。

在软硬件不足发达的年代，这类游戏所包含的巨大的组合数是人类直觉的驰骋空间，对人工智能则是门槛，阻挡了它的“入侵”。
但这种阻挡注定是暂时的，由于在数学上可以证明，只要有足够强大的打算能力，任何“有完备信息的组合游戏”要么双方都有必和策略，要么个中一方有必胜策略。
这个结果在很大程度上意味着，对任何“有完备信息的组合游戏”来说，一旦人工智能的打算能力超过某个门槛，游戏的胜负就会变得越来越“宿命”。
这个中，打算能力远逊于人工智能的人类的宿命只能是落败——虽然游戏越繁芜，宿命可以越推迟。

末了的面子

既然这样，那么一个自然的问题便是：国际象棋“沦陷”后，在人类盛行的“有完备信息的组合游戏”中，还有哪个能暂时阻挡人工智能的“入侵”，将人类落败的宿命尽可能推迟呢？

答案是围棋。

围棋是一种远比国际象棋更繁芜的游戏，两者——及很多其他棋盘类游戏——的繁芜度可以共同地用一个粗略而有效的办法来描述。
这个描述只取决于游戏的两个基本特色：一是均匀每步棋有多少种可能的下法——这被称为游戏的“广度”，二是均匀每盘棋会下多少步——这被称为游戏的“深度”。
如果用b表示前者，d表示后者，则大略的组合估算见告我们，游戏所涉及的可能的下法总计约有b^d种。
对国际象棋来说，棋盘较小，棋子移动的限定较多，b约为35；每盘棋则均匀可在80步旁边下完，即d约为80。
由此得出的可能的下法有35^80≈3×10^123种，这也便是国际象棋的繁芜度，它是一个天文数字，比可不雅观测宇宙中的原子数目还多1,000亿亿亿亿倍。
那么围棋呢？它的棋盘比国际象棋的棋盘大得多，落子的限定则小得多，b约为250；同时，一盘围棋每每能下到一两百手，因此d也比国际象棋的大得多，约为150。
由此得出的可能的下法有250^150≈5×10^359种，这也便是围棋的繁芜度，它比国际象棋的繁芜度赶过约1万亿……亿（统共要写29个“亿”！
）倍。

由于围棋远比国际象棋更繁芜，因此在“深蓝”击败卡斯帕罗夫之后的十几年里，人工智能在围棋领域依然无法超出巨大的组合数带来的门槛，至多能跟业余棋手一较高下，却无法捋职业棋手的“虎须”（除非被让四到五子）。

狗拿围棋

但这一局势在2015年开始涌现转变——而且很快转为“雪崩”式的快速转变。
那一年，总部位于英国的“寻思”公司研发的一个名为“阿尔法狗”（AlphaGo，译名中的“狗”系代表围棋的“Go”的谐音，更文雅的译名是“阿尔法围棋”）的人工智能围棋系统脱颖而出，以499胜1负的压倒性上风，降服了其他几种同类系统，成为人工智能围棋系统的“霸主”。
同年10月，“阿尔法狗”在跟法籍华裔职业二段棋手樊麾的“五番棋”较劲中，以5∶0的总比分横扫后者，取得了人工智能在围棋领域平手对决人类职业棋手的首度胜利。

而真正轰动天下的，则是一个跟昔日“深蓝”击败卡斯帕罗夫完备类似的对决。

这一对决发生在2016年3月，间隔“阿尔法狗”击败樊麾还不到半年。
在这一对决中，进一步优化后的“阿尔法狗”以4:1的总比分击败了人类顶尖棋手之一，曾经14次荣膺天下冠军的韩国职业九段棋手李世石，正式攀上了围棋天下的顶峰，并被韩国棋院付与了名誉九段。
这个版本的“阿尔法狗”则被纪念性地称为了“阿尔法狗·李”。
李世石在唯一的胜局——第四局——之后曾经表示：“这次胜利是如此宝贵，用世上的任何东西来换我都不会换”。
如今回味这句话，李世石说得切实其实太对了，那一局确实弥足宝贵，不仅对他，而且也是对人类。
由于那是“阿尔法狗”与人类职业棋手的74次正式对决中人类的唯一胜利，并且实际上也是人类末了一次在围棋领域降服人工智能。

横扫统统高手

跟昔日“深蓝”的见好就收不同，“阿尔法狗”在击败李世石后并未“退隐”，而是在连续优化后批上“大师”的马甲，于2016年底开始，与人类顶尖棋手展开了为期数天的一系列网络快棋对决。

这一系列对决极好地演示了我们的前文所言，即人工智能一旦在某个领域击败人类，那种击败便是不可逆转的。
这一系列对决的对手险些席卷了所有的人类顶尖棋手，个中包括大家熟习的中国“棋圣”聂卫平、与李世石并称“绝代双骄”的古力，及当时排名犹在李世石之上的柯洁。
对决的结果则创下了围棋史上罕见的秋风扫落叶的战绩：60∶0，也完备证明了“大师”这一马甲的名副实在。
这个优化版的“阿尔法狗”如今被称为了“阿尔法狗·大师”。
2017年5月，作为给人类棋手的末了机会，“阿尔法狗·大师”与当时的人类围棋第一高手柯洁进行了一场正式的（即并非快棋的）“三番棋”较劲，结果以3∶0的总比分胜出，并被中国围棋协会付与了职业九段。

在“阿尔法狗”的强大战力和辉煌战绩面前，我们再也听不到像昔日“深蓝”得胜之后的那种不服气了。
2019年11月，36岁的李世石宣辞职役，并在退役感言中坦承自己永久无法击败人工智能：“我意识到……即便成为天下第一，我也不可能站在围棋的顶峰”，由于“即便我成为天下第一，有一种东西（人工智能）依然无法被击败”。

“阿尔法狗”之以是有如此强大的战力，能取得如此辉煌的战绩，除打算能力超卓外，还有一个很具“智能”色彩的特点，那便是：它有很强的自我演习能力，能从自我对弈中学习并优化自己。
经由这种“旁边手互博”式的自我演习，“阿尔法狗”能自创出连它的设计者都无法预测的新招。
个中的某些新招人类棋手不仅从未下过，乃至从未意识到能够那样下。

在“阿尔法狗”与李世石的对决靠近尾声时，凤凰卫视的“锵锵三人行”节目曾约请到中国九段棋手江铸久评论“阿尔法狗”与李世石的对决，江铸久在评论中表示，“阿尔法狗”的某些新招切实其实让他热烈盈眶。
自我演习、自主异招，这些无疑都深具“智能”色彩，使这种色彩更为光鲜的，则是“阿尔法狗”乃至有自己的“棋品”，在场合排场足够无望时不会去世缠到底，而是会像人类棋手那样中盘认输。
当然，这种仿照人类棋手的风姿和礼貌的背后实际上是一个有关胜率的数学条件——比如“阿尔法狗·李”一旦创造胜率低于20%，就会中盘认输。

除自主异招外，“阿尔法狗”不才棋策略上也有新颖之处。
详细地说，“阿尔法狗”的下棋策略是看重取胜概率大过取胜幅度。
如果有两个棋招，一个能比另一个能取得更大幅度的上风，但整盘棋的取胜概率低于后者，“阿尔法狗”会青睐后者。
用“寻思”公司首席实行官杰米斯·哈萨比斯的话说，“跟人类不同，‘阿尔法狗’的目标是使取胜概率最大化，而不是尽可能扩大赢面”。
“阿尔法狗”的这一特点一度使人迷惑过。
江铸久在前述“锵锵三人行”节目中曾经提到，“阿尔法狗”击败樊麾后，很多高段位的职业棋手不以为然，由于“阿尔法狗”虽然赢了，但看上去彷佛并不比樊麾厉害很多。
由于樊麾只不过是职业二段，跟李世石那样的顶尖棋手相差很远，因此很多人——包括李世碑本人——起初并不认为“阿尔法狗”能对像李世石那样的人类顶尖棋手造成威胁。
江铸久同时也提到，他当时看“阿尔法狗”的棋却有一种不同的不雅观感，以为“阿尔法狗”彷佛是遇强则强，让人看不出真实水平。
这个不雅观感若确系当时的不雅观感而非事后诸葛，可以说是目光如炬了。

从零开始

在“阿尔法狗”的强大战力和辉煌战绩面前，如果说仍有什么东西能让人类棋手“阿Q”一下的话，大概是“阿尔法狗”的程序之中包含了大量的人类棋谱，并在自我演习时用到过那些棋谱。
从这个意义上讲，“阿尔法狗”的“战功章”上可以说是有人类棋手的一半。
不过，人工智能的飞速发展很快将这“一半”洗涤一空。
继“阿尔法狗·李”和“阿尔法狗·大师”之后，“寻思”公司又研发出了一个新版本的人工智能围棋系统，叫作“阿尔法狗·零”。
这个版本如它的名字所预示，可以从“零”开始，在只知晓围棋规则的环境下，完备不依赖人类棋谱，通过纯挚的自我对弈学习围棋，堪称是彻底的“自学成才”。
而它所达到的水平，则不仅人类棋手望尘莫及，就连横扫人类棋界的前两条“阿尔法狗”也无法反抗。
2017年10月，间隔“阿尔法狗·大师”在“三番棋”较劲中击败柯洁还不到半年，经由短短3天“自学”的“阿尔法狗·零”就以100∶0的全胜比分拿下了“阿尔法狗·李”。
稍后，“自学”21天的“阿尔法狗·零”又以89∶11的压倒性比分降服了“阿尔法狗·大师”。

这还不是故事的闭幕，2017年12月，间隔“阿尔法狗·零”的推出才两个月，“寻思”公司的又一个新颖的人工智能系统问世了，这个取名为“阿尔法零”的新系统采取了跟“阿尔法狗·零”相类似的算法，也能够从“零”开始“自学成才”，但与“阿尔法狗·零”只会玩围棋不同，“阿尔法零”有更大的普适性，不仅会玩围棋，而且能玩包括国际象棋在内的其他几十种棋盘类游戏（因此把名字中代表围棋的“狗”字去掉了）。
更厉害的是，在所有“阿尔法零”能玩的游戏里，它都显示了“王者之风”。
比如拿国际象棋来说，“阿尔法零”只演习了4小时就达到了“鱼干”的水平，演习到9小时后，在跟“鱼干”的100场对决中，“阿尔法零”取得了28胜72和的不败战绩，在后来进行的多达千盘的更大规模的对决中，也以压倒性的上风胜出。
只有围棋，由于有算法相似的“阿尔法狗·零”坐镇，情势不那么一边倒，但战果依然可不雅观：只演习了30个小时就超过了“阿尔法狗·李”，演习到13天后，则在跟演习程度相同的“阿尔法狗·零”的对决中以60%旁边的胜率占优。

所有这些后续对决——无论国际象棋还是围棋——都发生在水平远远超出人类的人工智能系统之间，仿佛九天之上的诸神之战，个中再也不会有人类棋手的踪迹了。
对人类来说，这大概是有些伤感的，但另一方面，这也是一件很能知足人类好奇心的事。

由于“阿尔法狗·零”和“阿尔法零”都是从“零”学起的，完备分开了人类棋手的履历，这些人工智能系统的游戏风格也因此在很大程度上变得独立于人类。
设想一个有趣的问题：倘若一种具有极高聪慧的外星生命拿到了人类的游戏，在他们的天下里用同样的规则玩那些游戏，他们的游戏风格会是若何的？我以为，“阿尔法狗·零”和“阿尔法零”大概便是一种答案（虽然不是唯一答案），乃至不完备从“零”玩起的“阿尔法狗”也在一定程度上可算是一种近似答案。
事实上，已有不止一位人类棋手在跟这些人工智能系统对决或看过棋谱后，不谋而合地用“外星生命”或“外星人”来形容后者的游戏风格。
比如丹麦国际象棋特级大师彼得·尼尔森表示“阿尔法零”仿佛是一个超越人类的外星生命；韩国九段围棋手睦镇硕也表示自己喜好“阿尔法狗”的棋风，由于“我险些以为自己在跟外星人玩”。

而这统统从“阿尔法狗·李”算起，只经由了不到两年的韶光，确实是“雪崩”式的快速转变。

连规则也不要了

人工智能游戏系统发展到“阿尔法零”，在大方向上是否仍有改进空间？或者换个问法：“阿尔法零”作为人工智能游戏系统是否仍有局限性？使劲找的话，确实还能找到一条，那便是它必须事先知晓游戏规则。
将这条列为局限性实在有些吹毛求疵，由于多数人类玩家在玩游戏之前也是事先知晓游戏规则的。

但随着人工智能的飞速发展，就连这个吹毛求疵的局限性也被打破了。
2019，“寻思”公司推出了一个更加新颖的人工智能系统，称为“MuZero”。
“MuZero”乃至连游戏规则都无需事先知晓，而可以通过“不雅观察”、对弈、试错，从无到有地构建起来。
这种构建规则的能力让人遐想到一部比来很热门的影片：《后翼弃兵》。

在那部影片中，一位天才的小女孩通过看人下棋归纳出了国际象棋的规则。
由于连游戏规则都无需事先知晓，“MuZero”的适用面乃至比“阿尔法零”更广，除了能玩“阿尔法零”能玩的那些棋盘类的游戏外，还“自学”节制了几十种图像游戏。
（注：“MuZero”这一名字在一定程度上效仿了“阿尔法零”，表示在两者都有一个“零”，代表从“零”开始，不依赖人类棋谱。
“MuZero”中的“Mu”近于日文“無”的发音，代表的是连游戏规则也可以从“无”到有地构建起来。
如果要为“MuZero”取一个译名的话，或可译为“无零”。
）

更令人印象深刻的是，从“阿尔法狗·李”到“阿尔法狗·大师”“阿尔法狗·零”“阿尔法零”，再到“MuZero”，所有这些进展都不是“失落之东隅，收之桑榆”那样的有得有失落，而是纯粹的推进。
“MuZero”能玩更多的游戏，却并不因此捐躯水准为代价的“博而不精”。
相反，在险些所有“阿尔法零”能玩的游戏上，“MuZero”都达到乃至超过了“阿尔法零”的水准。

就人工智能游戏系统而论，推进到“MuZero”的程度，已基本达到乃至超越了对人类玩家的终极仿照，在大方向上差不多可以算穷尽了，剩下的大概只是算法细节上的追求——那自然是永无止境的。
但人工智能若只能玩游戏，恐怕免不了仍会被讥讽，就像一个只懂得玩耍的人，再聪明也会被认为没什么大出息。

阿尔法折叠

正如聪明人早晚会超越只懂得玩耍的年纪，人工智能也并非只能玩游戏。
2020年底，继游戏领域的连串***之后，“寻思”公司一个名叫“阿尔法折叠”的人工智能系统（确切地说，是该系统的第二代）再次刷了很多人的屏——但这回不是玩游戏，而是做科研，是研究蛋白质的三维构造。

详细地说，“阿尔法折叠”用人工智能的手段寻衅了生物学领域中一个被称为“蛋白质折叠问题”的有名难题。
由于这个难题的阻亘，确定一种繁芜的蛋白质构造每每要耗时一年以上，耗资也不菲。
在已知的蛋白质中，生物学界经由半个多世纪的努力，能确定构造的仍只占不到千分之一。
而“阿尔法折叠”确定一种蛋白质构造只需几天韶光，准确率也达到了能与传统方法比较拟的程度，有望成为强大助益。
有人乃至大胆预测，人工智能间隔摘取第一个诺贝尔科学奖已为时不远了。

从“深蓝”到“寻思”，是人工智能飞速发展的一个缩影。
在不到一代人的韶光内，人工智能超过了好几个里程碑，个中的某些乃至超出了最大胆的预期，可谓出息无量。

南方周末特约撰稿卢昌海