100：0完胜AlphaGoAlphaGo Zero让人类连为难刁难手的资格都没有？_人类_人工智能

2024-08-02 07:04:50 绘影字幕

制作：缪子文化王轩

100：0完胜AlphaGoAlphaGo Zero让人类连为难刁难手的资格都没有？_人类_人工智能绘影字幕

监制：中国科学院打算机网络信息中央

2017年10月19日，谷歌子公司DeepMind发布了AlphaGo的新版本。
很多人知道AlpoaGo是一个人工智能程序，却不知道它实在是一个家族，早期降服韩国选手李世石的是AlphaGo Lee。
在乌镇击败天下冠军柯洁的是AlphaGo Master。
本次发布的是AlphaGo Zero，它经由3天的演习便以100：0的战绩击败了他的哥哥AlphoGo Lee，经由40天的演习便击败了它的另一个哥哥AlphoGo Master。

AlphaGo Zero最大特点

本次发布的AlphaGo Zero与之前版本相比，最大的差异在于，它不再依赖人类的辅导来发展，即之前的AlphaGo Lee是依赖于人工录入的大量棋谱来帮助其学习如何下棋，说白了，它是在人的辅导下学习，可以理解为是人类千年围棋履历教出的学生。

而AlphaGo Zero利用了强化学习算法，即不再依赖任何棋谱，编程职员输入围棋基本规则后，不再进行任何教导，完备由其自己进行摸索，总结走棋方法，相称于人工智能完备按照自己的方法学习。
AlphaGo Lee完败于摒弃了人类履历的AlphaGo Zero，这解释人类的履历可能误导了AlphaGo Lee，进而限定了它的发展。

AlphaGo Zero的行棋办法在开局和收官阶段，与人类选手有较大的相似之处，而盘中的行棋风格的确与人类选手和之前版本的AlPhaGo有较大不同，而正是这种不同让其可以在100次与AlphaGo Lee的征战中立于不败，换个说法，如果当初AlphaGo Lee没有拜人类为师，而是向机器学习，那么对付拥有更强打算能力的AlphaGo Lee来说，胜负还未可知。

除了零履历学习外，AlphaGo Zero的另一大特点是将之前版本AlphaGo的两个神经网络融为一体，在之前版本的AlphaGo上，如何走棋是由“策略网络”和“代价网络”两个神经网络来打算如何行棋的，即首先由“策略网络”利用之前累积的履历，判断在当前棋型下哪些位置适宜行棋，之后由“代价网络”对在这些位置行棋后的各类可能进行仿照，打算胜率，终极选择出行棋位置。

而AlphaGo Zero将二者融为了一体，对之前两个网络的特色提取等模块进行了共用，可以在打算出可能行棋的位置时便给出相应的“胜率”，大幅提高效率，减少了演习所需的韶光。
这也是AlphaGo Zero在演习了三天就打败了演习了几个月的AlphaGo Lee的紧张缘故原由之一。

人工智能不仅是打算机科学领域发展的制高点，在所有行业都具有无限潜力和运用代价，目前天下各国普遍看好，人工智能技能将发展为下一次技能革命契机。
即便终极人工智能没有达到革命级别的颠覆程度，AI已经在逐渐改变我们的生活。

以往人工智能的进步都是建立在软件与硬件同步发展的根本上，神经网络算法最早在上个世纪中叶就被提出，然而受限于打算能力，神经网络算法一贯发展缓慢。

之后随着硬件打算速率的不断提高，已有的软件算法不断被实现并改进，改进的算法对硬件哀求更高，从而进一步促进了硬件的发展，而AlphaGo Zero的涌现完备建立在算法更新的根本上。

前一版本的AlphaGo须要在48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片，一块本钱即达500万美元)上进行几个月学习，而AlphaGo Zero只须要4个TPU加上几天的韶光便可完成学习。
这种零履历学习能力非常适宜在蛋白质折叠和其它短缺样本的医疗领域进行运用，可以很好地办理因短缺试验样本而导致研究进展缓慢的问题。
未来的干系研究中完备可以输入规则后利用AlphaGo Zero的能力进行仿照，末了利用有限的样本进行验证即可。

AlphaGo逐渐升级之路

故事讲到这里，实在不得不佩服谷歌深厚的技能实力与精明的商业头脑。
AlphaGo从出身伊始，就得到了deepmind团队的精心包装，仔细回忆起来，可谓是“城里套路深”。

从最初降服低段位职业棋手开始预热或者说炒作，到降服人类顶尖高手李世石，AlphaGo的登场已经足够华美。
不过4比1的比分还是给了人类一线希望，这仅有的胜局中，李世石剑走偏锋，直接把AlphaGo逼出了“大脑短路”的症状，可见此时AlphaGo虽已经足够强大，但尚不完美。
此后各***类高手开始卧薪尝胆，精研AlphaGo的套路，寄希望于重新守卫人类肃静。

随后，今年年初，一个神秘的“master”在围棋界顶级棋手的对战平台上取得了60胜0负的骄人战绩，这位master到底是何方神圣，是人是妖可谓是赚足了吃瓜群众的眼球。
直到华美的60胜达成，答案才终极揭晓。

此后便是吸引了全天下目光的乌镇对决，AlphaGo Master把柯洁打到毫无还手之力。
虽然柯洁已经表现出了真正的人类最强者战力，却仍旧被AlphaGo完备压制，只要出招有任何一点闪失落，急速会陷入AlphaGo“最小上风胜”策略的陷阱，再无翻身余地。

乌镇对决之后，人类在围棋领域已经彻底心悦诚服，别说柯洁一人，五大高手联手作战比柯洁输得更快，AlphaGo一时风光无限。

如今，乌镇硝烟刚要散尽，谷歌又搞了个大***出来！
人工智能在摒弃人类履历后，用三天韶光自学的AlphaGo Zero打败了人类几千年的履历。
AlphaGo的进化版打败了原始版，不禁叫人想起《铁甲钢拳》里叫人热血贲张的机甲格斗，一个AI输给另一个更牛的AI，中国AI降服美国AI，这很有可能是未来棋类竞技中的真实场景。

在电影《异形：左券》中，人类创造了机器人“大卫”，而大卫认为自己比创造它的人类更加高等，反而去研究异形，杀害人类。
电影《I Robot》中采取的剧情设定也是基于机器人不断进化，进而以更精良的逻辑打败了限定他们的定律，试图攫取地球掌握权的故事。

人工智能技能近年的发展速率之迅猛，确实令人瞠目，就连我退休的老娘，都开始在朋友圈转发各种博人眼球的“AI统治地球论”，虽然可能末了她还是不知道AI到底是什么意思。

这种论调认为，大概就在不久的某一天，人工智能将不再是一个实行者的定位，它将成为一个精良的领导者，而人类的地位也将变成用来代替机器人，完成机器人未便利实行的事情，犹如文章开头所说，人工智能的进化远远领先于人类，而人类沉沦腐化为试验工具。

AI统治地球：抱负&有可能？

那么，AI的实力果真已经进化到了那样的地步？AI统治地球到底只是抱负还是确有可能呢？

各位读者可能也把稳到了，近几年来***中出镜率颇高的人工智能技能打破每每以游戏作为切入点。
从传统的棋牌类游戏（象棋、围棋、德州扑克）到电子游戏（星际、Dota），软件开拓精英们彷佛总是偏爱与人类生活关系并不密切的游戏。

那么问题来了，为何AI的开拓常常以游戏为切入点呢？AlphaGo之父，谷歌旗下DeepMind公司CEO哈萨比斯给出了这样的答案：“游戏是测试AI算法的完美平台，这里有无限的演习数据，不存在测试偏差，能够履行并行测试，并且还能记录每个可以量化的进展”。
翻译成人话便是，费钱少，风险小。

AlphaGo在围棋项目上独步天下，乃至孤独求败到要旁边互搏是不争的事实，可是人类生存须要面临的事情绝非下围棋一件事这么大略。
围棋不过是无数人类游戏中的一种，而且在这些浩瀚的游戏中，围棋的位置还真的谈不上是皇冠上的明珠，只是在完备信息博弈游戏这个领域里，围棋是公认的明珠罢了。

至于什么是完备信息博弈游戏，我们可以参考之前发布过的文章《AI吊打Dota2人类高手？你可能又被标题党坑了》（https://p.baidu.com/daily/view?id=82494）

“完备信息博弈游戏：在这类游戏中，每一个参与者都拥有所有其他参与者的特色、策略集及得益函数等方面的准确信息的博弈（尴尬而不失落礼的翻译：己方的生命值，武器系统，技能系统等干系信息都被博弈对手所完备节制，反之亦然。
当然，这里并不是说你将要使出的招法在出招之前就能被对方预知，而是说你只能使出招式表中的招法。
对手即便知晓你的全部出招可能，出什么招，何时出仍旧是你根据场上形势随机应变，相时而动的）。
”

那么非完备信息博弈游戏呢，当然是与上面的完备信息博弈游戏相反，举一个例子，《星际争霸》。
玩过类似即时计策游戏的读者都知道，这种游戏中，仇敌的实时状态我们是不能完备节制的，且不说屏幕只能显示当前视野，战役迷雾（war fog）的存在也让敌我双方的状态都变得扑朔迷离，你在老家干什么事儿，仇敌不跑过来打一架是无从知晓的。

这么来看，围棋AI能够处理的局势还是局限性太强了，且不说各种即时计策游戏，我们化繁为简，举几个日常生活中大家都熟习的例子。

麻将，中国国粹之一。
打麻将的时候，假设我们四方对战，三位人类高手加上强大AI，局势会若何呢？

AI固然拥有惊人的打算能力和影象能力，每一张打出的牌都记得清清楚楚，每一口牌的成胡几率都算得明明白白，可是AI还是担保不了每一局都能取得胜利。
为什么？其余三家的牌扣在那里，AI得到的信息实在太有限了，无法掌控沙场的完备态势，也就无法发挥压倒性的打算能力。

吹牛是北方的小朋友常常打的一种扑克游戏，当然也适宜大人孩子一起玩儿，气氛非常欢快。
这个游戏中，自己扔出几张扣着的牌，奉告对方这是三张六或者一对勾等等。
对方选择相信，就开始由对方出牌，规则同样是扣着出牌然后报数字和张数。
对方选择不信就要翻开你扣着的牌，如果你的牌与你声称的数字和张数吻合，对方就要拿走这几张牌，如果不符，你就得收回这几张牌。
末了先把手中牌全部出完即为胜利。

这样的游戏规则之下，AI无法完备节制对方手中到底有若何的牌，也很难算出对方撒谎的概率，反倒是人类可以通过察言观色来判断对方话的可信程度，AI的打算能力反而无所适从。

类似电影《闭幕者》系列中拥有自主智能并致力于绞***类的AI“天网”在目前看来仍旧只是狂想。
“打算”二字深刻地反响出人类聪慧的高度，运筹帷幄、纵横捭阖、兵不厌诈目前还是人类的专利。
即便AlphaGo不断在围棋领域搞大***，我们也没有惶恐的必要。

相反，不断提升的AI性能、不断扩展的运用领域，终极的结果还是造福人类。
人工智能的发展方向以及人类与人工智能的未来究竟还是人类，而不是AI所要思考的问题。

“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学威信品牌。

本文由科普中国领悟创作出品，转载请注明出处。