打算机科学家汤姆·扎哈维重新创造了国际象棋。
他小时候玩过国际象棋,最近读了加里·卡斯帕罗夫(Garry Kasparov)的《寻思》(Deep Thinking),这是一本关于这位特级大师1997年与IBM的国际象棋电脑“深蓝”(Deep Blue)比赛的回顾录。

谷歌的国际象棋实验揭示了若何提升人工智能的力量_哈维_罗斯 智能助手

他在YouTube上看国际象棋***,在Netflix上看《女王的赌钱》。
只管他重新燃起了兴趣,但扎哈维并没有探求提高比赛的方法。
“我不是一个伟大的球员,”他说。
“我更善于国际象棋谜题”——棋子的排列,常日是人为的,在真正的游戏中不太可能发生,这哀求玩家找到创造性的方法来得到上风。
这些谜题可以帮助玩家提高他们的技能,但最近它们帮助揭示了国际象棋程序隐蔽的局限性。
数学家罗杰·彭罗斯爵士(Sir Roger Penrose)在2017年设计了最臭名昭著的谜题之一,将较强的玄色棋子(如皇后和白嘴鸦)放在棋盘上,但位置尴尬。
一个有履历的人类玩家,玩白棋,可以很随意马虎地把游戏变成平局,但强大的打算机国际象棋程序会说黑棋有明显的上风。

扎哈维说,这种差异表明,只管打算机可以击败天下上最好的人类选手,但它们还不能识别和解决每一种棘手的问题。
从那时起,彭罗斯和其他人设计了大量打算机难以办理的难题。
长期以来,国际象棋一贯是测试人工智能新想法的试金石,而彭罗斯的谜题激起了扎哈维的兴趣。
他说:“我试图理解是什么让这些姿势对打算机来说如此困难,而至少个中一些姿势我们可以像人类一样办理。
”“我完备被迷住了。
”这很快就演化成了一种专业兴趣:作为谷歌DeepMind的一名研究科学家,扎哈维探索创造性的办理问题的方法。
我们的目标是设计出具有一系列可能行为的人工智能系统,而不仅仅是实行单一任务。

DoorDash的打算机科学家Allison Liemhetcharat说,这种方法从根本上讲是有道理的,他一贯致力于用多智能体方法来办理机器人问题。
“在一群智能体中,谜题涌如今至少一个智能体接管过演习的领域的可能性更高。
” 这项事情表明,不同的人工智能系统团队可以有效地办理游戏棋盘以外的难题。
没有参与DeepMind项目的伦敦帝国理工学院(Imperial College London)人工智能研究员安托万·卡利(Antoine Cully)表示:“这是一个很好的例子,解释探求不止一种方法来办理问题——比如赢得一场国际象棋比赛——会带来很多好处。
”他把它比作人工版的人类头脑风暴会议。
“这种思维过程会产生创造性和有效的办理方案,如果不做这个练习,人们就会错过这些办理方案。

在加入DeepMind之前,扎哈维对深度强化学习很感兴趣,这是人工智能的一个领域,系统利用神经网络通过试错来学习一些任务。
它是最强大的国际象棋程序的根本(并用于其他人工智能运用,如自动驾驶汽车)。
系统从它的环境开始。
例如,在国际象棋中,环境包括游戏板和可能的走法。
如果任务是驾驶汽车,则环境包括车辆周围的统统。
然后,系统做出决策,采纳行动,并评估其与目标的靠近程度。
当它靠近目标时,它会累积褒奖,而当系统累积褒奖时,它会提高其性能。
该方法的“深层”部分描述了用于剖析和评估行为的神经网络。
机器人下棋的特写镜头 强化学习是AlphaZero学习成为国际象棋大师的办法。

据DeepMind宣布,2017年12月,在该项目最初9个小时的演习中,它与自己打了4400万场比赛。
起初,它的动作是随机决定的,但随着韶光的推移,它学会了选择更有可能导致将去世的动作。
经由几个小时的演习,AlphaZero开拓出了击败任何人类棋手的能力。
但是,只管强化学习可以成功,但它并不总是导致反响对游戏的一样平常理解的策略。
在过去五年旁边的韶光里,扎哈维和其他人把稳到,在经由试错演习的系统上,可能发生的分外故障有所增加。
例如,一个玩***游戏的系统可能会创造一个漏洞,并找出如何作弊或跳过一个级别,或者它可能很随意马虎陷入重复循环。

彭罗斯风格的谜题同样暗示了AlphaZero中的一种盲点或故障——它不知道如何办理以前从未见过的问题。
人工智能系统常日不会。
如果系统没故意识到它未能完成任务,那么它可能不会考试测验其他方法。
相反,它只会连续考试测验做它已经做过的事情。

扎哈维说,这可能是导致电子游戏走进去世胡同的缘故原由——或者是在一些彭罗斯寻衅中陷入困境的缘故原由。
他说,这个别系是在追逐“奇怪的内在褒奖”,这是它在演习中形成的。
从外部看起来像是缺点的事情,很可能是制订详细但终极不堪利的计策的结果。
该系统将这些奇怪的褒奖视为实现更大目标的步骤,而实际上它无法实现这一目标,也不知道考试测验新的东西。
“我试着理解他们,”扎哈维说。
这些小故障之以是如此主要,如此有用,部分缘故原由在于研究职员认识到了泛化的问题。
虽然强化学习系统可以开拓一种有效的策略,将给定的情形与特定的行动联系起来——研究职员称之为“政策”——但它们不能将其运用于不同的问题。

纽约大学(New York University)打算机科学家、Modl.ai研究主任朱利安·托格柳斯(Julian Togelius)说:“强化学习常日会发生的情形是,不管方法如何,你得到的策略都能办理你一贯在演习的问题的特定实例,但它不能推广。
” 我试图理解是什么让这些(国际象棋)位置对打算机来说如此困难,而至少个中一些我们可以像人类一样办理。
Tom Zahavy,谷歌DeepMind 扎哈维认为彭罗斯难题须要这种概括。
大概AlphaZero无法办理大多数难题,由于它太专注于从头到尾赢得全体游戏。

但这种方法引入了盲点,暴露在彭罗斯拼图中不太可能的碎片排列中。
他认为,如果程序有足够的创造性空间来进行头脑风暴和利用不同的演习方法,大概它可以学会破解难题。
因此,他和他的同事们首先网络了一套53个彭罗斯难题和15个额外的寻衅难题。
就其本身而言,AlphaZero办理了不到4%的彭罗斯难题和不到12%的别的难题。
扎哈维对此并不感到惊异:许多谜题都是由国际象棋大师设计的,目的是故意迷惑打算机。
作为一项测试,研究职员考试测验演习AlphaZero利用彭罗斯拼图排列作为起始位置,而不是范例游戏的完全棋盘,来与自己对抗。
它的性能显著提高:它办理了96%的彭罗斯难题和76%的寻衅集。

多样化的方法可以帮助任何人工智能系统,而不仅仅是那些基于强化学习的系统。
长期以来,他一贯利用多样性来演习物理系统,包括一个六条腿的机器人,在他故意“侵害”它之前,它被许可探索各种运动,许可它利用以前开拓的一些技能连续移动。
“我们只是试图找到不同于我们迄今为止找到的所有办理方案的办理方案。
”最近,他还与研究职员互助,利用多样性来确定有出息的新候选药物,并开拓有效的股票交易策略。
Cully说:“我们的目标是天生一个可能包含数千种不同办理方案的大凑集,个中每个办理方案都与下一个办理方案非常不同。
”因此,正如多样化的国际象棋选手所学到的那样,对付每一种类型的问题,全体系统都可以选择最好的办理方案。
他说,扎哈维的人工智能系统清楚地表明,“探求多样化的策略有助于跳出思维定势,找到办理方案。

扎哈维疑惑,为了让人工智能系统创造性地思考,研究职员必须让它们考虑更多的选择。
这一假设暗示了人类和机器之间的奇妙联系:大概智能只是打算能力的问题。
对付人工智能系统来说,大概创造力可以归结为从足够多的选项中进行考虑和选择的能力。
随着系统因选择各种最优策略而得到褒奖,这种创造性的问题办理得到了强化和加强。
终极,从理论上讲,它可以模拟人类任何一种被认为是创造性的办理问题的策略。
创造力将成为一个打算问题。