编辑|李然

天才首创人对谈AI教父Hinton:多模态是AI的未来医疗将发挥AI最大年夜的潜力_符号_措辞 智能问答

5月17日,AI教父Geoffrey Hinton接管访谈。
对谈不仅涉及Hinton对大型神经网络、多模态学习、仿照打算、AI安全等技能发展的意见,还有其打仗人工智能的经历以及与Ilya初识的回顾。

访谈的提问者是一名天才创业者——Joel Hellermark。

Joel Hellermark

Joel是Sana AI的创始人兼首席实行官,Sana是一家领先的人工智能公司,已从NEA、Menlo和EQT筹集了超过8000万美元的融资。
他在13岁时自学编程,16岁时创立了自己的第一家公司,开拓了一个***推举引擎。

官网截图

对谈要点整理如下:

初识Ilya时就以为十分精良,Ilya很早就预测过Scaling Law是存在的。
下一个token预测能有效阐明大脑的学习机制,模型在学习过程中可以习得推理能力。
类比是创造力的源泉,而模型能挖掘事物之间的共有构造,找到人类未曾把稳的类比,进而超越演习数据
多模态能让模型更好理解学习,并且能让模型的空间推理能力更强,一定是提升AI能力的主要方向。
医疗将是AI运用的最主要领域之一,AI的发展无法阻挡。

Ilya是完美的研究伙伴,他的直觉非常灵敏

Hinton:我想起当时从英格兰第一次来到卡内基梅隆大学。
是在英格兰的研究部门,下午6点后一样平常都会去酒吧饮酒。
但我来了几周后的一个周六晚上,一个朋友都没有,也不知道能做什么。
我实验室有要用的机器机,但家里没有,以是决定去实验室编程。

于是我在周六晚上9点旁边来到实验室,所有的学生都在那里,挤满了人。
他们都在那里。
他们都相信自己在研究未来,接下来做的事情,将改变打算机科学的发展,这与英格兰的情形完备不同。
以是这令我线人一新。

主持人:带我回到最初在剑桥探索脑科学的日子。
那时候什么觉得?

Hinton:说实话,很失落望。
我学的生理学,夏季学期教大脑的事情办法,结果只教了神经元如何传导动作电位。
确实有趣,但并没有解释白大脑究竟如何事情,以是我比较失落望。
我后面转去学哲学,希望能学到思维是如何运作的。
但同样失落望。

我末了去爱丁堡大学学习人工智能,那更有趣。
至少可以进行仿照,可以测试理论。

主持人:还记得开始是对人工智能的哪些方面感兴趣吗?有没有特定的一篇论文或者科学家,让你创造了故意思的点子。

Hinton:唐纳德·赫布的一本书对我影响颇深。
他对如何学习神经网络中的连接强度非常感兴趣。
我还读过约翰·冯·诺伊曼的一本书,关注大脑如何打算、大脑打算办法与普通打算机的差异。

主持人:你在爱丁堡的时候,以为这些打仗到的想法往后会有用吗?你那时候的直觉是若何的?

Hinton:在我看来,我们须要遵照大脑本身的学习方法。
显然,大脑不可能将所有东西先编程,然后利用逻辑推理,这从一开始就显得不太对。
以是必须弄清楚,大脑是如何学习调度神经网络中的连接,去处理繁芜任务。
冯·诺伊曼和图灵都相信这一点,他们都非常善于逻辑,但他们不相信这种逻辑方法。

主持人:学习神经科学,仅仅做人工智能里的算法,你在二者之间如何分配精力的?你在早期受到了多少启示?

Hinton:我对神经科学研究不多,紧张受到的启示来自大脑的事情办法。
大脑有一大堆神经元,实行相对大略的操作,事情又是非线性的,但它们能吸收输入,进行加权,然后在此根本上输出。
问题是,到底如何改变权重使全体系统做一些厉害的事?这个问题看上去相称大略。

主持人:那个时候,你和谁有互助?

Hinton:我在卡内基梅隆大学做研究,但紧张互助者并不是卡内基梅隆大学的。
我与特伦斯·谢诺夫斯基(注:他与杰弗里·辛顿共同发明了玻尔兹曼机)往来比较多。
他在巴尔的摩的约翰霍普金斯大学。
该当是每个月一次,要么他开车来匹兹堡,要么我开去巴尔的摩,间隔是250英里。
我们会用周末韶光研究玻尔兹曼机。
互助非常愉快,我们都相信这是大脑的事情办法,这是我做过的最令人愉快的研究。
大概有很多成果也很棒,但我认为那不是大脑的事情办法。

我还与彼得·布朗有很好的互助,他是精良的统计学家,IBM从事语音识别事情。
以是,到卡内基梅隆大学攻读博士学位时,他作为学生已经很成熟,已经知道很多。
他教了我很多关于语音的知识。
事实上,他教了我关于隐马尔可夫模型的知识。
这便是我空想的学生:从他那里学到的,比我教他的还多。
他教我隐马尔可夫模型时,我正在利用带有隐蔽层的反向传播。
那时候还不叫隐蔽层,但我决定利用马尔可夫模型中的命名办法,这个叫法能很好地表示究竟在做什么的变量。
总之,这便是神经网络中隐蔽一词的来源。

主持人:谈谈Ilya涌如今你办公室的时候吧。

Hinton:那时候我在办公室,该当是个周日,我在编程,然后有人拍门。
拍门声很急匆匆,和一样平常拍门不太一样。
我开门创造是一个年轻的学生。
他说全体夏天他都在炸薯条,但他更乐意在我的实验室事情。
以是我说,约个韶光来聊聊?然后他说,不如就现在?Ilya便是这样的人。
于是我们聊了下,我给他一篇文章读,是关于反向传播的Nature期刊论文。

我们约定一周后再次见面,他回来了,他说他不太明白。
我挺失落望的,本来看起来蛮聪明。
这只是链式法则,理解它并不难。
他说:不,我理解链式法则,我只是不理解,为什么你不把梯度授予一个合理的函数优化器。
好家伙,他提出的问题让我们思考了好几年。
他总是是这样,对问题的直觉非常好,总是能提出好的想法。

主持人:Ilya为什么有这种直觉?

Hinton:我不知道。
或许他总是独立思考,很小就对人工智能感兴趣。
他也很善于数学。
但我不知道为什么他直觉那么准。

主持人:你和他之间,互助分工是若何的?

Hinton:真是很有趣。
记得有一次,我们试着用数据制作繁芜的舆图,用的是一种稠浊模型,以是你可以利用相似性来制作两张舆图,使得在一张舆图上,河岸可以靠近绿地,而在另一张舆图上,河岸可以靠近河流。
由于在一张舆图上,你不能让它同时靠近两者,河流和绿地相距很远。
以是有了稠浊舆图,我们在MATLAB中进行操作,这涉及到对代码进行大量重组,进行精确的矩阵乘法。

然后他就做得烦了。
有一天他来找我说,我要为MATLAB编写一个交互界面,就可以用另一种措辞编程,然后把它转换成MATLAB。
我说,不,Ilya,那将花费你一个月的韶光。
这个项目要连续,不能被那个分散把稳力。
Ilya说,没紧要,我早上就做好了。

主持人:切实其实不可思议!
这些年来,最大的变革不仅仅表示在算法,还有规模。
你如何看待?

Hinton:Ilya很早就看到这点,总是说,规模更大,表现更好。
我之前总以为站不住脚,新的想法还是须要的。
但事实证明,他的判断基本上是精确的。
像Transformers这样的算法确实很有用,但真正起浸染的,是数据和打算的规模。
当时想象不到打算机会快上数十亿倍,以为快上一百倍了不得了,于是试着提出奥妙的想法来办理问题。
然而,有更大的数据和打算规模,很多问题就迎刃而解了。

大约在2011年,Ilya和另一个叫James Martins的研究生与我互助,写了一篇关于字符级预测的论文。
利用维基百科,并试图预测下一个HTML字符。
用的是GPU上的一个很好的优化器,效果出乎猜想的好。
我们从未真正相信它理解了任何东西,但它看起来又彷佛理解了,这彷佛让人难以相信。

神经网络不仅仅是记住演习数据,而是在“理解”,推理能力的提高指日可待

主持人:能阐明一下模型如何预测下一个单词,以及这样认识他们为何是缺点的?

Hinton:好吧,我实在以为这不算错。

事实上,我认为我制作了第一个利用嵌入和反向传播的神经网络措辞模型。
数据非常大略,只是三元组,将每个符号(Symbol)转换为一个嵌入(embedding),然后让嵌入相互浸染以预测下一个符号的嵌入,然后从该嵌入中预测下一个符号,然后通过全体过程反向传播以学习这些三元组。
大约10年后,Yoshua Bengio(图灵奖得主)利用非常相似的网络,展示了它在真实文本上的效果。
大约10年后,措辞学家开始相信嵌入。
这有一个发展的过程。

我认为它不仅仅是预测下一个符号。

问一个问题,答案第一个单词是下一个符号,那就必须理解这个问题。
大多数人认为的“自动添补”则是,看到不同的单词涌如今第三位的频率,这样就可以预测下一个符号。
但实在不是这样。

为了预测下一个符号,必须理解正在说什么。
我们是通过让它预测下一个符号,迫使它理解。
很多人说,它们不像人类那样推理,只是在预测下一个符号。
但我认为,它的理解办法像我们一样。
为了预测下一个符号,它必须进行一些推理。
现在已经看到,你制作一个大的模型,不添加任何分外的推理内容,它们也已经可以进行一些推理。
规模越大,它们未来能进行的推理也更多。

主持人:现在除了预测下一个符号外,还做了其他什么吗?

Hinton:这便是学习的办法。
不管是预测下一个***帧,还是预测下一个声音。
我以为这便是阐明大脑学习的十分合理的理论。

主持人:为什么这些模型能够学习如此广泛的领域?

Hinton:大措辞模型所做的,是寻找事物之间共同的构造。
基于共同构造对事物进行编码,这样一来效率很高。

举个例子。
问GPT-4,为什么堆肥堆像原子弹?大多数人都无法回答这个问题,以为原子弹和堆肥堆是非常不同的东西。
但GPT-4会见告你,只管能量、韶光尺度不同,但相同的是,堆肥堆变热时会更快地产生热量;原子弹产生更多的中子时,产生中子的速率也会随之加快。
这就引出了链式反应的观点。
通过这种理解,所有的信息都被压缩到它自己的权重中。

这样一来,它将能处理人类尚未见过的数百种类比,这些看似不干系的类比,正是创造力的源泉。
我想,GPT-4变得更大时,创造力将非常高。
如果只是以为,它只在反刍学过的知识,只是将它已经学过的文本拼凑在一起,那就鄙视它的创造力了。

主持人:你可能会说,它会超越人类的认知。
只管我们看到了一些例子,但貌似尚未真正见到你说的这点。
很大程度上,我们仍旧处于当前的科学水平。
你认为什么能让它开始有所超越呢?

Hinton:我以为在特定情形中已经看到这点了。
以AlphaGo为例。
与李世石的那场著名比赛中,AlphaGo的第37步,所有专家看来都以为是错棋,但后来他们意识到这又是一步妙棋。

这已经是在那个有限的领域内,颇具创造力的动作。
随着模型规模增加,这样的例子会更多的。

主持人:AlphaGo的不同之处在于,它利用了强化学习,能够超越当前状态。
它从模拟学习开始,不雅观察人类如何在棋盘上博弈,然后通过自我对弈,终极有所超越。
你认为这是当前数据实验室短缺的吗?

Hinton:我认为这很可能有所缺失落。
AlphaGo和AlphaZero的自我对弈,是它能够做出这些创造性举动的主要缘故原由。
但这不是完备必要的。

良久以前我做过一个小实验,演习神经网络识别手写数字。
给它演习数据,一半的答案是缺点的。
它能学得多好?你把一半的答案弄错一次,然后保持这种状态。
以是,它不能通过只看同一个例子来把缺点率均匀。
有时答案精确,有时答案缺点,演习数据的偏差为50%。

但是你演习反向传播,偏差会降到5%或更低。
换句话说,从标记不良的数据中,它可以得到更好的结果。
它可以看到演习数据是缺点的。

聪明的学生能比他们的导师更聪明。
纵然吸收了导师传授的所有内容,但他们能取其精华去其糟粕,终极比导师更聪明。
因此,这些大型神经网络,实在具有超越演习数据的能力,大多数人没故意识到。

主持人:这些模型能够得到推理能力吗?一种可能的方法是,在这些模型之上添加某种启示式方法。
目前,许多研究都在考试测验这种,即将一个思维链的推理反馈到模型自身中。
另一种可能的方法是,在模型本身中增加参数规模。
你对此有何意见?

Hinton:我的直觉见告我,模型规模扩大后,推理能力也能提升。

人们如何事情?大致来说,人类有直觉进行推理,再用推理来纠正我们的直觉。
当然,在推理过程中也会利用直觉。
假设推理的结论与直觉冲突,我们就会意识到须要纠正直觉。

这与AlphaGo或AlphaZero的事情办法类似,它们有一个评估函数,只需看一眼棋盘,然后判断“这对我来说有多好?”但是,进行蒙特卡罗推演时,你会得到一个更准确的想法,你可以修正你的评估函数。
因此,通过让模型接管推理的结果,来对模型进行演习。

大措辞模型必须开始这样做,必须开始通过推理,来演习模型的直觉,知道下一步做什么,并意识到什么是不对的。
这样,他们就可以得到更多的演习数据,而不仅仅是模拟人类。
这正是AlphaGo能够做出第37步妙棋的缘故原由,它拥有更多的演习数据,由于它利用推理来检讨下一步该当是什么。

多模态让模型学习更加随意马虎,同时利于空间推理

主持人:你对多模态有何意见?我们谈到了这些类比,而这些类比每每远远超出了我们所能看到的范围。
模型创造的类比远远超出了人类的能力,可能是在我们永久无法理解的抽象层面上。
现在,当我们将图像、***和声音引入个中时,你认为这会如何改变模型?你认为它将如何改变,它能够进行的类比?

Hinton:这将带来很大的改变。
例如,它将使模型更好地理解空间事物。
仅从措辞角度来看,很难明得一些空间事物。
只管值得把稳的是,纵然在成为多模态之前,GPT-4也能做到这一点。
但是,当你让模型成为多模态时,如果你让它既能做视觉,又能伸手抓东西,它能拿起物体并翻转它们等等,它就会更好地理解物体。
因此,虽然可以从措辞中学到很多东西,但如果是多模态,学习起来会更随意马虎。
事实上,须要的措辞更少。

多模态模型显然会霸占主导地位。
你可以通过这种办法得到更多数据,它们须要的措辞会更少。
当然,可以仅从措辞中学习出一个非常好的模型,但从多模态系统中学习要随意马虎得多。

主持人:你认为这将如何影响模型的推理能力?

Hinton:我认为它将使空间推理变得更好,例如,实际考试测验捡起物体,会得到各种有用的演习数据。

主持人:你认为人类大脑的进化做事于措辞,还是说措辞的进步是做事于人类大脑?

Hinton:这是一个非常好的问题,我认为两者是共存的。
我曾经认为,可以完备不须要措辞去进行大量的认知活动,但现在我的想法有所改变。

那么,我将给出三种不同的措辞不雅观点以及它们与认知的关系。

一种不雅观点是迂腐的符号不雅观点,即认知包括利用某种经由清理的逻辑措辞中的符号串,这些措辞没有歧义,并运用推理规则。
这便是认知——只是对措辞符号串之类的事物进行符号操作。
这是一种极度不雅观点。

另一种极度不雅观点是,一旦你进入头脑,它就全是向量。
符号进来了,把这些符号转换成大向量,所有内容都是用大向量完成的,然后想产生输出,又会天生符号。
2014年旁边,机器翻译中有一个说法,当时人们利用循环神经网络,单词会不断进入,它们会有一个隐蔽状态,它们会在这个隐蔽状态下不断积累信息。
因此,当它们读完一个句子时,它们会得到一个大的隐蔽向量,它捕捉到了该句子的含义,然后可以用来天生另一种措辞的句子。
这被称为思维向量。
这是对措辞的第二种意见——将措辞转换成一个与措辞完备不同的大向量,这便是认知的全部内容。

第三种不雅观点,也是我现在所相信的,即你采取这些符号,将符号转换成嵌入,并利用多层嵌入,这样你就得到了这些非常丰富的嵌入。
但是嵌入仍旧与符号干系联,从某种意义上说,你有一个用于这个符号的大向量,以及一个用于那个符号的大向量。
这些向量相互浸染,产生下一个单词的符号的向量。
这便是理解的实质——知道如何将符号转换成这些向量,并知道向量的元素该当如何相互浸染,从而预测下一个符号的向量。
无论是在这些大型措辞模型中,还是在我们的大脑中,理解便是这样进行的。
这是一个介于两者之间的例子。
你连续利用符号,但将它们阐明为这些大向量,这便是所有事情所在。
所有的知识都在于你利用的向量以及这些向量的元素如何相互浸染,而不是符号规则。

这并不是说,能完备摆脱符号。
而是将符号变成大向量,保留符号的表面构造。
这便是这些模型的事情办法。
在我看来,这也是人类思维比较合理的模型。

借助共享权重,数字系统的思维迁移十分高效

主持人:您是最早想到利用GPU的人之一,我知道Jensen(黄仁勋)很喜好你。
2009年你就见告Jensen,这可能是演习神经网络的一个绝佳办法。
当初要利用图形处理单元(GPU)演习神经网络,您是怎么想的?

Hinton:记得在2006年,我有位研究生,是十分精良的打算机视觉专家。
一次会议上,他建议我考虑利用图形处理卡(GPU),由于它们在矩阵乘法方面表现出色,我所做的基本上都是矩阵乘法。
我考虑了下,然后我们开始研究配备四个GPU的Tesla系统。

我们一开始只是购买了游戏用的GPU,创造它们将运算速率提高了30倍。
然后又买了一个配备四个GPU的Tesla系统,并在此根本上进行了一次公开申报请示,效果非常好。
2009年,我在NIPS会议上揭橥了演讲,见告在场的一千名机器学习研究职员:你们都该当去购买NVIDIA的GPU,它们是未来,你们须要GPU进行机器学习。

我还给NVIDIA发了一封邮件,说我已经动员一千名机器学习研究职员去购买你们的卡,你们能不能送我一个?他们并没有回答。
但后来把这个故事见告Jensen时,他免费给了我一个(要显卡,得直接找老板谈)。

主持人:人工智能发展过程中,GPU实在也在发展。
在打算领域,我们路在何方?

Hinton:我在谷歌的末了几年里,实在一贯在思考仿照打算。
这样,我们可以利用 30 瓦的功率(例如大脑),而不是利用一兆瓦的功率。
我希望在仿照硬件中,运行这些大型措辞模型。
虽然从来没实现,但我开始真正重视数字打算。

利用低功耗的仿照打算,每个硬件部分都会有所不同,即须要学习利用特定硬件的属性。
这便是人们身上正在经历的。
人和人的大脑都是不同的。
我们不能将你大脑中的权重,放入我的大脑中。
硬件不同,各个神经元的精确属性也不同。
我们末了都会去世去,我脑中的权重,对其他大脑也毫无用途。

我们可以很低效地将信息从一个人通报给另一个人。
我写句子,你想办法改变你思维里的权重,你就会说同样的话。
这实在叫做提炼,但这种知识互换非常低效。

数字系统却不同,它们不会去世去。
一旦有了一些权重,打算机这个壳就不主要了。
只需将权重存储在某个磁带或者什么上,就可以把同样的权重转移进另一台打算机。
如果是数字的,它就可以与其他系统一样打算。
以是,数字系统能够以极高效率共享权重,乃至还能迭代。
假设你有一大把数字系统,从相同的权重开始,各自进行微量的学习,还能再次共享权重,这样它们都能知道其他系统学到了什么,乃至完成了迭代。
人类无法做到这一点,在知识共享上,数字系统比我们做得好太多。

主持人:许多已经在该领域履行的想法,实在都是非常传统的,由于这些想法在神经科学中一贯存在。
那么,你认为还有哪些想法可以运用于我们正在开拓的系统呢?

Hinton:因此,我们仍需追赶神经科学的发展。

在险些所有的神经网络中,都存在一个快速的活动变革韶光尺度。
因此,当输入进来后,活动和嵌入向量都会发生变革,然后有一个缓慢的韶光尺度会改变权重。
这便是长期学习。

你只有这两个韶光尺度。
然而在大脑中,权重会改变的韶光尺度很多。
例如,我说一个意想不到的词,比如“黄瓜”,五分钟后,你戴上耳机,会听到很多噪音,而且单词非常模糊,但你会更好地识别“黄瓜”这个词,由于我五分钟前说过这个词。
大脑中的这些知识是如何存储的呢?这些知识,显然是突触的暂时变革,而不是神经元在重复“黄瓜”这个词。
你没有足够的神经元来做这件事。
这是权重的暂时变革。
你可以用暂时的权重变革做很多事情,我称之为快速权重。

我们的神经模型并不会这样做,缘故原由是,对依赖于输入数据的权重进行临时变动,则无法同时处理大量不同的情形。
目前,我们采取大量不同的字符串,将它们堆叠在一起,然后并行处理它们,由于这样我们可以进行矩阵乘法,效率要高得多。
正是这种效率,阻挡了我们利用快速权重。
但大脑显然将快速权重用于临时影象。
而且,你可以通过这种办法。
做各种我们目前不做的事情。

我认为这是你必须学习的最主要的事情之一。
我非常希望像Graphcore(一家英国的AI芯片公司)这样的设备,它们采取顺序办法,并只进行在线学习,那么它们就可以利用快速权重。
但这还没有见效。
或许当人们利用电导作为权重时,终极它会见效。

官网截图:https://www.graphcore.ai/

主持人:理解这些模型如何事情,理解大脑如何事情,对你的思维办法有何影响?

Hinton:多年来,人们非常看不起大型随机神经网络,只要给它大量的演习数据,它就会学会做繁芜的事情的想法。
你和统计学家或措辞学家,或者大多数人工智能领域的人交谈,他们会说,那只是一个白日梦。
没有某种先天知识,没有很多架构限定,模型就不可能学会真正繁芜的事情。
以为随便用一个大型神经网络,就能从数据中学习一大堆东西——但这是完备缺点的。

随机梯度低落,即利用梯度反复调度权重,也可以学习非常繁芜的东西,这些大型模型已经证明了这一点。
这是对大脑理解的一个主要不雅观点。
大脑并不须要拥有所有的先天构造。
纵然大脑确实拥有许多先天构造,但对易于学习的事物,又并不须要这些先天构造。

乔姆斯基的不雅观点是,只有当知识本身无比踏实、成熟,才能学习像措辞这样繁芜的事物。
然而现在看来,这种不雅观点显然很荒谬。

主持人:乔姆斯基会很高兴看到你说他的不雅观点很荒谬。

Hinton:乔姆斯基的许多政治不雅观点非常明智。
我很惊异,为什么一个在中东问题上不雅观点如此明智的人,在措辞学方面会犯如此大的缺点。

主持人:你认为什么会让这些模型有效仿照人类的意识?现在的 ChatGPT 每次都从头开始,删除对话的影象。
如果有一个你生平中与之交谈过的人工智能助手,它能自我反省。
有一天,你去世了,你认为助手在那个时候会有觉得吗?

Hinton:我认为他们也会有觉得。
以是我认为,就像我们有这种感知的内在戏院模型一样,我们也有一个觉得的内在戏院模型。
这些是我能体验到的东西,但其他人却不能。
我认为那个模型同样是缺点的。
我认为,假设我说,我想打Gary的鼻子,我常常这样做。
让我们试着从内心戏院的观点中总结出这一点——我真正想见告你的是,如果不是由于我的额叶受到抑制,我就会采纳行动。
以是当评论辩论觉得时,我们实际上是在评论辩论没有限定的情形下会采纳的行动。
这便是觉得的真正含义——没有限定时,我们会采纳的行动。
以是没有情由说这些东西不能有觉得。

在 1973 年,我看到过有情绪的机器人。
他们在爱丁堡有一个带有两个夹子的机器人,如果你把零件分开放在一块绿色毛毡上,它可以组装一辆玩具车。
但是你把零件堆在一起,机器人视力不足,看不清零件。
就会把夹子放在一起把零件敲散,再拼一起。
假如看到一个人类这么做,你会说这个他不太理解情形,很生气,以是才敲散了零件。

主持人:在我们之前的发言中,你把人类和LLM描述为善于做类比机器(analogy machines)。
你生平中创造的,最有力的类比是什么?

Hinton:我想可能对我影响很大的一种弱类比,是宗教和符号处理之间的类比。

我来自一个无神论家庭,我小时候上学时就面临着宗教崇奉。
在我看来,这切实其实是无稽之谈。
纵然我再次核阅,我仍旧认为这是无稽之谈。
有人将符号处理视为对人们事情办法时,我认为这种不雅观点依然荒谬。

但我不认为现在的不雅观点完备是荒谬的,我们确实在进行符号处理,我们把大的嵌入向量授予给符号。
但不是像人们以为的那样,单单匹配符号——符号的唯一属性便是与另一个符号异同,让这成为符号的唯一属性。
但我们并不是这样做的。
我们用高下文,为符号供应嵌入向量;借助嵌入向量组成部分之间的交互,我们才能进行思考。

有位非常精良的谷歌研究员叫 Fernando Pereira。
他认为,我们确实在进行符号推理,但唯一符号便是自然措辞。
我们把自然措辞作为符号措辞进行推理。
我现在以为这很精确。

很难由于安全问题减缓AI研究,看好医疗保健运用

主持人:你已经进行了一些打算机科学史上最故意义的研究。
你能给我们讲讲,你是如何创造得当的研究问题的?

Hinton:首先,我要纠正你一下,是我和学生一起完成了很多故意义的研究。
这离不开我与学生的良好互助,离不开我创造精良学生的能力。
从70年代到本世纪初,研究神经网络的人不多。
我作为少数研究神经网络的人,可以选到最精良的学生。
这非常幸运。

科学家都有自己的一套研究方法理论,虽然很多科学家会总结一套自己的研究方法理论,但是实际上他们不一定真的是这么做的。
但我还是想说,我的理论是,我会探求那些大家都赞许、但直觉又能觉得出有点不对的问题。
然后我就把这个定为研究问题,看看我是否能深入,说清楚我认为它是错的缘故原由。
比如大概我能用一个小的打算机程序做个demo,解释大家的预期是错的。

让我举一个例子。
很多人认为,给神经网络添加噪音会让结果变得更糟。
如果演习示例,让一半的神经元保持沉默,效果就会更糟。
然而实际上,这样做的话会带来更好的泛化效果。
你可以用一个大略的例子来证明这一点。
这便是打算机仿照的优点。
你可以证明,增加噪音会使情形变得更糟,去掉一半的神经元,会使它事情得更糟。
短期内确实如此。
但你这样演习它,终极它会事情得更好。
你可以用一个小型打算机程序来证明这一点,然后你可以负责思考为什么会这样,以及它如何阻挡繁芜的协同适应。

这是我的研究方法。
找到并研究那些看上去不可靠的事情,看看自己能否给出大略demo,解释为什么缺点。

主持人:你以为现在有什么不可靠的点呢?

Hinton:我们不该用快速权重的做法,貌似不是很可靠,我们只有两个韶光尺度,这完备是缺点的,一点不像大脑的事情办法。
从长远来看,肯定要有更多的韶光尺度。
这只是一个例子。

主持人:我们谈到了推理、韶光尺度。
假设一群学生来问你,你的领域中最主要的问题是什么?你又会给他们什么最值得研究的问题?

Hinton:对付我来说,现在的问题和我过去 30 年来一贯存在的问题是一样的,那便是大脑会进行反向传播吗?我相信大脑会得到梯度。
你得不到梯度,你的学习效果就会比得到梯度时差很多。
但是大脑是如何得到梯度的?它因此某种办法实现某种近似版本的反向传播,还是某种完备不同的技能?这是一个悬而未决的大问题。
我连续做研究的话,这便是我要研究的内容。

主持人:当你现在回顾你的研究生涯时,你会创造你在很多事情上都是对的。
但是你在什么地方做错了,以至于你希望自己花更少的韶光?

Hinton:这是两个独立的问题。
一是错在什么地方,二是是否希望自己花更少的韶光在这上面。

我认为我对玻尔兹曼机的意见是缺点的,我很高兴我花了很永劫光研究它。
关于如何得到梯度,有比反向传播更俊秀的理论。
反向传播很普通,很明智,它只是一个链式法则。
玻尔兹曼机很聪明,它是一种获取梯度的非常有趣的方法。
我希望大脑也能这样事情,但事实该当并非如此。

主持人:您是否也花了很多韶光想象,这些系统开拓后会发生什么?您是否曾经想过,我们能让这些系统运行良好,我们就能让教诲民主化,让知识更随意马虎得到,办理医学上的一些难题。
对您来说,这更多的是理解大脑?

Hinton:科学家该当做一些对社会有益的事情,但实际上这并不是开展研究的最佳办法。
当好奇心使令时,您会进行最好的研究。
您只须要理解一些事情,仅此而已。

但最近,我意识到这些技能是把双刃剑,开始更加担心它们对社会的影响。
但这不是我的研究动机。
我只是想理解,大脑究竟是如何学习干事的?这正是我想要知道的。
但我有点失落败了。
作为失落败的副浸染,我们得到了一些不错的工程。

主持人:是的,这对天下来说是一次很好的“失落败”。
从真正可能顺利的事情的角度来看,你认为最有出息的运用是什么?

Hinton:医疗保健显然会是很大的运用。
社会可以接管的医疗保健险些是无穷无尽的。
以一位老年人为例,他们可能须要五位全职年夜夫的照顾。
因此,当人工智能在某些领域的表现超过人类时,我们会期待它能在更多领域发挥更大的浸染。
这可能意味着我们须要更多的年夜夫。
每个人都能拥有三位专属的年夜夫,那将是极好的。
我们有望实现这一目标,这也是医疗保健领域的上风之一。

此外,新的工程项目和新材料的开拓,例如用于改进太阳能电池板或超导性能的材料,或者仅仅是为了更深入地理解人体的运作机制,都将产生巨大的影响。
这些都是积极的一壁。

然而,我担心有政治家可能会利用这些技能来做邪恶的事情,比如利用人工智能制造***机器人,操纵舆论或进行大规模监控。
这些都是非常令人担忧的问题。

主持人:你是否担心,我们放慢这个领域的发展速率,也会阻碍其积极一壁的发展?

Hinton:当然,我有这样的担忧。
我认为这个领域的发展速率不太可能放慢,部分缘故原由是它具有国际性。
一个国家选择放慢发展速率,其他国家并不会跟随。
因此,中国和美国之间显然存在人工智能领域竞争,双方都不会选择放慢发展速率。
有人提出我们该当放慢六个月的发展速率,但我并未签署这一发起,由于我认为这种情形永久不会发生。
只管如此,我可能该当签署这一发起,由于纵然这种情形永久不会发生,它也提出了一个政治不雅观点。
为了表达不雅观点,有时候我们须要提出一些无法实现的哀求,这每每是一种有效的策略。
但我不认为我们会放慢发展的步伐。

主持人:你认为有了这些人工智能助手,会对 AI 研究过程产生什么影响?

Hinton:我认为它们会大大提高研究效率。
有了这些助手,AI研究将变得更加高效,它们不仅能帮助你编程,还能帮助你思考问题,乃至可能在各种方程式方面为你供应很大帮助。

建立自己的认知框架对付独立思考来说非常主要

主持人:你是否考虑过人才选拔的过程?这对你来说紧张是依赖直觉吗?例如,当Ilya涌如今门口时,你会以为他很聪明,于是决定与他一起事情。

Hinton:在人才选拔方面,有时候你便是能觉得到。
与Ilya交谈不久后,我就以为他非常聪明。
再深入交谈几句,他的直觉、数学能力都非常出色,这让我以为他是空想的互助伙伴。

还有一次,我参加了一次NIPS会议。
我们有一张海报,有人走过来,他开始讯问有关学术海报上的问题。
他提出的每一个问题都深入地揭示了我们的缺点。
五分钟后,我就给他供应了一个博士后职位。
那个人便是 David McKay,他非常聪明。
他去世了,这让人感到非常遗憾,但他的才华是显而易见的,你会希望能与他一起事情。
然而,有时候,情形并不总是那么明显。

我确实学到了一件事,那便是人与人是不同的。
精良的学生并不但有一种类型。
有些学生可能没有那么有创造力,但他们在技能上非常强,能够让任何事情都成功。
有些学生在技能上可能并不出色,但他们却拥有极高的创造力。
空想的情形下,我们希望找到的是既有技能实力又具备创造力的学生,但实际上,这样的学生并不总是那么随意马虎找到。
然而,我认为在实验室环境中,我们须要的是各种不同类型的研究生。

我始终坚信我的直觉,有时候,你只须要和某人进行一次交谈,他们就能理解你的意思。
这便是我们所期待的。

主持人:你是否曾经思考过,为什么有些人的直觉会更强呢?他们是否只是比其他人拥有更好的演习数据?或者,你是如何培养自己的直觉的?

Hinton:我认为,部分缘故原由在于他们不许可胡说八道。
因此,这里有一种获取缺点直觉的办法,那便是盲目相信你被奉告的统统,这是非常危险的。
我认为有些人便是这样做的。
我以为有独立思考能力的人会有一个理解现实的完全框架。
当有人见告他们某件事情时,他们会试图弄清楚这件事如何融入他们的框架。
无法融入,他们就会予以谢绝。
这是一个非常好的策略。

那些试图将他们被奉告的统统都融入自己的框架的人,终极会得到一个非常模糊的框架,并且会相信统统。
这是无效的。
因此,我认为,对天下有强烈的意见,并试图操纵传入的事实以符合自身不雅观点,是非常主要的。
显然,这可能会导致你陷入深刻的宗教崇奉和致命毛病等等,就像我对玻尔兹曼机器的崇奉一样。
但我认为这是精确的做法。

主持人:当你看到本日正在进行的研究类型时,你是否认为我们把所有的鸡蛋都放在一个篮子里,我们该当在这个领域更加多样化我们的想法?或者你认为这是最有出息的方向然后全力以赴?

Hinton:我认为拥有大型模型并在多模态数据上演习它们,纵然只是为了预测下一个单词,也是一种非常有出息的方法,我们该当全力以赴。
显然,现在有很多人在做这件事。
看到有很多人彷佛在做猖獗的事情,这很好。
我认为大多数人走这条路是可以的,它效果很好。

主持人:你认为学习算法真的那么主要吗,还是只是尺度之一?我们是否有数百万种方法可以达到人类水平的智能,或者我们须要创造少数几种?

Hinton:特定的学习算法是否非常主要,或者是否有各种各样的学习算法可以完成这项事情,我不知道这个问题的答案。
但在我看来,反向传播某种意义上是精确的做法。
得到梯度以便变动参数使其更好地事情,这彷佛是对的,而且它也取得了惊人的成功。

可能还有其他学习算法,它们是得到相同梯度的替代方法,或者将梯度转移到其他东西上,并且也有效。
我认为现在这统统都是开放的,也是非常有趣的问题,关于是否还有其他你可以考试测验和最大化利用的东西,可以为你供应良好的系统,大概大脑这样做是由于这样更随意马虎。
但反向传播在某种意义上是精确的做法,我们知道这样做效果很好。

主持人:末了一个问题,当您回顾您几十年的研究进程,您最引以为豪的造诣是什么?是你学生的造诣吗?或者是您的研究成果?在您的全体职业生涯中,您最引以为豪的是什么?

Hinton:我的回答是玻尔兹曼机的学习算法。
这个算法非常优雅,只管在实践中可能并不实用,但这是我和 Terry共同开拓的过程中最享受的事情,也是我最引以为豪的造诣,纵然它可能是缺点的。