深度学习现在被用于翻译措辞,预测蛋白质如何折叠,剖析医学扫描,以及玩类似围棋的繁芜游戏,这些仅仅是这种技能中一些运用,现在已经遍及。
上述及其他领域的成功,使得这一机器学习技能从 21 世纪初的默默无闻发展到本日的主导地位。

深度进修的收益正在慢慢递减_深度_成本 文字写作

只管深度学习的成名相对来说比较晚,但它的起源可并不晚。
1958 年,昔时夜型打算机挤满了房间,运行在真空管上时,康奈尔大学的 Frank Rosenblatt 受大脑神经元之间相互连接的知识启示,设计了第一个人工神经网络,他预见性地将其描述为一个“模式识别装置”。
但 Rosenblatt 的年夜志壮志超出了他那个时期的能力——他知道这一点。
乃至连他的就职论文也不得不承认神经网络对算力的渴望,他哀叹道:“随着网络中连接数量的增加……传统数字打算机的包袱很快就会变得过重。

幸运的是,对付这样的人工神经网络——当它们包含额外的神经元层时,后来被重新命名为“深度学习”——数十年来的摩尔定律,以及打算机硬件的其他改进,使得打算机在一秒钟内能完成的打算数量增加了大约 1000 万倍。
以是当研究职员在 2000 年代末回到深度学习的时候,他们有了足够的工具来应对寻衅。

这种功能更强大的打算机使构建更多连接和神经元的网络成为可能,从而提高了对繁芜征象建模的能力。
研究职员利用这种能力冲破了一个又一个记录,将深度学习运用到新的任务中。

只管深度学习疾如流星般的迅速崛起,但是它的未来可能会很坎坷。
就像之前的 Rosenblatt 一样,本日的深度学习研究职员正在靠近他们的工具能够达到的前沿。
要理解这为什么重塑机器学习,你必须先理解深度学习为何如此成功,以及保持这种成功所付出的代价。

深度学习是人工智能长期趋势的当代化身,这一趋势已从以专家知识为根本的流水化系统转向灵巧的统计模型。
早期的人工智能系统是基于规则的,运用逻辑和专家知识来推导结果。
后来的系统结合了学习,以设定其可调参数,但这些参数常日数量很少。

本日的神经网络也学习参数值,但是这些参数是非常灵巧的打算机模型的一部分,如果它们足够大,就能近似成通用函数,这意味着它们可以适用于任何类型的数据
这种无限的灵巧性正是深度学习能够运用到如此多不同领域的缘故原由。

神经网络的灵巧性来自于对模型的大量输入,并许可网络以无数种办法将其组合。
这便是说,输出将不是运用大略公式的结果,而是极其繁芜的公式。

举例来说,当尖真个图像识别系统 Noisy Student 将图像的像素值转换为该图像中物体的概率时,利用了一个具有 4.8 亿个参数的网络。
确定如此多的参数值演习乃至更了不起,由于它只用了 120 万张标记的图像——这可能会使我们这些从高中代数中该当记住更多的方程而非未知数的人感到困惑。
冲破这条规则才是关键所在。

深度学习模型过度参数化,即其参数多于可用于演习的数据点。
这常常导致过拟合,即模型不仅能学习总体趋势,还能学习其演习的数据的随机变革。
深度学习通过随机初始化参数,然后迭代调度参数集,这样就可以利用一种称为随机梯度低落的方法更好地对数据进行拟合,从而避免这种陷阱。
出人意料的是,这一程序已经被证明可以担保所学模型具有很好的通用性。

在机器翻译中可以看出灵巧的深度学习模型的成功。
软件已经被用于将一种措辞的笔墨翻译成另一种措辞几十年了。
这一问题的早期办理方案是利用语法专家设计的规则。
但是,随着许多特定措辞的文本数据的涌现,统计方法——那些被称为最大熵(maximum entropy)、隐马尔可夫模型(hidden Markov models)和条件随机域(conditional random fields)的深奥名称——可以运用。

起初,对每种措辞最有效的办法取决于数据的可用性和语法属性。
比如,基于规则的方法翻译乌尔都语、阿拉伯语和马来语等措辞最初要好于统计方法。
如今,所有这些方法都已被深度学习所超越,而深度学习险些在它的任何运用领域都显示出它的上风。

好是深度学习供应了极大的灵巧性。
坏是,这种灵巧性因此巨大的打算本钱为代价的。
这个不幸的现实有两个部分。

从近几年的研究结果推断,到 2025 年,设计成用于识别 ImageNet 数据集中物体的最佳深度学习系统,偏差水平应降至只有 5%(顶部)。
但是,演习这样一个未来系统所需的打算资源和能源将是巨大的,因此产生的二氧化碳排放量相称于纽约市一个月的排放量(底部)。

(来源:N.C.Thompson、K.Greenewald、K.Lee、G.F.Manso)

第一部分对所有统计模型都是精确的。
要使性能提高 k 倍,至少须要用超过 k² 个数据点对模型进行演习。
打算本钱的第二部分显然是由超参数化产生的。
将这一点考虑在内,我们可以得出,改进的总体打算本钱至少为 k⁴。
这个指数中的小 4 已经非常昂贵了。
例如,10 倍的改进就须要至少 10000 倍的打算量。

想要使灵巧性和打算的权衡更清晰,可以考虑一个场景:你考试测验预测病人的 X 射线是否显示了癌症。
进一步假设,如果你丈量 X 射线中的 100 个细节(常日称为变量或特色),就可以找到真正的答案。
寻衅在于,我们不能事先知道哪些变量是主要的,而且可能有非常多的候选变量须要考虑。

针对这一问题,专家系统的办理方法便是让那些在放射学和肿瘤学方面有研究的职员指定他们认为主要的变量,让系统只检讨这些变量。
灵巧系统的方法是测试尽可能多的变量,让系统自己知道哪些是主要的,在这个过程中须要更多的数据并产生更多的打算本钱。

专家已经确定了干系变量的模型可以迅速理解哪些数值对这些变量最为有效,并且在有限的打算量下做到这一点——这便是为什么它们在早期如此受欢迎。
但是,如果专家没有精确指定模型中应包含的所有变量,它们的学习能力就会结束不前。
比较之下,像深度学习这样的灵巧模型效率较低,而且须要大量的打算才能匹配专家模型的性能。
然而,如果有足够的打算(和数据),灵巧的模型可以赛过那些专家试图指定干系变量的模型。

很明显,如果你利用更多的算力来构建更大的模型,并且在更多的数据上演习它们,你就能从深度学习中得到更好的性能。
但是,这样的打算包袱到底有多昂贵呢?本钱是否会变得太高而阻碍进展?

为明确回答这些问题,我们最近网络了超过 1000 篇深度学习研究论文的数据,包括图像分类、物体检测、问答、命名实体识别和机器翻译等领域。
在本文中,我们将只详细谈论图像分类,但这些履历适用范围很广。

近年来,图像分类偏差的减少伴随着打算包袱的急剧增加。
举例来说,在 2012 年,AlexNet 模型首次展示了在图形处理单元(GPU)上演习深度学习系统的能力,利用两个 GPU 进行 5~6 天的演习。
到 2018 年,另一个模型 NASNet-A 将 AlexNet 的缺点率降落了一半,但是它利用了超过 1000 倍的打算量来达到这一目标。

通过对这一征象的剖析,我们还可以把实际发生的事情和理论预期比较较。
这一理论见告我们,打算至少须要四次方的性能改进才能扩展。
在实践中,实际的需求至少要用九次方来扩展。

这个九次方意味着要将缺点率降落一半,你可能须要超过 500 倍的打算资源。
这一代价实在太贵了。
不过,这里可能还有一些生气。
事实和理论预测之间存在着差距,这可能意味着还有一些尚未创造的算法改进,可以极大地提高深度学习的效率。

我们已经指出,摩尔定律和其他硬件方面的进步大大提高了芯片的性能。
那就意味着打算需求的升级无关紧要吗?很遗憾,不是的。
在 AlexNet 和 NASNet-A 利用的 1000 倍的打算量中,只有 6 倍的改进来自于更好的硬件;别的的来自于利用更多的处理器或运行更永劫光,导致本钱增加。

对图像识别的打算本钱-性能曲线进行估算后,我们可以利用它来估算将来达到一个更令人印象深刻的性能基准所须要的打算量。
例如,要达到 5% 的缺点率,就须要进行 10¹⁹ 亿次浮点运算。

来自马萨诸塞大学阿默斯特分校的学者们的主要事情使我们得以理解这种打算包袱所带来的经济本钱和碳排放。
答案是严厉的:演习这样一个模型将花费 1000 亿美元,产生的碳排放量相称于纽约市一个月的碳排放量。
如果我们估计 1% 的缺点率所带来的打算包袱,结果会更糟。

推断出如此多的数量级,这是否合理呢?是,也不是。
当然,主要的是要理解这些预测并禁绝确,只管在如此令人瞠目结舌的结果中,它们并没有必要传达不可持续的整体信息。
如果我们假设研究职员一贯沿着这条轨迹走下去,直到这个极度,那么这种推断便是不合理的。
我们并没有。
面对暴涨的本钱,研究职员要么想出更有效的方法来办理这些问题,要么就放弃对这些问题的研究,进展将结束不前。

在另一方面,推断我们的结果不仅是合理的,也是主要的,由于它表达了未来寻衅的严厉性。
这一问题的前沿已经开始显现。
谷歌子公司 DeepMind 演习它的系统下围棋时,估计花费了 3500 万美元。
DeepMind 的研究职员在设计一个玩《星际争霸 II》***游戏的系统时,由于演习用度高昂,他们故意识地没有考试测验多种方法来构建一个主要的组件。

最近,研究职员在一个主要的机器学习智库 OpenAI 中,设计和演习了一种广受赞誉的深度学习措辞系统 GPT-3,耗资超过 400 万美元。
虽然他们在履行该系统时犯了一个缺点,但他们并没有改正,只是在其学术出版物的补编中阐明说,“由于演习本钱过高,重新演习该模型不可行。

乃至科技行业以外的企业现在也开始对深度学习的打算本钱望而生畏。
最近,欧洲一家大型连锁超市放弃了一个基于深度学习的系统,该系统可以显著提高对购买哪种产品的预测能力。
这家公司高管放弃了这一考试测验,由于他们认为演习和运行该系统的本钱太高。

面临着日益增长的经济和环境代价,深度学习社区须要找到提高性能的方法,同时又不引起打算需求的激增。
如果他们不这样做,进展将会结束不前。
但是不要绝望:为欢迎这一寻衅,人们正在做大量的事情。

一种策略便是利用专门为深度学习打算而设计的高效处理器。
由于 CPU 让位给 GPU,在过去十年里,这种方法被广泛运用,在某些情形下会让位给现场可编程门阵列和专用集成电路(包括谷歌的张量处理单元)。
从根本上说,所有这些方法都捐躯了打算平台的通用性,从而实现更高效的专业化。
但是专业化面临着收益递减的问题。
以是,长期的收益须要采取完备不同的硬件架构——大概是基于仿照、神经形态、光学或量子系统的硬件。
但是,到目前为止,这些完备不同的硬件架构并没有产生多大影响。

减少打算包袱的另一种方法紧张是天生神经网络,在实现时,这类神经网络比较小。
这一策略减少了每次利用它们的本钱,但它常常增加演习本钱(我们在本文中已详细解释)。
这些本钱中哪一项最主要,取决于情形。
对被广泛利用的模型来说,运行本钱是投资总额的最大部分。
而在其他模型中,比如那些常常须要重新演习的模型,演习本钱是紧张的。
无论那种情形,总本钱都要大雨演习本身。
以是,如果演习本钱过高,就像我们所显示的那样,那么总本钱也会很高。

同时,为了减少履行的规模,这也是各种策略所面临的寻衅:它们并未完备降落演习本钱。
举例来说,有一种方法可以演习一个大型网络,但是在演习过程中对繁芜性进行惩罚。
另一种方法是演习一个大型网络,然后“修剪”掉不主要的连接。
还有一种方法是通过对许多模型进行优化,探求尽可能有效的架构——即所谓的神经架构搜索。
虽然这些技能中的每一种都能为实现带来显著的收益,但是对演习的影响却很微弱——当然不敷以办理我们在数据中看到的问题。
而且很多时候,它们会增加演习本钱高。

一项新涌现的技能可以降落演习本钱,这被称为“元学习”(Meta-learning)。
其思想是,系统从各种数据中学习,然后可以运用到很多领域。
举例来说,与其建立单独的系统来识别图像中的狗、图像中的猫和图像中的汽车,不如利用一个别系演习所有这些数据并多次利用。

很不幸,麻省理工学院的 Andrei Barbu 最近的研究揭示了元学习有多么难。
他和他的互助者表示,纵然是原始数据和你想利用它的地方之间的眇小差异都可能严重影响性能。
他们证明,目前的图像识别系统在很大程度上依赖于拍摄工具是否以特定的角度或特定的姿势进行拍摄。
以是,纵然是识别不同姿势的相同物体的大略任务,也会导致系统的准确性险些减半。

加州大学伯克利分校的 Benjamin Recht 等人更明确地指出了这一点,他们表明,纵然有特意构建的模拟原始演习数据的新数据集,性能也会低落 10% 以上。
如果数据的眇小变革都会导致性能的大幅低落,那么一个全面的元学习系统所须要的数据可能是巨大的。
因此,元学习的广阔前景还远未实现。

其余一种可能的策略是,避开深度学习的打算极限,转而利用其他可能尚未被创造或未被重视的机器学习类型。
正如我们所描述的,基于专家的洞察力而构建的机器学习系统在打算上会更有效率,但如果这些专家不能区分所有的影响成分,那么它们的性能就无法达到与深度学习系统相同的高度。
目前神经符号方法和其他技能正在发展之中,以结合专家知识和推理的力量与神经网络中常有的灵巧性。

就像 Rosenblatt 在神经网络出身之初所面对的情形一样,本日的深度学习也开始受到现有打算工具的限定。
由于打算规模将在经济上和环境上都被“毁灭”,因此我们必须调度深度学习的方法,或者面对一个发展更缓慢的未来。
很明显,我们须要适应。
明智的打破大概能找到一条路子,让深度学习更加高效或者打算机硬件更加强大,从而让我们能够连续利用这些特殊灵巧的模型。
否则,钟摆很可能会重新回到依赖专家来确定须要学习什么。

作者先容:

Neil C. Thompson,麻省理工学院打算机科学和人工智能实验室的研究科学家。

Kristjan Greenewald,麻省理工学院 IBM Watson 人工智能实验室研究职员。

Keeheon Lee,首尔延世大学助理教授。

Gabriel F. Manso,巴西利亚大学学生。

原文链接:

https://spectrum.ieee.org/deep-learning-computational-cost