本文最初发布于 IEEE Spectrum。

吴恩达:未来十年人工智能将向以数据为中央转变_数据_人工智能 文字写作

吴恩达在人工智能领域可谓声名显赫。
2000 年底,他与斯坦福大学的学生一起首创了利用图形处理单元(GPU)演习深度学习模型的先河,并在 2011 年共同创立了谷歌大脑,然后在百度担当了三年的首席科学家,帮助这家科技巨子创立了人工智能小组。
因此,很多人都相信他所说的,人工智能将迎来下一个重大转变。
本文是他某次接管 IEEE Spectrum 独家采访的内容整理。

目前,他的紧张精力都放在其公司Landing AI上。
该公司构建了一个名为 LandingLens 的平台,帮助制造商利用打算机视觉改进视觉检测。
他还成为了他所谓的以数据为中央的人工智能运动的布道者,他说这可以为人工智能领域的大问题供应“小数据”办理方案,涉及模型效率、准确性和偏见。

本文紧张内容包括:

真正的大模型将走向何方;他未听取的职业建议;定义以数据为中央的人工智能运动;合成数据;为什么 Landing AI 哀求客户做这项事情。

IEEE Spectrum:在过去十年旁边的韶光里,深度学习的巨大进步因此越来越大的模型处理越来越多的数据为根本。
有人认为,这种发展模式是不可持续的。
您是否赞许这种说法,深度学习不能再以这种办法连续发展下去?

吴恩达:这个问题很大。
我们已经看过了 NLP(自然措辞处理)中的根本模型。
我对 NLP 模型变得越来越大感到愉快,同时也对在打算机视觉领域构建根本模型的潜力感到愉快。
我认为,***中仍有很多讯息可以利用:受限于打算带宽和***处理本钱,我们还无法为***构建出不再依赖文本分词的根本模型。
因此我认为,这个扩展深度学习算法的引擎,虽然已经运行了大约 15 年,但仍旧有活力。
话虽如此,那也只适用于某些问题,还有其他一系列问题须要小数据办理方案。

IEEE Spectrum:当您说您希望有一个打算机视觉的根本模型时,您指的是什么?

吴恩达:这是由Percy Liang和我在斯坦福的一些朋友们创造的一个术语,指的是非常大的模型,在非常大的数据集上演习,可以针对特定的运用进行调优。
例如,GPT-3便是一个根本模型[用于 NLP]的例子。
根本模型作为开拓机器学习运用的一个新范式,有很大的运用前景,但同时也面临着寻衅,即如何确保它们合理、公正、没有偏见,特殊是如果我们中的许多人将以它们为根本进行构建。

IEEE Spectrum:在什么情形下才会有人针对***构建一个根本模型?

吴恩达:我认为有一个可扩展性问题。
处理***中的大量图片所需的打算能力非常大,我想这便是为什么根本模型会首先涌如今 NLP 中。
许多研究职员正在研究这个问题,我认为我们已经看到了在打算机视觉领域开拓这种模型的早期迹象。
我相信,如果有一家半导系统编制造商给我们供应 10 倍的处理能力,那么我们就很随意马虎找到 10 倍的***来构建这样的视觉模型。

话虽如此,在过去十年里,常常涌现的情形是,深度学习发生在面向消费者的公司。
这些公司拥有弘大的用户群,有时是数十亿用户,他们也因此拥有非常弘大的数据集。
虽然这种机器学习范式为消费类软件带来了巨大的经济代价,但我创造,适用于这种规模的方法对其他行业并不适用。

IEEE Spectrum:听您这么说很故意思,由于您早期便是在一家面向消费者而且有数百万用户的公司事情。

吴恩达:十多年前,当我发起启动谷歌大脑项目,利用谷歌的打算根本举动步伐来构建非常大的神经网络时,是有争议的。
一个非常资深的人把我拉到一边,警告我说,启动谷歌大脑对我的职业生涯不利。
我想,他是以为行动不能只勾留在扩大规模上,而该当把重点放在架构创新上。

在许多行业中,巨型数据集根本不存在,以是我认为,关注点必须从大数据转向好数据。
有 50 个精心设计的样本就足以向神经网络阐明你想让它学习什么。

我记得,在我和我的学生揭橥第一篇NeurIPS研讨会论文,提倡利用CUDA(一种在 GPU 上进行处理的平台)进行深度学习时,一位分歧凡响的 AI 资深人士对我说:“CUDA 编程真的很繁芜。
作为一种编程范式,这么做事情彷佛太多。
”我设法说服了他;但另一个人我却没能说服。

IEEE Spectrum:我希望他们现在都信服了。

吴恩达:我认为是这样。

在过去一年里,当我与人们评论辩论以数据为中央的人工智能运动时,我一贯在回忆 10 或 15 年前在与人们评论辩论深度学习和可扩展性时的情景。
在这一年里,我一贯听到同样的杂音:“这没有什么新东西”和“这彷佛是一个缺点的方向”。

IEEE Spectrum:您是怎么定义以数据为中央的 AI 的?为什么您将其视为一场运动?

吴恩达:以数据为中央的 AI 是一门系统地设计数据以匆匆成人工智能系统构建的学科。
人工智能系统必须在代码中实现一些算法,比如说神经网络,然后在数据集上演习它。
过去十年的主流范式是***数据集,并专注于改进代码。
得益于这种范式,在过去十年中,深度学习网络有了显著的改进,以至于对付很多运用程序来说,代码——神经网络架构——基本上是一个已办理的问题。
因此,对付许多实际运用来说,将神经网络架构固定下来,转而探求改进数据的方法,会更有成效。

当我开始评论辩论这个问题时,有许多从业者举手说,“是的,我们已经做了 20 年了”。
现在,是时候把一些人一贯凭直觉在做的事情,变成一门系统的工程学科了。

与一家公司或一群研究职员比较,以数据为中央的人工智能运动的规模要大得多。
我和我的互助者在 NeurIPS 上组织了一个以数据为中央的人工智能研讨会,前来参加的作者和演讲者的数量让我感到非常高兴。

IEEE Spectrum:您常常谈到,有些公司或机构只有少量的数据可供给用。
以数据为中央的人工智能如何为他们供应帮助?

吴恩达:你该当听说过,很多视觉系统的构建利用了数百万张图片,我曾经用 3.5 亿张图片构建了一个面部识别系统。
为数以亿计的图片构建的架构在只有 50 张图片时是行不通的。
但事实证明,如果有 50 个非常好的样本,那么你就可以构建一些有代价的东西,比如毛病检测系统。
在许多行业,根本不存在非常大的数据集,以是我认为,关注点必须从大数据转移到好数据。
有 50 个精心设计的样本就足以向神经网络阐明你想让它学习什么。

IEEE Spectrum:您说用 50 张图片演习一个模型的意思是对一个现有的、在非常大的数据集上演习的模型进行微调,还是说一个全新的模型,只是它被设计成只从小数据集学习?

吴恩达:让我描述一下 Landing AI 的浸染。
在帮助制造商实现视觉检测时,我们常常利用我们自己的RetinaNet。
它是一个预演习的模型。
话虽如此,预演习只是全体拼图的一小部分。
更大的难题是供应工具,使制造商能够挑选得当的图片集[用于调优],并用同样的办法标记它们。
我们看到,有一个非常实际的问题,横跨视觉、NLP 和语音,纵然是人类标注者也没法同等地给出适当的标签。
对付大数据运用,常见的反应是:如果数据喧华,我们就获取大量的数据,然后由算法来均化处理。
但是,如果你能开拓一些工具来标记数据不一致的地方,并给出一个非常有针对性的方法来改进数据的同等性,那么这将是构建一个高性能的系统更有效的方法。

网络更多的数据每每是有帮助的,但如果你什么时候都设法网络更多的数据,那可能是一项非常昂贵的活动。

例如,如果你有 1 万张图片,个中 30 张属于一个种别,而这 30 张图片的标签不一致,我们所做的个中一件事便是构建工具,帮助你创造不一致的数据子集。
那样,你就可以非常迅速地重新标注这些图片,提升图片同等性,进而提升性能。

IEEE Spectrum:这种对高质量数据的关注是否能帮助办理数据集偏见,如果能在演习前更多地挑选数据?

吴恩达:帮助非常大。
已经有许多研究职员指出,数据偏见是导致系统偏见的浩瀚成分之一。
人们在数据设计方面已经付出了许多努力。
在 NeurIPS 研讨会上,Olga Russakovsky就这个问题做了一个非常好的演讲。
我也非常喜好 NeurIPS 大会上Mary Gray的演讲,她提到,以数据为中央的人工智能只是办理方案的一部分,但不是全部办理方案。
像Datasheets for Datasets这样的新工具彷佛也是拼图的主要组成部分。

以数据为中央的人工智能为我们供应的个中一个强大的工具是设计数据子集的能力。
想象一下,演习一个机器学习系统,创造它在大部分数据集上的表现都还可以,但只是对数据的一个子集有偏见。
如果你为了提高在那个数据子集上的性能,试图改变全体神经网络的架构,这相称困难。
但是,如果你能对数据的一个子集进行设计,你就能以更有针对性的办法办理这个问题。

IEEE Spectrum:准确地说,您所说的数据设计是指什么?

吴恩达:在人工智能领域,数据清理很主要,但数据清理的办法每每须要大量的手动事情。
在打算机视觉中,有人可能通过Jupyter条记本将图片可视化,大概会创造问题,大概会修复它。
但对付那些让我们可以拥有一个非常大的数据集的工具,那些可以快速有效地定位存在标签噪声的数据子集的工具,我感到非常愉快。
或者是快速将你的把稳力吸引到 100 个类中的某一类,从中网络更多的数据会让你受益。
网络更多的数据每每是有帮助的,但是如果你什么时候都设法网络更多的数据,那可能是一项非常昂贵的活动。

例如,我曾经指出,当背景中有汽车噪音时,语音识别系统的表现很差。
理解了这一点,我就可以在有汽车噪音时网络更多的数据,而不是什么时候都设法网络更多的数据,那样本钱又高又耗时。

IEEE Spectrum:利用合成数据怎么样,常日这是一个好的办理方案吗?

吴恩达:我认为,合成数据因此数据为中央的人工智能工具箱中的一个主要工具。
在 NeurIPS 研讨会上,Anima Anandkumar做了一个关于合成数据的精彩演讲。
我认为,合成数据的主要用场不仅仅是作为一个预处理步骤来增加学习算法的数据集。
我希望看到更多的工具,让开发者可以把合成数据天生作为机器学习迭代开拓闭环的一部分。

IEEE Spectrum:您是说合成数据可以让我们在更多的数据集上试验模型吗?

吴恩达:不是这样。
举个例子。
比方说,你试图检测智好手机外壳的毛病。
智好手机上有许多不同类型的毛病。
那可能是划痕、凹痕、坑痕、材料变色或其他类型的瑕疵。
如果你演习了模型,然后通过偏差剖析创造它总体上表现很好,但在坑痕上表现很差,那么合成数据天生让你可以更有针对性地办理这个问题。
你可以只针对坑痕种别天生更多的数据。

在消费类软件互联网中,我们可以演习少数几种机器学习模型来做事 10 亿用户。
但在制造业,你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。

合成数据天生是一个非常强大的工具,但也有许多大略一些的工具,我常常会先试一下。
比如说数据增强,改进标签同等性,或者只是哀求工厂网络更多的数据。

IEEE Spectrum:为了使这些问题更加详细化,您能通过一个例子来更详细地解释下这些问题吗?当一家公司找到Landing AI并说它在视觉检测方面存在问题时,您如何让他们参与进来并努力实现支配?

吴恩达:当客户找到我们时,我们常日会就他们在检测方面碰着的问题进行交谈,并查看一些图片,以验证该问题是否可以通过打算机视觉来办理。
如果可以,我们会哀求他们将数据上传到LandingLens平台。
我们常常基于以数据为中央的人工智能方法论向他们供应建议,并帮助他们对数据进行标注。

Landing AI 的个中一个主要目标是让制造企业可以自己完成机器学习事情。
我们的很多事情都是为了确保软件快速且易于利用。
我们通过机器学习开拓的迭代过程为客户供应建议,比如如何在平台上演习模型,何时以及如何改进数据的标注,从而提高模型的性能。
我们会一贯供应培训和软件支持,直到他们将演习好的模型支配到工厂的边缘设备上。

IEEE Spectrum:你们如何处理不断变革的需求?如果产品发生变革或工厂的照明条件发生变革,模型能跟得上吗?

吴恩达:这和制造商有关系。
在许多情形下都会有数据漂移。
但也有一些制造商,一条生产线运行了 20 年,险些没有什么变革,以是他们不以为未来 5 年内会有什么变革。
稳定的环境使事情变得相对大略。
对付其他制造商,我们供应工具,在发生重大数据漂移问题时进行标记。
我创造,授予制造业客户纠正数据、重新演习和更新模型的能力真的很主要。
由于如果有什么变革,而且现在是美国韶光凌晨 3 点,我希望他们能够立即调度他们的学习算法,以担保运营。

在消费类软件互联网中,我们可以演习少数几个机器学习模型来做事 10 亿用户。
但在制造业,你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。
这里的寻衅是,如果没有 Landing AI ,你如何做到这一点,是雇用 10000 名机器学习专家吗?

IEEE Spectrum:以是您是说,为了使其可扩展,您必须赋能客户来做大量的演习及其他事情。

吴恩达:是的,完备精确!
这是涉及全行业的人工智能问题,不仅仅是在制造业。
看看卫生保健领域。
每家医院的电子康健记录格式都略微不同。
每家医院该如何演习自己定制化的人工智能模型?指望每家医院的 IT 职员发明新的神经网络架构是不现实的。
摆脱这种困境的唯一方法是构建工具赋能客户,为他们供应工具来设计数据和表示领域知识,使他们能够构建自己的模型。
这便是 Landing AI 希望在打算机视觉领域达成的目标,人工智能领域须要其他团队在其他领域完成类似的目标。

IEEE Spectrum:关于您所做的事情或以数据为中央的人工智能运动,您认为还有什么须要人们理解的吗?

吴恩达:在过去十年中,人工智能最大的转变是向深度学习转变。
我认为,在这个十年里,最大的转变很有可能是向以数据为中央的人工智能转变。
随着现如今神经网络架构的成熟,我认为,对付很多实际的运用来说,瓶颈将是我们能否有效地得到我们所需的数据,开拓出效果良好的系统。
以数据为中央的人工智能运动在全体社区有着巨大的活力和动力。
我希望有更多的研究职员和开拓职员能够加入进来,为之努力。