如果说当代人工智能有一份创始文件或者一篇圣典,那一定便是谷歌2017年发布的研究论文《你须要的只是Attention》(Attention Is All You Need)。

Transformer彻底改变了人工智能那什么将取代transformer?_人工智能_模子 文字写作

这篇论文先容了一种被称为“transformer\"大众的新型深度学习架构,并在过去五年里彻底改变了人工智能领域。

Transformer是当今占主导地位的人工智能架构,它与2016年科幻电影《降临》(Arrival)中的外星措辞有着有趣的相似之处。
图片来源:PARAMOUNT PICTURES

目前席卷环球的人工智能热潮都可以直接追溯到transformer的发明。
本日涌如今***中的每个紧张AI模型和产品——ChatGPT、GPT-4、Midjourney、Stable Diffusion、GitHub Copilot等等——都是利用transformer构建的。

Transformer具有显著的通用性:虽然它们最初是专为措辞翻译而开拓的,但它们现在也在推动打算机视觉、机器人学、打算生物学等领域的技能发展。

简而言之,transformer代表了当今人工智能技能无可争议的黄金标准。

但没有一种技能能永久霸占主导地位。

在transformer的影响力达到顶峰之际,思考接下来会发生什么彷佛有些奇怪。
但是,在变化多端的人工智能天下里,在未来变得显而易见之前,设法“洞察先机”并一窥究竟,既令人着迷,又大有裨益。

本着这种精神,让我们斗胆一问:

什么会取代transformer?

Transformer 101

为了磋商这个问题,我们必须首先更深入地理解transformer。

现已成为经典的那篇关于transformer论文是由八位研究职员于2017年在谷歌共同完成的:他们是艾丹·戈麦斯(Aidan Gomez)、利昂·琼斯(Llion Jones)、卢卡斯·凯泽(Lukasz Kaiser)、尼基·帕马尔(Niki Parmar)、伊利亚·波罗苏欣(Illia Polosukhin)、诺姆·沙泽尔(Noam Shazeer)、雅各布·乌斯科雷特(Jakob Uszkoreit)和阿希什·瓦斯瓦尼(Ashish Vaswani)。

关于这篇论文,一个常常被忽略的事实是,所有8位作者都被列为共同撰稿人,排名不分先后,也便是说,他们的名字涌如今论文上的顺序是随机决定的,没有任何意义。
话虽如此,人们普遍认为乌斯科雷特为transformer这个观点供应了最初的智力引擎,而瓦斯瓦尼和沙泽尔则是自始至终最深入参与这项事情各个方面的两位作者。

这8位作者都由于他们对这篇论文的参与而成为了人工智能领域的精彩人物。
如今,他们都不在谷歌事情了,但他们后来各自或共同创办了许多当今最主要的人工智能初创公司,包括Cohere、Character.ai、Adept、Inceptive、Essential AI 和 Sakana AI。

Transformer究竟为何能带来如此巨大的打破?

在《你须要的只是Attention》这篇论文揭橥之前,措辞人工智能领域最前辈的技能是一种被称为递归神经网络(RNN)的深度学习架构。

顾名思义,RNN是按顺序处理数据的,即按照单词涌现的顺序一次处理一个单词。

但主要的关系每每存在于单词之间,纵然它们在一个序列中不是紧挨着涌现。
为了使RNN能够更好地阐明词与词之间的这些远间隔依赖关系,一种被称为“Attention”的机制变得盛行起来。
(Attention机制的发明常日被认为归功于深度学习先驱约书亚·本吉奥(Yoshua Bengio)在2014年揭橥的一篇论文。

“Attention”使模型能够考虑单词之间的关系,而不管它们相距多远,并确定段落中哪些单词和短语最值得\公众关注\公众。

在transformer论文揭橥之前,研究职员只将Attention作为RNN架构的附加组件。
谷歌团队的一大飞跃是完备摒弃了RNN,完备依赖Attention来进行措辞建模,这便是那篇文章的标题为什么叫《你须要的只是Attention》。

(关于这篇论文,有一个迷人但鲜为人知的事实:据合著者利昂·琼斯说,它的标题是对披头士乐队的歌曲《你须要的只是爱》(All You Need is Love)的致敬。

发明transformer的八位科学家。
图片来源:金融时报

Attention机制使transformer的根本创新成为可能,它实现了措辞处理的并行化,即同时剖析特定文本中的所有单词,而不是按顺序剖析。

作为一个有趣的类比,论文合著者之一伊利亚·波洛苏欣将transformer的构造与2016年科幻电影《降临》(Arrival)中虚构的外星措辞进行了比较。
影片中的外星人并没有像人类那样,按顺序天生一串字符来组成单词和句子,而是一次天生一个繁芜的符号,所有的符号都传达了一个详细的含义,人类必须将其作为一个整体来解读。

Transformer的并行化使它们对所读和所写的文本有了更全面、更准确的理解。
这也使它们与RNN比较具有更高的打算效率和可扩展性。
Transformer可以在更大的数据集上进行演习,并且可以利用比以前的架构更多的参数来构建,从而使其功能更加强大,更具通用性。
事实上,当今基于transformer的领先模型的一大特点便是其规模。

Transformer的并行架构与GPU硬件的兴起不谋而合,这是一种互惠互利、相互促进的历史巧合。
GPU是一种打算机芯片,它本身具有大规模并行性,因此非常适宜支持基于transformer的打算事情负载。
(环球领先的GPU生产商英伟可能是当今人工智能热潮的最大受益者,由于市场对其芯片的需求惊人,该公司最近的市值超过了1万亿美元。

剩下的,就像人们常说的那样,便是历史了。
得益于这些巨大上风,自发明以来的六年里,transformer席卷了天下,首创了天生式人工智能的时期。

本日盛行的所有“谈天机器人”——OpenAI的ChatGPT、谷歌的Bard、微软的Bing Chat、Anthropic的Claude、Inflection的Pi等等——都是基于transformer。
从Midjourney到Stable Diffusion再到Runway的每一个天生图像或***的人工智能工具也是如此。
(从文本到图像和从文本到***技的术是由扩散模型驱动的,而扩散模型又利用了transformer。

Transformer的影响远不止笔墨和图片。
当今最前辈的机器人研究都依赖于transformer。
事实上,谷歌最新的机器人研究成果被命名为RT-2,个中的“T”代表的便是“transformer”。
同样,在自动驾驶汽车领域最有出息的新研究路子之一是利用视觉transformer。
基于transformer的模型开启了生物学中令人惊叹的新可能性,包括设计出自然界从未涌现过的定制蛋白质和核酸的能力。

Transformer的联合发明人阿希什·瓦斯瓦尼总结得很好:“transformer是一种快速捕捉任何输入内如的不同部分之间相互浸染的方法。
这是一种通用的方法,可以捕捉各个部分之间的相互浸染,例如句子中的片段、音乐中的音符,图像中的像素、蛋白质的部分等等。
它可以用于任何任务。

天下没有不散的筵席?

然而,只管具有令人难以置信的上风,transformer也并非没有缺点。
这些缺陷为可能涌现的新的和改进的体系构造打开了大门。

Transformer的紧张缺陷是其惊人的打算本钱。

任何熟习人工智能天下的人都知道,当今人工智能模型的一个决定性特色是它们永不知足的算力需求。
本日,演习一个尖真个大型措辞模型须要连续几个月一直地运行数千个GPU。
例如,OpenAI今年早些时候筹集了令人瞠目的100亿美元,其缘故原由是为了支付构建前辈人工智能模型所需的大量算力资源的用度。
另一个例子是,成立仅18个月的初创公司Inflection最近筹集了超过10亿美元的风险投资,用于构建一个大型GPU集群来演习其措辞模型。

事实上,基于transformer的模型对算力的需求如此之大,以至于当前的人工智能热潮引发了环球供应短缺,硬件制造商无法以足够快的速率生产人工智能芯片,以知足需求。

为什么transformer对算力的哀求如此之高?

一个基本的答案是,transformer的强大之处同时也是它的弱点:由于它们比以前的架构更能有效地扩展,transformer使构建比以前存在的大几个数量级的模型不仅成为了可能,而且是不可避免。
如此弘大的模型相应地须要弘大的打算能力。

但是transformer的算力本钱有一个更详细的缘故原由:transformer的架构与序列长度成二次方关系。
大略地说,这意味着当transformer处理的序列长度(例如,段落中的单词数量或图像的大小)增加给天命量时,所需的算力就会按该数量的平方增加,从而迅速变得巨大。

这种按照平方放大的缩放是有直不雅观缘故原由的,也是transformer设计的固有特点。

回忆一下,Attention使理解单词之间的关系成为可能,而不管它们在序列中相距多远。
它是如何做到这一点的呢?通过将序列中的每个单词与该序列中的每个其他单词进行比较。
这种两两比较的结果是,随着序列长度的增加,所需的打算步骤数量将呈二次方增长,而不是线性增长。
举个详细的例子,将序列长度从32个词组增加一倍到64个词组,transformer的打算本钱就不仅仅是增加了一倍,而是增加了四倍。

这种二次方缩放导致了一个干系的缺陷:transformer很难处理很长的序列。

随着序列长度的增长,将它们送入transformer终极会变得棘手,由于内存和打算需求会以二次方的速率激增。
例如,想一想整本教科书(包含数百万个词元)或全体基因组(包含数十亿个词元)的处理。

增加模型一次可以输入的最大序列长度,即所谓的模型的“高下文窗口”,是当本年夜型措辞模型研究的一个生动领域。
GPT-4模型的高下文窗口的容量是8000个词元。
几个月前,OpenAI发布了一个增强版的GPT-4,拥有可容纳32,000个词元的高下文窗口。
OpenAI的竞争对手Anthropic随后加大了赌注,最近宣告推出了一个新模型,其高下文窗口可以容纳10万个词元。

毫无疑问,这场武备竞赛还将连续下去。
然而,如果OpenAI、Anthropic或任何其他公司坚持利用transformer架构,那么它们制作模型高下文窗口的能力都是有限的。

人们已经做出了各种考试测验,来构建transformer的改进版本,它们仍旧利用Attention,但能更好地处理长序列。
然而,这些被修正过的transformer架构——如Longformer、Reformer、Performer、Linformer和Big bird——常日会捐躯性能,因此未能得到广泛运用。

王位的寻衅者

这就把我们带进了可能是当今研究领域最丰富的领域,即努力创造transformer的替代品。
这一研究流派的辅导原则是用一种亚二次方扩展的新函数来取代Attention。
亚二次方缩放将开启新的AI模型,这些模型(1)打算密集度更低,(2)与transformer比较,能够更好地处理长序列。
当然,寻衅在于,在实现这一目标的同时,还要与transformer的整体性能相匹配。

2021年,斯坦福大学的克里斯·雷(Chris Ré)实验室的一项名为S4的研究为这一研究路子奠定了根本。
随后,基于 S4 的一系列前景看好的亚二次方架构相继问世。

S4家族中最有趣的新架构之一是Hyena,几个月前由包括克里斯·雷本人和约书亚·本吉奥在内的强大团队发布。

为了代替Attention,Hyena利用了其余两个操作:长卷积和矩阵逐元素乘法。

卷积是机器学习领域最古老的方法之一,最早是由Yann LeCun在20世纪80年代提出的。
Hyena在这个古老的架构上的新做法是根据序列长度拉伸和改变卷积过滤器的大小,以提高打算效率。

Hyena的初步结果令人欣喜。
对付非Attention措辞模型而言,该模型达到了最新的性能水平。
在某些情形下,它可以与transformer的性能相媲美,同时大大减少了打算量。
主要的是,随着序列长度的增加,Hyena相对付transformer的效率提高会变得更加显著,这凸显了它们在超长输入中的上风:在8000个词元序列长度下,Hyena运算符的速率是Attention的两倍,而在64000个词元长度下,Hyena运算符的速率是Attention的100倍。

正如Hyena的作者所说:“冲破二次方的障碍是迈向深度学习新可能性的关键一步,例如利用整本教科书作为高下文,天生长篇音乐或处理千兆像素级别的图像。

至少带着一丝嘲讽,作者补充道:“我们在亚十亿参数尺度上取得的可喜成果表明,Attention 可能不是我们所须要的全部。

Hyena架构的一个引人瞩目的早期运用是HyenaDNA,这是斯坦福大学推出的一种新的基因组学根本模型。
利用 Hyena 处理长序列的卓越能力,HyenaDNA 拥有高达 100 万个词元的高下文窗口。
人类基因组是现存最长(更不用说最主要)的数据集之一:每个人的DNA包含32亿个核苷酸。
这使得它成为像 Hyena 这样善于捕捉长间隔依赖关系的模型架构的空想用例。

HyenaDNA的作者为这项技能未来的发展供应了一个诱人的暗示:“想象一下,能够用全体人类基因组来向ChatGPT提问——问一些关于可能的疾病的问题,预测药物反应,或者根据你的特定遗传密码辅导治疗方案,这不是很方便吗?”

这里须要把稳的一点是,Hyena最初的事情是在相对较小的规模上开展的。
最大的Hyena模型有13亿个参数,而GPT-3有1750亿个参数,GPT-4(传闻)有1.8万亿个参数。
Hyena架构的一个关键磨练是,当它的规模被放大到当今transformer模型的大小时,它是否能连续展示出强大的性能和效率提升。

该系列中的其他新型深度学习架构包括 Monarch Mixer(也来自斯坦福大学克里斯·雷的实验室)、BiGS(来自康奈尔大学和DeepMind)和 MEGA(来自 Meta)。

像Hyena一样,所有这些模型都具有亚二次方缩放特色,这意味着它们比transformer更具打算效率,更适宜处理长序列。
和Hyena一样,它们都很有出息,但尚未得到证明:它们中是否有任何一种能够在当今transformer模型运行的规模下保持强劲的性能,还有待不雅观察。

退一步说,打算效率和远程依赖关系并不是新架构旨在改进的transformer的唯二两个弱点。

Transformer模型的另一个限定是它们不能持续学习。
本日的transformer模型有静态参数。
当一个模型被演习时,它的权重(神经元之间连接的强度)是被设置好的;这些权重不会根据模型在现实天下中支配时碰着的新信息进行更新。

另一个常被提及的限定是transformer缺少可阐明性。
基于transformer的模型都是“黑匣子”:它们的内部运作过于繁芜和不透明,以至于人类无法准确理解它们的行为办法。
对付安全关键型或高度受监管的运用(如医疗保健领域)来说,这可能是一个真正的问题。

液体神经网络(Liquid neural networks)是另一个试图寻衅transformer的热门AI新架构,它声称可以办理这两个缺陷。

由拉明·哈桑尼(Ramin Hasani)和丹妮拉·鲁斯(Daniela Rus)领导的研究小组在麻省理工学院创建了液体神经网络,其灵感来自生物学,特殊是奇丽隐杆线虫(Caenorhabditis elegans)的大脑的事情办法。
其名称中的“液体”指的是这样一个事实,即模型的权重是概任性的,而不是恒定的,因此可以根据模型所打仗的输入而变革。

液体神经网络也好比今的transformer模型小得多。
在最近的一次观点验证中,麻省理工学院的团队建立了一个自动驾驶汽车系统,该系统仅用19个神经元和253个参数就能成功地在公共道路上行驶。

“每个人都在评论辩论扩大他们的网络,”哈桑尼说。
“我们却希望缩小规模,拥有更少但更丰富的节点。

除了打算效率之外,这种更小的架构意味着液体神经网络比transformer更透明,更易于人类阅读。
毕竟,对付人类不雅观察者来说,解读一个拥有253个连接的网络中发生的事情,要比解读一个拥有 1750 亿个连接的网络中发生的事情更加切实可行。

鲁斯是天下领先的机器人专家之一,而液体神经网络彷佛也特殊适宜机器人运用,包括自动驾驶汽车和无人机。
它们只能处理韶光序列数据(即具有韶光维度的数据),这意味着它们不能运用于图像或其他静态数据模式。

值得一提的还有为打造“transformer之后的东西”所做的末了一项努力。
《你须要的只是Attention》这篇论文的八位合著者之一的利昂·琼斯最近离开了谷歌,与前Stability AI)研究主管大卫·哈(David Ha)一起创办了一家名为Sakana AI的新公司。

Sakana的任务是用一种基于进化事理的自然启示的智能方法来改进transformer。
团队愿景的关键是集体或群体智能的观点,即由许多小模型组成的系统协同行动,而不是一个单一的模型。

“学习永久是赢家,”琼斯说。
“人工智能的历史反响了这样一个现实,即让一个模型自己学习一些东西总是比人工设计它更好。
深度学习革命本身便是一个例子,毕竟我们已经从手工构建特色检测器进化到让神经网络学习自己的特色。
这将成为我们Sakana AI的核心理念,我们将从自然中汲取包括进化在内的想法来探索这个领域。

迢遥的地平线

必须要说,Transformer是一个非常强大的AI架构。

它已经成为当代人工智能的根本。
险些所有前辈的AI系统都是基于transformer;每个人工智能研究职员都已经习气于利用transformer。
在过去几年里,成千上万的研究职员在彼此的事情根本上对transformer进行了优化。

这为它们供应了强大的在位上风,使其难以被取代。

然而,在聚光灯和人工智能炒作的覆信室之外,开拓下一代人工智能架构的事情正在风起云涌地进行,这些架构在不同方面都优于transformer。

虽然这些事情仍处于早期阶段,尚未得到证明,这些新架构是否能成功取代transformer也还远未确定,但如果他们做到了,对人工智能天下的影响将是巨大的。

在transformer时期之前,不同的AI架构在不同的用例中各自占主导地位:递归神经网络用于措辞领域,卷积神经网络用于打算机视觉领域,强化学习用于游戏领域,等等。

近年来,随着transformer在一个又一个领域证明了自己是最前辈的,从措辞到视觉到机器人再到生物学,人工智能方法论的逐步统一令人瞩目。

然而,这种走向统一的趋势——“一个人工智能架构来统治所有的人工智能”的趋势——并不会无限期地持续下去。

可以想象,未来会涌现另一种情形:随着未来几年人工智能研究前沿的发展,新的架构会被开拓出来,并被证明它们更适宜特定领域。
举例来说,大概transformer在措辞处理领域仍将霸占主导地位,但新型架构很快就会取代transformer,成为机器人领域的最前辈架构。

又或许,一种新的人工智能方法会被开拓出来,它的性能会超越transformer,并迅速取而代之。

只有一件事是肯定的:本日的人工智能领域发展如此之快,如此充满活力,以至于我们该当预见到变革会来得快到让人不舒畅。
我们不应该把任何事情视作天经地义,而该当为未来所带来的惊喜做好准备。

本文作者是风投契构Radical Ventures的合资人,也是福布斯撰稿人,文章内容仅代表作者本人不雅观点。
译自https://www.forbes.com/sites/robtoews/2023/09/03/transformers-revolutionized-ai-what-will-replace-them/?sh=580627fe9c1f