归根结底,是由于英伟达在 AI 芯片市场霸占着近乎垄断的地位:强大性能的 GPU 产品如 A100 和 H100 芯片,是大模型演习上的“硬通货”;CUDA 软件生态也险些是英伟达的“护城河”。

寻衅英伟达!00 后哈佛辍学小哥研发史上最快 AI 芯片比 H100 快 20 倍_芯片_英伟 AI快讯

因此谁也没想到,敢对着市值超 3 万亿美元、拥有 2.8 万名员工、处于垄断地位的英伟达高调“下昼”的,会是一支由 3 名大学辍学生创立、目前仅 35 名员工、刚筹集了 1.2 亿美元的团队:Etched。

(图片来自Etched官网)

ChatGPT 问世前的一场“豪赌”

从网上资料来看,Etched 是由三位哈佛大学辍学生 Gavin Uberti、Robert Wachen 和 Chris Zhu 在 2022 年创立的。

最初,Gavin Uberti 和 Chris Zhu 在大学暑期演习时进入了一家芯片公司,打仗到底层硬件领域并为之吸引后,便决定从哈佛大学退学,又拉上了 Uberti 的大学室友 Robert Wachen,共同创立了 Etched 公司——据悉,当时 Gavin Uberti 正在攻读数学学士学位和打算机科学硕士学位。

(从左到右:Robert Wachen、Gavin Uberti 和 Chris Zhu)

Etched 初步成立后,三位 00 后创始人在 2022 年 6 月、ChatGPT 还未问世前就对 AI 进行了一场“豪赌”:“我们打赌,Transformer 将席卷环球。

基于这个设想,他们推测专用 ASIC 芯片(专为特定架构设计的 AI 芯片)是一种一定趋势。

事实上,当时的 AI 模型种类繁多,有用于自动驾驶汽车的 CNN、用于措辞的 RNN,还有用于天生图像和***的 U-Nets 等等。
而 Uberti 他们把稳到,Transformer(ChatGPT 中的“T”)是第一个可以扩展的模型。

现阶段看来,他们彷佛(暂时性)赌赢了:如今每一个最前辈的 AI 模型都基于 Transformer,包括 ChatGPT、Sora、Gemini、Stable Diffusion 3 等等。

GPU 遭遇瓶颈,唯一方法是 ASIC

如开头所说,在这场 AI 大模型的环球竞赛中,大多数企业都离不开 GPU,这也是英伟达能成功垄断市场的缘故原由之一。

然而,Etched 在博文中指出:这四年来,GPU 本身并没有多少提升,即芯片单位面积的打算能力(TFLOPS)变动不大,只是芯片面积变得更大了。

不论是英伟达的 B200、AMD 的 MI300,还是英特尔的 Gaudi 3 和亚马逊的 Trainium2,都是把两张芯片算作一张,以此实现所谓的“双倍”性能。

基于这个创造,Etched 确定了其发展路线:随着摩尔定律的放缓,提高芯片性能的唯一方法便是专业化——但在 ChatGPT 涌现之前,Etched 认定的这个方向险些没有市场。

当时,Transformer 还没风靡环球,许多公司都构建了灵巧的 AI 芯片和 GPU 来处理数百种不同的架构,例如英伟达的 GPUs、Amazon 的 Trainium、AMD 的加速器、Graphcore 的 IPUs、D-Matrix 的 Corsair 和英特尔的 Gaudi 等。

如此背景下,自然没人想要制造专为特定架构设计的 AI 芯片(ASIC):Transformer 的市场不大,而芯片项目的本钱为 5000 万至 1 亿美元,还须要数年韶光才能投入生产。

但溘然之间,ChatGPT 的环球爆火令情形发生了巨大变革:

(1)前所未有的需求:在 ChatGPT 之前,Transformer 推理的市场约为 5000 万美元,现在则已达数十亿美元。
所有大型科技公司都在利用 Transformer 模型(OpenAI、谷歌、亚马逊、微软、Meta 等)。

(2)架构逐渐趋同:AI 模型过去变革很大,但自 GPT-2 以来,最前辈的模型架构险些保持同等。
OpenAI 的 GPT 系列、谷歌的 PaLM、Meta 的 LLaMa、乃至特斯拉的 FSD 都是基于 Transformer。

Etched 联合创始人兼 CEO Gavin Uberti 表示:“当 ChatGPT 问世时,英伟达股票大涨,尤其是所有即将推出的 AI 模型都将成为 Transformer 时,我们才创造自己在精确的韶光涌如今了精确的地点。

诚然如他所说,当模型的演习本钱超过 10 亿美元,推理本钱超过 100 亿美元时,专用芯片便是不可避免的了:在这种规模下,只要有 1% 的性能改进,都能证明本钱为 5000 万至 1 亿美元的芯片项目是值得的。

环球第一款专为 Transformer 设计的专用芯片 Sohu

朝着这个方向,Etched 花了两年韶光,打造出了环球第一款专为 Transformer 设计的专用芯片,名为 Sohu,并于昨日正式官宣:认识一下 Sohu,这是史上最快的 AI 芯片。

据 Gavin Uberti 先容,Sohu 采取台积电的 4nm 工艺制造,只有 1 个核心,每张芯片配有 144GB HBM3E 高带宽内存,可供应比 GPU 和其他通用 AI 芯片更好的推理性能,且耗能更少、本钱更低。

为了更直不雅观地衡量 Sohu 的刁悍性能,Gavin Uberti 把英伟达作为参照:

在运行文本、图像和***转换器时,Sohu 的速率比英伟达下一代 Blackwell GB200 GPU 还要快一个数量级,且本钱更低;700 亿参数 Llama 3 吞吐量能达到每秒 50 万 tokens;一台 8xSohu 做事器可取代 160 个 H100 GPU……对付须要专用芯片的企业领导者来说,Sohu 将是一个更经济、更高效、更环保的选择。

而之以是 Sohu 能实现如此性能,正是由于它的“专用性”:无法运行大多数传统的 AI 模型,如为 Instagram 广告供应动力的 DLRMs、AlphaFold 2 等蛋白质折叠模型、Stable Diffusion 2 等较老的图像模型,也无法运行 CNN、RNN 或 LSTM——专为 Transformer 设计,只能运行 Transformer。

基于这个特点,作为 ASIC 芯片的 Sohu 在设计之初就直接摒弃了与 Transformer 无关的硬件组件,极大简化推理硬件和软件管道,以此最大程度地提高性能。

Etched 在博文中提到,相较之下,通用 AI 芯片如英伟达的 H100,虽拥有 800 亿个晶体管,却只有 3.3% 用于矩阵乘法(大模型推理时最常见的运算):“这是英伟达和其他灵巧的 AI 芯片故意为之的设计决策。
如果你想支持所有类型的模型(CNN、LSTM、SSM 和其他),这种方案固然是最好的。

Gavin Uberti 指出:“我们无法运行 CNN、RNN、LSTM 和其他 AI 模型,但对付 Transformer 来说,Sohu 便是有史以来最快的芯片,乃至没有竞争对手。

Etched 能否打败英伟达?

对付能否打败英伟达这个问题,Etched 首席运营官 Robert Wachen 的回应如下:

“过去,AI 打算市场是分散的,人们利用不同种类的模型,如 CNN、DLRM、LSTM、RNN 和其他数十种跨领域的模型,每种架构的花费都在数千万到数亿美元之间,通用芯片(GPU)有着弘大的市场;但现在,市场正在迅速整合为一种架构:Transformer,那么专用芯片便是大势所趋。

我们的芯片在大多数事情负载上都无法击败 GPU,由于 Sohu 无法支持它们。
但是,对付Transformer 专用芯片来说,我们将会霸占这个市场。

除此之外,Thiel Fellowship 主任 Alex Handy 也在一份声明中表示:“投资 Etched 是对 AI 代价的计策押注。
他们的芯片办理了竞争对手害怕办理的可扩展性问题,也寻衅了同行中普遍存在的性能结束不前的征象。

目前来看,Etched 受到业界的广泛关注和许多支持,但正如 Gavin Uberti 所说,这场豪赌还没有结束:“如果未来 Transformer 消逝或被取代了,我们就会去世;但如果他连续存在,我们就会是有史以来最大的公司。

参考链接:

https://www.etched.com/announcing-etched

https://x.com/Etched/status/1805625693113663834

https://venturebeat.com/ai/etched-raises-120m-in-challenge-to-nvidia-in-ai-with-transformer-chips/

由 CSDN 和 Boolan 联合主理的「2024 环球软件研发技能大会(SDCon)」将于 7 月 4 -5 日在北京威斯汀酒店举行。

由天下著名软件架构大师、云原生和微做事领域技能先驱 Chris Richardson 和 MIT 打算机与 AI 实验室(CSAIL)副主任,ACM Fellow Daniel Jackson 领衔,BAT、微软、字节跳动、小米等技能专家将齐聚一堂,共同磋商软件开拓的最前沿趋势与技能实践。