这两天,Apple Intelligence 的上线成为了最大的科技新闻之一。

谷歌成最大年夜赢家!为了让苹果手机用上AI库克居然向对手垂头_英伟_模子 计算机

虽然比较 1 个多月前公布的完全版 Apple Intelligence,苹果 iOS 18.1 beta 1 中引入的 Apple Intelligence 功能并不完全,Image Playground、Genmoji、优先关照、具有屏幕感知功能的 Siri 和 ChatGPT 集成……这些统统都还没有。

但总的来说,苹果还是带来了 Writing Tools(写尴尬刁难象)、通话录音(含转录)以及全新设计的 Siri。

个中,Writing Tools 支持重写、专业化、简单等功能,可以用于谈天、发朋友圈、小红书条记以及文本写作等场景;通话录音不仅可以记录通话,还能自动转录成文本,方便用户回顾。

此外,Siri 也得到了「升级」,可惜目前还仅限于设计,包括全新的「跑马灯」殊效以及键盘输入支持。

但引人瞩目的是,苹果在一篇名为《Apple Intelligence Foundation Language Models》的论文中表露,苹果并没有采取常见的英伟达 H100 等 GPU,而是选了「老对手」谷歌的 TPU,演习 Apple Intelligence 的根本模型。

图/苹果

用谷歌 TPU,炼成 Apple Intelligence

众所周知,Apple Intelligence 统共分成三层:一层是运行在苹果设备本地的端侧 AI,一层是基于「私有云打算」技能运行在苹果自有数据中央的云端 AI。
按照供应链传出的,苹果将通过大量制造 M2 Ultra 来构建自有数据中央。

此外还有一层,则是接入第三方云端大模型,比如 GPT-4o 等。

不过这是推理端,苹果是如何演习出自己的 AI 模型,一贯是行业内关注的焦点之一。
而从苹果官方的论文来看,苹果是在 TPUv4 和 TPUv5p 集群的硬件上演习了两个根本模型:

一个是参数规模达到 3 亿的设备端模型 AFM-on-device,利用 2048 块 TPU v5p 演习而成,本地运行在苹果设备上;一个是参数规模更大的做事器端模型 AFM-server,利用 8192 块 TPU v4 芯片演习,终极运行在苹果自有数据中央里。

图/苹果

这就奇怪了,毕竟我们都知道,英伟达 H100 等 GPU 才是目前演习 AI 的主流选择,乃至会有「AI 演习只用 Nvidia GPU」的说法。

与之相对,谷歌的 TPU 就显得有些「名不见经传」。

但事实上,谷歌的 TPU 是专为机器学习和深度学习任务设计的加速器,能够供应卓越的性能上风。
凭借其高效的打算能力和低延迟的网络连接,谷歌的 TPU 在处理大型模型演习任务时表现出色。

例如,TPU v4 就能供应了每个芯片高达 275 TFLOPS 的峰值算力,并通过超高速互连将 4096 个 TPUv4 芯片连接成一个大规模的 TPU 超算,从而实现算力规模的倍增。

而且不仅是苹果,其他大模型公司也采取了谷歌的 TPU 来演习他们的大型模型。
Anthropic 公司的 Claude 便是一个范例的例子。

谈天机器人竞技场排行,图/LMSYS

Claude 如今可以说是 OpenAI GPT 模型最强大的竞争对手,在 LMSYS 谈天机器人竞技场上,Claude 3.5 Sonnet 与 GPT-4o 始终是「卧龙凤雏」(褒义)。
而据表露,Anthropic 一贯没有购买英伟达 GPU 来搭建超算,便是利用 Google Cloud 上 TPU 集群来演习和推理。

去年底,Anthropic 还官宣率先利用 Google Cloud 上的 TPU v5e 集群来演习 Claude。

Anthropic 的长期利用,以及 Claude 表现出来的效果,都充分展示了谷歌 TPU 在 AI 演习中的高效性和可靠性。

此外,谷歌的 Gemini 也是完备依赖于自研的 TPU 芯片进行演习。
Gemini 模型旨在推进自然措辞处理和天生技能的前沿,其演习过程须要处理大量的文本数据,并进行繁芜的模型打算。

而 TPU 的强大打算能力和高效的分布式演习架构,使得 Gemini 能够在相对较短的韶光内完成演习,并在性能上取得显著打破 。

但如果说 Gemini 尚可理解,那从 Anthropic 到苹果又为什么选择谷歌 TPU,而不是英伟达 GPU?

TPU 和 GPU,谷歌和英伟达的暗战

在本周一举办的打算机图形学顶级会议 SIGGRAPH 2024 上,英伟达创始人兼 CEO 黄仁勋透露,本周英伟达就将发送 Blackwell 架构的样品,这是英伟达最新一代的 GPU 架构。

2024 年 3 月 18 日,英伟达 GTC 大会上发布了其最新一代 GPU 架构——Blackwell,以及最新一代 B200 GPU。
在性能上,B200 GPU 在 FP8 及新的 FP6 上可以达到 20 petaflops(每秒千万亿次浮点运算)的算力,使其在处理繁芜 AI 模型时表现出色。

Blackwell 发布的两个月后,谷歌也发布了其第六代 TPU(Trillium TPU),每块芯片在 BF16 下可以供应靠近 1000 TFLOPS(每秒万亿次)的峰值算力,谷歌也将其评价为「迄今为止性能最高、最节能的 TPU」。

图/谷歌

比拟谷歌的 Trillium TPU,英伟达 Blackwell GPU 在高带宽内存(HBM3)和 CUDA 生态系统的支持下,在高性能打算中仍旧有着一定的上风。
在单个别系中,Blackwell可以并行连接多达 576 个 GPU,实现强大的算力和灵巧的扩展性。

比较之下,谷歌的 Trillium TPU 则看重在大规模分布式演习中的高效性和低延迟。
TPU 的设计使其能够在大规模模型演习中保持高效,并通过超高速网络互连减少通信延迟,从而提高整体打算效率。

而不仅是在最新一代的 AI 芯片上,谷歌与英伟达之间的「暗战」实际已经存在了 8 年,从 2016 年谷歌自研 AI 芯片 TPU 就开始。

到本日,英伟达的 H100 GPU 是目前主流市场上最受欢迎的 AI 芯片,不仅供应了高达 80GB 的高带宽内存,还支持 HBM3 内存,并通过 NVLink 互连实现多 GPU 的高效通信。
基于 Tensor Core 技能,H100 GPU 在深度学习和推理任务中具有极高的打算效率。

但同时,TPUv5e 在性价比上具有显著上风,特殊适宜中小规模模型的演习。
TPUv5e 的上风在于其强大的分布式打算能力和优化的能耗比,使其在处理大规模数据时表现出色。
此外,TPUv5e 还通过谷歌云平台供应,便于用户进行灵巧的云端演习和支配。

谷歌数据中央,图/谷歌

整体来说,英伟达和谷歌在 AI 芯片上的策略各有侧重:英伟达通过供应强大的算力和广泛的开拓者支持,推动 AI 模型的性能极限;而谷歌则通过高效的分布式打算架构,提升大规模 AI 模型演习的效率。
这两种不同的路径选择,使得它们在各自的运用领域中都展现出了独特的上风。

不过更主要的是,能打败英伟达的,也只有采取软硬件协同设计谋略,同时拥有强大的芯片能力和软件能力的对手。

谷歌便是这样一个对手。

英伟达霸权的最强寻衅者

Blackwell 是继 Hopper 之后英伟达的又一重大升级,具有强大的打算能力,专为大规模措辞模型(LLM)和天生式 AI 而设计。

据先容,B200 GPU 采取了台积电 N4P 工艺制造,拥有多达 2080 亿个晶体管,由两块 GPU 芯片采取互连技能「组成」,并且配备了高达 192GB 的 HBM3e(高带宽内存),带宽可达 8TB/s。

而在性能上,谷歌的 Trillium TPU 比较上一代 TPU v5e 在 BF16 下提升了 4.7 倍,HBM 容量和带宽、芯片互连带宽也都翻了一番。
此外,Trillium TPU 还配备了第三代 SparseCore,可以加速演习新一代根本模型,延迟更低,本钱也更低。

Trillium TPU 特殊适宜大规模措辞模型和推举系统的演习,可以扩展出数百个 集,通过每秒 PB 级别的网络互连技能连接恒河沙数的芯片,实现另一种层面的超级「打算机」,大幅提升打算效率和减少网络延迟。

图/谷歌

从今年下半年开始,Google Cloud 用户就能率先采取这款芯片。

总的来说,谷歌 TPU 的硬件上风在于其高效的算力和低延迟的分布式演习架构。
这使得 TPU 在大规模措辞模型和推举系统的演习中表现出色。
然而,谷歌 TPU 的上风还在于独立于 CUDA 之外另一个完全的生态,以及更深度的垂直整合。

通过 Google Cloud 平台,用户可以灵巧地在云端进行演习和支配。
这种云端做事模式不仅减少了企业在硬件上的投入,还提高了 AI 模型的演习效率。
Google、 Cloud 还供应了一系列支持 AI 开拓的工具和做事,如 TensorFlow 和 Jupyter Notebook,使开拓者能够更加便捷地进行模型演习和测试。

苹果用上的谷歌 TPU v5p,图/谷歌

谷歌的 AI 生态系统中还包含了多种开拓工具和框架,如 TensorFlow,这是一个广泛利用的开源机器学习框架,能够充分利用 TPU 的硬件加速功能。
谷歌还供应了其他支持 AI 开拓的工具,如 TPU Estimator 和 Keras,这些工具的无缝集成大大简化了开拓流程。

此外,谷歌的上风还在于:谷歌自己便是对 TPU 算力需求最大的客户。
从 YouTube 海量视频内容的处理,到 Gemini 的每一次演习和推理,TPU 早就融入谷歌的业务体系之中,也知足了谷歌的巨量算力需求。

可以说,谷歌的垂直整合远比英伟达来得彻底,险些完备节制了从模型演习到运用,再到用户体验的关键节点,这实际也给了谷歌更大的可能,可以根据技能和市场趋势从底层开始优化效率。

以是只管在芯片的性能指标上,Trillium TPU 依然难以和 Blackwell GPU 相反抗,然而详细到大模型的演习上,谷歌仍能通过系统性地优化效率,比肩乃至超越英伟达 CUDA 生态。

在 Google Cloud 用 TPU,是苹果最好的选择

简言之,谷歌 TPU 集群性能、本钱和生态的上风,使其成为大规模 AI 模型演习的空想选择。
反过来,在 Google Cloud 用 TPU 也是苹果现阶段最好的选择。

基于 TPU v4 的超算,苹果也用到了。
图/谷歌

一方面是性能和本钱。
TPU 在处理大规模分布式演习任务时表现出色,供应高效、低延迟的打算能力,知足苹果在 AI 模型演习中的需求。
而通过利用 Google Cloud 平台,苹果可以降落硬件本钱,灵巧调度打算资源,优化 AI 开拓的总体本钱。

另一方面是生态。
谷歌的 AI 开拓生态系统也供应了丰富的工具和支持,使得苹果能够更高效地开拓和支配其 AI 模型,再加上 Google Cloud 的强大根本举动步伐和技能支持也为苹果的 AI 项目供应了坚实的保障。

今年 3 月,曾经任职于英伟达、IBM 和谷歌的 Sumit Gupta 加入了苹果,领导云根本举动步伐。
根据宣布,Sumit Gupta 于 2021 年加入谷歌的 AI 根本举动步伐团队,并终极成为了谷歌 TPU、自研 Arm CPU 等根本举动步伐的产品经理。

Sumit Gupta 比苹果内部绝大部分人都更理解谷歌 TPU的上风所在。

2024上半年,科技圈风起云涌。

大模型加速落地,AI手机、AI PC、AI家电、AI搜索、AI电商……AI运用层出不穷;

Vision Pro开售并上岸中国市场,再掀XR空间打算浪潮;

HarmonyOS NEXT正式发布,移动OS生态生变;

汽车全面进入“下半场”,智能化成头等大事;

电商竞争日益剧烈,卷低价更卷做事;

出海浪潮风起云涌,中国品牌迈上环球化征程;

……

7月流火,雷科技·年中回顾专题上线,总结科技家当2024上半年值得记录的品牌、技能和产品,记录过去、展望未来,敬请关注。