谷歌成最大年夜赢家!为了让苹果手机用上AI库克居然向对手垂头_英伟_模子
这两天,Apple Intelligence 的上线成为了最大的科技新闻之一。
虽然比较 1 个多月前公布的完全版 Apple Intelligence,苹果 iOS 18.1 beta 1 中引入的 Apple Intelligence 功能并不完全,Image Playground、Genmoji、优先关照、具有屏幕感知功能的 Siri 和 ChatGPT 集成……这些统统都还没有。
但总的来说,苹果还是带来了 Writing Tools(写尴尬刁难象)、通话录音(含转录)以及全新设计的 Siri。
个中,Writing Tools 支持重写、专业化、简单等功能,可以用于谈天、发朋友圈、小红书条记以及文本写作等场景;通话录音不仅可以记录通话,还能自动转录成文本,方便用户回顾。
此外,Siri 也得到了「升级」,可惜目前还仅限于设计,包括全新的「跑马灯」殊效以及键盘输入支持。
但引人瞩目的是,苹果在一篇名为《Apple Intelligence Foundation Language Models》的论文中表露,苹果并没有采取常见的英伟达 H100 等 GPU,而是选了「老对手」谷歌的 TPU,演习 Apple Intelligence 的根本模型。
图/苹果
用谷歌 TPU,炼成 Apple Intelligence
众所周知,Apple Intelligence 统共分成三层:一层是运行在苹果设备本地的端侧 AI,一层是基于「私有云打算」技能运行在苹果自有数据中央的云端 AI。按照供应链传出的,苹果将通过大量制造 M2 Ultra 来构建自有数据中央。
此外还有一层,则是接入第三方云端大模型,比如 GPT-4o 等。
不过这是推理端,苹果是如何演习出自己的 AI 模型,一贯是行业内关注的焦点之一。而从苹果官方的论文来看,苹果是在 TPUv4 和 TPUv5p 集群的硬件上演习了两个根本模型:
一个是参数规模达到 3 亿的设备端模型 AFM-on-device,利用 2048 块 TPU v5p 演习而成,本地运行在苹果设备上;一个是参数规模更大的做事器端模型 AFM-server,利用 8192 块 TPU v4 芯片演习,终极运行在苹果自有数据中央里。
图/苹果
这就奇怪了,毕竟我们都知道,英伟达 H100 等 GPU 才是目前演习 AI 的主流选择,乃至会有「AI 演习只用 Nvidia GPU」的说法。
与之相对,谷歌的 TPU 就显得有些「名不见经传」。
但事实上,谷歌的 TPU 是专为机器学习和深度学习任务设计的加速器,能够供应卓越的性能上风。凭借其高效的打算能力和低延迟的网络连接,谷歌的 TPU 在处理大型模型演习任务时表现出色。
例如,TPU v4 就能供应了每个芯片高达 275 TFLOPS 的峰值算力,并通过超高速互连将 4096 个 TPUv4 芯片连接成一个大规模的 TPU 超算,从而实现算力规模的倍增。
而且不仅是苹果,其他大模型公司也采取了谷歌的 TPU 来演习他们的大型模型。Anthropic 公司的 Claude 便是一个范例的例子。
谈天机器人竞技场排行,图/LMSYS
Claude 如今可以说是 OpenAI GPT 模型最强大的竞争对手,在 LMSYS 谈天机器人竞技场上,Claude 3.5 Sonnet 与 GPT-4o 始终是「卧龙凤雏」(褒义)。而据表露,Anthropic 一贯没有购买英伟达 GPU 来搭建超算,便是利用 Google Cloud 上 TPU 集群来演习和推理。
去年底,Anthropic 还官宣率先利用 Google Cloud 上的 TPU v5e 集群来演习 Claude。
Anthropic 的长期利用,以及 Claude 表现出来的效果,都充分展示了谷歌 TPU 在 AI 演习中的高效性和可靠性。
此外,谷歌的 Gemini 也是完备依赖于自研的 TPU 芯片进行演习。Gemini 模型旨在推进自然措辞处理和天生技能的前沿,其演习过程须要处理大量的文本数据,并进行繁芜的模型打算。
而 TPU 的强大打算能力和高效的分布式演习架构,使得 Gemini 能够在相对较短的韶光内完成演习,并在性能上取得显著打破 。
但如果说 Gemini 尚可理解,那从 Anthropic 到苹果又为什么选择谷歌 TPU,而不是英伟达 GPU?
TPU 和 GPU,谷歌和英伟达的暗战
在本周一举办的打算机图形学顶级会议 SIGGRAPH 2024 上,英伟达创始人兼 CEO 黄仁勋透露,本周英伟达就将发送 Blackwell 架构的样品,这是英伟达最新一代的 GPU 架构。
2024 年 3 月 18 日,英伟达 GTC 大会上发布了其最新一代 GPU 架构——Blackwell,以及最新一代 B200 GPU。在性能上,B200 GPU 在 FP8 及新的 FP6 上可以达到 20 petaflops(每秒千万亿次浮点运算)的算力,使其在处理繁芜 AI 模型时表现出色。
Blackwell 发布的两个月后,谷歌也发布了其第六代 TPU(Trillium TPU),每块芯片在 BF16 下可以供应靠近 1000 TFLOPS(每秒万亿次)的峰值算力,谷歌也将其评价为「迄今为止性能最高、最节能的 TPU」。
图/谷歌
比拟谷歌的 Trillium TPU,英伟达 Blackwell GPU 在高带宽内存(HBM3)和 CUDA 生态系统的支持下,在高性能打算中仍旧有着一定的上风。在单个别系中,Blackwell可以并行连接多达 576 个 GPU,实现强大的算力和灵巧的扩展性。
比较之下,谷歌的 Trillium TPU 则看重在大规模分布式演习中的高效性和低延迟。TPU 的设计使其能够在大规模模型演习中保持高效,并通过超高速网络互连减少通信延迟,从而提高整体打算效率。
而不仅是在最新一代的 AI 芯片上,谷歌与英伟达之间的「暗战」实际已经存在了 8 年,从 2016 年谷歌自研 AI 芯片 TPU 就开始。
到本日,英伟达的 H100 GPU 是目前主流市场上最受欢迎的 AI 芯片,不仅供应了高达 80GB 的高带宽内存,还支持 HBM3 内存,并通过 NVLink 互连实现多 GPU 的高效通信。基于 Tensor Core 技能,H100 GPU 在深度学习和推理任务中具有极高的打算效率。
但同时,TPUv5e 在性价比上具有显著上风,特殊适宜中小规模模型的演习。TPUv5e 的上风在于其强大的分布式打算能力和优化的能耗比,使其在处理大规模数据时表现出色。此外,TPUv5e 还通过谷歌云平台供应,便于用户进行灵巧的云端演习和支配。
谷歌数据中央,图/谷歌
整体来说,英伟达和谷歌在 AI 芯片上的策略各有侧重:英伟达通过供应强大的算力和广泛的开拓者支持,推动 AI 模型的性能极限;而谷歌则通过高效的分布式打算架构,提升大规模 AI 模型演习的效率。这两种不同的路径选择,使得它们在各自的运用领域中都展现出了独特的上风。
不过更主要的是,能打败英伟达的,也只有采取软硬件协同设计谋略,同时拥有强大的芯片能力和软件能力的对手。
谷歌便是这样一个对手。
英伟达霸权的最强寻衅者
Blackwell 是继 Hopper 之后英伟达的又一重大升级,具有强大的打算能力,专为大规模措辞模型(LLM)和天生式 AI 而设计。
据先容,B200 GPU 采取了台积电 N4P 工艺制造,拥有多达 2080 亿个晶体管,由两块 GPU 芯片采取互连技能「组成」,并且配备了高达 192GB 的 HBM3e(高带宽内存),带宽可达 8TB/s。
而在性能上,谷歌的 Trillium TPU 比较上一代 TPU v5e 在 BF16 下提升了 4.7 倍,HBM 容量和带宽、芯片互连带宽也都翻了一番。此外,Trillium TPU 还配备了第三代 SparseCore,可以加速演习新一代根本模型,延迟更低,本钱也更低。
Trillium TPU 特殊适宜大规模措辞模型和推举系统的演习,可以扩展出数百个 集,通过每秒 PB 级别的网络互连技能连接恒河沙数的芯片,实现另一种层面的超级「打算机」,大幅提升打算效率和减少网络延迟。
图/谷歌
从今年下半年开始,Google Cloud 用户就能率先采取这款芯片。
总的来说,谷歌 TPU 的硬件上风在于其高效的算力和低延迟的分布式演习架构。这使得 TPU 在大规模措辞模型和推举系统的演习中表现出色。然而,谷歌 TPU 的上风还在于独立于 CUDA 之外另一个完全的生态,以及更深度的垂直整合。
通过 Google Cloud 平台,用户可以灵巧地在云端进行演习和支配。这种云端做事模式不仅减少了企业在硬件上的投入,还提高了 AI 模型的演习效率。Google、 Cloud 还供应了一系列支持 AI 开拓的工具和做事,如 TensorFlow 和 Jupyter Notebook,使开拓者能够更加便捷地进行模型演习和测试。
苹果用上的谷歌 TPU v5p,图/谷歌
谷歌的 AI 生态系统中还包含了多种开拓工具和框架,如 TensorFlow,这是一个广泛利用的开源机器学习框架,能够充分利用 TPU 的硬件加速功能。谷歌还供应了其他支持 AI 开拓的工具,如 TPU Estimator 和 Keras,这些工具的无缝集成大大简化了开拓流程。
此外,谷歌的上风还在于:谷歌自己便是对 TPU 算力需求最大的客户。从 YouTube 海量视频内容的处理,到 Gemini 的每一次演习和推理,TPU 早就融入谷歌的业务体系之中,也知足了谷歌的巨量算力需求。
可以说,谷歌的垂直整合远比英伟达来得彻底,险些完备节制了从模型演习到运用,再到用户体验的关键节点,这实际也给了谷歌更大的可能,可以根据技能和市场趋势从底层开始优化效率。
以是只管在芯片的性能指标上,Trillium TPU 依然难以和 Blackwell GPU 相反抗,然而详细到大模型的演习上,谷歌仍能通过系统性地优化效率,比肩乃至超越英伟达 CUDA 生态。
在 Google Cloud 用 TPU,是苹果最好的选择
简言之,谷歌 TPU 集群性能、本钱和生态的上风,使其成为大规模 AI 模型演习的空想选择。反过来,在 Google Cloud 用 TPU 也是苹果现阶段最好的选择。
基于 TPU v4 的超算,苹果也用到了。图/谷歌
一方面是性能和本钱。TPU 在处理大规模分布式演习任务时表现出色,供应高效、低延迟的打算能力,知足苹果在 AI 模型演习中的需求。而通过利用 Google Cloud 平台,苹果可以降落硬件本钱,灵巧调度打算资源,优化 AI 开拓的总体本钱。
另一方面是生态。谷歌的 AI 开拓生态系统也供应了丰富的工具和支持,使得苹果能够更高效地开拓和支配其 AI 模型,再加上 Google Cloud 的强大根本举动步伐和技能支持也为苹果的 AI 项目供应了坚实的保障。
今年 3 月,曾经任职于英伟达、IBM 和谷歌的 Sumit Gupta 加入了苹果,领导云根本举动步伐。根据宣布,Sumit Gupta 于 2021 年加入谷歌的 AI 根本举动步伐团队,并终极成为了谷歌 TPU、自研 Arm CPU 等根本举动步伐的产品经理。
Sumit Gupta 比苹果内部绝大部分人都更理解谷歌 TPU的上风所在。
2024上半年,科技圈风起云涌。
大模型加速落地,AI手机、AI PC、AI家电、AI搜索、AI电商……AI运用层出不穷;
Vision Pro开售并上岸中国市场,再掀XR空间打算浪潮;
HarmonyOS NEXT正式发布,移动OS生态生变;
汽车全面进入“下半场”,智能化成头等大事;
电商竞争日益剧烈,卷低价更卷做事;
出海浪潮风起云涌,中国品牌迈上环球化征程;
……
7月流火,雷科技·年中回顾专题上线,总结科技家当2024上半年值得记录的品牌、技能和产品,记录过去、展望未来,敬请关注。
本文系作者个人观点,不代表本站立场,转载请注明出处!