CPU正在被 AI 时代抛弃?_模子_英特尔
在法院、律所等业务场景中,状师通过大模型对海量历史案例进行整理调查,并锁定出拟定法律文件中可能存在的漏洞;
……
以上场景中的大模型运用,险些都有一个共同的特点——受行业属性限定,在运用大模型时,除了对算力的高哀求,AI 演习过程中常常涌现的坏卡问题也是这些行业不许可涌现的。同时,为确保做事效率和隐私安全,他们一样平常须要将模型支配在本地,且非常看重硬件等根本举动步伐层的稳定性和可靠性。一个中等参数或者轻量参数的模型,加上精调就可以知足他们的场景需求。
而在大模型技能落地过程中,上述需求实在不在少数,基于 CPU 的推理方案无疑是一种更具性价比的选择。不仅能够知足其业务需求,还能有效掌握本钱、担保系统的稳定性和数据的安全性。但这也就愈发让我们好奇,作为通用做事器,CPU 在 AI 时期可以发挥若何的上风?其背后的技能事理又是什么?
1AI 时期,CPU 是否已被被边缘化?
提起 AI 演习和 AI 推理,大家普遍会想到 GPU 更善于处理大量并行任务,在实行打算密集型任务时表现地更出色,却忽略了 CPU 在这个中的代价。
AI 技能的不断演进——从深度神经网络(DNN)到 Transformer 大模型,对硬件的哀求产生了显著变革。CPU 不仅没有被边缘化,反而持续升级以适应这些变革,并做出了主要改变。
AI 大模型也不是只有推理和演习的单一任务,还包括数据预处理、模型演习、推理和后处理等,全体过程中须要非常多软硬件及系统的合营。在 GPU 兴起并广泛运用于 AI 领域之前,CPU 就已经作为实行 AI 推理任务的紧张硬件在被广泛利用。其作为通用途理器发挥着非常大的浸染,全体系统的调度、任何负载的高效运行都离不开它的协同优化。
此外,CPU 的单核性能非常强大,可以处理繁芜的打算任务,其核心数量也在不断增加,而且 CPU 的内存容量远大于 GPU 的显存容量,这些上风使得 CPU 能够有效运行天生式大模型任务。经由优化的大模型可以在 CPU 上高效实行,特殊是当模型非常大,须要跨异构平台打算时,利用 CPU 反而能供应更快的速率和更高的效率。
而 AI 推理过程中两个主要阶段的需求,即在预添补阶段,须要高算力的矩阵乘法运算部件;在解码阶段,尤其是小批量要求时,须要更高的内存访问带宽。这些需求 CPU 都可以很好地知足。
以英特尔举例,从 2017 年第一代至强® 可扩展处理器开始就利用英特尔® AVX-512 技能的矢量运算能力进行 AI 加速上的考试测验;再接着第二代至强® 中导入深度学习加速技能(DL Boost);第三代到第五代至强® 的演进中,从 BF16 的增长再到英特尔® AMX 的入驻,可以说英特尔一贯在充分利用 CPU 资源加速 AI 的道路上深耕。
在英特尔® AMX 大幅提升矩阵打算能力外,第五代至强® 可扩展处理器还增加了每个时钟周期的指令,有效提升了内存带宽与速率,并通过 PCIe 5.0 实现了更高的 PCIe 带宽提升。在几个时钟的周期内,一条微指令就可以把一个 16×16 的矩阵打算一次性打算出来。其余,至强® 可扩展处理器可支持 High Bandwidth Memory (HBM) 内存,和 DDR5 比较,其具有更多的访存通道和更长的读取位宽。虽然 HBM 的容量相对较小,但足以支撑大多数的大模型推理任务。
可以明确的是,AI 技能的演进还远未停滞,当前以花费大量算力为条件的模型构造也可能会发生改变,但 CPU 作为打算机系统的核心,其代价始终是难以被替代的。
同时,AI 运用的需求是多样化的,不同的运用处景须要不同的打算资源和优化策略。因此比起相互替代,CPU 和其他加速器之间的互补关系才是它们在 AI 市场中共同发展的长久之道。
2与其算力焦虑,不如关注效价比
随着人工智能技能在各个领域的广泛运用,AI 推理成为了推动技能进步的关键成分。然而,随着通用大模型参数和 Token 数量不断增加,模型单次推理所需的算力也在持续增加,企业的算力焦虑迎面而来。与其关注无法短韶光达到的算力规模,不如聚焦在“效价比”,即综合考量大模型演习和推理过程中所需软硬件的经济投入本钱、利用效果和产品性能。
CPU 不仅是企业办理 AI 算力焦虑过程中的主要选项,更是企业追求“效价比”的优选。在大模型技能落地的“效价比”探索层面上,百度智能云和英特尔也不谋而合。
百度智能云千帆大模型平台(下文简称“千帆大模型平台”)作为一个面向开拓者和企业的人工智能做事平台,供应了丰富的大模型,对大模型的推理及支配做事优化积攒了很多作为开拓平台的履历,他们创造,CPU 的 AI 算力潜力将有助于提升 CPU 云做事器的资源利用率,能够知足用户快速支配 LLM 模型的需求,同时还创造了许多很适宜 CPU 的利用场景:
SFT 长尾模型:每个模型的调用相对稀疏,CPU 的灵巧性和通用性得以充分发挥,能够轻松管理和调度这些模型,确保每个模型在须要时都能快速相应。小于 10b 的小参数规模大模型:由于模型规模相对较小,CPU 能够供应足够的打算能力,同时保持较低的能耗和本钱。对首 Token 时延不敏感,更看重整体吞吐的离线批量推理场景:这类场景常日哀求系统能够高效处理大量的数据,而 CPU 的强大打算能力和高吞吐量特性可以很好地知足哀求,能够确保推理任务的快速完成。英特尔的测试数据也验证了千帆大模型平台团队的创造,其通过测试证明,单台双路 CPU 做事器完备可以轻松胜任几 B 到几十 B 参数的大模型推理任务,Token 天生延时完备能够达到数十毫秒的业务需求指标,而针对更大规模参数的模型,例如常用的 Llama 2-70B,CPU 同样可以通过分布式推理办法来支持。此外,批量处理任务在 CPU 集群的闲时进行,忙时可以处理其他任务,而无需掩护代价高昂的 GPU 集群,这将极大节省企业的经济本钱。
也正是出于在“CPU 上跑 AI”的共识,双方展开了业务上的深度互助。百度智能云千帆大模型平台采⽤基于英特尔® AMX 加速器和大模型推理软件办理方案 xFasterTransformer (xFT),进⼀步加速英特尔® 至强® 可扩展处理器的 LLM 推理速率。
3将 CPU 在 AI 方面的潜能发挥到极致
为了充分发挥 CPU 在 AI 推理方面的极限潜能,须要从两个方面进行技能探索——硬件层面的升级和软件层面的优化适配。
千帆大模型平台采取 xFT,紧张进行了以下三方面的优化:
系统层面:利用英特尔® AMX/AVX512 等硬件特性,高效快速地完成矩阵 / 向量打算;优化实现针对超长高下文和输出的 Flash Attention/Flash Decoding 等核心算子,降落数据类型转换和数据重排布等开销;统一内存分配管理,降落推理任务的内存占用。算法层面:在精度知足任务需求的条件下,供应多种针对网络激活层以及模型权重的低精度和量化方法,大幅度降落访存数据量的同时,充分发挥出英特尔® AMX 等加速部件对 BF16/INT8 等低精度数据打算的打算能力。多节点并行:支持张量并行(Tensor Parallelism)等对模型权重进行切分的并行推理支配。利用异构凑集通信的办法提高通信效率,进一步降落 70b 规模及以上 LLM 推理时延,提高较大批处理要求的吞吐。第五代至强® 可扩展处理器能在 AI 推理上能够取得如此亮眼的效果,同样离不开软件层面的优化适配。为理解决 CPU 推理性能问题,这就不得不提 xFT 开源推理框架了。
xFT 底层适用英特尔 AI 软件栈,包括 oneDNN、oneMKL、IG、oneCCL 等高性能库。用户可以调用和组装这些高性能库,形成大模型推理的关键算子,并大略组合算子来支持 Llama、文心一言等大模型。同时,xFT 最上层供应 C++ 和 Python 两套便利接口,很随意马虎集成到现有框架或做事后端。
xFT 采取了多种优化策略来提升推理效率,个中包括张量并行和流水线并行技能,这两种技能能够显著提高并行处理的能力。通过高性能领悟算子和前辈的量化技能,其在保持精度的同时提高推理速率。此外,通过低精度量化和稀疏化技能,xFT 有效地降落了对内存带宽的需求,在推理速率和准确度之间取得平衡,支持多种数据类型来实现模型推理和支配,包括单一精度和稠浊精度,可充分利用 CPU 的打算资源和带宽资源来提高 LLM 的推理速率。
其余值得一提的是,xFT 通过“算子领悟”、“最小化数据拷贝”、“重排操作”和“内存重复利用”等手段来进一步优化 LLM 的实现,这些优化策略能够最大限度地减少内存占用、提高缓存命中率并提升整体性能。通过仔细剖析 LLM 的事情流程并减少不必要的打算开销,该引擎进一步提高了数据重用度和打算效率,特殊是在处理 Attention 机制时,针对不同长度的序列采纳了不同的优化算法来确保最高的访存效率。
目前,英特尔的大模型加速方案 xFT 已经成功集成到千帆大模型平台中,这项互助使得在千帆大模型平台上支配的多个开源大模型能够在英特尔至强® 可扩展处理器上得到最优的推理性能:
在线做事支配:用户可以利用千帆大模型平台的 CPU 资源在线支配多个开源大模型做事,这些做事不仅为客户运用供应了强大的大模型支持,还能够用于千帆大模型平台 prompt 优化工程等干系任务场景。高性能推理:借助英特尔® 至强® 可扩展处理器和 xFT 推理解决方案,千帆大模型平台能够实现大幅提升的推理性能。这包括降落推理时延,提高做事相应速率,以及增强模型的整体吞吐能力。定制化支配:千帆大模型平台供应了灵巧的支配选项,许可用户根据详细业务需求选择最适宜的硬件资源配置,从而优化大模型在实际运用中的表现和效果。4写在末了
对付千帆大模型平台来说,英特尔帮助其办理了客户在大模型运用过程中对打算资源的需求,进一步提升了大模型的性能和效率,让用户以更低的本钱获取高质量的大模型做事。
大模型生态要想持续不断地往前演进,无疑要靠一个个实打实的小业务落地把全体生态构建起来,英特尔联合千帆大模型平台正是在帮助企业以最少的本钱落地大模型运用,让他们在探索大模型运用时找到了更具效价比的选项。
未来,双方操持在更高性能的至强® 产品支持、软件优化、更多模型支持以及重点客户联合支持等方面展开深入互助。旨在提升大模型运行效率和性能,为千帆大模型平台供应更完善的软件支持,确保用户能及时利用最新的技能成果,从而加速大模型生态持续向前。
本文系作者个人观点,不代表本站立场,转载请注明出处!