苹果智能由多个高性能的天生式模型组成,专为用户的日常任务而设计,并能根据当前活动即时适应。
内置到苹果智能的根本模型已经由微调,适用于诸如撰写和优化文本、对关照进行优先级排序和总结、为与家人和朋友的对话创建有趣的图像,以及在运用内采纳行动以简化跨运用的交互等用户体验。

Apple Intelligence:具体拆解苹果AI背后的大年夜模型架构_模子_苹果 云服务

Apple Intelligence 紧张由 3 部分组成:

苹果端侧大模型(Apple On-Device),拥有约 30 亿参数,其在 iPhone 15 Pro 上的处理速率达到每秒天生 30 个 token.初始相应延迟仅为大约 0.6 毫秒。
苹果自研云端大模型(private cloud compute)私密云打算,从苹果官方发布的测评结果看,苹果云端模型的处理能力与 GPT-3.5 相称。
Chat GPT 等外部大模型(调用优先级排在苹果自研模型之后),算力足够情形下依赖于终端更繁芜的场景则利用私密云打算或 Chat GPT。

Apple Intelligence 将在 AI 领域中制订新的隐私标准,并在其产品中供应以个人高下文为核心的 AI 运用和架构体系。
先让我们来学习一下官方发布的架构图:

架构图中旁边分为设备端(On-device)和做事端(Apple silicon servers)

1. 根本层(Apple Silicon)

CPU 和 GPU:此架构只有在配备神经处理单元 (NPU) 的最新一代设备上才有可能实现。
苹果于在 2020 年推出了第一款苹果芯片,标志着其开始摆脱英特尔芯片。
苹果的定制芯片基于 Arm,与 iPhone 和 iPad 中利用的 A 系列芯片类似,这使得它们与早期 Mac 中利用的英特尔芯片明显不同。
经由三年的韶光,苹果公司在 2023 年推出了 Apple Silicon Mac Pro,完成了向 Apple Silicon 的过渡。
最近发布的 M4 芯片拥有迄今为止最强大的神经引擎,能够实现惊人的每秒 38 万亿次运算 (TOPS)。

Neural Engine(神经引擎):第一代 Apple 神经引擎 (ANE) 作为苹果 2017 年旗舰机型 iPhone X 中 A11 芯片的一部分发布。
它在半精度浮点数据格式下的峰值吞吐量为 0.6 万亿次浮点运算 (TFlops) (float16 或 FP16),并且它有效地支持设备上的 ML 功能,例如 Face ID 和 Memoji。
到 2021 年时,第五代 16 核 ANE 的处理能力是原来的 26 倍,即 15.8 TFlops。
自 2017 年以来,ANE 的利用量一贯在稳步增长,从少数 Apple 运用程序发展到来自 Apple 和开拓者社区的浩瀚运用程序。
2022 上,Apple 推出了 Transformer 架构的开源参考 PyTorch 实现,为环球开拓者供应了一种在 Apple 设备上无缝支配最前辈 Transformer 模型的方法。

此实现专门针对 Apple 神经引擎 (ANE) 进行了优化,这是一种节能且高吞吐量的引擎,用于在 Apple 芯片上进行 ML 推理。
它将帮助开拓职员最大限度地减少 ML 推理事情负载对运用内存、运用相应能力和设备电池寿命的影响。
增加设备上机器学习支配的采取也将有利于用户隐私,由于推理事情负载的数据保留在设备上,而不是做事器上。

Secure Enclave(安全飞地):是集成到 Apple 片上系统 (SoC) 中的专用安全子系统。
Secure Enclave 与主处理器隔离,以供应额外的安全层,纵然在运用程序处理器内核受到危害时,也能确保敏感用户数据的安全。

Secure Enclave 在设备 DRAM 内存的专用区域运行。
多层保护将安全区域保护的内存与运用程序处理器隔离。
当设备启动时,安全区域勾引 ROM 会为内存保护引擎天生随机临时内存保护密钥。
每当安全隔离区写入其专用内存区域时,内存保护引擎都会在 Mac XEX (xor-encrypt-xor) 模式下利用 AES 加密内存块,并为该内存块打算基于密码的身份验证代码 (CMAC) 身份验证标记。
影象。
内存保护引擎将身份验证标签与加密内存一起存储。
当安全区域读取内存时,内存保护引擎会验证身份验证标签。
如果身份验证标签匹配,内存保护引擎就会解密该内存块。
如果标签不匹配,内存保护引擎会向安全区域发出错误旗子暗记。
发生内存身份验证缺点后,Secure Enclave 将停滞接管要求,直到系统重新启动。

2. 个人智能系统(Personal Intelligence System)

Semantic Index 语义索引:类似于矢量数据库处理,不同的运用程序中提取数据放到这个语义索引中。
语义索引意味着您的所有私人内容(、电子邮件、照片、***、日历事宜、屏幕高下文等)都会被处理并可以通过 AI 模型进行查询。

App Intents Toolbox 意图工具箱:供应了将运用程序的操作和内容与跨平台的系统体验深度集成的功能,包括 Siri、Spotlight、小部件、控件等。
手机上所有运用程序供应的功能或工具的列表,以及使其事情所需的其他内容,通过此工具苹果的运用程序可以向所有人开放。

Private Cloud Compute OS 私密云打算操作系统:确保用户数据仅用于知足要求,并且确保不会被任何人存储或访问。
支持端到端加密连接,手机连接到私密云集群的插图强调了对安全通信的关注,个中提示和相应是端到端加密的。
采取稠浊处理方法,设备上和做事器模型的组合提出了一种稠浊方法,个中基本处理可以在本地完成,以提高速率和效率,而更繁芜的任务则卸载到私密云。
相称于在云端存了个私人保险箱,包括数据和 AI 打算。

Private Cloud extension:私密云打算通过许可访问更大的打算资源来实行更繁芜的任务,同时保护用户隐私来扩展此功能。
必要时,私密云打算会将要求定向到 Apple 做事器,仅发送干系数据进行处理,而不存储数据。

ML Stack 机器学习栈:这一层表示苹果用来处理和剖析数据的机器学习框架或工具。

Orchestration 编排器:当代理运行时,Orchestration 接管到用户要求后,将其分解为操作并实行。
既适用于天生式的 AI 任务,通过 Agent 进行大量操作,也适用于利用 Siri 来调度的多步骤的代理任务。

大模型:个中一个参数量为 3B,可以直接在手机等终端设备上运行(On-device models);另一个是更大的措辞模型(Server models),虽然没有明确参数量,性能可以与 GPT-4 对标。
该模型可通过私密云打算得到,并在 Apple 的做事器上运行。
在人类满意度方面:On-Device 模型的择要天生能力强于同类模型 Phi-3-mini;真实天下提示方面:On-Device 模型性能强于 Gemma-7B,而 Server 大模型性能强于 GPT-3.5-Turbo,略逊于 GPT-4-Turbo;输出危害方面:On-Device 和 Server 比现有的模型都安全的多,这也符合苹果公司一向谨慎行事的风格;指令遵照方面 (IFEval):Apple On-Device 模型的能力都较为领先,Server 大模型在指令集精度和提示词准确度方面,略逊于 GPT-4-Turbo;写作能力方面:两个模型天生的结果优于其他模型。

3. 运用和体验(Apps and experience)

体验层代表了 Siri,写尴尬刁难象和图片天生工具等将各种 App 的根本运用能力和集成能力.我们将详细先容个中两个模型是如何实现的——一个约 30 亿参数的设备上措辞模型,以及一个更大的运行在 Apple做事器上的措辞模型私有云打算,已经被构建并调度为高效、准确和负任务地实行特界说务。
这两个根本模型是苹果为支持用户和开拓职员而创建的更大天生模型家族的一部分;这包括一个将智能构建到 Xcode 中的编码模型,以及一个帮助用户在视觉上表达自己的扩散模型,例如在 Messages 运用程序中。
我们期待着很快就这一更广泛的模型共享更多信息。

1. 负任务的 AI 原则(Our Focus on Responsible AI Development)

Apple Intelligence 的设计每一步都表示了苹果的核心代价不雅观,即以保护用户隐私为宗旨。
此外,苹果还创建了一套负任务的 AI 原则来辅导他们开拓产品:

为用户供应智能工具(Empower users with intelligent tools):苹果致力于识别 AI 可以负任务地利用来办理特定用户需求的领域,并尊重用户选择如何利用这些工具来实现他们的目标。
代表用户(Represent our users):苹果旨在构建深度个性化的产品,真实地代表环球用户。
公司持续努力避免在其 AI 工具和模型中延续刻板印象和系统性偏见。
谨慎设计(Design with care):在设计、模型演习、功能开拓和质量评估的每个阶段,苹果都会采纳预防方法,以识别 AI 工具可能被滥用或导致潜在侵害的办法。
公司将借助用户反馈,持续主动改进 AI 工具。
保护隐私(Protect privacy):苹果通过强大的设备端处理能力和像 Private Cloud Compute 这样的根本举动步伐创新来保护用户的隐私。
在演习根本模型时,苹果不会利用用户的私人个人数据或用户交互数据。

这些原则表示在 Apple Intelligence 的全体架构中,将功能和工具与专用模型连接起来,并扫描输入和输出,为每个功能供应负任务地运行所需的信息。

2. 预演习(Pre-Training)

苹果利用了一个名为AXLearn的开源框架进行模型演习,该框架在 2023 年发布。
AXLearn 基于 JAX 和 XLA,许可苹果在各种演习硬件和云平台上高效、可扩展地演习模型,包括 TPU 以及云端和本地的 GPU。
苹果采取了数据并行、张量并行、序列并行以及完备分片数据并行(Fully Sharded Data Parallel,FSDP)等技能来扩展演习,这些技能可以在数据、模型和序列长度等多个维度上进行扩展。

苹果的演习数据包括授权数据和公开可用的数据,后者由苹果的网络爬虫 AppleBot 网络。
网站发布者可以选择退出,不将其网络内容用于苹果智能演习的数据利用掌握。

苹果明确表示,在演习根本模型时,不会利用用户的私人个人数据或用户交互数据。
同时,苹果会对数据进行过滤,以去除可能公开在互联网上的个人信息,如社会安全号码和信用卡号码。
此外,还会过滤掉脏话和其他低质量内容,以防止它们被包含在演习语料库中。
除了过滤,苹果还进行数据提取、去重,并运用基于模型的分类器来识别高质量的文档。

3.后演习(Post-Training)

苹果认为数据质量对付模型的成功至关主要。
因此,他们在演习流程中采取了稠浊数据策略,结合了人工标注数据和合成数据。
稠浊数据策略意味着苹果不仅仅依赖于人工标注的数据,也利用了合成数据。
人工标注数据常日更加准确和可靠,而合成数据可以供应更大规模的数据集,有助于模型学习。

苹果进行了彻底的数据管理和过滤程序,以确保数据的质量和干系性。
这可能包括去除缺点标注的数据、过滤掉不干系或低质量的数据等。

谢绝采样微调算法:这种算法利用了一个西席委员会(teacher committee)来进行谢绝采样微调。
西席委员会可能由多个模型或专家组成,它们共同决定哪些样本该当被用于进一步的演习。
基于人类反馈的强化学习算法(RLHF):这种算法结合了镜像低落(mirror descent)策略优化和一个留一法(leave-one-out)上风估计器。
这种方法许可模型通过人类反馈来学习,从而提高其遵照指令的能力。

苹果创造这两种算法显著提高了模型遵照指令的质量。
这意味着模型在理解和实行用户指令方面变得更加准确和有效。

4. 优化(Optimization)

除了确保天生模型具有高度能力外,苹果还利用了一系列创新技能来优化它们,以提高速率和效率。
无论是在设备上还是在做事器上,苹果都运用了分组查询把稳力(grouped-query-attention)技能。
这有助于提高模型的效率。
苹果利用共享的输入和输出词汇嵌入表来减少内存需求和推理本钱。
这些共享的嵌入张量在映射时没有重复。
设备上的模型利用 49K 的词汇量,而做事器模型利用 100K 的词汇量,后者包括了额外的措辞和技能标记。

为了知足必要的内存、功耗和性能哀求,苹果在设备上推理时利用了低比特调色板化(low-bitpalletization),这是一种关键的优化技能。

同时,为了保持模型质量,苹果开拓了一种新的框架,利用 LoRA(Low-RankAdaptation)适配器,结合了 2 位和 4 位配置策略,均匀达到 3.5 位每权重,以实现与未压缩模型相同的准确性。

此外,苹果利用交互式模型延迟和功耗剖析工具Talaria,以更好地辅导每个操作的比特率选择。
苹果还利用了激活量化和嵌入量化技能,并开拓了一种方法,以在神经引擎上高效更新键值(Key-Value,KV)缓存。

通过这一系列的优化,苹果在 iPhone15 Pro 上能够达到每个提示 token 约 0.6 毫秒的首次 token 延迟,以及每秒 30 个 token 的天生速率。
值得把稳的是,这种性能是在没有利用标记预测技能之前实现的,而利用这些技能后,token 天生速率会进一步提高。

5. 模型适配(Model Adaptation)

苹果的根本模型针对用户的日常生活活动进行了微调,意味着模型能够更好地理解和响运用户在日常生活中的需求。
模型能够即时(on-the-fly)针对当前任务进行自我专业化,模型能够根据当前任务的需求快速调度自己的行为和相应。

苹果利用适配器(adapters),这是一种小型的神经网络模块,可以插入到预演习模型的不同层中,用于针对特界说务进行微调。
适配器技能许可苹果只对把稳力矩阵、把稳力投影矩阵以及变换器架构解码层的逐点前馈网络中的全连接层进行微调。
通过仅微调适配器层,原始的预演习模型参数保持不变。
这样做的好处是保留了模型的通用知识,同时通过适配器层来支持特界说务。
这种方法供应了灵巧性和效率,由于它许可模型在不重新演习全体网络的情形下,快速适应新任务。
这减少了打算资源的需求,并加快了模型适应新任务的速率。

适配器的参数值利用 16 位(16bits)来表示,这种表示方法有助于在保持参数精度的同时减少所需的存储空间。
对付大约有 30 亿参数的设备上模型,一个 16 位适配器的参数常日须要几十兆字节(10s of megabytes)的存储空间。

适配器模型可以被动态加载到内存中,临时缓存,并在须要时进行交流。
这种机制使得根本模型能够即时针对当前任务进行专业化,同时高效地管理内存。
通过这种办法,苹果确保了操作系统的相应性,纵然在模型进行自我专业化的过程中,用户界面和系统操作也能保持流畅。

为了便于适配器的演习,苹果创建了一个高效的根本举动步伐,许可他们快速地重新演习、测试和支配适配器,无论是根本模型更新还是演习数据更新。
适配器的参数利用在“优化”部分先容的准确度规复适配器(accuracy-recovery adapter)进行初始化。
这有助于在适配器演习过程中快速规复模型的准确性。
通过这种根本举动步伐,苹果能够快速迭代适配器,以适应不断变革的任务需求和数据环境。

6、效果评估(Performance and Evaluation)

苹果专注于供应能够让用户在苹果产品上进行沟通、事情、表达自己和完成任务的天生模型。
在模型的基准测试中,他们侧重于人类评估,由于他们创造这些结果与产品中的用户体验高度干系。

6.1 评估项目一:择要功能

为了评估产品特定的择要功能,苹果利用了针对每种用例精心采样的 750 个 response。
这些评估数据集强调了产品功能在生产中可能碰着的多样化输入,并包括了不同内容类型和长度的单一和堆叠文档的分层稠浊。
苹果创造,在超过 99% 的目标对抗性示例中,择要适配器并没有放大敏感内容。

解释:两种择要运用处景下“精良”与“不佳”反馈占比,依据评价者在五个标准上的打分划分。
只有当所有维度均达到高分标准时才被视为“精良”,有任何一项指标得分偏低即被标记为“不佳”。
结果表明,苹果的适配器增强模型在择要天生上更胜一筹。

6.2 评估项目二:通用能力

除了评估由根本模型和适配器驱动的特性特定性能外,苹果还评估了设备端和做事器端模型的通用能力。
苹果利用了一套全面的、针对真实天下提示的评估集来测试模型的通用能力。
这些提示在难度上各不相同,并涵盖了多个紧张种别,包括头脑风暴、分类、封闭式问题回答、编码、提取、数学推理、开放式问题回答、重写、安全性、择要和写作。

苹果将其模型与开源模型(如 Phi-3、Gemma、Mistral、DBRX)以及大小相称的商业模型(如 GPT-3.5-Turbo、GPT-4-Turbo)进行了比较。
在这些比较中,苹果创造其模型在大多数情形下比竞争对手的模型更受人类评估者的偏好。
在基准测试中,苹果的设备端模型(约有 30 亿参数)的表现超过了更大的模型,包括 Phi-3-mini、Mistral-7B 和 Gemma-7B。
苹果的做事器模型在效率上与 DBRX-Instruct、Mixtral-8x22B 和 GPT-3.5-Turbo 比较具有上风,同时在性能上也表现良好。

苹果强调了效率的主要性,纵然在做事器模型中,也追求高效率,苹果的模型能够在保持较小规模的同时,供应与更大模型相媲美或更好的性能。

解释:这块苹果很突出,纵然参数量仅为约 30 亿的设备端模型,在多项基准测试中也能超越 Phi-3-mini、Mistral-7B 和 Gemma-7B 等大模型。
而云端模型的表现更是优于 DBRX-Instruct、Mixtral-8x22B 及 GPT-3.5-Turbo,同时保持着极高的效率。

苹果利用了一系列多样化的对抗性提示(adversarial prompts)来测试模型。
这些提示旨在寻衅模型,以检测其在面对可能的恶意输入或边缘情形时的性能,这些测试的目的是评估模型在处理有害内容、敏感话题和确保输出的事实性方面的能力。

苹果通过人类评估者来衡量每个模型在这些对抗性提示上的违规率(violationrates),评估结果中违规率较低的模型被认为是更优的。

苹果的设备端和做事器端模型在面对对抗性提示时表现出了鲁棒性(robustness),即它们能够有效地抵抗这些寻衅,保持较低的违规率。
苹果的模型在这些测试中的表现优于开源和商业模型。

解释:在有害内容、敏感话题及事实准确性方面的违规相应占比,数值越小意味着模型越能妥善应对对抗性寻衅。
苹果的模型在这方面展现出了显著的鲁棒性。
人类评审员同等认为,相较于竞争对手,苹果的模型在安全性与实用性上更胜一筹。
只管如此,鉴于大措辞模型的广泛潜力,研究团队深知当前安全评估的局限。
因此,苹果正与内外部团队密切互助,通过手动及自动化手段持续进行安全审计,以期不断提升模型的安全水平。

6.3 评估项目三:模型安全性

苹果的模型在人类评估者中被认为比竞争对手的模型更安全、更有帮助。
只管苹果的模型在安全性方面得到了人类评估者的青睐,但苹果也认识到,对付大型措辞模型的广泛能力来说,目前的安全基准测试存在局限性。
为了战胜这些限定,苹果正在积极地进行手动和自动的红队测试(red-teaming)。
红队测试是一种仿照攻击者行为的安全测试方法,旨在创造和评估系统的潜在弱点。

解释:上面这张测评描述了安全导向评估场景下,苹果根本模型相对其他可比模型在得到偏好评价方面的占比。
通过人类审核确认,苹果模型的回应不仅更安全,且实用性更强。

6.4 评估项目四:指令实行能力

为进一步验证性能,苹果借助 Instruction-Following Eval(IFEval)标准,与同等级别模型比拟指令实行能力。
这是衡量模型理解和实行繁芜任务指令的关键指标。
评估结果显示,无论是设备端模型还是做事器端模型,苹果的模型在遵照详细指令方面都优于相似大小的开源和商业模型。

解释:利用 IFEval 丈量的苹果根本模型和大小相称的模型的指令遵照能力(越高越好)。

苹果利用内部的择要和写作基准测试来评估其模型的写作能力。
这些基准测试包含了多种写作指令,以全面评估模型在不同写作任务上的表现。

解释:上面这张图反响了在上述内部评估体系下,模型的写作能力水平(同样遵照高分优原则)

在 WWDC24 上先容的苹果根本模型和适配器构成了 Apple Intelligence 的根本,全新的个人智能系统,深度集成到 iPhone、iPad 和 Mac 中,并在措辞、图像、动作和个人高下文中供应了强大的功能。
有助于用户在苹果产品上完成日常活动,并在每个阶段以苹果的核心代价为辅导保护用户数据安全与隐私。