什么是边缘 AI 推理?

什么是边缘 AI 推理为什么它对企业很重要?_边沿_模子 智能助手

在我们专门研究边缘的 AI 推理之前,有必要理解一下 AI 推理的一样平常含义。
在 AI/ML 开拓生命周期中,推理是指经由演习的 ML 模型对以前看不见的新数据实行任务,例如进行预测或天生内容。
当终极用户直接与嵌入在运用程序中的 ML 模型交互时,就会发生 AI 推理。
例如,当用户向 ChatGPT 输入提示并得到相应时,ChatGPT “思考”的韶光便是推理发生的韶光,输出是该推理的结果。

边缘 AI 推理是 AI 推理的一个子集,个中 ML 模型在靠近终极用户的做事器上运行;例如,在同一地区乃至同一城市。
这种靠近性将延迟减少到毫秒级,从而加快模型相应速率,这有利于图像识别、敲诈检测或游戏舆图天生等实时运用。

边缘 AI 推理与边缘 AI 的关系

边缘 AI 推理是边缘 AI 的一个子集。
边缘 AI 涉及处理数据并在更靠近数据源而不是在云中运行 ML 模型。
边缘 AI 包括与边缘 AI 打算干系的统统,从边缘做事器(城域边缘)到物联网设备和电信基站(远端)。
边缘 AI 还包括边缘演习,而不仅仅是推理。
在本文中,我们将重点先容边缘做事器上的 AI 推理。

边缘推理与云推理的比较

通过云 AI 推理,您可以在远程云做事器上运行 ML 模型,并在云中发送和处理用户数据。
在这种情形下,终极用户可能会与来自不同地区、国家乃至大陆的模型进行交互。
因此,云推理延迟的范围从数百毫秒到几秒不等。
这种类型的 AI 推理适用于不须要本地数据处理或低延迟的运用程序,例如 ChatGPT、DALL-E 和其他盛行的 GenAI 工具。
边缘推理在两个干系方面有所不同:

推理发生在离终极用户更近的地方

边缘 AI 推理的事情事理:边缘的 AI 推理依赖于具有两个紧张架构组件的 IT 根本举动步伐:低延迟网络和由 AI 芯片驱动的做事器。
如果您须要能够处理负载峰值的可扩展 AI 推理,您还须要容器编排做事,例如 Kubernetes;这在边缘做事器上运行,使 ML 模型能够快速自动地纵向扩展和缩减。
如今,只有少数供应商拥有在边缘供应知足这些哀求的环球 AI 推理的根本举动步伐。

低延迟网络:在边缘供应 AI 推理的供应商应具有做事器所在的边缘接入点 (PoP) 分布式网络。
边缘 PoP 越多,网络来回韶光就越快,这意味着终极用户的 ML 模型相应速率更快。
供应商该当在环球拥有数十个乃至数百个 PoP,并应供应智能路由,将用户要求路由到最近的边缘做事器,以高效和有效地利用环球分布式网络。

具有 AI 加速器的做事器:为了减少打算韶光,您须要在由 AI 加速器(如 NVIDIA GPU)供应支持的做事器或虚拟机上运行 ML 模型。
有专为 AI 推理而设计的 GPU。
例如,最新型号之一 NVIDIA L40S 的推理性能比 A5 和 H100 GPU 快 100 倍,后者紧张用于演习大型 ML 模型,但也用于推理。
NVIDIA L40S GPU 是目前实行 AI 推理的最佳 AI 加速器。

容器编排:在容器中支配 ML 模型使模型具有可伸缩性和可移植性。
供应商可以代表您管理根本容器业务流程工具。
在该设置中,希望将模型集成到运用程序中的 ML 工程师只需上传带有 ML 模型的容器映像,即可得到现成的 ML 模型闭幕点。
当负载峰值发生时,具有 ML 模型的容器将自动纵向扩展,然后在负载消退时缩减。

边缘 AI 推理的紧张上风

边缘 AI 推理为各行各业或用例供应了三个关键上风:低延迟、安全性和主权以及本钱效益。

低延迟:网络延迟越低,模型的相应速率就越快。
如果供应商的均匀网络延迟低于 50 毫秒,则适用于大多数须要近乎即时相应的运用。
比较之下,云延迟可能高达几百毫秒,详细取决于您相对付云做事器的位置。
对付终极用户来说,这是一个明显的差异,云延迟可能会导致挫败感,由于终极用户须要等待他们的 AI 相应。
请记住,低延迟网络仅考虑数据的传输韶光。
50 毫秒的网络延迟并不虞味着用户会在 50 毫秒内得到 AI 输出;您须要添加 ML 模型实行推理所需的韶光。
ML 模型的处理韶光取决于所利用的模型,并且可能占终极用户的大部分处理韶光。
因此,我们更须要确保利用低延迟网络,以便在 ML 模型开拓职员连续提高模型推理速率的同时,您的用户可以得到最佳相应韶光。

安全与主权:将数据保留在边缘(即用户本地)可以简化对当地法律法规的遵守,例如 GDPR 及其其他国家/地区的等效法规。
边缘推理供应商应设置其推理根本举动步伐以遵守当地法律,以确保您和您的用户得到适当的保护。

边缘推理还提高了终极用户数据的机密性和隐私性,由于它是在本地处理的,而不是发送到远程云做事器。
这减少了攻击面,并将传输过程中数据透露的风险降至最低。

本钱效益:常日,供应商仅对 ML 模型利用的打算资源收费。
这与精心配置的自动缩放和模型实行操持一起,可以显著降落推理本钱。
谁该当在边缘利用 AI 推理?

以下是一些常见场景,个中边缘推理是最佳选择:低延迟对运用程序和用户至关主要。
从面部识别到交易剖析,各种实时运用都须要低延迟。
边缘推理供应最低延迟的推理选项。
您的用户群分布在多个地理位置。
在这种情形下,您须要为所有用户供应相同的用户体验(即相同的低延迟),无论他们身在何处。
这须要一个环球分布式的边缘网络。
您不想处理根本构造掩护。
如果支持云和 AI 根本架构不是您核心业务的一部分,那么将这些流程委托给履历丰富的专家互助伙伴可能是值得的。
然后,您可以将资源集中在开拓运用程序上。
您希望将数据保留在本地,例如,在天生数据的国家/地区内。
在这种情形下,您须要在尽可能靠近终极用户的地方实行 AI 推理。
环球分布式边缘网络可以知足这一需求,而云不太可能供应所需的分布范围。

哪些行业受益于边缘的 AI 推理?边缘 AI 推理使任何利用 AI/ML 的行业受益,尤其是那些开拓实时运用程序的行业。
在技能领域,这将包括天生式人工智能运用程序、谈天机器人和虚拟助手、数据增强和软件工程师的人工智能工具。
在游戏中,它将是 AI 内容和舆图天生、实时玩家剖析以及实时 AI 机器人定制和对话。
对付零售市场,范例的运用是智能杂货店,具有自助结账和发卖、虚拟试妆以及内容天生、预测和推举功能。
在制造业中,其上风在于生产流程中的实时毛病检测、VR/VX 运用程序和快速相应反馈,而在媒体和娱乐行业,则包括内容剖析、实时翻译和自动转录。
开拓实时运用的另一个领域是汽车,特殊是自动驾驶汽车的快速相应、车辆个性化、高等驾驶赞助和实时交通更新。

结论

对付希望支配实时运用程序的组织来说,边缘的 AI 推理是其根本举动步伐的主要组成部分。
它显著降落了延迟,确保了超快的相应韶光。
对付终极用户来说,这意味着无缝、更具吸引力的体验,无论是玩在线游戏、利用谈天机器人,还是通过虚拟试妆做事在线购物。
增强的数据安全性意味着企业可以在保护用户数据的同时供应卓越的 AI 做事。
边缘 AI 推理是大规模支配 AI/ML 生产的关键推动成分,可推动浩瀚行业的 AI/ML 创新和效率。