人工智能芯片家当百家争鸣 谁将突围而出_人工智能_芯片
人工智能进入“大航海时期”
从深蓝到Alpha Go,人工智能逐渐走进人们的生活。人工智能也从一场技能革命,逐渐走向了家当落地。智好手机、智能家居设备、智能音箱……等设备,已经完备进入到人们的生活中。指纹识别、人脸识别、画面增强等实用人工智能的技能,也成为了人们日常利用电子设备必不可少的技能。
基于面部识别的emoji表情
这些在我们日常生活中“见怪不怪”的人工智能技能越来越普遍,代表了人工智能家当在近年来的爆炸式发展,2018年更是被称为人工智能技能规模运用的拐点。而作为人工智能技能的核心,人工智能芯片也备受关注,引得国内外科技巨子纷纭布局。谷歌、苹果、微软、Facebook、英特尔、高通、英伟达、AMD、阿里巴巴等巨子纷纭开始自主研发人工智能芯片。
国产寒武纪芯片
并且人工智能芯片的运用处景细分市场越来越多,专门为某些人工智能运用处景定制的芯片适用性明显高于通用芯片。这样的形势,给一些人工智能芯片的初创公司带来了机会。寒武纪芯片和地平线的人工智能视觉芯片、自动驾驶芯片等,便是初创公司在人工智能芯片领域取获胜利的代表。
人工智能芯片大火的同时,已经呈现出三分天下的态势。FPGA、GPU和TPU芯片,已经在人工智能领域大规模运用。这三种人工智能芯片有何不同?人工智能企业又是若何看待这三种芯片的?下文将为您详述。
FPGA并不是新鲜的事物,而由于AI的火热的运用需求不断增强,FPGA正是作为一种AI芯片呈现在人们的面前。准确的说,不仅仅是芯片,由于它能够通过软件的办法定义,以是,更像是AI芯片领域的变形金刚。
FPGA是现场可编程逻辑阵列的首字母缩写,即Field-Programmable Gate Array。过去曾与可编程逻辑器件CPLD进行过较劲,如今已经在PAL、GAL、CPLD等可程式逻辑装置的根本上进一步发展,成为英特尔进军AI市场的一个主要法宝。
环球FPGA市场的年均增长率会达到7%
为了更好地理解FPGA和其对AI芯片的未来意见,ZOL企业站对英特尔可编程办理方案奇迹部亚太区市场拓展经理刘斌(Robin Liu)进行了书面采访。面对目前市场上涌现的,CPU、GPU、FPGA、TPU等多种技能处理办法,英特尔又有哪些判断。
FPGA三大特点
刘斌表示:“实际上本日绝大多数人工智能系统是支配在通用途理器上的,缘故原由是在很多运用领域中人工智能部分只是完成某个环节的系统任务,还有大量其它任务一起构成系统处理的完全单元。”在此根本上,涌现了很多种选项,比如FPGA、TPU2或者NNP等专用途理器。这种专用途理器,每每向深度学习和神经网络领域延伸,拥有更高效的存储器访问调度构造。
FPGA具有很强的灵巧性
FPGA被称为大型数据中央和打算机群众的“加速多面手”也有其技能生态背景。FPGA的开拓社区规模相对较小,也具有一定的门槛,但是,FPGA具备良好的存储器访问能力,并且可以非常灵巧高效的处理各种不同位宽的数据类型,其有效打算力靠近专用途理器的水平,FPGA还可以在线重编程成为其它非人工智能任务的硬件加速器,这也是其有别于GPU和TPU的关键成分。
详细而言有三大特点:FPGA器件家族的广泛覆盖可以适配从云到真个运用需求;FPGA具有处理时延小并且时延可控的特点,更适宜某些实时性哀求高的业务场景;FPGA可以灵巧处理不同的数据位宽,使得系统可以在打算精度、打算力、本钱和功耗上进行折衷和优化,更适宜某些制约成分非常严格的工程化运用。比较于ASIC则FPGA更加灵巧,可以适配的市场领域更加广泛。
自定义功能芯片
以微软为例,在微软必应搜索业务和Azure云打算做事中,均运用了英特尔FPGA技能,在其发布的“脑波项目”(Project Brainwave)中特殊阐述了英特尔FPGA技能如何帮助Azure云和必应搜索取得“实时人工智能”(real-time AI)的效果。
英特尔 FPGA 支持必应快速处理网页中的数百万篇文章,从而为您供应基于高下文的答案。借助机器学习和阅读理解,必应 现在可供应智能答案,帮助用户更快速找到所需答案,而非手动点击各个链接结果。在微软脑波操持中,同样选择了英特尔现场可编程门阵列的打算晶片,以具有竞争力的本钱和业界最低延迟进行人工智能打算。
如果说在AI芯片领域各家有各家的拿手绝学,那么身为“变形金刚”FPGA的拿手绝学便是自定义功能了。作为分外运用积体电路领域中的一种半定制电路的FPGA,既办理了全定制电路的不敷,又战胜了原有可编程逻辑器件门电路数有限的缺陷。也便是说,只管FPGA不是辐射范围最广的,但是一旦匹配后,输出惊人,以是也是良好的芯片选择。
不止FPGA
随着人工智能的发展,芯片的设计不仅要能够知足人工智能对打算力的需求,还要能够适应不断变革的家当须要。在不同的运用领域和不同的位置,前端还是数据中央,乃至边缘打算等运用处景。刘斌表示:一种芯片是没办法办理所有问题的。从移动设备,到做事器,再到云做事、机器学习和人工智能的加速,须要不同种类的技能支持,须要能够支持从毫瓦级到千瓦级的多种架构。
在英特尔人工智能领域,除了FPGA之外,还供应了ASIC方案下的NNP神经网络打算加速器、Movidius专注前端智能摄像首领头子域和Mobieye加速芯片,在无人车领域做视觉干系的物体、道路、非常情形的监测。
过去30多年,摩尔定律险些每年都会推动微处理器的性能提升50%,而半导体的物理学限定却让其放慢了脚步。如今,CPU的性能每年只能提升10%旁边。事实上,英伟达CEO黄仁勋在每年的GTC上都会提到同一件事——摩尔定律失落灵了。也便是说,人们要得到更强的打算力,须要花费更多的本钱。与此同时,GPU的崛起速率令人咂舌,看看英伟达近两年的股价就知道了。
微处理器趋势图
随着人工智能、深度学习等技能的兴起与成熟,起初为图像渲染而生的GPU找到了新的用武之地,以GPU驱动的打算环境随处可见,从HPC到AI演习。站在数字天下、高性能打算、人工智能的交叉口,GPU悄然成为了打算机的大脑。将性能从10倍提升至100倍,GPU的加速能力远超以X86架构构建的CPU系统,将韶光压缩至分钟级别,功耗也相对较低。
2006年,借助CUDA(Compute Unified Device Architecture,通用打算架构)和Tesla GPU平台,英伟达将通用型打算带入了GPU并行处理时期,这也为其在HPC领域的运用奠定了根本。作为并行处理器,GPU善于处理大量相似的数据,可以将任务分解为数百或数千块同时处理,而传统CPU则是为串行任务所设计,在X86架构下进行多核编程是很困难的,并且从单核到四核、再到16核有时会导致边际性能增益。同时,内存带宽也会成为进一步提高性能的瓶颈。
传统CPU打算架构难以支撑快速发展的HPC
与以往的通用算法比较,深度学习对打算性能的哀求则到了另一个量级上。只管在GPU中运行并行核心时处理的运用数量相同,但在系统中单个内核的利用效率却更高。此外,经由重写的并行函数在运用程序关键部分运行时,在GPU上跑的速率更快。
更主要的是,英伟达在利用GPU构建演习环境时还考虑到了生态的主要性,这也是一贯以来困扰人工智能发展的难题。首先,英伟达的NVIDIA GPU Cloud上线了AWS、阿里云等云平台,触及到了更多云平台上的开拓者,预集成的高性能AI容器包括TensorFlow、PyTorch、MXNet等主流DL框架,降落了开拓门槛、确保了多平台的兼容性。
其次,英伟达也与研究机构、大学院校,以及向Facebook、YouTube这样的科技巨子互助,支配GPU做事器的数据中央。同时,还为环球数千家创业公司推出了Inception项目,除了供应技能和营销的支持,还会帮助这些公司在进入不同国家或地区的市场时,探求潜在的投资机会。
可以说,英伟达之于GPU领域的成功除了归功于Tesla加速器、NVIDIA DGX、NVIDIA HGX-2这些专属的事情站或云做事器平台,更依托于构建了完全的家当链通路,让新技能和产品对症下药,从而形成了自己的生态圈,这也是英特尔难以去冲破的。
在不久前举行的谷歌I/O 2018开拓者大会上,TPU3.0正式亮相。根据官方先容,TPU3.0的打算能力最高可达100PFlops,是TPU2.0的8倍多。TPU的英文全名是Tensor Processor Unit,它是谷歌自主研发的针对深度学习加速的专用人工智能芯片。TPU是专为谷歌深度学习框架TensorFlow设计的人工智能芯片。著名的AlphaGo利用的便是TPU2.0芯片。
谷歌TPU3.0芯片
目前大多数人工智能企业青睐于GPU芯片,而TPU相对付GPU而言,采取8位低精度打算节省晶体管,对精度影响很小但是却可以大幅节约功耗。尤其是昔时夜面积集成系统时,TPU不仅性能更强,功耗也会大幅低于GPU集成系统。由于芯片能力非常强大,谷歌利用了液冷散热技能,可以帮助TPU更好的为数据中央做事。
谷歌TPU架构
除了强大的性能外,谷歌在生态系统的培植上做了大量的事情。在TPU1.0和2.0的初期,谷歌并没有大规模推进其商业化,而是环绕生态做文章。这就意味着要投入巨额的本钱,而且冒着极大的市场风险。当然,背后的潜在市场也是巨大的。在人工智能市场竞争激烈的形势下,吸引到更多的开拓者到谷歌的生态系统中,将会比对手有更强的竞争上风。
TPU打算集群
目前谷歌正快速扩展自己的云打算业务,TPU也依托于云平台运行。通过更低的售价让人工智能开拓企业抛弃GPU,转投本钱更低的TPU做事,是谷歌目前正在大力发展的业务。如果TPU无法得到巨大的市场份额从而降落单颗TPU的本钱,那么谷歌将很难在人工智能市场盈利。不过,TPU强劲的打算性能和集群打算阵列可以让人工智能开拓企业更快的开展业务。TPU的强大,让谷歌在人工智能芯片领域已称霸一方。
上游厂商喊得再欢,落地到千人千面的行业场景中也要由办理方案商来帮忙,无论是GPU、FPGA还是TPU,终极还是要听听客户的利用感想熏染。为此,我们采访了人工智能产品和行业办理方案供应商旷视科技。旷视科技利用自主研发的深度学习算法引擎Brain++,做事于金融安全、城市安防、手机AR、商业物联、工业机器人等五大核心行业。
在旷视科技看来,GPU、FPGA、TPU在通用性和能效比之间的取舍不同。个中,GPU最成熟,但也最耗资源,常用于演习神经网络和做事端;FPGA最灵巧,能支持运用中涌现的分外操作,但要考虑灵巧度和效率之间的trade-off;TPU相对最不灵巧,但如果场景得当则能发挥出最大功用。
如果拿汽车类比,GPU是大巴车,适宜多人同目标;FPGA是小轿车,能到任何地方,但得自己会开;而TPU是火车,只能在比公路少的多的铁轨上开,但开的飞快。人工智能还在快速发展,还处于在各个行业落地的过程中。这个阶段对GPU,FPGA和TPU都有需求。
目前,旷视科技选择的是T型技能方案,即在坚持一定广度的同时,深耕某些运用处景,因此在算法实际落地的过程中,自然而然地产生了从GPU/CPU到FPGA的需求。GPU紧张用于演习,而FPGA能在端上能供应比GPU更好的性能功耗比。CPU则是无处不在的“默认\"大众选择。未来,不用除采取TPU的方案来进一步提高端上的能力。
从行业来看,当前IoT领域对AI芯片的需求最为急迫,缘故原由是IoT领域哀求在有限的功耗下完成相应的AI任务,最须要性能功耗比高的AI芯片。至于未来要借助AI赋能各个行业,旷视科技认为,最初阶段可能都会先用GPU的AI方案,由于和源头(即神经网络演习阶段)衔接最好。其余对付中央化的运用,只要GPU按现在的“黄定律”的速率迭代提高,基于GPU在大批量处理数据的场景下仍旧常常是公开可得的最佳方案。
本文系作者个人观点,不代表本站立场,转载请注明出处!