人工智能(AI)芯片设计研讨会(7月25日,北京国家会议中央)

AI 芯片和传统芯片有何差异?_芯片_算法 科技快讯

会议详情请点击:https://0x9.me/6SMDs

以下内容整理自知乎:

作者:汪鹏链接:https://www.zhihu.com/question/285202403/answer/444253962先回答问题,

(1)性能与传统芯片,比如CPU、GPU有很大的差异。
在实行AI算法时,更快、更节能。

(2)工艺没有差异,大家都一样。
至少目前来看,都一样。

所谓的AI芯片,一样平常是指针对AI算法的ASIC(专用芯片)。

传统的CPU、GPU都可以拿来实行AI算法,但是速率慢,性能低,无法实际商用。

比如,自动驾驶须要识别道路行人红绿灯等状况,但是如果是当前的CPU去算,那么估计车翻到河里了还没创造前方是河,这是速率慢,韶光便是生命。
如果用GPU,的确速率要快得多,但是,功耗大,汽车的电池估计无法永劫光支撑正常利用,而且,老黄家的GPU巨贵,常常单块上万,普通消费者也用不起,还常常缺货。
其余,GPU由于不是专门针对AI算法开拓的ASIC,以是,说到底,速率还没到极限,还有提升空间。
而类似智能驾驶这样的领域,必须快!
在手机终端,可以自行人脸识别、语音识别等AI运用,这个必须功耗低,以是GPU OUT!

以是,开拓ASIC就成了一定。

说说,为什么须要AI芯片。

AI算法,在图像识别等领域,常用的是CNN卷积网络,语音识别、自然措辞处理等领域,紧张是RNN,这是两类有差异的算法。
但是,他们实质上,都是矩阵或vector的乘法、加法,然后合营一些除法、指数等算法。

一个成熟的AI算法,比如YOLO-V3,便是大量的卷积、残差网络、全连接等类型的打算,实质是乘法和加法。
对付YOLO-V3来说,如果确定了详细的输入图形尺寸,那么总的乘法加法打算次数是确定的。
比如一万亿次。
(真实的情形比这个大得多的多)

那么要快速实行一次YOLO-V3,就必须实行完一万亿次的加法乘法次数。

这个时候就来看了,比如IBM的POWER8,最前辈的做事器用超标量CPU之一,4GHz,SIMD,128bit,假设是处理16bit的数据,那便是8个数,那么一个周期,最多实行8个乘加打算。
一次最多实行16个操作。
这还是理论上,实在是不大可能的。

那么CPU一秒钟的顶峰打算次数=16X4Gops=64Gops。

这样,可以算算CPU打算一次的韶光了。

同样的,换成GPU算算,也能知道实行韶光。
由于对GPU内部构造不熟,以是不做详细剖析。

再来说说AI芯片。
比如大名鼎鼎的谷歌的TPU1.

TPU1,大约700M Hz,有256X256尺寸的脉动阵列,如下图所示。
一共256X256=64K个乘加单元,每个单元一次可实行一个乘法和一个加法。
那便是128K个操作。
(乘法算一个,加法再算一个)

其余,除了脉动阵列,还有其他模块,比如激活等,这些里面也有乘法、加法等。

以是,看看TPU1一秒钟的顶峰打算次数至少是=128K X 700MHz=89600Gops=大约90Tops。

比拟一下CPU与TPU1,会创造打算能力有几个数量级的差距,这便是为啥说CPU慢。

当然,以上的数据都是完备最空想的理论值,实际情形,能够达到5%吧。
由于,芯片上的存储不足大,以是数据会存储在DRAM中,从DRAM取数据很慢的,以是,乘法逻辑每每要等待。
其余,AI算法有许多层网络组成,必须一层一层的算,以是,在切换层的时候,乘法逻辑又是安歇的,以是,诸多成分造成了实际的芯片并不能达到利润的打算峰值,而且差距还极大。

可能有人要说,搞研究慢一点也能姑息用。

目前来看,神经网络的尺寸是越来越大,参数越来越多,碰着大型NN模型,演习须要花几周乃至一两个月的时候,你会耐心等待么?溘然断电,统统重来?(曾经动手演习一个写小说的AI,然后,一次演习(50轮)须要大约一天一夜还多,记得如果第一天早上开始演习,须要到第二天下午才可能完成,这还是模型比较大略,数据只有几万条的小模型呀。

修正了模型,须要几个星期才能知道对错,确定等得起?

溘然有了TPU,然后你创造,吃个午饭回来就好了,参数优化一下,连续跑,多么爽!

打算速率快,才能迅速反复迭代,研发出更强的AI模型。
速率便是金钱。

GPU的内核构造不清楚,以是就不比较了。
肯定的是,GPU还是比较快的,至少比CPU快得多,以是目前大多数都用GPU,这玩意随便一个都能价格轻松上万,太贵,而且,功耗高,常常缺货。
不适宜数据中央大量利用。

总的来说,CPU与GPU并不是AI专用芯片,为了实现其他功能,内部有大量其他逻辑,而这些逻辑对付目前的AI算法来说是完备用不上的,以是,自然造成CPU与GPU并不能达到最优的性价比。

谷歌费钱研发TPU,而且目前已经出了TPU3,用得还挺欢,都开始支持谷歌云打算做事了,貌似6点几美元每小时吧,不记得单位了,

可见,谷歌以为很有必要自己研发TPU。

目前在图像识别、语音识别、自然措辞处理等领域,精度最高的算法便是基于深度学习的,传统的机器学习的打算精度已经被超越,目前运用最广的算法,估计非深度学习莫属,而且,传统机器学习的打算量与 深度学习比起来少很多,以是,我谈论AI芯片时就针对打算量特殊大的深度学习而言。
毕竟,打算量小的算法,说实话,CPU已经很快了。
而且,CPU适宜实行调度繁芜的算法,这一点是GPU与AI芯片都做不到的,以是他们三者只是针对不同的运用处景而已,都有各自的主场。

至于为何用了CPU做比拟?

而没有详细说GPU。
是由于,我说了,我目前没有系统查看过GPU的论文,不理解GPU的情形,故不做剖析。
由于积累的缘故,比较熟习超标量CPU,以是就用熟习的CPU做详细比较。
而且,小型的网络,完备可以用CPU去演习,没啥大问题,最多慢一点。
只要不是太大的网络模型。

那些AI算法公司,比如旷世、商汤等,他们的模型很大,自然也不是一块GPU就能搞定的。
GPU的算力也是很有限的。

至于说CPU是串行,GPU是并行

没错,但是不全面。
只说说CPU串行。
这位网友估计对CPU没有非常深入的理解。
我的回答中举的CPU是IBM的POWER8,百度一下就知道,这是超标量的做事器用CPU,目前来看,性能已经是非常顶级的了,主频4GHZ。
不知是否把稳到我说了这是SIMD?这个SIMD,就代表他可以同时实行多条同样的指令,这便是并行,而不是串行。
单个数据是128bit的,如果是16bit的精度,那么一周期理论上最多可以打算八组数据的乘法或加法,或者乘加。
这还不叫并行?只是并行的程度没有GPU那么厉害而已,但是,这也是并行。

不知道为啥就不能用CPU来比较算力?

有评论很推崇GPU。
说用CPU来做比较,不得当。

拜托,GPU本来是从CPU等分离出来专门处理图像打算的,也便是说,GPU是专门处理图像打算的。
包括各种殊效的显示。
这也是GPU的天生的毛病,GPU更加针对图像的渲染等打算算法。
但是,这些算法,与深度学习的算法还是有比较大的差异,而我的回答里提到的AI芯片,比如TPU,这个是专门针对CNN等范例深度学习算法而开拓的。
其余,寒武纪的NPU,也是专门针对神经网络的,与TPU类似。

谷歌的TPU,寒武纪的DianNao,这些AI芯片刚出道的时候,便是用CPU/GPU来比拟的。

看看,谷歌TPU论文的择要直接比拟了TPU1与CPU/GPU的性能比较结果,见赤色框:

这便是择要中先容的TPU1与CPU/GPU的性能比拟。

再来看看寒武纪DianNao的paper,择要中直接便是DianNao与CPU的性能的比较,见赤色框:

回顾一下历史

上个世纪涌现神经网络的时候,那一定是用CPU打算的。

比特币刚出来,那也是用CPU在挖。
目前已经进化成ASIC矿机了。
比特大陆理解一下。

从2006年开始开启的深度学习热潮,CPU与GPU都能打算,创造GPU速率更快,但是贵啊,更多用的是CPU,而且,那时候GPU的CUDA可还不怎么样,后来,随着NN模型越来越大,GPU的上风越来越明显,CUDA也越来越6,目前就成了GPU的专场。

寒武纪2014年的DianNao(NPU)比CPU快,而且更加节能。
ASIC的上风很明显啊。
这也是为啥要开拓ASIC的情由。

至于说很多公司的方案是可编程的,也便是大多数与FPGA合营。
你说的是商汤、深鉴么?的确,他们揭橥的论文,便是基于FPGA的。

这些创业公司,他们更多研究的是算法,至于芯片,还不是重点,其余,他们暂时还没有那个精力与实力。
FPGA非常灵巧,本钱不高,可以很快实现架构设计原型,以是他们自然会选择基于FPGA的方案。
不过,最近他们都大力融资,官网也在招聘芯片设计岗位,以是,该当也在涉足ASIC研发了。

如果以FPGA为代表的可编程方案真的有巨大的商业代价,那他们何必砸钱去做ASIC?

说了这么多,我也是半路出家的,由于事情须要而学习的。
按照我目前的理解,看TPU1的专利及论文,一步一步推导出内部的设计方法,理解了TPU1,大概就知道了所谓的AI处理器的大部分。
然后研究研究寒武纪的一系列论文,有好几种不同的架构用于不同的情形,有兴趣可以研究一下。
然后便是其余几个独角兽,比如商汤、深鉴科技等,他们每年都会有论文揭橥,没事去看看。
这些论文,大概就代表了当前最前辈的AI芯片的架构设计了。
当然,最前辈,别人肯定不会公开,比如谷歌就未曾公开关于TPU2和TPU3的干系专利,反正我没查到。
不过,没事,目前的文献已经代表了最近几年最前辈的进展了。

作者:Bluebear

链接:https://www.zhihu.com/question/285202403/answer/444457305

现在所说的AI芯片,可以分两类,一类是面向演习和推断(Inference)皆可的,这个活GPGPU可以干,CPU也可以干,FPGA(Altera的Stratix系列)也都行,但是Google的TPU2和Bitmain的sophon之类由于专门设计可能在能耗比上有上风。
这类产品相对GPGPU,整体类似,保留了相称多的浮点处理单元的同时(或者说建立了很多张量打算单元),抛弃了一些没啥用的图形流水线的玩意,提高了能耗表现。
这部分玩家少,但是却更有趣。
当然ICLR也有琢磨用定点器件演习的事情,Xilinx家是希望XNOR-net让定点器件都能参与演习。

另一类是Inference Accelerator推断加速芯片,大略说便是把演习好的模型在芯片上跑。
这块是真的百花齐放,比如的寒武纪NPU,Intel Movidius(还有个Nervana该当类似XeonPhi用来演习的),深鉴的DPU,地平线BPU,Imagination的PowerVR 2NX,ARM的Project Trillium,还有一堆IP。
这类产品既有产品,又供应IP让其他开拓者讲深度学习加速器集成到SoC内。
其余这里须要单独说下Tegra X2这个产品,这个相称于一个小的桌面平台,ARM处理器加Nvidia GPU可以供应完全的演习推断能力,当然功耗也很高。
其他的加速芯片,我以为最好分成两类,浮点的和定点的。
浮点的也只是FP16半精度的,当然支持FP16也支持INT8,比如寒武纪的NPU和Intel Movidius。
一类便是纯定点的比如地平线的BPU还有Imagination的PowerVR 2NX之类。
当然也有稠浊的,这块后面细说。

首先说下非ASIC的,Deephi部分产品利用了ZYNQ实现,利用ZYNQ最大的好处便是省了流片用度,利用DSP48和资源实现乘加器完成定点操作,浮点交给CortexA9硬核,Deephi紧张是事情在模型剪枝定点化方面,之前和汪玉老师互换,网络定点化时候部分层定点化定点化丢失较高,因此保留部分层(紧张是末了的)浮点,和嘉楠智耘做加速的人聊也印证这部分,用SOPC比较省事。
再便是兼职的比如高通AI平台利用了Adreno GPU和Hexagon DSP做(紧张是DSP,风评貌似能耗比970那个好看),SNPE紧张是OpenCL折腾用GPU和DSP之类资源推断,MTK和AAPL也类似。
其他的差别就很大了Intel Movidius发布较早,支持浮点推断,实际里面是VLIW的SIMD单元,这玩意和之前ATi显卡,或者说DSP设计类似。
其他的由于不才看到公开资料不多,瞎说说,一样平常AI加速器都紧张是针对现有网络,做定点或者浮点打算的优化,当然首先还是堆运算单元(矩阵运算单元,乘加),然后减少内存数据搬运,970上那个可能挂在CCI上,然后靠较多缓存,PowerVR 2NX那个貌似是优化到4bit的内存掌握器?通过优化内存数据通路,减少一些内存带宽需求之列,总体实在还是关联的。
觉得上这类东西靠近超多核的DSP,不过是精简的毕竟DSP还能做点掌握,笑。

其余某种程度上说,对新的网络优化很差,一样平常工业比学术慢一年多,比如DenseNet出来了,电影只支持到Resnet。

关于下面两个问题:

如果让GPGPU或者CPU做inference能耗比肯定不好看,但是浮点inference一样平常比定点化或者精度降落后的情形准确率高(当然存在定点化后泛化能力好的情形)。
但是NPU只能在CPU掌握下做特界说务就很丢人了,没有很多的运用支持,NPU就很鸡肋,在手机上,很多时候你根本用不到NPU,以是我以为须要的时候用Mali啥的顶顶得了……

没有啥差别,和别的比如手机SoC,显卡GPU用一套工艺,有钱上新制程,新工艺咯。

作者:DeepTech

链接:https://www.zhihu.com/question/285202403/answer/446703288

人工智能究竟能给我们的生活带来什么?以我们最熟习的手机为例,日常的拍照美颜已经稀松平常,但目前的自拍软件在拍摄完成后,须要上传到云端,通过通用模型来完成“一键美颜”。
而移动真个 AI 芯片则可根据用户平时的喜好,在照片拍摄完成后(乃至拍摄之前的取景阶段)就同步完成照片美化,这对付现有的CPU来说是难以完成的。

那么二者的差别在哪里呢?首先,传统芯片在运算时只须要根据指令来调用相应系统进行事情,而 AI 指令之下则包含大量并行打算与建模。
这无疑对处理器的打算能力提出了很高哀求。

其次是移动真个数据网络能力,尤其是手机。
精良的 AI 运用要网络大量的数据来对模型进行演习,而手机无疑是最好的数据网络工具。
随着诸如麦克风、摄像头、重力感应器、定位装置等越来越多的传感器加入手机中,一种能实时网络、同步处理、连接折衷不同传感器的“人工智能”芯片就显得尤为主要。

当然,一片在指甲盖大小的面积上集成了超过 55 亿个晶体管的 AI 芯片不可能只用来拍拍照这么大略。
目前手机上已经有语音做事、机器视觉识别、图像处理等智能运用,未来还会增加包含医疗、AR、游戏 AI 等更多元化的运用类型。

除了知足手机上的运用,未来AI芯片也将有机会拓展其他更有潜力的市场,最范例的例子的例子便是自动驾驶,特斯拉就在去年挖来了AMD的传奇架构师 Jim Keller开拓自主的AI芯片。
乃至在未来,上至火箭航天器、下至深海探测器,其上的掌握系统所仰赖的芯片都将会越来越AI化。

点击理解详情查看AI研讨会详情