比较于传统CPU做事器,在供应相同算力情形下,GPU做事器在本钱、空间占用和能耗分别为传统方案的1/8、1/15和1/8。
人工智能做事器是AI算力根本举动步伐的紧张角色,在做事器中渗透率不断提升。
L3自动驾驶算力需求为30-60TOPS,L4需求100TOPS以上,L5需求乃至达1,000TOPS,GPU算力需求提升明显,芯片紧张向着大算力、低功耗和高制程三个方向发展。

GPU最新成长申报AI芯片王者五大年夜国内名星玩家大年夜显身手 | 智器械内参_芯片_人工智能 云服务

本期的智能内参,我们推举华西证券的报告《AI领强算力时期,GPU启新场景落地》,解读GPU三大落地场景和国产GPU最新的发展趋势。

来源 华西证券

原标题:

《AI领强算力时期,GPU启新场景落地》

作者:孙远峰 等

一、算力时期,GPU开拓新场景

广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片。
但是常日意义上的 AI 芯片指的是针对人工智能算法做了分外加速设计的芯片。

AI芯片也被称为AI加速器或打算卡,即专门用于处理人工智能运用中的大量打算任务的模块(其他非打算任务仍由CPU卖力)。
到目前位置,AI芯片算力发展走过了三个阶段:

第一阶段: 由于芯片算力不敷,以是神经网络没有受到重视;

第二阶段:通用芯片CPU的算力大幅提升,但仍旧无法 知足神经网络的需求;

第三阶段: GPU和和新架构的AI芯片推进人工智能落地。

AI芯片算力发展阶段

目前,GPT-3模型已入选了《麻省理工科技评论》2021年“十大打破性技能。
GPT-3的模型利用的最大数据集在处理前容量达到了45TB。
根据 OpenAI的算力统计单位petaflops/s-days,演习AlphaGoZero须要1800-2000pfs-day,而GPT-3用了3640pfs-day。

自然措辞模型/会话式AI平台

AI运算指以“深度学习” 为代表的神经网络算法,须要系统能够高效处理大量非构造化数据(文本、***、图像、语音等) 。
须要硬件具有高效的线性代数运算能力,打算任务具有:单位打算任务大略,逻辑掌握难度哀求低,但并走运算量大、参数多的特点。
对付芯片的多核并走运算、片上存储、带宽、低延时的访存等提出了较高的需求。

自2012年以来,人工智能演习任务所需求的算力每 3.43 个月就会翻倍,大大超越了芯片家当长期存在的摩尔定律(每 18个月芯片的性能翻一倍)。
针对不同运用处景,AI芯片还应知足:对主流AI算法框架兼容、可编程、可拓展、低功耗、体积及价格等需求。

从技能架构来看,AI芯片紧张分为图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、类脑芯片四大类。
个中,GPU是较为成熟的通用型人工智能芯片,FPGA和ASIC则是针对人工智能需求特色的半定制和全定制芯片,类脑芯片颠覆传统冯诺依曼架构,是一种仿照人脑神经元构造的芯片,类脑芯片的发展尚处于起步阶段。

三种技能架构AI芯片类型比较

2019年环球人工智能芯片市场规模为110亿美元。
随着人工智能技能日趋成熟,数字化根本举动步伐不断完善,人工智能商业化运用将加落地,推动AI芯片市场高速增长,估量2025年环球人工智能芯片市场规模将达到726亿美元。

2019-2025年环球人工智能芯片市场规模及预测(亿美元)

二、GPU 下贱三大运用市场

GPU实在是由硬件实现的一组图形函数的凑集,这些函数紧张用于绘制各种图形所须要的运算。
这些和像素,光影处理,3D坐标变换等干系的运算由GPU硬件加速来实现。
图形运算的特点是大量同类型数据的密集运算——如图形数据的矩阵运算,GPU的微架构便是面向适宜于矩阵类型的数值打算而设计的,大量重复设计的打算单元,这类打算可以分成浩瀚独立的数值打算——大量数值运算的线程,而且数据之间没有像程序实行的那种逻辑关联性。

GPU微架构的设计研发是非常主要的,前辈精良的微架构对GPU实际性能的提升是至关主要的。
目前市情上有非常丰富GPU微架构,比如Pascal、Volta、Turing(图灵)、Ampere(安培),分别发布于 2016 年、2017 年、2018 年和2020年,代表着英伟达 GPU 的最高工艺水平。

GPU的API(Application Programming Interface)运用程序接口发挥着连接运用程序和显卡驱动的桥梁浸染。
目前GPU API可以分为2大阵营和多少其他类。
2大阵营分别是微软的DirectX标准和KhronosGroup标准,其他类包括苹果的Metal API、 AMD的Mantle(地幔) API、英特尔的One API等。

AI芯片(GPU/FPGA/ASIC)在云端同时承担人工智能 “演习”和“推断”过程,在终端紧张承担“推断”过 程,从性能与成本来看ASIC最优。
ASIC作为专用芯片,算力与功耗在通用芯片GPU具有绝对上风,但开拓周期较长,落地较慢,需一定规模后才能表示本钱上风。
FPGA可以看做从GPU到ASIC重点过渡方案。
相对付GPU可深入到硬件级优化,比较ASIC在算法不断迭代演进情形下更具灵巧性,且开拓韶光更短。

从生态与落地来看,GPU霸占绝对上风,英伟达处垄断地 位。
开拓者能通过英伟达CUDA平台利用软件措辞很方便地开拓英伟达GPU实现运算加速,已被广泛认可和遍及,积累了良好的编程环境。
以TPU为代表的ASIC目前紧张利用在巨子的闭环生态,FPGA在数据中央业务中发展较快。

2020年GPU市场规模为254.1亿美元,估量到2027年将达到1853.1亿美元,从2021年到2027年的复合年增长率为32.82%。
GPU市场分为独立,集成和稠浊市场。
2019年集成霸占了GPU市场份额的主导地位,但由于稠浊处理器同时具有集成和独立GPU的能力,因此未来稠浊细分市场估量将实现最高复合年增长率。

市场分为打算机,平板电脑,智好手机,游戏机,电视等。
在2019年,智好手机市场霸占了环球GPU市场份额的主导地位,估量在预测期内将连续保持这一趋势。
但是,由于对医疗设备等其他设备中对小型GPU的需求不断增长,估量其他领域在未来的复合年增长率最高。
由于在设计和工程运用中图形处理器的广泛利用,估量汽车运用细分市场将在预测期内以最高的复合年增长率增长。

总体来说,GPU有三大运用处景:游戏 、 AI和自动驾驶

1、游戏

IDC数据显示,2020年游戏PC和显示器的出货量同比增长26.8%,达到5500万台。
游戏条记本电脑在2020年增长了创记录的26.9%。
与PC并行,游戏显示器在2020年也达到了新的高度,与2019年比较增长了77%以上,出货量达到了1430万台。

IDC估量2021年游戏显示器的销量将首次超过游戏台式机。
纵然游戏台式机逐渐受到青睐,游戏条记本电脑的显示器连接率不断提高也意味着游戏监控器市场的五年复合年增长率估量将超过10%。
IDC估量2025年环球销量达到7290万,复合年增长率为5.8%。

2、AI

移动端AI芯片市场不止于智好手机,潜在市场还包括:智好手环/腕表、 VR/AR眼镜等市场。

在边缘打算场景,AI芯片紧张承担推断任务,通过将终端设备上的传感器(麦克风阵列、摄像头等)网络的数据代入演习好的模型推理得出推断结果。
由于边缘侧场景多种多样、各不相同,对付打算硬件的考量也不尽相同,对付算力和能耗等性能需求也有大有小。
因此运用于边缘侧的打算芯片须要针对分外场景进行针对性设计以实现最优的办理方案。

不同边缘打算场景对AI芯片性能哀求

安防摄像头发展经历了由仿照向数字化、数字化高清到现在的数字化智能方向的发展,最新的智能摄像头除了实现大略的录、 存功能外,还可以实现构造化图像数据剖析。
安防摄像头一天可产生20GB数据,若将全部数据回传到云数据中央将会对网络带宽和数据中央资源造成极大占用。

通过在摄像头终端、网络边缘侧加装AI芯片,实现对摄像头数据确当地化实时处理,经由构造化处理、关键信息提取,仅将带有关键信息的数据回传后方,将会大大降落网络传输带宽压力。
当前主流办理方案分为:前端摄像头设备内集成AI芯片和在边缘侧采纳智能做事器级产品。
前端芯片在设计上须要平衡面积、功耗、本钱、可靠性等问题,最好采纳低功耗、低本钱办理方案(如:DSP、 ASIC);边缘侧限定更少,可以采纳能够进行更大规模数据处理任务的做事器级产品(如:GPU、 ASIC)。

AI芯片在智能安防摄像头中的运用

人工智能做事器常日搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以知足高吞吐量互联的需求,为自然措辞处理、打算机视觉、语音交互等人工智能运用处景供应强大的算力支持,已经成为人工智能发展的主要支撑力量比较于传统CPU做事器,在供应相同算力情形下,GPU做事器在本钱、空间占用和能耗分别为传统方案的1/8、1/15和1/8。

当前在云端场景下被最广泛运用的AI芯片是英伟达的GPU,紧张缘故原由是:强大的并行打算能力(比较CPU)、通用性以及成熟的开拓环境。
2020年环球AI做事器市场规模为122亿美元,估量到2025年环球AI智能做事器市场将达到288亿美元,5年CAGR达到18.8%。

2020-2025年环球AI做事器行业市场规模及增速(单位:亿美元)

在AI开拓中,由于深度学习模型开拓及支配须要强大算力支持,须要专用的芯片及做事器支持。
开拓者如选择自购AI做事器本钱过高。
通过云做事模式,采纳按需租用超算中央打算资源可极大降落项目期初成本投入同时也免却了项目开拓期间的硬件运维用度,实现成本配置效率的最大化提升。

3、自动驾驶

环球自动驾驶迈入商用阶段,未来可期。
IDC最新发布的《环球自动驾驶汽车预测报告(2020-2024)》数据显示,2024年环球L1-L5级自动驾驶汽车出货量估量将达到约5425万辆,2020至2024年的年均复合增长率(CAGR)达到18.3%;L1和L2级自动驾驶在2024年的市场份额估量分别为64.4%和34.0%。
只管目前L3-L5级自动驾驶技能的运器具有开拓性意义,L1-L2级自动驾驶将依然是未来5年内带动环球自动驾驶汽车出货量增长的最大细分市场。

我国汽车市场规模不断增长,自动驾驶由L2向L3过渡。
中汽协数据显示,2021年1-3月,中国品牌乘用车共发卖210.8万辆,同比增长81.5%,占乘用车发卖总量的41.5%,霸占率比上年同期提升1.4个百分点。
2020年1月份至9月份,L2级智能网联乘用车发卖量达196万辆,占乘用车总销量的14.7%。

更有部分企业加速研发L3级自动驾驶车型,多地开展自动停车、自动驾驶公交车、无人智能重卡等方面的示范运用。
到2025年,我国PA(部分自动驾驶)、CA(有条件自动驾驶)级智能网联汽车销量占当年汽车总销量比例超过50%,C-V2X(以蜂窝通信为根本的移动车联网)终端新车装置率达50%。

随着传感器、车载处理器等产品的进一步完善,将会有更多L3级车型涌现。
而L4、L5级自动驾驶估量将会率先在封闭园区中的商用车平台上实现运用落地,更广泛的乘用车平台高等别自动驾驶,须要伴随着技能、政策、根本举动步伐培植的进一步完善,估量至少在2025年~2030年往后才会涌如今一样平常道路上。

2016-2030年环球汽车市场自动驾驶渗透率预测

感知路境,短时处理海量数据。
行车过程中依赖雷达等传感器对道理信息进行采集后,处理器每秒需实时数据解析几G量级数据,每秒可以产生超过 1G 的数据。
对处理器的打算量哀求较高。

自动方案,瞬时反应保障安全。
处理剖析实时数据后,须要在毫秒的韶光精度下对行车路径、车速进行方案,保障行车过程安全,对处理器的打算速率哀求较高。

兼具技能本钱上风,GPU为自动驾驶领域主流。

三、国产AI GPU走上快车道

2020年海内AI芯片行业投融资金额同比增长了52.8%,2021年1月至4月的投融资事宜和金额均已超过去年整年,成本对海内半导体、集成电路领域投资飞腾。

从热门领域来看,人工智能领域是2020年成本青睐度较高的细分赛道之一。
2020年成本投资的紧张是相对成熟且已得到1-2轮乃至2轮以上融资的AI芯片企业。

AI芯片行业公司成立韶光、融资历史及估值

AI芯片行业市场预期逐渐趋于理性,创业进入市场考验期。
大量AI芯片公司在15~17年景立。
未来1-2年,市场将会对各厂商的产品和技能进行实际考验。
市场期待更高算力、更低功耗、本钱更低的AI芯片。

不同公司的芯片先容

1、沐曦集成电路:多场景高性能GPU

沐曦集成电路专注于设计具有完备自主知识产权,针对异构打算等各种运用的高性能通用GPU芯片。
公司致力于打造海内最强商用GPU芯片,产品紧张运用方向包含传统GPU及移动运用,人工智能、云打算、数据中央等高性能异构打算领域,是今后面向社会各个方面通用信息家当提升算力水平的主要根本产品。

拟采取业界最前辈的5nm工艺技能,专注研发全兼容CUDA及ROCm生态的国产高性能GPU芯片,知足HPC、数据中央及AI等方面的打算需求。
致力于研发生产拥有自主知识产权的、安全可靠的高性能GPU芯片,做事数据中央、云游戏、人工智能等须要高算力的诸多主要领域。

2、壁仞科技:推出云端AI芯片

壁仞科技创立于2019年,公司在GPU和DSA(专用加速器)等领域具备丰富的技能储备聚焦于云端通用智能打算,逐步在AI演习和推理、图形渲染、高性能通用打算等多个领域赶超现有办理方案,以实现国产高端通用智能打算芯片的打破。

壁仞科技发展进程

3、燧原科技:推中国最大AI打算芯片

在2021天下人工智能大会期间,上海燧原科技推出第二代云端AI演习芯片邃思2.0及演习产品云燧T20/T21,以及全新升级的驭算Topsrider 2.0软件平台。

邃思2.0是迄今中国最大的AI打算芯片,采取日月光2.5D封装的极限,在海内率先支持TF32精度,单精度张量TF32算力可达160TFLOPS。
同时,邃思2.0也是首个支持最前辈内存HBM2E的产品。
公司紧张做事为面向消费电子、汽车电子、打算机及周边、工业、数据处理、物联网等广泛运用市场所供应的一站式芯片定制服务和半导体IP 授权做事。

燧原科技成立于2018年03月19日,成立至今连续得到过5轮融资,累计融资额近32亿元公民币。
其最新一笔融资为今年1月完成的18亿元C轮融资,由中信家当基金、中金成本旗下基金、春华成本领投。

4、地平线:智能驾驶及 AI 运用领域做事

基于创新的人工智能专用打算架构 BPU,地平线已成功流片量产了中国首款边缘人工智能芯片——专注于智能驾驶的征程1 和专注于 AIoT 的朝阳1 ;2019 年,地平线又推出了中国首款车规级 AI 芯片征程 2 和新一代AIoT智能运用加速引擎朝阳2 ;2020年,地平线进一步加速AI芯片迭代,推出新一代高效能汽车智能芯片征程 3 和全新一代 AIoT 边缘 AI 芯片平台朝阳 3。

地平线发展进程

智能物联网需求将使云端打算的负荷成倍增长。
智能物联网是未来的趋势所向,海量的碎片化场景与打算朝阳处理器强大的边缘打算能力,帮助设备高效处理本地数据。

面向AIoT,地平线推出朝阳系列边缘 AI 芯片。
朝阳2采取 BPU 伯努利1.0 架构,可供应 4TOPS 等效算力,朝阳3 采取伯努利2.0 ,可供应 5TOPS 的等效算力。

地平线已成为唯一覆盖 L2 到 L4 的全场景整车智能芯片方案供应商。
从 2019 年量产中国首款车规级 AI 芯片征程 2,到 2020 年推出第二代车规级芯片征程3。
目前,征程 2 、征程 3 已在长安、长城、东风岚图、广汽、江淮、空想、奇瑞、上汽等多家自主品牌车企的多款主力爆款车型上实现前装量产。

地平线 Matrix由征程2 架构加速的车规级打算平台,结合深度学习感知技能,为高等别自动驾驶供应了稳定可靠的高性能感知系统。

地平线征程系列芯片

5、黑芝麻: 智能驾驶系统办理方案

黑芝麻智能科技是一家专注于视觉感知技能与自主IP芯片开拓的企业。
公司主攻领域为嵌入式图像和打算机视觉,供应基于光控技能、图像处理、打算图像以及人工智能的嵌入式视觉感知芯片打算平台,为ADAS及自动驾驶供应完全的商业落地方案。

基于西岳二号 A1000 芯片,黑芝麻供应了四种智能驾驶办理方案。
单颗 A1000L 芯片适用于 ADAS 赞助驾驶;单颗 A1000 芯片适用于 L2+ 自动驾驶;双 A1000 芯片互联可达 140TOPS 算力,支持 L3 等级自动驾驶;四颗 A1000 芯片则可以支持 L4 乃至以上的自动驾驶需求。
其余,黑芝麻还可以根据不同的客户需求,供应定制化做事。

黑芝麻智能首款芯片与上汽的互助已实现量产,第二款芯片A1000正在量产过程中,估量今年下半年在商用车领域实现10万片量级以上的量产,明年将在乘用车领域量产落地。
黑芝麻智能已与一汽、蔚来、上汽、比亚迪、博世、滴滴、中科创达、亚太机电等企业在L2、L3级自动驾驶感知系统办理方案上均有互助。

黑芝麻智能科技最新的西岳二号(A1000)芯片具备 40-70TOPS 的强大算力、小于 8W 的功耗及优胜的算力利用率,工艺制程16nm,符合 AEC Q-100、单芯片 ASIL B、系统 ASIL D 汽车功能安全哀求,是目前能支持 L3 及以上级别自动驾驶的唯一国产芯片。
为了应对不同的市场需求,黑芝麻同步发布了西岳二号 A1000L。

黑芝麻最新产品A1000系列参数比拟

除了以上玩家,摩尔线程等公司最近也有新进展,见下表。

国产GPU最新进展

智东西认为,在传统GPU市场中,排名前三的Nvidia、AMD、Intel的营收险些可以代表全体GPU行业的收入。
国产CPU经由多年的探索和发展,已经形成一定的景象,家当和生态也逐渐健全起来。
然而,国产GPU市场规模和潜力巨大,发展却远远掉队于国产CPU。
在AI加速打算、国产芯片自主创新和摩尔定律放缓等成分的驱动下,国产GPU和外洋巨子的差距会逐步减少。