百度人工智能具体分析_技巧_平台

2024-10-20 16:09:13 智能问答

本文源自太平洋证券人工智能专题研究之一

百度人工智能具体分析_技巧_平台智能问答

证券剖析师王文龙、徐中华

信息化顾问团杨凯整理

百度AI平台将逐步开放，助力构建百度AI生态圈

“云+大脑”打磨升级构成百度AI平台

百度AI开拓者大会（Baidu Create 2017）上，百度AI平台架构图首次完全亮相，全新开放了***、语音、AR/VR、机器人视觉、自然语音处理等五大类目共14项全新能力，这次开放的技能能力统共有60个，是目前最全面的AI技能开放平台。
百度AI平台由百度大脑及百度云组成，分为云、大数据、算法层、感知层、认知层、平台层五大层次，核心能力的开放已达60余项。

图表1：百度AI平台的架构

作为百度AI平台的核心，百度大脑由算法层、感知层、认知层、平台层共同组成，是业界第一个完全清晰地把认知层和感知层放在一起的人工智能平台。

算法层包括大数据、深度学习，是百度大脑的底层根本。

感知层包括语音识别、图像识别、***理解和增强现实/虚拟现实4大核心技能能力，授予机器“听懂、看懂”的能力；

认知层包括领先的自然措辞处理、知识图谱、用户画像能力，授予机器“理解”能力。

平台层即百度AI开放平台，凑集了百度所有的AI能力并将逐渐开放给所有开拓者。

图表2：百度大脑各层次能力

多领域在人工智能方向进行计策构建

百度自2013年1月组建专注于Deep Learning（深度学习）的研究院—Institute of Deep Learning（简称IDL）开始，百度便已经积极布局人工智能：

机构设立方面：公司先后成立自然措辞处理部（2010年）、百度硅谷人工智能实验室（2014年）、自动驾驶奇迹部（2015年）、度秘奇迹部（2017年）、AR实验室（2017年）、智能驾驶奇迹群组（IDG，2017年）、深度学习技能及运用国家工程实验室（2017年）等。
个中：今年3月22日，百度通过内部邮件宣告进一步深度整合包括NLP、KG、IDL、Speech、Big Data等在内的百度核心技能，组成百度AI技能平台体系（Artificial Intelligence Group，简称“AIG”）。
近期，百度对AIG进行了调度：

单独成立聪慧机场业务部、智能客服与金牌发卖业务部。
聪慧机场业务部重点面向航空做事领域；智能客服与金牌发卖业务部，领悟语音识别、自然措辞处理等前沿技能，提升企业与客户电话沟通中的效率和效能。
该技能通过对呼叫中央的通话历史语音进行剖析，提取客户画像、精良发卖履历，并在通话过程中进行实时语音识别及剖析等办法，结合当前客户情形与发卖特点，个性化推举适宜的发卖思路与话术要点。

强化了AI运用技能研发，原从属于研究院的几个技能团队升格为独立的技能部门，包括视觉技能部、人脸技能部、增强现实技能部等。

成立AI技能平台与生态部，进一步整合推动百度所拥有的自然措辞处理、知识图谱、深度学习、语音图像、大数据等技能。

人才储备方面：2017年，百度与北京航空航天算夜学互助设立人工智能专业；目前，BAT的AI人才布局中百度总数领先，占比2.54%。

技能落地方面：语音开放平台上线（2013年）、DeepSpeech深度语音识别系统（2014年）、小度机器人（2014年）、环球首个基于深度学习的大规模在线翻译系统（2015年）、机器人助理“度秘”（2015年）、无人驾驶汽车干系技能（2015年）、AR技能帮助伊利等零售商进行营销（2016年）、针对移动设备打造的增强现实平台“度视”（2016年）、医疗大脑等百度大脑（2016年）、百度输入法4.0引入人工智能（2016年）、百度AR先后与欧莱雅互助，带来全新广告营销办法（2016年）、与KFC合智能推举点餐（2016年）、与神农架互助AR不雅观山（2016年）、《但丁密码》AR面具海报（2016年）、G-1智能高清机顶盒（2016年）、乌镇天下互联网大会人脸识别闸机（2016年）、海尔与美的搭载DuerOS打造智能家居（2017年）、家庭陪伴型机器人“分身鱼”（2017年）、国航用人工智能进行人脸识别（2017年）。

成本投入方面：自2016年开始，公司先后投资美国科技公司ZestFinance、激光雷达公司Velodyne LiDAR、人工智能语音助手平台开拓商Raven Tech、打算机视觉公司xPerception、以色列***捕捉技能公司Pixellot、投资上海汉枫科技及室内导航公司IndoorAtlas、参股新西兰VR/AR/3D成像公司8i、收购专注于语音唤醒和自然措辞理解的人工智能创业公司KITT.AI（2017年）等。

2017年1月，陆奇师长西席加入百度担当集团总裁兼CEO，环绕人工智能在集团架构、业务以及人事方面大刀阔斧进行改革，包括将自动驾驶奇迹部（L4）、智能汽车奇迹部（L3）、车联网业务（Car Life etc）合并组建新的智能驾驶奇迹群组（IDG），并向汽车行业及自动驾驶领域的互助伙伴供应一款名叫Apollo的开放软件平台。

国外方面，Amazon、Facebook布局人工智能紧张是为了智能其各自的传统主业以使自身在各自领域保持竞争力，而Google及IBM则是从集团层面对其人工智能生态培植进行了整体方案。
海内方面，阿里巴巴在人工智能方面的行动紧张是针对详细的运用处景进行智能化，而腾讯则紧张是通过在各奇迹部组建AI团队来推进集团人工智能的发展。

图表3：其他科技巨子在AI的布局概况

公司名称

布局细节

Google

1、谷歌大脑：创建于2011年，目标是创造更智能的软件和系统，从而改进人的生活。
研究领域包括机器学习算法和技能、用于机器学习的打算机系统、自然措辞理解、感知、医疗、机器人、音乐与艺术天生等。
TPU、TensorFlow均来自谷歌大脑。

2、谷歌NLU：专注于自然措辞理解的团队，与谷歌大脑是并列存在的关系。
最新研究兴趣包括句法、语篇、对话、多措辞建模、感情剖析、问答、概述、利用有标记和未标记的数据与最前辈的模型和间接监督来构建更好的学习系统。
目前公开的最主要的成果便是被称为“天下准确度最高的自然措辞解析器SyntaxNet”。
这是一个基于TensorFlow的自然措辞理解神经网络。
谷歌在该平台上演习的模型的措辞理解准确率超过90%。

3、谷歌欧洲研究院：2016年6月在苏黎世成立，研究领域为机器学习、自然措辞理解、机器感知及数据压缩。

4、DeepMind：2010年在英国成立，2014年被谷歌以4亿英镑收购，收购后仍保持独立运行，专注于深度强化学习，研究目标是通用人工智能。
AlphaGo是DeepMind最有名的项目。
2017年7月5日，DeepMind表示将在加拿大埃德蒙顿开设第一家AI研究中央。

5、机器学习忍者项目：从谷歌内部团队挑选有天赋的约20名程序员，为期6个月的人工智能人才培养项目。
与谷歌大脑有互助关系。

6、工程师团队：谷歌25000名工程师中，有数以千计的人闇练节制机器学习。

7、运用：谷歌云机器学习API、翻译、Waymo（前谷歌无人车部门，现在是Alphabet子公司）、Inbox等。

8、收购：措辞与图像识别、生物识别、深度学习、智能家居、机器人领域的公司。

Facebook

1、Facebook人工智能实验室（FAIR）：2013年12月成立，是Facebook的AI根本研究实验室，目标是推动机器智能领域的进步。
这是Facebook人工智能技能的核心部门。

2、工程团队：直接卖力对接到Facebook的核心功能，比如广告、搜索、***流、密钥和Instagram。

3、FBLearner Flow平台：于2014年底在FAIR内部研究，后转交给AML团队，是Facebook研发基于AI的产品的支柱。
这个平台能帮助任何工程师轻松地开启和管理机器学习实验，而无需处理硬件根本架构。
每月运行约120万的实验。

4、运用机器学习部门(AML)：成立于2015年9月，是科学打破与产品利用连接起来的部门。
包括4个紧张团队：核心机器学习、打算拍照、措辞技能及自然语音识别。

5、Language Technology团队：该团队在AML保护伞下，专注于开拓翻译、语音识别和自然措辞理解，是支配实际软件的地方，而FAIR是推动Facebook人工智能实验的地方。

6、Lumos：2016年11月首次表露，构建在FBLearnerFlow之上，是专用语图像和***理解的AI平台。

7、收购：图像和措辞理解领域的公司。

IBM

1、商业办理方案Watson：2014年1月初，IBM宣告组建“Watson Group”，旨在进一步开拓、商用及增强“Watson”及其他认知技能。
同时，IBM还推出了两项Watson数字顾问做事，一项用于帮助企业从海量数据得到洞见，另一项则旨在使得数据可视化。
2014年3月，Waston开始与纽约基因中央互助。
5月，IBM通过Watson收购了人工智能创业公司Cognea，该公司为用户供应个性化虚拟助手做事。
2015年，Watson被支配在IBM 2014年收购的云打算根本举动步伐业务Softlayer上。
2016年，以肿瘤为重心，Watson在慢病管理、精准医疗、体外检测等九大医疗领域中实现了打破。

2、AI技能：语音语义、深度学习神经网络（收购了AIchemyAPI）

3、云平台：IBM Bluemix开放云技能平台（PaaS+7种IBM Watson做事）、机器学习平台SystemML

4、硬件：TrueNorth（SyNapse成果）

5、家当布局：深蓝、与苹果、软银进行智能机器人互助、VR游戏、物联网、医疗做事

6、收购：认知打算、搜索、人机对话、数据剖析领域的公司

Amazon

1、做事：Amazon Lex、Amazon Polly以及Amazon Rekognition，分别定位于可编写自然人机交互、语音转换做事以及图像识别。

2、平台：Amazon ML、Spark & EMR、Kinesis流数据处理平台、Batch批次处理、ECS

3、引擎：MXNet、TensorFlow、Caffe、Theano、Pytorch、CNTK

4、根本举动步伐：GPU、CPU、IoT、移动

5、1492团队:旨在发掘医疗行业中的新机会，同时关注软件和硬件项目。
目前，他们正在试图从传统电子医疗档案中挖取和整合数据；希望建立一个远程医疗的平台；探索基于Echo和Dash Wand的医疗运用等

6、收购：图像识别、图像与措辞理解领域的公司

阿里巴巴

1、AI部门：iDST（数据科学与技能研究院）、阿里人工智能实验室、NASA操持、参与“工业大数据运用技能国家工程实验室”、与清华北大一起搭建大数据系统软件国家工程实验室

2、AI产品线：ET大脑（工业、医疗、***、ET根本做事（机器学习、智能语音、人脸识别、印刷笔墨识别、人机对话）

3、成本布局：计策投资日本机器人公司SBRH、入股山西嘉世达机器人

腾讯

1、AI机构：人工智能实验室（AI Lab，卖力根本性研究事情）、各个奇迹部都有AI团队（卖力AI运用研究）

2、运用方向：游戏AI、社交AI、内容AI、工具型AI

3、智能产品：小冰、小微、云搜和文智、优图人脸识别、***物联、微信硬件平台、叮当智能语音助手、绝艺（类似AlphaGo）、深度学习平台DI-X

4、成本布局：投资Diffbot、iCarbonX（碳云智能）、CloudMedX、Skymind、Scaled Inference；计策入股搜狗；购买特斯拉5%股票。

可以看到，百度在AI方面的布局已经相对完善，无论是从AI部门的设置、集团计策定位，还是从开放的各种技能平台，均能够帮助百度更快地构建生态圈，以此带来更多场景运用的落地。

AI平台开放、百度生态培植延伸至端

百度AI平台以百度智能云为根本、百度大脑为核心，目前开放DuerOS和Apollo两大平台向终端下沉，与云端一起初步构建起AI生态圈。
同时，深度学习开放平台PaddlePaddle具备易用、高效、灵巧和可伸缩等特点，使程序员可以快速运用深度学习模型来办理各种实际问题，加快实验室技能在各种场景的运用落地，促进百度AI生态的扩散。

图表4：百度AI平台与生态构建

百度AI平台的开源有助于百度吸引更多精良的开拓者参与进来，在帮助完善AI平台功能的同时，培养用户的利用习气，构建起开拓者生态。
此外，还可以通过开拓者使实验室技能更快地在详细场景落地。
百度可凭借开放的平台探求到更多的互助者，构建起互助伙伴生态，共同推出行业办理方案和生态互助方案。

DuerOS：开放的对话式人工智能系统

百度在2017CES上推出了DuerOS。
此外，百度还发布了DuerOS聪慧芯片，具有：“三低、三高”的特点—低本钱、低门槛、低花费、高安全、高集成、高附加。
这款DuerOS聪慧芯片已将DuerOS与紫光展锐RDA5981完美集成；还采取了ARM公司mbed OS内核及其安全网络协议栈，实现了与云真个安全连接，降落了设备商运用开拓门槛。

7月15日，在Baidu Create 2017上，度秘奇迹部总经理景鲲发布了DuerOS开放平台。
该平台以DuerOS对话系统为核心层，运用层为智能设备开放平台，能力层为技能开放平台。
个中技能开放平台目前已经拥有10大品类、100多项原生技能且支持第三方资源和内容接入。
作为中国版Alexa，未来百度将以DuerOS为切入点，进一步推动集团人工智能生态的构建。

图表5：DuerOS开放平台整体架构

【参考资料：Alexa】

Alexa是Amazon推出的一款语音助手，可以对语音指令进行处理并做出语音回答或实行相应操作，截止2017年6月尾，Alexa语音助手已拥有超过1.5万项技能，比官方2月份公布的1万多项增长了一半多。

图表6：语音助手技能数量（单位：项）

目前Alexa紧张运用于智能音箱、智能家居、可穿着设备、购物助手等。
亚马逊许可设备制造商通过利用Alexa语音做事（AVS）将Alexa不断增长的语音功能集成到自己的连接产品中。
该语音做事（AVS）是一种云做事，供应基于云的自动语音识别（ASR）和自然措辞理解（NLP）。

Alexa的语音识别系统框架紧张包括四大块：旗子暗记处理（Signal processing）、声学模型（Acoustic model）、解码器（Decoder）和后处理（Post processing）。

首先将网络来的声音进行一些旗子暗记处理，将语音旗子暗记转化到频域，每10毫秒的语音天生一个特色向量，发送到后面的声学模型。
声学模型把音频分身分歧的音素。
接下来解码器可以解出概率最高的词串。
末了一步是后处理，把单词组合成易读取的文本。

图表7：Alexa语音识别步骤

个中，声学模型便是一个分类器，输入的是向量，输出的是音频种别对应的概率。
该模型是一个范例的神经网络，底部是输入的信息，隐蔽层将向量转化到末了一层里的音素概率。

一个美式英语的Alexa语音识别系统，会输出美式英语的音素。
以美式英语为根本的Echo，录了几千小时的美式英语语音来演习神经网络模型，这个本钱非常高。
但是，天下上还有很多其它的措辞，比如德语，如果再从头用几千小时的德语语音演习，本钱太高。
以是，这个神经网络模型有趣的地方便是可以“迁移学习”，它可以保持原有模型中其它层不变，只把末了一层换成德语。
两种不同的措辞，音素大部分是不一样的，但是仍旧有不少相同的部分。
因此，仅利用少量的德语语音数据，就可以在稍作改变的模型上得到较准确的德语结果。

现在，DuerOS可以将搭载Alexa的智能音箱变成能听懂中文。
未来，百度将把DuerOS打造成AI时期的“安卓”，为AI开拓者铺垫好技能根本，帮助其更方便快捷地开拓智能语音交互设备，从而打造以DuerOS为入口的智能语音生态链。

Apollo：自动驾驶开放平台

百度AI的核心打破口当属自动驾驶，首先是成立智能驾驶奇迹群组（IDG）。
紧接着于今年4月在上海车展上发布了“Apollo”操持，向汽车行业及自动驾驶领域的互助伙伴供应开放的、完全的、安全的软件平台，帮助他们快速搭建一套属于自己的自动驾驶系统。
Apollo开放平台的发布标志着百度在人工智能的系统级开放进程更进一步，这也是环球范围内自动驾驶技能的第一次系统级开放。
百度将致力于将Apollo打造成汽车工业时期的安卓，但是比安卓更开放、能量更大。

7月5日百度AI开拓者大会上，百度首次对外公布Apollo详细的路线图、技能框架以及首期开放Apollo 1.0的能力。
会上，百度宣告Apollo生态互助伙伴同盟规模超50家，目前Apollo生态互助伙伴同盟已辐射OEM、Tier1、舆图公司、芯片公司、基金投资、个人开拓者、创业公司、研究机构及政府机构等，成为环球最强大的自动驾驶生态。

Apollo将供应一套完全的软硬件和做事系统，包括车辆平台、硬件平台、软件平台、云端数据做事等四大部分。
此外，百度还将开放环境感知、路径方案、车辆掌握、车载操作系统等功能的代码或能力，并且供应完全的开拓测试工具。
并且，百度还会在车辆和传感器等领域选择协同度和兼容性最好的互助伙伴，推举给接入Apollo开放平台的第三方互助伙伴利用，进一步降落自动驾驶的研发门槛。

Apollo核心技能的总体技能框架由4个部分组成：

Apollo的开放的软件平台，核心有四个模块：

（1）自定位模块，百度具备业界领先的高精舆图与传感器的能力领悟，能够为每一个车辆供应低本钱、全天候的精准定位。

（2）感知模块，感知是自动驾驶工业当前的创新重点，百度的感知模块将多个传感器组合在一起，通过人工智能技能，使每一辆车都能看清、看懂路况，看到每一个行人、每一个车辆、每一个障碍物。

（3）车辆方案掌握，利用AI+大数据以及最安全的驾驶策略，可以精准掌握每一辆车，同时可以适宜各个不同的路况。

（4）底层的运行框架，核心是安全性、可靠性和实时掌握，能支持Intel和NVIDIA不同的芯片。

Apollo的做事平台：

（1）高精舆图做事，是自动驾驶的根本。

（2）仿真引擎，快速累积海量的数据，能够使开拓者日行百万公里。

（3）安全做事。
百度将为开拓者供应持续、高度安全的做事。

（4）DuerOS，为每一辆供应智能化车内体验。
参考硬件平台和参考车辆平台，能支持各种各样的不同的打算硬件，从CPU到GPU到FPGA。
同时还支持各种不同的传感器，从GPS到IMU到摄像头、激光雷达、雷达等等。
通过将各个模块的领悟，Apollo为每一个开拓者供应了从零到一的能力进入自动驾驶研发。

图表8：2017年7月发布的Apollo路线图

图表9：Apollo平台开放情形（紫色为Apollo1.0开放部分，赤色部分为Apollo1.5开放部分）

2017年9月20日，百度宣告Apollo1.5正式开放，包含障碍物感知、决策方案、云端仿真、高精舆图做事、端到真个深度学习（End-to-End）等五大核心开放能力，并支持昼夜定车道自动驾驶。
个中，原来操持于年底开放的端到真个深度学习（End-to-End）在9月20日宣告提前开放。

能力一：障碍物感知

感知模块的目标是在给定从激光雷达传感器得到的三维点云数据后供应感知障碍的能力。
它能检测、分段和跟踪以高精度舆图ROI办法定义的障碍。
此外，它预测障碍物的运动和姿态信息(如航向、速率等)。
核心的3D感知模块是基于大规模点云数据演习的深度卷积神经网络(CNN)的障碍物检测和分割算法，包括高精舆图ROI过滤、基于CNN的障碍物检测与分割、MinBox障碍物框构建和HM物体跟踪。

图表10：3D感知模块的组成部分

模块

子模块

描述

感知核心模块

高精舆图ROI过滤

高精舆图ROI过滤算法根据舆图定义的ROI，对其外部的点云进行过滤。
它的紧张目标在于过滤掉一些无人车不关注的背景物体（例如道路周围的建筑物、树木等），以便让后续算法只关注道路上的障碍物。

基于CNN的障碍物检测与分割

经由高精舆图ROI过滤后,不在ROI区域内的背景障碍物（比如建筑物，树木等）已去除。
因此，对ROI内部（比如可行驶道路和交叉口）的点云进行物体检测和分割，从而得到前景障碍物例如小轿车、卡车、自行车、行人等。
该算法基于全卷积深度神经网络学习点云特色并预测障碍物的干系属性，并根据这些属性建构毗邻图进行基于连通片剖析的障碍物分割。
该算法将前辈的深度学习技能引入到点云障碍物检测领域，能够从大量数据中学习有效特色进行障碍物的检测与分割，其分割精度远远优于传统方法。

MinBox障碍物框构建

MinBox障碍物框构建3D框构架算法为检测和分割出的障碍物建立相应的边界框。
由于遮挡和离LiDar间隔较远问题等问题，障碍物的点云可能非常稀疏或者只覆盖某一部分。
inBox障碍物框算法能够根据检测到的障碍物点构建出最符合其朝向的边界框。

HM物体跟踪

HM目标物体算法用于跟踪ROI中检测和分割得到的障碍物。
该算法将当前帧检测到的障碍物与之前跟踪到的物体进行关联、删除老的跟踪物体、天生新的跟踪物体，形成终极的跟踪表输出，并预测障碍物的位置，速率和朝向等信息

止目前Apollo已有70多家互助伙伴。
新增互助伙伴包括OEM主机厂、Tier1供应商、开拓者生态公司。
同时百度宣告Apollo基金“双百操持”，将在三年内投入100亿资金，完成超过100家项目的投资，未来将进一步壮大Apollo平台的生态同盟。

能力二：决策方案

决策方案模块根据实时路况、感知模块输出的信息、道路限速等信息做出相应的轨迹预测和智能方案，同时兼顾安全性和舒适性，提高行驶效率。
决策方案模块紧张由障碍物检测、路径方案、选择与掌握三部分组成。

图表11：决策方案模块的组成部分

模块

子模块

描述

决策方案模块

障碍物预测

将位置模块得到的定位信息（车辆的位置、速率与加速度）与感知核心模块中得到的障碍物信息（如位置、方向、速率、加速度）结合，预测障碍物之后一系列可能的运动办法（如速率和路径）及各种运动办法对应的概率。
目前预测办法有三种：路径预测、自由（随机）移动预测、障碍物运动区域预测。

路径方案

基于定位信息、感知核心模块供应的障碍物信息、对障碍物运动的预测，同时考虑安全与舒适度，打算出车辆运行的无障碍路径。

选择与掌握

根据当前车辆的状态、方案功能给出的路径以及车上职员发出的指令，利用不同掌握算法天生指令（如转向、减速、刹车）并通报给汽车。

能力三：高精度舆图

高精度舆图与普通电子舆图的紧张差异是高精度舆图拥有更精确的车辆位置信息和更丰富的道路元素数据信息，起到构建类似于人脑对付空间的整体影象与认知的功能，可以帮助汽车预知路脸庞杂信息，如坡度、曲率、航向等，更好地规避潜在的风险。
是实现自动驾驶的关键所在。
此外，高精度舆图还起到了车辆间共享路况信息、识别交通标志的浸染。

能力四：云端仿真

个中开放云端仿真功能浸染极为主要，在正常的产品开拓过程中，良好的仿真测试环境将方便产品开拓者在仿照环境中快速测试产品的性能、可靠性等，加快产品的迭代测试周期从而提高产品测试效率：

图表12：云端仿真功能的浸染

开放内容

功能模块

功能子模块

描述

开放功能

内置高精舆图的仿真场景

基于不同的路型，基于不同的障碍物类型，基于不同的道路方案，基于不同的红绿灯旗子暗记。

场景上传调试

支持同时多场景的高速运行，支持单算法模块的上传运行，支持系统整套算法和运行环境的上传与运行。

智能场景通过判别系统

本期开放5个判别标准：碰撞检测，闯红灯检测，限速检测，在路检测，到达目的地检测

3D展示功能

供应实时路况，算法模块输出的可视化信息，以及无人车本身状态的全局信息。

开放能力

核心能力

智能陪练

该功能可以让自动驾驶路测更安全。

真实场景重修和多算法认证

在真实交通流复现的根本上，支持感知、方案、掌握多算法模块验证，让自动驾驶算法验证更为严谨。

日行百万

供应不间断的仿真测试，通过多次快速迭代来自动优化算法结果，让自动驾驶技能的发展更高效。

办理方案

创造问题

许可开拓者定义和选择各种评判打分标准，在云端仿真器中运行场景并创造问题。

办理问题

查问题场景反响出的征象，进而改进或更换系统里的相应模块，再次运行场景，直到问题办理。

验证问题

可自动拉取核心场景资源，针对测试中产生的问题，快速验证新算法，并支持单步调试与验证。
此外，还供应不间断的仿真测试，通过多次快速迭代来自动优化算法结果，做到研发全流程支持。

能力五：端到端

按照2017年7月百度发布的方案，端到端深度学习能力比原定的2017年12月提前了3个月，开放速率有所加快。
本次开放的障碍物感知和决策方案能力使车辆能够实现不分昼夜的精准障碍物识别，并能通过深度神经网络精准预测行驶路径，从而做出终极的驾驶决策。

百度IDG部门的郁浩在百度技能沙龙上的演讲中提到，和Apollo中端到端学习相对的是传统无人驾驶项目中紧张利用的规则式系统，这是过去二十多年无人驾驶研究的主流方向。
规则式系统从车辆开始是一个闭环：从车辆到车上的传感器，获取输入信息，这些信息经由感知层处理，提取出道路、行人和车辆等各种信息。
在感知到的信息的根本之上，再加入高精舆图等一些静态信息，把动态信息和静态信息结合到一起形成较完备的天下模型（World Model）——对外部环境的完备描述。
在此根本之上就可以进入到决策模块产生决策，然后掌握模块把决策旗子暗记通报给车辆。

图表13：规则式系统

上图是一个很大略的闭环模式，也有很多人提出了干系的或类似的架构，比如国际汽车工程师学会（SAE）在上边闭环的根本上，更细化分成大环、小环和各个模块之间的关系。

图表14：国际汽车工程师学会（SAE）推举的系统架构图

为了使规则式系统能够知足自动驾驶的须要，须要不断细化、得到更繁芜的功能模块图，真正系统落地时每每有上千个模块。
因此规则式系统有3个特点：

系统十分繁芜，须要人工设计上千个模块；

高精舆图本钱很高：规则式系统对外界有很大依赖，高精舆图精度要到厘米级。
这也带来须要及时更新等问题；

对车载硬件打算能力哀求很高，规则式系统中每一个模块都有相应的深度学习运用，支配在车上的每个模块都对打算资源需求很高，车上可能须要运行几个，乃至十几个深度学习网络。

大略地归纳一下，与规则式系统比较，端到端学习更像是在仿照、贴合人的思考过程，包括人的下意识思考。
相对规则式系统而言，端到端学习本钱更低，但须要大量优质数据来让机器进行学习、筛选各种情形下有效的路径。

图表15：Rule based与End-to-End比较

端到真个已有案例

Apollo1.5的互助者Momenta基于定车道昼夜自动驾驶能力，很快完成了实车验证。
实际道路测试表明，搭载了Apollo1.5的平台纵然在夜间可视度不佳的环境下，依旧能完成各种繁芜的交通场景识别。

另一个互助伙伴智行者科技在Apollo平台上打造的无人驾驶扫路车，目前已经在北京一家园区正式落地，首创了Apollo自动驾驶作业车的先例。
2017 CES Asia展会上，百度联合长城汽车、NVIDIA，在哈弗H7展示了基于单目摄像头+百度深度学习技能的端到端自动驾驶办理方案，进行了公开试乘。

图表16：封闭园区的固定路线的接驳

Apollo平台目标实现生态，开源广纳互助者参与

自Apollo1.0发布2个多月后，其在有名开源平台Github上已经聚拢了6000多的开拓者，位居开源平台前列。
Apollo GitHub将自己定义为一个开放的、完全的、安全的自动驾驶平台，以灵巧和高性能的技能架构，为全自动驾驶供应支持。

Apollo开源代码资源可以分为三部分，分别是apollo、apollo-platform、apollo-kernel。

第一部分，apollo该部分有入门文档，先容了Apollo的基本信息。
modules文件夹中是各个模块（如感知模块perception，预测模块prediction，端到端e2e）的开源内容。
还有一些其他文件夹：docker沙箱，scripts脚本，third_party第三方开源代码，tools工具。
解释文档推举利用已经设置好的沙箱模式。

第二部分，apollo-platform该部分内容用来供应平台支持，目前紧张是一套经由修正的ROS（机器人操作系统）。

第三部分apollo-kernel，该部分内容用来供应核心支持，目前Apollo核心利用的是修正过的Linux Kernel 4.4.32。

Apollo生态链及标的公司

无人驾驶快速落地，行业生态起到了关键性浸染，比拟手机的Android系统来看，在Android系统2009年面世之前，各个手机厂家都有自己的操作系统，而在Android系统出来后，短短几年内，各大手机厂商操作系统都统一在开源的Android系统之下(苹果公司的IOS除外)，而没有跟上这个趋势的厂商(如诺基亚、摩托罗拉等)很快就偃旗息鼓了。
现在Apollo平台，正如Android系统初生之时，在海内有一统平台的潜质，Apollo目前已经拥有70多家互助伙伴，已有多家互助伙伴采取公司的平台进行产品研发，未来前景良好。
因此，如果关注A股上市公司，建议投资者重点关注参与到Apollo家当链的公司，尤其是那些细分行业的龙头，具有良好的爆发性机会。

图表17：Apollo互助伙伴分类

分类

互助伙伴

当前及潜在互助机会

高校(5家)

北京航空航天算夜学、北京理工大学、清华大学、上海交通大学、同济大学

前沿技能探索及研发互助等

政府干系(5家)

北京亦庄等

园地支持及政策支持等。
如在北京亦庄示范区封闭试验场估量将于2017年底建成并对外供应做事，其一期培植内容为占地面积600亩的仿照特大城市交通场景的智能网联汽车测试基地，将容纳国内外各种车型进行研发试验与测试。

汽车制造商(19家)

北京汽车、北汽新能源等

在智能汽车的多领域进行互助，重点在于Apollo平台在各个汽车厂的汽车产品上的落地，这须要车厂供应干系的接口和研发支持。
如何北京汽车的互助内容包括在智能汽车、车联网、L3级智能驾驶、高精度舆图及车载舆图、联合品牌运营等领域展开互助等。

分类

互助伙伴

当前及潜在互助机会

汽车租赁、打车企业

一嗨租车、首汽租车等

智能驾驶汽车的终端用户

自动驾驶干系企业

AutonomouStuff

利用Apollo开放能力改装自动驾驶车

地平线机器人

基于车机或自动驾驶系统互助

路畅科技

MOMENTA

VIRES

智行者科技

互助的无人驾驶扫路机已投放

芯片供应商

英特尔

供应自动驾驶干系芯片

紫光展锐

英伟达

软件及办理方案供应商

微软

基于自动驾驶干系系统软件及办理方案互助

中科创达

博世

车联网企业

博泰

互助供应更为安全、便捷、经济的智能驾驶方案

同行者

远特科技

通讯供应商

复兴通讯

综合通信办理方案供应商

IT学习、社区

极客帮

技能学习、互换做事

优达学城

CSDN

Apollo保持着每周数十次频率的代码更新，从2017年7月到9月两个多月韶光新增6.5万行代码。
同时，Apollo得到环球开拓者的积极相应。
截止2017年9月20日，共有1300多个互助伙伴***利用了Apollo开源代码，近百个互助伙伴通过Apollo官网申请开放数据。
上线当月，在环球最大的开源社区Github的环球C++类项目中排名第一，6000多个开拓者推举利用Apollo开源软件。

PaddlePaddle：深度学习开放平台

PaddlePaddle前身是百度于2013年自主研发的深度学习平台，一贯为百度内部工程师研发利用。
2016年9月，百度宣告其深度学习平台PaddlePaddle在开源社区Github及百度大脑平台开放。
2017年年初，PaddlePaddle可在Google开源的Docker容器集群管理系统Kubernetes运行，并成为目前唯一官方支持Kubernetes的深度学习框架，两个开源项目的结合意味着深度学习对付广大开拓者正变得“触手可及”。

PaddlePaddle具备5大上风：

灵巧：PaddlePaddle支持大量的神经网络架构和优化算法，支持任意繁芜RNNs构造。

高效：PaddlePaddle会每一级的打算、内存、架构及通信进行优化，以充分利用异构打算资源。

可扩展：PaddlePaddle能通过优化通信，得到高吞吐量和性能。

易用：Paddlepaddle可以使开拓者更加专注于模型的高层构造。

可快速支配：由于PaddlePaddle大略、可扩展的特性，因此可被快速支配到各种运用处景中。

图表18：几类深度学习平台的比较

TensorFlow：大部分功能可以通过从库里直接调取代码实现，不须要手动编程。
内存占用较大，且不支持韶光序列的卷积。

Theano：相较于深度学习，其更适宜数值打算优化。
它许可自动功能梯度打算。
但目前不具备多GPU支持和水平功能。

Caffe：看重打算机视觉，灵巧性不足，安装过程较繁琐。
如果有新的改动，须要利用C++和CUDA进行编程；对付较小的改动，可以利用其Python或Matlab来完成。

Torch：是一个很好的平台，但是开拓措辞Lua较小众，学习本钱大。
实现并且优化了基本的打算单元，利用者可以在此根本上编写自己的算法。

MXNet：支持Python、R、C++等多种措辞，特殊受R措辞利用者的欢迎，并且有独特的多GPU扩展功能。

PaddlePaddle：利用界面类似于Caffe，并且较好地支持RNN与NLP以及多CPU/GPU并行打算。
相较于较TensorFlow，PaddlePaddle能帮助开拓者聚焦于构建深度学习模型；相较Caffe，PaddlePaddle支持更多运用处景。

图表19：Paddle与TensorFlow在RNN下的表现

目前，PaddlePaddle已经被运用于百度的30多个紧张产品，如外卖菜品识别、预估出餐韶光、海量图像识别分类、字符识别（OCR）、机器翻译和自动驾驶等领域。

百度“能听会看”作为触手、带动技能领域的商业化落地

从“能听”走向“能听懂”的学习之路

1、百度以语音识别为切入点，构建人工智能生态圈。

2017年，百度语音开放生态2.0。
目前，百度语音开放生态已经构建起包括模型层、功能层、交互层、接入层的四层开放架构，已有近25万开拓者纳入生态圈，日调用总数达20亿次。
在开放生态2.0中，百度将开放远场识别及唤醒技能、定制化语音合成、语音合成音色等技能：

远场语音识别及唤醒技能：百度通过数据增强技能，复用百度积累的海量搜索语音数据和天下领先的语音模型识别，将近场语音技能完全迁移到远场。
此外还适配包括Intel、科大讯飞、科胜讯在内的主流麦克风陈设。
同时对家居场景进行定向噪声优化；

定制化语音合成技能：包括定制化文本转语音技能、语音合成标注措辞标签措辞、根本标签及百度扩展内容；

开放音色合成：包括自然音色和个性化及明星合成音色；

图表20：语音技能开放现状

目前，百度已与遐想、复兴、长虹、索尼、iReader、携程、特斯拉等品牌互助，构建包含模型层、功能层、交互层、接入层的语音开放架构。

语音识别的目标因此电脑自动将人类的语音内容转换为相应的笔墨，其运用包括语音拨号、语音导航、室内设备掌握、语音文档检索、大略的听写数据录入等。

直到第三次人工智能热潮来临，深度学习的崛起、高性能打算和大数据的迅速发展才使语音识别从实验室走出并开始实现商业落地。
近年来语音识别准确率得到了极大的提升。
2016年11月，搜狗、百度、科大讯飞相继宣告个中文语音识别率达到了97%。

图表21：语音识别缺点率在近几年得到了极大降落

语音识别作为人工智能核心技能之一，目前各科技巨子都将其作为切入点，积极布局人工智能。
在智能语音领域方面的布局，科技巨子和初创公司的打法有所差异，详细表现为：

科技巨子：环绕主业，开放运用平台，同时通过收购、计策互助等手段补齐短板，打造人工智能生态圈；

智能语音成熟公司：基于原有技能上风，从单一技能厂商向人工智能家当生态构建者进军；

其他创业公司：深耕细分领域，重点布局家居、车载、机器人。

2、自然措辞处理技能授予机器认知能力

人类措辞与打算机之间相互浸染的研究领域称为自然措辞处理（简称NLP）。
它结合了打算机科学、人工智能和打算措辞学。
开拓职员利用NLP可以组织和构建知识，实行自动总结、翻译、命名实体识别、关系提取、情绪剖析、语音识别和主题分割等任务。
目前，中国在自然措辞处理领域的专利数量占比仅次于美国。

自百度出身之日起，中文分词这种的根本NLP技能便已经运用于搜索引擎。
自然措辞处理专家王海峰博士加入百度后对百度NLP事情进行了重新梳理。
在加强分词、专名识别、query需求剖析、query改写等传统方向的同时还拓展了机器翻译、机器学习、语义搜索、语义理解、智能交互、深度问答、篇章理解等新的技能方向。
在他的带领下，NLP团队已经包括了算法开拓、系统实现、学术研究、措辞学、产品设计和架构、前端、客户端工程开拓等多领域的人才，全面支持百度各种产品运用。

图表22：百度自然措辞处理技能概要

历经17年的积累，2013年百度首次开拓了NLP Cloud平台，拥有20多种NLP模块，每天的要求数超1000亿次，逐日流量达数十亿次，已为超2万个企业和开拓者供应百度翻译API，运用于百度搜索、Feed、O2O和广告等业务与产品方向。
此外，百度还供应语音翻译及利用字符识别技能进行的图片内容翻译。

在Baidu Create 2017上，百度开放了基于百度自然措辞处理技能的理解与交互技能平台UNIT（Understanding and Interaction Technology Platform），包括词法剖析、情绪剖析、机器翻译、语义表示、措辞模型、语义相似度等技能，为机器授予“理解”能力。

图表23：UNIT整体框架

UNIT基于百度海量的搜索数据、问答数据、网页数据等为对话系统的开拓供应大数据保障，为每个不同的对话任务智能推举干系数据，以供进一步的演习数据标注。
并首次推出理解与交互“对话演习师”模式让普通开拓者乃至零编程根本的人都能成为演习师。
对话系统通过与演习师对话便可不断完善系统功能、提升对话能力。
目前，UNIT已经运用于车载、客服、家居等场景。

图表24：演习师模式

全方位***理解技能使机器不仅“会看”，还会理解

在Baidu Create 2017上，百度发布了全方位***理解技能，包括***分割技能、语义理解、人脸识别及机器人视觉等。

***分割技能是无人驾驶/机器人的核心技能，对数据和精度哀求很高，须要像素级别的输出信息和更多的***演习数据。
目前百度具有天下第一个室外语义分割RGBD***数据集。

语义理解技能包括***封面选摘技能、***分类/标签技能、***智能比拟技能、***审核色情识别技能、***公众年夜世人物识别技能、***构造化剖析技能，并将上线***细粒度识别技能。

人脸识别：百度已经利用200万人的2亿张照片进行人脸识别根本模型演习，实现人脸检测、人脸比拟及人脸查找，并已运用于百度魔图、百度网盘、百度识图等产品中。
此外，百度人脸识别还具备活体识别功能。

机器人视觉开放平台由摄像机IMU模组、SLAM、障碍物检测、舆图重修、语义识别5大部分构成且已开源。
个中，SLAM采取双目视觉惯性算法，定位结果延迟小偏差低；云端API供应人脸识别、物体检测和字符识别功能。

打算机视觉是最紧张的人工智能根本技能之一，紧张包括信息采集、模型演习及识别。
目前，打算机视觉在图像识别和人脸识别两大领域的准确率都已经超过人类极限。
打算机视觉技能紧张包括图像及***处理、人脸识别、笔墨识别、智能监控等，个中人脸识别已经广泛运用于安防、公安、金融等行业。
在打算机视觉领域，我国与国外的差距较小。
2014年3月，喷鼻香港中文大学汤晓鸥教授团队的GaussianFace算法在人脸识别数据库LFW上准确率达98.52%，在环球首次打破人眼识别能力。
目前，中国在打算机视觉方面的专利已跃居天下第一,占当前环球专利公开数量的55%，并且增长势头强劲。

图表25：打算机视觉专利数量分布（单位：%）

今年1月，百度研究院成立AR实验室，同时推出AR开放平台DuMix供开拓者及内容创作者利用。
在Baidu Create 2017上，百度发布全新DuMix AR开放平台，供应根本的AR技能，包括AR SDK、内容制作工具、云端内容平台和内容分发做事4大部分：

Dumix AR SDK：支持本地识别跟踪、语音交互、SLAM等20多项功能，帮助移动APP集成AR。

内容制作工具：开拓者可以利用素材模版库和制作工具开拓AR内容，也可以利用百度认证的内容供应商体系，快速为开拓者供应全面专业的内容制作做事。

云端内容管理平台：通过云平台办法，供应内容管理、更新，渠道管理，数据统计等多种内容管理做事；

内容分发做事：百度还会在手机百度APP、搜索/Feed等百度系入口上供应优质AR体验的分发做事，通过Dumix AR制作和接入的AR，将可以触达百度的亿级用户。

图表26：DuMix AR的能力特点和技能上风

未来，DuMix AR开放平台将通过打通手机百度上内容分发渠道,供应更多场景的AR行业办理方案，赋能各行各业，共同探索AR代价。

总结：人工智能仍在探索阶段，各家技能方向并不完备趋同，又涉及全体家当链的领悟能力，因此，终极落地形态和成熟的商业场景存在较大的不愿定性。