过去一年,阿里巴巴在人工智能商业化道路上硕果累累。
7月,阿里巴巴发布了首款智能语音音箱天猫精灵,在双11当天售出了100万台;10月,阿里巴巴在杭州云栖大会上推出了AliGenie语音开放平台,以及AR开放平台;11月,刚刚从乌镇参加完天下互联网大会的马云,在上海的申通地铁上用语音交互的办法购买了一张地铁票,向其构想的城市大脑近了一步。

深度申报:NIPS会议 阿里3部门连续3天为5千余人分享人工智能技能_阿里巴巴_人工智能 AI快讯

在学术研究上,阿里巴巴也交了份不错的答题卷。
ACM MM2020会议主理权落户阿里巴巴,使其成为首个得到主理权的中国企业。
城市大脑成为首批入选国家新一代人工智能开放创新平台的人工智能技能做事。
在此前的IJCAI会议上,阿里巴巴有11篇论文入选,CVPR会议入选4篇、KDD会议入选5篇,ACM MM会议入选3篇。
这次NIPS大会上,阿里巴巴有两篇论文入选Workshop并进行Oral和Poster形式报告。

阿里巴巴在人工智能上的光鲜,归功于其底层技能。
在乌镇、在上海,你看不到的研究职员和科学家们,来到了洛杉矶长滩的NIPS大会上,展示了这些技能孵化的全过程。
阿里巴巴iDST院长金榕、阿里巴巴人工智能实验室的高等专家张硕、阿里巴巴搜索奇迹部的研究员李欣博士分别开设了迷你研讨会,先容阿里巴巴在人工智能领域的创新。

iDST:多媒体信息检索和模型压缩

如今的阿里巴巴不再只是定位于一家电子商务公司,在除了包括淘宝、天猫等电子商务业务以外,阿里巴巴更着眼于生态系统的培植,席卷数字营销(阿里妈妈)、***(优酷)、金融科技(蚂蚁金服)、社交媒体(微博)、舆图(高德)、物流(菜鸟)平分歧的业务。

这就须要阿里巴巴iDST(数据科学与技能研究院)的人工智能技能赋能。
在NIPS阿里巴巴的展区,iDST院长金榕展示了今年在打算机视觉和深度学习模型优化方面的技能成果。

(阿里巴巴iDST院长金榕)

在打算机视觉领域,金榕提到了2014年上线移动端淘宝的拍立淘。
大略而言便是通过搜索图片找到相应的产品。
拍立淘刚上线时还无人问津,但现在已经成为移动端淘宝最主要的商品搜索功能之一,拥有超过千万级日生动用户,几十亿商品图片的离线索引构造和在线查询。

拍立淘紧张通过深度学习对商品进行排序。
模型通过输入用户记录的三元组数据(查询图片、点击图片和未点击图片)来演习模型的排序丢失函数,按照从高到底的顺序列出最有可能匹配的商品。

拍立淘的技能也被运用到跨媒介的信息检索,比如通过笔墨来搜索相应的图片。
下图中,你可以输入不同的笔墨描述,从裙子到赤色V领短裙,输出的结果也更加精准。

另一个展示成果是模型压缩。
深度学习模型的层级数动辄成百上千,拥有几十亿个参数,这对存储和预测韶光都带来困难。

iDST研究员采取了低比特量化的方法,所有的权值不用浮点数表示,而是用+1,0,-1表示。
原来一个32bit权值现在只须要三个bit就可以表示,可以极大地减小模型尺寸。

同时,为理解决低比特量化所带来的不稳定性,iDST引入了交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。
这是一种最优化算法,紧张针对带约束的凸优化问题。
此外为了更有效地运行ADMM,iDST开拓了额外梯度下架方法(extra gradient descent method)来办理优化问题。

试验结果显示,三比特(-1、0、1)方法比较全精确度险些没有明显的丢失。

人工智能实验室:AliGenie语音助手和AR开放平台

在2016年低调成立的阿里巴巴人工智能实验室,目前已经拥有了200多位科学家和研究员。
比较于iDST倾向深度学习领域的研发,人工智能实验室的定位是研究消费级产品。

据人工智能实验室的高等专家张硕先容,人工智能实验室的紧张任务是打造下一代的人机交互平台,并且在三个方面带来人性化的机器:感知和推理能力(语音识别、措辞理解和打算机视觉);知识数据库(包括知识图谱和用户配置文件);按需行为(做事和流动性)。

(张硕在先容阿里巴巴人工智能实验室)

随后,张硕先容了实验室在今年推出的三个紧张产品:智能音箱、语音开放平台AliGenie、和AR开放平台。

天猫精灵X1是阿里巴巴推出的首款智能音箱。
搭载了AliGenie人机交互系统,类似于亚马逊的Alexa。
除了继续了大部分智能音箱的特点外,天猫精灵X1采取了声纹识别技能,能够直接识别用户声音,直接进入用户账号实现语音购物。

(图为天猫精灵X1智能音箱)

天猫精灵X1背后的交互系统AliGenie也在云栖大会上实现了升级,成为了可以让普通智能硬件搭载的语音开放平台。
目前,AliGenie 平台面向硬件品牌商和方案商供应语音交互技能、自然措辞处理能力、云做事系统、开拓工具包和软硬件及量化标准。
针对个人和行业运用开拓者 ,AliGenie 平台供应包括语音唤醒、语音识别、声纹识别、语意理解、语音合成的开拓者套件。

同时与AliGenie推出的AR开放平台意味着阿里巴巴发力机器视觉。
AR开放平台将面向开拓者开放2D识别追踪、3D识别追踪、内容制作平台、高质量渲染引擎等核心能力。
开拓者通过接入套件,即可快速创建AR内容,无需担心开拓算法,利用传感器,GPU优化等难题。

搜索奇迹部:用户个性化搜索引擎

从电商起步的阿里巴巴,重视在商品搜索的提升。
来自阿里巴巴搜索奇迹部的研究员李欣博士在NIPS大会第三天带来了有关深度学习优化商品搜索的演讲。

(李欣博士在先容深度学习优化商品搜索)

阿里巴巴的商品搜索技能从2013至今经历过五次重大的迭代。
如今,阿里巴巴的搜索平台都依赖于深度学习技能。

商品搜索的根本架构紧张分三层:最底层是数据平台,实时处理用户需求和用户标签,同时做线下预测和线下模型演习;中间层紧张卖力关键词索引和个性化索引;最上层是做搜索平台、个性化引擎和图像引擎。

目前,阿里巴巴的商品搜索团队的发展方向紧张有三个:构建更大规模的排序系统的机器学习平台;提升排序系统对用户行为的快速反应能力;提高算法的效率。

搜索团队利用了一种叫做深度用户个性化网络(Deep User Perception Network,DUPN),通过输入用户信息和商品信息,实现多个不同的任务,比如预测用户的商品点击率、预测用户对商品的价格偏好、以及终极的商品排序。

“这个网络最大的特点的是基于环境变革的把稳力机制 。
个性化搜索会基于当前时段的热门商品和用户兴趣而改变,比如在双11的时候,超过100万的用户购买了阿里巴巴最新推出的智能语音音箱天猫精灵X1,商品价格和用户兴趣都由于双11这一天而发生改变,”李欣博士表示。

正是基于这一点,DUPN增加了Attention用于线上模型捕捉环境变革,然后调度参数。

在表示商品特色时,DUPN采取了多模态的表征,比如商品ID、笔墨描述、图片描述、统计描述。
从结果看,基于多模态的模型能够比单一模态的模型在学习等级信息检索(LETOR),用户点击率(CTR)和价格预测上取得更好的准确率。

比较于DNN,CNN和LSTM,演习后的DUPN有着更好的效果,而end-to-end DUPN则基于pre-DUPN在价格预测上有着进一步的提升。

为了提升模型的效率。
阿里巴巴团队采取了Cascade Learning,将数据分身分歧层级。
如下图所示,一开始的数据只采取商品的几个特色,之后会逐步增加特色。

而在算法推理加速上,阿里巴巴团队加入了Binary-Value Network,能够得到更小的模型、更快的速率,代价是危害一些准确率。
从结果上看,比较于原始矩阵,采取BNN之后的信息吞吐量可以提升至三倍。

在购物搜索这个领域,李欣博士指出还存在很多寻衅。
比如:如何覆盖新用户和新物品;多模态交互则是一个有趣的话题,可以利用商品图片的特色来提升排序算法的质量;同时,阿里巴巴自己研发的虚拟语音机器人阿里小蜜也可以和搜索系统相结合,用基于语音或者笔墨的交互来推举商品。

近两年,阿里巴巴一贯在加大技能研究,以实现在根本科学和颠覆性技能上取得进展。
在今年杭州云栖大会上,阿里巴巴成立环球性技能研究机构“达摩院”,未来三年在技能上总投入将超过1000亿公民币,并公布涵盖机器智能、智联网、金融科技等多个家当领域的技能研究内容。

阿里巴巴表示,明年乃至于之后的每年,阿里巴巴都将会是NIPS的常客,并在这个舞台展示其人工智能的创新。