Siri、小度和小冰……它们是怎么做到和你相谈甚欢的？_语音_神经收集

2024-11-24 13:07:38 智能写作

你知道小冰吗？你呼叫过小度吗？你和小娜互动过吗？你利用过Siri吗？如果都没有，那你就out了。
它们都是当下很火爆的智能语音机器人，很多人都和它们聊过天。

Siri、小度和小冰……它们是怎么做到和你相谈甚欢的？_语音_神经收集智能写作

日前，美国投资机构Mangrove Capital Partners发布了2019年《语音技能报告》。
报告剖析了语音助理做事的日益遍及，并预测苹果2020年将推出Siri操作系统。
那么，究竟什么是语音技能？它有哪些运用？语音操作系统又是什么？为此，采访了干系专家。

通过纯语音信息实现与机器交互

视觉中国

与图像识别、机器学习一样，智能语音是人工智能的一个分支。
在人工智能非常火热确当下，从Siri到小度，从小冰到小娜，智能语音正在融入人们的生活之中。

所谓智能语音技能，便是研究人与打算机直接以自然语音的办法进行有效沟通的各种理论和方法，涉及语音识别、内容理解、对话问答等。
一样平常来说，智能语音便是利用打算机对语音信息进行自动处理和识别的技能。

“从引擎模块的角度讲，智能语音技能包括语音前端处理（含语音增强）、语音识别、语音合成、语义理解对话管理和声纹识别等模块。
个中，语音识别便是将语音信息通过打算机自动处理转化成笔墨的过程，也叫语音转写，它包括语音分段、端点检测、特色提取、解码以及后处理等过程。
”中国科学院声学研究所（以下简称中科院声学所）研究员赵庆卫见告科技日报。

目前，智能语音技能紧张运用于智能家居、虚拟助手、可穿着设备、智能车载、智能客服、智能医疗、陪伴机器人等方面。
所谓虚拟助手，便是智能语音助手，它的核心在于人类通过纯语音信息实现与机器的交互，让智能机器“助手”帮忙完成指派的任务。

在赵庆卫看来，语音操作系统是一个比较大胆的设想，基于语音的人机交互有很大的发展潜力，以是不少互联网企业都看好这个方向。
目前，亚马逊已经打造了一个智能语音云平台（Alexa），平台上有各种智能语音运用（8万种技能），在这个平台上，用户可以通过语音发出一系列指令，比如购物、搜索、听音乐、讲故事等。

智能语音技能的前世今生

事实上，智能语音技能的研究起源于20世纪50年代。
1952年，美国贝尔实验室制造了一台6英尺高的自动数字识别机“Audrey”，它可以识别数字0—9的发音，且准确度高达90％以上。
并且它对熟人的精准度高，而对陌生人则偏低。
1958年，中科院电子所的声学研究室利用电子管实现了10个元音的识别。
“由于那时打算能力很弱，智能语音只能做一些特殊大略的字母或数字的识别。
”赵庆卫说道。

20世纪60年代到70年代初，语音识别的研究取得了一定进展。
“此时，智能语音技能开始形成系统的框架，提出了基于线性预测编码（LPC）技能的特色提取方法和动态韶光规整（DTW）技能，并且利用模板匹配的方法做一些大略的语音识别（小词汇量、特定人、伶仃词）”。

从20世纪70年代中期到80年代，语音识别的框架有了打破，统计模型逐步取代模板匹配的方法，隐含马尔科夫模型成为语音识别系统的根本模型。
同时，也采取高斯稠浊模型作为声学模型的紧张建模方法，连接词识别和中等词汇量连续语音识别得到了较大发展。

“到90年代的时候，根本的神经网络语音识别模型已经提出。
但当时神经网络语音识别模型之以是没能取得较大的打破，紧张是由于当时做事器的打算能力不足强以及演习语音数据的量不足多。
”赵庆卫说，90年代时的神经网络语音识别模型没能替代传统方法，此时智能语音技能还是以隐含马尔科夫模型和高斯稠浊模型为基本框架。

从20世纪90年代到21世纪初，非特定人、大词汇量、连续语音识别系统的研究成为国际语音界研究方向的主流。
1997年，IBM首个听写产品Via Voice问世，用户只要对着发话器说出想要输入的笔墨，系统就会自动识别并输出笔墨。

2002年，中科院自动化所推出了“天语”中文语音系列产品——Pattek ASR；2005年，中科院声学所推出海内第一个自主研发的电信级语音识别平台，首次实现了国产语音识别软件的规模运用，在中国移动23个省的增值业务上线运用，霸占了海内80%市场份额，使美国公司对中国语音识别市场的垄断成为历史。

深度神经网络框架成为主流

2010年，随着做事器的打算能力大幅提高（受益于GPU的运用）和演习语音数据的大幅度增加（受益于移动互联网和云打算的发展），微软基于深度神经网络的语音识别研究取得较大进展，“识别缺点率相对低落20%以上”。
此后，深度神经网络的建模上风被许多国际和海内有名语音研究机构所验证，业界开始认识到基于深度神经网络的建模框架比原来的框架识别效果明显要好，“现在大家基本都采取了基于深度神经网络的建模框架。
”赵庆卫说道。

最近几年，基于深度神经网络的语音识别技能也进行了持续的迭代，从根本的深度神经网络发展到延时神经网络（TDNN）、双向是非时影象（BLSTM）以及卷积神经网络（CNN）等；近年来，基于端到端架构（End-to-End）的语音识别系统正在被语音识别的学术界和工业界深入研究，一些系统也已经上线，中科院声学所将其最新研究成果实际运用于中国移动通信集团和中国电信集团的客服热线，智能技能直接手事了数以亿计的客户。

据理解，中科院声学所长期致力于语音识别核心技能研究。
针对实时语音识别的需求，研究职员提出一种基于稠浊神经网络（延时神经网络+输出投影门循环单元）的低延时声学建模技能,可处理永劫信息，网络构造简洁，打算速率快，易于并行化演习。
该模型构造已作为一种新型的回馈神经网络构造被国际主流语音识别开源软件Kaldi采纳。
在非实时语音识别方面，提出基于BLSTM-E（双向是非时影象扩展）的深度神经网络构造，提升了现有主流BLSTM的性能，并办理了序列化演习条件下LSTM（是非时影象网络）对不同长度语音输入的鲁棒性差的问题。

文中图片来自网络