人工智能成长概况:语音识别篇_语音辨认_语音
语音识别是让机器识别和理解说话人语音旗子暗记内容的新兴学科,目的是将语音旗子暗记转变为文本字符或者命令的智能技能,利用打算机理解讲话人的语义内容, 使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机互换办法。它是一门综合学科,与很多学科紧密相连,比如措辞学、旗子暗记处理、打算机科学、生理和生理学等。
资料来源:公开网络
语音识别首先要对采集的语音旗子暗记进行预处理,然后利用干系的语音旗子暗记处理方法打算语音的声学参数,提取相应的特色参数,末了根据提取的特色参数进行语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和演习,即提取语音库中语音样本的特色参数作为演习数据,合理设置模型参数的初始值,对模型各个参数进行重估,使识别系统具有最佳的识别效果;第二个阶段便是识别, 将待识别语音旗子暗记的特色根据一定的准则与演习好的模板库进行比较,末了通过一定的识别算法得出识别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特色参数的选择都有直接的关系。
实际上,语音识别也是一种模式识别,其基本构造如下图所示。和一样平常模式识别过程相同,语音识别包括如图所示3个基本部分。实际上,由于语音信息的繁芜性以及语音内容的丰富性,语音识别系统要比模式识别系统繁芜的多。
语音识别系统框架
个中,预处理紧张是对输入语音旗子暗记进行预加重和分段加窗等处理,并滤除个中的不主要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。特色参数提取是将反响旗子暗记特色的关键信息提取出来,以此降落维数减小打算量,用于后续处理,这相称于一种信息压缩。之后进行特色参数提取,用于语音演习和识别。常用的特色参数有基于时域的幅度、过零率、能量以及基于频域的线性预测倒谱系数、Mel 倒谱系数等。
2 语音识别发展历史
语音识别的研究事情可以追溯到20世纪50年代。在 1952 年,AT&T贝尔研究所的 Davis,Biddulph 和 Balashek 研究成功了天下上第一个语音识别系统 Audry 系统,可以识别10个英文数字发音。这个别系识别的是一个人说出的伶仃数字,并且很大程度上依赖于每个数字中的元音的共振峰的丈量。1956 年,在 RCA 实验室,Olson 和 Belar 研制了可以识别一个说话人的10个单音节的系统, 它同样依赖于元音带的谱的丈量。1959 年,英国的 Fry 和 Denes 研制了一个能 够识别4个元音和9个辅音的识别器,他们采取了谱剖析仪和模式匹配器。所不 同的是他们对音素的序列做了限定(相称于现在的语法规则),以此来增加字识别的准确率。但当时存在的问题是的理论水平不足,都没有取得非常明显的成功。
60 年代,打算机的运用推动了语音识别技能的发展,利用了电子打算机进 行语音识别,提出了一系列语音识别技能的新理论—动态方案线性预测剖析技能, 较好的办理了语音旗子暗记产生的模型问题。该理论紧张有三项研究成果。首先是美国新泽西州普林斯顿 RCA 实验室的 Martin 和他的同事提出一种基本的韶光归一 化方法,这种方法有效的办理了语音事宜韶光尺度的非均匀性,能可靠的检测到语音的起始点和终止点,有效地办理了识别结果的可变性。其次,苏联的 Vintsyuk 提出了用动态方案的方法将两段语音的韶光对齐的方法,这实际上是动态韶光规 整(Dynamic Time Warping)方法的最早版本,只管到了80年代才为外界知晓。 第三个是卡耐基梅隆大学的 Reddy 采取的是音素的动态跟踪的方法,开始了连续语音识别的研究事情,为后来的得到巨大成功的连续语音识别奠定了根本。
70 年代,语音识别研究取得了重大的具有里程碑意义的成果,伴随着自然措辞理解的研究以及微电子技能的发展,语音识别领域取得了打破性进展。这一期间的语音识别方法基本上是采取传统的模式识别策略。个中苏联的 Velichko 和 Zagoruyko 的研究为模式识别运用于语音识别这一领域奠定了根本;日本的迫江和千叶的研究则展示了如何利用动态方案技能在待识语音模式与标准语音模式语音识别之间进行非线性韶光匹配的方法;日本的板仓的研究则提出了如何将线性预测剖析技能加以扩展,使之用于语音旗子暗记的特色抽取的方法。同时,这个期间还提出了矢量量化和隐马尔可夫模型理论。
80 年代,语音识别研究进一步走向深入。这一期间所取得的重大进展有:
(1)隐马尔科夫模型(HMM)技能的成熟和不断完善,并终极成为语音识别的 主流方法。
(2)以知识为根本的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种措辞知识,诸如构词、句法、语义、对话背景等方面的知识来帮助进一步对语音识别和理解。同时在语音识别研究领域,还产生了基于统计概率的措辞模型。
(3)人工神经网络(ANN) 在语音识别中的运用研究的兴起。ANN 具有较好的区分繁芜分类边界的能力, 显然它十分有助于模式识别。在这些研究中,大部分采取基于反向传播算法(BP 算法)的多层感知网络。
20 世纪 90 年代,语音识别技能逐渐走向实用化,在建立模型、提取和优化特色参数方面取得了打破性的进展,使系统具有更好的自适应性。许多发达国家和著名公司都投入大量资金用以开拓和研究实用化的语音识别产品,从而许多具有代表性的产品问世。比如 IBM 公司研发的汉语 ViaVoice 系统,以及 Dragon 公司研发的 DragonDictate 系统,都具有说话人自适应能力,能在用户利用过程中不断提高识别率。
21 世纪之后,深度学习技能极大的促进了语音识别技能的进步,识别精度大大提高,运用得到广泛发展。2009 年,Hinton 将深度神经网络(DNN)运用于语音的声学建模,在 TIMIT 上得到了当时最好的结果。2011 年底,微软研究院的俞栋、邓力又把 DNN 技能运用在了大词汇量连续语音识别任务上,大大降 低了语音识别缺点率。从此语音识别进入 DNN-HMM 时期。DNN 带来的好处是不再须要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序构造信息,使得对付状态的分类概率有了明显提升。同时 DNN 还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。
目前,语音识别技能已逐渐被运用于工业、通信、商务、家电、医疗、汽车电子以及家庭做事等各个领域。例如,现今盛行的手机语音助手,便是将语音识别技能运用到智好手机中,能够实现人与手机的智能对话功能。个中包括美国苹果公司的 Siri 语音助手,智能 360 语音助手,百度语音助手等。
3 人才概况
环球人才分布
学者舆图用于描述特定领域学者的分布情形,对付进行学者调查、剖析各地区竞争力现况尤为主要,下图为语音识别领域环球学者分布情形:
语音识别环球学者分布
舆图根据学者当前就职机构地理位置进行绘制,个中颜色越深表示学者越集中。从该舆图可以看出,美国的人才数量上风明显且紧张分布在其东西海岸;亚洲也有较多的人才分布,紧张在我国东部及日韩地区;欧洲的人才紧张集中在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;语音识别领域的人才 分布与各地区的科技、经济实力情形大体同等。
此外,在性别比例方面,语音识别领域中男性学者占比 87.3%,女性学者占 比 12.7%,男性学者占比远高于女性学者。
语音识别领域学者的 h-index 分布如下图所示,大部分学者的 h-index 分布在中间区域,个中 h-index 在 30-40 区间的人数最多,有 752 人,占比 37.3%, 小于 20 区间的人数最少,只有 6 人。
语音识别学者 h-index 分布
中国人才分布
我国专家学者在语音识别领域的分布如下图所示。通过下图我们可以创造, 京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,比较之下,要地本地地区的人才较为匮乏,这种分布与区位成分和经济水平情形不无关系。同时, 通过不雅观察中国周边国家的学者数量情形,特殊是与日韩、东南亚等亚洲国家比较, 中国在语音识别领域学者数量较多且有一定的上风。
语音识别中国学者分布
中国与其他国家在语音识别领域的互助情形可以根据 AMiner 数据平台剖析 得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中 国与各国之间互助论文的数量,并按照互助论文揭橥数量从高到低进行了排序, 如下表所示。
语音识别领域中国与各国互助论文情形
从上表数据可以看出,中美互助的论文数、引用数、学者数遥遥领先,表明 中美间在语音识别领域互助之密切;此外,中国与欧洲的互助非常广泛,前 10 名互助关系里中欧互助共占 4 席;中国与巴基斯坦互助的论文数虽然不是最多, 但是拥有最高的均匀引用数解释在互助质量上中巴互助达到了较高的水平。
4 语音识别进展
随着人工智能的迅速发展,语音识别的技能越来越成为国内外研究机构的焦点。人们致力于使机器能够听懂人类的话语指令,并希望通过语音实现对机器的掌握。作为一项人机交互的关键技能,语音识别在过去的几十年里取得了飞速的发展,在研究和探索过程中针对语音识别的各部流程进行了各种各样的考试测验和改造,以期创造更好的方法来完针言音识别流程中的各个步骤,以此来促进在不同环境下语音识别的效率和准确率。研究职员从最大略的非常小词汇量的阅读式的语音识别问题开始,逐渐转向越来越繁芜的问题。
近年来智能语音进入了快速增长期,语音识别作为语音领域的主要分支得到了广泛的关注,如何提高声学建模能力和如何进行端到真个联合优化是语音识别领域中的主要课题。
语音识别经历了从 2012 年最开始的 DNN 的引入时的 Hybrid HMM 构造, 再到 2015 年开始吸引大家研究兴趣的 CTC 算法,而后到 2018 年的 Attention 干系构造的研究热点。Attention 干系算法在语音识别或者说话人识别研究的文章中涌现频率极高。从最开始Attention,到 Listen-Attend-Spell,再到Self-Attention (或者 Transformer),在不同的文章被作者多次先容和剖析,频繁涌如今了干系 文章的 Introduction 环节中。在 Attention 构造下,依然还有很多内容须要研究者 们进一步地探索:例如在一些情形下Hybrid 构造依然能够得到State-of-the-art的 结果,以及语音数据库规模和 Attention 模型性能之间的关系。
在近两年的研究中,端到端语音识别仍旧是 ASR(Automatic Speech Recognition)研究的一大热点,正如上文提到的,基于 Attention 机制的识别系统已经成为了语音技能研究主流。同时,随着端到端语音识别框架日益完善,研究者们对端到端模型的演习和设计更加的关注。远场语音识别(far-field ASR), 模型构造(ASR network architecture),模型演习(model training for ASR),跨语种或者多语种语音识别(cross-lingual and multi-lingual ASR)以及一些端到端语音识别(end-to-end ASR)成为研究热点。
在语音合成方面,高音质语音天生算法及 Voice conversion 是近两年研究者 关注的两大热点,Voice Conversion 方向的研究重点紧张集中在基于 GAN 的方法上。在措辞模型方面(Language Model)的研究热点紧张包括 NLP 模型的迁 移,低频单词的表示,以及深层 Transformer 等。
在说话人识别方面,说话人信息,特殊是说话人识别及切分,正被越来越多的研究者所重视。目前 Attention 在说话人方面更类似一种 Time Pooling,比 Average Pooling 及 Stats Pooling 更能捕捉对说话人信息更主要的信息,从而带来性能提升。说话人识别技能经历深度学习带来的性能飞跃后,在模型构造、丢失函数等方面的磋商已经较为成熟,以 TDNN、ResNet 加上 LMCL、ArcFace 的主流模型开始不断刷新各数据集的性能上限。模型以外的成分逐渐成为制约说话人系统的瓶颈。说话人技能目前也逐渐暴露出与人脸识别同样的易受攻击的问题。 因此,ASVspoof 这样的 Challenge 从 2015 年起就开始关注声纹反作弊问题。相信随着此类研究的不断深入,结合声纹系统的性能提升,声纹将有望变成我们的 “声音***”。
扩展阅读:人工只能发展概况:机器学习篇
人工智能发展概况:打算机视觉篇
人工智能发展概况:知识工程篇
人工智能发展概况:自然措辞处理篇
人工智能发展概况:语音识别篇
***:人工智能时期资料来源:公开网络
本文系作者个人观点,不代表本站立场,转载请注明出处!