人工智能科普|让机械开口措辞!语音合成相关常识点_技巧_语音合成
语音合成技能发展历史
纵不雅观语音合成技能的历史长河,这项技能大概经由了6个阶段的发展。
1、起源阶段语音合成技能的起源可以追溯到18到19世纪,当时是用机器装置来仿照人的发声,那时候科学家们会制作出一些风雅的气囊和风箱去搭建发声的系统,可以合成出一些元音和单音。
2、电子合成器阶段20世纪初,涌现了用电子合成器来仿照人发声的技能,最具代表性的便是贝尔实验室的Dudley,他在1939年推出了名为“VODER”的电子发声器,利用电子器件来仿照声音的谐振。
3、共振峰合成器阶段
到了20世纪80年代,随着集成电路技能的发展,涌现了比较繁芜的组合型的电子发生器,比较代表性的KLATT在1980年发布的串/并联稠浊共振峰合成器。
4、单元挑选拼接合成阶段到了20世纪80、90年代随着PSOLA方法的提出和打算机能力的发展,单元挑选和波形拼接技能逐渐走向成熟,90年代末刘庆峰博士提出听感量化思想,首次将中文语音合成技能做到了实用化地步。
5、基于HMM的参数合成阶段在20世纪末期,还有其余一种基于HMM的参数合成技能涌现。
6、基于深度学习的语音合成随着AI技能不断发展,基于深度学习的语音合成技能逐渐被人们所知道,DNN/CNN/RNN等各种神经网络构型都可以用来做语音合成系统的演习,深度学习的算法可以更好地仿照人声变革规律。
语音合成技能事理简介1、单元挑选波形拼接技能
语音合成技能的实质是将文本信息转化针言音信息,在理解这项技能之前,我们先来看一个案例,现在有一句待合成文本:外交部评日本首相国会演说。
如果我们要将这句文本信息变成语音信息,首先须要在语音合成数据库里面挑选出这句文本信息所包含的元素,比如:外交部、日本等。
挑选完元素之后将这些元素按照一定的顺序组合排列,末了再输出我们想要合成的那句语音信息。
以上这些便是一个大略的单元挑选波形拼接技能实现过程。
单元挑选和波形拼接的关键技能点有2点:语料库设计和标注;目标代价和连接代价打算
2、基于HMM的参数语音合成基于HMM的参数语音合成技能比较于单元挑选波形拼接技能,在操作层面上会更加流程化。
我们来看下基于HMM的演习流程图,紧张包括演习流程和合成流程。
将录制好的音库,提取出相应的语音参数,然后将标注数据和声学提取数据一同构建HMM的演习模型,通过高下文属性和问题集的决策树模型,构建演习后的HMM模型,这便是演习流程。
合成流程中我们通过对输入文本的剖析,来进行高下文干系HMM演习的序列决策,再将天生后的语音送入参数合成器中,末了输出合成之后的语音。
基于HMM的参数语音合成的关键技能有高质量语音声码器,以及基于高下文的决策树模型。
3、基于深度学习的语音合成相对付传统的HMM模型,深度学习算法模型能力更强,数据利用率更高,效果上风更为明显。Deepmind提出波形点建模方法,在全体语音合成技能发展史上都是具有里程碑意义的。
语音合成技能范例运用1、语音合成调用形式先容A、云端合成:客户端将合成文本提交云端做事,云端下传合针言音。
上风:适用性最佳,本地打算量小,资源占用小
毛病:须要一定的流量需求。
B、分布式合成:快速办理语音合成分外符号、多音字等问题
上风:网络流量低,相应速率快;声学音库在本地:降落网络流量,降落云端合成本钱
C、本地合成:合成引擎在本地
上风:相应快,无网络哀求
毛病:对本地打算资源有哀求,效果更新较为滞后
D、提示音模板:运用型组合,根据运用功能特点定制优化效果,如景象预报
上风:有效改进助理类体验。
2、语音合成运用案例先容——舆图导航在舆图导航中,我们做了很多有名人物的语音合成,对利用效果和体验来说,非常nice。
有志玲姐姐甜美的娃娃音,有郭老师比较轻快的相声口,有罗永浩带来的严明导航。
这种体验办法便是提示音模板加受骗地语音合成的一个技能方案,在讯飞开放平台都可以找到,我们有多种发音人组合。
如果你以为这种发音人模板不符合需求,我们可以为你定制发音人模板
3、语音合成运用案例先容——配音讲授如果大家有配音需求,可以在讯飞开放平台上探求发音人以及可以去讯飞配音这样的网页上探求比较有特色的发音人做***以及运用配音讲授。
4、语音合成运用案例先容——H5办理方案这是我们和广告方或者需求方做的一些用于广告宣扬的一些界面的办法,我们与肯德基KK上校做了H5的交互宣扬,在页面上可以和肯德基老爷爷去做交谈、说话;
罗永浩锤子手机的发布会也用了H5界面,罗永浩给你打电话,用他自己的声音;
京东H5活动页面也是同理,将你的祝福、想法发送宣扬。
这种H5形式多样,效果也不错,用于有传播需求的需求方做一个沟通和方案发布,可以知足大家的业务需求。
本文系作者个人观点,不代表本站立场,转载请注明出处!