微软的人工智能语音生成器在测试中达到与人类一致水平_微软_样本
借助 Vall-E 的根本,新的人工智能语音工具集成了两大增强功能,大大提高了性能。分组代码建模使微软能够更好地组织编解码器代码,从而缩小引列长度,提高推理速率,帮助战胜与长序列建模干系的寻衅。
与此同时,\公众重复感知采样\"大众重新考虑了原始的核采样过程,以便在解码时探求标记重复。微软表示,这一过程有助于稳定解码,防止涌现初代 Vall-E 中涌现的无限循环问题。
微软利用 LibriSpeech 和 VCTK 数据集对 Vall-E 2 进行了测试,结果它都以精良的成绩通过了测试。当雷德蒙德声称这款人工智能工具实现了与人类的平等时,他们的意思是 Vall-E 2 在鲁棒性、相似性和自然度方面的表现都优于地面实况样本。换句话说,该工具可以天生与原说话人险些完备相同的自然语音。
微软分享了 Vall-E 2 的数十个样本,这些样本可以在项目择要页面上找到。事实上,Vall-E 2 的样本维妙维肖,与人类说话者毫无差异。这款人工智能工具乃至还能节制一些奇妙的技巧,比如在句子中强调精确的单词,就像人们在说话时下意识地做的那样。
微软表示,Vall-E 2 纯粹是一个研究项目,并补充说它没有操持将这项技能融入消费产品或向"大众年夜众发布该工具。雷德蒙德还指出,它存在被滥用的潜在风险,例如伪装特定的人或欺骗语音识别。
不过,该公司认为,它可以运用于教诲、翻译、无障碍环境、新闻、自撰内容和谈天机器人等领域。
本文系作者个人观点,不代表本站立场,转载请注明出处!