微软的人工智能语音生成器在测试中达到与人类一致水平_微软_样本

2024-12-11 13:05:27 智能写作

借助 Vall-E 的根本，新的人工智能语音工具集成了两大增强功能，大大提高了性能。
分组代码建模使微软能够更好地组织编解码器代码，从而缩小引列长度，提高推理速率，帮助战胜与长序列建模干系的寻衅。

微软的人工智能语音生成器在测试中达到与人类一致水平_微软_样本智能写作

与此同时，\公众重复感知采样\"大众重新考虑了原始的核采样过程，以便在解码时探求标记重复。
微软表示，这一过程有助于稳定解码，防止涌现初代 Vall-E 中涌现的无限循环问题。

微软利用 LibriSpeech 和 VCTK 数据集对 Vall-E 2 进行了测试，结果它都以精良的成绩通过了测试。
当雷德蒙德声称这款人工智能工具实现了与人类的平等时，他们的意思是 Vall-E 2 在鲁棒性、相似性和自然度方面的表现都优于地面实况样本。
换句话说，该工具可以天生与原说话人险些完备相同的自然语音。

微软分享了 Vall-E 2 的数十个样本，这些样本可以在项目择要页面上找到。
事实上，Vall-E 2 的样本维妙维肖，与人类说话者毫无差异。
这款人工智能工具乃至还能节制一些奇妙的技巧，比如在句子中强调精确的单词，就像人们在说话时下意识地做的那样。

微软表示，Vall-E 2 纯粹是一个研究项目，并补充说它没有操持将这项技能融入消费产品或向"大众年夜众发布该工具。
雷德蒙德还指出，它存在被滥用的潜在风险，例如伪装特定的人或欺骗语音识别。

不过，该公司认为，它可以运用于教诲、翻译、无障碍环境、新闻、自撰内容和谈天机器人等领域。