人工智能语音克隆工具通过天生与特定说话者非常相似的合针言音来发挥浸染。
为了让这些工具发挥浸染,演讲者供应了一段简短的语音样本,人工智能用它来创建克隆语音。
但这还不是全部。
将单独的人工智能过程运用于书面脚本(文本到语音),将书面内容转换为音频文件。
该音频文件的声音与供应该文件的人非常相似。

有趣!AI(人工智能)可以运用你的原始语音合成类似你发声的语音?_语音_声音 绘影字幕

在github上创造AI运用越来越多,个中GPT-SoVITS这个觉得挺有趣的。

点赞数据,21k

人工智能cpp措辞+ python措辞浸染越来越大,python还是要学学,哈哈。

只须要几分钟的声音数据,就可以自己演习一个声音的克隆,这一功能在个性化语音助手、虚拟角色配音、自媒体创作等领域具有广泛的运用前景。
不知道声优往后前景会不会堪忧,程序都是自我革命了,唉。

GPT-SoVITS项目先容,详细效果估计还须要AI不断演习。

演习效果:

***加载中...

该项目还须要不断的完善:

github上很多关于AI语音克隆的,感兴趣可以看看。
安装过程估计会劝退很多人,还是找找有没有在线的直接可以用的AI语音克隆,人家演习好就可以用了,省时省力。

一、声音克隆的主流架构

目前的主流架构分三阶段:

1、待克隆声音特色提取

2、待合成笔墨向量提取

3、语音合成

二、主流模型演习框架

分三个阶段演习(前后依赖,对应下图的从左至右):

1、声音特色提取器的演习

2、利用声音特色提取器演习语音合成器

3、利用声音特色提取器与语音合成器演习声码器

三、技能源头

合成非特定目标语音的运用有很多,但是要精准模拟(克隆)某人的声音的技能源头彷佛都来自谷歌2017年发布的论文SV2TTS(参考文章引用2)。

大概说的意思便是把克隆事情分成三个模块(Encoder、Synthesizer、Vocoder),先提取说话者的声音提取音色向量(Speaker Encoder部分),然后用这部分内容加上Synthesizer和Vocoder一起完针言音合成。

措辞克隆最初事理图

文章引用:

1、知乎《声音克隆技能简介》 Jack 2019.12.28

2、Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis(SV2TTS),https://arxiv.org/pdf/1806.04558.pdf「链接」

3、腾讯安全应急相应中央《实时中文语音克隆——开源项目MockingBird体验》 lake2 2021.10.27