实测最新AI语音模型:让特朗普、丁真说绕口令堪称以假乱真_语音_链接
编辑:杨文
这款新AI语音模型Fish Speech,模拟音色一绝。
比来,AI 语音赛道溘然热闹起来。
一个多月前,一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。
火到什么程度呢?
仅三天韶光就在 GitHub 狂揽 9.2k Star 量,还一度登顶 GitHub Trending 榜首并连续霸榜。
没多久,字节也推出一款类似项目 Seed-TTS,喊出的口号同样是「天生自然真实的语音」。
这几天,这一赛道又闯进新玩家 ——Fish Speech。
据悉,该模型经由 15 万小时的数据演习,已闇练节制中英日三种措辞,语音处理靠近人类水平,对中文支持更是 ——
官方也甩出不少 demo——
中文句子:人间灯火倒映湖中,她的渴望让静水泛起荡漾。若代价只是孤独,那就让这份欲望肆意流淌。流入她所注目标世间,也流入她如湖水般澄澈的目光。
钟离,机器之能,15秒
***链接:https://mp.weixin.***.com/s/4T8b8RfK1X4tUVSeTI4gvw
英文句子:In the realm of advanced technology, the evolution of artificial intelligence stands as a monumental achievement. This dynamic field, constantly pushing the boundaries of what machines can do, has seen rapid growth and innovation. From deciphering complex data patterns to driving cars autonomously, AI's applications are vast and diverse.
说英文,机器之能,25秒
***链接:https://mp.weixin.***.com/s/4T8b8RfK1X4tUVSeTI4gvw
不少网友直呼:虽然有点电音,不过效果已经很不错了,语调也不会让人感到不适。
不过,也有网友提醒,这个项目虽开源但不可商用。
-1-
讲授记录片、说绕口令,它到底行弗成?
Fish Speech 是一款开源文本转语音模型,由 Fish Audio 公司开拓。据先容,该模型仅有亿级参数,能够在个人设备上轻松运行和微调。
官网链接:https://fish.audio/zh-CN/text-to-speech/
其官网界面设计简洁,在「创造」一栏列表里有网友演习的各种声音,例如丁真、川普、雷军、邓紫棋、董宇辉、单田芳等,还有 AD 学姐、流萤等二次元声音。
接下来,我们就来实际测评下。
首先是另类讲授《动物天下》。
前不久,有个 00 后博主 @维 C 动物园,以发疯的办法另类讲授《动物天下》而出圈。
例如,在《鸮张跋扈》这一集中,博主以一分正经、两分清奇、三分诙谐、四分莫名其妙的讲授办法,先容了一种叫做穴小鸮的动物。
***链接:https://mp.weixin.***.com/s/4T8b8RfK1X4tUVSeTI4gvw
我们就用 Fish speech 中的「记录片旁白」这个声音,给这个有大病的文案天生一段配音。
绿螳螂实在非常可爱,可爱去世了,嘎嘣脆,鸡肉味,但这统统都与美洲鹑无关,由于它也自身难保,黄腹隼表示真喷鼻香。黄腹隼遍布于南美洲各地,它们的视力极好,能看到10厘米以外的事物,以是我们本日的主角,不是它。
穴小鸮(xiao),江湖人称鸮鲜肉,跟我表哥一样,身高不敷 30 厘米,十分可爱。正所谓「虎落平阳被犬欺,鸮在野外不如鸡」,穴小鸮常因捕食能力太差,而被邻居嘲笑。但咱不气馁,既然找不到食品,就去找食品的食品。
我们又选用丁真、邓紫棋的声音来说绕口令。
***链接:https://mp.weixin.***.com/s/4T8b8RfK1X4tUVSeTI4gvw
让特朗普说英文绕口令。
If you understand, say "understand". If you don't understand, say "don't understand". But if you understand and say "don't understand", how do I understand that you understand. Understand?
Fish Speech英文绕口令,机器之能,14秒
试听链接:https://mp.weixin.***.com/s/4T8b8RfK1X4tUVSeTI4gvw
还有单田芳说段子。
Fish speech 的模拟能力一绝,它可以模拟特定人物的音色、语调到以假乱真的程度,比如说单田芳、邓紫棋、特朗普。
不过,它也有一些瑕疵,例如有时候它不识字,「穴小鸮」胡读一通;不懂断句,会把完全的句子读得稀碎。此外,输入的文本一旦太长,它就罢工。
-2-
三款 TTS 模型大乱斗
除了利用现成的语音外,我们还可以自己构建语音。
操作也很 easy。只需点击网页上方的「构建声音」,即可跳转至新界面。然后上传封面、填写声音名称、输入音频即可。
个中,在输入音频这个环节,我们既可以上传现成的,也可以自己录制,不过它对时长有限定,最好在 30 秒旁边。
例如,我们上传了一段徐志胜说脱口秀的音频。
来看一下效果:
李长庚最近有点烦。
他此刻骑在一只老鹤身上,在云雾里穿梭,想入了神。眼看快飞到启明殿,老鹤许是糊涂了,非但不减速,反而直直地撞了过去。李长庚回过神来,连连挥舞接风,它才急急一拍双翅,歪歪斜斜地落在殿旁台阶上。
Fish Speech读小说,机器之能,23秒
音色和徐志胜不能说绝不相关,只能说千篇一律,连口音都很像。
我们还让它与「开源语音 TTS 天花板级别」的 ChatTTS 、Seed-TTS 进行 PK。
中文文本 : 好呀,哈哈哈哈哈,喜好笑的人运气都不会差哦,希望你每天笑口常开。
Fish Speech:
Fish Speech,机器之能,11秒
试听链接:https://mp.weixin.***.com/s/4T8b8RfK1X4tUVSeTI4gvw
ChatTTS:
ChatTTS,机器之能,6秒
试听链接:https://mp.weixin.***.com/s/4T8b8RfK1X4tUVSeTI4gvw
由于字节的 Seed-TTS 还无法亲自体验,以是我们就用了它的官方示例。
Seed-TTS,机器之能,6秒
这三款 TTS 模型各有千秋,如果非要给它们的实力排个序,Seed-TTS 的断句、语音语调最自然,其次便是 ChatTTS,Fish Speech 虽然还有所欠缺,但它赢在可自定义音色上。
链接 ——
https://fish.audio/zh-CN/text-to-speech/
https://github.com/fishaudio/fish-speech
https://chattts.com/
https://bytedancespeech.github.io/seedtts_tech_report/
https://github.com/BytedanceSpeech/seed-tts-eval
本文系作者个人观点,不代表本站立场,转载请注明出处!