AI唱歌不仅中英文无压力还会粤语!微软联手浙大年夜研发出DeepSinger_数据_措辞
想必你一定听过最近大火的\"大众AI女团\公众,7月10日,微软小冰携手小米小爱、B站冷鸢、百度小度首次集体亮相天下人工智能大会,以一首AI歌曲《智联家园》正式“出道”。
AI女团的首场演唱会可谓惊艳全场。从整首歌的歌词、卡点、节奏来看,这首《智联家园》演唱得不亚于专业音乐团队。如果只听音乐,恐怕很难分辨出这是AI天生的歌声。
我们知道,歌声不同于正凡人的语音,高低音转换,BGM的合营,有着更繁芜的模式和节奏,这对付AI来说并不是一件随意马虎的事儿。
不过,最近一个研究团队,却此根本上寻衅了更高阶的AI技能——天生多种措辞风格的AI系统。据理解,这个团队成员正是来自浙江大学和微软研究院的六名研究员,他们研发出了一款名为DeepSinger的AI模型,可以演唱中文、英文,乃至粤语歌曲。
目前这项研究论文《DeepSinger.Singing Voice Synthesis with Data Mined Frome the Web》已经揭橥在了预印论文库arXiv上。
中文、英文、粤语,教什么会什么的AI
详细来说,DeepSinger是一款音乐歌声合成系统(Singing voice synthesis ),该系统利用专门设计的组件可以从喧华的歌唱数据中捕获歌手的音色,从而天生多种措辞风格的演唱声音。
论文中,研究职员用中文、英文、粤语三种措辞进行了试验,并用演习后得出的不同音色演唱了这首《Far Away Of Home》。可以先点击下方链接,听一下演唱效果:
点击链吸收听:https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/
研究职员称,对付影视从业者来说,DeepSinger会是一个非常实用的工具。当他们完成某些语音类录制事情后,如果创造录制缺点,可以用AI赞助语音的合成和修复,而无需再次返工。不过,这款工具也存在一些弊端。就像换脸软件Deepfake可以合成不存在的人像一样,这款DeepSinger同样可以假冒歌手假造音乐。
而且,目前关于AI音乐版权轇轕的征象已经开始涌现了。两个月前,一家唱片公司Roc Nation便提出了反对AI模的版权声明。其缘故原由是,Youtobe博主Vocal Synthesis利用AI技能复制了旗下艺人Zay-Z的两个音乐作品,终极这起案件已删除仿制作品,而道歉声明而结束。
AI多措辞歌声合成事理
在机器学习领域,从文本到语音(TTS)的转换有着广泛的利用场景,一贯是研究的重点领域。如上文所说,歌曲的韵律和环境比语音更具繁芜性,因此,SVS比较于TTS的研究也更有寻衅性。
研究职员先容,这次天生多种措辞风格的歌声合成系统DeepSinger,采取了一种含多个数据挖掘和数据建模步骤的研究路径,优化了现有研究的很多困境。这个路径可以分为以下五个步骤:
数据检索(Data crawling)卖力从音乐网站抓取顶级歌手多种措辞的盛行音乐;这里抓取的是中、英、粤三种措辞的歌曲,时长一样平常为1-5分钟。此阶段,须要对数据集进行低级的过滤和洗濯。
唱歌和伴奏分离(Singing and accompaniment separation):采取开源音乐分离工具Spleeter,从伴奏中提取歌声,然后将音频逐个拆分为句子;
歌词和歌唱对齐(Lyrics-to-singing alignment):自动提取歌词中每个音素的持续韶光(从粗粒度的句子级别到细粒度的音素级别)。
数据筛选(Data filtration):对歌词与演唱未对齐的歌声进行再处理。
这里采取分离褒奖(Splitting Reward)作为过滤标准,过滤掉分离褒奖低于阈值的数据。
演唱模型(Singing modeling):通过数据爬取,分离,对齐和过滤之后,基于FastSpeech对唱歌数据进行建模。该模型将歌词,时长,音高信息以及参考音频作为输入来天生歌声。
点击链接:https://speechresearch.github.io/deepsinger/可收听不同阶段,AI天生歌声音频。
从终极的测试结果可以看出,未经演习的音频和经由DeepSinger模型的音频,在腔调、振幅、持续时长上基本吻合;(GT表示真实音频波形图,DeepSinger表示经由模型演习后的音频波形图)
论文中表明,通过歌词,持续韶光,腔调信息、参考音频等指标的验证,DeepSinger在合成腔调准确度和“声音自然度”方面表现出了不错的性能。从数据来看,中英粤语三首歌曲的音高、音准都超过了85%。而且,在一项20人的用户实验中,DeepSinger天生的歌曲与原始培训音频之间的均匀差距仅为0.34-0.76。
其余,更值得把稳的是,经由数据检索和低级筛选,Singing所利用数据集仅包含89位歌手演唱的92个小时的歌曲。
我们知道,在机器学习中数据集的质量和数量是关键,但也正是在这两个方面每每存在难点。而在本次试验中仅利用了一个小样本即达到不错的性能表现。其余,歌曲和歌词的自动对齐模型在很大程度上也减少了数据标标注带来的失落误和本钱。
不过,研究职员表示,接下来他们操持利用基于WaveNet模型等更为繁芜的AI技能,在DeepSinger中演习各种子模型,以提高语音质量。WaveNet是Googel研发的一款语音驱动模型。
干系链接:
https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/
https://arxiv.org/pdf/2007.04590.pdf
https://venturebeat.com/2020/04/30/openais-jukebox-ai-produces-music-in-any-style-from-scratch-complete-with-lyrics(雷锋网雷锋网雷锋网)
本文系作者个人观点,不代表本站立场,转载请注明出处!