出道四年会唱《野狼disco》的微软小冰在唱歌能力上都经历了什么?_音高_人工智能
编辑 |
《野狼disco》火了之后,音乐圈里不乏涌现一些精细的翻唱版。这当中有一位少女音的演唱者很特殊,她叫小冰,是微软研发多年的人工智能机器人。
微软小冰由微软(亚洲)互联网工程院于2014年5月正式推出,截至2019年8月15日已经进化至第七代。作为一个人工智能底层框架和系统,她领悟了自然措辞处理、打算机语音和打算机视觉等多种技能。
目前,小冰的产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。微软曾强调过,比起单一的任务完成,小冰更看重人工智能在拟合人类情商维度的发展,强调人工智能情商和在人机交互中的根本代价。
2016年,微软开始培养小冰的唱歌能力。“那个时候可能这个方向还比较冷门,以是有很多朋友一贯在问我,说小冰怎么开始想要做唱歌了?”微软小冰首席语音科学家栾剑对界面***表示,小冰在2015年推出笔墨回答以外的语音谈天功能。对应小冰“精灵古怪”的少女人设,其声音也相较活泼可爱,在一开始就受到了部分C端用户的欢迎。
一年多的韶光里,团队在儿化音、中英文殽杂的朗读、讲儿童故事、各种情绪的表现方面调教小冰的说话能力,虽然在分词、多音字、韵律上面还有一些瑕疵,但基本面问题已经大部分得到办理。
“以是,这个时候我们在想我们可能要探求一个更有寻衅性的课题。”栾剑说。
发展小冰的唱歌能力有紧张三方面缘故原由:首先,唱歌的技能门槛比说话要高,除了发音之外,它还有节拍和旋律两大要素;其次,唱歌在情绪表达上更丰富和激烈,这就有可能对应更多用户的生理情景;再者,唱歌是生活中很主要的娱乐办法,团队认为这中间存在较大的市场空间。
传统的唱歌合成办法紧张分两类。第一类叫做单元拼接,把声母和韵母按不同音高进行采集,再形成单元库。有了想要合成歌曲的目标时长和目标音高后,就可以通过旗子暗记处理的办法修正单元的时长和音高,末了拼接成空想效果。这个方法的有点在于大略易行,且可以担保最佳音质,但问题在于单独发音和一串连续语流中发音的差别,会使天生歌曲听着有些生硬,“唱得不是那么自然,是一个字一个字在蹦的觉得。”
第二类叫做参数合成,采取的是隐马尔可夫模型。它不是建立单元库,而是把所有录音的数据提取出声学参数。这个声学参数里面包括能量谱、时长、音高档等要素,再由此建立一个模型。等到要合成歌曲的时候,便根据目标发音在模型中进行预测得到一组声学参数,末了通过声码器对其波形重构。
“这种办法比较灵巧,基本上可以认为我把一个东西全部打碎了,打碎之后再重新拼,这个力度会非常小,以是它的变革很丰富,乃至我可以创造一个从来不存在的声音。”栾剑表示,但该方法相应的弊端便是音质相较第一种会有所低落。
小冰团队选择了前景更为广阔的参数合成的办法,并在其根本上有所改良。
“最开始的模型便是从乐谱里面把那三大要素采集出来之后,分别对声谱参数、节奏序列、音高轨迹用三个模型分别建模。”但由此预测出来的参数合成之后的高音和低音,音色听起来不像出自同一个人,团队又为此做出第二代模型。
“接下来进一步的提升便是,既然这三个参数之间有很主要的耦合性,相互之间须要折衷、同步预测,我们干脆(只)用一个模型,同时预测这三个参数。”当然这样的技能会更有难度,但团队引入了卷积神经网络、残差连接等,使三个参数同时建模成为了可能。由此生成的歌曲,其流畅度和自然度都有了较为明显的提升。
在学习唱歌的道路上,小冰也会碰着很多现实问题。
判断一个唱歌模型的好坏有两个主要判断标准:一是适用性,能表现多种风格;二是数据,数据又和学习能力息息相关——在不断升级的GPU带来的算力提升以及大数据的支撑下,深度学习发展得越来越好。但人工智能的唱歌人物在数据来源方面存在困难,“由于相对付说话来说,清唱的数据是非常少,绝大部分的数据是殽杂的、伴奏的音轨。”栾剑表示。
小冰团队曾和一家唱片公司互助,这家公司保留的大都是成品歌曲而非清唱人声,稠浊了各种音轨和伴奏。团队此时要做的事,便是如何在伴奏音频中把人声的音高提取得更好。这之中存在的三个问题在于:首先,找到伴奏里面人声部分的韶光戳,也便是从什么地方起有人声唱歌;其次,准确找到每个发音的起始和结束韶光;末了,提取人声的音高轨迹。
团队给出的办理方案有三点创新:用原始波形代替能量谱输入,以担保完全的相位信息;通过全卷积网络和残差连接,形成相对简洁清晰的网络构造;以软分类标签弱化判断音高的缺点程度。这样的方案会提升学习的准确率,减少一些缺点和偏差。
小冰版本《野狼disco》目前在***音乐可试听,采取了尚未发布的粤语和说唱模型,此外还有30首已发布的作品。其日本地区的分身——凛菜,也已与日本唱片公司AVEX正式签约。近期还将解锁歌词改编文本天生技能、舞台演出歌声合成技能,以及演出互动与MC能力等等。
事实上,小冰的歌手身份只是其内容创作技能版图的一隅,其更广阔的市场由社交对话机器人、智能语音助理、人工智能内容创作和生产平台等多种形态构成。栾剑认为,无论是人工智能创造还是唱歌能力的提高,归根结底仍是模型提升和数据挖掘。“这两个东西如果我们做得更好,我们的质量会不断得到提高。”
据悉,在环球多个国家,微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容不雅观众,与用户的单次均匀对话轮数(CPS)仍保持在23轮。目前已落地的商业客户覆盖金融、零售、汽车、地产、纺织等十个领域,客户包括万科、万得资讯、万事利、中国联通等。
本文系作者个人观点,不代表本站立场,转载请注明出处!