2秒定制AI声音！文心一言又全年夜活儿：效果惊喜_声音_模子

2024-12-11 12:22:35 绘影字幕

五音不全的小雷十分神往这项技能，但苦于本地演习模型的繁杂，一贯没有下定决心去演习自己的AI声音。
适值近期百度文心一言上线了定制智能体专属声音的新功能，官方流传宣传用户只要花费几秒就能完成设定。

2秒定制AI声音！文心一言又全年夜活儿：效果惊喜_声音_模子绘影字幕

如此省时省力就能演习出自己的AI声音？带着迷惑，小雷考试测验着创建专属自己的「AI嘴替」。

创建“AI嘴替”很高效，但功能太有限

打开文心一言App，点击下方「+」号，我们就进入到智能体的创建界面。
在声音选项栏中，我们能给智能体选择声音特性。
在官方声音根据方言、性别、音色以及角色进行分类，供应了32种不同的声音。
但我们目标明确，还是来体验下创建自己的声音这一功能。

图源：雷科技制作，文心一言页面

点击「创建我的声音」，用户须要用自然的语气朗读系统给出的笔墨，让系统识别音色音准。
经实测，识别过程仅需2-3秒，小雷的「AI嘴替」就正式创建成功。
值得把稳的是，系统在录制前会对环境音进行短暂的识别，确认噪声符合录制哀求后，才正式进入录制环节。

不仅如此，我们还能对智能体的性情特色、口头禅、个人经历、亲友关系、兴趣爱好以及开场白，进行个性化定制，这些成分会影响智能体后续的互换表现。

图源：雷科技制作，文心一言页面

话不多说，我们来看看文心一言在短韶光内创建的AI声音究竟能不能让人满意。
开启声音播报功能后，小雷试着让智能体给我先容雷科技的干系信息，先不说声音，至少对雷科技的先容还是比较全面的，除了"大众年夜众号168万粉丝（已超过170万）的数据有些过期外，其他描述大体同等。

说反应音，音色方面本人认为至少能达到8成的相似度，尤其是感情、语气的表现，差点让小雷以为是自己在说话。
或许是为了让用户能更好的听清楚智能体的表达，整体语速稍慢，想让用户耐心听完备部回答可能会有些难度。

比拟传统的笔墨表达，智能体语音回答的拟人度更高，在回答中加入了比较多的语气词，更靠近人们日常互换的表达习气。
验收完声音质量后，小雷决定还是回归到自己对AI嘴替的实质哀求——唱歌，十分可惜的是，目前文心一言创造的智能体暂时不支持该项功能。
随后小雷换了个角度，让智能体朗读歌词，这次倒是成功了，虽然朗读利用的是本人音色，但从呈现效果间隔音乐确实还差点意思。

图源：雷科技制作，文心一言页面

后续，小雷环绕声音进行了朗诵、念诗等测试，效果大差不差。
大家可以理解为一个声音状态永久稳定的自己，能让他代替你完成许多根本性的措辞事情，但呈现效果与你录制时的情绪、风格和自然度有着极高的关联性。
由于小雷并不是从事播音专业，因此AI声音的效果算不上特殊好，如果用户能供应更高质量的语音素材，或许文心一言能给到更好的反馈。

总的来说，文心一言这项新功能确实给小雷带来了惊喜，在传统离线本地演习的根本上，通过文心大模型和语音合成大模型的大量语音演习，让AI声音无论是天生效率，还是呈现效果都能让人满意，但其个人助理的定位让其功能受到了一定限定，智能体无法供应类似唱歌等其他功能，用户也无法进一步演习AI声音，让AI声音的表现效果更靠近本人。

高质量AI声音，还得靠高强度AI演习

事实上，这是所有「快餐式创建AI声音」的运用都会面临的问题。
同样是个性化声音定制服务，通义实验室供应的做事则须要用户录制20句话，用于定制自己的AI声音，整体效果与文心一言相差不大，效果上依旧存在瓶颈，关键缘故原由正是输入和演习的素材不足。

图源：魔搭ModelScope

大家日常听到最多个性化定制声音的场景，该当是语音导航、笔墨播报或者小说阅读等方面。
常日来说，从文本到声音的技能要让AI声音达到合格标准，须要音源人在专业录音棚录制成百上千句的数据量，高规格的定制流程将绝大多数普通人对AI声音的探索拒之门外。

而随着个性化语音合成（Personal TTS）技能的成熟，平台通过手机、电脑等常见录音设备获取目标的少量声音片段后，就能快速构建出目标的语音合成系统。
与传统定制声音技能比较，仅需少量数据量是个性化语音合成的最大上风。

无论是文心一言，还是通义实验室，他们都只须要极少的数据量，就能给用户供应个性化声音定制服务，大大降落了语音合成的定制门槛，将AI声音遍及给普通用户。
但有得必有失落，TTS技能在降落声音定制门槛的同时，也给这项功能的上限带上了枷锁。

根据魔搭ModelScope供应的产品逻辑图，我们能看出TTS模型须要经由录音检测、数据处理、模型演习、打包合成四个阶段，终极形成我们的AI声音。
有限的数据投喂量让AI声音的措辞逻辑、语音语调，更多依托于已经演习完成模型数据，而用户录制的素材或许只是更多浸染在声音表层，声音灵魂仍是背后的大模型数据。

图源：魔搭ModelScope

作为参考，小雷又调查了本地演习声音模型的步骤。
比较起文心一言、通义实验室的便捷做事，本地演习声音模型的声音效果上限要高得多，但须要付出的本钱也是几何倍的增加。

首先，用户得准备一批高质量的干声音频数据、一台具备一定性能的打算机、一个AI声音开源项目，在经历一系列数据处理、特色提取以及N轮演习后，我们才能得到所需的AI声音。

大家光看笔墨描述可能以为也就那么回事，实际上，光是音频数据的网络便是一个大工程。
这决定了AI声音的音色、声音特色。
特殊要把稳的是，这里的音频数据指的是目标的干声，也便是要去除掉伴奏、杂音等统统背景声，没有专业设备的用户可以通过软件实现。

当然，如果大家嫌麻烦也可以去模型工坊网站***已经演习好的声音模型，但肯定没有还底本身声音那么有造诣感便是了。

图源：mxgf.cc

经由无上限的高强度演习后，终极就能达到前段韶光互联网上比较盛行的AI孙燕姿效果，并且用户还能自由决定AI声音进行朗读或唱歌等多种情景表达，不再局限于单一的表达形式。

大模型联动，是AI声音的下一个机会？

AI对声音的影响已经深入到各个领域，从笔墨转语音，到音乐，我们见证了许多有趣的AI声音运用。
前段韶光，小雷体验了文生音频的新星——Suno，其高效高质的音乐天生办法令不少音乐人产生危急感。
只管现阶段绝大多数的AI声音类模型仍存在部分毛病，但AIGC重构内容家当险些是一定。

AI声音与AI音乐一样，是普通人的自我表达。
AI的浸染更多是降落人们的创作门槛，令普通人也能实现抱负中的场景。
目前诸多AI大模型还处于「孤岛」的状态，在雷科技看来，当单一的AI大模型发展到瓶颈阶段，可能接下来便是不同类型大模型之间的有效联动。

举个大略的例子，用户通过ChatGPT天生想要的歌词，由Suno将歌词体例成曲并授予音乐风格，末了将自己的AI声音加入个中。
当多个大模型建立连接，用户要做的或许便是下达一个指令，就能创作出一首专属自己的歌曲。

当然，目前AI大模型还是持续发展的阶段。
像文心一言、通义千问等国产大模型也在不断迭代之中，这次小雷体验的个性化声音定制功能虽然在效率、质量方面已有不错的表现，但在功能多样性上还有巨大的进步空间。

或许在未来，文心一言的智能体可以打破助理定位，展现出不逊色于本地演习大模型的表现效果，届时AI声音这一技能也能找到更多适用的场景，给用户体验以及音频干系的行业带来带来翻天覆地的变革。

北京国际汽车展览会（北京车展）将于4月25日-5月4日隆重举行，本届车展以“新时期新汽车”为主题，是“汽车从电动化走向智能化”的风向标。

届时，包括比亚迪、小米、AITO问界、小鹏、蔚来、空想、极氪、极越、长安深蓝等头部品牌将悉数登场，除新车型“大比武”外，自动驾驶技能的推进、智能座舱的蜕变和AI大模型与汽车的结合，都将是主要看点。
雷科技旗下“关注电动车，更懂智能化”的账号电车通将派动身布团前往北京现场，进行一线专业宣布，敬请关注。