15秒样本完成声音克隆!OpenAI再掀人工智能浪潮_语音_引擎
语音克隆颠覆想象
早在2022年,语音引擎被立项开拓,用来支持文本转语音API(运用程序编程接口)及ChatGPT的语音和朗读功能。同时,语音引擎还具备语音克隆功能,用户只须要输入15秒的音频样本及笔墨片段,语音引擎就能天生与原声高度相似的自然语音。无论是哪种文本,语音引擎都能近乎完美克隆原声。
OpenAI分享了语音引擎的五大运用处景。
第一,为不具备阅读能力的读者和儿童供应阅读赞助。语音引擎的声音自然且富有情绪,不局限于预设选项,而是涵盖了广泛的说话办法,使得阅读体验更为贴近真实。例如,致力于儿童教诲的科技公司Age of Learning,借助语音引擎天生预先编写的画外音内容,同时综合利用GPT-4,为受众创造更为实时、个性化的利用体验。
第二,保留母语口音的翻译。语音引擎能翻译***和播客等内容,让创作者和企业能够流利地利用自己的声音打仗天下各地的更多受众。人工智能视觉叙事平台Heygen(与企业客户互助,为产品营销、发卖演示等场景创建定制的人形化身)是这一功能的早期实践者。借助语音引擎,Heygen进行***翻译,将***中说话者的声音翻译成多种语音,覆盖环球受众。翻译过程中,语音引擎会保留说话者的母语口音,例如将法语母语者的音频样本天生英语时,会呈现带有法语口音的语音效果。
第三,帮助创作者触达环球用户。通过改进偏远地区的基本做事,创作者借助语音引擎覆盖环球社区。Dimagi为社区卫生事情者供应各种基本做事的工具,例如为坚持母乳喂养的母亲供应咨询。为了帮助事情职员们提升做事体验,Dimagi利用语音引擎和GPT-4,以每位事情职员的紧张措辞(包括斯瓦希里语或更非正式的语音,如在肯尼亚盛行的代码稠浊措辞Sheng)供应交互式反馈,从而确保有效沟通。
第四,赋能残障人士沟通。语音引擎为没有语音能力的用户供应支持,包括用于患有语音障碍人士的治疗,以及增强有学习需求的人的教诲体验。Livox作为一款人工智能替代通信运用程序,为赞助和替代通信(AAC)设备供应强大动力,使得残障人士能够进行沟通。通过利用语音引擎,Livox为不具备措辞能力人士供应独特且非机器化的多种措辞的声音。用户可以选择最能代表他们的语音,对付多措辞用户而言,能在每种措辞中保持同等的口语特性。
第五,帮助病患规复声音。对付患有突发性或退行性言语疾病的人群,语音引擎能发挥主要浸染。非营利性卫生系统诺曼王子神经科学研究所Lifespan,是布朗大学医学院的紧张传授教化附属机构,一贯积极探索人工智能在临床环境中的运用。他们正在试行一项操持,利用语音引擎为患有肿瘤或神经系统措辞障碍病因的患者供应支持。由于语音引擎仅须要极短的音频样本,年夜夫们成功帮助一位因血管性脑肿瘤而失落去流利措辞能力的年轻患者规复声音。
OpenAI产品卖力人Jeff Harris表示:“如果你能精确地设置音频,基本上就能天生人口径的声音,这是一种相称令人印象深刻的技能。”
当心人工智能
福兮祸之所倚,祸兮福之所伏。惊叹语音引擎强大能力的同时,我们也不得不当心其藏在背后的风险。
OpenAI写道:“我们认识到,天生声音的功能存在严重风险,这一点在大选年尤为突出。”2024年1月,美国就涌现过“AI拜登”事宜,由AI天生的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。CNN(美国有线电视***网)随后宣布称,追查后创造,71岁的男子沃尔特·蒙克和其总部位于得克萨斯州的“生命”公司是“AI拜登”事宜幕后黑手。
针对安全和隐私问题,OpenAI强调明确禁止未经授权伪装任何个人或组织,必须得到原始说话者的知情赞许,并向用户明确表露他们所听到的声音是AI天生的。同时OpenAI开拓了一系列安全方法,包括对语音引擎天生的音频加水印,主动监控其利用办法。合针言音技能的任何广泛支配都应伴随语音身份验证体验,以验证原始说话者是否赞许将其声音添加到做事中,以及检测和防止创建与有名人物过于相似的声音的禁止语音列表。
同时,语音引擎的问世,无疑将对以声音为谋生介质的人群产生重大影响,包括配音演员、流媒体主播、播客等等。
前不久,音乐剧《妈妈咪呀》的主演萨拉·波伊泽在社交平台发文称,她收到一封邮件,内容是“我们已经得到BBC的批准,可以利用Al天生的声音,以是我们不再须要萨拉了。”据悉,该邮件是一家制片公司的回答,该公司正与BBC互助一个项目,希望能聘请萨拉。辞退事宜引发众怒,BBC回应称,更换萨拉的缘故原由非常分外,正在制作的记录片主角是一位生命即将走到尽头、无法说话的投稿人,考虑到其家人的意愿,我们赞许利用AI来重现声音,并将在影片中清楚标明。BBC的回应并未平息怨言,反而AI攻陷配音界的惶恐进一步蔓延。
语音引擎暂未大规模推广运用,目前只开放给少部分互助伙伴参与测试。OpenAI并未公布语音引擎的定价信息,但据***网站 TechCrunch ,语音引擎的定价为每一百万字符15美元,音频每小时价格不敷1美元,远低于配音演员的均匀薪资。等到语音引擎大规模开放利用,配音演员们又将何去何从?
无敌有偶,前不久爆火出圈的音乐天生模型Suno,被称为音乐界的“ChatGPT”,用户仅需在“创作”页面,利用自然措辞描述想要天生的音乐,包括主题、风格、感情等,一首构造完全、朗朗上口的音乐作品就出身了,创作门槛趋近于零。
从笔墨到图像到***再到音频,人工智能的触竞赛渐触及审美层面。中心美术学院教授周博写道:“人工智能技能的发展正在使学院派的创作模式日益普通且廉价。”人类能掌握年夜大好人工智能吗?这是天生式人工智能时期必须时候当心的问题。
作者:于帆
编辑:高珊珊
监制:刘晶
本文系作者个人观点,不代表本站立场,转载请注明出处!