科学家用数百万种声音演习新型AI智能系统能让降噪耳机保留人声_声音_人工智能
现在,一个新的人工智能系统旨在办理降噪耳机的这一问题。
该系统名为“收听目标语音(Target Speech Hearing)”,用户可以选择一个人作为目标,纵然所有其他声音都被肃清,他的声音也依旧能被听到。
只管这项技能目前仍处在观点验证阶段,但其开拓者表示,他们正在与厂商榷论将其加入盛行品牌的降噪耳机中,并努力考试测验将其用在助听器上。
参与该项目的美国华盛顿大学教授什亚姆·戈拉科塔(Shyam Gollakota)说:“谛听特定人群的声音是我们在世界上如何沟通,以及如何与他人互动的一个基本要素。但在特定情形下,纵然你没有任何听力问题,专注于特定的人也可能变得非常有寻衅性。”
(来源:STEPHANIE ARNETT/MITTR | PUBLIC DOMAIN,ENVATO)
当人工智能模型须要在打算能力和电池寿命有限的耳机中实时事情时,这种繁芜性就成为了一个问题。
为了知足这些限定,神经网络须要做到体积小、能耗低。
因此,该团队利用了一种名为“知识提取”的人工智能压缩技能。
他们利用了一个经由数百万种声音演习的大型人工智能模型(“老师”),并让它演习一个小得多的模型(“学生”),以模拟其行为和表现达到相同的标准。
然后,他们利用降噪耳机上的麦克风捕捉到的环境噪音,演习学生模型从中提取特定声音的发声模式(规律)。
要激活该人工智能系统,佩戴者须要面对目标工具,并按住耳机上的按钮几秒钟。
在这个“注册”过程中,系统会通过耳机上的麦克风捕获音频样本,并利用此录音提取讲话者的声音特色,纵然附近有其他人声和噪音。
这些音频特色被输入到第二个神经网络中,该网络运行在一台微掌握器打算机上,两者通过通用串行总线(USB,Universal Serial Bus)连接。
这个神经网络会持续运行,将目标声音与其他声音分开,并将其播放给耳机佩戴者。
一旦该系统锁定了一名讲话者,纵然佩戴者转身离开,它也会连续优先区分这个人的声音。
该系统从讲话者的声音中得到的演习数据越多,其区分声音的能力就越强。
目前,该系统只能成功注册一种声音,而且该声音必须是注册时最响亮的那个,但该团队的目标是纵然特定方向上最大的声音不是目标人物,该系统仍旧可以事情。
微软研究语音和人工智能的高等研究员塞菲克·埃姆雷·埃斯基梅兹(Sefik Emre Eskimez)表示,在喧华的环境中捕捉一个声音是非常困难的。他没有参与这项研究。
“我知道很多公司都想这么做。”他说,“如果他们能做到这一点,就会解锁很多运用处景,尤其可以用在会议场景中。”
美国卡内基梅隆大学措辞技能研究所的研究员萨姆勒·康奈尔(Samuele Cornell)认为,虽然语音分离研究每每是理论性的,而不是实践性的,但这项事情在现实天下中有着明确的运用。
他没有参与该研究。但其表示:“我认为这是朝着精确方向迈出的一步,是很新颖的考试测验。”
支持:Ren
排版:溪树
本文系作者个人观点,不代表本站立场,转载请注明出处!