研究职员认为,他们的方法可以为无法发出可听语音的人们供应多种运用程序,并且让人工智能设备感应到语音并作出反应。

人工智能探测无声言语并合成语音_语音_他们的 智能助手

研究小组在论文中写道:“对无声语音进行数字语音处理具有广泛的潜在运用。
” “例如,它可以用于创建类似于蓝牙耳机的设备,该设备可以使人们进行电话交谈而不会打扰周围的人。
在环境声音太大而无法捕获语音的环境中或保持沉默很主要的环境中,这种设备也可能很有用。

可以从静音语音中捕获单词的AI的另一个示例-朗读AI-可以为监视工具供应支持或为聋哑人供应支持的用例。

对付他们的无声语音预测,加州大学伯克利分校的研究职员利用了一种方法“将音频输出目标从发声录音转换为相同发音的无声录音”。
然后,利用WaveNet解码器天生音频语音预测。

与通过语音EMG数据演习的基线比较,该方法可将书中句子的转录中的单词缺点率降落64%至4%,并将基线降落95%。
为了推动这一领域的更多事情,研究职员开源了将近20个小时的面部EMG数据集。

David Gaddy和Dan Klein题为“无声语音的数字发声”的模型论文在上周在线举行的“自然措辞处理的履历方法”(EMNLP)活动中得到了最佳论文奖。
Hugging Face公司在开源Transformers库上的事情得到了组织者的最佳演示论文奖。