失落聪者的福音：人工智能读唇语缺点率减半_音素_***

2024-10-14 20:12:29 绘影字幕

现在，研究职员编写了一种新的人工智能（AI）程序，其性能优于专业的唇读者和迄今为止最好的AI，且缺点率仅为之前最佳算法的一半。
如果被完善并集成到智能设备中，这种方法可以让每个人都能懂唇读。

失落聪者的福音：人工智能读唇语缺点率减半_音素_视频绘影字幕

“这是一项了不起的事情。
”未参与该研究的英国伦敦玛丽皇后大学打算机科学家Helen Bear说。

编写可以阅读唇语的打算机代码令人抓狂。

因此，在新研究中，科学家向机器学习“乞助”，让打算机从数据中学习。

他们为该系统供应了数千小时的***和缮写本，并让打算机自己办理这个问题。

该项目始于14万小时的YouTube***，***展示了人们在各种情形下进行的交谈。

然后，研究职员设计了一个程序，通过每个音素或单词声音的嘴部动作创建几秒钟的剪辑，并带有标注。

该程序过滤掉了非英语语音、非讲话者面孔、低质量***和未直接拍摄的***。
然后，他们裁剪了讲话者嘴巴周围的***。

这样产生了近4000个小时的录像，包括超过12.7万个英文单词。

没有参与该研究的美国哥伦比亚大学打算机科学家Hassan Akbari说，这个过程和由此产生的数据集比同类数据集大7倍，对付任何想要演习类似系统阅读嘴唇的人来说都是“主要且有代价的”。

此外，该过程部分依赖于神经网络。

AI算法包含许多连接在一起的大略打算元素，这些元素以类似人脑的办法学习和处理信息。

当研究职员为该系统供应未标记的***时，这些网络会裁剪嘴巴动作片段。
系统中的下一个程序也利用了神经网络，为每个***帧供应了可能的音素列表及其概率。
末了一组算法将可能的音素序列进行整理，并天生了英语单词序列。

经由演习，研究职员用它之前没有看过的37分钟的***测试了该系统。

他们在发布于arXiv网站的论文中报告说，单词缺点率仅为41%。

这个成绩可能听起来并不怎么样，但之前最好的算法——专注于单个字母而不是音素——的缺点率为77%。

在同一项研究中，专业唇读者的缺点率为93%（只管在现实生活中他们能参考语境和肢体措辞，这有助于读唇）。

这项事情由总部位于伦敦的人工智能公司DeepMind完成，但该公司谢绝就这一记录揭橥评论。

Bear表示，该程序对音素的理解可能看起来不同，详细取决于之前和之后所说的内容。
（例如，在说“boot”中的“t”时，嘴的形状与说“beet”中的“t”不同。
）

系统有单独的阶段预测嘴唇形状代表的音素和通过成分预测单词。
这意味着如果想教系统识别新的单词，你须要重新演习末了一个阶段。

但她说，这个AI也有弱点：它须要清晰、直白的***，41%的缺点率远非完美。

Akbarni表示，将程序整合到一部手机中可以让听力障碍人士随身携带“翻译”。

这样的翻译也可以帮助那些不能说话的人，例如声带受损者。
对付其他人来说，它可以大略地帮助解析各种谈天。

这种技能也可运用于其他程序，例如剖析安全***、阐明历史镜头，或在音频低落时听到Skype伙伴的语音。

新的AI方法乃至可以回答天下上最大的一个谜团：在2002年天下杯决赛中，法国足球运动员齐达内因用头部顶撞对手而被红牌罚下。

他显然是被对手的脏话所激怒，但他说了什么？

我们也容许以揭开答案了。

干系论文信息：

https://arxiv.org/abs/1807.05162

（唐一尘编译）

《中国科学报》 (2018-08-08 第3版国际，原题《读唇用上人工智能单词缺点率仅为41%》)

请按下方二维码3秒识别

本文系作者个人观点，不代表本站立场，转载请注明出处！

音素视频

失落聪者的福音：人工智能读唇语缺点率减半_音素_***

热门内容

随机文章

推荐内容

最新内容

TAGS标签

失落聪者的福音：人工智能读唇语 缺点率减半_音素_***

相关推荐

WorkFlows规则头条视频高效生产背后的秘密

今日头条视频捷径规则解读助力创作者高效创作，提升内容质量

今日头条视频压缩算法软件革新视频处理技术，引领行业新潮流

今日头条视频消重算法技术创新引领内容生态建设

优看侠,新时代短视频平台的风向标

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签

失落聪者的福音：人工智能读唇语缺点率减半_音素_***