人工智能科普|语音唤醒技能的事理是什么?_语音_用户
“小爱同学,定来日诰日早上8点的闹钟。”“好的,已经帮你定好来日诰日早上8点的闹钟”
不少同学家里都有AI智能音箱产品,例如天猫精灵、小爱同学、小度等等。这些智能音箱不仅便捷了我们的日常生活,也由于他们或机警或逗比的回答,给用户带来了不少欢快。
这些智能产品中的一项主要的AI能力,就叫做语音唤醒。
首先,设备开启并自动加载好资源,这时它处于休眠状态。然后,当用户说出特定的唤醒词时,设备就会被唤醒,切换到事情状态等待用户接下来的指令。
这一过程中用户不须要用手打仗,直接可以用语音进行操作,同时利用语音唤醒的机制,设备不用实时地处于事情的状态,从而节省能耗。
语音唤醒的运用领域比较广泛,例如机器人、手机、可穿着设备、智能家居、车载等。险些很多带有语音功能的设备,都会须要语音唤醒技能作为人和机器互动的一个开始或入口。不同的产品会有不同的唤醒词,当用户须要唤醒设备时须要说出特定的唤醒词。
定义语音唤醒在学术上被称为keyword spotting(简称KWS),吴老师给它做了一个定义:在连续语流中实时检测出说话人特定片段。
这里要把稳,检测的“实时性”是一个关键点,语音唤醒的目的便是将设备从休眠状态激活至运行状态,以是唤醒词说出之后,能急速被检测出来,用户的体验才会更好。
那么,该若何评价语音唤醒的效果呢?通畅的指标有四个方面,即唤醒率、误唤醒、相应韶光和功耗水平:
➤唤醒率,指用户交互的成功率,专业术语为召回率,即recall。
➤误唤醒,用户未进行交互而设备被唤醒的概率,一样平常按天打算,如最多一天一次。
➤相应韶光,指从用户说完唤醒词后,到设备给出反馈的韶光差。
➤功耗水平,即唤醒系统的耗电情形。很多智能设备是通过电池供电,须要知足永劫续航,对功耗水平就比较在意。
语音唤醒的技能路线经由永劫光的发展,语音唤醒的技能路线大致可归纳为三代,特点如下:
第一代:基于模板匹配的KWS
演习和测试的步骤比较大略,演习便是依据注册语音或者说模板语音进行特色提取,构建模板。测试时,通过特色提取天生特色序列,打算测试的特色序列和模板序列的间隔,基于此判断是否唤醒。
第二代:基于HMM-GMM的KWS
将唤醒任务转换为两类的识别任务,识别结果为keyword和non-keyword。
第三代:基于神经网络的方案
神经网络方案又可细分为几类,第一类是基于HMM的KWS,同第二代唤醒方案不同之处在于,声学模型建模从GMM转换为神经网络模型。 第二类融着迷经网络的模板匹配,采取神经网络作为特色提取器。第三类是基于端到真个方案,输入语音,输出为各唤醒的概率,一个模型办理。
语音唤醒的难点
语音唤醒的难点,紧张是低功耗哀求和高效果需求之间的抵牾。
一方面,目前很多智能设备采取的都是低端芯片,同时采取电池供电,这就哀求唤醒所花费的能源要尽可能的少。
另一方面,用户对体验效果的追求越来越高。目前语音唤醒紧张运用于C端,用户群体广泛,且要进行大量远场交互,对唤醒能力提出了很高哀求。
要办理两者之间的抵牾,对付低功耗需求,我们采取模型深度压缩策略,减少模型大小并担保效果低落幅度可控;而对付高效果需求,一样平常是通过模型闭环优化来实现。先供应一个效果可用的启动模型,随着用户的利用,进行闭环迭代更新,全体过程完成自动化,无需人工参与。
语音唤醒的范例运用语音唤醒的运用领域十分广泛,紧张是C端产品,比如机器人、音箱、汽车等。比较有代表性的运用模式有如下几种:
➤传统语音交互:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音掌握命令,缺陷在于交互韶光长。
➤One-shot:直接将唤醒词和事情命令一同说出,如“叮咚叮咚,我想听周杰伦的歌”,客户端会在唤醒后直接启动识别以及语义理解等做事,缩短交互韶光。
➤Zero-shot:将常用用户指定设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到科大讯飞”,这里将一些高频前缀的说法设置成唤醒词。
➤多唤醒:紧张知足用户个性化的需求,给设备起多个名字。
➤所见即所说:新型的AIUI交互办法,例如用户对车机发出“导航到海底捞”指令后,车机上会显示“之心城海底捞”“银泰城海底捞”等选项,用户只需说“之心城”或“银泰城”即可发出指令。
本文系作者个人观点,不代表本站立场,转载请注明出处!