你知道人工智能是怎么听懂语音的吗？_语音辨认_语音

2024-12-14 20:58:38 文字写作

这是怎么回事呢？这些设备是如何听懂我们的措辞的呢？这里不得不提的，便是语音识别技能。

你知道人工智能是怎么听懂语音的吗？_语音辨认_语音文字写作

“什么是语音识别？语音识别是完成从语音信息到机器可识别文本信息的转化过程。
”

语音识别，像耳朵一样进化着

语音识别便是让机器拥有“耳朵”。
当然，不是大略的给机器装台收音器就可以实现，它须要不断的进化。

这就彷佛是人的听觉系统的发展。
一个出生的婴儿能听到声音，但是听不懂，今后随着年事的增长，不断的学习、演习，能听懂的东西越来越多。

机器的语音识别也有类似的发展过程。

语音识别技能的研究最早可以追溯到上世纪50年代，当时的效果并不好。

直到21世纪初，特殊是近10年，借助机器学习领域深度学习研究的发展，以及大数据语料的积累，语音识别技能才有了突飞年夜进的发展。

如今，语音识别的精确率已经靠近乃至部分超过了人类。
比如，2017年，IBM、微软相继流传宣传自家产品的语音识别缺点率靠近了人类，人类的语音识别缺点率大约为5.1%，而百度更是通过像百度大脑中语音语义一体化这样的技能，把语音识别缺点率掌握在了3%旁边。

封闭域识别：规定情境对话

根据识别内容的范围，语音识别可分为“封闭域识别”和“开放域识别”两大类。

封闭域识别，识别范围为预先指定的字/词凑集，即算法只在开拓者预先设定的封闭域识别词的凑集内进行语音识别，对范围之外的语音会拒识。

因此，可将其声学模型和措辞模型进行裁剪，使得识别引擎的运算量变小。
并且，可将引擎封到嵌入式芯片或者本地化的SDK中，从而使识别过程完备分开云端，摆脱对网络的依赖，并且不会影响识别率。

范例的运用处景是，不涉及到多轮交互和多种语义说法的场景。

比如，智能家居，紧张指只能进行大略指令交互的智能家居和电视盒子，语音掌握指令一样平常只有“打开窗帘”、“打开电视”等，或者语音唤醒功能“小度小度”。

开放域识别：放开了说，机器接得住

开放域识别，无需预先指定识别词凑集，算法将在全体措辞大凑集范围中进行识别。

为适应此类场景，声学模型和措辞模型一样平常都比较大，引擎运算量也较大。
因此，业界厂商基本上都只以云端形式供应。
比如，百度云就可以供应这样的产品。

详细而言，开放域识别按照音频录入和结果获取办法又可将产品形态分为3种：

产品形态一：流式上传-同步获取，运用/软件会对说话人的语音进行自动录制，并将其连续上传至云端，说话人在说完话的同时能实时地看到返回的笔墨。

范例运用处景：语音输入法、实时字幕、语音条记。

产品形态二：已录制音频文件上传-异步获取，音频时长一样平常小于5小时。

范例运用处景：音/***字幕配置、实时性哀求不高的客服语音质检和语音内容审查等。

产品形态三：已录制音频文件上传-同步获取，音频时长一样平常小于1分钟。

范例运用处景：语音搜索、更智能的机器人语音交互。

当前，百度语音识别技能已经全面开放，包括语音识别、长语音识别、远场语音识别、呼叫中央实时语音识别、呼叫中央音频文件转写五大种别，数十项根本技能，并做事于浩瀚开拓者。

通过这样的先容，你大概理解到打算机的“耳朵”是如何练成的吧。
如果在实践中，智能音箱这类产品听不懂你的话，你可以多说几遍，像对待孩子那样。
只要这样，智能音箱就会越来越懂你。

想要理解更多关于“百度云”动态，以及“AI运用”干货，欢迎关注“百度云”微信"大众年夜众账号，理解详情。

本文系作者个人观点，不代表本站立场，转载请注明出处！

识别语音

你知道人工智能是怎么听懂语音的吗？_语音辨认_语音

热门内容

随机文章

推荐内容

最新内容

TAGS标签

你知道人工智能是怎么听懂语音的吗？_语音辨认_语音

相关推荐

TT语音,重塑沟通体验，打造全新社交生态

乐助手,智能生活的得力助手，开启便捷新篇章

人工智能时代，如何打开智慧之门

介绍CF语音技术,让沟通更高效，未来已来

DLL字体库,现代计算机视觉的基石

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签