人工智能之智能家居的行业分析_语音_智能
语音交互(VUI)指的是人类与设备通过自然语音进行信息的通报,一次完全的语音交互须要经历ASR→NLP→Skill→TTS的流程。
语音识别(Automatic Speech Recognition):简称ASR,是将声音转化成笔墨的过程。自然措辞处理(Natural Language Processing):简称NLP,是理解和处理文本的过程。语音合成(Text-To-Speech):简称TTS,是把文本转化针言音的过程。
智能语音交互系统作为人工智能最为范例的运用之一,可以将其技能拆分为如上图部分。
在实际的运用处景中,对智能语音交互系统将提出特定的需求,本报告集中于家庭大屏场景下的交互剖析。
值得把稳的是,不同公司在智能语音技能的上风各有不同。个中,以行业龙头科大讯飞为代表,基于其深耕行业20载,在语音识别,声纹识别,语种识别有着较大的上风。
二、语音助手的市场现状
1. 环球智能语音市场剖析
据统计数据显示:2017年环球智能语音美元,同比增长30%。随着移动互联网,智能家居,汽车,医疗等领域的运用带动智能语音家当规模持续快速增长,估量2019年环球智能语音市场规模将打破170亿美元。
2. 环球智能语音市场份额
在环球智能语音市场份额占比中,Nuance环球市场霸占率排名第一,市占率达到31.6%;其次为谷歌,市场霸占率为28.4%;排名第三的是苹果,市占率为15.4%;其后为微软以及科大讯飞分别霸占8.1%以及4.5%的市场份额。
3. 中国智能语音市场剖析
在人工智能和物联网技能的发展带领下,智能家居发达兴起,互联网巨子及新兴创业公司从硬件、技能、系统办理方案平分歧角度进行布局,智能家居系统初步显现。
估量2019年,中国智能家具市场规模将超1900亿,虽增长规模有所放缓,但市场规模将保持稳定增长,2020年将打破2000亿元。
4. 语音交互的市场规模以及市场格局
目前,中国智能语音市场的紧张份额被科大讯飞、百度以及苹果分割。
数据显示:目前为止,中国智能语音市场,科大讯飞市场霸占率排名第一,市占率达到44%;其次为百度,市场霸占率为28%;排名第三的是的苹果,市占率为7%;其后为Nuance以及小i机器人霸占均为3.0%的市场份额(前瞻家当研究)。
5. 中国家庭大屏家当
中国电视机出货量在经历2011年到2016年的持续正向增长后,2017年⾸次涌现负增长,这⼀情形将在 2018年有所好转。
同时,互联⽹电视机出货量占⽐频年稳定攀升,估量2018年将达到88%,整年出货量近 4000万台。2018年上半年,受天下杯效应影响,销量同⽐增长3.6%,但受贬价影响,整体业务额低落2%,综合测算整年销量同⽐增长3%。
以电视机为代表的大屏设备在智能家居中扮演着举足轻重的浸染,作为智能家居最为紧张的交互办法——语音交互,智能语音交互系统有着巨大的市场规模和发展潜力,本报告聚焦于基于大屏的智能语音交互系统进行剖析。
相较于移动真个场景不同,大屏设备的紧张利用场景在室内,集中于家庭。目标客户和利用场景的独特性,使得智能语音运用在该场景的利用具有分外性。
例如用户在近景中,我要看语文。这里“看”理解成学还是点播,意味着完备不同的跳转页面。这对付语义理解提出了较高的哀求。
大屏设备作为智能家居观点的主要组成部分,也是语音交互的主要入口一定成为市场必争的主要领域。
当我们转向用户思考IOT时期万物互联,意味着你身边的任何设备都是联网的,你可以在任何地方、任何韶光和任何设备交互(IOT的4A原则),以是IOT将大大消弱了手机当前的交互中央地位。
当云端开始遍及之后,未来打算平台的前台,是一系列形态、功能互异的智能硬件,这些硬件或大或小,有屏或无屏,近场或远场,位置固定或随身移动。虽然千差万别,用户却希望在任何一台设备上的交互状态可以云端同步至其他设备,用户可能随时在设备间切换,但希望交互进程和数据流不被中断、持续向前(集群智能)。
那么,什么样的交互能够支撑这种切换需求、适配各种设备而又担保体验的同等性呢?
从这个角度思考,我们很随意马虎就能创造语音交互的独特上风。
6. 语音交互的上风
解放双手、双眼、双腿,打仗空间限定,近场,远场可交互;指向明确,语义直达目标,缩短利用路径;自然大略人性化,学习门槛低;可以1对1,也可以1对多;对设备哀求低。二、竞品比拟剖析概览
1. 竞品简介
小爱同学是小米科技于2017年7月26日推出的智能语音交互系统,适用于智能音响及其他智能设备,建构于小爱开放平台上,可以通过连接进入米家物联网系统掌握所有的米家智能设备。
小度电视伴侣是百度旗下的一款智能硬件产品,内置DuerOS系统。从产品的观点来看,其以 Soundbar 的形态融入高性能 4K 机顶盒、智能音箱的功能,其三合一的创新产品形态,为客厅影音场景带来了简洁的一体性办理方案。
依托全语音交互大屏吸引,小度电视伴侣可实现利用语音打开设置中的蓝牙开关、调度图像设置等等。如“打开WiFi”“打开设置”等等,或者根据界面显示的内容,用语音命令指定播放***内容,如“播放第三个”“这个人是谁”等等。此外,小度电视伴侣还可以通过语音掌握多款智能设备,如“打开落地灯”“打开空调”等等。
讯飞语点是由科大讯飞推出的智能语音交互系统, 在2015年,科大讯飞重新定义了万物互联时期的人机交互标准,发布了对人工智能家当具有里程碑意义的人机交互界面——AIUI。
2016年,环绕科大讯飞人工智能开放平台的利用人次与创业团队成倍增长。截至2017年1月,讯飞开放平台在线日做事量超30亿人次,互助伙伴达到25万家,用户数超9.1亿,以科大讯飞为中央的人工智能家当生态持续构建。
2. 目标客户
本报告针对基于家庭大屏的智能语音交互系统的竞品剖析,故家庭大屏用户为本报告产品的目标用户。
现阶段,主流大屏***接入紧张分为DTV,IPTV和OTT三种类型,截⾄2018年Q2,DTV、OTT的中国城镇家庭⼤屏保有量均超过2亿户,IPTV⽅⾯保有量达到1.42亿。个中,中国移动魔百和在⼴东省有约1000万的⽤户成功转为IPTV⽤户,移动OTT盒⼦并⼊IPTV阵营可能成为趋势,那么有望在短期内使IPTV总⽤户也跃升⾄2亿户。
受限于数据和资料,本报告对不同类型的大屏终端用户不作区分,以所有大屏用户作为目标用户作为剖析工具。
大屏用户性别分布比例:
大屏用户年事分布比例:
大屏用户学历分布比例:
基于现有数据可以剖析得出,大屏用户的用户分布较为均匀。
与传统的人工智能产品以年轻人、高学历、男性为紧张目标用户不同;基于大屏的智能语音交互系统用户分布更为均匀和广泛,这种特点对详细场景的需求设计提出的新的哀求。
目标用户群体画像不具有代表性,使得产品在设计和开拓时须要更多的关注于场景而不是用户,从该场景下的通用需求出发对产品进行设计和迭代。
三、评价指标
本报告基于智能语音交互系统利用场景,在大屏语音交互外结合了车载语音交互系统评价的标准,制订出对付大屏语音交互的性能评价体系。
智能语音交互系统的性能需知足以下指标哀求,个中唤醒率和误唤醒率应针对支持语音唤醒功能的语音交互系统。
1. ASR
1.1 字准确率
该指标用于评价语音交互系统输出的人类可是别的文本信息精确率。对付中文普通话语音交互系统,该项指标的评价分类如表1。
1.2 识别成功率
若语音交互系统在既定的识别轮数内完成了语音识别任务,则这次语音识别成功。语音识别成功与否该当兼顾语音交互系统动作的可靠性问题。
若语音交互系统共进行了R次特定的语音识别任务,个中SR次识别成功,FR次识别涌现误操作(包括但不限于 未在既定的识别轮数内完成,未完成识别条件前退出,识别无相应)。则:
识别成功率= SR/R 100%
误操作率 = FR/R 100%
识别成功率 + 误操作率 = 1
1.3 均匀相应韶光
该指标用于评价语音交互系统对语音识别任务的相应速率,离线语音交互系统的均匀相应韶光应≤2S;在线语音交互系统的评价相应韶光应≤3S。
1.4 唤醒率
若语音交互系统共进行了W次唤醒,个中SW次成功唤醒。则:
唤醒率 = SW/W 100%
该指标用于评价语音交互系统在有背景噪音情形下,对语音唤醒操作的精确相应情形。
1.5 误唤醒率
若车载语音交互系统在T小时内涌现FW次误唤醒。则:
误唤醒率=FW/T 次/小时
该指标用于评价语音交互系统在有背景噪音的情形下,对语音唤醒操作的缺点相应情形。
2. TTS
主不雅观测试(自然度),以MOS为主:
MOS(Mean Opinion Scores),专家级评测(主不雅观);1-5分,5分最好;ABX,普通用户评测(主不雅观)。让用户来视听两个TTS系统,进行比拟,评测出声音的自然度。3. 互换体验
3.1 用户任务达成率(表征产品功能是否有用以及功能覆盖度)
比如智能客服,如果这个Session终极因此接入人工操作为结束的,那基本就解释机器的回答有问题,或者重复供应给用户相同答案等。
3.2 对话交互效率
比如用户完成一个任务的耗时、回答语对信息通报和动作勾引的效率、用户进行语音输入的效率等(可能和打断,One-shot等功能干系)。
3.3 根据对话系统的类型分类
1)闲聊型
CPS(Conversations Per Session,均匀单次对话轮数)。值得把稳的是此指标为微软小冰最早期提出的指标,并且是小冰内部的(唯一)最主要指标。干系性和新颖性。与原话题要有一定的干系性,但又不能是非常相似的话;话题闭幕者。如果机器说过这句话之后,常日用户都不会连续接了,那这句话就会给个负分。2)任务型
留存率:虽然是传统的指标,但是能够创造用户有没有形成这样的利用习气;留存的打算乃至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接管程度较高,还可以从用户的问句之等分析发出指令的习气去针对性的优化解析和对话过程;到后面积累的特色多了,评价机制建立起来了,就可以上强化学习;比如之前百度高考,教考生填报志愿,便是这么弄的。完成度(即前文提过的“用户任务达成率”):由于任务型末了总要去调一个接口或者触发什么东西来完成任务,以是可以打算多少人进入了这个对话单元,个中有多少人末了调了接口。干系的还有(每个任务)均匀slot填入轮数或添补完全度。即完成一个任务,均匀须要多少轮,均匀填写了百分之多少的槽位slot。3)问答型
终极借助人工操作的比例;重复问同样问题的比例;“没答案”之类的比例。整体来说,行业一样平常PR宣扬时,会更多的提CPS,其他指标看起来可能相对太噜苏或不足高大上。
但是,实际事情中,可能CPS更多是面向闲聊型对话系统;而其他的场景,可能更该当从“效果”出发。比如,如果小孩子哭了,机器人能够“哭声安慰”,没必要对话那么多轮次,反而该当越少越好。
4. 语料自然度和人性化的程度
目前对付这类问题,一样平常是利用人工评估的办法进行。这里的语料,常日不是单个句子,而是分为单轮的问答对或多轮的一个session。
一样平常来讲,评分范围是1~5分:
1分或2分:完备答非所问,以及含有不友好内容或不适宜语音播报的分外内容;3分:基本可用,问答逻辑精确;4分:能办理用户问题且足够精髓精辟;5分:在4分根本上,能让人感想熏染到情绪及人设。其余,为了肃清主不雅观偏差,采取多人标注、去掉极度值的办法。
四、产品功能比拟一览
可以看出智能语音交互系统不仅仅局限于对智能家居设备的措辞掌握,不同厂家的措辞交互产品都进行了大量的功能开拓,包括但不限于生活管理做事、游戏、生活百科、增值做事。如
何挖掘出该场景下用户的深度需求,捉住场景下用户的痛点变成了各家厂商须要重点考虑的问题。
五、产品体验细节比拟
1. 功能体验
根据影响用户选择语音助手线上调查问卷的构造,语音识别准确度,操作便捷,输入速率快,功能多样,词库丰富等成分,比拟剖析部分产品体验细节。
本报告针对语音交互系统中常用的业务场景进行了测试,通过对详细功能的体验比拟进一步理解。
基于上述功能体验,讯飞语点在语音合成失落真度和反应韶光上具有一定的上风,这紧张得益于科大讯飞在语音技能上的技能积累。
小度在语音交互时,更加侧重音乐搜索功能。在“刘德华的无间道”和黄梅戏的交互中,小度均直接跳转进***语音界面。
在开放式谈天中,小度的体验感较差。无法理解用户意图时,采取了相同的语音反馈使得用户的利用希望降落。小爱同学针对开拓式问题,有着不同的反馈。
在知识百科场景下,小度表示出了较强的上风。该上风得益于百度在搜索引擎中的长期积累。
2. VUI体验
(因机顶盒配置问题,无法体验)
六、总结剖析
智能语音交互系统依然存在着发展空间,竞争进入了白热化阶段。以本报告的三款产品为例,讯飞语点,小爱同学和小度分别拥有自身的发展上风。但值得一提的是,暂时未涌现一款绝对领先的产品。各款产品都拥有自己上风和劣势,特殊地在某些特定的场景中体验分解极大。现阶段,语音交互系统中语音识别环节暂无较大差距。只管在地方性措辞识别上科大讯飞拥有着较大上风,由于其利用场景较为单一且目标用户数量有限,难以形成产品上风。在NLP阶段,由于各款产品技能背景的差异,使得其在不同场景下存在独特的上风。例如:讯飞语点的方言识别,小爱的米家产品掌握,小度的语音检索。但在识别语音意图时,与真实的对话依然才存在着较大差距。搭载于大屏上的智能语音交互系统,由于其场景较为繁芜,仍旧须要一段韶光进行发展和完善。关于语音交互系统未来的猜想
智能语音交互系统在IOT和5G的技能的不断发展和遍及下,将会拥有越来越大的发挥空间和巨大的市场需求,智能语音交互系统也将会从闭环问答式的产品逐步走向开环互换式的智能产品。
作为一款智能产品,智能语音交互系统将逐渐实现情绪化的功能,从一个智能系统到拥有情绪需求的智能机器人。可以想象的是,智能语音交互系统将会成为人工智能发展的一个主要表示,并在未来的生活中扮演着越来越主要的浸染。
参考文献
《语音交互的三驾马车:ASR、NLP、TTS》[http://www.woshipm.com/ai/2620327.html]
《2018年智能语音行业发展现状及趋势剖析》[https://bg.qianzhan.com/report/detail/459/190203-4d8a0a01.html]
《2019 中国家庭大屏家当生态发展白皮书》
《2018年中国智能语音企业案例研究报告》
《TAF-WG7-AS0041-V1.0.0 2019 智能产品语音识别测评方法 车载语音交互系统》
《填槽与多轮对话 | AI产品经理须要理解的AI技能观点》
本文系作者个人观点,不代表本站立场,转载请注明出处!