AI时代需要若何的输入法?解构讯飞第11代输入法五大年夜亮点_输入法_用户
作者 | 杨畅
编辑 | 漠影
你试过15分钟写3000字吗?
除了知识储备和灵感之外,码字速率同样是一个作者主要的必杀技。作为一位作者,剑飞最常用的码字神器便是讯飞输入法的语音输入功能,他还曾经考试测验过用讯飞输入法日更15万字。
输入法虽然是人们利用手机、电脑等智能设备的必备工具,但大家在平常被问到最常利用的App是哪个的时候,很少有人会想起它。
不过随着越来越多AI技能运用到输入法中,输入法逐渐从工具性产品发展成做事性产品,变得更知心了,像讯飞输入法中的中英文稠浊输入功能、AI助手供应的AI校正、AI斗图等等,为用户供应了更个性化和场景化的做事。
今年是讯飞输入法推出的第11年,每年都会升级一个大版本的讯飞输入法,在11月3日发布了今年全新升级后的输入法:讯飞输入法V11.0。第11代讯飞输入法有五大亮点变革:AI语音升级、AI助手升级、AI键盘输入升级、AI表情升级和输入法App UI、App内社区改版。
详细新升级的讯飞输入法能给用户带来若何不同的输入体验,这些升级背后讯飞输入法又融入了哪些独占的AI能力?
为此,智东西对话科大讯飞输入法业务部总经理程坤,在解构讯飞输入法五大新亮点的同时,进一步解开讯飞在AI赋能输入法方面的逻辑和思考。
一、语音输入进化,应对中英文夹杂、喧华街头磨练
近几年随着语音识别等干系的技能的发展,越来越多用户开始利用、习气语音输入的办法。不过,相对付拼音输入和手写输入来说,语音输入还有比较大的局限性,个中最大的一个局限性便是随意马虎受到周围环境的影响,比如说高噪声、多人说话的喧华场合等,如何担保一个比较好的识别效果是须要重点去打破的技能难点。
程坤谈到讯飞从启动深度学习语音识别研究以来,一贯在优化迭代其语音识别模型框架,从DNN到RNN到DFCNN再到Encode-decode,不断提升语音识别的效果,进而担保讯飞输入法语音输入等讯飞语音干系产品的功能持续优化。
受到人耳具备的听觉选择性把稳能力的启示,讯飞提出繁芜场景下的前后端一体化语音识别框架TFMA(Temporal feedback end-end multi-channel ASR)框架,将原有的语音识别过程进行重构。
传统语音识别系统
传统的语音识别是首先通过声学模型将声音进行过滤,得到特色旗子暗记,通过第一道识别引擎把这些特色转化成如发音信息等音素,然后结合措辞模型将语音转化为笔墨。
在这个语音转笔墨的过程中,如果背景声音是有多个人在同时说话,利用传统语音识别系统是没有办法将这么多声音过滤掉的,进而影响了输入法语音识别的准确性。
目前,讯飞做了一些创新,高效利用多通道语音输入,比如新发布的这个TFMA语音识别框架可以办理繁芜场景下的语音识别问题。该方案的技能创新点在于采取前后端联合建模、优化的方案,形成一套自下而上与自上而下相互结合的流程,同时还引入大量的专家知识,结合神经网路网络与传统旗子暗记处理的上风,担保了系统的鲁棒性。
TFMA语音识别框架
通过利用TFMA语音识别框架,包括讯飞输入法在内讯飞的软硬件产品大大受益,这些产品在高噪声、多人说话、轻声说话等繁芜场景下的语音识别能力再次提升,特殊是-10分贝至-15分贝等恶劣场景下的识别由不可用变为可用乃至交用。
程坤先容说,第11代讯飞输入法除了繁芜场景下识别率提升之外,另一项语音方面的提升在于可识别的语种更多了,这一最新版的讯飞输入法现支持包括阿拉伯语、俄语、意大利语、英语等12种外国措辞的语音输入和随声译。
程坤补充道,包括这次的多语种和之前的方言语音输入办法的实现都依赖于讯飞的统一建模的技能,将各种语种、方言的语料统一放到一个模型中演习,演习过程中各种语料并不拆开,演习完成后直接输出,这样即利用户的普通话没那么标准的情形下,讯飞输入法也能担保一个很好的识别效果。
讯飞输入法随声译功能,例如用中文说话输入法自动转化为德语笔墨输入
在互换中,程坤说,从输入法发展的全体过程来看,可以把输入法分为两个阶段,首先是追求效率的一个阶段,可以定义为“1.0版本”,这个阶段输入法厂商办理的是若何让笔墨输入又快又准的一个问题。
由于受疫情影响,很多事情、互换都转到了线上,实在,输入法的语音转笔墨特殊是多语种输入功能很好地知足了人们线上互换时的这种快和准的转录式输入需求。
二、让输入法若何更懂人:既是百宝箱也是情绪写手
程坤补充道,随着互联网发展和智能设备用户的个性化需求的增多,输入法也随之变革,办理这种个性化需求的输入法可以被定义为“2.0版本”,对应了三类需求。
第一类需求是用户的个性化输入需求,讯飞上线了AI助手功能去承载这一需求,比如说有些人喜好用图像去表达一些内容,讯飞输入法有笔墨直接转图片的斗图功能。
讯飞输入法AI斗图功能,输入笔墨自动推举图片
第二类个性化的需求是很多人的输入是为理解决某一类问题,讯飞也根据用户的这类需求在输入法里内置了搜索,缩短了用户的需求实现路径。
程坤说,这一功能的实现实在是依赖讯飞最新确当地化意图识别引擎去解析用户的意图,然后供应给用户针对性的做事。
讯飞输入法内置的搜索功能
第三类是情绪化的需求,讯飞想让输入法的AI助手像一个真正的助手一样,能主动供应给用户一些推举和做事,比如说在用户在社区论坛发帖过程中给用户推举文案,当用户谈天的时候供应给用户一些更丰富的表达、帮忙校正错别字,用户想一键好评的时候帮忙助写等等。
这个过程中会用到一些自然措辞处理(NLP)的技能,在本地直接进行分词剖析,感知到用户想要表达什么。其余,本地化NLP技能对用户来说体验会更好,也更安全。
讯飞输入法AI发帖助手、AI谈天佑手、AI好评助手功能
程坤还分享了讯飞输入法在AI助手方面未来的一些目标,他说对付现在的讯飞输入法版本,可以定义为从追求效率的“1.0版本”向追求情绪感知的“2.0版本”的一个过渡,以是在场景覆盖上面还没有那么全,讯飞先选择用户社交、论坛、电商等一些用户利用频次高的场景进行适配,未来会逐步的扩展,比如说直播场景、用户写作场景等等。
并且,讯飞输入法未来想供应的不仅仅是输入工具的功能,还会加入后续的做事链接,像目前,在讯飞输入法界面就可以直接搜索不用跳出输入界面,未来可能在买东西的时候,输入商品名称,输入法就会串联到一个比价的功能等等。
“实在讯飞输入法是全体讯飞产品里用到人工智能技能比较多的这样的一个产品。”程坤谈到,除了语音技能和AI助手之外,讯飞输入法的图像识别功能和随意手写输入的功能也是融入了很多讯飞自研的AI技能,可以识别手写和印刷体、表格,还可以进行学生作业的批改等多种功能。
讯飞输入法的图像识别功能
三、输入法的未来在元宇宙里?
除了提升输入法的AI能力,讯飞对输入法的界面也进行了改版,第11代讯飞输入法键盘整体变得更加圆润。
程坤提到讯飞针对某些页面,基于利用人群本身的特点进行了一些定向的优化。
讯飞输入法App页面和键盘页面
输入法是人机交互的主要工具,除了常用的手机、电脑之外,汽车、可穿着设备等等都会须要输入法来完成操作。
例如,汽车的车机内置输入法,用户对这类输入法的需求跟利用手机时对输入法的需求不同,利用车机输入法的目的更多是进行搜索,搜地名来导航、搜歌曲来提神等等;而像智好手表对输入法的需求也相对付其他设备有差异,讯飞的语音输入功能对付智好手表这种屏幕较小的智能设备来说,会有更好的输入体验。
智好手表输入界面
谈到输入法的交互能力,程坤还分享了对付输入法未来发展的一些见地,输入法的笔墨录入的功能可能只是它的部分功能,未来输入法更多可能会像一个助手一样存在。
像最近业内热议的元宇宙,用户如何和虚拟天下进行交互,可能不仅仅是利用现在常用的键盘,或者笔墨输入这种形式,更多的可能是类似现实中人和人语音对话的这种形式进行一些交互。
除了语音交互之外,在元宇宙这种虚拟天下中,人们还会须要用图像来进行交互、识别交互的另一方;再有便是讯飞正在布局的虚拟形象,通过一个虚拟形象代表用户自己在虚拟天下的一个身份,进而结合语音技能、图像技能来达成更好的交互。
科大讯飞推出的虚拟人交互平台
结语:AI时期输入法从快和准到个性化
随着输入法的准确性和快速输入能力的提升,用户对输入的需求也不断增多,讯飞考虑到各种用户不同场景下的需求,给出有针对性的输入办理方案,包括语音输入、图片输入、AI校正、AI助手等等。
谈到讯飞输入法,程坤说现在讯飞输入法的大部分用户都是主动从手机运用市场高***安装讯飞输入法的,便是由于讯飞充分考虑到了用户个性化的需求。
如何利用AI去更精准地匹配用户的个性化需求,或许是未来输入法领域主要的竞争点。
本文系作者个人观点,不代表本站立场,转载请注明出处!