作为一个产品经理,让我们卖力的产品成功的关键在于场景、需求和痛点——越自然地知足用户的需求,用户的体验就会越好。

用AI加强产品设计·识别篇——若何运用文字识别(OCR)、语音识别(ASR)和机械翻译(NMT)提升用户体验_文字_机械翻译 智能写作

比如我们看看这几个例子——

在快递、闪送这个场景下,用户的收件人地址信息常日在其余一个App里,想要有时乃至复制和粘贴都做不到。
是否能对收件人的姓名、地址这些信息进行截图、识别、智能填写?至少我们须要把这个截图里的笔墨识别出来。
在旅游的过程中,用户如何快速看懂身边的笔墨?有时用户不但是看不懂——大概率连输入都做不到(日语的假名、泰语的笔墨),至少我们要先把它转成笔墨,然后再进行翻译,对吧?

为理解决这些痛点问题,人工智能(AI)能力很有可能是你最佳的选择,而做一个“懂一点AI”的产品经理很可能在这个新的时期里是PM的必备技能。
在这篇博客里,我们会探索三种特定的人工智能功能——图像文本识别(OCR)、语音识别(ASR)和机器翻译——以及如何运用它们来增强我们的产品并为用户供应代价。

当然,值得把稳的是,还有很多其它的AI能力,在日后的文章中我们会逐一先容。
在这篇博客中,我会只关注这些和笔墨、识别和快速理解干系的三个能力,而这三个作为全体AI天下里最随意马虎理解的根本能力,能快速地带你理解到如何运用AI到你的产品里。

目录:

I. 图像笔墨识别(OCR)II. 语音识别 (ASR)III. 机器翻译IV. 总结V. 一些额外的阅读建议

一、图像笔墨识别 (OCR)

很多人该当都有这样的困扰,比如在逛淘宝的时候,想要去搜索详情页的大图里的笔墨切实其实难于上上苍,由于图片里的笔墨是没法复制的。
一些不太懂一些“歪门斜道技能”的人也很难破解那些“禁止右键”或“禁止复制”的破网站的限定,拿到想要的笔墨。
有时你也可能须要从截图里获取笔墨,或者快速扫描手头的文档、电子化教室里的板书。
这些场景正是OCR的用武之地。
OCR是Optical Character Recognition(光学字符识别)的缩写,更多的我们会叫它“笔墨识别”或者“图像笔墨识别)。
在现在的手机App里很随意马虎找到OCR的身影,如微信最近的更新使得你可以在谈天记录中搜索笔墨,会找到提到这个笔墨的图片;iOS的实况文本功能可以在输入框中快速录入现实生活中的笔墨等等。

OCR是一种让打算性能识别和提取图像中的笔墨的AI技能。
它的事情事理(简化到六岁小孩能理解的难度的话)可以认为是AI通过研究各种图片里笔墨的形状和模式,学会了在图片里“找笔墨”并把每个笔墨与已知的字符去匹配,末了见告你“字在哪”和“这些字是什么”的技能(当然这个阐明非常地不科学,你就姑息看吧)。
有了这个技能,再加上一些非常大略的交互和UI就可以做到根据须要去编辑、搜索或存储你提取的文本了。

如引入部分提到的,OCR的一个常见用例是在快递行业。
在填写收件人信息时,用户常日会截取表单的截图并提取文本以便快速填写。
OCR使这个过程更快更有效,由于用户不必手动输入所有的信息。
而且在截图场景下,像手机号的识别准确率会非常非常高。

OCR还可用于各种其他行业,如医疗保健、金融和教诲。
例如,OCR可用于从医疗记录、财务文档和学天生就单中提取和组织信息。
在一些分外的模版下,OCR能力结合一些图像处理的技能,也可以把一些固定格式的内容快速提取出来,形成构造化的信息并录入到数据库中;当结合一些自然措辞处理(NLP)技能时,也可以做到一些非构造化的信息提取。

然而,在利用OCR时还是会有一些须要考虑的问题的。
个中一个寻衅是,你想让OCR识别得准,你的图片就得很高清优质。
如果图像模糊或扭曲,OCR可能就没办法很准确地识别了。
有一个比较随意马虎理解的评估办法便是,如果人能轻松认出这个字是什么,机器的准确率常日会很高;但如果人须要费很大的劲,乃至须要结合高下文去预测,那么机器一样平常就不是很能准确地进行识别。

其余,像一些潦草的手写,用通用的OCR有时也会识别困难。
当然,通用的AI能力在分外的场景下,一样平常比不过对这个场景做专门优化的能力。
比如在有道智云这个AI开放平台里,通用笔墨识别、手写笔墨识别和公式识别是三个不同的接口。
比如在教诲场景下的公式识别,可以识别出LaTeX格式的公式,让在客户端渲染公式时更轻松随意马虎。
在我们的产品中如果有相应的场景,可以去接入试试看。

二、语音识别 (ASR)

语音识别,或者说ASR(Automatic Speech Recognition,自动语音识别),则是让打算机听懂“语音”的技能。
它能将语音转换为文本,利用户无需打字就能更方便地输入信息或发出命令。

ASR常日用于智能语音助手,如Siri和小爱同学,以及各种叫“转录”或“听写”的软件。
还是拿微信举例子,微信的语音转笔墨便是一个非常范例的ASR能力的例子,没有它你可能每天都被(你讨厌的)某些朋友进行60s轰炸。
其它的例子比如如语音输入法、语音导航等等。
它还可以用于各种行业,包括客户做事、教诲、音***行业等等。

例如,在客户做事行业,ASR可用于创建交互式语音应答(IVR)系统,让用户可以用语音就和“外呼机器人”对线。
当然更早期还没有现在这么智能的机器人,早期实在是做一些大略的“回答”就可以让用户找到他们须要的信息,有效减少了(某些公司——合理疑惑——根本就不存在的)人工客服。
在教诲行业,ASR运用还是很广泛的,比如在线课程的字幕识别、学生的课文背诵和语音问答等等。
最新的B站也终于加了“字幕自动识别”,结合后文的机器翻译就可以快速理解原来不懂的外文影片了。

在产品里集成ASR的好处可太多了。
紧张的缘故原由实在便是它能解放双手,不须要再去打字,这样无论是输入速率还是精确性都会提高不少,产品的可用性也会有提升。

和所有其它AI能力一样,在利用语音识别能力的时候,要特殊把稳利用场景,同时也会搭配一些额外的能力利用。
如实时互换的过程中,须要加入VAD能力来判断用户的一段话是否已经说完(在有道智云这些能力都已经集成进了接口中),同时对时延的哀求非常高,常日哀求时延在200ms以内。
相对的,在长语音文件转写的场景里,用户等待的韶光就可以适当放宽,在产品设计上可以批量提交后系统转写再关照用户完成(异步处理)。
一样平常来说,一个商用的ASR系统的加速比一样平常是在1:30、1:50乃至更高,即半小时的音频,在一分钟就可以转写完毕,大家可以在产品设计的过程中参考这一数字。

然而,在利用ASR时也有一些问题须要考虑。
个中一个寻衅是,这项技能可能并不总是能准确识别不同的口音或方言。
此外,背景噪声会滋扰ASR过程的准确性。
当然,和OCR一样,如有道智云这种面向开拓者的AI平台一方面会充分考虑通用性,在系统内部进行了对噪声的处理,同时兼容不同的方言和口音,有必要的时候还可以考虑通过声纹识别等新的技能进行优化,另一方面如果有分外的需求(如对某种特定方言的准确识别),也可以和他们的商务联系来得到更积极的支持和优化。

三、机器翻译

机器翻译是一种让打算机将文本内容从一种措辞转换成另一种措辞的技能。
它可以用来实时翻译网站、文档,乃至是对话。

机器翻译适用于各种行业和场合。
例如,在社交干系的产品上,跨语种的互换总是会有措辞障碍。
加入了机器翻译后,跨语种的互换就成为了可能。
同时像产品描述或客户做事查询这种官方供应的文档,也可以在低本钱的条件下可以轻易拓展更多国家的用户群。
同时,翻译能力可以让我们的产品更随意马虎为说不同措辞的人所接管,从而使我们能够打仗到更广泛的受众,也可以提高沟通的效率和信息通报的速率。

和上文我们提到的OCR、ASR能力结合在一起,会起到更奇妙的化学反应。

当输入是图片时,可以进行图片翻译,这种翻译办法除了却合了OCR、机器翻译外,还利用了多种新技能(如对抗天生网络、篇章语义理解等等),使得不仅能让用户快速理解图片中的笔墨,乃至可以把笔墨直接绘制在背景上,就彷佛原来照片上便是目标语种的笔墨一样,这样能大大降落用户的理解难度。

而当输入是语音时,又有一些新的玩法。
比如可以实时地进行会议场景下的字幕翻译,还可以和一些其它的语音技能相领悟。
比如可以直接把翻译后的内容读出来(TTS技能),乃至可以用你自己的声音读出来(声音复刻的PR稿,链接)。

当输入是PDF这类文档时,由于文档有可能是图片格式、有可能是笔墨格式,须要合营针对性的解析做事(pdf转word)来利用。
有道智云也供应了“文档翻译”这样的能力(可以公有云接入,也可以私有化支配),直接上传pdf、excel、ppt等格式的文档,就可以***对应的译文。

然而,在利用机器翻译时,也有一些须要考虑的问题。
翻译的质量不一定在任何情形下都很好,特殊是对付那些更繁芜或有很多习语和文化参考的措辞。
在这种情形下,有可能须要一些术语库(链接)乃至是专业领域模型的支持。
比如有道智云供应了医学、金融、打算机等多个领域的专有领域模型。
此外,机器翻译过程有时会改变原文的语气或意图。
比如日语中的敬体、敬语,在和中文互译时,受限于措辞本身的差异,有时就会丢失掉原来听话人的感想熏染(比如中文很难表述出***花样繁多的敬语之间的细微差异)。
当然,随着技能的发展,这些问题也在逐步地办理中

四、总结

在这篇博客文章中,我们磋商了如何将图像文本识别(OCR)、语音识别(ASR)和机器翻译运用于识别信息并为不同行业的用户办理他们的痛点。
作为产品经理,主要的是在理解这些AI能力之后,考虑这些技能如何提高产品的代价和吸引力。
有了像有道智云(链接)这样的AI开放平台,将这些AI功能集成到产品中是很随意马虎的。
他们供应了所需的根本举动步伐和算法,因此你就可以专注于改进用户体验并为客户办理寻衅。

如果你有兴趣将这些AI功能集成到你的产品中,接下来你可以采纳以下几个步骤:

研究各种可用的人工智能功能,并确定哪些功能最干系,对你的产品和用户最有益。
探索像有道智云这样的AI PaaS平台,他们可以供应将这些技能轻松集成到你的产品所需的根本举动步伐和算法。
考虑在集成AI能力时一些潜在寻衅和限定,并相应地制订操持,通过产品设计规避他们,乃至把它变成产品的亮点。
测试和迭代以确保你实现的AI功能能够为用户增加代价并办理寻衅。

不要让集成AI的“难度”成为了阻挡你成为一个AI时期的产品经理的问题,当然,更随意马虎的方法是直接联系他们平台的商务(链接)职员,获取更加直接的支持。

本文由@王也弱 原创发布于大家都是产品经理,未经容许,禁止转载

题图来自 Unsplash, 基于 CC0 协议

该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。