数据作为新型生产要素,是构成数字经济的核心资源和主要基石,而办公场景存在大量数据,AI有充足的‘用武之地’,比如OCR光学笔墨识别、语音识别、图像识别等等,具有丰富的落地运用代价。
”7月22日,在金山办公的技能开放日上,华南理工大学电子与信息学院教授、广东省琶洲实验室OCR中央主任金连文表示。

人工智能时代的OCR 从感常辨认到认知理解_人工智能_技巧 AI快讯

“笔墨识别技能,我们又把它简称为OCR,它跟云识别、图像识别等等这样通用的人工智能技能一样,是可以把我们非构造化的数据,比如说文档,转换成为构造化的数字化的数据,从而可以支撑各种各样的人工智能的创新运用,以是从这个意义上来讲,笔墨识别这样一项技能也是底层的OCR技能。
”金连文说。

笔墨识别是最具有落地运用代价的人工智能的技能之一。
“比如聪慧办公,我们拍一张图片,通过OCR的技能就可以转换成一个可编辑的文档,这样就可以提升办公效率。
比如在聪慧教诲当中的聪慧阅卷,在聪慧金融、交通、城市、旅游等等,包括电商、智能设备、互联网信息安全的内容审查等等,这么一系列的运用当中都有非常广泛的运用前景。
”金连文举例。

笔墨识别是一个范例的AI的人工智能技能运用落地的场景。
“实际上人工智能的技能在十多二十年以前就开始在OCR的技能领域当中得到了运用。
”金连文说,包括人工智能的三个巨子,像Bengio、Yann LeCun、Hinton教授,他们在上个世纪90年代末期就开始用深度学习这样的人工智能核心技能来办理OCR当中的关键问题。
但是从2012年开始,人工智能的技能才彻底在OCR领域中办理了大量的问题。

为什么过去这几年才把OCR里一些大略的感知问题办理呢?“首先是由于过去七八年以来,开始数据量不是问题了。
其次是由于算力也跟上来了。
有一个不雅观点认为人工智能有三个要素:数据、算法、算力,这三个要素大家普遍认为它是人工智能的三个要素,我的不雅观点是,有数据、有算力、有算法,大概是可以办理人工智能当中感知层面的问题,但是还有构造化理解认知层面的问题是不能办理的。
”金连文认为。

什么是感知层面的问题?金连文举例,比如说做一个人脸识别、一个笔墨的OCR的识别、字符的识别,这些都是属于感知层面的问题,本日如果算力够、数据够,做一个人脸识别的引擎,或者一个大略的笔墨识别的引擎,已经不是太大的问题。

“但是有些问题是在感知层面办理不了的,以是我想提一个不雅观点,人工智能可能还要加上知识,有了知识这样的成分,才能使得我们去办理认知层面的问题,这里讲的知识包括物理知识、领域知识、语义知识,以及包括从大量的海量的无监督的数据去学习到的背后的知识。
”金连文强调。

为什么知识很主要?金连文举例:“比如我这里有一张图,这张图是一个烤肉火锅店,但是本日很多笔墨检测器没有语义支持的话,它可能检测出来的结果是这样的,肉和火靠得近,以是烤和肉就没把它连在一起,但是如果加上一些语义的知识,如果做一点理解的话,就不会犯这样的缺点。

金连文认为,人工智能进一步的发展,要把数据和知识很好地利用起来,才能更好地去办理感知层面的问题。
基于感知方面的问题,实际上在领域当中也有很多学者开始干系的研究事情。

金连文团队在2018年就利用数学当中的路径积分的领域知识和措辞模型知识去演习了一个连接手写识别引擎。
从去年到今年也利用了干系的领域知识构建了一个不须要仿冒数列署名的条记鉴别的识别系统。

“这些都是知识和传统感知的数据层面结合起来,可以更好地去帮助我们去办理实际的人工智能的运用问题。
”金连文表示,OCR/CV领域和知识推理(包括NLP)不断领悟的技能,该当是未来OCR技能中非常主要的发展趋势。

文/科技日报 马爱平

编辑/范辉