感知(模式识别)是从传感数据中止定模式的存在及种别,并给出构造化和关系化描述的过程。
目前基于深度神经网络的模式识别方法仅办理了低级感知(检测、分类)问题,在高等感知层面对构造和关系的理解方面已有一定研究进展,但尚未办理。
将知识进行模式识别与理解,并将结果用于决策方案,属于高等认知的范畴,是未来有待加强的方向。
作者 | 星华 编辑 | 青木

什么是模式识别-识别功能开启_神经收集_办法 计算机

今年10月12日,2021中国人工智能大会(CCAI 2021)在成都正式拉开帷幕。
由23位中外院士领衔,近百位学术和技能精英齐聚西南人工智能新高地,深度呈现人工智能学术研究、技能创新和行业运用的最新成果。
中国人工智能学会副理事长、中国科学院自动化研究所副所长/研究员、IAPR/IEEE/CAA/CAAI Fellow刘成林教授揭橥了题为《模式识别:从低级感知到高等认知》的演讲,向与会代表先容了模式识别的内涵、演化、研究现状和未来研究方向。

刘成林教授现任中国科学院自动化研究所副所长、中国科学院大学人工智能学院副院长。
其研究领域为模式识别、机器学习、文档图像剖析等。
紧张研究成果包括:在手写字符识别、分类器设计与学习、字符串识别、文档版面剖析等方面提出了一系列有效方法;其发展的文本识别算法已广泛运用于邮政分拣机、表格处理、文档数字化、网络信息检索等领域。
在国际期刊和国际会议上揭橥论文300余篇,互助撰写了文本识别英文专著。
2005年获国际文档剖析与识别会议IAPR/ICDAR Young Investigator Award(青年学者奖),2008年获国家精彩青年科学基金。
为中国自动化学会、人工智能学会会士、IAPR Fellow、IEEE Fellow。

本次演讲首先对模式识别领域做了基本先容,然后剖析了模式识别的研究现状,先容了一些在理解模式构造方面的新进展,末了从结合认知的角度谈到了未来值得研究的问题和方向。

以下为演讲全文,《人工智能技能评论》对其进行了编辑,在不改变原意的情形下。

什么是模式识别?

1.模式识别的内涵

模式识别或机器感知是人工智能领域的紧张分支之一。
人工智能仿照人的智能,因此模式识别仿照人的感知。
感知是人或机器最主要的智能之一,由于人或机器须要从环境中获取信息,首先通过感知,例如对场景、人和笔墨的视觉识别,通过听觉与人互换等。
生理学或认知科学对感知或模式识别的定义是:把得到的刺激,也便是感知旗子暗记与大脑中储存的信息进行匹配,从而确定感知到什么。
从打算机实现模式识别的角度,也有各种定义,大致可分为两类:

综上所述,模式识别的定义是研究如何让机器仿照人的感知功能,从环境感知数据中检测、识别和理解目标、行为、事宜等模式。

模式识别的基本过程是利用传感器(比如摄像头)获取感知数据(比如图像),在图像中检测并定位物体,然后利用模式分类器判断该物体属于哪一类,这是传统的模式识别过程。

如果要拓展到描述,就须要剖析物体的内部构造以及图像中多个物体之间的关系,末了用自然措辞的句子来描述。
比如下图可能会给出这样的结果:“身穿火箭队11号球衣的姚明和他的教练站在一起。
”如果我们不知道这个人是谁,结果可能是“两个身高差距很大的人站在一起”。
这是一个相对繁芜的模式理解过程。

模式识别和感知险些是同义词,但侧重点不同。
“感知”侧重于运用,而“模式识别”侧重于技能和方法。
如今我们常常评论辩论感知和认知,因此须要明确干系观点。
模式识别和感知的内容比较广泛,它的处理工具是传感器数据(图像、***、音频等),从中止定模式(纹理、物体、行为、事宜)的存在、种别和详细描述(如部分与部分之间的关​​系)。
比较低级的感知,如对纹理的检测或分类或判断,须要的知识相对较少,我们称之为低级感知。
比较高等的感知是对这种模式有较深入的理解,可能须要一些先验知识。
认知一样平常指基于知识的逻辑推理,其范围包括知识获取、推理、语义理解等。
很多时候认知和感知是混在一起的。
比如我们跟人互换的时候,眼睛在看,耳朵在听,大脑在思考,这些都在同一韶光发生。
就算我们什么都不看、什么都不听,闭上眼睛去思考,那也不是一个纯粹的逻辑推理过程,由于大脑思考的时候会浮现出一些图像,以是感知和认知有很多交集。
这种交集可以算作是高等感知,由于须要一些知识才能深入理解模式。
再进一步,如果说到高等认知,便是跨模态或者跨任务的一些繁芜推理过程,或者基于语义的运用(比如回答问题、人机交互、自动驾驶决策等)。

2. 模式识别方法的演化

模式识别与人工智能领域的发展险些是初步的,从上世纪 50 年代开始就提出了许多方法,我们可以看到最早的模式识别论文揭橥于 1957 年。
上世纪 50 年代到 60 年代,紧张方法基于统计决策,即统计模式识别。
句法模式识别在 60 年代末开始被提出,70 年代到 80 年代,句法模式识别或者构造模式识别是研究重点。
当然统计模式识别也在不断向前发展,80 年代中期,多层神经网络受到广泛关注,90 年代开始涌现多种学习方法。

机器学习是在 1960 年代提出的,最早的机器学习紧张是指模式分类器的参数估计(比如 NJ Nilsson 的 Learning Machines),但现在涉及的内容更加广泛。
1990 年代又提出了大量的机器学习方法,也是环绕模式识别问题,紧张用于模式分类器设计或者分类器参数估计,包括 90 年代比较有代表性的支持向量机。
2000 年往后又涌现了更多的学习方法,包括多分类器(集成学习)、多任务学习、概率图模型、迁移学习等等。
现在紧张是深度学习方法,可以说是最主流,险些占主导地位的方法。

模式识别方法按照模式表示方法可分为两类:统计方法和构造方法。
统计方法基于特色向量表示,广义上讲神经网络或支持向量机也属于统计方法。
构造方法哀求对模式进行构造化描述,近几十年来一贯在研究,但目前实用性不强。
20世纪80年代以来,统计与构造稠浊方法被提出得比较多,这种方法将统计特性融入构造模型中,如属性图、概率图模型等。
现在神经网络越来越多地与图模型或图神经网络相结合。

从功能上看,模式分类器可以分为天生模型和判别模型。
判别模型的目的是把不同类别的模式分开,紧张关心的是可区分性。
天生模型有点像我们大脑中的模板匹配或者特色匹配,比如我看到一个人,我会通过匹配我影象中认识的人的图像或者特色来识别他,我大脑中的这些图像或者特色就像是一个天生模型。
天生模型除了可以用来分类,还可以用于天生数据,由于它表达了各个类别的特色或者概率分布。

从模型学习的角度看,干系的学习方法分为天生学习或判别学习。
判别学习是为了提高模型的分类能力,例如神经网络紧张是判别学习,而天生学习是为了得到一类数据的表示模型。

模式识别研究现状

1. 目前主流方法

深度学习(深度神经网络)现在是模式识别领域的主导方法。
深度学习最早是在2006年Hinton揭橥的文章中提出的,这篇文章提出了一种对多层神经网络进行逐层演习的方法,以战胜层数较多时难以收敛的问题。
20世纪80年代多层神经网络演习的偏差反向传播算法(BP算法)之后,超过五层的神经网络就难以收敛,泛化性也差,逐层演习的方法在这方面做了很大的改进。
早期的深度学习紧张在语音识别方面取得了成功,例如循环神经网络LSTM(Long Short-Term Memory Network)也是在2006年提出的,在语音识别、手写识别等方面都产生了很大的影响。

深度学习真正在人工智能领域产生广泛影响是在2012年往后。
那一年深度卷积神经网络在大规模图像分类上显著超越传统方法的表现,从而引起了模式识别与打算机视觉领域研究者的广泛关注与追踪。
在过去的十几年中,神经网络领域涌现了大量不同的模型构造和学习算法被提出,包括各种卷积神经网络、循环神经网络、天生对抗网络、图神经网络以及现在的Transformer。
从模式分类的角度看,大部分神经网络相称于一个映射函数,实现了从输入到输出的映射。
如果用于模式分类,输入一张图像,直接映射到某一种别或者特色空间的某一区域,实现分类。

基于这种函数映射方法,只要有大量的标记数据演习(估算函数的参数),就可以达到非常高的分类性能,乃至超过我们人类的识别能力。

在过去十几年里,深度学习取得巨大成功紧张得益于打算能力的提升,可以用大量数据来演习神经网络。
在2012年的大规模图像分类竞赛(ImageNet)中,利用了超过100万张图像样本来演习深度卷积网络,分类准确率比之前传统的模式识别方法(基于人工特色提取)提高了10%以上。
这是一个巨大的飞跃,由于在过去,传统方法很难提高1%。

现在深度神经网络可以自动从图像中提取特色,并且特色提取和分类器可以进行联合学习或者端到端学习,从而提取表达能力和判别能力更强的特色。
深度学习在模式识别的其他任务上也取得了很大的进展。

例如,物体检测在过去被认为是一个难题。
在 20 世纪 90 年代末人脸识别技能投入实用时,须要对图像中的人脸进行检测和定位。
早期的检测方法基于滑动窗口分类,准确率和速率一定较低。
目前提出的许多基于深度神经网络的两阶段或一阶段分类方法,实际上是将神经网络作为二分类器,判断图像的不同区域是前景区域还是背景区域。
现在深度神经网络在强大的打算能力和大数据的支撑下,物体检测的准确率和速率得到了很大的提升。

图像分割在过去也是一件很难的事情,它是一个像素分类问题,便是把每个像素归类到不同的物体或者背景区域。
根据不同的需求,目前已经提出了语义分割、实例分割、全景分割等很多有效的方法,并且取得了很大的进展。

前面提到的检测、分割、目标识别等都是分类问题,现在一些更加繁芜的模式识别问题,比如图像描述等,也可以利用深度神经网络端到真个办法实现。

图像描述是指给定一张图片,用自然措辞句子来描述图片的内容。
端到真个方法在底层利用卷积神经网络提取特色,然后添加一个循环神经网络,即LSTM神经网络来天生措辞。
两个网络联合演习,利用大量图像和措辞配对数据来演习神经网络,以达到更好的措辞描述性能。
最近也涌现了一些可阐明性更好的深度神经网络方法,将自下而上的物体检测与自上而下的措辞天生模型相结合,先检测出很多候选物体区域,然后根据它们的关系剖析天生句子。

图像分类、检测、分割、图像描述在过去都被认为是难题。
然而在过去不到十年的韶光里,性能得到了快速提升,很多技能已经广泛运用于我们的日常生活中。
例如智好手机上用到了很多模式识别技能,包括人脸识别、笔墨识别、语音识别,在线图像检索也做得非常好。

这种数据驱动的神经网络多是端到真个模型,它能办理所有问题吗?实在这种方法还是有很多不敷,还有很多问题须要办理。
一个问题是深度神经网络须要标注大量的数据进行演习,标注数据的本钱非常高。
其余神经网络端到真个学习办法可阐明性较差,人不是这样学习的,也不须要很多数据,人的识别模式可阐明性更强。
比如我们识别一个人,不但能认出是谁,还能阐明这个人为什么是张三、李四,这个人的眼睛、鼻子、脸型、行为、身体等特色,我们都能给出详细的阐明,而这是目前的神经网络很难做到的。

神经网络的阐明能力较差还会导致识别的鲁棒性较差,即识别结果的稳定性较差、随意马虎受到滋扰。

现在我们来看一些例子。
在很多实际运用中,识别的可信度非常高,有些时候识别结果肯定不能有错,可以把一些部分谢绝(不识别)。
比如手写文本识别,基于深度学习已经取得了很高的识别准确率,但还是会有少量的缺点。
对付金额票据识别等运用,缺点是不许可的,如果有些缺点可以通过谢绝来肃清,那么被谢绝的部分可以人工处理。
但是深度神经网络的谢绝能力比人类差很多,由于它们是基于统计分类的,没有构造阐明能力,随意马虎把看似合理的模式分类缺点。

深度神经网络在经由大数据演习后,可能识别准确率比人类高,但是它们不仅无法谢绝某些随意马虎出错的区域,还会犯一些莫名其妙的缺点。
如下图所示,在对抗学习的情形下,给熊猫图片添加少量噪音,右边的图片在人类看来险些没变革,但是神经网络得到的识别结果却截然不同。

比如下图,神经网络将其描述为“一个小孩拿着棒球棒”,这显然是缺点的,不合逻辑的。
这么小的孩子根本拿不住棒球棒。
右上角的交通标志只是几个黑点,却被判断为限速标志。
下面几张图片的描述结果也是缺点的。
倒数第二张是一个上面贴着一些贴纸的标志,却被认为是冰箱。
由于深度神经网络不可阐明,因此其鲁棒性也较差。

到目前为止,统计方法和神经网络主导着模式识别领域,在大多数分类问题上做得非常好,乃至把图像描述问题当身分类问题来处理。
这种方法没有构造化的阐明能力。
构造化模式识别从上世纪六七十年代开始被提出,其目的是试图统一分类和理解,与人类的识别方法类似,具有可阐明性和小样本泛化性的上风。
打算机视觉早期提出的所谓基于模型的物体识别或基于合成的剖析都是构造化方法。
虽然构造化方法在过去几十年里一贯在研究,但由于开源平台相对较少、实现难度大、学习过程繁芜、识别性能不足等缘故原由,并没有被广泛接管。
但是,如果现在只用神经网络等端到真个映射方法,未来提升的空间将非常小;而要通向模式理解和认知,必须走构造化模式识别的道路。

2. 构造模式识别的早期进展

20 世纪 70、80 年代盛行的句法模式识别,是用语法或者树构造或图构造来表示模式,通过语法剖析或构造模式匹配来进行识别。
这些事情虽然很永劫光没有投入实际利用,但这些思路对付我们目前的研究很有启示。
20 世纪 80、90 年代以来也有很多基于笔画匹配的手写汉字识别的研究,个中也包括我自己做的一个事情:由于笔画提取非常困难,以是我们提出了一种基于笔画段动态合并匹配的方法。

基于图的方法目前还是主流方法,早在1973年就有两位美国科学家在IEEE Transaction on Computers上揭橥文章,提出了Pictorial Structure,即一个工具由多个部分组成,不同部分之间的关​​系用spring来表示,跟我们现在的图构造很相似。

2005年,芝加哥大学的Felzenszwalb等人利用概率图模型实现了这种图构造方法,用于人体姿态估计和人脸检测。
后来又发展了一种基于判别性的组件的模型。
这种组件模型表示一个物体的多个组件,每个组件的形状、位置和整体形状都用一个概率模型来表示。
如果一个物体有不同的视角,它的外不雅观可能会发生很大的变革,用稠浊模型来表示并用于物体检测,取得了很好的效果。

其余一个影响比较大的图方法叫星座模型(Constellation Model),是由加州理工学院提出的。
这个模型有一个中央代表整体形状,各个组成部分的位置、尺度、形状用联合观点密度模型来表示,可以用于物体检测和识别。
由于它是天生式模型,以是可以实现小样本泛化,各个种别在样本数量比较少的时候也能得到比较好的性能。

十几年前有一篇叫做Image Parsing的事情,便是用一个图来统一的描述一张图片中不同的前景和背景区域。
在剖析的时候,先用一个检测器检测出物体和笔墨区域,自下而上地产生一些假设,然后再用一个自上而下的天生模型来剖析它们之间的关系。
这个事情没有用到深度学习,以是剖析的准确率比较有限。

本日的深度神经网络有很强的从数据中学习的能力,但是缺少可阐明性。
我们希望针对图像场景剖析等问题,能够让深度神经网络具有可阐明性和高精度。
我们可以将传统的构造模型和深度神经网络结合起来,比如先用卷积神经网络提取图像特色,做物体或部件的检测,然后在上层用一个构造模型来表示这些物体或部件之间的关系。

3. 一些最新进展

目前,图神经网络具有很强的学习和推理能力,利用起来非常灵巧,但须要授予其图构造。
很多构造模型的学习须要细粒度的标注演习数据,有的也能实现弱监督学习。
另一个值得把稳的方向是,有一些构造可阐明的神经网络,它们采取模块化构造,可以自动学习可分解的组件。
这里我会先容一些近期在构造理解方面的代表性事情,包括可阐明神经网络、深度图匹配、公式识别、图像场景理解等,个中每个方向都形成了一系列的事情。

可阐明神经网络的代表是Hinton等人提出的胶囊网络,网络中的每个胶囊都是一个可以检测物体和部件的模块,而且不同的胶囊之间相互独立,可以识别图像中重叠的部件或物体。

另一个是最近提出的组合神经网络,它是一种两层的“与或”图表示,可以检测物体的不同部分,纵然某些部分被遮挡也能检测到。
该模型可以从弱标记数据中学习,只要标记了物体的位置,而无需标记各个部分。
在遮挡的情形下,其性能明显优于传统的物体检测网络。

图匹配已经被研究了几十年,关键问题有两个,一个是组合优化,也便是如何战胜指数繁芜度的问题。
另一个是它的间隔度量,过去是人工设计的,现在深度神经网络可以自动学习间隔度量,但须要大量有对应节点标签的图数据进行演习,当然有时也可以用合成数据代替。

构造剖析方法用于零样本识别(利用从已知类别的样本中学习到的模型,在不须要演习样本的情形下识别新的种别)可以产生更好的泛化效果。
这是我们实验室在基于图的零样本***分类方面所做的事情。
由于***涉及很多工具和原子行为,我们利用图网络来表示不同工具之间的关系、不同种别之间的关系以及工具与行为之间的关系,以便将这种构造关系推广到新的种别。

数学公式识别也是一个很繁芜的构造模式识别问题,目前手写公式识别最好的方法也只能达到50-60%的整体识别准确率,由于公式符号串很长,想要全部精确识别非常困难,因此须要采取可阐明的构造识别模型,对公式中的符号进行同时识别和定位。

过去传统方法都是自下而上进行字符分割再识别,但整体识别准确率一定较低。
前几年主流方法是采取端到真个神经网络构造,解码器直接从输入图片中解码出公式字符串,但没有进行字符定位。
这种没有字符定位的公式识别方法除非识别率达到100%,否则是不适用的,由于很难定位和编辑错字的部分。

我们目前采取的一个方法是采取图到图的映射,每个输入笔画代表一个节点,这样全体公式就构成了一个输入图。
希望输出图中的每个节点对应一个符号,边界代表符号之间的关系,这样就会给出一个可阐明的结果。
这种方法在演习之后可以达到最高的识别准确率,而且可阐明性很强。
这个模型的演习还须要标注公式中符号的位置,我们目前正在研究它的弱监督学习方法。

图像场景理解方面也有一些新进展。
斯坦福大学李飞飞研究组的事情从图文配准的角度,演习了一个用于图像描述的措辞天生模型。
场景图的天生,便是把图像中不同的物体和背景区域用一个图来表示,每个节点代表一个物体或者一个背景区域,边代表它们之间的关系,构造一览无余。
图像处理底层采取卷积神经网络提取特色,检测候选物体并上传到图神经网络进行剖析。

我们用类似的方法来解析交通标志。
标志上有很多符号和笔墨。
开车时要找到“我该当去哪里”这样的信息,我们须要理解每个符号的含义以及它们之间的关系。
图像-文本匹配现在也是一个相对繁芜的问题,由于图像中工具的顺序与文本中单词的顺序不一致,以是我们须要学习这种配准关系。
这是我实验室的同事提出的一种结合自下而上和自上而下的方法。

视觉问答是现在比较热门的课题,便是让机器看一张图片,然后从图片中找到给定措辞问题的答案。
有些答案可以直接从图片中找到,而有些则可能须要一些背景知识或知识。

前几年的一些方法也是端到真个方法。
比如这个模型有两个阶段,首先用一个神经网络来剖析问题的句子,并产生一个办理问题的策略(称为layout policy),然后这个策略动态地天生一些模块化的网络,动态地从图像中探求答案。
最近中山大学的一个研究小组揭橥了一个可阐明的视觉问答方法,将问题句子表示为一个语义依赖树,并遍历树的节点,从而动态地从图像中探求答案。

总之,深度学习方法如今已经将模式识别和打算机视觉向前推进了一大步。
在基于大数据演习提高模式分类的性能之后,剩下的问题便是回归到模式识别的初衷,即模式的构造化理解。
只有实现了模式的构造化理解,才具有可靠性和鲁棒性,而构造化理解方法对小样本学习、开放环境适应、可阐明性等都会有很大的帮助。

未来的研究方向

从最近的一些研究进展中,我们可以看到,为理解决繁芜的模式识别问题,统计和构造模型的稠浊,神经网络 +构造模型,可阐明的神经网络,视觉 +措辞和其他研究都可以吸引越来越多的关注,这也可以看到许多基于种典模式识别和构造模式识别的早期方法。

未来的研究指示包括:

末了,让我回应本日的主题:从紧张的认知到紧张的认知。
相应的构造模型表示,学习和推理较高的是感知和认知的结合,这是高等认知,包括语义理解,语义推理,语义运用和决策。

Leifeng网络Leifeng网络