演讲实录丨CAAI副理事长周志华教授:探索纯进修到进修+推理的AI_标签_逻辑推理
首届国际学习与推理联合大会(IJCLR)已于10月25-27日在线上举行,该会议代表了国际推理与学习相领悟方面的重大趋势,多位国内外领域学者揭橥演讲,个中,CAAI副理事长、欧洲科学院外籍院士、南京大学人工智能学院院长、ACM/AAAI/IEEE/CAAI Fellow周志华教授作了大会的开场主旨报告,分享了题为《利用无标签数据:从「纯学习」到「学习 + 推理」》的主旨演讲。
在本次大会的开场主旨报告演讲中,周志华教授先简要先容了机器学习中利用无标签数据的主要性,以及过去利用无标签数据紧张依赖的「纯学习」办理方案,然后重点先容了他最近提出的「反绎学习」。这是一种全新的「学习 + 推理」方案,与以往的「学习 + 推理」方案重点依赖学习、得到的结果捐躯了推理能力,或重点依赖推理、得到的结果捐躯了学习能力不同,反绎学习供应了一种以平衡和互利办法利用机器学习和逻辑推理的「学习 + 推理」办理方案。通过逻辑推理对领域知识进行利用,从而可以显著缓解对有标签数据的需求;而通过机器学习可以利用数据对领域知识进行精化和改进,乃至可能创造新知识。
以下为机器之心根据周志华教授的现场演讲内容进行的整理。
周志华教授演讲内容概要
自演习方法(Self-training)
机器学习常日依赖大量的有标签数据,而现实中很随意马虎得到大量无标签数据,如何利用无标签数据赞助少量有标签数据进行学习,是一个重大寻衅问题。很随意马虎想到的办法有自演习 / 自学习,用有标签数据演习一个模型,然后用模型来对无标签数据供应伪标签,然后基于伪标签数据来更新模型。但这样做不太“靠谱”,由于当初始有标签数据很少时,演习出的初始模型性能差,伪标签中会有大量缺点,导致学习性能越来越差。
这样的做法在良久以前就有所改进,例如对伪标签数据进行数据编辑,对数据净化之后再用于学习。编辑过程可以采取一些统计假设考验方法。然而总体上这样的方法仍旧是启示式的,人们希望有一些有理论支撑的方法。
主动学习(Active learning)
主动学习(Active learning)是机器学习的一个分支,其紧张思路是,从大量无标签样本中挑选少量样本给人类专家进行标注,从而让人类专家的力气用在 「最有代价」的地方。其目标是通过只管即便少地选择样本给人类专家标注,能够大幅度提升学习性能。
范例的两大类代表性方法是有选择最 informative 的示例进行标注,和选择最有代表性的示例进行标注。新的发展是同时兼顾 informative 和代表性。
然而,主动学习假设了「人在环中」(human-in-the-loop),如果没有人类专家的帮助,则必须考虑其他的办法来利用无标签数据,例如半监督学习。
半监督学习
半监督学习具有代表性的方法包括天生式方法、半监督 SVM、基于图的方法、基于不合的方法。
基于不合的半监督学习是该领域的主流范型之一, 通过演习多个学习器,利用它们之间的不合来对无标签数据进行利用。协同演习(Co-training)是基于不合方法的代表,它最初是针对 「多视图」 数据提出,多视图数据是指一个样本同时由多个属性凑集描述,每个属性凑集称为一个「视图」。协同演习首先基于两个视图分别演习一个分类器,然后每个分类器挑选一些可信度高的无标签样本,标注后供应给另一个分类器作为有标签数据进行利用。由于这些分类器从不同角度演习出来,可以形成一种互补,从而提高分类精度;就犹如从不同角度可以更好地理解事物一样。
这个大略的算法被广泛运用,在运用中有令人惊异的优胜性能。研究者们努力理解它为什么有效、在什么时候有效。机器学习领域奠基人、CMU 的 Tom Mitchell 教授等人证明,如果数据具有两个知足条件独立性的视图、且每个视图都包含足够产生最优学习器的信息,则协同演习能够通过利用无标签数据任意提升弱学习器的性能。
然而这个理论条件在现实中并不成立,由于关联到同一个样本的两个视图常日并不知足条件独立性。此后有许多著名学者,如打算学习理论大会主席 Balcan 等人做了主要事情,末了周志华教授课题组在理论上终极给出了协同演习能够见效的充分条件和充分必要条件。其理论揭示出只要两个学习器有较大差异,就能通过协同演习利用无标签数据提升性能。该理论解释,「两个视图」并非必须,只要想办法让学习器之间具有较大差异即可。
该理论结果导致了一系列 「单视图方法」,例如 tri-training 方法等,最近在深度学习领域也有基于 tri-training 的半监督深度神经网络模型。
然而,半监督学习仍旧须要一批有标签数据,例如在半监督 SVM 或基于不合的方法中演习初始分类器。如果既没有 「人在环中」 的人类专家帮助、也没有充分的有标签数据,还有没有办法利用无标签数据呢?周志华课题组提出,如果有「领域知识」,那么可以通过机器学习和逻辑推理的结合来做。
机器学习和逻辑推理
逻辑推理随意马虎利用规则知识,机器学习随意马虎利用数据事实,从人类决策来看,常日须要结合知识和事实以办理问题。研究一个能够领悟机器学习和逻辑推理并使其协同事情的统一框架,被视为人工智能界的圣杯寻衅。
在人工智能研究的历史中,机器学习和逻辑推理两者基本是独立发展起来的,1956~1990 年是逻辑推理 + 知识工程作为人工智能主流的发展期间,但此时关心机器学习的人很少;1990 年之后是机器学习作为人工智能主流的发展期间,但此时逻辑推理已经相对冷门。
目前盛行的逻辑推理技能常日基于一阶逻辑表示,而盛行的机器学习一样平常基于特色表示。这两者险些是基于完备不同的表示办法,难以相互转化,使得两者的结合极为困难。
为了领悟机器学习和逻辑推理,历史上已经有很多研究者在做努力。他们常日采取扩展个中一种技能来适应另一种技能的方法。例如,概率逻辑程序(PLP)考试测验扩展一阶逻辑以引入概率推理。而统计关系学习(SRL)基于领域知识构建、初始化概率模型。
前者「重推理、轻学习」,开头引进了一点机器学习的身分,然后险些完备依赖逻辑推理解决问题;后者「重学习、轻推理」,开头引进了一点逻辑推理的身分,然后险些完备依赖机器学习办理问题。总是「一头重、一头轻」,意味着总有一真个能力没有完备发挥出来。
这就面临一个问题,能不能有一个新的机制帮助我们把这两大类技能的上风都充分地发挥起来、相对均衡地「互利式地」结合逻辑推理和机器学习呢?反绎学习的提出便是为理解决这个问题。
反绎学习(abductive learning)
反绎学习,是一种将机器学习和逻辑推理联系起来的新框架。在理解反绎学习之前,我们先来理解这个反绎的含义。
在人类对现实问题的剖析抽象上,常日有两种范例方法论:演绎,从一个普遍的规则开始,到一个有担保的特定结论,这便是一个从一样平常到分外的过程;归纳,从一些特定事实开始,然后我们从特定的事实中总结出一样平常的规律,这便是从分外到一样平常。定理证明可以说是演绎的范例代表,而机器学习是归纳的范例代表。反绎则与两者有所差异,其标准定义是首先从一个不完备的不雅观察出发,然后希望得到一个关于某一个我们特殊关心的凑集的最可能的阐明。
周志华说他提出的反绎学习可大致理解为将演绎过程反过来嵌入到归纳过程中去,以是他提出 「反绎」 这个中文名字,而不是直接翻译为 「勾引」或「溯因」。
现在返回来看传统的监督学习。监督学习首先须要有很多示例以及标签,将它们结合起来进行监督学习,演习出一个分类器。
反绎学习的设置不太一样,反绎学习中假设有一个知识库,以及一个初始分类器。
在这个学习中,我们先把所有的数据供应给这个初始分类器,初始分类器预测一个结果,得到结果之后就会把它转化成一个知识推理系统能够接管的符号表示。
那么接下来这一步,我们就要根据知识库里面的知识来创造有没有什么东西是不一致的?如果有不一致,我们能不能找到某一个东西,一旦修正之后它就能变成同等?或者修正之后使得不一致程度大幅度降落?这就须要我们去找最小的不一致。如下图所示:假设我们现在找到,只要把这个非 C 改成 C,那么你得到的事实就和知识都同等了。我们就把它改过来,这便是赤色的这个部分,这便是一个反绎的结果。而反绎出来的这个 C,我们现在会回到原来的标签中,把标签改掉,接下来我们就用修正过的标签和原来的数据一起来演习一个新分类器。这个分类器可以代替掉旧的分类器。这个过程可以不断地迭代下去。这个过程一贯到分类器不发生变革,或者我们得到的伪事实和知识库完备同等,这时候就停滞了。
从上图可以看到,左半部在进行机器学习,而右半部在进行逻辑推理。机器学习和逻辑推理这两者相互依赖,循环处理往来来往,直到分类器与知识库同等(此时相称于分类器已经 「学到」了知识库中的内容)或者分类器连续数轮不再提升;如果许可对知识库进行修正,还可以使得知识库中的内容可以被精化或更新(这是利用数据履历来改进知识的过程)。
反绎学习不依赖于真实标签,但如果存在有标签数据,它也可以充分利用,例如可以天生更可靠的伪标签等,从这个意义上说,反绎学习可以被视为一种更具一样平常性的弱监督学习,其监督信息不仅限于标签,还可以是领域知识。
初始分类器可以是预演习好的深度模型或者迁移学习模型,乃至可以很大略,例如基于聚类或最近邻分类的预处理;其基本浸染是让全体过程 「启动」 起来。在领域知识丰富可靠时,通过知识的利用可以使得全体过程并不依赖于初始分类器的强度。
知识库目前仍须要人工总结人类履历并写成一阶逻辑规则。今后可能通过学习来对知识库进行改进和提炼。对数据事实与符号知识的联合优化不再能依赖常规的梯度方法,利用了周教授团队自己开拓的不依赖梯度打算的零阶优化方法。
周教授还简要先容了反绎学习运用于法律案件赞助量刑的初步情形。
末了,如果将反绎学习示意图旋转一下,上半部是逻辑推理对应了认知过程,下半部是机器学习对应了感知过程,则反绎学习也为探索认知和感深交互供应了一个框架。
本文系作者个人观点,不代表本站立场,转载请注明出处!