历史文章:人工智能前沿学生论坛

「综述专栏」自监督进修看这篇就够了_数据_图片 AI快讯

来源:知乎—军火交易商

地址:https://zhuanlan.zhihu.com/p/125721565、https://zhuanlan.zhihu.com/p/129067097、https://zhuanlan.zhihu.com/p/136108863

我的博士课题是自监督学习(Self-supervised Learning)方法在打算机视觉表示学习领域的运用。
作为一个新名词,自监督学习实际上与监督学习、非监督学习、半监督学习并没有实质上的鸿沟。

Ps: 我个人是不太喜好科学界命名新技能的风格,给一些旧技能的新衍生冠以高大上的名字会让初学者对付这个领域感到很混乱,而事实上很多名词是交集或者子集的关系。
我对付全体机器学习领域的技能分类迷茫了良久看了很多才逐步理清楚,有机会给大家整理一个Node Map。
当然,取名字是Hinton、Bengio这些大佬的事。


万一哪天人家给RL改名叫Guess Learning/Try Learning >.<

01

自监督学习(Self-supervised Learning)是何方神圣?

1.1 自监督学习与监督学习、非监督学习的关系

样本特色在学习过程中至关主要。
在大略的数据挖掘任务中,主要的数据特色是人工设计的。
这些功能常日称为Hand-crafted features。
在打算机视觉领域,这种类型的表示常日哀求我们设计得当的函数以从图像或***中提取所需的信息。
但是,这些功能常日来自人类有关视觉任务中关键信息的履历,这导致手工制作的功能无法表示高等语义信息。
例如,在早期事情中提出了各种视觉描述符,例如SIFT算子,HOG算子等等来表示有关工具边缘,纹理等的视觉信息。
此外,由于设计函数的繁芜度限定,这种类型的表示能力常日相对较低,并且提出新的hand-crafted features并非易事。

总而言之,hand-crafted features在早期视觉任务中取得了一些成功,但是随着问题的繁芜性增加,它逐渐无法知足我们的需求。
随着卷积神经网络的遍及以及数据大小的指数增长,在完备监督的任务中,自动提取的表示形式逐渐取代了效率低下的hand-crafted features。
在完备监督模型中,通过反向传播办理了以神经网络和监督丢失函数为代表的全局优化问题。
大量带注释的图像和***数据集以及日益繁芜的神经网络构造使诸如图像分类和工具检测之类的完备受监督的任务成为可能。
之后,经由演习的模型的中间特色图常日包含与特界说务干系的语义故意义的信息,这些信息可以通报给类似的问题。

但是,手动数据注释是监督学习中必不可少的步骤,这是耗时,费力且有噪声的。
与有监督的方法不同,无监督的方法不依赖于人类注释,并且常日集中在数据良好表示(例如平滑度,稀疏性和分解)的预设先验上。
无监督方法的经典类型是聚类方法,例如高斯稠浊模型,它将数据集分解为多个高斯分布式子数据集。
然而,非监督学习学习由于预设先验的一样平常性较差而不太值得相信,在某些数据集(例如非高斯子数据集)上选择将数据拟合为高斯分布可能是完备缺点的。

自我监督方法可以看作是一种具有监督形式的分外形式的非监督学习方法,这里的监督是由自我监督任务而不是预设先验知识诱发的。
与完备不受监督的设置比较,自监督学习利用数据集本身的信息来布局伪标签。
在表示学习方面,自我监督学习具有取代完备监督学习的巨大潜力。
人类学习的实质见告我们,大型注释数据集可能不是必需的,我们可以自发地从未标记的数据集中学习。
更为现实的设置是利用少量带注释的数据进行自学习。
这称为Few-shot Learning。

1.2 自监督学习的紧张流派

在自监督学习中,如何自动获取伪标签至关主要。
根据伪标签的不同类型,我将自我监督的表示学习方法分为4种类型:基于数据天生(规复)的任务,基于数据变换的任务,基于多模态的任务,基于赞助信息的任务。
这里大略先容第一类任务。
事实上,所有的非监督方法都可以视作第一类自监督任务,在我做文献调研的过程中,我加倍的觉得到事实上非监督学习和自监督学习根本不存在界线。

所有的非监督学习方法,例如数据降维(PCA:在减少数据维度的同时最大化的保留原有数据的方差),数据拟合分类(GMM: 最大化高斯稠浊分布的似然), 实质上都是为了得到一个良好的数据表示并希望其能够天生(规复)原始输入。
这也正是目前很多的自监督学习方法赖以利用的监督信息。
基本上所有的encoder-decoder模型都因此数据规复为演习丢失。

02

图片上色与***预测

2.1 什么是基于数据规复的自监督任务?

第一类任务也是利用最多的一类任务:数据天生任务。

自监督学习的出发点是考虑在短缺标签或者完备没有标签的情形下,依然学习到能够表示原始图片的良好故意义的特色。
那么什么样的特色是良好故意义的呢?在第一类自监督任务——数据规复任务中,能够通过学习到的特色还原天生原始数据的特色,我们认为是良好故意义的。
看到这里,实际上大家能够遐想到自动编码器类的模型,乃至更大略的PCA。
实际上,险些所有的非监督学习方法都因此这个原则作为根本的。
现在十分盛行的深度天生模型VAE(后面我会写一篇文章住专门先容VAE,还在草稿箱里待着。


)乃至更火的GAN也可以归为这一类方法。

GAN的核心是通过Discriminator去缩小Generator distribution和real distribution之间的间隔。
GAN的学习过程不须要人为进行数据标注,其监督旗子暗记也即是优化目标便是使得上述对抗过程趋向平稳(Goodfellow 想出这个点子真的天才)。

这里我们以两篇详细的paper为例子,先容数据规复类的自监督任务如何操作实现。
我们的重点依然是视觉问题,这里分别先容一篇图片上色的文章和一篇***预测的文章。
别的的领域比如NLP,实在质是类似的,在弄清楚了数据本身的特点之后,可以先做一些低级的如法泡制的事情。

2.2 图片色彩规复——瓢虫是赤色的吗?

设计自监督任务时须要一些奥妙的思考。
比如图片色彩规复任务,我们已有的数据集是一张张的彩色图片,如果去掉色彩,作为感性思考者的我们,是否能够从黑白图片中显示的内容推测原来图片真实的色彩?对付一个婴儿来说可能很难,但是对付我们来说,生活的经历见告我们瓢虫应该是赤色的(下图第二行中)。
我们是如何做出预测的?事实上,我们通过不雅观察大量的瓢虫,在脑中建立了从“瓢虫”到“赤色”的映射。

把这个学习过程推广到我们的模型上,在给定黑白输入的情形下,我们用精确的彩色的原始图像作为学习的标签,从而模型会试着理解原始黑白图像中“每个区域”是“什么”进而去建立从是“什么”到“不同颜色”的映射。

当我们完成演习,模型的中间层feature map就得到了类似人脑对付“瓢虫”以及其他物体的影象,以向量的形式。

2.3 ***预测——下一秒你会在哪里?

一样平常来说,视觉问题分成图片和***两大类,图片数据可以认为具有i.i.d特性,而***是由多个图片帧构成的,可以认为具有一定的Markov dependency,时序关系是他们之间最大的不同。
比如最大略的思路,利用CNN提取单张图片特色可以做图片分类,再加入一个RNN或者LSTM去刻画Markov Dependency,便可以运用到***上。

***预测任务十分的耿直。
怎么形容呢,他便是那种,你知道的,我们说***中帧与帧之间存在时空连续性。
类似的,人类会利用这种帧与帧之间的连续性,当我们看电影时溘然按了停息,下一秒下几秒会发生什么实际上我们是可以预测的。

同样,把这个学习过程推广到我们的模型上,在给定前一帧或者前几帧的情形下,我们用后续的***帧作为学习的标签,从而模型会试着理解给定***帧中的语义信息(发生了啥?)进而去建立从当前到未来的映射关系。

References

R. Zhang, P. Isola, and A. A. Efros, “Colorful image colorization,” in ECCV, pp. 649–666, Springer, 2016.

https://arxiv.org/abs/1603.08511

N. Srivastava, E. Mansimov, and R. Salakhutdinov, “Unsuper- vised Learning of Video Representations using LSTMs,” in ICML, 2015.

https://arxiv.org/abs/1502.04681

03

Rotation Prediction

第二类自监督学习任务——基于数据变换的任务。
事实上,人们现在常常提到的自监督学习常日指的是这一类自监督任务,我个人认为是比较狭义的观点。

用一句话解释这一类任务,事实上事理很大略。
对付样本,我们对其做任意变换,则自监督任务的目标是能够对天生的估计出其变换的参数。

下面先容一种事理十分大略但是目前看来非常有效的自监督任务——Rotation Prediction。

给定输入图片,我们对其做4个角度的旋转,分别得到,并且我们知道其对应的变换角度分别为。
此时,任务目标即是对付以上4张图片预测其对应的旋转角度,这里每张图片都经由同样的卷积神经网。

我始终坚持的不雅观点是自监督学习须要动机明确,这里我们能做的任意变换应该是对目标有益的。
比如在Rotation Prediction中,作为人类的我们只有在理解了图片中是一只鸟站在枝头之后才知道X_0的旋转角度应该是。
那么我们有情由相信,当模型能够做出同样精确的判断时,个中央的feature map一定携带了故意义的图片语义信息。

原文链接在此:

https://arxiv.org/pdf/1803.07728.pdf