编辑:LRS

【新智元导读】自监督学习的一个弊端在于没有正负样例的改动,非常随意马虎把所有输入映射到同一向量,从而发生崩溃问题。
最近LeCun和田渊栋互助发布DirectCLR,能够极大缓解崩溃问题,在ImageNet的精度超越SimCLR 近10%!

比拟进修也会维度崩溃?LeCun和田渊栋团队新作DirectCLR帮解决_向量_矩阵 绘影字幕

自监督学习在打算机视觉中的运用十分广泛,能够在没有人工标注的情形放学到输入数据的有效表示。

目前基于联合嵌入方法(joint embedding method)的自监督视觉表征学习研究进展表明,自监督学习得到的表示性能和有监督表示比较相差不大。
这些方法的目标常日是通过最大限度地利用同一图像不同失落真度的嵌入向量之间的同等性来学习对数据增强保持不变的表示。

但自监督模型存在崩溃问题,即将所有输入映射到同一常数向量,因此研究职员提出了各种方法来办理该问题,这些方法依赖于不同的机制,虽然成功地防止了所有表示向量紧缩到单个点的完备崩溃情形,但在非比拟学习方法中可以不雅观察到,虽然嵌入向量不会完备崩溃,但它们会沿着特定的维度崩溃(dimensional collapse),这导致嵌入向量只能在较低维度的子空间中有效。

按照直觉来说,比拟学习中应该不会涌现这种崩溃问题,由于比拟学习的方法中明确利用丢失函数中的正例和负例,可以直不雅观地利用所有维度推测负例的排斥效来防止这种维度崩溃。
然而,与直觉正好相反,比拟学习方法仍旧受到维度崩溃的影响。

对付这种征象的成因一贯没有定论,Facebook的LeCun和田渊栋博士最近发布了一篇文章,从理论上研究了这一征象背后的动因。

田渊栋博士是Facebook人工智能研究院研究员、研究经理,上海交通大学得到打算机本科和硕士学位,2013年得到卡耐基梅隆大学机器人系博士,致力于深度强化学习、表征学习和优化。

论文中,研究职员创造有两种不同的机制可能会导致崩溃:

1、沿着特色方向,当数据增加引起的方差大于数据分布引起的方差时,权重会崩溃。

2、纵然数据增强的协方差在所有维度上都小于数据方差,由于不同层面上权重矩阵的相互浸染(隐式正则化),权重仍将崩溃,这种崩溃只发生在网络具有多个层的网络中。

受这种理论的启示,文章提出了一种新的比拟学习方法DirectCLR,它直接优化编码器(即表示空间),而不依赖可演习的投影(projector),DirectCLR在ImageNet上具有线性可演习投影仪,其性能优于SimCLR。

从履历上看,增加projector可以显著提高学习到的表现和下贱表现的性能,检讨表示层的spectrum也会创造有无projector的差异。
研究职员演习了两个带projector和不带projector的SimCLR模型,当模型在没有projector的情形下进行演习时,SimCLR 会发生表示空间中的维度崩溃。

比拟学习中的projector对付防止表征空间中的维度崩溃至关主要,基于这个理论,研究职员提出:

梯度将会驱动projector权重矩阵与编码器主干的末了一层对齐,因此projector 权重矩阵只须要是对角的(diagonal)即可。
projector 仅对表示的子空间运用梯度,因此权重矩阵只需是一个低秩矩阵。

作者提出在比拟学习中通过直接向丢失函数发送表示向量的子向量来移除projector,这个操作也称为DirectCLR。
与所有最新的自监督学习方法比较,这种方法能够直接优化表示空间。

随后研究职员在ImageNet上为DirectCLR演习了100个epoch 的标准Sim-CLR,主干编码网络是一个ResNet50。
DirectCLR与利用ImageNet上可演习线性projector 的SimCLR比较表现出更好的性能。

DirectCLR 也能够实现似于SimCLR中可演习projector 的功能来防止表示空间中的维度崩溃。

有人可能会认为DirectCLR 中的比拟丢失没有在表示向量r[d0:]的别的部分运用梯度,事实上,全体表示向量r 经由演习并包含有用的信息。
表示向量的别的部分通过残差连接从末了一个剩余块之前的层复制。
表示的这一部分不直接经历来自丢失函数的梯度,而是通过卷积块由梯度更新,残差连接通过末了一个卷积块的满秩梯度。

研究职员还进行了三项溶解实验:

固定的低秩projector:这时DirectCLR退化为一个带有固定线性、对角矩阵projector的SimCLR。
实验结果不雅观察到,当利用固定的低秩矩阵作为projector 时,它在ImageNet上的性能类似,从而达到62.3%的线性probe 精度。
该低秩矩阵的奇异值设置为d0数为1,别的为0。
该矩阵对应的奇异向量都是随机天生的。
因此,它们唯一的差异是,这个固定的projector 有一个额外的固定正交矩阵。
这表明表示空间(或相称于前一层)在演习期间已进化为与该正交矩阵对齐。
可演习的对角线projector:研究职员演习了一个SimCLR模型,该模型带有一个可演习的projector ,但仅限于对角线的数值。
该模型在ImageNet上实现了60.2%的线性probe 精度,与带有1层线性投影仪的SimCLR相称。
这也可以通过projector 与主干中的前一层对齐的对齐征象来阐明。
但研究职员疑惑初始化问题是该模型比具有1层线性可演习投影仪的SimCLR稍差的缘故原由:随机矩阵的奇异值不同于均匀分布。
在子向量z上的线性probe:对付DirectCLR,研究职员仅在子向量z上实行线性probe,并在ImageNet上得到47.9%的精度。
这表明纵然r 没有看到直接来自丢失函数的梯度,但它别的部分仍旧包含有用的信息。

为了担保论文可以成功复现,论文的附录中还供应了每个引理和定理的详细证明、代码以及参数。

参考资料:

https://arxiv.org/abs/2110.09348?