专家票选!2020 年度 10 篇人工智能经典论文(下)_办法_模子
原创:HyperAI超神经
关键词:AI 经典论文,NLP,CV
2020 年可谓魔幻的一年,我们见证了各种历史。不过令人欣慰的是,2020 年,人工智能领域的研究并没有结束不前,反而是取得了十分刺目耀眼的成绩。
今年的各大打算机顶会,取得了创记录的论文提交量,以下几个数字更加直不雅观:
6 月,CVPR 2020:共收到 6656 篇提交论文,比去年的 5165 篇增加了 28%;
7 月,ACL 2020:共收到 3088 篇提交论文,冲破了该会议的 2906 篇的记录;
7 月,ICML 2020:共收到 4990 篇提交论文,比去年的 3424 篇增加了 45.7%;
12 月,NeurIPS 2020:共收到 9467 篇论文,比去年的 6809 篇增加了 40%。
在这成千上万篇论文中,业内顶尖科技公司、专家学者一同精心挑选出 10 篇「必读论文」。
用于地震预警的分布式多传感器机器学习方法 A Distributed Multi-Sensor Machine Learning Approach to Earthquake Early Warning 通过高斯过程后验进行快速采样方法 Efficiently Sampling Functions from Gaussian Process Posteriors 迈向拟人化的开放域谈天机器人 Towards a Human-like Open-Domain Chatbot 措辞模型是小样本学习者 Language Models are Few-Shot Learners超越准确度标准:利用 CheckList 对 NLP 模型进行行为测试Beyond Accuracy: Behavioral Testing of NLP models with CheckList EfficientDet:可扩展和高效的目标检测EfficientDet: Scalable and Efficient Object Detection 对可能对称的、可变形的 3D 物体种别,进行无监督学习 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild 用于大规模图像识别的转换器 An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale AdaBelief 优化器:根据不雅观察梯度的 Blief 调度步长 AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients ALBERT:措辞表示自监督学习的轻量 BERT ALBERT: A Lite BERT for Self-supervised Learning of Language Representations在昨天《专家票选!
2020 年度 10 篇人工智能经典论文(上) 》中,我们已经先容了前五篇,别的五篇请见下文。
6
论文地址:https://arxiv.org/abs/1911.09070v4
论文
《EfficientDet:可扩展和高效的目标检测》
名誉
为 CVPR 2020 所吸收
择要
模型效率在打算机视觉中越来越主要。在本文中,我们系统地研究了用于目标检测的各种神经网络体系构造的设计选择,并提出了提高效率的几个关键优化方案。
首先,我们提出了一种加权双向特色金字塔网络(BiFPN),它可以方便、快速地领悟多尺度特色;其次,我们提出了一种稠浊缩放方法,可以同时对所有主干、特色网络和 box/class 预测网络的分辨率、深度和宽度进行均匀缩放。
基于这些优化,我们开拓了一个新的工具检测器系列,称为 EfficientDet,在广泛的资源约束范围内,它始终能够达到比现有技能更好的数量级效率。特殊是,在没有任何附加功能的情形下,我们的 EfficientDet-D7 在 COCO 数据集上实现了最前辈的 51.0 mAP,参数为 52M, FLOPS1 为 326B,比之前最好的检测器小 4 倍,少用 9.3 倍的 FLOPS,但仍旧比之前的检测器更精确(+0.3% mAP)。
核心思想
为了提高目标检测模型的效率,作者提出了:
加权双向特色金字塔网络(BiFPN),用于轻松快速地进行多尺度特色领悟。它理解了不同输入特色的主要性,并反复运用了自上而下和自下而上的多尺度特色领悟。一种新的稠浊缩放方法,用于同时缩放所有主干,特色网络和框/类(box/class)预测网络的分辨率,深度和宽度。这些优化与 EfficientNet 主干一起,可以开拓一个新的目标检测器系列,即 EfficientDet。
关键造诣
评估表明,EfficientDet 目标检测器,比以前最前辈的检测用具有更高的精度,而参数却少得多,特殊是:
参数为 52M 的 EfficientDet 模型,在 COCO 测试-开拓数据集上得到了最新的 52.2 AP,超过了之前的最佳检测器(1.5 AP),但尺寸缩小了 4 倍,利用的 FLOP 减少了 13 倍;通过大略的修正,EfficientDet 模型达到了 81.74% 的 mIOU 精度,在 Pascal VOC 2012 语义分割上,比 DeepLabV3 + 赶过 1.7%,FLOP 减少了 9.8 倍;与之前的检测器比较,EfficientDet 模型在 GPU / CPU 上的速率快 3 到 8 倍。7
论文地址:https://arxiv.org/abs/1911.11130
论文
《对可能对称的、可变形的 3D 物体种别,进行无监督学习》
名誉
得到 CVPR 2020 最佳论文奖
择要
我们提出了一种基于原始单目图像中学习 3D 可变形物体类别的方法,且无需外部监督。该方法基于一个自动编码器,将每个输入图像分解为深度、反照度、视点和光照四个组件(将这四个组件结合起来即可重修输入图像)。
为了在没有监督的情形下解开这些身分,我们利用了至少在原则上,许多工具种别具有对称构造这一事实。当然,某些特定目标实例并不是完备对称的,无论在形状或者是外不雅观上,我们也利用直接对光照进行建模,和对模型进行扩充的方法办理了该问题。
实验结果表明,该方法可以很准确地从单目图像中规复人脸、猫脸和汽车的三维形状,无需任何监督和形状模型。在基准上,我们证明了,与另一种同类利用监督的方法比较,该方法在基准数据集上具有更优的性能。
基于单目图像对猫脸进行 3D 重修效果
对合成的 2D 小汽车单目图像进行 3D 重修效果
核心思想
本文所先容的方法,目标是在两个寻衅性条件下,从单个 RGB 图像重修可变形工具的 3D 姿态、形状、反照率和照明,这两个条件分别是:
无法获取 2D 或 3D ground truth 信息(真值),例如关键点,分割,深度图或 3D 模型的先验知识;该算法必须利用无约束的单目图像凑集,而没有同一实例的多个视图。为了实现这一目标,研究职员提出:
利用对称性作为几何线索来约束分解;明确建模光照,并利用它作为规复形状的额外线索;扩充模型,以推理物体中潜在的不对称。关键造诣
对该方法的定性评估表明,其可以高保真地重修人和猫的 3D 面孔,个中包含鼻子、眼睛和嘴巴的风雅细节。
与其他最新的无监督方法比较,该方法可重构更高质量的形状,乃至优于 DepthNet 模型,后者利用 2D 关键点注释进行深度预测。
8
论文地址:https://arxiv.org/abs/2010.11929
论文
《用于大规模图像识别的转换器》
名誉
投稿 ICLR 2021
择要
虽然 Transformer 架构已经成为自然措辞处理任务的事实上的标准,但它在打算机视觉上的运用仍旧有限。在视觉上,把稳力不是与卷积网络结合利用,便是在保持卷积网络整体构造不变的同时,代替卷积网络的某些部分。
我们证明了,对卷积神经网络(CNN)的这种依赖是不必要的,当直接应用于图像小块序列时,纯 Transformer 可以很好地实行图像分类任务。当在大量数据上进行预演习并转移到多个识别基准(ImageNet、CIFAR-100、VTAB 等)时,视觉转换器得到了与最前辈的卷积网络比较的精良结果,而演习所需的打算资源则大大减少。
核心思想
在将 Transformer 体系构造运用于图像时,作者尽可能地遵照为 NLP 设计的 Transformer 的原始设计。
引入的基于 Transformer 的图像分类方法包括以下步骤:将输入图片拆分成 16x16 个 patches;每个 patch 做一次线性变换降维同时嵌入位置信息;将 patches 供应给标准的 Transformer 编码器;在序列中添加一个额外的可学习的「class」标记位,并且以该位置的 Transformer Encoder 输出作为图像特色。关键造诣
在 JFT300M 数据集上进行预演习的 Vision Transformer,与基于 ResNet 的基线相匹配或优于后者,同时所需的打算资源也大大减少。它的精度为:
在 ImageNet 上:88.36%;
在 ImageNet-ReaL 上:90.77%;
CIFAR-100:94.55%;
牛津 IIIT 宠物数据集:97.56%;
牛津 102 花卉数据集:99.74%;
在 VTAB 套件(包含 19 个任务):77.16%。
9
论文地址:https://arxiv.org/pdf/2010.07468v1
论文
《AdaBelief 优化器:根据不雅观察梯度的 Blief 调度步长》
名誉
被 NeurIPS 2020 所吸收
择要
当下最盛行的深度学习优化器(optimizer)可以广泛地分为自适应方法(如 Adam)和加速方案(如带动量的随机梯度低落(SGD))。对付许多模型,如卷积神经网络(CNNs),自适应方法常日比 SGD 收敛更快,但泛化较差;对付繁芜的设置,如天生对抗网络(GANs),自适应方法常日是默认的,由于它们的稳定性。
我们提出了同时实现三个目标的 AdamBlief:能与自适应方法一样快速收敛,与 SGD 一样良好泛化,以及具有演习稳定性。
AdamBlief 的直觉是根据当前梯度方向上的「belief」来调度步长。将噪声梯度的指数移动均匀(EMA)视为下一时候梯度的预测,如果不雅观测到的梯度与预测有很大偏差,我们就不相信当前的不雅观测结果,并采纳一小步;如果不雅观测到的梯度靠近于预测,我们就相信它,并采纳一大步。
通过大量的实验验证了 AdamBlief 算法的有效性,表明该算法在图像分类和措辞建模方面具有较快的收敛速率和较高的精度。
详细来说,在 ImageNet 上,AdaBelief 达到了与 SGD 相称的精度。此外,在 CIFAR10 上演习 GAN 时,与调试良好的 Adam 优化器比较,AdaBelief 表现出了高稳定性,并提高了天生样本的质量。
核心思想
AdaBelief 优化器的想法是将自适应优化方法(例如 Adam)和加速 SGD 优化器的优点结合起来。自适应方法常日收敛速率更快,而 SGD 优化器则具有更好的泛化性能。
AdaBelief 的 Blief 是根据我们在当前渐变方向上,可以信赖的幅度来调度步长:
如果不雅观测到的梯度与预测值有很大偏差,则我们对此不雅观测值的信念不强,可以采纳一些方法;如果不雅观测到的梯度靠近于预测值,则我们对这一不雅观测有强烈的信心,并会迈出一大步。关键造诣
AdaBelief Optimizer 具有三个关键属性:
快速收敛,如自适应优化方法;良好的概括性,例如 SGD 系列;在 GAN 等繁芜环境中演习稳定性。这些属性已通过广泛的实验验证,而且它在措辞建模方面优于其他方法。
在 WGAN 的演习中,与 Adam 比较,AdaBelief 显著提高了天生图像的质量。
10
论文地址:https://arxiv.org/abs/1909.11942
论文
《ALBERT:措辞表示自监督学习的轻量 BERT》
名誉
拿下 13 项 NLP 任务,ALBERT 三大改造登顶 GLUE 基准。
择要
预演习自然措辞表征时,增加模型大小一样平常是可以提升模型不才游任务中的性能。但是这种纯粹依赖模型尺寸进而期望大力失事业的想法,在未来会加倍困难。进一步增加模型大小将带来以下困难:
GPU/TPU 内存不敷;演习韶光会更长;模型退化。以是,为理解决上述问题,本文提出通过两种参数精简技能来降落内存花费,并加快 BERT 的演习速率。此外,本文还引入一个自监督丢失(self-supervised loss),用于对句子连贯性(inter-sentence coherence)建模,并证明该丢失函数能够提升多句子作为输入的下贱任务的性能。
本文所提出的模型 ALBERT 在 GLUE、RACE 和 SQuAD 这 3 个基准上都取得了新的 SOTA 结果,且参数量还少于 BERT-large。
核心思想
ALBERT 引入两种参数精简技能,战胜了扩展预演习模型面临的紧张障碍。
第一种是对嵌入参数进行因式分解;第二种技能是跨层参数共享。这两种技能都显著降落了 BERT 的参数量,同时不显著危害其性能, 从而提升了参数效率。
关键造诣
ALBERT 在 GLUE、SQuAD 2.0、RACE 榜单上达到了 SOTA,并在多个方面推进了 NLP 研究。
以上便是所有今年值得一读的 AI 经典论文,字字精华,请细细研读。
本文系作者个人观点,不代表本站立场,转载请注明出处!