来源:打算机视觉同盟

2020年还需要阅读的10篇人工智能论文(附链接)_情由_神经收集 绘影字幕

本文约6400字,建议阅读8分钟。

本文先容了2020年揭橥的人工智能(AI)论文。

几周前,我揭橥了一篇文章,里面有要在2020年阅读的人工智能(AI)论文。
如果你把所有额外的阅读建议都算进去,统共有27篇文章。

文章网址:

https://towardsdatascience.com/ai-papers-to-read-in-2020-ac0e4e91d915

然而,这份清单还远未完成。
许多如宝石般的文章被遗漏或只是大略地提到。
在这篇文章中,为了你的阅读乐趣,我列出了今年阅读人工智能论文的十条建议(以及其他一些进一步的阅读建议)。

在这个列表中,我紧张关注那些在不提出新架构的情形下推动最新技能的文章,这些文章不包含最新的YOLO或ResNet变体;相反,紧张包括了丢失公式、理论打破、新优化器等方面的最新进展。

对付文章的前半部分,我将重点先容打算机视觉和NLP,由于这些是我最熟习的主题,并从一两个经典技能开始。
对付每一篇论文,我都会总结其紧张贡献,并列出阅读情由。
末了,我在每一篇文章的结尾都给出了关于这个主题的详细阅读建议,并将其与其他最新进展或类似想法联系起来。

1.GloVe (2014)

Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. “Glove: Global vectors for word representation.” 2014年自然措辞处理方法会议(EMNLP)论文集。

论文链接:

https://www.aclweb.org/anthology/D14-1162.pdf

虽然现在的社区紧张关注神经网络,但许多早期的结果是通过更大略的数学方法得到的。
GloVe是从经典算法出发的,它是基于减少单词共现矩阵维数的单词嵌入模型。
与以前的方法不同,GloVe利用隐式表示法,使其可以扩展为大规模文本语料库。

情由1:如果你从自然措辞处理(NLP)入手,这是一本很好的读物,可以帮助你理解单词嵌入的基本知识以及它们的主要性。

情由2:以前并不是所有的东西都是基于Transformers的,阅读早期的作品是一个很好的方法去找到一个“被遗忘的想法”,该想法可以使现有技能进一步发展。

Transformers:

http://papers.nips.cc/paper/7181-attention-is-all-you-need

情由3:许多作者在后来扩展了本文中提出的许多观点。
如今,词嵌入已成为自然措辞处理(NLP)中的紧张内容。

进一步阅读:在同一期间,Google发布了Word2Vec,另一个著名的语义向量天生模型。
不久之后,这些想法被生物学界采纳,作为表示大蛋白和基因序列的方法。
而现在BERT是词汇表征和语义理解的主导方法。

Word2Vec:

https://arxiv.org/abs/1301.3781

BERT:

https://arxiv.org/abs/1810.04805

2.AdaBoost (1997)

Freund, Yoav; Schapire, Robert E (1997). “A decision-theoretic generalization of on-line learning and an application to boosting”.

论文链接:

https://www.sciencedirect.com/science/article/pii/S002200009791504X

经典的机器学习模式根本就不灵巧,大多数公式都有显著的局限性,这使得它们无法扩展到越来越繁芜的任务中。

首先办理这个问题的办法之一是将现有的最佳模式进行投票整合。
1997年,Freund和Schapire提出了AdaBoost算法,这是一种元启示式学习算法,能够将许多“弱”模型利用到“强”分类器中。

简而言之,该算法迭代地演习多个分类器,并将每个演习样本重新加权为“大略”或“困难”,随着演习的进行,这套系统会通过更多地关注较难分类的样本来进化。
该算法非常有效,但是碰着繁芜的问题也很随意马虎过度拟合。

情由1:可以说,神经网络是弱分类器(神经元/层)的凑集,然而神经网络文献的发展是独立于整体的。
读一篇关于这个主题的论文可能会对为什么神经网络事情得这么好产生一些见地。

情由2:许多新手把传统的机器学习方法视为过期和“懦弱”的,在险些所有事情上都偏爱神经网络。
AdaBoost是一个很好的例子,解释经典的机器学习并不是很弱,而且与神经网络不同的是,这些模型具有很强的可阐明性。

情由3:有多少报纸是从一个赌徒的故事开始的,他由于一次又一次输给朋友的骑马赌钱而受挫?我也真希望我敢写这样的论文。

进一步阅读:其他盛行的集成方法包括随机森林分类器、梯度提升技能和广受好评的XGBoost软件包,它以赢得数次机器学习竞赛而有名,同时相对随意马虎利用和调度。
这个家族中最新加入的是微软的LightGBM,它适用于大规模分布的数据集。

随机森林分类器:

https://en.wikipedia.org/wiki/Random_forest

梯度提升技能:

https://en.wikipedia.org/wiki/Gradient_boosting

XGBoost软件包:

https://github.com/dmlc/xgboost

LightGBM:

https://github.com/microsoft/LightGBM

3.Capsule Networks (2017)

Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. “Dynamic routing between capsules.” 神经信息处理系统的研究进展。

论文链接:

https://arxiv.org/abs/1710.09829

神经网络文献从感知器模型开始,到卷积神经网络(CNN)。
下一个飞跃是一个备受争议的话题,个中建议之一便是由Sara Sabour,Nicholas Frosst和图灵奖得到者Geoffrey Hinton提出的Capsule Network。

理解胶囊网络的一个大略方法是用“胶囊”代替“目标检测器”。
每层“目标检测器”都试图识别图像中的干系特色,以及它的姿态(方向、比例、倾斜等),通过叠加探测器,可以导出物体的鲁棒表示。

从实质上讲,胶囊并不像cnn那样将本地信息聚合到高等功能中,取而代之的是,它们检测目标部分并按层次组合它们以识别更大的构造和关系。

情由1:作为科学家,我们都该当探求下一个重大事宜。
虽然我们不能说胶囊网络将是下一个摇滚明星,但我们可以说他们试图办理的问题是干系的,并且对付所有干系问题,终极会有人回答。

情由2:本文提醒我们CNN并不完美,它们对旋转和缩放不变。
只管我们利用数据增强来缓解这种情形,但俗话说,没有一种创可贴能治愈一个男人。

情由3:在深度学习成为主流之前,许多目标检测方法都依赖于识别易于创造的“目标部分”并针对数据库/本体实行模式匹配。
Hinton和他的团队正在做的是使这种早期方法当代化,这便是为什么我们都该当不定期阅读经典。

进一步阅读:在过去的一年中,Attention机制引起了很大把稳,只管它没有考试测验替代或增加卷积,但确实为全局推理供应了一条路子,这是当代网络中浩瀚Aquiles脚跟之一。

4.Relational Inductive Biases (2018)

Battaglia, Peter W., et al. “Relational inductive biases, deep learning, and graph networks.” arXiv preprint arXiv:1806.01261 (2018).

论文链接:

https://arxiv.org/pdf/1806.01261.pdf

这篇文章总结了深层思维团队相信的深度学习下一个主要技能:图神经网络(GNNs)。

用作者自己的话说:

(…)。
我们认为,组合泛化必须是人工智能实现类人能力的紧张任务,构造化表示和打算是实现这一目标的关键。
正如生物学互助利用自然和培养一样,我们反对在“手工工程”和“端到端”学习之间的缺点选择,而是提倡一种从两者互补上风中获益的方法。
我们将磋商如何在深度学习架构中利用关系归纳偏差来促进对实体、关系和组合规则的学习。

旁注:归纳偏差是学习算法对数据所做的所有假设。
例如,线性模型假设数据是线性的。
如果一个模型假设数据有一个特定的关系,它就有一个关系归纳偏差。
因此,图是一种有用的表示。

情由1:目前的CNN模型是“端到端”的,这意味着它们利用的是原始的,大部分是未经处理的数据。
特色不是由人类“设计”的,而是由算法自动“学习”的。
我们大多数人都被教导特色学习会更好。
在本文中,作者提出了相反的不雅观点。

情由2:早期的人工智能文献大多与打算推理有关,然而打算直觉占了上风。
NN不会对输入进行仔细考虑;它们会产生一种相称精确的数学“预感”。
图形可能是一种将这种差距与直觉推理联系起来的方法。

情由3:组合问题可以说是打算机科学中最关键的问题,大多数都处于我们认为可处理或可能的边缘。
然而,我们人类可以自然地、绝不费力地推理。
图神经网络是答案吗?

进一步阅读:GNNs是一个令人愉快和不断发展的领域。
从图论中,我们知道险些任何事物都可以被建模为一个图。
谢尔盖·伊万诺夫(Sergei Ivanov)在2020年ICLR会议上揭橥了大量参考文献,列出了GNN的新趋势。

2020年图机学习的紧张趋势:

https://towardsdatascience.com/top-trends-of-graph-machine-learning-in-2020-1194175351a3

5.Training Batch Norm and Only BatchNorm (2020)

Frankle, Jonathan, David J. Schwab, and Ari S. Morcos. “Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs.” arXiv preprint arXiv:2003.00152 (2020).

论文链接:

https://arxiv.org/abs/2003.00152

你相信在CIFAR-10上,仅ResNet-151的批处理标准化层就可以达到+60%的精确度吗?换句话说,如果你将所有其他层锁定在它们的随机初始权值,并演习网络50个旁边的周期,它的性能将比随机的好。
我不得不把这篇论文复制出来亲眼看看,“魔力”来自于常常被遗忘的批次范数的γ和β参数:

批处理标准化操作的完全定义。
γ和β是两个可学习的参数,可在标准化发生后许可图层缩放和移动每个激活图。

情由1:这是一个猖獗的想法,值得一读。
开箱即用的想法总是受欢迎的。

情由2:你可能会问自己批归一化层如何学习,并且你可能会想知道为什么有人会关心这一点。
对付数据科学中的许多事情,我们认为批归一化是天经地义的,我们相信这只会加速演习。
但是,它可以做得更多。

情由3:这篇文章可能会激起你的兴趣,让你看看所有的公共层都有哪些参数和超参数。

进一步阅读:大多数课程教导批归一化层是针对所谓的内部协方差转移问题。
最近的证据表明情形并非如此(https://arxiv.org/abs/1805.11604),相反,作者认为BN层使整体丢失情形更为平滑。
另一个奥妙的想法是***假说,它也是由弗兰克尔等人提出的。

***假说:

https://arxiv.org/abs/1803.03635

6.Spectral Norm (2018)

Miyato, Takeru, et al. “Spectral normalization for generative adversarial networks.” arXiv preprint arXiv:1802.05957 (2018).

论文链接:

https://arxiv.org/abs/1802.05957

在GAN文献中,Wasserstein丢失改进了演习GANs的几个关键寻衅,然而它规定梯度必须有一个小于或即是1的范数(1-Lipschitz)。
丢失的最初作者建议将权重裁剪为[-0.01,0.01],以此来增强小梯度。
作为相应,也有人提出了更干净的办理方案,利用频谱范数作为约束权重矩阵以天生最多单位梯度的平滑替代方法。

Wasserstein丢失:

https://arxiv.org/abs/1701.07875

情由1:标准化是一个比较大的话题,许多分外属性可以通过专门的标准化和精心设计的激活函数来实现。

情由2:除了作为一个标准,它也是一个正则化,这是神经网络设计中常常被忽略的话题。
除了dropout,读一篇关于该问题的成功论文让人线人一新。

dropout:

https://en.wikipedia.org/wiki/Dropout_(neural_networks)

进一步阅读:标准化技能的其他最新进展是组标准化和自适应实例标准化技能,前者以小批量办理了批量范数的一些缺陷,而后者则是任意风格转换的关键打破之一。

7.Perceptual Losses (2016)

Johnson, Justin, Alexandre Alahi, and Li Fei-Fei. “Perceptual losses for real-time style transfer and super-resolution.” 欧洲打算机视觉会议. Springer, Cham, 2016.

大多数神经网络背后的驱动力是丢失函数。
在描述什么是好的和什么是坏的丢失函数越是成功,我们就越快收敛到有用的模型中。
在文献中,大多数丢失相对大略,只能丈量低水平的属性。
除此之外,获取高等语义也是出了名的棘手。

Perceptual Losses论文认为,可以利用预先演习的网络来度量语义相似度,而不是手工设计繁芜的丢失函数。
在实践中,天生值和真实值的结果通过预先演习的VGG网络通报,并比较特定层的激活情形。
相似图像该当有相似的激活。
早期图层捕捉广泛的特色,而后期图层捕捉更多细微的细节。

情由1:丢失是天生精良模型最主要的方面之一。
没有一个得当的反馈旗子暗记,任何优化过程都不会收敛。
这便是一个好老师的角色:给予反馈。

情由2:成功的丢失每每具有里程碑意义。
在感知丢失被发明之后,GANs所得到了品质的跃升。
理解这部作品对付理解大部分后期技能是必不可少的。

情由3:这些神经丢失既神秘又有用。
虽然作者对这些模型的事情事理供应了合理的阐明,但它们的许多方面仍旧是开放的,就像神经网络中的大多数东西一样。

进一步阅读:神经网络的一个迷人的方面是它们的可组合性。
本文利用神经网络来办理神经网络问题。
拓扑丢失理论将这种思想推广到图像分割问题中。
神经构造搜索(NAS)文献利用神经网络来探求新的神经网络。
至于打算机视觉的其他丢失,这里有一个全面的指南。
感谢Sowmya Yellapragada整理了这个强大的清单:

https://medium.com/ml-cheat-sheet/winning-at-loss-functions-2-important-loss-functions-in-computer-vision-b2b9d293e15a

8.Nadam (2016)

Dozat, Timothy. “Incorporating nesterov momentum into adam.” (2016).

我们大多数人都熟习SGD、Adam和RMSprop等术语,有些人还知道一些不太熟习的名字,如AdaGrad、AdaDelta和AdaMax,但是很少有人花一些韶光来理解这些名称的含义以及为什么Adam是当今的默认选择。
Tensorflow捆绑了Nadam,它改进了Adam,但是大多数用户并不知道。

情由1:本论文对大多数神经网络优化器进行了全面而直接的阐明。
每一种方法都是对其他方法的直接改进。
很少有论文能在两页半的篇幅里涵盖如此重数学的知识。

情由2:我们都认为优化器是天经地义的,理解它们的基本事理对改进神经网络非常有用,这便是为什么我们在RMSprop不收敛时用Adam更换它,或者用SGD更换它。

进一步阅读:自2016年以来,已经提出了许多对优化器的其他改进,有些将在某个时候合并到主流库中。
看看 Radam, Lookahead,和Ranger 的一些新想法。

Radam:

https://arxiv.org/abs/1908.03265v1

Lookahead:

https://arxiv.org/abs/1907.08610

Ranger:

https://github.com/lessw2020/Ranger-Deep-Learning-Optimizer

9.The Double Descent Hypothesis (2019)

Nakkiran, Preetum, et al. “Deep double descent: Where bigger models and more data hurt.” arXiv preprint arXiv:1912.02292 (2019).

传统的不雅观点认为小模型欠拟合,大模型过拟合,然而,在彩虹之上的某个地方,更大的模型仍旧闪耀着光芒。

本文中,Nakkiran等人有证据表明,随着尺寸的增长,一些模型表现出“双低落”征象,测试精度低落,然后上升,然后再次低落。
此外,他们认为拐点是在“插值阈值”:一个模型足够大来插值数据的点,换句话说,当一个模型的演习超出了该领域的建议,它就会开始改进。

情由1:大多数课程都教授偏差/方差权衡,显然,该原则仅在一定程度上适用——须要韶光来复习根本知识。

情由2:如果增加的周期数也超越了插值点,我们都该当尽早放弃,看看会发生什么。
总的来说,我们都可以做科学的剖析。

情由3:这和5很好地提醒了我们还有很多我们不知道的地方。
并非我们所学的统统都是精确的,并且并非所有直不雅观的知识都是精确的。

进一步阅读:一个更轻松的阅读是图像分类的“技巧包”。
在这本书中,你将找到几个大略且可操作的建议,用于从模型中提取额外的性能低落元素。

图像分类的“技巧包”:

https://arxiv.org/abs/1812.01187

10.On The Measure of Intelligence (2019)

François, Chollet. “On the Measure of Intelligence.” arXiv preprint arXiv:1911.01547 (2019).

https://arxiv.org/abs/1911.01547

大多数人都在努力多走一英里,弗朗索瓦·乔利特正在向月球射击。

在这个列表中,所有提到的文章都进一步推动了实践和理论的发展。
一些技能已经被广泛采取,而另一些则为领悟供应了良好的改进,然而,比肩人类智力,仍旧是一个神秘而难以捉摸的话题,更不用说奥秘或神秘了。

时至今日,人工智能领域朝着通用智能方向的进步还只是用“造诣”来衡量。
每隔一段韶光,一种算法在繁芜的任务中击败了人类,比如国际象棋、dota2或围棋。
每当这种情形发生时,我们都说我们又近了一步. 然而,这还不敷以衡量智力的技能习得效率。

在这篇(长篇)文章中,Chollet认为:“要想朝着更智能、更人性化的人工系统迈进,我们须要遵照适当的反馈旗子暗记。
”换句话说,我们须要一个得当的机器智能基准,一种智商测试。
因此,作者提出了抽象推理语料库(ARC)。

ARC可以被看作是一个通用的人工智能基准,一个程序综合基准,或者一个生理丈量智能测试。
它的目标是人类和人工智能系统,这些系统旨在仿照人类一样平常流体智能的形式。

情由1:虽然数据科学很酷很时髦,但人工智能才是真正的核心。
如果没有人工智能,就不会有数据科学。
它的终极目标不是探求数据洞察力,而是构建可以拥有自己想法的机器。
花些韶光思考以下基本问题:什么是智力,我们如何衡量?本文是一个好的开始。

情由2:在过去的几十年里,IA社区被来自数理逻辑和演绎推理的思想所支配,但是支持向量机和神经网络在没有任何形式的显式推理的情形下,比基于逻辑的方法更前辈。
ARC是否会引发经典技能的复兴?

情由3:如果Chollet是精确的,我们离创建能够求解ARC数据集的算法还有几年的韶光。
如果你正在探求一个可以在业余韶光利用的数据集,这里有一个可以让你保持劳碌的数据集:

进一步阅读:2018年,Geoffrey Hinton、Yosha Bengio和Yan LeCun因其在深度学习根本上的先驱事情而得到图灵奖。
今年,在AAAI会议上,他们就人工智能的未来揭橥了自己的意见。
你可以在Youtube上不雅观看:

https://youtu.be/UX8OubxsY8w

我想用杰弗里·辛顿的一句话来结束这篇文章,我相信这句话概括了这统统:“未来取决于某个研究生,他对我所说的统统都深表疑惑。

GloVe通过隐式完成了共现矩阵。
AdaBoost使数百个弱分类器成为最新技能。
胶囊网络寻衅了CNN,而图神经网络可能会取代它们。
关键的进步可能来自归一化,丢失和优化器,而我们仍旧有空间质疑批处理规范和演习过度参数化的模型。

我想知道还有多少关于dropout和ReLU的事情须要去创造。

参考链接:

https://towardsdatascience.com/ten-more-ai-papers-to-read-in-2020-8c6fb4650a9b

编辑:王菁

校正:林亦霖

—完—

想要得到更多数据科学领域干系动态,诚邀关注清华-青岛数据科学研究院官方微信公众平台“ 数据派THU ”。