引用

人工智能对抗攻防技能综述_模子_等人 智能问答

Qiu, Shilin , et al. "Review of Artificial Intelligence Adversarial Attack and Defense Technologies." Applied Sciences 9.5(2019).

择要

近年来,人工智能技能已经广泛运用于打算机视觉、自然措辞处理、自动驾驶等领域。
然而,人工智能系统随意马虎受到攻击,这限定了人工智能技能在关键安全领域的运用。
因此,提高人工智能系统对抗攻击的鲁棒性在人工智能的进一步发展中发挥着越来越主要的浸染。
本文旨在全面总结深度学习中对抗攻防技能的最新研究进展。
根据目标模型发生对抗攻击的不同阶段,分别阐述了演习阶段和测试阶段的对抗攻击方法。
然后,我们梳理了对抗攻击技能在打算机视觉、自然措辞处理、网络空间安全和物理天下中的运用。
末了,我们分别从修正数据、修正模型和利用赞助工具三个紧张种别描述了现有的对抗防御方法。

先容

近年来,人工智能技能在各个领域的运用发展迅速。
由于高性能、高可用性和高智能,人工智能技能已经运用于图像分类、物体检测、语音掌握、机器翻译等更高等的领域,如药物身分剖析、脑回路重构、粒子加速器数据剖析、DNA 突变影响剖析。

自 Szegedy 等人提入迷经网络易受攻击攻击以来,人工智能攻击技能的研究逐渐成为热点,研究者不断提出新的攻击方法和防御方法。
根据目标模型的不同阶段,对抗性攻击可以分为三类:演习阶段的攻击、测试阶段的攻击和模型支配阶段的攻击。
由于模型支配阶段的攻击方法与测试阶段的方法非常相似,为了大略起见,本文只谈论演习阶段的攻击和测试阶段的攻击。

演习阶段对抗攻击是指在目标模型的演习阶段,攻击者通过修正演习数据集、操纵输入特色或数据标签来进行攻击。
Barreno 等人通过修正或删除演习数据来改变演习数据集的原始分布,属于修正演习数据集。
Biggio 等人的事情中展示了操纵标签的方法,他们通过随机翻转 40%的演习标签来降落支持向量机(SVM)分类器的性能。
在 Kloft 等人、Biggio 等人和 Mei 等人的事情中,攻击者将精心天生的恶意数据注入演习数据集中,从而改变模型的决策边界。

测试阶段的对抗攻击可以分为白盒攻击和黑盒攻击。
在白盒场景中,攻击者可以访问目标模型的参数、算法和构造。
攻击者可以利用这一知识构建对抗样本来履行攻击。
Papernot 等人先容了一个对抗攻击框架,该框架可分为方向灵敏度估计步骤和扰动选择步骤。
在此根本上,研究职员提出了各种不同的攻击方法。
Szegedy 等人提出了一种叫做 Large-BFGS 的方法来搜索对抗样本。
Goodfellow 等人提出了一种快速梯度符号法(FGSM),打算本钱函数相对付输入的梯度。
Kurakin 等人提出了三种变型的功能梯度法,分别命名为一步目标类方法,基本迭代方法和迭代最小可能类方法。
Su 等人展示了一种攻击方法,它只改变图像中的一个像素。
Moosavi-dezfooli 等人提出以迭代办法打算给定图像的最小范数对抗扰动,以找到最靠近正常样本的决策边界,并找到超过边界的最小对抗样本。
Cisse 等人提出了一种称为 HOUDINI 的方法,它欺骗了基于梯度的机器学习算法。

相反,在黑盒场景中,攻击者不能得到关于目标模型的信息,但是他们可以通过查询目标模型、利用对抗样本的可通报性或利用模型反演方法来演习本地替代模型。
Papernot 等人首先利用合成输入演习替代模型,然后利用替代模型天生的对抗样本攻击目标模型。
Fredrikson 等人履行了一种模型反转攻击,该攻击利用机器学习(ML)运用编程接口(API)来推断敏感特色。
Tramèr 等人展示了针对在线 ML 做事供应商(如 BigML 和 Amazon Machine Learning)的模型提取攻击。

对抗攻击技能已经逐渐在学术界和工业界得到运用。
本文总结了四个领域的运用。
在打算机视觉领域,在图像分类、语义图像分割和目标检测中存在对抗攻击。
在自然措辞处理领域,机器翻译和文本天生中存在对抗攻击。
在网络空间安全领域,云做事、恶意软件检测以及网络入侵检测中存在对抗攻击。
物理天下中的对抗攻击表现在路标识别、欺骗摄像头、机器视觉和人脸识别中。

为了提高神经网络对对抗攻击的鲁棒性,研究职员提出了大量对抗防御方法,这些方法可以分为三大类:修正数据、修正模型和利用赞助工具。

修正数据的方法是指在演习阶段修正演习数据集或在测试阶段改变输入数据。
有五种方法可以修正数据。
对抗演习是一种广泛利用的修正数据的方法;Szegedy 等人注入对抗性样本并修正其标签,以提高目标模型的鲁棒性。
通过利用对抗式演习,Goodfellow 等人将国家标准与技能研究所稠浊数据集上的误识别率从 89.4%降落到 17.9%,Huang 等人通过惩罚误分类的对抗样本增加了目标模型的鲁棒性。
第二种方法叫做梯度隐蔽;它向攻击者隐蔽目标模型的梯度信息。
然而,通过学习具有梯度的代理黑盒模型,并利用由该模型天生的对抗样本,该方法很随意马虎失落效。
由于纵然神经网络具有不同的体系构造或在不相交的数据集上演习,可通报性属性也成立,以是第三种方法是阻挡可通报性以防御黑盒攻击。
Hosseini 等人提出了一个三步零标记法,以防止对抗样本的可转移性。
这种方法的优点是将扰动输入标记为空标签,而不是将其分类为原始标签。
第四种方法是数据压缩,通过压缩数据来提高健壮性。
Dziugaite 等人和 Das 等人分别利用 JPG 压缩和 JPEG 压缩方法来防止 FGSM 攻击。
这种方法的局限性在于,大量的压缩会导致原始图像分类精度低落,而少量的压缩每每不敷以肃清滋扰的影响。
修正数据的末了一种方法是数据随机化。
Wang 等人利用与网络模型分离的数据转换模块来肃清图像中可能存在的对抗滋扰,并在演习过程中进行数据扩展操作,可以略微提高目标模型的鲁棒性。

修正模型是指修正目标神经网络,可分为六种类型。
第一种方法是正则化,旨在通过添加正则项来提高目标模型的泛化能力。
Biggio 等人在演习 SVM 模型时利用正则化方法来限定数据的薄弱性。
第二种方法是防御净化法,这种方法使得产生的模型输出面更平滑,对扰动的敏感性更小,从而提高了模型的鲁棒性,可以将对抗攻击的成功率降落 90%。
此外,Papernot 等人提出了可扩展的防御净化技能,以担保在黑盒攻击中的有效性。
第三种方法是特色压缩,其目的是降落数据表示的繁芜性,并减少由于低灵敏度引起的对抗滋扰。
对付图像数据,有两种方法,在像素级减少颜色深度和在图像上利用平滑过滤器。
虽然这种方法可以有效防止对抗攻击,但降落了真实样本分类的准确性。
第四种方法是利用深度压缩网络(DCN),它利用降噪自动编码器来降落对抗噪声。
第五种方法是在识别分类的网络模型之前插入掩模层。
掩模层用于对原始图像和先前网络模型层的输出特色之间的差异进行编码。
末了一种修正模型的方法是利用 Parseval 网络。

利用赞助工具是指利用附加工具作为神经网络模型的赞助工具。
Samangouei 等人提出了一种机制,称为防御天生对抗网(Defence Generative Agressiary Nets)。
该网络适用于白盒和黑盒攻击,可以降落对抗滋扰的效率。
这种方法利用了天生对抗网络的力量。
但天生对抗网络的演习是有寻衅性的,即没有适当的演习,防御天生对抗网络的表现会明显低落。
Men 等人提出了一个名为 MagNet 的框架,它将分类器末了一层的输出作为一个黑盒来读取。
MagNet 利用检测器来识别合法样本和对抗样本。
检测器丈量给定待测样品和标准样本之间的间隔,如果间隔超过阈值,则剔除样品。
Liao 等人设计了一个针对白盒和黑盒对抗攻击的鲁棒目标模型。
作者提出了三种不同的 HGD 演习方法。
利用 HGD 的上风在于,它可以在相对较小的数据集上进行演习,并可用于保护模型。

对抗样本与对抗攻击策略

在这一部分中,我们紧张先容了对抗样本和对抗攻击策略,包括对抗样本的缘故原由和特点,以及对抗攻击的能力和目标。

1、对抗样本

Szegedy 等人首先提出了对抗样本的观点,通过在模型的输入样本中加入人眼无法识别的眇小扰动来布局对抗样本,使得对抗图像被高置信度的目标模型误分类。

图 1:该模型将原始图像视为“熊猫”(57.7%)。
事实上,添加了眇小扰动的图像被同一模型归类为“长臂猿”(99.3%),而人眼无法识别差异。

假设有一个机器学习模型 M 和一个可以精确分类的原始样本 x,即 M(x)= y;通过给 x 增加一个眇小的扰动,对手可以布局一个与 x 相似的敌对样本 x0,但可能被 M 误分类,即 M(x0) != y。
图 1 显示了对抗过程。

2、对抗样本的成因

研究职员对对抗样本的存在提出了一些阐明。
一些研究职员认为对抗样本采摘的缘故原由是模型的过拟合或欠正则化,这导致了学习模型预测未知数据的泛化能力不敷,而另一些研究职员认为对抗样本是由深度神经网络的极度非线性引起的。
然而,Goodfellow 等人对具有足够维数的正则化模型和线性模型的输入增加了扰动,并证明了两种模型防御对抗攻击的有效性没有显著提高。

图 2:扰动前后分类“1”的概率。
扰动前,“1”类得分为 5%;然而,通过在原始样本的特定方向上从每个维度加或减 0.5,得分增加到 88%。

Goodfellow 等人认为,对抗样本的成因是高维空间中的线性行为。
在高维线性分类器中,每个输入特色被归一化,因此每个输入的一个维度的眇小扰动不会改变分类器的整体预测,而对输入的所有维度的眇小扰动将导致有效的改变。
如图 2 所示,通过在原始样本 x 的特定方向上对每个维度加或减 0.5,“1”类的分数从 5%增加到 88%,这证明了线性模型随意马虎受到对抗样本的攻击。

防御策略

研究职员提出了许多对抗攻击防御策略,这些策略包括:修正数据、修正模型。

1、修正数据

这些策略是指在演习阶段修正演习数据集或在测试阶段改变输入数据,包括对抗演习、梯度隐蔽、阻挡可通报性、数据压缩和数据随机化。

对抗样本被引入到演习数据集中,通过用合法的对抗样本演习模型来提高目标模型的鲁棒性。
Szegedy 等人首先注入对抗样本,并修正其标签,使模型在面对攻击时更加稳健。
Goodfellow 等人通过利用对抗演习,将 MNIST 数据集的误识别率从 89.4%降落到 17.9%。
Huang 等人通过惩罚缺点分类的对抗样本,提高了模型的鲁棒性。
Tramèr 等人提出了组合对抗演习,可以增加对抗样本的多样性。
但是将所有未知的攻击样本引入对抗演习是不现实的,这导致了对抗演习的局限性。

2、修正模型

我们可以修正神经网络模型,如正则化、防御净化、特色压缩、深度紧缩网络和掩码防御。

该方法通过在代价函数中加入被称为惩罚项的规则项来提高目标模型的泛化能力,使模型具有良好的适应性,能够抵抗预测中对未知数据集的攻击。
Biggio 等人在演习 SVM 模型时利用正则化方法来限定数据的薄弱性。
另一些研究者采取正则化方法提高算法的鲁棒性,在抵抗对抗攻击方面取得了良好的效果。

图 3:净化防御机制概述

Papernot 等人在净化技能的根本上提出了一种防御净化方法来抵抗攻击。
原始净化技能旨在将大规模模型压缩成小规模并保持原始精度,而防御性净化方法不改变模型的规模,而是产生输出面更平滑、对扰动更不敏感的模型,以提高模型的鲁棒性。
如图 3 所示,他们首先在最大温度为 T 的数据 X 上演习初始网络 F,然后利用概率向量 F(X),由网络 F 预测,以在相同的数据 X 上演习温度为 T 的净化网络 F_d。
作者证明,利用防御净化可以将对抗攻击的成功率降落 90%。

结论

自从 Szegedy 等人提出机器学习算法易受攻击以来,研究者们对对抗攻击和防御方法进行了大量的研究,并产生了很好的结果。
本文首先描述了对抗样本的成因和特点,以及攻击者的对抗能力和目标。
此外,我们回顾了分别在目标模型的演习阶段和测试阶段进行的对抗攻击。
个中,演习阶段的对抗攻击可以通过三种办法实现:修正演习数据集、标签操作和输入特色操作。
然而,这种发生在演习阶段的攻击在现实天下中并不常见。
测试阶段的对抗攻击有两种:白盒攻击和黑盒攻击。
对付白盒攻击,在进行攻击的过程中,攻击者可以得到目标模型的算法、参数、构造等信息,并利用这些信息天生对抗样本。
因此,与黑盒攻击比较,白盒攻击具有更高的成功率,这可以使目标模型达到大约 89-99%的缺点率。
虽然黑盒攻击的攻击成功率(缺点率约为 84-96%)不如白盒攻击,但由于黑盒攻击不须要知道目标模型的任何信息,因此可以利用对抗样本的可转移性、模型反演和模型提取来进行对抗攻击。
因此,黑盒攻击在现实天下中具有更好的适用性,很可能成为未来研究的一个热点。
此外,我们还总结了对抗攻击在四个领域的运用以及现有的对抗攻击的防御方法。
虽然研究职员已经提出了一些防御方法来处理对抗攻击,并取得了良好的效果,可以将对抗攻击的成功率降落 70%-90%,但它们一样平常都是针对特定类型的对抗攻击,没有防御方法来处理多种乃至所有类型的攻击。
因此,担保人工智能技能在各种运用中安全性的关键是深入研究对抗攻击技能,并提出更有效的防御策略。

致谢

本文由南京大学软件学院 2020 级硕士张松涛翻译转述。

感谢国家重点研发操持(2018YFB1403400)和国家自然科学基金(71732003,61772014)支持!