人工智能系统用于作战的局限性——收集安然_数据_人工智能
本报告是五卷系列报告中的第二篇,重点关注网络安全数据集分布偏移问题。当人工智能系统演习和测试时所利用的数据集与支配后所处理的数据分布不一致时就会涌现分布偏移的问题。分布偏移会明显影响机器学习模型的性能,终极限定机器学习模型的运用。由于网络攻击的威胁不断增长,网络安全领域的分布偏移尤其危险。基于人工智能的网络安全系统如果受到分布偏移的影响就无法成功地应对未来的威胁。
【RAND】人工智能系统用于作战的局限性——网络安全
编译:学术plus高等不雅观察员 TAO
内容紧张整理自外文网站干系资料
仅供学习参考,欢迎互换示正!
文章不雅观点不代表本机构态度
一
概 述
网络安全已经成为美国国防的主要部分。本报告紧张考虑人工智能系统在两个常见的网络安全任务中的运用:检测网络入侵和识别恶意软件。详细来说,剖析了分布偏移这一可能明显影响人工智能在这些任务有效性的征象。当人工智能系统演习和测试时所利用的数据集与支配后所处理的数据分布不一致时就涌现了分布偏移的问题。
本报告阐明了分布偏移的主要性,证明了分布偏移会明显限定人工智能在检测网络入侵和识别恶意软件过程中的有效性,给出测试和量化其影响的方法,并给出如何减轻这些影响的建议。本研究紧张针对总部这样的大型组织,由于这些组织有足够的带宽和打算资源来实现基于人工智能的网络安全系统并定期更新。对付作战职员来说,有限的资源和延迟会加剧与分布偏移干系的问题。
(一)人工智能的网络安全运用
人工智能在网络安全任务中的运用相对还比较新,但是在快速增长。人工智能的一个关键需求是要访问大量的高质量数据集用于模型的演习和测试。个中一个最大的恶意软件分类公开数据集EMBER(Endgame Malware BEnchmark for Research)是2018年发布的。EMBER的作者提到当时利用机器学习来进行恶意软件分类并没有其他运用那么多。等到2020年底,EMBER的后继数据集称利用机器学习进行恶意软件分类已经变得相对广泛了。
但人工智能系统运用于网络安全任务的有效性并不明朗。虽然人工智能运用于网络防护变得更加盛行,从2020年到2021年,针对企业的网络攻击均匀数量增加了38个百分点,但均匀攻击成功率从11%增加到12%,也便是说,随着韶光的推移,攻击者的攻击变得更加成功了。另一份报告指出,从2008年到2022年,网络安全威胁的许多核心统计数据是没有变革的,攻击类型的分布也是类似的,个中最多的是恶意软件和网络入侵活动。
人工智能在减少网络攻击中失落效的一个缘故原由是,这类人工智能运用程序并未被授予网络安全的所有任务。在大多数组织中,人仍旧是网络安全防护中不可或缺的部分,而且人也会犯错。一份关于数据透露的报告指出,2022年有82%的数据透露包含人为成分。无论是利用被盗取的凭据、钓鱼、误用或缺点,人仍旧在网络安全事宜和数据透露事宜中起着非常主要的角色。另一个缘故原由是人工智能在实验室的成功并未转化为现实运用中的性能。有研究职员指出,“许多研究职员提出的入侵检测模型声称的准确率超过98%,缺点告警率低于1%。如此高的准确率吸引研究职员和业界投入大量的人力物力来开拓干系的产品。但只有少数模型被行业采纳用于开拓现实的入侵检测系统”。还有一些非常主要的缘故原由是这些人工智能系统演习利用的网络安全数据并不充分,由于这些数据集可能是过期的或不可靠的。这也是后面要先容的数据集的最近性也是产生分布偏移的问题之一。
(二)分布偏移
当人工智能系统演习和测试时所利用的数据集与支配后所处理的数据分布不一致时就会涌现分布偏移的问题。这种不匹配会影响模型性能和预期,因此长期以来被视作一个潜在问题:常日当测试分布和演习分布不一致时,机器学习系统的性能可能会变差,但是模型仍旧会缺点地认为其性能是良好的。
分布偏移也有很多种。对许多人工智能运用来说,干系的数据集由两部分组成:特色集和标签集。人工智能系统的目标是分配精确的标签给特定的特色。比如,人工智能系统用宠物的照片进行演习直到其可以高准确率地运用适当的标签给对应的特色。一个分布偏移的例子是如果演习集中只包含长毛的狗,之后如果人工智能碰着短毛的吉娃娃就无法准确识别。这就叫做特色偏移,由于人工智能系统演习时的特色与之后碰着的不一致。
还有一种分布偏移叫做标签偏移。标签偏移是指人工智能系统碰着的特色是相同的,但是标签不同。比如,一个专家后来将一类网络活动定义为恶意的,而之前却认为是非恶意的,这就会影响人工智能系统的实行以及对系统性能的评价。标签偏移对网络安全干系的任务来说尤为关键,由于网络安全数据集很难构建。图形、文本和语音这类数据标记起来相对较快,但在网络安全领域,非专家可能无法确定一个二进制文件是恶意的还是非恶意的,而且全体过程耗时较多。但是标签偏移相对随意马虎识别,而且应对策略非常大略:修正标签来保持同等性和重新演习。
特色偏移的问题超出了传统的过拟合问题。人工智能的过拟合是指演习的模型过度适应其演习集。个中一个经典例子是设计用于识别坦克的人工智能系统反而学会了识别韶光,由于所有坦克的照片都是在太阳下有一定影子的情形下拍摄的。虽然过拟合仍旧可能发生,但本报告关注的是演习数据匹配,仅仅特色集发生变革的人工智能模型。当一个特色集中只有几个均匀值发生变革时,这些变革相对随意马虎被检测和应对。
本报告中利用用于网络入侵检测和恶意软件识别的公开的网络安全数据集等分别有大约80和2000个特色。对付网络入侵检测任务,将演习空间的80个维度每个维度仅扩大10%就可以将演习空间的总量增加2000倍。对付恶意软件识别认为,将演习空间的2000个维度扩大10%会使演习空间的总量增加10^82倍,这一数字是非常大的。
也便是说,不可预测的偏移问题不能仅仅通过在包含所有可能的网络攻击数据集上演习来办理。而且也不存在这样的数据集。虽然利用历史数据进行演习对付网络安全来说意义重大,但这种演习在办理分布偏移问题上供应的代价非常有限。由于不能仅仅通过韶光来构建更大的数据集,以是用于演习人工智能模型的干系数据量是非常有限的。以上便是为什么识别分布偏移和理解其影响对付理解人工智能在改进网络安全中的能和不能是非常主要的。
二
网络入侵检测
网络入侵是指入侵者在未经授权的情形下得到或考试测验得到对系统或系统资源的访问权限的一个安全事宜或多个安全事宜的组合。网络犯罪快速发展,新一代攻击不断呈现,使得针对零日攻击的检测迫不及待。随着恶意软件和网络入侵变得越来越繁芜,其应对方法也变得越来越繁芜。
目前有两种类型的入侵检测系统:基于署名的入侵检测系统和基于非常的入侵检测系统。基于署名的入侵检测系统基于已知攻击的威胁行为进行建模。如果网络流量事宜与已知攻击的署名相匹配,就会触发报警。基于署名的方法严重依赖已知攻击的数据库,因此针对零日攻击的有效性大大降落。如果当前的趋势是针对新的攻击,那么基于署名的入侵检测系统的有效性就会变低。
基于非常的入侵检测系统利用正常行为模型,会标记所有偏离可接管参数的内容。由于零日攻击与正常行为一定程度上存在差异,因此该方法在检测零日攻击方面有一定的上风。网络入侵不可预测的实质和监控网络流量的难度也表明,基于非常的入侵检测系统更具上风。但随着互联网的发展和变革,正常行为也会不断地发展和变革。基于署名和非常的架构在碰着新攻击时性能都很差,至少对付本报告中创建的神经网络是这样。
(一)数据和方法
1、数据集
在演习和测试过程中,本报告利用了加拿大网络安全研究所发布的两个数据集:CIC-IDS2017和CSE-CIS-IDS2018。这两个数据集是报告网络流量的公开可用的基准数据集,涵盖了各种不同类型的网络攻击和非恶意活动。此类数据集常被用于开拓商业领域的网络安全饮用。虽然数据集中你包含针对美国政府系统的攻击是不同的,但分布偏移涌现也是出于同样的缘故原由:适应性敌手和互联网行为的演化。因此,本报告利用这些数据集来研究分布偏移。
2、神经网络
为评估分布偏移随韶光变革对人工智能系统性能的影响,本报告设计、演习和测试了两种神经网络架构来实现基于署名的检测和基于非常的检测。神经网络是受生物学启示旨在从数据中学习的工具。神经网络架构中包含类似于神经元的节点,以及类似于突触的边。节点遵照数学规则许可通过激活某些节点来在网络中流动。就想大脑做决策一样,神经网络也可以用来做出预测和决策。本报告利用开源框架TensorFlow来创建和利用这些工具。图2.1描述了本报告利用的两个神经网络架构。
图 2.1 入侵检测系统利用的人工智能架构
图2.1中的两个架构除了末了一层输出层外都是相同的,全分类器有14个不同的输出(包括1种非恶意标签和13种不同的恶意攻击),二分类器只将事宜标记为恶意的或非恶意的,而不愿定攻击的详细种类。本研究的紧张创新在于保持所有架构参数不变,只对用于演习和测试模型的数据进行改变。该方法可以将不同韶光阶段数据集对人工智能系统的影响隔离开来。
为获取初始模型参数,并确保神经网络的正常运行,首先将数据集按照8:2的比例分割为演习集和测试集,然后演习和测试根本模型。测试结果如图2.2所示。
图2.2 测试结果
图2.2确认这两个分类器在全部数据集上得到了较高的准确率。在完全数据集上随机选择样本,二分类器在97%的情形下仍旧可以可靠地区分网络攻击和非恶意网络流量,并以87%的准确率区分网络攻击的种类。在全数据集上实现以上性能后,就可以冻结模型参数并开始分割数据来剖析人工智能模型性能随韶光的变革。首先,剖析2017数据集。然后比较2017数据集和2018数据集。数据分割方案和结果将不才一节给出。
(二)结果
1、按日剖析结果
首先在2017年数据集上剖析随着韶光变革分布偏移的可能影响。该数据集包含连续8天的网络流量。报告中将数据按日分割,并在这些数据部分上演习和测试以仿照作沙场景。在仿照场景中,网络安全操作职员被哀求构建人工智能系统来检测针对组织的网络攻击。操作职员搭建一个数据网络系统,并可以访问新的数据。操作职员的问题是,什么时候模型足够好使得其可以被用来预防网络攻击?演习和测试数据的分割可以看做是历史数据和新数据。比如,在第6天,模型通过前6天的历史网络数据演习,然后用后面两天的网络流量事宜进行评估。该方法的代价在于其仿照了实际网络安全操作职员可能经历的情形。
图2.3 数据分割方案
鉴于大多数神经网络利用的演习数据越多,厥后果就越好。因此,人工智能系统的性能应该随着演习所用的数据量的增加而改进,如图2.2所示。但图2.4的结果却刚好相反。
图2.4 数据按日分割结果
这两个模型的按日准确率降落了4%到5%。准确率降落的缘故原由是这八天网络攻击的分布有明显的变革。第一天只有非恶意数据,后面几天包含越来越多和越来越多种类的网络攻击。人工智能无法识别出第一次涌现的网络攻击类型,这类攻击组成了剩余数据集的大部分。因此,用前几天的数据演习人工智能系统并不能帮助精确地分类网络流量,相反,用不干系的数据来演习人工智能模型会使其过拟合到过期的数据集。此外,对最晨安排的人工智能系统模型检讨创造其并没有看起来那么成功。仅用第一天数据演习的人工智能系统准确率为78%,其将所有的网络流量都标记为非恶意的。
因此可以得出以下结论:用于网络安全的人工智能系统如果能够随着韶光的推移对全体数据集进行采样,其性能可能会比较好,但这种性能可能具有欺骗性。在现实场景中,新的网络攻击和技能不断涌现,昨天的基准可能远远低于来日诰日的性能。
2、按年剖析结果
2017年的数据一定程度上是人工布局的。就分布偏移来说,网络攻击的模式可能并不那么明显。为测试这一假设,本报告对2017数据集和2018数据集进行了比较,将网络流量进行分割利用2017年数据集进行演习,利用2018数据集进行测试。2018年数据集中包含3种新的攻击,因此在重新布局神经网络时都考虑了这一点。测试结果如图2.5所示。
图2.5 模型性能(按年)
如图2.5所示,在2017年数据集上演习的人工智能系统性能明显不如2018年数据集上演习的人工智能系统。全分类器在2017年数据集上的测试准确率为87%—88%,在2018年数据集上的准确率只有73%。同样地,二分类器的准确率从97%降落了25%。虽然在每个数据集中看到的低落速率要慢,但同样也确认了:人工智能无法充分阐明分布偏移,这对网络安全领域的运用带来了巨大的寻衅。
三
网络入侵检测
恶意软件可以带来灾害性的后果,因此对许多信息系统至关主要。随着打单软件的利用越来越多,亟需针对恶意软件的检测方法。比如,针对能源公司科洛尼尔管道运输公司的攻击就利用了打单软件,导致石油管道运输中断,对该公司和石油根本举动步伐带来了灾害性后果。机器学习方法可以对恶意软件进行有效检测和分类,利用机器学习方法识别恶意软件也成为一种趋势。基于机器学习的恶意软件检测系统可以帮助预防基于恶意软件的网络攻击。为进一步开展干系的研究,研究职员建立了标准的数据集可以对机器学习模型进行基准测试,包括EMBER、Sophos-Reversing Labs–20 Million(SOREL-20M)和其他数据集作为恶意软件分类的基准。
分类是机器学习问题的一种,利用机器学习算法对数据分配离散的标签。最大略的分类形式是二分类:恶意或非恶意的。此外,分类问题还可以更加风雅化,即将恶意软件分类为不同类型。大多数最前辈的方法利用这种更加繁芜的分类方案,可以运用于多种别或多标签分类运用。多种别分类是二分类问题的扩展,多标签分类是指对同一数据分配多个标签。
(一)数据和方法
恶意软件最基本的任务是恶意Windows可实行文件的静态检测。本报告中利用的所有的恶意软件分类数据集都是基准数据集。为进一步开展干系的研究,研究职员建立了标准的数据集可以对机器学习模型进行基准测试,包括EMBER、Sophos-Reversing Labs–20 Million(SOREL-20M)和其他数据集作为恶意软件分类的基准。
EMBER数据集中含有从110万二进制文件中提取的特色,个中包括90万演习样本和20万测试样本。第二个数据集SOREL-20M是一个8TB的大规模数据集,个中包括2000万可实行文件。数据量的增加旨在帮助软件分类基准数据集,由于更多的数据可以帮助构建更高质量的机器学习模型。但大略的增加数据的量不敷以创建高质量的机器学习模型。利用的第三个数据集是Blue Hexagon Open Dataset for Malware Analysis (BODMAS),个中包括EMBER、SOREL-20M、和一些更新更好的标记数据。
本报告剖析了在这些基准数据集上演习机器学习模型时产生的分布偏移和缓解方法。利用LightGBM作为人工智能方法,利用KS测试这样的统计方法来量化分布偏移随韶光的变革。
(二)结果
理解机器学习模型等分布偏移的第一步是确认分布偏移的存在性。报告中利用KS测试来确定是否存在分布偏移。KS测试是一种统计方法,用来测试给定样本是否来源于给定的概率分布,还可以用于比较两个概率分布是否相同。测试的结果是一个零假设的p值:p值越靠近0,两个分布越不相同。
为测试数据分布偏移随韶光的变革,本报告将SOREL-20M数据集分为2部分:2017年和2018年的数据。然后测试2018年的数据与2017年的数据是否属于同一分布。测试结果如表3.1所示。每种恶意软件类型的p值都非常小。因此2018年的样本不可能与2017年的样本属于相同的分布。也便是说,随着恶意软件的发展,从这2000个提取的特色来看分布有明显的变革。
表3.1 KS测试结果
为进一步剖析数据,研究职员剖析了BODMAS数据集。BODMAS数据集的格式与EMBER和SOREL-20M相同,只是扩展了2019年的数据。本报告中利用SOREL-20M数据集来演习人工智能系统,然后在不同的BODMAS数据集分割部分上进行测试。数据分割方案如图3.1所示。
注:4月份的数据是不完全的,1月的数据没有明显的差异
图3.1 数据分割方案
基线案例利用完全的BODMAS数据集来测试人工智能系统。2月和3月的部分只利用BODMAS数据集中对应月份的数据进行测试。测试结果利用改变测试数据对应的ROC曲线来表示。ROC曲线是通过在各种阈值设置下绘制真阳性率 (TPR) 与假阳性率 (FPR) 来创建的。研究职员在SOREL-20M数据集上演习人工智能系统,然后在2019 BODMAS数据集上运行,基线ROC曲线如图3.2所示。
图3.2 基线ROC曲线
图中TPR的范围是0到1,而FPR的范围是指数级的,以是真实的FPR要比曲线看起来低很多。大多数的FPR是小于10%的。图3.3和3.4是相同人工智能模型在BODMAS数据2019年2月和2019年3月数据子集上测试的ROC曲线。
图3.3 2019年2月数据的ROC曲线
图3.4 2019年3月数据的ROC曲线
利用基线进行比较可以看到,随着韶光的推移,标签的性能有所低落。详细来说,广告恶意软件和洪泛式恶意软件的性能低落最大,尤其是TPR。测试集基线的性能低落是分布偏移的指标。结合KS测试,可以确定在该数据集上演习的机器学习模型存在分布偏移。但由于偏移较小,因此不雅观察和剖析更长期的分布偏移。采取与ROC曲线相似的方法,本报告保持演习集不变同时修正测试集(按月数据)来不雅观察F1值的变革。并且与2017-2018测试的结果进行比拟,结果如图3.5所示。
图3.5 分割测试结果(按年)
人工智能算法性能按月测试结果如图3.5所示,个中蓝色点的F1值表示按月的F1值,在95%到99%之间。从整体来看,人工智能算法在后面年份的数据测试结果低于原始数据集的测试结果。性能降落非常明显,但只有1%到2%。
以上方法和实验表明分布偏移真实存在,且对恶意软件的识别存在影响,但影响小于网络入侵检测的偏移。在恶意软件识别基准数据集上演习后的人工智能系统比在网络入侵检测数据集上演习的人工智能系统具有更长的性能保质期。但以上都证明这些网络安全模型也存在“过期”的情形。假定这种性能退化的情形持续下去,几年后人工智能系统的性能将明显低落。此外,如果敌手也利用人工智能方法来适应网络入侵检测的防护方法,未来人工智能系统的保质期将进一步缩短。
如果采购流程较慢,那么在采购人工智能系统之提高行识别和测试以设定适当的期望值就显得非常主要。这也进一步验证了机器学习模型紧张受益于数据的最近性而不是数据的质量或数量。由于在给定的韶光内可用的数据量是有限的,因此也对人工智能系统的成功设置了有效期。
四
结 论
分布偏移对付网络安全数据集来说非常主要。由于网络安全系统失落效会带来灾害性的后果。分布偏移对基于人工智能的网络安全运用来说是一个特殊的问题,由于网络威胁图谱在不断地、不可预测地变革:随着敌手进行适应性地改变,恶意软件和网络活动随着韶光的推移不断变革;随着互联网的不断发展,非恶意的软件和网络活动也随着韶光不断变革。本报告证明了如何检测、量化和应对分布偏移带来的不利影响,使得基于人工智能的恶意软件检测和网络入侵检测运用更加鲁棒。未来将考虑如何将这些方法扩展到更大范围的网络安全运用中,以及在终端(用户)层面须要采纳什么样的方法。
(全文完)
参考链接:https://www.rand.org/content/dam/rand/pubs/research_reports/RRA1700/RRA1722-2/RAND_RRA1722-2.pdf
本文系作者个人观点,不代表本站立场,转载请注明出处!