基于人工智能的恶意软件检测方法浅析(上篇)_特点_恶意
如何有效地检测和识别恶意程序,是网络安全领域一贯面临的寻衅。近年来,恶意程序呈现出变种多、抗检测技能更新快的情形。根据近年来AV-TEST协会发布的调查结果,目前每天涌现的新型恶意软件数量高达39万,而赛门铁克公司给出的结果更为惊人——每天恶意软件新增数量达100万种,干系安全剖析处理事情面临巨大压力。
一、传统恶意软件检测与剖析技能
恶意软件检测技能的发展有几十年历史,各种技能及技能组合被用来检测和分类恶意软件。根据是否实行恶意软件代码,这些技能可以被粗略分为静态剖析检测技能和动态剖析检测技能[1]。
(1)静态剖析检测技能
静态剖析不须要实行代码,一样平常利用被剖析文件的字节特色对代码进行评判,详细特色包括文件构造信息、程序字符串常量、调用函数等,更深层次的会反汇编二进制文件以得到文件指令等信息。特色检测法属于早期主流的静态剖析检测技能,详细流程如图1,很多传统反病毒产品都是采取此类技能。
图1 特色检测方法流程
特色检测方法中,特色码是可实行程序中用作标识的唯一代码片段,常日以字节序列或者指令序列的形式表示。基于特色码的检测技能,是通过对恶意代码的文本内容进行剖析,提取二进制、字符串、字节序列、文件名等特色,将这些特色码存入特色库。当检测样本时,通过扫描样本的干系特色和特色库进行匹配,若有匹配的特色则剖断该样本与匹配的为同一类型的恶意样本。这种方法比较大略并且检测速率较快,缺陷也很明显,比如特色提取很难自动完成,而是须要该领域专家人工判断;只能检测已有恶意代码,难以应对未知威胁;特色库每每泛化能力不敷,随意马虎受到利用稠浊技能产生的多态恶意程序和变形恶意程序滋扰。随着网络恶意软件日益增长,特色码数据库须要频繁反复的更新,占用的存储资源将指数级增长,随着特色码数据库的不断弘大,检测效率和系统性能都会受到严重影响。
通过完全性校验的办法对程序文件进行检测的技能也属于静态检测剖析技能。很多恶意代码片段会寄存在被传染的文件中,与原有程序文件比较,其属性、大小和修正日期都会发生改变,通过hash或者其他方法记录文件校验和,下次文件利用时,首先考验该文件是否与记录同等,进而识别未知的恶意代码,这种方法的缺陷是对文件的改变较敏感,随意马虎提高误报率。
(2)动态剖析与检测技能
动态剖析与检测技能是指在被剖析程序在运行的情形下,通过监控记录运行状态和行为,从中抽取动态特色进行检测和分类的方法。
沙箱检测法是这种技能中最常见的一种,用于恶意代码检测的沙箱基本构造如图2所示。
图2沙箱基本构造
通过诱使程序在一个仿真的系统环境下运行,如果检测该程序存在可疑行为,则剖断为恶意程序。详细剖析将深入程序运行过程,可能会涉及内存剖析、进程和系统做事剖析与网络剖析,须要对系统调用序列、API调用序列、注册表行为、文件行为、网络行为等进行监控,一旦创造结束反病毒软件进程、修正反病毒软件注册表、卸载其他进程主模块、反查杀行为、查找当前已存在的反病毒进程或者做事、挂全局钩子、将自己的文件载体拷贝到系统目录、主动向外界通讯、未经授权自动添加启动项以及启动做事、未经许可获取更高权限、修正浏览器的默认选项等可疑行为,则可能启动沙箱报警规则。
由于动态剖析检测方法根据运行时行为信息对恶意软件进行剖析,因此与静态剖析检测方法比较,动态剖析具有更好的有效性和准确率,同时无需对待剖析程序进行解包和反汇编操作。相对的,动态剖析也有其缺陷和不敷,例如对待剖析程序缺少全局认识,常日仅关注程序运行时的小部分行为,依赖对程序行为的跟踪技能,一样平常须要一定的跟踪时长才能见效,花费打算资源较大。
二、新一代恶意软件检测技能
早期恶意软件是为了某种大略的恶意目的而编写,更随意马虎被检测到,这种恶意软件可以定义为传统恶意软件。随着与地下经济体系深度领悟,恶意代码可能带来巨大的经济利益,其整体暗藏性越来越强,这种可以在内核模式下运行、比传统恶意软件更具毁坏性且更难检测的恶意软件被定义为新一代恶意软件。
新一代恶意软件的特色提取和分类变得越来越难,一个恶意软件实例可能同时呈现多个类别的特色,每每很随意马虎绕过运行在内核模式下的防火墙、防病毒程序等防护软件。一样平常来说,传统的恶意软件由一个进程组成,不该用繁芜的技能来隐蔽自己,而新一代恶意软件可能会注入多个不同的现有进程或新进程,采取特定稠浊技能来进行隐蔽并在系统中持久潜伏,一旦发起攻击可能更具毁坏性和持久性。
为了应对越来越暗藏的恶意代码威胁,研究职员将数据挖掘技能广泛运用于恶意软件检测过程。这是一种基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技能的决策支持过程,高度自动化地剖析数据,进行归纳性推理,从中挖掘出潜在的模式,为决策供应支持。特殊是基于人工智能的数据挖掘算法检测恶意运用程序,已经成为一个新的研究方向,受到越来越多国内外学者的关注,其剖析检测流程如图3所示。
图3 基于人工智能的数据挖掘算法检测恶意代码流程
这种方法的核心在于特色提取和学习建模(分类或聚类)[2]。个中,特色提取过程通过静态剖析或动态剖析方法,捕获文件样本的特色或特色序列,这些特色常日提取自二进制字符串、API调用和程序实行行为等特色凑集,然后对这些特色或特色序列进行筛选,选择分类效果好的特色作为学习建模的分类输入参数。学习建模过程在特色剖析的根本上,利用分类或聚类等智能算法自动化地将文件样本分类至不同的种别,根据种别剖断文件是否属于恶意软件。
基于人工智能的恶意软件剖析检测方法根据文件特色的获取办法、类型和剖析手段的不同,可以分为4类,如图4所示[2]。
图4基于人工智能的恶意代码剖析方法的紧张种别
基于特色的剖析方法一样平常是基于n-gram等算法提取的字节序列、操作码序列、函数调用序列、可实行文件的特色和字符串等特色,然后利用信息增益、文档频率、Fisher Score及层次特色选择等方法选择分类能力较强的特色,末了采取人工神经网络、贝叶斯网络、朴素贝叶斯、决策树模型、K隔壁、支持向量机、随机森林、改进的决策树、改进的神经网络等实现分类。
基于行为的剖析方法通过监控工具不雅观察样本恶意软件行为,抓取其范例行为天生行为特色,天生API调用、系统调用、运行指令、掌握流图等特色模式库,后期检测将采集软件的运行行为特色与库中的运行模式进行匹配,以判断是否属于恶意软件。个中从行为中提取特色将利用n-gram、n-tuple、bagging、知识图谱等数据挖掘技能,Hellinger间隔、余弦间隔、卡方等间隔算法常用于打算特色之间的相似性,特色分类一样平常利用机器学习方法。
启示式检测方法是一种创造剖析、学习和解决问题的方法,是基于规则估计或有根据的预测来找到特定问题的办理方案。启示式这个词源于古希腊词“为了创造”。启示式检测技能一样平常特指静态启示式检测技能,通过对文件的API调用、操作码(Opcode)、掌握流图、动态链接库等特色进行剖析,在此根本上反汇编病毒程序和可疑程序,进行基于程序的指令级代码剖析,仿照跟踪代码实行的流程,与已知恶意软件活动的代码进行比较进行判别。
软件模型检测是用来在程序实行过程中证明性子精确性的算法。它源于逻辑和定理证明,这两者都给出了根本问题形式化的基本观点,以及供应了剖析逻辑问题的算法流程。模型检测最初是为了验证系统的精确性而开拓的,也可被用来检测恶意软件。在这种检测方法中,恶意软件行为一样平常通过线性时序逻辑(LTL)、符号化模型检测(CTL)、打算树逻辑措辞(CTPL)、掌握流图等形式显示特定的特色。程序行为是通过查看一个或多个别系调用的流关系来创建的,并通过利用诸如隐蔽、传播和注入等属性来定义行为,通过比较这些行为,可以确定该程序是恶意软件还是良性的。
此外,还有通过关联规则挖掘及序列模式挖掘等方法实现分类的方法,都是现阶段研究的热点。
参考文献:
[1]毛蔚轩,蔡忠闽,童力.一种基于主动学习的恶意代码检测方法.软件学报,2017,28(2):384-397 [doi: 10.13328/j.cnki.jos.005061].
[2] Ömer Aslan,Refik Samet, A Comprehensive Review on Malware Detection Approaches, 2020.01, IEEEAccess ( Volume: 8 ), P 6249 – 6271[DOI: 10.1109/ACCESS.2019.2963724].
冯静 李玲/ 中孚信息(北京)研究院
本文系作者个人观点,不代表本站立场,转载请注明出处!