AI研习 | 免疫计算概述_免疫_算法
序言
如今,人工智能已经是天下各国高度重视的一个热点领域,干系的研究和运用在学术界、家当界都是风起云涌。一样平常认为,机器学习是人工智能领域中的热点方向,而深度学习则是机器学习中的热点分支。众所周知,深度学习的前身是人工神经网络,或者更早一些的感知机,其思想来源于人类脑神经细胞构成的神经网络,属于打算智能的一个分支。
在打算智能领域,受人体信息处理机制启示而设计的打算模型紧张包括深度学习、进化打算和免疫打算等。目前,深度学习就像中午 12 点的太阳,备受研究和开拓职员喜好,从者甚众。比较之下,进化打算则像是清晨八九点钟的太阳。今年 IEEE 进化打算汇刊的影响因子已达到11.169,从侧面解释其影响力已经不可小觑。至于免疫打算,则是刚刚露出曙光,还有很多不愿定性和未知的东西须要探索和研究。
与深度学习和进化打算不同,免疫打算是受生物免疫系统中所蕴含的信息处理机制启示而来的。生物免疫系统是生物体的自我保护系统,具有免疫防御、免疫监视和免疫自稳等功能,是一个繁芜自适应系统。因此,生物免疫系统可视为自然界一个范例的安全智能系统,个中蕴含的机制非常值得我们去探索和研究,并设计出新颖高效的免疫打算理论、方法和系统。
在此背景下,特邀了西安电子科技大学焦李成老师、四川大学李涛老师、深圳大学林秋镇老师,以及郑州轻工业学院张伟伟老师各自所领衔的团队,对免疫打算的基本现状,以及克隆选择算法、否定选择算法、免疫优化图像阐明、多目标免疫算法进行了综述,希望能对免疫打算这一新的打算智能分支的发展有所推动。
作者:罗文坚
0 弁言
免疫打算(Immune Computation)又称为人工免疫系统(Artificial Immune Systems),是打算智能领域中新兴的一个主要研究方向,其基本模型和算法受生物免疫系统启示而来。从信息处理的角度来看,生物免疫系统是一个具有自我学习和自我保护能力的自适应系统,是一个范例的安全智能系统,可为新一代打算智能、人工智能模型和方法供应灵感。国内外研究者将生物免疫系统所隐含的信息处理机制引入打算机科学领域,已提出了多种免疫打算模型和算法,逐渐形成了免疫打算这一研究领域。
免疫打算干系的研究发轫于20世纪80年代中期, 并在 90 年代得到初步发展。1986 年,Farmer 等首次提出了从生物免疫系统的自适应机制启示而来的机器学习模型。1990 年,Bersini和 Varela 提出了将免疫网络理论用于求解自适应问题的一些思路。同年,Ishida 提出了面向分布式故障检测的基于免疫网络事理的并行分布式处理模型。1994 年,Forrest 等基于免疫 T 细胞成熟机制和识别事理提出了负选择模型和算法,这是第一个范例的免疫打算模型和方法,只管比较大略。随后,从上个世纪90年代末至今,克隆选择算法 (Clonal Selection Algorithms) 、人工免疫网络算法 (Artificial Immune Network) 和树突细胞算法(Dendritic Cell Algorithms) 相继提出,并逐渐形成了免疫打算领域的四个范例研究分支,即信息负表示、克隆选择算法、人工免疫网络算法和树突细胞算法。在运用方面,免疫打算模型和算法已被广泛运用在非常检测、网络安全、隐私保护、繁芜优化问题求解、模式剖析和机器学习等领域,均取得了不少进展。
伴随着免疫打算研究的发展,一系列干系的学术活动 也 随之出身和发展起来。IEEE 打算智能协会下的蜕变打算技能委员会(IEEE CIS ECTC)专门成立了Task Force on Artificial Immune Systems 用于推动免疫打算领域的研究与发展。近年来,在IEEE Symposium Series on Computational Intelligence (IEEE SSCI)系列会议中,都有举行 IEEE Symposium on Immune Computation(IEEEIComputation)免疫打算研讨会。而蜕变打算领域的主要会议 IEEE Congress on Evolutionary Computation(CEC)已举办过多年的人工免 疫 系 统 主 题 研 讨 会(Special Session)。
IEEE Transactions on Evolutionary Computation、IEEE Transactions on Emerging Topics in Computational Intelligence、Applied Soft Computing、Swarm and Evolutionary Computation、Natural Com-putation、Information Sciences、Engineering Applications of Artificial Intelligence、Neural Computing and Applications、Swarm Intelligence、Genetic Programming and Evolvable Machines 和 Theoretical Computer Sciences 等国际有名学术期刊都曾出版过以免疫打算为主题的 专 刊(Special Issue)。2015 年,免疫打算领域的两位有名学者 Stephanie Forrest 和DipankarDasgupta 当选 IEEE Fellow,其紧张贡献均包括免疫打算方面的研究事情。
1 生物免疫系统简述
生物免疫系统是生物体的自我保护系统,它代表着一系列生物学构造和繁芜的生物、化学反应。免疫系统承担着检测、打消各种病原体和有害物质,保护生物体生命康健的重大任务。人类对免疫系统的研究有着悠久的历史,直到本日,免疫系统依然是人类医学和生命科学最主要的研究工具之一。在这些研究中,许多免疫学模型和专门学说被提出,比如克隆选择学说、免疫网络模型、免疫危险理论等,这些研究成果为打算机科学与技能研究者供应了灵感,为免疫打算的出身和发展供应了生物免疫学根本。
从构成上来说,免疫系统由免疫器官、免疫细胞和免疫分子等构成。个中,免疫器官紧张卖力制造免疫细胞,如脾脏和胸腺等。免疫细胞是与免疫应答过程有关的细胞,如淋巴细胞和吞噬细胞等;而免疫分子则大多是由免疫细胞分泌的物质,如抗体和补体等。
与许多系统类似,生物免疫系统也是一个分层系统,且一样平常分为三层。第一层由皮肤和粘膜等构成的物理樊篱;第二层紧张依赖杀菌物质和吞噬细胞等的防御功能,第一层和第二层是天生的非特异性免疫机制。第三层则是特异性免疫机制,也称为得到性免疫,免疫系统通过各种反应识别入侵的病原体,并产生特异性的免疫反应;病原体打消之后,部分免疫细胞可能成为影象细胞并长期存在于体内。当相同病原体再次入侵时,特异性免疫系统会快速产生强有力的特异性免疫效果。值得一提的是,在免疫打算中,紧张依赖的免疫学理论根本便是第三层特异性免疫干系的理论和实验研究成果。
2 代表性模型和算法
2.1 信息负表示
信息负表示(Negative Representation of Information)是免疫打算领域中的一个主要分支。这是一种新颖的数据表示方法,它由免疫T 细胞的“自我 - 非我”识别机制启示而来:生物免疫系统中,能识别“自我”的免疫 T 细胞会被消灭,而不能识别“自我”的免疫 T 细胞则会成熟,并被用来识别“非我”。受到这一机制的启示,信息负表示模型存储和操作的一样平常是原始信息的补集(或其子集)。信息负表示有负选择(Negative Selection)算法、负数据库(Negative Databases)和负调查(Negative Surveys)三个紧张研究方向。
负选择算法(又称为阴性选择算法)最早由 Forrest 即是 1994 年提出,并在过去的 20 多年间得到了广泛的研究。一个范例的负选择算法可以概括为三步。首先,根据实际环境布局自我样本凑集 S。接着,天生一个检测器凑集 D。特殊地,D 中的每个检测器都不能与 S 中的任何一个样本匹配。末了,用检测器凑集 D 来监测非常数据。只要被监测数据能与 D 中任一检测器匹配,那么它就被认为是非常数据。
负选择算法已经被运用于如非常检测、缺点检测、网络与打算机安全等多个领域。例如,Dasgupta 等利用负选择算法进行时序反常数据的监控;Moncayo 等将负选择算法用于检测翱翔器故障;Wang 等利用负选择算法识别病毒和恶意代码。
负数据库是信息负表示的紧张模型和主要研究方向之一, 这一观点最早由Esponda 及其同事在 2004 年前后提出。在负数据库中,存储和操作的是原始数据的补集。根据数据存储的形式,负数据库可以分为二进制负数据库和实值负数据库。当前的研究以二进制负数据库为主,因此这里仅扼要先容二进制负数据库。记全集为 U = {0, 1}n,DB = {x1, x2, ..., xm} 为包含m 个二进制串的正数据库(即原始数据),那么 U−DB 为正数据库的补集。为了压缩存储空间,引入符号 ,用来表示 0 和 1 中的任意一个。由此,U− DB 的压缩表示形式就称为 DB 的负数据库(NDB)。NDB 中的每条记录均可能包含三个符号 0、1、。个中,值为 0 和 1 的位置称为确定位,而值为 的位置称为不愿定位。举例来说,如果 DB={000},那么,一个可能的 NDB 则为 {1, 1, 1}。值得一提的是,二进制负数据库能与 SAT 公式逐一对应,逆转负数据库则与求解对应的 SAT 公式等价。因此,对负数据库的研究而言,许多针对 SAT 问题的研究成果都是可以直策应用的。事实上,许多负数据库天生算法便是由 SAT 公式天生算法转化而来。
负数据库已用于隐私保护、安全认证等多个领域。例如,Dasgupta 等利用负数据库避免了认证过程中在前端直接暴露认证做事器数据;Luo 等则利用负数据库提高了哈希口令认证的安全性。
负调查最早于 2006 年由 Esponda 等提出,是一种在保护受访者隐私的条件下网络敏感信息的方法。在涉及到一些敏感或隐私信息的时候,若采取传统的问卷调查手段,受访者每每不愿意供应真实的信息。在负调查中,只哀求被调查用户选取一个(或一部分)与实际情形不相符合的种别(称为负种别),并返回给数据网络者。而网络者,在网络完所用户返回的负种别之后,便可以通过统计学的方法,估算出真实类别的分布。根据受访者返回的负种别数量,负调查可以分为单选负调查和多选负调查两类。而根据受访者选择不同选项的概率,负调查则可以分为均匀负调查和非均匀负调查,这里的“是否均匀”指的是受访者是否以相同的概率选择不同选项。
负调查既可用于网络敏感信息,还可用于隐私保护的数据发布等领域。例如,Horey 等就利用负调查技能网络传感器网络中的敏感信息;Luo 等利用负调查网络网络购物的商批驳价信息;Du 等在 2014 年提出了负发布观点和对应的两个数据负发布方法。
2.2 克隆选择算法
克隆选择算法由生物免疫学中的克隆选择学说启示而来。克隆选择算法的基本免疫学事理是,识别出入侵病原体的免疫细胞会进行快速的增殖,而在增殖过程中免疫细胞会发生变异,克隆变异的结果是产生更高亲和度的免疫细胞,从而使得免疫系统能够更高效地识别和打消病原体,这是生物免疫系统自学习和自适应特性的表示。
范例的克隆选择算法由选择、增殖、突变等基本策略组合而成,大致可分为五个步骤。
(1)初始化:随机天生含有 N 个抗体的种群。
(2)亲和度评估:逐个打算种群中每一个抗体与抗原的亲和度。
(3)抗体再生:将种群中的抗体按照亲和度降序排序,选择前 n(<N)个抗体进行克隆和超变异操作。所谓克隆,便是复制选中的抗体。所谓超变异,便是对克隆后的抗体进行突变。个中,复制次数和突变概率均取决于抗体的亲和度。
(4)抗体再选择:评估突变后抗体的亲和度,并且选取最优的 N 个抗体进入下一代种群;有时还利用随机天生的 d(<N)个抗体更换选中的 n="" 个抗体中最差的d个抗体,这是为了提高种群的多样性并避免陷入局部最优。
(5)终止判断:如果结果达到了哀求,或者种群已经收敛,或者迭代次数达到了预定次数,那么结束算法;否则,转第 3 步连续实行。该当指出, 克隆选择算法的版本较多,只管它们的基本框架类似, 但详细算子(乃至详细流程)并不完备相同。此外,在详细的运用中,“抗体”“亲和度”等都须要根据实际问题来定义。
目前,克隆选择算法的紧张运用领域是全局优化、约束优化、组合优化、多目标优化和动态优化等繁芜优化问题求解领域。在优化问题之外,克隆选择算法也有一些其他领域的运用,包括模式识别、机器学习和数据挖掘等。例如,De Castro 和 Von Zuben 于 2002 年提出的 CLONALG,已用于繁芜优化问题求解和模式识别等领域。
2.3 人工免疫网络
人工免疫网络算法是受生物免疫学中的免疫网络学说启示而来。免疫网络学说最早于1974 年由 Jerne 提出,这一学说的核心思想是免疫系统中的元素(细胞、抗原和抗体等)不是伶仃存在的个体,而是存在着相互的刺激、制约、识别等关系bubu,且全体免疫系统是一个弘大的处于动态平衡中的网络。人工免疫网络的干系研究也是基于免疫网络学说进行的。目前,主流的人工免疫网络模型紧张有两种,分别是由 Timmis 等提出的 AINE 模型和 De Casto 等提出的 aiNet 模型。
AINE 模型提出了人工识别球(Artificial Recog- nition Ball)的观点。一个人工识别球代表的是特定类型的 B 淋巴细胞所覆盖的一个抗原区域,且相似的人工识别球相互连接,从而形成了网络构造。在 AINE 模型中,资源是有限的,有限资源的分配由人工识别球的激活程度决定。一样平常而言,激活程度越高的人工识别球能得到
更多的资源。分配不到资源的弱人工识别球会被打消,而激活程度高于阈值的人工识别球则会经历克隆变异形成新的人工识别球群体。
aiNet 模型用加权图来表示抗体网络模型,而算法的运行过程则是仿照生物免疫系统中的抗原刺激和免疫应答过程,利用克隆选择思想使得天生的抗体网络能自适应于抗原模式。aiNet 算法的紧张流程:首先,对付每一个抗原模式,打算抗体的亲和度,根据亲和度实行选择、克隆和变异操作,对变异后的个体进行重新评估并选择好的抗体加入影象集;接着对影象集中的低亲和度个体实行凋亡操作;然后根据抗体间亲和度对影象集中剩余的个体进行克隆抑制,并形成终极影象集。其次,在所有抗原模式处理完之后,对影象集中的抗体,根据抗体间的亲和度,进行网络抑制。末了,判断是否知足终止条件,否则连续实行上述步骤。人工免疫网络算法已用于数据挖掘、机器学习和繁芜优化问题求解等多个领域。比如,AINE 算法便是一种无监督的机器学习方法,aiNet 同样如此。这两种算法均可以用于求解数据的聚类剖析问题。进一步,De Castro 等将aiNet 算法运用于优化问题领域,提出了 optaiNet 算法;而 Yue 等利用 aiNet 算法的思路进行垃圾邮件过滤并提出了ICAInet 算法。
2.4 树突细胞算法
树突细胞算法是受生物免疫学中的危险理论学说(Danger Theory)和树突细胞事情机理而提出的一种分类算法。在生物免疫系统中,树突细胞是一种用于呈递抗原的免疫细胞,起初在未成熟状态下的树突细胞会网络抗原和接管不同的刺激旗子暗记(安全旗子暗记、危险旗子暗记和病原体干系分子模式 PAMP 等),根据吸收旗子暗记不同,分别进入半成熟状态(安全旗子暗记浓度较高)或者成熟状态(危险旗子暗记或 PAMP 浓度较高)。半成熟和成熟的树突细胞都会将抗原呈递给免疫 T 细胞, 不过半成熟树突细胞会抑制免疫相应,而成熟树突细胞则会引发免疫相应。
树突细胞算法仿照了生物免疫系统中树突细胞的事情办法。一样平常来说,范例的树突细胞算法依次包括初始化、检测、环境评估和分类四个阶段。在初始化阶段,首先天生一定规模的树突细胞群体,然后选取演习集元素中的关键属性,从属性的实际意义和问题须要出发,将其映射身分歧类型的旗子暗记,包括安全旗子暗记、危险旗子暗记和 PAMP 旗子暗记。在检测阶段,首先由未成熟树突细胞网络抗原和旗子暗记,接着打算并累积协同刺激旗子暗记、半成熟旗子暗记和成熟旗子暗记的值。当累积的协同刺激旗子暗记值超过迁移阈值后,进入环境评估阶段。在环境评估阶段中,半成熟旗子暗记值和成熟旗子暗记值中较大的那一个将成为该细胞的环境。一样平常地,半成熟环境值记为 0,成熟环境值记为 1。末了是分类阶段,按照细胞的环境值总和打算成熟环境抗原值(MCAV),并根据 MCAV 衡 量 抗 原 的 可 能 有 害 程 度。MCAV 值越靠近 1,抗原就越可能是有害的。
Greensmith 和 Aickelin 在 2005 年提出了第一个树突细胞算法;随后,Aickelin 领导的研究团队连续在树突细胞算法上做了大量的事情。目前,树突细胞算法已经运用在故障检测、网络入侵检测等多个领域。例如,Greensmith 等利用树突细胞算法进行网络入侵检测。
3 结束语
本文简介了免疫打算的发展历史和生物免疫系统的多层保护机制,并着重先容了四个范例的免疫打算研究分支,包括它们的免疫学事理、基本内容和运用领域。生物免疫系统是一个繁芜系统,具有自适应、自学习和鲁棒性等特性。从信息处理的角度来看,生物免疫系统是自然界中一个范例的安全智能系统,兼具安全和智能两个特色,可为智能科学与技能供应许多新的思想和模型,已逐渐孕育了免疫打算这一研究领域。从目前的研究现状来看, 免疫打算在机器学习、数据挖掘、非常检测、网络安全、隐私保护等多个涉及到人工智能和信息安全的领域均有着良好的开拓潜力及运用前景。
(参考文献略)
选自《中国人工智能学会通讯》
2021年第11卷第3期
免疫打算专题
本文系作者个人观点,不代表本站立场,转载请注明出处!