基于关联规则的入侵检测算法综述.doc
《基于关联规则的入侵检测算法综述.doc》由会员分享,可在线阅读,更多相关《基于关联规则的入侵检测算法综述.doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于关联规则的入侵检测算法综述武玉刚1,2秦 勇2 宋继光2,3 杨忠明2 (1.江苏科技大学 计算机与信息工程学院,江苏镇江 ;2.茂名学院 信息与网络中心,广东茂名 ;3. 太原理工大学 计算机与软件学院,山西太原 )摘要:关联规则是一种新型的数据挖掘方法。根据目前国内国际的研究情况,针对关联规则的特点,首先对关联规则进行了介绍,并对经典Apriori算法做了描述。之后针对该算法的缺点,介绍了一些改进算法。针对入侵检测算法的缺点及其在入侵检测方面的研究分别进行了分析综述,并对其改进阐述。最后,指出了在该领域需要进一步研究的热点问题。关键字:关联规则;入侵检测;数据挖掘The Overvie
2、w of Intrusion Detection Algorithms Based on Association rulesWU Yu-gang 1,2 QIN Yong 2 SONG Ji-guang 2,3 YANG Zhong-ming 2(1.Dept. Computer &Information Engineering, Jiang Su University of Science & Technology, Zhenjiang, Jiangsu ;2 Center of information & networks Maoming university, Maoming, Guan
3、gdong ;3 Dept. Computer Science, Tai Yuan University of Technology, Taiyuan, Shanxi )Abstract:Association rule is a new data mining method. Under the current situation of domestic and international research for the characteristics of association rules, first of all pairs of association rules were in
4、troduced, and made the classic Apriori algorithm are described. After the address the shortcomings of the algorithm, introduced some improving algorithms. The disadvantages for the intrusion detection algorithm and its application in intrusion detection research synthesis were analyzed, and it impro
5、vements are described. Finally, pointed out the need for further research in this area, a hot issue.Key Words: association rules;intrusion detection;data mining中国分类号:TP3930. 引言网络安全,已经变得至关重要。作为传统网络安全技术的补充,入侵检测受到更多的重视。基于模式匹配、统计分析和完整性分析的传统入侵检测方法,逐渐不能适应快速发展的网络安全技术。将关联规则引入到入侵检测中,可以适应快速发展的网络技术并提高入侵检测的检测效率
6、。1. 关联规则介绍1.1 关联规则基本定义定义1 (关联规则)关联规则(association rule)是由Agrawal1等人首先提出的一个重要KDD研究课题,它反映了大量数据中项目集之间有趣的关联或相关联系。定义2 (项)设I = 是二进制文字的集合, 其中的元素称为项(item)。定义3 (支持度)记D 为交易(transaction) T 的集合,交易T 是项的集合,并且T I 。,其中 (1)定义4 (置信度) ,其中 (2)定义5 (强关联规则) 是指挖掘出支持度和可信度分别大于用户给定的最小支持度(min_supp)和最小可信度(min_conf)的关联规则。定义6(频繁项集
7、)如果项集的出现频率大于或等于min_supp与D中事务总数的乘积,则称它为频繁项集。定义7 (兴趣度)2 规定R的兴趣度为, (3)其中为,=。 1.2 Apriori算法Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则,并设计了一个基本算法, 其核心是基于频集理论的递推方法, 即基于两阶段频集思想的方法, 将关联规则的设计分解为两个子问题: 1) 发现频集。这个子问题是最重要的, 开销最大, 因此, 各种算法主要致力于提高发现频集的效率。2) 根据所获得的频繁项集, 产生强关联规则。 根据定义这些规则必须满足信任度阈值。由于步骤2中的操作极为简单,因此挖掘关联规则
8、的整个性能就由步骤1中的操作处理所决定。挖掘关联规则的总体性能由第一步决定,第二步相对容易实现。首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做一个(k-2)-连接来产生的。Ck中的项集是用来产生频集的候选集,最后的频集Lk必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入Lk,这里的验证过程是算法性能的一个瓶颈。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。1.4 Apr
9、iori算法改进1.3 关联规则分类 精简,分类名称, 分类依据, 按照不同情况,关联规则可以进行分类如下:1) 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。2) 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行
10、了充分的考虑。3) 基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在单维的关联规则中,只涉及到数据的一个维;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。针对Apriori算法,国内外许多研究人员提出了一些技术对其修改。这些技术包括散列、事务压缩、杂凑、划分、选样、动态项集技术和FP-树频集算法。如表1-1所示。表1-1 Apriori算法改进名称方法解决问题未解决问题Apriori算法两阶段频集递推算法顾客交易数据库中间项的关联规则挖掘可能产生大量的候选集;需要重复扫描数据库H
11、ash算法引入hash技术改进产生频繁2项集压缩了2项集同上事务压缩对事务压缩压缩了2项集同上杂凑引入杂凑技术改进了产生2项集的方法重复扫描数据库选样扫描一个子集,再对剩余数据库进行验证产生大量候选集产生结果不正确划分将数据库拆分,单独生成频集,然后合并,再计算支持度重复扫描数据库算法执行时间和算法的正确性动态项集计数将数据库划分为标记开始点的块,动态添加候选集项减少了扫描数据库次数可能产生大量的候选集FP-growth分而治之产生候选挖掘频繁项集基于内存,数据库较大时不合用由表1-1,可以看出,虽然上述几种改进算法在一定程度上解决了问题,在解决问题的同时,也产生了许多问题。主要存在对数据库多
12、次扫描,产生庞大的2项集,对此,许多人做了研究。 杨凯等3提出了基于属性分组的高效挖掘关联规则算法,用矩阵来存储数据库属性间的信息并提取频繁项集而且不产生候选项集,试验证明该算法对大型数据库有效,同时数据存储量低,执行效率快。K.K.Loo4等探索了最大频繁项和最小非频繁项的关系,提出了FlipFlop算法,该算法可以明显的降低Apriori算法带来的I/O问题。可以看到在数据库中寻找令用户感兴趣的关联规则时, 有这样几个着眼点:1) 数据库的处理技术。如整个数据库的采样、有效的剪枝策略、减少搜索空间、数据库分片(并行处理)、对数据库进行压缩(内存中处理)、多处理器搜索数据库等。2) 搜索策略
13、。如深度优先广度优先自底向上自顶向下等。3) 支撑度、信任度的计算方法。Hash法、标号集法、频度法等。2. 关联规则新的研究方法2.1 模糊集模糊集由Zadeh ,A.于1965年创立。其主要创新是把经典集合里特征函数的取值函数由二值域0 ,1扩展到闭区间0 ,1 ,并给出了模糊集的定义:一个定义在论域U 上的模糊集合F 由隶属函数F :U v0 ,1 表征, 其中F 表示在模糊集合F 上的隶属度。模糊集主要用于提高关联规则的有趣度和可理解性。彭晖,庄镇泉,李斌等5提出了基于模糊关联规则挖掘的模糊入侵检测,利用该算法从网络数据集中提取出具有较高可信性和完备性的模糊规则,并利用这些规则设计和实
14、现用于入侵检测的模糊分类器。同时,针对模糊关联规则挖掘算法,利用K-means聚类算法建立属性的模糊集和模糊隶属函数,并提出了一种双置信度算法以增加模糊规则的有效性和完备性。German Florez6等提出了一个基于Borgelt前缀树的模糊关联规则算法,修改了支持度和信任度的计算方法,通过计算新方法模糊规则集和特征选择,来提高入侵检测的准确率和效率。DidierDubois7等将数据以固定规则分区,可以更加快速的分析关联规则。2.2 概念格在形式概念分析中,概念的外延表示这个概念的所有对象的集合,而内涵表示所有对象共有的属性集合。以此将概念的哲学理解形式化。概念格(concept latt
15、ice) 是形式概念分析中的核心数据结构,概念格的结点关系体现了概念之间的泛化和实例化关系,因此非常适合用来挖掘规则型知识。徐泉清8等对经典Apriori算法的优、缺点进行了剖析,在实际应用项目中,提出了一种基于概念格的关联规则算法ACL。在该算法中,引入了概念格和等价关系等概念,利用粗糙集相关方面的理论,计算得到频繁2项集。苗茹9等针对普通关联规则算法易产生冗余关联规则,提出了概念格上无冗余关联规则的提取算法 NARG,该算法可以得到最小的无冗余的关联规则集,而且不丢失任何信息,可有效提高关联规则生成的效率。李云10等也对基于概念格提取简洁关联规则进行了研究。KeyunHu11等结合分类和关
16、联规则,将其应用到概念格中,并提出了一种新快速算法。AriannaGallo12等针对产生频繁项的规则不严格而易产生冗余问题,将概念格应用到关联规则中,这能够有效加快执行速度。23 粗糙集粗糙集由波兰数学家Pawlak,Z.于1982 年创新。粗糙集强调数据的不可辨(indiscernibility) 与模棱两可(ambiguity) ,研究不同类中的对象组成的集合间的关系。因此粗糙集在关联规则中的应用主要是规则挖掘前的数据约简和降维等预处理。李闯13等针对不完备信息系统,提出了基于粗糙集理论的快速ORD关联规则挖掘算法。该算法首先采用基于粗糙集理论的属性约简算法进行属性约简,然后采用快速、高
17、效的冗余项集和冗余规则修剪算法获取关联规则,从而能更快、更优地找到其感兴趣的规则。王旭仁14等针对冗余关联规则,结合粗糙集和关联规则进行了研究和应用。JiyeLi15等将粗糙集应用到关联规则,可以选出更加有效、重要的规则。MaYu-liang16等通过删除最小支持度的规则的规约方法来提高检测速率。2.4 遗传算法基于生物遗传算法的关联规则发现方法,利用遗传算法的自适应寻优及智能搜索技术获取与客观事实相容的关联规则。生物遗传算法需要首先确定染色体编码方案,然后确定适应度函数,最后确定遗传操作。通过遗传算子(如选择,交叉(重组) 和变异等) 来产生一群新的更适应环境的染色体,形成新的种群。Y.Dh
18、analakshmi17等将遗传算法结合关联规则应用到入侵检测中。方德洲18等提出了一种利用半空间模型和遗传算法(GA) 对关联规则进行快速挖掘的方法,该方法解决了传统方法在数据类型、关联规则的实际意义等约束,可以挖掘出用户感兴趣的规则。武兆慧19等提出一种新的基于改进的模拟退火遗传算法的关联规则挖掘算法,并在该算法中,采用自适应方式动态选取交叉和变异概率,有效地抑制了早熟收敛现象,实验结果显示该方法能高效地解决关联规则挖掘问题。K.R.Venugopal20等提出了DMARG算法,该算法可大大提高检测大规模交易数据的速度。BilalAlata21等将遗传算法同时应用于正负关联规则,试验表明了
19、该方法的可行性。2.5 加权 基于加权的关联规则算法,利用加权关联规则可从各种各样的审计数据中更加容易且更有效地发现有用信息。因此,加权关联规则技术比关联规则技术更加适合于构建入侵检测系统的入侵模块数据库。段军22等提出了基于多支持度的挖掘关联规则算法AMWARMS,提出了允许用户设定多个最小支持度、给定数据各项的权重来解决设置最小支持度过小导致频繁项相互组合爆炸问题。欧阳继红23等提出了具有动态加权特性的关联规则算法,该算法把事务数据库中的项目按其重要程度划分为5个等级; 运用层次分析(AHP)算法构造判断矩阵, 计算特征量;将得到的向量作为权值, 与项目在事务数据库中出现的次数综合考虑作为
20、衡量重要程度的标准, 生成FP_tree; 最后得到频繁项目集和关联规则。该算法在运行初期就大量剔除了那些权重小的无用项目集,大大提高了算法的运行效率。黄名选24等提出一种面向查询扩展的矩阵加权关联规则挖掘算法,给出与其相关的定理及其证明过程。WeiWang25等应用先产生频繁项集,再在产生规则时引入加权,该方法支持批模式和交互模式。M.SulaimanKhan26等解决了加权关联规则挖掘的向下封闭性(DCP)的失效问题。2.6 有向图基于有向图的关联规则算法,采用位矢量技术构造有向图表示项与项之间的频繁关系, 并在有向图的基础上递归产生频繁项集, 从而只需扫描数据库次, 不产生候选集, 从而
21、大大提高了关联规则挖掘算法的效率。唐德权27等提出了一种基于有向图的频繁项目集挖掘算法DGBFIG。郑玲霞28等提出了一种基于有向图的关联规则挖掘算法,采用了垂直二进制位图映射数据库,根据垂直二进制位图来生成有向图,将频繁项的二进制位串作为有向图的权值,通过分析有向图生成最大频繁项集,并给出了最大频繁项集挖掘算法的优势。Zhibo Ren29等提出了基于有向图的最大频繁项挖掘算法MFIMiner,该算法用有向图表示频繁2项集,最大频繁项搜索在有向图中完成,该算法适合密集数据和稀疏数据。3. 入侵检测自从Anderson在1980年给出了入侵的定义以来,入侵检测技术有了很大发展。入侵检测分为滥用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 关联 规则 入侵 检测 算法 综述
限制150内