基于近似约简的集成学习算法及其在入侵检测中的应用-江峰.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于近似约简的集成学习算法及其在入侵检测中的应用-江峰.pdf》由会员分享,可在线阅读,更多相关《基于近似约简的集成学习算法及其在入侵检测中的应用-江峰.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第42卷第6期2016年6月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.42 No.6Jun. 2016基于近似约简的集成学习算法及其在入侵检测中的应用江 峰1,张友强1,杜军威1,刘国柱1,眭跃飞2(1.青岛科技大学信息科学与技术学院,青岛 266061; 2.中国科学院计算技术研究所,北京 100190)摘 要:为了获得较大差异性的基学习器来构建集成学习器,从属性空间划分的角度来考虑集成学习问题,通过粗糙集理论定义了近似约简的概念,进一步提出了基于近似约简的集成学习算法;本方法将数据集的属性空间划分为多个子空间,基于不同子空
2、间对应的数据集训练得到的基学习器具有较大的差异性,从而保证了集成学习器具有较强的泛化性能.为了验证本算法的有效性,本算法被应用于网络入侵检测中.在KDD CUP 99数据集上的实验表明,与传统的集成学习算法相比,本文所提出的算法具有更高的检测率和更低的计算开销,更适合于从海量高维的网络数据中检测入侵.关键词:近似约简;集成学习;入侵检测中图分类号: TP 181文献标志码: A文章编号: 0254 -0037(2016)06 -0877 -09doi: 10.11936/ bjutxb2015100008收稿日期: 2015-10-07基金项目:国家自然科学基金资助项目(61303193);山
3、东省自然科学基金资助项目(ZR2014FM015);山东省高等学校科技计划资助项目(J11LG05)作者简介:江 峰(1978 ),男,副教授,主要从事数据挖掘、粗糙集方面的研究, E-mail: jiangkong163. netApproximate Reducts-based Ensemble Learning Algorithmand Its Application in Intrusion DetectionJIANG Feng1, ZHANG Youqiang1, DU Junwei1, LIU Guozhu1, SUI Yuefei2(1. College of Informat
4、ion Science & Technology, Qingdao University of Science and Technology, Qingdao 266061, China;2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China)Abstract: To obtain diverse base learners for construct ensemble learner, the issue of ensemble learningwas considere
5、d from the perspective of partitioning the attribute space. Through rough set theory, theconcept of approximate reduct was defined, and further an approximate reducts-based ensemble learningalgorithm was proposed. The method could partition the attribute space of data set into multiplesubspaces, and
6、 the base learners trained on data sets corresponding to different subspaces had largediversity, which guarantee that the ensemble learner has strong generalization performance. To verify theeffectiveness of the algorithm, it was applied to network intrusion detection. Experimental results on theKDD
7、 CUP 99 data set demonstrate that compared with the traditional ensemble learning algorithms, theproposed method has higher detection rate and lower computational cost, which is more suitable for thedetection of intrusions from the massive and high - dimensional network data.Key words: approximate r
8、educts; ensemble learning; intrusion detection由于具有良好的泛化性能,近年来集成学习在机器学习和数据挖掘等领域得到了广泛关注1.北 京 工 业 大 学 学 报2016年Dietterich2更是将集成学习列为机器学习领域的四大研究方向之首.在集成学习中,主要有2种方法来产生基学习器:基于训练样本扰动的方法和基于属性空间扰动的方法.对于前者,代表性算法包括:Bagging和Boosting3-4.这些算法都是通过对训练样本进行重采样来产生基学习器,其中,Bagging采用等概率方式对实例重采样并训练基学习器;与Bagging方法不同,Boosting
9、在产生后一个基学习器时,总是根据前一个基学习器的分类错误率来改变实例抽样的权重比,从而使得后一个基学习器具有较好的性能.对于后者,代表性算法主要是随机子空间法(random subspace method RSM)5-7,该方法将训练集的属性空间随机划分成不同的属性子集,并基于多个属性子集来构建不同的基学习器.目前的集成学习算法大多采用基于训练样本扰动的方法来产生基学习器,采用基于属性空间扰动的方法还比较少,相关研究主要集中在对RSM的一些改进和扩展6-11.例如,Ho6将RSM应用于决策树学习,从而得到了决策森林算法.该算法采用RSM将数据集的属性空间随机划分为多个属性子集,然后基于每个属性
10、子集对应的数据集来构建决策树,最后将这些决策树集成在一起来构成决策森林.在此基础上,Breiman7进一步将Bagging方法和RSM相结合并用于决策树学习,从而得到了随机森林算法,该算法在建立每棵决策树时,同时对数据集的实例空间和属性空间进行扰动.实验表明,随机森林算法的性能要好于决策森林. Bryll等8提出了一种称之为“属性Bagging”的集成学习方法,该方法首先确定一个合适的特征子集大小,然后随机选择一组固定大小的特征子集来构建集成学习器.姚旭等9提出了一种基于RSM和AdaBoost的自适应集成学习方法.该方法利用粒子群算法寻找使得AdaBoost依样本权重抽取的数据集分类错误率最
11、小化的最优特征权重分布,然后根据最优特征权重分布产生随机子空间,最后用于Adaboost的训练过程中,实验结果表明该方法具有较好的性能.上述方法都是采用随机策略来扰动属性空间,从而得到不同的基学习器.然而,仅仅采用随机策略进行属性空间的划分可能是不恰当的,因为随机划分属性空间具有一定的盲目性,在很多时候,由RSM所产生的集成学习器的性能难以得到保证.对此,Guo等11提出了一种基于动态粗糙子空间的选择性集成学习算法DRSSE.在该算法中,使用属性的最大依赖度来减少约简的搜索空间,同时增强被选择的约简之间的差异性,DRSSE使用一个评价函数来动态平衡多个约简的学习精度和约简之间的多样性.实验结果
12、证实了DRSSE算法比其他集成学习算法具有更好的性能.此外,胡清华等提出了一种基于粗糙子空间的集成学习算法FS - PP -EROS12,该算法将粗糙集的属性约简技术引入到属性空间的划分中13-14,使用多个约简来划分属性空间,从而构建不同的基学习器.为了得到足够多的约简,Hu等12放宽了粗糙集中属性重要性的选择标准,他们认为可以选择重要性排在第2或第3的属性作为目标属性,从而在生成约简的过程中对属性的选择进行扰动,以获得多个约简.实验表明,与RSM相比,FS-PP-EROS具有更好的泛化性能.近年来,机器学习与数据挖掘技术在入侵检测领域的广泛应用,极大地提升了入侵检测系统的准确率,降低了其误
13、警率.作为机器学习的一个重要研究方向,集成学习在入侵检测领域也得到了广泛应用.当前已有许多集成学习算法被应用于入侵检测系统中15-19,例如,谭爱平等15提出了一种基于SVM的入侵检测集成学习算法,该算法采用SVM来训练基学习器,并利用Boosting来进行基学习器的集成.徐冲等16分别利用改进的BP神经网络算法和支持向量机算法来训练基学习器,并利用相应的集成学习器来检测入侵. Abdulla等17设计了基于粒子群优化的集成网络入侵检测系统,该集成方法使用粒子群算法产生权重来建立基学习器,使得基学习器对于入侵检测具有较高的检测率,从而使得集成学习器具有较高的检测率. Kavitha等18提出了
14、基于中智逻辑分类器的集成学习入侵检测模型,由于该模型采用了中智逻辑分类器,它能够处理模糊的、不确定的、不完整的和不一致的信息,再加上使用了集成学习技术,因此该模型能够处理复杂、不确定的网络数据,实验结果证实了该模型的有效性.集成学习能够有效提升学习系统的泛化能力,并保持较小的误差.在入侵检测中引入集成学习方法,可以在先验知识不足的情况下仍保证有较好的检测性能.然而,在面对海量、高维的网络数据时,现有的集成学习算法将面临一个挑战,即入侵检测系统的实时性难以保证,在入侵行为被系统检测出来之前,可能入侵行为就已经发生.当前的集成学习算法大多采用基于训练样本扰动的方法来产生基学习器,在处理高维数据时,
15、这些算法将面临非常大的计算开销.因此,要想从海量、高维的网络数据中878 第6期江 峰,等:基于近似约简的集成学习算法及其在入侵检测中的应用实时地检测出入侵,有必要对现有的集成学习算法进行改进19.针对现有的集成学习算法所存在的问题,本文提出了一种基于近似约简的集成学习算法ELAR,并利用该算法来检测入侵. ELAR算法首先利用粗糙集的属性约简技术对高维的属性空间进行降维处理,即生成多个近似约简;然后,在每个近似约简所对应的低维子空间上构建一个基学习器;最后,通过对这些基学习器进行集成,从而得到集成学习器.在低维的属性子空间上构建基学习器可以有效降低入侵检测系统的计算开销,从而保证系统的实时性
16、.另外,本文在生成近似约简时,首先采用随机抽取的方式选择一个属性到核中,然后再通过启发式方式来选择剩余的属性,这样就可以保证不同的近似约简之间的多样性,从而使得相应的基学习器之间也具有多样性.作为一种基于属性空间扰动的集成学习方法,ELAR与传统的RSM存在着明显的不同. RSM采用随机策略对属性空间进行划分,而ELAR则采用属性约简技术来对属性空间进行划分.虽然ELAR在确定贪心搜索的起点时也采用了随机策略,但在选择剩余的属性时都采用了贪心策略.因此,由ELAR所生成的近似约简与初始属性集具有相同或相近的分类能力,而由RSM所生成的属性子集则有可能具有非常低的分类能力,从而影响到基学习器的性
17、能.相对于RSM,ELAR不仅可以保证基学习器的多样性,而且还可以保证每个基学习器都具有较好的性能.另外,ELAR与Hu等12所提出的FS-PP-EROS算法也存在明显的不同.在ELAR中,本文对传统的约简定义进行了扩展,提出了近似约简的概念,并由此提出了一种近似约简算法,该算法能够产生足够多差异性大的近似约简.在FS -PP -EROS中Hu等并没有对约简概念本身进行修改,而只是对属性重要性的选择标准进行了修改.另外,FS-PP-EROS中也没有引入随机策略,例如,随机选择一个属性到核中作为贪心搜索的起点,因此,该算法所生成的基学习器的多样性不一定能够得到保证.为了验证ELAR在入侵检测中的
18、效果,本研究利用KNN算法来训练基学习器,并在KDD Cup 99数据集上进行了实验20.在KDD Cup 99数据集上利用ELAR来检测入侵主要包括以下4个步骤:1)在训练集上采用近似约简算法生成多个近似约简;2)在每个近似约简所对应的属性子空间上训练一个基学习器;3)将多个基学习器通过多数投票的方式集成在一起,从而得到集成学习器;4)在待检测的数据上,利用集成学习器进行入侵检测,并返回入侵检测结果.实验结果表明:与现有的集成学习算法Bagging、Adaboost和RSM相比,ELAR具有更好的性能.1 相关概念介绍在粗糙集中,信息表是一个四元组IS = (U, A,V, f).式中:U和
19、A分别为对象集和属性集;V为所有属性论域的并,即V = 胰a沂 AVa,其中Va为属性a的值域;f: U 伊 A寅 V为一个信息函数,使得对任意a沂 A以及x沂 U,f (x, a)沂 Va13-14.进一步, A又可以划分为2个不相交的子集 条件属性集C和决策属性集D.这种特殊的信息表被称为决策表,简记DT = (U, C, D, V, f ).给定决策表DT = (U, C, D, V, f),对于任意B哿 C胰 D,定义由B所决定的一个不可分辨关系IND(B)为: IND ( B) = ( x, y) 沂 U 伊 U: 坌 a 沂B(f (x, a) = f (y, a).可以证明,IN
20、D(B)是U上的一个等价关系. IND(B)将U划分成多个等价类,所有这些等价类的集合就构成U的一个划分,记为U/ IND(B).定义113-14 (上、下近似) 给定决策表DT =(U, C, D, V, f ),对任意B哿 C胰 D和X哿 U,X的B -上近似和B -下近似分别定义为XB = 胰 xB沂 U/ IND(B):xB疑 X屹 芰 XB = 胰 xB沂 U/ IND(B):xB哿 X定义213-14(正区域) 给定决策表DT = (U,C, D, V, f),对任意B哿 C,定义D的B -正区域POSB(D)为POSB(D) = 胰E沂 U/ IND(B)夷 坌 x,y沂 E(x
21、,y)沂 IND(D)E定义313-14 (核属性) 给定决策表DT = (U,C, D, V, f),对任意属性b沂 C,如果POSC -b(D)屹POSC(D),那么称b为C中相对于D的一个核属性.所有的核属性所组成的集合CoreD(C)被称为C相对于D的核.定义413-14(属性重要性) 给定决策表DT =(U, C, D, V, f),对任意B奂 C和c沂 C - B,属性c相对于B和D的重要性定义为SGF(c,B, D) = |POSB胰 c(D) | / |U| -|POSB(D) | / |U|978北 京 工 业 大 学 学 报2016年2 近似约简与基于近似约简的集成学习在粗
22、糙集中,一个约简就是能够分辨出对象属于不同决策值的最小属性子集.理论上来说,在一个约简后的数据集上所训练的基学习器与在初始数据集上训练的基学习器具有相同的性能.对于一个给定的决策表,由于约简属性集和初始属性集具有相同的分类能力,因此可以在每个约简所对应的属性子空间上来训练基学习器,这样不仅可以降低基学习器的训练时间,而且还可以保证每个基学习器的性能.换句话说,可以通过粗糙集中的属性约简技术来扰动训练集的属性空间,从而构建一个集成学习器.当采用属性约简技术来扰动训练集的属性空间时,首先要解决的一个问题就是约简的数量可能不足.众所周知,不同数据集上的约简数量是不一样的.对于很多数据集而言,约简的数
23、量非常少,最坏的情况下可能没有任何约简.当约简的数量不够时,就不能获得足够多的基学习器,从而影响到集成学习器的构建.针对上述问题,本文对传统的约简定义进行扩展,提出一种近似约简的概念,并由此提出一种近似约简算法.采用近似约简对训练集的属性空间进行扰动,可以保证约简的数量足够多,从而获得足够多的基学习器.在传统的粗糙集约简定义中,给定一个决策表DT = (U, C, D, V, f),如果R是初始属性集C的一个约简,那么R必须与C具有完全相同的分类能力,即|POSR(D) | = |POSC(D) |.上述关于约简的要求过于严格,从而导致很多数据集上的约简数量非常少.为了保证在每个数据集上约简的
24、数量都足够多,有必要对上述要求进行适当的放松,即:如果R是C的一个约简,那么R与C具有相同或者相近的分类能力.通过上述修改,就得到了近似约简的概念,具体定义如下.定义5 (近似约简) 给定决策表DT = (U, C,D, V, f),对任意AR奂 C,如果满足|POSC(D) | 逸|POSAR(D) | 逸 啄 伊 |POSC(D) |,那么称AR为C相对于D的一个近似约简,其中,啄沂 (0, 1是一个给定的阈值,称啄为近似度.从定义5可以看出,虽然近似约简AR的分类能力可能要低于初始属性集C,但是它们的分类能力是近似相等的. AR与C的分类能力的近似程度可以通过阈值啄来控制.若啄越大,则A
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 近似 集成 学习 算法 及其 入侵 检测 中的 应用 江峰
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内