基于SOM神经网络的入侵早期检测特征选择,计算机信息安全论文.docx
《基于SOM神经网络的入侵早期检测特征选择,计算机信息安全论文.docx》由会员分享,可在线阅读,更多相关《基于SOM神经网络的入侵早期检测特征选择,计算机信息安全论文.docx(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于SOM神经网络的入侵早期检测特征选择,计算机信息安全论文网络入侵的早期特征是影响网络入侵早期检测效果的关键 面向网络入侵检测的特征选择是对高维的入侵特征数据集进行选择,得到较低维度的、能够反映入侵行为本质的特征组合,以降低构建入侵检测模型的复杂度,提高入侵检测率基于神经网络的入侵检测是智能化入侵检测的重要技术,它采用入侵特征数据集训练神经网络模型,利用神经网络模型进行入侵检测 与传统的入侵检测技术相比,基于神经网络的入侵检测具有良好的可拓展性及自适应能力 然而,由于入侵行为的多样化与复杂性,入侵特征提取一直是基于神经网络的入侵检测技术发展的瓶颈 现有的基于神经网络的入侵检测研究绝大多数基于
2、 KDD99 入侵特征数据集进行实验但基于 KDD99 的入侵检测因受限于其复杂的预处理经过而无法实如今线检测,为此我们开展了网络入侵早期检测方式方法研究1,提出一组可支持在线实时提取的入侵早期行为特征,这组特征共计 39 维 基于这组早期特征,构建基于 SOM神经网络的入侵检测模型,不仅实现了基于神经网络的在线入侵检测,而且能够在入侵发生的早期( 异常流的前 N 个包)施行检测 但是这组早期特征集的维数较多,建立入侵检测模型消耗的时间较大 同时,冗余特征也会缩小入侵特征向量间的差异不同,进而影响入侵早期检测的准确率本文以降低入侵检测建模代价、提高入侵早期检测率为目的,在基于 SOM 神经网络
3、的入侵早期检测研究的基础上,进一步开展入侵早期特征选择研究2 相关工作面向入侵检测的特征选择方式方法有两种形式: filter 形式和wrapper 形式2 filter 形式利用特征向量本身的特质作为衡量准则,选出特征相关性最小的组合 wrapper 形式以机器学习算法作为评价模型,直接通过检测率选出最优特征组合 朱永宣采用 elief 算法去除原始特征中与分类无关的特征,然后再利用主成分分析法( PCA) 变换提取适当个数的特征3Sutton 等人采用独立主成分分析法( ICA) 进行的特征选择研究,独立主成分分析法是对主成分分析法和因子分析的一种拓展4 陈友 等人进行了基于信息增益及基于
4、关联特征( CFS) 的特征选择操作,通过衡量特征子集的信息量及特征间关联程度进行取舍5 以上研究都是基于 filter 形式的特征选择方式方法,其操作速度较快,但其评价结果与真实的机器学习检测率的误差较大,效果不佳 遗传算法作为启发式搜索算法,在面向入侵检测的 wrapper 特征选择中应用较广泛 GStein 等人使用遗传算法作为搜索策略,使用决策树作为分类器进行了基于 KDD99 的入侵检测实验6 K Gim 等人将遗传算法与 SVM 结合,同时将遗传算法运用在特征选择和 SVM参数优化中7 基于遗传算法与机器学习的 wrapper 形式特征选择方式方法计算量较大,同时其优化的特征子集的
5、检测率也较高 但是遗传算法作为重要的优化方式方法本身也具有一定缺陷遗传算法是一种通过模拟达尔文进化论及遗传基因理论,搜索最优解的计算模型8 遗传算法的迭代经过能够被描绘叙述为一个马尔科夫链,通过对马尔科夫链的分析9,得到结论: 1) 遗传算法不能以概率 1 收敛到全局最优解 2) 在逐代的进化经过中,保存最优解,以穿插和变异作为随机化算子,则当进化代数趋向于无穷时,遗传算法将以概率 1 收敛至全局最优解以上结论讲明遗传算法在追求种群向目的函数整体进化的经过中,种群形式趋于单一化,基因多样性具有局限性,容易陷入局部最优解 另外,作为一种随机搜索算法,遗传算法具有不确定性 即便是采用一样的初始种群
6、及其他参数,优化结果也不一定一样 为了获得更具稳定性的优化结果,克制遗传算法的局部收敛问题,本文提出一种结合频率挑选的遗传算法( Genetic Algorithm with Frequency-based Selection,下面简称 GAFS) ,该算法以 SOM 神经网络作为评价模型,通太多次运行遗传算法,改善种群基因多样性,加强了搜索的全局收敛效果,进而大幅度提高了搜索结果的稳定性 基于该方式方法,本文对网络入侵的早期特征集进行了特征选择实验,得到一组较小维度的网络入侵早期特征优化组合,适用于基于神经网络的入侵早期检测3 基于 GAFS 的特征选择方式方法面向入侵检测的特征选择由搜索与
7、评价组成 N 维特征集合具有 2N1优子集 评价是指根据统一标准对搜索到的特征子集进行评分,根据评分确定下一步的搜索方向或当特征子集到达停止准则终止搜索 面向入侵检测的特征选择方式方法,常使用入侵检测准确率作为正确性评价标准10单次的遗传算法是从某个随机的初始种群出发,由选择、穿插、变异产生子代,利用神经网络的入侵检测准确率作为评价的根据,经过逐代的进化,得到最优解,即单次遗传算法优化的特征子集 基于 GAFS 的特征选择流程如此图 1 所示,它通太多次运行遗传算法,统计多个最优解中特征出现的频率,利用频率挑选经过淘汰被选频率低于某一频率阈值的特征,重新组合得到原始特征集的最优子集 图 1 中
8、特征选择停止准则能够是遗传算法的迭代次数或特征选择算法的执行时间3 1 适应度函数遗传算法根据适应度函数评价个体的优劣 为将优秀基因遗传至下一代,会选择适应度高的个体作为父代介入下一代的遗传操作,所以适应度函数是决定下一步搜索方向的重要根据 本文采用基于 SOM 神经网络的入侵检测准确率及漏1基于神经网络的入侵检测通过自学习建立数学模型,实现数据分类及数据预测等功能 通过对预测结果的统计,能够得到入侵检测率( D) 和系统漏报率( FA) 两个性能指标,这两个指标的定义如下:【1】华而不实,TPi表示正确检测到的异常 i 的样本数; FPi表示被误报为该异常而非该异常的样本数; TTP 表示正
9、确检测到的所有异常样本数; FN 表示被检测为正常的异常样本数由于不同种类的网络入侵对同样定义的特征敏感度不同 所以适应度函数的定义需要综合特征子集对多种入侵的检测效果,是一个多目的遗传优化问题 同时,训练样本数量直接影响神经网络的学习效果,所以本文根据训练数据集中各异常样本的比例,计算各异常检测率及系统漏报率的加权平均值,将多目的转化为单目的来进行遗传算法优化 适应度函数的定义如下:【2】华而不实,j 表示训练数据集中异常的种类; ti表示训练数据集中异常 i 的样本数; tnormal表示训练数据集中正常数据样本数; t 表示训练数据集样本总数3 2 选择、穿插与变异本文采用二进制编码11
10、方式方法将问题的解映射为串,0 代表不选择该特征,1 代表选择该特征 每个串为一个个体,若干个体构成一个种群 随机产生 N 个二进制串构成一个初始种群选择是从当下种群里根据概率挑选出优秀个体作为父代将基因遗传子代 为了保证优质个体不因概率选择而流失,最优个体不会由于选择、穿插、变异操作而被毁坏,本文采用带有精英保存策略的轮盘赌选择操作12 将种群中最优个体直接选入下一代,再进行赌轮盘操作,选出 n 个父代个体另外,采用单点穿插算子及单点变异算子进行遗传算法的穿插和变异操作3 3 频率挑选频率挑选是根据单次遗传算法优化的最优解中特征出现的频率,重新组合得到最优特征组合的经过 假设 Y( y1,y
11、2, ,ym) 表示屡次运行遗传算法得到的最优解集,yi表示第 i个最优解,m 表示遗传算法的运行次数,n 表示原始特征集维度,根据遗传算法的二进制编码规则:【3】最后,选出 Zj中所有为 1 的特征,得到最优特征组合 对于公式( 6) 中频率阈值 Th 的选择需注意: 频率阈值过低,不能完全去除冗余特征; 而频率阈值过高,则会导致有用信息的丢失 频率阈值可通过实验分析的方式获取4 基于 GAFS 的特征选择算法描绘叙述输入: 原始入侵早期特征数据集 Data输出: 最优特征组合( SF)参数: group,重复运行遗传算法的次数; N,初始种群大小; generation,最大计算代数; q
12、,穿插概率; p,变异概率; Th,频率阈值;1: FO k = 1: group2: SF 3: 生成初始种群 SSNP( 0) ;4: OptSF GA( SSNP,generation,p,q) 5: FO i = 1: generation6: FO j = 1: N7: 生成训练数据集( Data,SSNP( i)j) ;8: 生成测试数据集( Data,SSNP( i)j) ;9: D,FD SOM( 训练数据集,测试数据集) ;10: fitnessj111: END FO12: Best( SSNP( i) ,fitness) ;13: Select( SSNP( i) ,fi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内