基于统计的异常流量发现检测技术.pdf
《基于统计的异常流量发现检测技术.pdf》由会员分享,可在线阅读,更多相关《基于统计的异常流量发现检测技术.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于统计的异常流量发现检测技术基于统计的异常流量发现检测技术 1.1 引言引言 大规模网络流量异常发现技术的本质是在寻找网络自身特征的的异常变化,即在一定的时间和空间范围内,网络自身的特征会发生明显特性的变化,甚至是剧烈的改变。由于恶意代码的在互联网上的传播具有相当的复杂性和行为不确定性,所以对其监测有一定的难度。鉴于网络流量具有自相似性,符合一定周期函数。虽然网络流量随时间在不断增长,但是其曲线仍具有自相似性,特别是在广域网上进行较长周期的统计流量更能显现出自相似性的特点,本章通过统计分析正常的网络流量数据,提出正常情况下描述网络流量的理想曲线的方法,运用统计学方法建立大规模网络流量的数学模
2、型。通过对任意一个时间周期内的流量曲线和正常流量曲线的对比,来发现当前流量是否发生异常,当异常流量达到某个临界量的时候,即可以判断出蠕虫疫情暴发。为此在哈尔滨工业大学的教育网出口上进行半年多的统计分析,验证了上述结论。1.2 网络流量模型网络流量模型 1.2.1 网络流量模型建立的前提条件 如果把网络上所有可用资源视为节点 P,用 P 的数量 M 近似代表网络规模,假设本模型研究的网络对象为 N,则本模型适用的 N 必须符合以下条件:图 0-1 哈尔滨工业大学校园网流量曲线形状 Fig.0-1 The curve shape of network flow in HIT 第一,单个或少数节点
3、P 的状态对整个网络 N 不会造成很大的影响;第二、N 的规模 M 不会产生突变,整个网络资源利用规律从总体上看在一定时间段内保持相对稳定,网络流量具有周期性。第三、整个网络流量是可检测的,检测方法是对流经出口的流量作镜像,进行旁路监听。以上假设的条件是为了保证 N 的流量情况是有规律并且是可以被检测的,一般来讲对于一个企业内部网、校园网或是甚至一个省的总出口来讲都符合这种假设。图 0-1 是哈尔滨工业大学校园网在一个时间段内出如口总流量的统计数据。1.2.2 模型建立过程中数据的预处理 用函数()f t代表 N 在 t 时刻的流量。根据前提条件()f t是一个周期函数。考虑函数()f t在其
4、周期0T中的变化,建立原始周期曲线,图 2 为原始周期曲线。图 0-2 原始周期曲线 Fig.0-2 The original curve shape in one period 由于原始曲线上的点可能会产生突变(例如监测系统突然断电使统计数据量为 0 等原因),在对原始数据处理时,利用最小二乘法对原始流量曲线作一下平滑处理。图 0-3 利用最小二乘法进行线性回归后的曲线 Fig.0-3 The curve shape after linear regression with the least-squares procedure 1.2.3 建立正常流量模型 在建立正常情况下网络数据流模型时
5、,主要从两个方面考虑:流量大小和流量曲线形状。分别构造函数来描述这两个特征量,通过对特征量分析来实现对网络数据流异常的发现。流量的大小 在一个周期,0TTT+内网络流量)(tf的平均值为Avg,如果把T取为时间原点(0=T),则:00000()()TT TTf tdtf tdtAvgTT+=(2-1)在该周期上致密地取 m 个样本点,Avg的离散化形式可表示为:0101)()(TtttfAvgimiii=+(2-2)其中:0,itT TT+且 00,mtT tTT=+同时:01.mttt时认为流量大小产生了异常,当0*)(GxG时认为该周期内流量形状产生了异常。对于流量大小,情况比较简单,根据
6、(2-2)式可以很方便地计算出Avg。为了确定*G,应把)(*xQ离散化。考虑一个周期时间段),(0TTT+,在该时间段的样本数据点如下:0011(,(),(,(),.(,()mmtf ttf ttf t,其中:00,mtT tTT=+则:当样本空间 m 足够大,并且足够致密时有:),0(|)(min()()()()(*01012*TxxQGTttxtFtfxQmiiiii=+=+(2-12)其中:=mimiitfAVGtfmtfmAVGtftf0000*)()()(1)()(G*(x)的计算机求解 在实际计算时,利用以上公式把),0(T区间平均划分为 n 小段,分别取niTxi=,计算出对应
7、的*iQ值最后取),.,min(*2*1*nQQQG=。临界量的确定 下面来确定临界量0Avg和*0G,对于样本数据点(6),由于它是理想状态下流量函数的样本估计点,相位差为 0,所以*(0)iiGQ=。为了简化计算,把区间),(0TTT+均匀地分成 m 份,使mTiTtTti00,+=,如果取 T 为时间零点,则:于是:000,iTttim=mmTjFmTjfGmTjfmAvgmjimjii=1020*0*100)()()(1(2-13)根据以上公式,分别计算出12,.kAvgAvgAvg,和*12,.kGGG。经过大量实验统计发现iAvg近似服从正态分布,而*iG 具有比较复杂的分布规律,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 统计 异常 流量 发现 检测 技术
限制150内