基于统计的异常流量发现检测技术.pdf
基于统计的异常流量发现检测技术基于统计的异常流量发现检测技术 1.1 引言引言 大规模网络流量异常发现技术的本质是在寻找网络自身特征的的异常变化,即在一定的时间和空间范围内,网络自身的特征会发生明显特性的变化,甚至是剧烈的改变。由于恶意代码的在互联网上的传播具有相当的复杂性和行为不确定性,所以对其监测有一定的难度。鉴于网络流量具有自相似性,符合一定周期函数。虽然网络流量随时间在不断增长,但是其曲线仍具有自相似性,特别是在广域网上进行较长周期的统计流量更能显现出自相似性的特点,本章通过统计分析正常的网络流量数据,提出正常情况下描述网络流量的理想曲线的方法,运用统计学方法建立大规模网络流量的数学模型。通过对任意一个时间周期内的流量曲线和正常流量曲线的对比,来发现当前流量是否发生异常,当异常流量达到某个临界量的时候,即可以判断出蠕虫疫情暴发。为此在哈尔滨工业大学的教育网出口上进行半年多的统计分析,验证了上述结论。1.2 网络流量模型网络流量模型 1.2.1 网络流量模型建立的前提条件 如果把网络上所有可用资源视为节点 P,用 P 的数量 M 近似代表网络规模,假设本模型研究的网络对象为 N,则本模型适用的 N 必须符合以下条件:图 0-1 哈尔滨工业大学校园网流量曲线形状 Fig.0-1 The curve shape of network flow in HIT 第一,单个或少数节点 P 的状态对整个网络 N 不会造成很大的影响;第二、N 的规模 M 不会产生突变,整个网络资源利用规律从总体上看在一定时间段内保持相对稳定,网络流量具有周期性。第三、整个网络流量是可检测的,检测方法是对流经出口的流量作镜像,进行旁路监听。以上假设的条件是为了保证 N 的流量情况是有规律并且是可以被检测的,一般来讲对于一个企业内部网、校园网或是甚至一个省的总出口来讲都符合这种假设。图 0-1 是哈尔滨工业大学校园网在一个时间段内出如口总流量的统计数据。1.2.2 模型建立过程中数据的预处理 用函数()f t代表 N 在 t 时刻的流量。根据前提条件()f t是一个周期函数。考虑函数()f t在其周期0T中的变化,建立原始周期曲线,图 2 为原始周期曲线。图 0-2 原始周期曲线 Fig.0-2 The original curve shape in one period 由于原始曲线上的点可能会产生突变(例如监测系统突然断电使统计数据量为 0 等原因),在对原始数据处理时,利用最小二乘法对原始流量曲线作一下平滑处理。图 0-3 利用最小二乘法进行线性回归后的曲线 Fig.0-3 The curve shape after linear regression with the least-squares procedure 1.2.3 建立正常流量模型 在建立正常情况下网络数据流模型时,主要从两个方面考虑:流量大小和流量曲线形状。分别构造函数来描述这两个特征量,通过对特征量分析来实现对网络数据流异常的发现。流量的大小 在一个周期,0TTT+内网络流量)(tf的平均值为Avg,如果把T取为时间原点(0=T),则:00000()()TT TTf tdtf tdtAvgTT+=(2-1)在该周期上致密地取 m 个样本点,Avg的离散化形式可表示为:0101)()(TtttfAvgimiii=+(2-2)其中:0,itT TT+且 00,mtT tTT=+同时:01.mttt时认为流量大小产生了异常,当0*)(GxG时认为该周期内流量形状产生了异常。对于流量大小,情况比较简单,根据(2-2)式可以很方便地计算出Avg。为了确定*G,应把)(*xQ离散化。考虑一个周期时间段),(0TTT+,在该时间段的样本数据点如下:0011(,(),(,(),.(,()mmtf ttf ttf t,其中:00,mtT tTT=+则:当样本空间 m 足够大,并且足够致密时有:),0(|)(min()()()()(*01012*TxxQGTttxtFtfxQmiiiii=+=+(2-12)其中:=mimiitfAVGtfmtfmAVGtftf0000*)()()(1)()(G*(x)的计算机求解 在实际计算时,利用以上公式把),0(T区间平均划分为 n 小段,分别取niTxi=,计算出对应的*iQ值最后取),.,min(*2*1*nQQQG=。临界量的确定 下面来确定临界量0Avg和*0G,对于样本数据点(6),由于它是理想状态下流量函数的样本估计点,相位差为 0,所以*(0)iiGQ=。为了简化计算,把区间),(0TTT+均匀地分成 m 份,使mTiTtTti00,+=,如果取 T 为时间零点,则:于是:000,iTttim=mmTjFmTjfGmTjfmAvgmjimjii=1020*0*100)()()(1(2-13)根据以上公式,分别计算出12,.kAvgAvgAvg,和*12,.kGGG。经过大量实验统计发现iAvg近似服从正态分布,而*iG 具有比较复杂的分布规律,为了简化计算可以利用近似的方法去估计*0G,分别以12,.kAvgAvgAvg和*12,.kGGG 为样本,求出其均值和方差的无偏估计值:1)()(1)(12*21*=kGEGGDGkGEkiiGkiiG 1)()(1)(1221=kAvgEAvgAvgDAvgkAvgEkiiAvgkiiAvg(2-14)根据概率论知识,1Avg 在区间)2,2(AvgAvgAvgAvg+分布的概率为0.9544,而*iG的取值范围也总是在G周围波动。这里统一取估计值:GGAvgAvgGAvg22*00+=+=(2-15)这里的0Avg和*0G 只是一个参考值,可以根据具体网络的情况稍作调整。1.3 模型的验证模型的验证 以上建立的模型中所用的数据流是广义上的概念,具体它可以是任何一种实际的数据流,例如 HTTP 数据流、SMTP 数据流、SYN 包数据流等等。,在网络出现异常时利用上述模型可以很快就发现该异常。以哈尔滨工业大学校园网为例,在校园网的总出口处利用旁路监听的方式,以60=t秒为时间间隔,对整个校园网流量进行统计,经过半年以上的统计总结出了哈尔滨工业大学校园网正常情况下的理想网络曲线。这里分别以总流量、SYN 数据包流量和 ICMP 数据包流量为例。1.3.1 正常网络流量参数 总流量参数总流量参数 流量函数周期024T=小时 网络总流量:039756.4TotalAvgAVG=pps 694.2Avg=041144.8Avg=3581.6573.1G TotalG Total=*4727.8TotalG=总数据流*()TotalflowFt在一个周期内的曲线形状如图 0-4 所示:图 0-4 理想情况下总流量的*()F t曲线 Fig.0-4 The Curve shape of all flow in ideal conditions SYN 数据包流量参数数据包流量参数 流量函数周期024T=小时 SYN 数据包流量:SYN525AvgAVG=pps 38.8Avg=0602.6Avg=SYN81.316.6SYN=*SYN114.5G=SYN 数据流量)(*SYNtF在一个周期内的曲线形状如图 0-5 所示:图 0-5 理想情况下 SYN 数据包流量的)(*tF曲线 Fig.0-5 The curve shape of SYN flow in ideal conditions ICMP 数据包流量参数数据包流量参数 流量函数周期024T=小时 ICMP 数据包流量:ICMP38.6AvgAVG=pps 2.82Avg=24.440=Avg ICMP6.42.9ICMP=*12.2ICMPG=ICMP 数据流量*ICMP()Ft*SYN()Ft 在一个周期内的曲线形状如图 2-6 所示:图 0-6 理想情况下 ICMP 数据包流量的)(*tF曲线 Fig.0-6 The curve shape of ICMP flow in ideal conditions 1.3.2 蠕虫暴发时的情况 冲击波蠕虫冲击波蠕虫(Worm.Welchia)暴发时的网络情况:暴发时的网络情况:在冲击波蠕虫(Worm.Welchia)暴发时,由于冲击波蠕虫会发出大量的 ICMP数据包,考虑冲击波暴发时间段内 ICMP 数据包的变化曲线。图 0-7 冲击波暴发时 ICMP 数据流量 Fig.0-7 The curve shape of ICMP flow when weichia was bursting 表 0-1 冲击波蠕虫暴发时的 ICMP 流量参数 Table 0-1 The parameters of ICMP flow when the worm welchia was bursting 月日 10/10 10/11 10/12 10/13 10/14 ICMPAVG 1628.241 1616.976 1693.515 1318.632 1509.7 ICMPG*14.6 12.5 12.7 18.6 14.8 可以看出,冲击波蠕虫暴发时,ICMP 数据包流量猛增为平时的 50 倍以上,其数量已经达到了对整个网络流量产生影响的程度,而且曲线形状差异超出了预定的范围。由此可以判定在该网络 N 内有相当一部分机器感染了冲击波蠕虫。震荡波蠕虫震荡波蠕虫(Worm.Sasser)被清除时的网络情况被清除时的网络情况 根据上述模型,看一下在震荡波蠕虫(Worm.Sasser)清除时流量的变化过程,由于震荡波蠕虫会发出对网络的 SYN 扫描包,分析震荡波蠕虫清除过程中的SYN 流量曲线。图 0-8 震荡波清除过程中的 SYN 流量曲线 Fig.0-8 The curve shape of SYN flow when the sasser was being destroyed 表 0-2 震荡波清除过程的 SYN 流量参数 Table 0-2 The parameters of SYN flow when the worm sasser was being destroyed 月日 5/9 5/10 5/11 5/12 5/13 SYNAVG 581.6 489.6 526.9 548.7 538.8 SYNG*147.7 138.9 116.5 101.2 112.6 通过以上分析可知震荡波蠕虫在校园网上的传播并不明显,对整个校园网流量没有造成太大的影响,校园网在月日左右对全校进行了处理,从上图可以明显看出,到了 5 月 11 日以后,校园网基本已经恢复了正常。