《基于大数据技术的网络日志分析系统研究-任凯.pdf》由会员分享,可在线阅读,更多相关《基于大数据技术的网络日志分析系统研究-任凯.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2叭6年1月15日第39卷第2期现代电子技术Modem Electronics TechniqueJan2016V0139 No2doi:1016652jissn1004-373x201602011基于大数据技术的网络日志分析系统研究任凯1,邓武2,俞琰3(1南京大学金陵学院,江苏南京210089;2大连交通大学软件学院,辽宁大连 116028;3东南大学成贤学院,江苏南京210088)摘要:传统的日志分析技术在处理海量数据时存在计算瓶颈。针对该问题,研究了基于大数据技术的日志分析方案,即由多台计算机完成日志文件的存储、分析和挖掘工作:连 了一个分层的网络日志分析系统:Syslog完成日志采集
2、,Hadoop负责分布式存储和并行计算,在MapReduce框架下重新实现了IP统计算法。实验结果表明,在数据密集型计算中使用大数据技术可以明显提高算法的执行效率和系统的可扩展性。关键词:大数据;日志采集;MapReduce;日志分析;IP统计中图分类号:TN91534 文献标识码:A 文章编号:1004373x(2叭6)02003903Research on network log analysis system based on big data technologyREN Kai。,DENG Wu2,YU Yan3(1 Jinling CoIlege,Nanjing uniVersiy,
3、Nanjing 2I0089China;2sonware InsliIute,Dalian Jiaolong u njversily,DaIian 116028,chjna3Chenxi彻Colleage,Southeast Unive商y,Nanji“g 210088,China)AbStraCt: There is a calculation bottleneck when traditional log analysis technology processes the massive dataTo s01vethis problem,a 109 analysis solu“on bas
4、ed on big data technology is proposed in this paperIn this solution,the log file storage,analysis and mining tasks will be decomposed on multiple computersA layered network log analysis system was established,inwhich Syslog fulfils the Iog acquisition, Hadoop is responsible for distributed storage a
5、nd parallel calculation,and IP statisticsalgorithm is realized with MapReduce technologyThe experimental results show that the use of big data technology in data-inten-sive computation can s培nificantly improve the execution emciency of algorithms and scalability of the systemKeywords:big data;log ac
6、quisition;MapReduce;log analysis;IP statistics0 引 言随着信息化建设的多年发展和逐层推进,大型企业在内部网络中积累了大量的软硬件资源,包括:交换机、路由器、防火墙、PC服务器、Unix小型机、各类业务应用系统、中间件、数据库等。这些计算机设备和网络设备持续不断地记录了大量的日志。日志文件作为硬件设备、系统和用户行为的记录工具,在监控网络运行情况、调查设备故障、保护系统安全等方面有着举足轻重的作用。通过分析日志文件,能够获取有关设备故障、用户异常行为、网络运行状况等信息,有利于及时处置网络安全事件和软硬件故障,保证网络的稳定性和安全性。在大型企业的
7、内部网络中,日志源众多、格式不一、体量庞大,长期存储的数据量可达TB或者PB级别。传收稿日期:2叭50827基金项目:国家自然科学基金项目(U1433124)统的日志分析系统使用单机技术处理海量数据,在存储和计算两方面都遇到了瓶颈。为了解决这些问题,近年来大数据技术被广泛应用。作为Google MapReduce口1和GFS川技术的开源实现,Apache Hado叩集成了数据存储一、数据处理、系统管理等功能,已经成为大数据领域事实上的标准一,特别适合于大数据的搜索、挖掘、分析和机器学习16l。本文提出分层的网络日志分析系统,并详述了日志采集流程和实现方案,之后提出了一种基于MapReduce编
8、程模型的IP统计算法,最后进行算法实验和效果分析。实验证明,基于大数据的日志分析技术具有更好的时效性和可扩展性。1 网络日志分析系统11 功能架构在大数据系统中,日志是广泛使用的数据采集方法之一。它具有4V特征:Volume,数据体量巨大;vari万方数据现代电子技术 2016年第39卷ety,数据类型多样;Velocity,数据生成快速;Value,数据价值大但密度低。为了应对日志的大数据特性,结合日志数据的存储和分析流程,本文给出网络日志分析系统的分层架构,由日志源层、采集层、存储层、业务层、显示层组成,如图1所示。旦等嬲 罱昌 “JMo-喜璺璺擎士艘囤基如图1 分层的网络日志分析系统日志
9、源层:由企业内网中的计算机软硬件和网络设备构成,它们源源不断的产生各种日志记录。采集层:由一个或多个日志采集服务器构成,主要完成日志记录的接收和存储。由于HDFs无法有效处理大量小文件,日志服务器需要将较小的日志文件归档合并成大文件后,再发送给存储层。存储层:存储层负责对原始日志和统计分析结果进行分布式存储。它的底层采用HDFS文件系统,配置海量的存储空间;dfsreplication参数一般设置为3(也无需设置更大),保持数据的多个副本,这样能够可靠、持久的存储非结构化数据。基于HDFS的HBase用于存储结构化和半结构化数据,作为Google Bigtable吲的开源实现,它的列式存储特性
10、能向上层提供更好的并行计算支持。原始日志主要存储到HDFS中,统计分析结果既可以存人HDFs也可以存人HBase中,HBase在满足大数据存储的同时,能够提供低延迟的数据访问。业务层:由各种日志分析程序构成,主要解决日志数据如何统计分析的问题。根据统计分析作业定制的功能需求,主要包括三种形式:MapReduce作业、Streaming作业和Hive作业。为了利用云计算并行执行的特点,传统的数据挖掘算法(如统计、归并规则、分类、聚类)必须使用MapReduce编程模型重新设计实现(称为MapReduce化)。Steaming作业可以使用Python、awk等语言开发MapReduce程序。Hiv
11、e是Facebook开发的构建在HDFS之上的数据仓库应用,它提供类似于SQL的HiveQL(Hive Query Language)查询分析功能,经过对HiveQL语句进行解析、转换、优化,最终生成多个MapReduce任务运行,提供部分与传统RDBMS一样的表格查询特性和分布式计算特性,使用者不用开发程序即可完成一些即查即用的临时统计分析任务。显示层:对业务层的处理结果进行再处理并通过界面显示。业务层的处理结果仍然存放在Hadoop集群中(HDFS或HBase),需要进行提取、分析、转换,最终以图、表、文字等形式展现到前端页面。日志数据的异地多备份存储和管理功能由日志源层、采集层、存储层完
12、成;日志分析和数据挖掘功能由存储层、业务层、显示层完成。存储层和业务层依托Hadoop平台实现分布式存储和并行计算,物理形态采用MasterSlave工作结构。12 日志采集与存储大型企业的内网中存在各类软硬件设备,这些设备每天产生大量日志,日志种类多样、格式不一、存储分散。有些设备以队列模式处理日志文件,受限于文件大小,旧记录会被新纪录覆盖;如果出现磁盘损坏、病毒、木马攻击等意外事件,也有可能导致日志数据丢失;日志的分散存放使得管理员需要反复登录不同的系统才能了解设备的运行状况,严重影响工作效率,网络规模较大、设备较多时,监控工作几乎无法完成。为了解决上述问题,同时考虑到安全性、可靠性、便捷
13、性,日志采集层需要将所有日志文件汇总、统一存储、妥善保管,并能为统计、分析、查询等上层业务提供便利。本系统采用Syslog日志服务器完成日志数据的采集与存储功能。Syslog日志系统是加州大学伯克利分校BSD Unix的日志工业标准协议”01。绝大部分计算机系统和硬件设备都支持Syslog协议,许多日志函数库(如L094j)和第三方软件(如Tomcat)也已采纳Syslog协议。Syslog协议支持纯文本的标准日志格式,对于设备发生的一次事件,syslog产生一行记录,它使用uDP传输协议,通过默认的514端口,将设备的日志数据推送到远端的日志服务器,日志服务器接收日志数据并写人文件系统。绝大
14、部分的日志源设备使用Syslog协议不需要安装软件,只须进行简单配置:(1)Uni】【,Linux系统在“,etcsyslogconf文件中配置sysIog日志服务器的IP地址;(2)网络设备(交换机、路由器)的日志一般都能支持Syslog协议,只要打开日志模块的远端发送功能,正确配置日志服务器的IP地址;(3)安全设备(如防火墙)也都采用Syslog协议,开昌口亘蝥 爹万方数据第2期 任凯,等:基于大数据技术的网络日志分析系统研究 41启syslog功能并设置日志服务器IP地址即可;(4)windows系统需要借助第三方软件Evtsys完成日志转发功能。通过设置一个syslog日志服务器,可
15、以将不同设备发送的日志,统一汇总到一个独立的位置,并进行进一步的清洗、分类、统一格式等预处理操作,当需要统计、分析日志时,可以很快地推送到HDFS中,作为业务层的输入数据。2并行日志分析算法DoS及DDoS攻击会使服务器高负荷运转,最终导致正常服务瘫痪。对服务器的访问日志中各IP地址的请求次数进行统计,获取请求次数频繁的IP地址是检测攻击源、防御攻击的有效方法。服务器的访问日志包含较多数据信息,日志文件通常达到GB数量级,传统的单机模式统计算法时效性很差。这里借助于MapReduce并行计算的特点,将传统单机算法改进为并行算法,称之为基于M印Reduce的IP统计算法(IP Statistic
16、sbase M印Reduce,IPStats-M R)。日志数据以文件形式存入HDFS,Map函数对每一行日志数据进行分析,提取申请访问服务器的源IP,输出的Kevvalue是:sourceIP1。Reduce的输入是相同的SourceIP,将其累加,输出的KeyValue是:SourceIPn,它表示同一个IP对服务器的请求次数。IPstatsMR算法步骤如下:map(key,Value)emit(valueSourceIP1)reduce(key,values【v1;v2;】)i=0for valin valuesv1;v2;】i+emit(key,i)3实验与效果评价网络日志分析系统由8
17、台普通PC(Inteli5 32 GHzCPU、4 GB RAM)组成,其中l台为Master,6台为Slave,1台为syslog日志服务器。安装软件为:centos 55,Had00p 102,HBase O921,HiVe 090。实验1:加速比实验该实验衡量并行算法的执行效果和性能。首先定义加速比(Speedup)的概念,如式(1)所示:S。=Lr。 (1)式中:L是IPStatsMR算法在n个Slave组成的集群上运行的时间;孔是只启动1个slave时算法所运行的时间。分别完成4组实验:启动1个,2个,4个或6个Slave。实验结果如图2所示,它显示了数据集固定时,不断增加计算节点对
18、并行算法的性能影响。图2 IPStatsMR算法的加速比曲线图由于M印Reduce框架会将计算工作分配到n个slave上,理论上每增加一个计算节点,运算速度应该加快l倍。但从图2可以看出,实际情况没有达到这个效果。主要原因是各节点之间的通信、同步、调度等额外开销,而且节点越多,上述开销也越大。不过即使如此,加速比也基本接近线性增长。实验2:等效度量实验该实验评估增大问题规模对并行算法的性能影响。加速比的最大值是计算结点数佗,但由于额外开销的影响,实际上加速比s。小于n,因此用等效度量指标(ISOefficiencv)反映加速比接近n的程度,如式(2)所示:E=鲁=而万 (2)n l+。,式中:
19、死为系统并行处理所引起的额外时间开销。实验在启动2个、4个或6个slave的情况下,对不同的数据规模(日志文件大小分别为38 GB,8 GB,20 GB)运行IPstatsMR算法。实验结果如图3所示,随数据规模增大,等效度量指标提高;随slave个数增加,等效度量指标降低。但随着数据规模、Slave个数同时增加,等效度量指标保持常数。2个slave处理38 GB日志文件,4个Slave处理8 GB日志文件,6个slave处理20 GB日志文件,等效度量指标E都保持在075左右。这说明当系统处理的数据增多时,能通过计算节点的增加来弥补性能的损耗,即IPStatsMR算法表现出良好的可扩展性。图
20、3 IPStatsMR算法的等效度量曲线图(下转第44页)6543210厶jT)u已万方数据现代电子技术 2016年第39卷33控制管理模块设计与实现控制管理模块主要进行信息配置的读写、审计以及人工控制等,运作流程为开始一初始化建立socket连接一读取客户端信息一分析客户端命令_客户端关闭连接一结束。在防火墙工作中会产生大量日志,长时间可能影响系统运行,设计通过缓存设备应用、过滤以及日志队列方式实现日志系统控制,采用共享内存结构struct shinstreet实现。4 结 语对系统运行措施,防火墙用Linux系统配置,采用Snort入侵检测系统,攻击软件模拟采用NMAP64,捕捉和分析联动
21、系统启动后的数据,观察联动系统工作情况。利用攻击进行扫描攻击测试,利用主机发动攻击。测试结果表明,主机受到攻击,检测到TCP扫描,将警告发送到中心主机,得到告警日志,联动中心将事件给防火墙,按照要求生成相应规则,防火墙阻断向主机攻击数据,测试结果总结见表1所示,设计系统能够有效拦截多种攻击行为,适应性和实用性都很好。表1测试结果表参考文献【1】杨静校园网安全策略:IDs与防火墙联动【J】电脑知识与技术,201410(1 1):25202522【2】姚东铌分布式蜜罐技术在网络安全中的应用【J】电子测试,2014(15):1341363】彭沙沙,张红梅,卞东亮计算机网络安全分析研究【J】现代电子技
22、术,2012,35(4):109112【4】胡颖群基于Linux平台防止IP欺骗的SYN攻击防火墙的设计与实现J计算机测量与控制,2013(7):18801881【5】左伟志防火墙与IDs联动在校园网部署的研究与应用【D长沙:湖南大学,2叭4【6】吴凯探讨网络安全技术中防火墙和IDs联动的应用分析【J】网络安全技术与应用,2叭4(1):31作者简介:马小雨(1978一),男,河南郑州人,讲师,在读博士。研究方向为计算机网络与安全:(上接第4l页)4 结 语网络日志的分析与挖掘技术在信息安全领域有着广泛的应用。传统的单机运算模式及算法在处理当前的海量数据时,暴露出诸多缺点。本文依托大数据技术,提
23、出分层的网络日志分析系统,对传统的IP统计算法进行了MapReduce化。实验结果表明,大数据平台在处理数据密集型计算方面具有性能优势,能有效解决海量数据处理的伸缩性和实时性问题。参考文献【l】姜传菊网络日志分析在网络安全中的作用【J现代图书情报技术,2004(12):58602】DEAN J,GHEMAWAT SMapReduce:simplified dala processing on large clusters J Communications of the ACM,20085l(1):107113f3】GHEMAWAT S,GOBl0FF H,LEUNG S TThe Google
24、 file+p+p-+一-+-+-+-+-+十+-+一-+一-一-+一-+-F-+一-systemJ】ACM SIGOPS 0perating Systems Review,2003,37(5):29434】SHVACHK0 K,KUANG H,RADIA S,et a1The Hadoop dist“buted file system【C】,20 l 0 IEEE 26th Symposium on MassStorage Systems and Technologies (MSST) 【S1】: IEEE,2010:l105】孟小峰,慈祥大数据管理:概念、技术与挑战J】计算机研究与发展,2
25、013(1):1461696孔世明基于最小生成树聚类算法在云计算平台下的设计与实现【J】科技通报,2013,29(8):100102【7】李学龙,龚海刚大数据系统综述J】中国科学:信息科学,2叭5(1):14【8】陈超,张顺仕,尚守卫,等大数据背景下电力行业数据应用研究【J】现代电子技术,2013,36(24):8一11【9】CHANG F,DEAN J,GHEMAWAT S,et a1Bigtable:A dis-tribuIed storage system for stnlctured dataJACM Transaclions on Computer Systems,2008,26(2):49【10】李锦川,钱秀槟,方星基于国产操作系统的网络日志管理系统构建【J】计算机安全,2010(10):5961作者简介:任凯(1979一),女,江苏扬州人,讲师,工学硕士,工程师。主要研究方向为分布式计算与数据库邓 武(1976一),男,四川资阳人,副教授,博士。主要研究方向为计算智能。俞琰(1972一),女,浙江人,讲师,博士。主要研究方向为社会网络、数据挖掘。万方数据
限制150内