一种基于本体的并行网络流量分类方法-陶晓玲.pdf
《一种基于本体的并行网络流量分类方法-陶晓玲.pdf》由会员分享,可在线阅读,更多相关《一种基于本体的并行网络流量分类方法-陶晓玲.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第 45 卷 第 3 期 电 子 科 技 大 学 学 报 Vol.45 No.3 2016年 5月 Journal of University of Electronic Science and Technology of China May 2016 一种基于本体的并行网络流量分类方法 陶晓玲1,2,韦 毅2,王 勇2,3(1. 桂林电子科技大学认知无线电与信息处理省部共建教育部重点实验室 广西 桂林 541004; 2. 桂林电子科技大学广西高校云计算与复杂系统重点实验室 广西 桂林 541004; 3. 桂林电子科技大学广西可信软件重点实验室 广西 桂林 541004) 【 摘要 】
2、海量网络流量数据的处理与单一节点的计算能力瓶颈这一矛盾导致数据分类效率低,无法满足现实需求。为解决这一问题,结合本体与 MapReduce技术各自在海量异构数据描述与处理方面的优势,提出一种基于本体的并行网络流量分类方法。该方法基于 MapReduce并行计算架构,根据网络流量本体结构,对网络流量本体并行化构建;通过并行知识推理完成基于流量统计特征的网络流量分类。实验结果表明,集群环境下基于 MapReduce的网络流量本体构建效率明显高于单机环境,而且适当增加计算节点使得加速比线性提升;并行知识推理的分类方法能够有效地提高大规模网络流量的分类效率。 关 键 词 知识推理 ; MapReduc
3、e; 网络流量分类 ; 本体 ; 并行化 中图分类号 TP393 文献标志码 A doi:10.3969/j.issn.1001-0548.2016.02.0018 An Ontology Based Parallel Network Traffic Classification Method TAO Xiao-ling1,2, WEI Yi2, and WANG Yong2,3(1. Key Laboratory of Cognitive Radio and Information Processing, Guilin University of Electronic Technology
4、Guilin Guangxi 541004; 2. Guangxi Colleges and Universities Key Laboratory of Cloud Computing and Complex Systems, Guilin University of Electronic Technology Guilin Guangxi 541004; 3. Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology Guilin Guangxi 541004) Abstra
5、ct The contradiction between the processing of mass network traffic data and the computing bottleneck of a single node leads to low efficiency of data classification. To address this challenge, we propose an ontology based parallel network traffic classification method by integrating the advantage o
6、f ontology and MapReduce in dealing with the description and processing of mass heterogeneous data. Our approach makes use of MapReduce, a framework of parallel computing. Firstly, it uses the ontology to describe and manage network traffic data, and constructs the layered and parallel network traff
7、ic ontology. Then it builds the classification model by employing the decision tree algorithm, by which the inference rule set is generated. Network traffic classification based on traffic statistical features is completed by utilizing parallel knowledge reasoning. Implementation results show that d
8、ata classification efficiency of the proposed approach in group environment is higher than in stand-alone scenario. The speedup ratio increases linearly when increasing the quantity of compute nodes. In addition, the new method is able to improve the classification efficiency of large-scale network
9、traffic significantly. Key words knowledge reasoning; MapReduce; network traffic classification; ontology; parallelization 收稿日期:2015 11 21;修回日期:2016 03 15 基金项目:国家自然科学基金 (61163058, 61363006);广西可信软件重点实验室开放课题 (KX201306);广西高校云计算与复杂系统重点实验室开放课题 (14104) 作者简介:陶晓玲 (1977 ),女,副研究员,主要从事云计算、网络安全及机器学习方面的研究 . 作为管理
10、和优化各类网络资源的关键技术,网络流量分类1广泛应用于网络监控、服务质量(quality of service, QoS)管理、网络安全、态势分析等领域,是高效实现网络管理、流量控制以及安全检测的重要环节。随着 Web技术的发展和企业信息化需求的不断提高,许多新型网络应用模式和需求应运而生,网络环境也升级为高速、大规模、复杂网络,随之而来的网络流量数据呈现出新的特点:海量 (数量惊人、信息丰富 )、多源 (数据源分布在离散的,彼此可以通信的多个网络节点上 )、异构 (格式异构、语法异构、语义异构 ),致使网络流量分类面临严峻的挑战。 其一,各个网络节点传感器使用不同的流量采集系统收集网络数据包
11、,在数据生成方式、存放方 电 子 科 技 大 学 学 报 第 45 卷 418式和处理方式上呈现多样化,出现网络流量数据格式不一,类型不同,且不同数据存在语义区分等问题。因此,多个数据源提供的异构网络流量数据之间会存在数据不一致性问题,从而影响网络流量分类结果的准确性。 其二,目前主流的网络流量分类方法是基于流量统计特征的机器学习方法2,因为此类方法需提取高维的流量统计特征,通过复杂的计算构造分类模型,面对海量的网络流量数据,处理时间开销较大,分类效率不高,这使得其不能满足高速网络流量分类的需求。 本体3在信息系统中被定义为一种能在语义和知识层次上描述特定知识领域的形式化技术,具有良好的概念层
12、次结构,对逻辑推理无缝支持,为信息资源规范、无二义性和可扩展性描述问题提供了有效的解决途径。文献 4提出采用本体作为网络流量信息资源的统一描述的思路。 并行处理技术 MapReduce能够为可划分的大规模数据并行计算处理问题提供充分的并行计算语义,已经被普遍接受。该技术为提高网络流量分类中海量数据处理效率问题提供了新方法。因此,基于文献 4,本文借助并行处理技术 MapReduce,提出一种基于本体的并行网络流量分类方法。该方法将发挥 MapReduce在海量异构数据处理方面的优势,为本体的构建、知识管理及推理提供计算资源,用于海量网络流量数据并行处理、分类,为高速大规模复杂网络环境下的网络流
13、量分类提供新思路和理论方法依据。 1 相关工作 1.1 本体及其应用 本体本质上是针对一个特定领域,对领域知识的标准化描述,以便相关领域学者在概念层面上达成共识,相互之间实现知识共享。本体作为一种知识表达的工具5逐渐成为国内外的研究热点。文献6-8主要集中在利用本体进行信息资源描述的模型一致性、逻辑一致性和关系一致性三方面。由此可见,本体为异构数据提供了统一的概念接口,并且独立于数据模式,可以对异构数据进行丰富的语义描述。 本体也被应用于决策支持系统中管理领域知识,并被许多推理机支持,用于实现知识推理9。目前,基于本体的知识推理功能也被应用于分类问题。 文献 10提出了一个基于本体的海洋卫星图
14、像分类模型,构建了基于决策树和专家定制规则的图像本体分类器,该模型的分类准确率达到 92.49%;文献 11将本体应用于轻度认知障碍 (MCI)诊断,提出一种本体驱动的利用磁共振成像 (MRI)自动诊断MCI的方法,并通过对比发现决策树算法更适用于构建推理规则集。 近年来,有少量研究者已尝试将本体应用于网络流的定义及分类模型的建立。 文献 12构建了一个基于本体范例的分类树,首次尝试利用本体对网络流量类别进行标准化定义。 文献 13设计了一个基于流轮廓和本体的在线、自学习网络流量分类模型,此模型比较复杂, 文中也未给出该模型的具体实现。 1.2 海量数据并行处理技术 面向海量数据的处理问题,考
15、虑到单一节点的计算能力瓶颈,研究者们纷纷采用分布式或并行处理的方式来解决此类问题,其中基于并行处理技术MapReduce的海量数据处理方面的工作颇有成效。文献 14-15分别提出了一种基于 MapReduce的分布式 ELM学习模型及训练框架,实验证明,在大数据的学习及训练方面是有效的。 MapReduce技术也被研究者们用于解决海量数据的分类问题。 文献 16提出一种基于类别的集成技术用于分类概念漂移数据流,采用了基于MapReduce的技术提高分类方法的效率和鲁棒性。文献 17指出 MapReduce具有易于开发的可扩展性和容错性,进而提出了一种基于 MapReduce的随机森林方法来处理
16、非平衡大数据的分类问题。 复杂网络环境下,网络链路中不断增加的待处理数据与基于单机的计算机系统处理能力的矛盾日益突出,有少数的国内外学者也将 MapReduce技术应用于网络流量的处理。文献 18提出了一个基于Hadoop平台的网络流量分流并行处理结构,实验验证对于大数据进行分流时,该结构优势显著。文献19提出基于高斯混合模型-隐马尔可夫模型的网络流量分类方法,模型使用了两个数据包级属性来构建,实现了一个基于 MapReduce的并行分类架构,并验证了模型具有灵活性。 2 基于 MapReduce的网络流量本体 构建方法 本文采用文献 4设计的分层的网络流量本体结构。首层包括网络流量采集节点信
17、息和流量信息。其中,流量采集节点的下一层记录流量采集节点的相关信息,包括网络软硬件设备信息、流量采集工 第 3期 陶晓玲,等 : 一种基于本体的并行网络流量分类方法 419 具及节点的配置参数;流量采集工具的下一层记录各流量采集节点的各种流量采集工具名称以及流量采集信息格式。而流量信息的下一层记录网络流量的相关信息,包括网络流量实例集合、流量统计特征集合、流量所属应用类型及协议;流量所属应用类型的下一层描述各种应用类型。 2.1 网络流量本体并行构建模型 MapReduce的任务分解规约的分布式计算模式在 Google 系统上得到很好的验证,而且以MapReduce思想设计的语义推理算法也已经
18、被证明是有效的20。因此,面向海量的网络流量数据本体构建,本文采用 MapReduce作为并行处理技术,实现实时、在线的网络流量数据并行集成。基于MapReduce的并行化网络流量本体构建模型如图 1所示。采用基于 MapReduce的语义映射方法,根据网络流量本体结构,实现网络结点流量数据到本体的完整映射,为网络流量分类模块提供访问和操作数据的统一接口。 网络节点流量数据 MapReduce 网络流量 本体 1 网络流量 本体 2 网络流量本体 m网络流量分类模块 网络流量数据的统一描述与标识 图 1 基于 MapReduce的网络流量本体构建模型 2.2 方法的设计与实现 为实现从网络流量
19、信息采集到流量信息资源本体描述流程一体化,依照 MapReduce的架构,将 Map函数设计成流量信息采集器, Combiner设计成流量过滤与整合器,将 Reduce函数设计成网络流量本体构建器,通过整个 MapReduce完成从网络采集节点到网络流量本体的完整映射,实现对网络流量本体构建并行化。 该方法实现的具体步骤如下。 令 Ni(1 i n)表示第 i个网络节点 ID, IPi表示第 i个网络节点的 IP, Ii表示第 i个网络节点的相关信息,Fj(1 j m)表示第 j条网络流量标识, Oj表示第 j条网络流量的本体。 MNF表示从网络节点流量数据到网络流量的映射, RFO表示从网络
20、流量到网络流量本体的映射。 1) 根据每个网络节点启动对应的 Map函数,其中,每个 Map函数以键值对 作为输入; 2) Map函数根据 IPi操作网络节点,收集网络节点相关信息 Ii, 并调用网络流量采集工具捕获网络数据包 ,然后将采集到的所有资源传入 Combiner中间结果; 3) Combiner根据过滤规则提取所需网络流量信息, 并将数据包整合成网络流量 Fj, 以键值对 的形式传给 Reduce函数,此时,传向 Reduce函数的每个键值对就对应着一条完整的网络流量信息。该步骤完成网络节点到网络流量的映射 MNF: Ni Fj; 4) Reduce函数根据接收到的键值对计算流量统
21、计特征,并用本体语言 OWL做统一资源描述,借助本体建模工具 Protg的 API, 完成网络流量本体的构建。该步骤实现网络流量到网络流量本体的映射RFO: Fj Oj。 3 基于知识推理的并行分类方法 3.1 知识推理的并行分类框架 针对上一节构建的网络流量本体,提出一种基于知识推理的并行网络流量分类方法。该方法利用本体支持知识推理的特性,通过知识推理挖掘出本体中概念、属性间的隐含关系;考虑到大规模复杂网络下网络流量是海量的,要实现在线流量实时分类, 则必须借助并行处理技术, 建立基于 MapReduce的并行知识推理引擎,实现网络流量实例与所属应用类型之间的对应关系,即对网络流量进行分类。
22、该方法的框架如图 2所示。 网络流量本体规则库 分类模型训练样本并行知识推理 网络流量信息资源分类结果 本体描述知识 推理 构建规则机器学习图 2 基于知识推理的并行网络流量分类框架 由图 2可以看出, 方法采用的知识推理是一种基于规则的推理。首先通过机器学习算法训练传统分类模型,接着分析分类模型的内部结构,将其转换成可供本体做知识推理的规则集形式,然后以网络流量本体作为推理对象,将本体和规则集一并输入并行知识推理引擎, 使得本体基于规则集做出推理,自动对本体中流量实例的应用类型进行标注,最终 电 子 科 技 大 学 学 报 第 45 卷 420得出分类结果。 3.2 并行知识推理引擎的设计与
23、实现 为了能处理海量的网络流量本体推理,高效地执行推理过程,将采用 MapReduce并行处理技术构建并行知识推理引擎。该引擎可以直接处理网络流量本体,即以未被标记应用类型的网络流量本体为输入,通过结合推理规则集对本体进行推理,得到网络流量的应用类型,最终将属于同一应用类型的网络流量作为输出,完成网络流量本体到网络流量类别的映射,实现对网络流量的分类。 并行知识推理的实现步骤如下。 令 Oj(1 j n)表示第 j个网络流量本体分片,FIl(1 l p)表示第 l个网络流量实例标识 (对应于第 l条网络流量 Fl), S表示推理引擎中的规则集, Lk(1k m)表示第 k类 (指应用类别 )流
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 本体 并行 网络流量 分类 方法 陶晓玲
限制150内