基于词素特征的轻量级域名检测算法-张维维.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于词素特征的轻量级域名检测算法-张维维.pdf》由会员分享,可在线阅读,更多相关《基于词素特征的轻量级域名检测算法-张维维.pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、软件学报ISSN 10009825,CODEN RUxuEWJournal ofSoftware,2016,27(9):23482364Moi:1013328jcnkijos004913中国科学院软件研究所版权所有基于词素特征的轻量级域名检测算法张维维1,2,龚俭1,2,刘茜1,2,刘尚东1,-,胡晓艳1,21(东南大学计算机科学与工程学院,江苏南京210096)2(江苏省计算机网络重点实验室,江苏南京210096)通信作者:张维维,E-mail:wwzhangnjneteducnE-mail:jOS,iscasaccnhtrp:wwwjosorgcnTel:+8610-62562563摘要:
2、 对网络申DNS交互报文进行检测以发现恶意服务,是网络安全监测的一个重要手段,这种检测往往要求系统能够实时或准实时地发现监测域名中的可疑对象面对庞大的域名集合,若对所有域名使用同样强度的监测通常开销过大通过挖掘域名字面蕴含的词素(词根、词缀、拼音及缩写)特征,提出一种轻量级检测算法,能够快速锁定可疑域名,以便后续有针对性地进行DPI检测实验结果表明:基于词素特征的检测算法比统计n元组频率分布的方法虽然略微增加了583的内存开销,但却具备抗逃避能力以及更高的准确率(相对提高352);与基于单词特征的方法相比,极大地降低了计算复杂度(相对降低648),并减少了26的内存开销,而准确率仅下降25关键
3、词: 网络安全监测娥名检测;词素;字符串切分C45分类器中图法分类号:TP309中文引用格式:张维维,龚俭,刘茜,刘尚东,胡晓艳基于词素特征的轻量级域名检测算法软件学报,2016,,27(9):23482364http:wwwjosorgcrdl000-98254913htm英文引用格式:Zhang ww,Gong J,Liu Q,Liu SD,Hu XYLightweight domain name detection algorithm based on morphemefeaturesRuan Jian Xue BaoJournal of Software,2016,27(9):2348
4、-2364(in Chinese)http:wwwjosorgcrdl000-98254913htmLightweight Domain Name Detection Algorithm Based on Morpheme FeaturesZHANG WeiWeil一,GONG Jianl。,LIU Qianl,一,LIU ShangDon91,-,HU XiaoYanl,2(School of Computer Science and Engineering,Southeast University,Nanjing 2 10096,China)2(Jiangsu Pmvineial Key
5、Laboratory of Computer Network Technology,Nanjing 2 1 0096,China)Abstract:Detecting malicious services via inspecting the content of DNS packets is a common way to network security monitoringSuch a work often requires quasi real time abili!ty to find suspects among the huge collected domain names,wh
6、ich is costly in processingresourcesThis work proposes a lightweight algorithm based on the morpheme features(root,affix,Chinese spelling and special nounabbreviation)of domain names to quickly identify the suspects for targeted DPI detectionCompared with algorithms based on ntuplefrequency distribu
7、tion measurement,the proposed one is proved tO have stronger antiinterference ability and better detection accuracy by352higher while only 583memory overhead increasingWhile compared with the methods based on word featuresthis lightweightalgorithm can cut 648of computation complexily and 26memory ov
8、erhead down with only 2 5accuracy reductionKey words:network securitty monitoring;domain name detection;morphemes;string segmentation;C45 classifierDNS作为互联网的重要基础设施,承载着域名与IP地址间相互映射的重任,网络中各种应用活动都与其密切相关,如电子邮件、网站服务、及时通信、微博等与此同时,域名解析服务也成为各类互联网安全威胁的重 基金项目:国家自z(60973123);国家科技支撑计划(2008BAH37804);国家重点基础研究发展计划
9、(973)(2009CB320505);Foundation item:National Natural Science Foundation of China(60973 1 23);State Scientific and Technological Support PIanProject ofChina(2008BAH37804);National Basic Research Program ofChina(973)If、2009CB320505)收稿时间:201410一1l:修改时间:2015-0302;采用时间:201506-01万方数据张维维等:基于词素特征的轻量级域名检测算法
10、2349要工具,如僵尸网络在其扩散与通信中使用DNS技术定位C&C(命令控制服务器),网络钓鱼和恶意代码下载等通过频繁变更域名对应的IP地址或NS记录隐匿背后真实的服务器目前,检测僵尸网络、钓鱼网站和恶意软件下载等恶意服务最主要的手段还是基于黑名单但是黑名单在维护和更新上存在开销大和及时性差的缺陷,且攻击者常常使用算法自动生成大量的随机域名来躲避检测如Conficker1,2KrakenS】Torpig41等新型僵尸网络,为增强其C&C的可靠性和存活性,使用DomainFluxing技术僵尸通过DGA(域名生成算法)随机产生大量域名,只要其中一个域名能够被解析,就可以与C&C进行通信;此外,垃
11、圾邮件发送者也会在其垃圾邮件中随机生成域名来避免黑名单过滤。为了弥补黑名单方法的不足,基于DNS活动特征的实时检测方法得到了广泛地研究该类算法需要对网络中的DNS交互报文进行实时或准实时的DPI检测,通过挖掘恶意域名有别于合法域名的活动特征以发现恶意服务相关工作有:Chatzis等人依据邮件蠕虫感染主机的DNS MX流量行为在传播地址和流量特征方面具有高度相似性这一稳定特征提出了一系列的邮件蠕虫检测方法15-8;Caglayan根据域名对应的IP地址频繁变更这一基本特征,选取TTL值、A记录数目及其离散程度三方面测度检测FastFlux服务网络【9;Choi等人观测域名查询请求者的群体活动特性
12、(即,大量僵尸主机在很短的时间间隔内集中访问某个域名),实现对僵尸网络及其域名的检测【10-121:Antonakakis在2011年基于从顶级域名服务器获取的DNS交互报文,通过统计域名查询请求者的离散程度以及解析IP地址的信誉值,检测恶意域名131;2012年,又基于同一个僵尸网络的僵尸主机会产生相似的NXDomain流量(失效的DNS查询请求),通过观察域名的字符组成及其查询请求者的相似性来聚类和检测僵尸网络使用的域名14);Bilge通过统计域名查询请求的时间分布、域名映射IP地址的空间分布、TTL时间长短以及域名字面特征,发现恶意域名tt s但是,网络中实际使用的域名数量巨大通过监测
13、流经JSERNET(qb国教育科研网江苏省网)边界的DNS交互报文。两个月(2013年lO月16日12月15日)共观察到l 400万个不重复域名,且平均每天新增域名20万个面对如此庞大的域名集合,若对所有域名使用DPI技术进行实时流量监测,则开销过大一个合理的解决思路是:设计轻量级的检测算法来快速锁定监测目标,以便有针对性地使用更为复杂和更为准确的检测算法轻量级算法需要在有限的系统资源和计算时间内,尽可能多地检测出可疑域名,因此,算法设计优先考虑空间开销和计算复杂度,而检测精度可以由更为复杂和更为准确的后续算法去保证,域名自身字符串包含丰富的词法特征,无论从空间开销、计算复杂度,还是从检测方法
14、的时效性以及数据获取的难易程度看,都适合作为轻量级算法的检测依据现有的域名字面分析技术,主要是通过机器学习方法统计字符串的词法特征(如字符串长度、字母数目、数字数目以及n元组频率分布等)相关工作可以追溯到Ma等人通过统计URL长度、主机名长度、点的数目以及相应的主机特征,检测钓鱼网站和邮件广告使用的恶意URLtl6,|7;Prakash设计实现的PhishNet,为了提高URL黑名单对钓鱼网站的检测效率,一方面通过构造新的恶意URL来扩展黑名单,另一方面,将精确匹配改成近似匹配以提高匹配度【181;其中最具代表性的工作是Yadav等人基于算法生成的域名不会使用可读性的语言文字,从而显现出不同于
15、合法域名的字频分布特征这一观测发现,按照是否拥有相同的二层域名或解析IP地址分组域名,统计每组域名所含二元组(即连续的两个字母或者数字1的频率分布特征,然后借助KL等距离测度检测算法自动生成的域名【l 9,201此外,Khaitan和Srinivasan等人引入自然语言模型研究面向域名的word切割方法21,22l;Marchal基于黑名单中已有的钓鱼域名,借助word切割技术提取和重组域名中的关键字,预测可能出现的新钓鱼域名【2列;Schiavoni扩展语言学特征(域名所含单词的字符比重以及所含元组在字典中的总出现频率)识别算法自动生成的域名,再结合解析IP地址集合间的相似性聚类域名,分离僵
16、尸网络域名组,研究僵尸网络的演变行为【241对于上述提及的两类域名字面分析方法,基于词法特征统计的机器学习方法虽然具有较小的空间开销和计算复杂度,但是攻击者在生成域名时很容易通过事先相应的特征统计逃避检测;而借助自然语言领域的word切割技术从语义层面统计单词特征,可以缓解这种逃逸策略提高检测的准确率,但是需要依赖庞大的语料库(牛津字典和维基百科字典共有52万个词头,且一个单词还可能拥有多种时态和复数形式),具有较高的空间开销和计算复杂度,不满足轻量级算法要求此外,在进行语义分析时也没有考虑中文拼音形式的域名万方数据2350 Journal of Software软件学报V0127,No9,S
17、eptember 20 1 6为此,本文考虑单词内在组成结构,选取构词学中最小的有意义的语言单位“词素”【2 5】作为统计域名语言学特征的基本单元收集A1ex中连续3次排名前1万的域名以及僵尸网络【1-4,27-30】、钓鱼网站【311、垃圾邮件【32】和恶意软件29,30使用过的域名,引入自然语言领域中的word切割技术,以词素作为字符串切分的最小单元,变长切分域名在此基础上,以二层域名标签作为对象,统计其所有三层域名标签中含有词素的平均比重,即,出现在词素中的字符个数占所辖三层域名标签总字符数的比例此外,由于域名越普及,使用越广,其为合法域名的可能性越大,因此,将Alex排名靠前的域名看作
18、合法域名如图l所示,各个点O表示含词素平均比重超过x的对象数目占总体的比例为y实际观测发现:472的Alex合法域名,其三层域名标签含词素平均比重超过95; 只有235的僵尸网络域名、172的钓鱼网站域名、342的垃圾邮件域名和171的恶意软件域名的三层域名标签中含相同比重的词素: 而使用DomainFlux技术的新型僵尸网络域名,其三层域名标签中含词素平均比重均低于70综上所述,与恶意服务使用的非法域名相比,正常服务使用的合法域名更可能使用词素命名其字符串词素作为单词最基本的组成成分,一方面能够延续单词所拥有的刻画域名语言学特征的能力,用于区分合法域名和恶意域名;另一方面,相比庞大的单词库,
19、词素库相对较小(英文常用词根l 240个左右,词缀490个左右,中文拼音409个),满足轻量级算法的性能要求再炎:标签按其一绥foi箍所禽训素j均比重的累秋分布图11nFig1 Cumulative distribution of the secondlevel domain labels according to the average morpheme proportion图l 二层标签按三层标签含词素平均比重累积分布本文依据最小的语言学单位一一词素,设计启发式字符串切割算法快速切分域名,并在二层域名标签聚类的基础上,通过统计域名所含词素的比重、均长和频率分布熵等特征测度,应用有监督的机器
20、学习方法检测恶意服务使用的非法域名为验证算法的可行性,本文基于统一的标准域名集,比较词素特征与已有行元组频率分布以及单词特征的检测能力实验结果表明:词素特征能够有效地刻画域名字面的语言学特征,与以元组频率分布特征相比,可以提高检测准确率,降低假阳性,有效抵挡攻击者借助事前相应特征统计的逃避策略以及借助字典或Kwyjibo工具的随机域名生成策略;与单词特征相比,在保证检测准确率的同时,较小的词素集可以保证算法具有较低的计算复杂度和存储开销最后,实际应用该轻量级算法对中国教育科研网江苏省网边界采集到的域名集进行检测,结果表明:该算法具有较高的检测准确率(872)、较低的内存开销(8014MB的临时
21、内存,271MB的常驻内存开销)和计算复杂度(运行时间1961s)1基于词素特征的轻量级检测算法面对庞大的待测域名集合,本文基于合法域名比恶意域名更可能使用词素命名其字符串的观测发现,以域名字符串为分析对象,通过挖掘其字面包含的词素特征(英语中的词根和词缀、中文拼音以及特殊缩写),提出一万方数据张维维等:基于词素特征的轻量级域名检测算法 2351种轻量级域名检测算法,能够快速锁定恶意服务使用的可疑域名,以便后续有针对性地对DNS交互报文进行实时DPI检测,从而最大限度地降低系统资源开销如图2所示,从总体架构看,该轻量级域名检测算法主要包括4个部分:首先,通过聚类算法将待处理的标准域名集和实测域
22、名集各自划分成组;其次,基于所构建的词素库,设计启发式字符串切分算法快速切分域名;然后,提出一组基于词素的特征测度,针对每一组域名,分别统计测度集合中的每一个测度;最后,应用有监督的机器学习方法,通过标准域名集的训练学习,检测实测域名集中出现的恶意域名标准厂 域 启发 域名堡塞趟r一1名 式字 词素郦聚 符串 特征类 L 切分 统计塞壁惑 r有监督的分类算法Fig2 System architecture of a lightweight domain name detection algorithm based on morpheme features图2基于词素特征的轻量级域名检测算法总体
23、架构11域名聚类算法从形式上看,域名是由点分隔的一组标签构造而成,这些标签具有分层结构的特点为后面叙述的方便,此处统一顶层域名标签、二层域名标签和三层域名标签的概念顶层域名标签,指域名字符串最后的通用域名后缀以及国家后缀(如corn,cn,educn等);二层域名标签,指右边紧挨着顶层域名标签的域名标签;三层域名标签,指右边紧挨着二层域名标签的域名标签如baikebaiducom,corn是顶层域名标签,baidu是二层域名标签,baike是三层域名标签攻击者出于经济利益的考虑,通常只注册一个或若干个二级域名,在此之下,使用域名生成算法自动生成成批的子域名这些域名具有相同的二层域名标签、不同的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 词素 特征 轻量级 域名 检测 算法 张维维
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内