DNS数据挖掘与搜索引擎技术相结合提升网络安全.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《DNS数据挖掘与搜索引擎技术相结合提升网络安全.docx》由会员分享,可在线阅读,更多相关《DNS数据挖掘与搜索引擎技术相结合提升网络安全.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、DNS数据挖掘与搜索引擎技术相结合提升网络安全 2011年6月21日 15:42 电信技术 作者:杨世标 王晶晶 梅汝鹏 1 前言随着网络应用的日益普及和复杂化,互联网信息呈现爆炸式增长,已经渗透到日常生活的方方面面,安全事件不断出现,信息手段日益翻新,网络与信息安全越来越成为人们关注的重点。如何快速、准确和全面地查找存在安全隐患的网站和页面,对提高网络安全级别、净化网络环境有着重要意义。当前针对网站的安全监控主要是借助于第三方网关探针在硬件上实施部署,这种方式的不足之处在于以下4个方面。(1)采用网络抓包方式,只能检测IDC机房内部的IP,属于被动检测,需要网站有访问时才能检测到。(2)只能
2、部署在IDC网关出口处,硬件成本较高。(3)无法针对专线用户进行检测。(4)无法对动态ADSL线路的网站进行检测。针对以上问题,广东联通提出了使用搜索引擎技术结合DNS数据挖掘实现对网络信息安全全面、准确的防控方案,其原理及意义如下。利用搜索引擎技术结合DNS服务器日志数据分析,实现海量域名数据挖掘,形成全球域名基础数据库,通过对海量的域名信息自动获取、特征匹配、智能分类、敏感词提取、自动安全评级、热点信息追踪、舆情分析、并建立网站黑名单等,实现对网站信息的安全监控。搜索引擎技术和DNS数据挖掘的相互弥补可以保证域名基础数据的完整性与实时性,降低部署成本,通过对扫描域名网站的分类和分级可实现对
3、指定类别、特征的网站的定向扫描,提高扫描的针对性与准确性,并缩短扫描周期。2 技术介绍 2.1搜索引擎技术2.1.1搜索引擎技术搜索引擎技术是仅次于门户的互联网第二大核心技术,要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,具有综合性和挑战性。伴随互联网的普及和网上信息的爆炸式增长,它越来越引起人们的重视。搜索引擎技术的作用表现为如下几个方面。(1)可以作为定向收集网络数据的一种方式,实现途径是通过网络蜘蛛进行抓取。(2)可以实现对网站及网页数据的分析,为用户搜索互联网信息提供基础数据和数据索引。(3)可以作为研究网民行为的有效
4、工具,通过收集用户网上登录、搜索、社区行为等信息,对用户的上网行为习惯等进行分析。2.1.2网络蜘蛛技术网络蜘蛛是一个自动抓取网页的程序,为搜索引擎从互联网上下载网页内容,并对内容进行数据挖掘,提取出所需要数据,是搜索引擎技术的核心。传统网络蜘蛛从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,同时分析页面上的其他信息,获取系统所需信息,并存储到数据库中,直到满足系统的一定停止条件时停止抓取。网络蜘蛛从抓取方式上可分为通用蜘蛛和聚焦蜘蛛。常见的搜索引擎所用的蜘蛛都属于通用蜘蛛,特点是追求数据的完整性及覆盖的全面性。聚焦蜘蛛是为
5、了满足特定范围的数据需求,进行定向地抓取。2.2 DNS服务器数据挖掘目前市场上主流的DNS服务器一般采用Unix/Linux+BIND解决方案,BIND在DNS服务软件领域保持着80%以上的市场占有率,Unix平台也以其出色的性能在网络服务领域占据重要的位置。通过对DNS访问日志的分析,提取出所有被访问网站的域名和IP地址等信息,对域名基础数据库进行补全,并通过接口找到网站的具体物理位置,分析网站是否已在工业和信息化部备案供工作人员查询。根据DNS服务器的种类及配置的区别,其日志数据的格式也各有不同,对此需要针对不同的DNS服务器日志提供不同的日志分析模块进行处理。2.3搜索引擎技术与DNS
6、数据挖掘结合的域名信息采集 搜索引擎技术预PNS数据挖掘相结合的域名信息采集系统如图1所示。网络蜘蛛终端服务器通过部署网络蜘蛛系统收集大量域名信息,提交至域名基础数据库。DNS服务器将实时的DNS日志提交至数据分析服务器,数据分析服务器通过数据处理提取出最近访问的域名信息,将域名等信息提交至域名基础数据库。蜘蛛抓取域名和DNS收集域名两者结合实现了全面性和实时性的互补,能够显著提高域名信息收集的完整性。3 设计方案 3.1 网络蜘蛛系统3.1.1网络蜘蛛的瓶颈与解决方案网络蜘蛛的理想状态是能够快速、有效地遍历整个待抓取区域的网页内容,蜘蛛的效率主要受网络延时、抓取算法、抓取策略、数据存取方案及
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DNS 数据 挖掘 搜索引擎 技术 相结合 提升 网络安全
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内