基于特征统计的网页隐秘信息检测.pdf
《基于特征统计的网页隐秘信息检测.pdf》由会员分享,可在线阅读,更多相关《基于特征统计的网页隐秘信息检测.pdf(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、湖南大学硕士学位论文基于特征统计的网页隐秘信息检测姓名:黄俊伟申请学位级别:硕士专业:计算机软件与理论指导教师:孙星明20080513硕士学位论文 II摘 要 信息隐藏与隐秘信息检测的研究已成为全球互联网时代信息战的一项重要内容。信息隐藏技术虽然能使隐蔽通信更加安全,但信息隐藏技术的非法滥用对国家的安全、社会的稳定造成了严重的威胁,严重影响了经济的可持续性发展。因此,对隐秘信息检测的研究已迫在眉睫。网页隐秘信息检测技术是检测网页中是否含有隐秘信息的技术。网页是因特网信息发布的主要载体之一,它有着即时动态且数量众多等特点,再加上出现了许多易用和便利的网页信息隐藏工具,不法信息极易通过网页进行传递
2、。因此研究能监控非法信息传递的网页隐秘信息检测技术不仅具有广阔的应用前景,而且对维护国家安全和社会稳定,保证经济的可持续性发展具有十分重要的意义。本文以静态网页(简称网页)为研究对象,系统地研究了网页中的隐藏算法、隐秘信息检测算法和因特网中网页隐秘信息的搜索与检测技术。主要研究成果如下:(1)通过对网页信息隐藏算法的深入研究,发现网页中的许多隐藏信道有着共同的特征,在嵌入隐秘信息后这些特征也会相应的做出大幅度变化。因此本文提出一种基于特征统计的网页隐秘信息检测算法。该算法利用这些特征,设计了一个统计判别模型,通过此模型可以对正常的网页和含有隐藏信息的网页进行有效的区分。试验结果表明,算法虚警率
3、低,检测率高。此外这种算法实现简单,适用性强,能对多种隐藏信道进行检测。(2)对传统网络爬虫加以改进,实现了基于网络爬虫的隐秘网页主动搜索与检测系统WebDetector。系统集成了本文提出的网页隐秘信息检测算法,能长时间稳定的运行于网络中,主动搜索和检测网络中网页的隐秘信息。关键词:信息隐藏;隐秘信息检测;隐写术;隐写分析;网页;统计;网络爬虫 基于特征统计的网页隐秘信息检测 III Abstract In the Internet Age,the research on information hiding and detection of hidden information has b
4、ecome an important means in information warfare.Information hiding makes covert communication safer.However,the abuse of this technology may pose a serious threat to national security,social stability,and economic development sustainability.Consequently,it is an urgent task to study the information
5、hiding and detection of hidden information.The technology of detecting hidden information in webpage is point to detect webpage whether it contains hidden information or not.Webpages are the main carrier of information released on the Internet and they are dynamic and numerous.Illegal messages can b
6、e transmitted by hiding within webpages with the help of a multitude of easy and quick information hiding tools.Thus,studies on webpage information hiding and detection of hidden information to protect personal privacy,monitor illegal message transmission and prevent illegal messages from revealing
7、through webpages have broad prospects as well as important implications to protect national security,maintain social stability,and ensure sustainable economic development.This thesis is a systematic research on information hiding algorithms and detection of hidden information algorithms for static w
8、ebpage(webpage for short),and searching and detecting stego-webpages on the Internet.The main contributions are summarized as follows.(1)Through a thorough study of information hiding algorithms,it is found that covert channels in webpages have common features,and those features will be remarkably c
9、hanged after secret messages are embedded.Based on the statistics of the changes,a new detection algorithm is proposed to detect hidden information in webpages.The detection model is a statistical determination model based on the statistics of the changes,which can efficiently differentiate normal w
10、ebpages and stego-webpages.The experimental results show that this algorithm has a low false negative rate and a high detection rate.Besides,this algorithm is simple to carry out and capable to detect a variety of covert-channels.(2)Based on web crawler,an active search system“Web Detector”is develo
11、ped 硕士学位论文 IVto search and detect the stego-webpages on the Internet.The detection system integrates the detection algorithm presented in this thesis and it can run in the network stably for a long time to conduct active search and detection for stego-webpages.Key Words:Information Hiding;Detection
12、of hidden information;Steganography;Steganalysis;Webpage;Statistic;Web Crawler 基于特征统计的网页隐秘信息检测 VII 插图索引 图 1.1 论文结构图.5 图 2.1 信息隐藏模型.7 图 2.2 隐秘信息检测模型.7 图 2.3 检测器 ROC 平面.8 图 2.4 HTML 源代码格式说明.11 图 2.5 不可见字符信息隐藏.13 图 2.6 标记大小写信息隐藏.14 图 2.7 搜索策略.17 图 3.1 二进制串转化为“八进制串”.19 图 3.2 iG值与嵌入率的关系.21 图 3.3 标记字母转化为二
13、进制字符串的过程.23 图 4.1 隐秘图像载体与秘密图像.28 图 4.2 WebDetector 的系统结构.30 图 4.3 网络爬虫模块(Detector Crawler)结构图.31 图 4.4 键树的存储结构.37 图 4.5 WebDetector 系统演示图.38 图 4.6 WebDetector 的工作模式.39 图 4.7 WebDetector 的检测结果.39 硕士学位论文 VIII附表索引 表 2.1 因特网上的网页信息隐藏软件.15 表 2.2 现有网页信息隐藏技术的安全性分析.16 表 3.1 正常网页的虚警率.24 表 3.2 针对隐写工具(InfriHide
14、)的检测率.24 表 3.3 针对隐写工具(WbStego)的检测率.25 表 3.4 实验样本测试结果.25 表 3.5 针对单双引号替换的虚警率.25 表 3.6 针对单双引号替换的检测率.25 表 4.1 网页层数与数量对照表.31 表 4.2 WebDetector 的性能.40 I 湖 南 大 学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担
15、。作者签名:日期:年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 1、保密?,在_年解密后适用本授权书。2、不保密?。(请在以上相应方框内打“?”)作者签名:日期:年 月 日 导师签名:日期:年 月 日 硕士学位论文 1第 1 章 绪 论 1.1 课题来源 本课题来源于国家自然科学基金项目文本数字水印及文本信息安全研究(编号:6
16、0373062)、国家自然科学基金重点项目文本内容安全研究(编号:60736016)、国家信息安全课题文本隐秘信息检测和图文隐秘信息分析的部分研究内容。1.2 研究背景 隐 秘 信 息 检 测(Detection of Hidden Information)是 信 息 隐 藏(Information Hiding)的对抗技术。信息隐藏14是利用数字媒体信号本身存在的冗余,将秘密信息隐藏在冗余信号中,在不影响载体的感观效果和使用价值的前提下,不被人的感知系统或计算机系统察觉到其中的秘密信息,以保证秘密信息的传输。而隐秘信息检测58是研究如何破解信息隐藏的技术,其目的是发现载体中的隐秘信息并过滤掉
17、这些信息。两者是辩证统一的关系,两者相互对立又相互依存,互相促进与发展。早期加密技术能在一定程度上保证信息本身的安全,但是加密后的信息往往是混乱无序的,在信息传输过程中更容易引起攻击者的注意。信息隐藏技术就是在此情况下发展而来的。相对于传统的加密技术,信息隐藏技术可以达到隐藏“重要信息正在传输”的事实,以迷惑攻击者。信息隐藏技术的最早应用可追溯到古希腊的历史学家希罗多德(约公元前485年公元前425年)记载的有关“野兔”和“奴隶的光头”的两个故事。此外,我国古代的藏头诗其实也是运用了此技术。第一次世界大战和第二次世界大战也有此技术应用的痕迹,如显微点技术、隐形墨水等2。信息隐藏技术主要包括数字
18、水印(Digital Watermarking)914和隐蔽通信(Covert Communication)两方面的研 究。前 者 用 于 保 护 数 字 媒 体 知 识 产 权 和 认 证。后 者 也 叫 做 隐 写 术(Steganography)8,13,14,用于保密通信。隐写术以图像、视频、音频、文本等数字媒体作为载体,把要传输的秘密信息嵌入到普通载体的冗余信号中,以不引起第三方注意的方式通过公共信道,特别是互联网进行传递,从而实现隐蔽通信。自1992年国际上正式提出信息隐形性研究以来,信息隐藏技术便成为信息安全技术领域的一大研究热点118。1996年在英国剑桥牛顿研究所召开的第一届
19、国际信息隐藏学术研讨会(International Workshop on Information Hiding,IH)是信息基于特征统计的网页隐秘信息检测 2隐藏自此作为一门新学科而诞生的标志。信息隐藏学术研讨会是研究信息隐藏技术最重要的国际会议,至今已在英、美、德等西方发达国家举办了九届。其它有影响力的国际顶级会议如多媒体安全会议(ACM MM&Sec)、数字水印国际学术会议(IWDW)、SPIE水印和多媒体安全会议、智能信息隐藏与多媒体信号处理会议(IIHMSP)、IEEE图像处理国际会议(IEEE ICIP)、IEEE声学与信号处理国际会议(IEEE ICASSP)、ACM计算机与通信
20、安全会议(ACM CCS)等也对信息隐藏技术进行了探讨。一些国际权威学术期刊(IEEE Signal Processing,Communications of the ACM等)都相继出版了有关信息隐藏技术的专题。当前国外对信息隐藏技术进行研究的机构既有政府部门,也有著名大学和知名企业,对信息隐藏方面的应用也非常广泛。我国在信息隐藏技术方面的研究起步较晚,但比较活跃8,1218。1999年5月,国家自然科学基金委员会政策局会同信息科学部、管理科学部、数理科学部和综合计划局,在北京九华山庄组织召开了“网络计算和信息安全论坛”。与会专家一致认为,开展网络计算和信息安全研究具有重大的科学意义和重要的
21、战略意义,会中强调了研究信息隐藏的重要性。1999年12月何德全、周仲义、蔡吉人三位院士与有关应用研究单位联合发起召开了我国第一届信息隐藏学术研讨会(CIHW)。目前CIHW已成为国内最具代表性的信息隐藏学术交流会议,第八届全国信息隐藏暨多媒体信息安全学术大会(CIHW2009)也将于2009年3月在长沙召开。2000年1月,国家863计划智能计算机专家组会同中科院自动化所模式识别国家重点实验室和北京邮电大学信息安全中心在北京西郊宾馆主持召开了“数字水印学术研讨会”。这次数字水印研讨会在我国属于首次,研讨会引起了国家自然科学基金委员会、信息产业部、国家信息安全测评认证中心、国家图书馆及中国社会
22、科学院等多家单位的高度重视。这次会议对于促进数字水印技术的前瞻性理论研究与实际应用具有十分重要的作用,对于加强我国科技人员进行信息安全方面的学术交流也有不可低估的作用。以上会议的召开,有利的推动了信息隐藏技术在我国的发展,并取得了一定的成果,近几年国内学术期刊上有关信息隐藏的文章也大大增加。信息隐藏技术的迅速发展,为网络的信息安全提供了一个重要的技术支持。但任何技术都有其两面性。信息隐藏技术就很容易被恶意的个人或团体用于各种非法目的,如用于非法信息的传输。美国很有影响力的报纸今日美国早在震惊世界的“9.11”事件发生半年多以前就曾刊登文章,指出本拉登及其同伙可能利用某些网站上的大量数字图像秘密
23、传递与恐怖活动有关的信息,如指令、地图、攻击目标等19。当时还有报道指出,一些著名的网站如eBay和Amazon等已成为传播隐秘信息的隐蔽渠道20。据信首先将欧美科学家在隐秘信息检测研究中取得的早期成果用于实践的就有基地和哈马斯等国际恐怖组织。另外,一些国家的警方也曾在恐怖组织的计算机内查获大量可疑图像和视频文件,据分析可能藏有硕士学位论文 3与恐怖活动有关的信息。法轮功邪教组织的网站也有信息隐藏工具Blindside和CameraShy的介绍,邪教分子利用这些工具进行非法信息的传播,极大程度的影响了社会的稳定。因此,检测网络中的非法信息传输已成为人们亟待解决的问题。出于对国家安全、经济发展和
24、社会稳定的考虑,各国政府、情报部门、军队和研究机构已加大对隐秘信息检测研究的投入,有力的促进了隐秘信息检测的迅速发展。1.3 研究现状 隐秘信息检测技术是信息隐藏技术的伴随技术,是研究如何破解信息隐藏的技术,目的是发现含有隐秘信息的载体并截获这些信息,阻止不法分子通过这种方式进行非法信息的传输。信息隐藏与隐秘信息检测技术的载体类型通常可以分为图像、音频、视频、文本(通常指 DOC,TXT,PDF,PS 等格式文件)、网页等等。目前,对图像、音频、视频、文本等载体的信息隐藏和隐秘信息检测的研究较多,取得了较大的研究成果。但对网页中的信息隐藏尤其是隐秘信息检测的研究报道不多,相关的理论还不完善,实
25、用技术还欠成熟。可近几年来由于恐怖活动猖獗,隐秘信息检测受到了较多的关注,在一定程度上得到了发展。目前,对Web上可疑信息载体的搜索研究才刚刚起步。国外学者Niels Provos等人在2002年提出在因特网上运用网络爬虫来搜索Web页面上所有的JPEG图像,并用自动检测工具Stegdetect来检测隐秘信息21的思想。不过Niels Provos在获得博士学位后就转入了其它研究领域。随后Jeffrey A Bloom等人提出用网络爬虫和网络流量分析器来搜索可疑隐秘图像载体的思想22。严格说来,他们的方法都是针对Web页面上的图像载体,他们并没有考虑网页作为隐秘信息载体的可能性,因此他们的思想
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 统计 网页 隐秘 信息 检测
限制150内