internet电子邮件过滤器的设计--学位论文.doc
《internet电子邮件过滤器的设计--学位论文.doc》由会员分享,可在线阅读,更多相关《internet电子邮件过滤器的设计--学位论文.doc(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Internet电子邮件过滤器的设计毕业论文Internet电子邮件过滤器的设计毕业论文摘 要随着网络技术的不断发展和应用技术的不断推广,在日常生活中的各个方面,我们都离不开网络信息技术,信息技术正以前所未有的速度和范围改变着我们的生活和工作。但是随之诞生的垃圾邮件也成为互联网领域的一重大难题。因此研究和设计高效率的垃圾邮件过滤系统有着重要的研究意义。首先,本文对垃圾邮件的背景及研究意义做了简要概述,并且对国内外的研究现状与最新过滤技术进行说明。然后对垃圾邮件相关知识的进行研究,阐述了垃圾邮件的发展状况以及危害,随后研究了电子邮件的工作原理和相关邮件协议。本文是基于内容而设计的垃圾邮件过滤器,
2、通过对一些邮件过滤技术的优缺点进行分析,最终选出以朴素贝叶斯算法为理论基础设计了垃圾邮件过滤器。文本分类领域普遍会运用贝叶斯算法,它具有广泛的应用性,而垃圾邮件过滤本质上是文本分类问题,所以选用贝叶斯算法进行设计邮件过滤器。其次,通过比较选用更加合理有效的邮件预处理技术(包括邮件内容提取,邮件解码,中文分词,特征词提取,特征库等),从而更好的设计出垃圾邮件过滤器。最后,利用Java语言实现了垃圾邮件过滤系统,并且进行了实际应用层面的测试,实验结果具有可靠性和实用性,在对基于中文的垃圾邮件分类与过滤取得了令人满意的效果。关键词:电子邮件;邮件过滤;电子邮件过滤系统;朴素贝叶斯算法ABSTRACT
3、With the continuous development of network technology and application technology unceasing promotion, in all aspects of daily life, We cannot leave the network information technology, information technology is changing at an unprecedented speed and scope of our life and work. But with the birth of s
4、pam has become a major problem in the field of the Internet. So the research and design efficient spam filtering system has important research significance.First of all, this paper make a brief overview of the background and research significance of spam , and account for domestic and foreign resear
5、ch present situation and the latest filtering technology. Then study the knowledge about spam, expound the developing situation of spam and harm, then the paper studied the E-mail the working principle and the related agreement. This article is based on the content of spam filters designed, through
6、the analysis of the advantages and disadvantages of some mail filtering technology, finally choose the design on the theory of naive Bayes algorithm spam filters. Common in text categorization using Bayesian algorithm, it has extensive applicability, and spam filtering is essentially a text classifi
7、cation problem, so the article choose Bayesian algorithm design mail filters. Secondly, through the comparison, choosing more reasonable effective E-mail pretreatment techniques (including mail content extraction, email decoding, Chinese word segmentation, key words extraction, feature library, etc.
8、), and thus designing better spam filters.Finally, using the Java language to realize the spam filtering system, and carring out the actual application layer surface test, the result of the experiment has reliability and practicability, the filtering spam classification and based on Chinese satisfac
9、tory results have been achieved.Key Words: E-mail; Mail filtering; E-mail filtering system; naive Bayes algorithm目 录1 绪论11.1 选题背景和研究意义11.1.1 选题背景11.1.2 研究意义21.2 国内外研究动态21.3 最新过滤技术31.4 论文主要内容和章节安排41.4.1 主要内容41.4.2 章节安排42 垃圾邮件过滤的基础知识和相关技术62.1 电子邮件过滤基础知识62.1.1 电子邮件工作原理62.1.2 电子邮件相关协议72.2 电子邮件过滤方法92.2.1
10、 基于来源的邮件过滤92.2.2 基于内容的垃圾邮件过滤102.3 本章小结113 垃圾邮件过滤相关技术133.1 基于内容过滤的贝叶斯分类算法133.1.1 贝叶斯技术简介133.1.2 贝叶斯技术原理133.2 朴素贝叶斯算法143.2.1 基本原理143.2.2 朴素贝叶斯技术在邮件过滤中的应用153.3 本章小结194 邮件过滤系统的总体设计204.1 系统设计及流程204.2主要模块设计214.2.1 邮件预处理模块214.2.2 训练模块244.2.3 分类模块244.3 本章小结245 邮件过滤系统的实现255.1 邮件样本集的选取255.2 过滤模型的设计255.2.1 中文分
11、词255.2.2 基于朴素贝叶斯分类算法的模型建立315.3 训练过程的基本步骤315.4 分类过程的设计与实现335.5 系统测试及测试结果显示345.5.1 测试语料345.5.2 主界面介绍355.5.3 训练355.5.4 选择测试邮件或测试邮件集365.6 本章小结376 总结与展望386.1 全文总结386.2 展 望38致谢40参考文献41- II -1 绪 论1.1 选题背景和研究意义1.1.1 选题背景随着网络技术的不断发展和应用技术的不断推广,在日常生活中的各个方面,都离不开网络信息技术,信息技术正以前所未有的速度和范围改变着我们的生活和工作。目前,无论是我们的生活还是工作
12、,都离不开网络技术,在这样一个信息爆炸的时代,网络所提供的巨大的信息量和查询信息的方便性都带给我们前所未有的预料。同时基于网络技术的各种具体应用也不断增加,而在其中电子邮件技术(E-mail)就是其中应用性最多、范围最广的一种。网络的发展使人们社会生活中的交流越来越方便,越来越容易,信息的传播越来越迅速,但是同时也产生了许多垃圾邮件信息,普遍称之为垃圾邮件,1975年垃圾邮件的概念首次被JonPostel提出了,但至今为止还没有严格规范的定义。中国互联网协会反垃圾邮件规范中分析指出,垃圾邮件1包括下列的属性: 收件人事先没有意愿或要求接收广告,电子刊物,各种形式的宣传性的电子邮件。 收件人不能
13、拒绝接收的电子邮件。 通过隐藏发件人的信息,包括身份,邮件地址、邮件标题等电子邮件。 含有不真实的信息,例如信息源、邮件发件人、邮件路由等信息的电子邮件。电子邮件给人们带来了许多生活中的便捷,但同时也带来了各类的麻烦,最为严重、造成了网络一些重大灾难、使网络拥堵的问题就是垃圾邮件问题。一些非法团体和个人,利用网络邮件服务存在的一些漏洞,大批发送电子邮件,造成了大量的垃圾邮件使整个网络瘫痪,主要的垃圾邮件的危害有2: 他们占用了大量的网络带宽和用户的邮箱存储空间,导致邮件服务器的拥堵,从而降低了网络运行速度,严重会影响到邮件服务器和网络系统的正常运行,甚至阻碍了正常信息的传送,造成了无法估计的经
14、济损失。 严重影响ISP的服务形象和侵害他人的名誉。在国际上,频繁转发垃圾邮件的主机会被上级国际ISP列入国际垃圾邮件数据库(黑名单),从而导致该主机不能访问国外许多网络。中国有些企业的邮件服务器被外国的黑客利用来发送垃圾邮件,导致其被列入“黑名单”,以致很多无辜的中国企业邮件服务器不能向国外发送邮件。 大量的垃圾邮件造成收件人容易误删正常邮件,浪费收件人的时间、金钱、精力。 垃圾邮件可能装载一些恶意软件,如病毒,造成用户的系统崩溃,以及跟踪用户网上行踪的软件,窃取用户信息。 一些带有反动宣传性质内容的垃圾邮件还可能危及到国家的稳定和安全。1.1.2 研究意义垃圾邮件有六个特点主要包括3:数量
15、多、可重复性、强制性的、欺骗的、不健康的,传播速度快。这些特性带来的后果,使人们的正常生活遭到干扰,浪费用户宝贵的时间与精力,甚至更为严重的是存在信息安全的隐患。同时,垃圾邮件消耗了网络资源,并且垃圾邮件带来的网络安全危害日益严重。垃圾邮件造成的主要危害如下4: 传输过程中浪费了许多网络资源。互联网中,垃圾邮件在传输过程中,占用了大量的传输空间和运算速度、存储资源等,使网络带宽越来越窄,严重浪费了网络资源,从而使网络的使用效率降低了,使收发邮件系统不能正常运行。 侵害了用户的利益。因垃圾邮件拥有强制性、不健康性、欺骗性和传播速度快等特性,其特性产生的后果干扰了个人的正常生活。 垃圾邮件损害IS
16、P的市场形象,造成无形资产流失。国外邮件服务商曾封杀中国邮件服务器IP地址一事,致使中国用户蒙受了不可估量的损失。 对网络安全形成威胁。垃圾邮件和黑客攻击、病毒等结合也越来越密切。随着垃圾邮件的演变,用恶意代码或者监视软件等来支持垃圾邮件己经明显地增加,造成更严重的破坏性。他们利用电子邮件系统发送数以亿万计的垃圾邮件猛烈袭击目标,造成被攻击网站网路堵塞,最终瘫痪,拒绝服务。 垃圾邮件会对现实的社会造成危害。大量的垃圾邮件被一些别有用心者利用散播各种有害信息和虚假信息,扰乱社会公共秩序,严重危害社会的团结与稳定。随着网络应用的普及,电子邮件的传输迅速、使用方便、价格低廉的特点使其成为现代社会主要
17、通讯工具之一,也是互联网上最重要、最普遍的应用之一。而与此同时,用户收到的垃圾邮件数量呈上升趋势,大大的占用了存储空间、计算和网络资源,降低了网络使用率,占用了用户太多的处理时间。所以,研究垃圾邮件过滤的方法,并且设计它是一件具有深远意义的事情。1.2 国内外研究动态随着垃圾邮件过滤技术的发展,垃圾邮件的制造者采用一些更为隐蔽的方法与技术,这样使得人们对垃圾邮件制造者更加厌恶。垃圾邮件制造者发送技巧有5: 盗取用户身份,他们把全球各地的发信者IP地址收集起来,然后利用新垃圾邮件的域名,创建URL在垃圾邮件中,隐藏在其他“健康”URL的后面以获得好信誉,或利用如微博、邮箱、网页链接等这些网络资源
18、来达到身份欺骗。在发送电子邮件的过程中,他们使用免费的资源将URL重新定位到己知垃圾邮件域名或IP地址中。 图片垃圾邮件及多层图片垃圾邮件6:发送者发送垃圾邮件会运用各种方式方法来隐藏信息,他们使用图片的格式来发送,而不是文本。在检索的所有垃圾邮件中,因为图像占用的存储空间大约是普通文本邮件的7.5倍,所以发送者图像垃圾邮件呈现上升趋势,给电子邮件系统造成了无法估计的负担。 躲避全球IP监控及信誉评分7:信誉评分技术是指根据信誉筛选和检索邮件的方法,按照寄件人行为进行分析然后评比。评比的标准按照几项变数,例如收件人的申诉率、数量,收件人取消订阅后,根据要求作出回应。此外,发送者对IP地址进入黑
19、名单的地址也要尽量回避,因此,他们一直致力于搜寻新的僵尸服务器,从而发送垃圾邮件。 躲避文本内容的过滤8,附带URL与一些不法图片,大量的垃圾邮件发送者为躲避内容过滤的引擎,将电子邮件装饰为一封正常邮件,但是在邮件中附带的URL地址与一些不法图片是他们真正想要的结果。这些非法新技术的扩张性和隐蔽性导致垃圾邮件泛滥成灾,给人们造成了很多困扰。随着问题的增多,人们对垃圾邮件产生的问题日益关注,研究人员纷纷提出了自己的技术方案:信誉评分技术、基于信号检测理论、图片识别技术、意图分析技术和分布式邮件过滤技术等等。由此得出结论国内外有关垃圾邮件过滤的研究现状,可以分成两种趋势9: 发达国家(尤其是英语国
20、家,如美国、英国、加拿大、澳大利亚等,这些国家同时也是垃圾邮件的重患区)倾向于研究反垃圾邮件基础理论知识,将一些新理论与新方法融入到反垃圾邮件技术领域。 非英语发达国家和发展中国家10(如中国、德国、瑞士、韩国、日本、巴西)则更倾向于把反垃圾邮件的研究成果运用到生活中。但是,其中不乏一些国家对已经有的反垃圾邮件理论和技术进行改革与创造性的工作。1.3 最新过滤技术针对新的垃圾邮件的问题,也要有新的解决方案来解决这些新的问题。那么,相应的垃圾邮件过滤技术也应用而生了,主要有以下的新技术11: 发件人特征识别技术(Predictive Sender Profiling)。特征识别技术是指那些盗用身
21、份而发送邮件过滤的技术,这样就需要对发信者的身份进行验证,并且要对发送垃圾邮件的发送者进行预测。如列出制造垃圾邮件者的行为特征,加强对邮件的身份验证等。 信誉评分技术(IP Reputation)。对用户使用电子邮件的情况分析并进行信誉评分。例如办理手机卡一样,如果信誉低,会被进入黑名单,不再予以办理任何业务。因此,如果该电子邮件信誉差,被列入黑名单,那么就不能收发电子邮件,他所发送的邮件就被视为垃圾邮件而被抛弃。 多重图片识别技术。垃圾邮件为了逃避基于内容的过滤技术,将文本内容改为图片形式,把垃圾内容嵌入到图片中进行发送,对于图片邮件过滤技术,主要有图片垃圾邮件指纹识别技术。主要是把新处理的
22、图片采用不同颜色对比、文字背景等进行组合统一进行比对,然后进行过滤。 意图分析技术12(Intention Analysis)。主要是猜测垃圾发送者为什么要发送垃圾邮件,对垃圾邮件的发送意图进行分析,分析它们发送的意图和行为能够更好地过滤邮件。因为不同的时间,发送垃圾邮件的意图是不同的,因此要随时洞察它的意图并对其进行阻断,所以分析意图就更为重要了。大多数的垃圾邮件发送者的动机是想让用户点击某个URL地址或各种广告宣传品等,垃圾邮件内容隐藏在了URL链接当中,其它的基于内容的过滤技术没有办法将其过滤,通过分析垃圾邮件的这个意图,然后对URL的链接做出相应的处理来过滤电子邮件。所以要对常用的垃圾
23、邮件网络URL地址构成的数据库进行更新与维护,这样就有利于对垃圾邮件的过滤,能够通过该URL地址来阻断垃圾邮件。从而实现垃圾邮件过滤。1.4 论文主要内容和章节安排1.4.1 主要内容本文主要设计实现基于内容的垃圾邮件过滤器,完成垃圾邮件过滤的功能。本文的主要内容为以下几个方面: 垃圾邮件相关知识的研究,首先概括了垃圾邮件的研究背景,当前的现状,以及危害,随后研究了电子邮件的工作原理和相关邮件协议,并对三种垃圾邮件过滤手段进行归纳总结。 通过比较选用更加合理有效的邮件预处理技术(包括邮件内容提取,邮件解码,中文分词,特征词提取,特征库等),从而更好的设计出垃圾邮件过滤器。 设计了垃圾邮件过滤系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- internet 电子邮件 过滤器 设计 学位 论文
限制150内