基于内容的垃圾邮件过滤系统研究_孙雪.docx
《基于内容的垃圾邮件过滤系统研究_孙雪.docx》由会员分享,可在线阅读,更多相关《基于内容的垃圾邮件过滤系统研究_孙雪.docx(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 Classified Index: TN911 CODE: 10075 U.D.C: NO: gxjs07123 A Dissertation for the Degree of Master Research on Content-Based Spam Filtering Candidate: Sun Xue Supervisor: Prof. Li Kun-Lun Academic Degree Applied for: Master of Engineering Specialty: Comm. & Info. System University: Hebei University D
2、ate of Accomplishment: May, 2010 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书 所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了致谢。 作 者 签 名 : 办 i _ 日 期 : 穴 /0年 上 月 円 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定, g卩:学校有权保留并向国 家有关部门
3、或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布 论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 本学位论文属于 1、 保密 ,在 _ 年 _ 月 _ 日解密后适用本授权声明。 2、 不保密丘 ( 。 (请在以上相应方格内打 “ V ” ) 保护知识产权声明 本人为申请河北大学学位所提交的题目为(基于内容的垃圾邮件过滤系统研究)的 学位论文,是我个人在导师(李昆仑)指导并与导师合作下取得的研究成果,研究工作 及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。本 人完全了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规
4、以 及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大学的书 面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反 本声明,本人愿意承担相应法律责任。 声明人 : 曰期: W。 年 r月 巧 日 作者签名: _ 日 期 : 年 广 月 片 H 导师签名 : 日期: 年 广 月 1 曰 摘要 摘要 随着电子邮件的普及,垃圾邮件问题日益凸显,其数量急剧増长,内容千变万化, 具有破坏性强,传播速度快,危害范围广等特点,已经成为全球化公害。如何有效地过 滤和治理这些垃圾邮件成为当前的迫切要求。现有的垃圾邮件过滤技术主要包括基于规 则的过滤
5、和基于内容的过滤两大类。基于规则的过滤方法加入的主观因素较多,抗干扰 能力较弱,规则制定的好坏将直接影响邮件的过滤效果。基于内容的过滤作为当前垃圾 邮件处理所采用的一种主要技术手段可以通过文本分类的相关算法针对邮件内容自动 寻找规律,本文主要针对基于内容的过滤方法进行相关研究。 本文从邮件的预处理、特征选择、权重计算和分类器的设计等方面对如何改善 垃圾 邮件的过滤性能进行了探索,并对现有的算法在垃圾邮件过滤中存在的问题进行了分 析。针对基于内容的垃圾邮件过滤算法存在的 “ 维数灾难 ” 等问题,预处理中加入词频 和文档频度过滤,采取双重特征选择算法,有效的降低了冗余信息和噪声数据对分类性 能的
6、影响。 针对垃圾邮件与正常邮件在语义表述上存在的差异性,本文提出一种基于类别信息 的 LDA特征选择及加权算法 Categories-LDA, 在不同类型的邮件集中建立各自的生成 模型,分别搜寻构成各个主题的特征信息。该算法不但利用了 LDA模型基于隐含主题 建模的优点,而且 还有效的克服了由于忽略类别主题差异性所造成的系统过滤性能下降 的影响。 本文将反馈学习与随机森林算法相结合,继承了决策树集成与反馈学习的优势,针 对垃圾邮件种类实时变化的特点和客户群对邮件判别的差异性,实现邮件过滤系统的自 适应调节,及时捕捉到垃圾邮件的变化趋势,搭建客户与过滤系统的内在联系平台。实 验表明:基于类别信息
7、的 LDA特征选择及加权算法采用反馈学习的随机森林分类器可 以有效的提高邮件的分类精度。在 CCERT中文语料库的 2005-Jun子集上系统精确率提 高约 2%,在 Trec06中英文语料库上垃圾邮 件的准确率提高约 3%。 关键词垃圾邮件过滤,反馈学习,特征选择,特征加权, LDA模型 I Abstract Abstract With the development of the e-mail, the spam problems become more and more serious in our daily life. Fast variety development and ext
8、ensive quantity increase will influence the quality of spam filtering. Spam has a lot of disadvantages, such as high propagation speed and potential damage, which has already become the globalization social effect of pollution. Spam must be handled effectively. The available spam-filtering technolog
9、y includes regulation-based filtering and content-based filtering. The subjective factors are too much for the regulation-based fliteration, so this method has the weaker anti-interference ability, the establishment of the regulation will affect the mail filtering effect directly. The content-based
10、filtering is one kind of main technology, which is adopted by current spam treatment. This technology can seek filter rules automatically by the relevance algorithm of text categorization . This paper will study the content-based filtering method. This paper are focus on how to improve the filter pe
11、rformance of the system from e-mail pre-processing, feature selection, and weight calculation side. This paper analysis the problems of currently existing algorithms of spam filtering, and the corrective measure are proposed. For the the curse of dimensionality problem in content-based spam filterin
12、g algorithm, a double feature selection method based on word frequency combined with other algorithms was proposed. It can effectively reduce the impact of redundant information and noise data for classification performance. Owing to the differences of spam and legitimate E-mail, a method of Categor
13、ies LDA model is introduced. That is generate a respectively model in different type of mail grounds, and search for the information composing each subjects characteristic. Categories LDA model avoids performance degradation of the traditional LDA when it is ignore the difference between spam and le
14、gitimate email. There is no consensus of opinions among people as to face spam, and moreover, the types of spam change over time, the paper presents a method based on the Feedback-Random Forest algorithms which combines the advantages of Decision Tresses and Relevance II Abstract Feedback, The metho
15、d can be prompt catching the change trend to spam, establish the inner link between the customer and the filtering system, and the mail filtering system can be self-regulation. The results of experiment show that Categories-LDA by using Feedback-Random Forest algorithms can improve the performance o
16、f the e-mail filtering system more effectively. The system accuracy improve 2% on the 2005-Jun subset of CCERT corpus and the spam precision improve 3% on Trec06 corpus. Keywords Spam-filtering Feedback Feature selection Feature weight calculation LD A model ill 目录 目录 第 1 章绪论 . 1 1.1 石开究背景和意义 . 1 1.
17、2垃圾邮件过滤技术研究现状 . 2 1.2.1基于规则的过滤 . 3 1.2.2基于内容的过滤 . 5 1.3主要研究内容及章节安排 . 6 第 2章基于内容的垃圾邮件过滤系统概述 . 8 2.1特征选择 . 8 2.1.1特征频度和文档频度 . 8 2.1.2 f统计量 . 9 2.1.3信息增益 ( IG) . 9 2.1.4 互信息 ( MI) . 10 2.1.5 特征熵 ( TE) . 10 2.1.6文本证据权 ( WET) . 10 2.1.7期望交叉熵 ( ECE) . 11 2.2文本表示 . 11 2.2.1布尔模型 . 12 2.2.2向量空间模型 ( VSM) . 12
18、 2.2.3隐含语义索引模型 ( LSI) . 14 2.2.4 LDA生成模型 . 15 2.3垃圾邮件过滤中常用的分类算法 . 15 2.3.1 Z近邻算法 ( KNN) . 15 2.3.2支持向量机 ( SVM) . 16 2.3.3决策树 . 17 2.3.4基于数据集的分类器集成 . 18 IV 2.4垃圾邮件过滤的评价体系 . 19 第 3章基于内容的垃圾邮件过滤系统预处理 . 20 3.1中文邮件预处理 . 20 3.1.1中文分词 . 21 3.1.2词性选择 . 21 3.2英文邮件预处理 . 22 3.2.1去除信头 . 22 3.2.2词根还原和停用词过滤 . 24 第
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 内容 垃圾邮件 过滤 系统 研究 孙雪
限制150内