第9章信息过滤与邮件过滤.ppt
《第9章信息过滤与邮件过滤.ppt》由会员分享,可在线阅读,更多相关《第9章信息过滤与邮件过滤.ppt(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第九章 网络信息过滤与邮件过滤9.1 研究背景和现状 9.2 关键技术研究 9.3 信息过滤实现和结构 9.4 垃圾邮件过滤实现和结构9.5 主要工作总结29.1 研究背景和现状研究背景网络跟人们的生活越来越紧密。然而网络是双面的,人们在享受网络所带来的便利的同时,不可避免地接触到大量的不良信息。过滤网络信息,使网络用户尤其是青少年学生远离非友善信息的侵扰,使得网络环境更加纯净、美好。过滤掉用户不感兴趣的网页信息和垃圾邮件,可以节省用户的上网时间。39.1 研究背景和现状研究现状 当前信息过滤的研究以TREC会议为核心,主要是文本过滤。国内有关信息过滤的研究以核心算法为主,主要集中在特征抽取
2、、学习算法和过滤算法上。出现了一些过滤软件,但存在较多问题,过滤效果不佳。49.2 关键技术研究现有网络过滤技术及其存在问题 网络过滤新技术研究 59.2 关键技术研究现有网络过滤技术及其存在问题断开物理连接资源有限,更新速度慢,多半是过期的网页 地址库(URL)过滤需要不断更新地址库基于关键字的页面内容过滤。易被伪装技术突破 过滤往往矫枉过正 69.2 关键技术研究网络过滤新技术研究 针对内容进行过滤79.2关键技术研究关键技术文本表示 特征选择 分类算法 模糊模式识别89.2 关键技术研究信息表示(文本表示)信息过滤的主要工作是比较用户请求信息和要过滤的非法信息的匹配程度,为此,需要能够有
3、效地表示信息空间,一般采用模型化的方法表示信息空间。目前常用的文本表示模型有:布尔逻辑模型向量空间模型 概率推理模型潜在语义索引模型99.2 关键技术研究布尔逻辑模型一种相对简单的信息过滤模型。在过滤时,它以文档中是否包含特征项来作为取舍的标准。特点是实现容易、操作方便结果非真即假,限制性过强 109.2 关键技术研究向量空间模型以特征项作为文本表示的基本单位,特征项构成特征项集,将文档表示为向量。119.2 关键技术研究概率推理模型向量空间模型中,假设文档向量空间的基是相互正交的,没有考虑检索词间的相互关系。概率推理模型包括了检索词间的依赖关系以及主要参数,如检索词权重计算,查询与文档相似性
4、计算,由模型自身决定。129.2 关键技术研究潜在语义索引模型利用字项与文档对象之间的内在关系形成信息的语义结构。这种语义结构反映了数据间最主要的联系模式,忽略了个体文档对词的不同的使用风格。LSI向量中的值是通过SVD分解得到的缩减了的值,内容相近文档的向量也是相近的。139.2 关键技术研究特征选择前面讨论的文本表示模型,一直假定特征向量每一维的特征都是确定的。事实上,这些特征是从文本中选择出来的,这些特征的选择是非常重要的,它强烈的影响到文本表示的准确程度,影响到后面的过滤器的设计及其性能。主要包括分词与选择两部分。149.2 关键技术研究分词文本内容与文本中出现的词关系十分密切,汉语词
5、间没有明显的标志,分词的目的就是准确的识别文本中的单词。基于字典的字符串匹配方法 基于统计的分词 基于句法与自然语言理解的方法 159.2 关键技术研究选择训练集中包含了大量的词汇,如果把这些词都作为特征,将带来一系列问题:首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢。其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大,甚至存在较大副作用。常用的特征选择方法有:文档频率 信息增益 互信息 169.2 关键技术研究分类算法其目的为找到特征空间与类别之间的映射关系。常见方法:Racchio方法K-元最近邻居(KNN)方法Nave Bayesian方法支持向量机
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 过滤 邮件
限制150内