(本科)第10章web数据挖掘教学ppt课件.ppt
《(本科)第10章web数据挖掘教学ppt课件.ppt》由会员分享,可在线阅读,更多相关《(本科)第10章web数据挖掘教学ppt课件.ppt(93页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(本科)第10章 web数据挖掘教学ppt课件LOGO第十章第十章 webweb数据挖掘数据挖掘第十章第十章 webweb数据挖掘数据挖掘Web数据挖掘概述数据挖掘概述1Web内容挖掘内容挖掘2Web结构挖掘结构挖掘3Web使用挖掘使用挖掘4Web数据挖掘的应用数据挖掘的应用5Web数据挖掘的研究热点与发展趋势数据挖掘的研究热点与发展趋势6随着互联网的快速发展,特别是Web技术的发展,使互联网获得越来越广泛的应用,这样的应用让互联网上留存了海量的数据信息。 (1)检索技术,如搜索引擎,可以帮助人们尽快地找到所需要的信息,但是目前多数搜索引擎是基于分类或者关键词逻辑匹配的检索方式,用户的一个查询
2、请求往往会检索出一个庞大的结果集,而用户所需要的信息却只是其中的小部分。面对如此多的检索结果,用户仍然不知所措。而Web数据挖掘能够挖掘隐藏在信息背后的知识,能够提供满足用户需求的信息。因此,Web数据挖掘的产生与发展变得尤为必要。(2)随着互联网的普及,电子商务也在蓬勃发展,开展电子商务的企业面临着极大挑战,即如何对用户的注册信息、浏览信息、历史购买记录等数据信息进行有效的组织利用,从而了解用户的兴趣爱好、行为模式等,以优化网站结构、发掘潜在用户、为用户提供个性化服务等。这些挑战也在推动着Web数据挖掘的发展。一、一、WebWeb数据挖掘的产生数据挖掘的产生10.1 web10.1 web数
3、据挖掘概述数据挖掘概述10.1 web10.1 web数据挖掘数据挖掘二、二、WebWeb数据挖掘的概念数据挖掘的概念定义: Web数据挖掘是指从大量Web文档的集合C中发现隐含的模式P,如果将C看作输入,将P看作输出,那么Web数据挖掘的过程就是从输入到输出的一个映射:CP。Oren Etioni在1996年首次提出Web数据挖掘这一概念。Web数据挖掘是数据挖掘技术在Web领域中的应用,并与Web技术相结合的产物,涉及到Web技术、数据挖掘、人工智能以及统计学等多个领域。 10.1 web10.1 web数据挖掘概述数据挖掘概述三、三、WebWeb数据挖掘的特点数据挖掘的特点异构的数据库环
4、境半结构化的数据结构Web数据挖掘对象的海量性与动态性Web上存在着海量的信息,而且以极快的速度增长,信息在每时每刻都在不断发生着更新与变化。 Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,因而Web上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,也被称为半结构化数据。 Web上每个站点就是一个数据源,而每个站点的信息组织方式通常不一样,因此每个数据源都是异构的,这样就构成了一个巨大的异构数据库环境。 10.1 web10.1 web数据挖掘概述数据挖掘概述四、四、WebWeb数据挖掘与半结构化数据数据
5、挖掘与半结构化数据1、结构化数据:是指组织结构清晰的数据,如传统的数据库数据,因为存储在数据库中的数据是以严格的格式表示的。2、非结构化数据是指完全无结构、松散的数据,无法用数字或统一的结构表示,如声音 、图像、视频等多媒体数据。3、半结构化是相对于结构化和非结构化而言的,互联网上存在的数据既不是完全结构化的,因为互联网上的数据非常复杂,没有特定的模型描述,但也不是完全非结构化的,因为互联网上的网页信息中包括HTML或XML标签,页面具有一定的描述层次,存在一定的结构,也包括文本信息,所以我们将它称为半结构化的数据。10.1 web10.1 web数据挖掘概述数据挖掘概述半结构化数据的数据模型
6、半结构化数据的数据模型 Web数据挖掘的对象就是半结构化数据,没有特定的模型描述。Web数据挖掘技术首要解决问题是建立半结构化数据源模型,其次是半结构化数据模型的查询与集成问题。因此,针对Web上的数据半结构化的特点,建立一个具有很好适应性的半结构化的数据模型是解决问题的关键。 目前,对半结构化数据及其模式主要有五种描述方法:基于图的描述形式、基于树的描述形式、基于逻辑的描述形式、基于关系的描述形式以及基于对象的描述形式。基于图的描述形式一般对半结构化数据采用标记有向图(labeled directed graph)来表示,其中最有代表性的是OEM(Object Exchange Model)
7、模型即对象交换模型。 一般地,一个OEM对象表示为:即OEM对象由4部分组成:对象的标识OID,标签Lable,类型Type,值Value。其中四部分的含义分别为:(1)OID(Object ID):为对象标识,唯一标识一个OEM对象。(2)Label:为标签,是用来描述对象的字符串。(3)Type:是对象值的类型。有些对象属于原子类型,包含最基本的原子数据类型如整数、实数、字符串类型等;有些对象属于复杂类型,它们的值是对象引用的集合,如set和list类型等。(4)Value:是对象的值。OIDLabelTypeValue10.1 web10.1 web数据挖掘数据挖掘10.1 web10.
8、1 web数据挖掘概述数据挖掘概述例1:是一个简单的原子对象,其中标识OID 为空,person-name为标签,表示人名,string为对象类型为整型,Mike为具体的值。 例2:a1 is a2 is 这是一个包含2个子对象的复杂对象,该对象为set类型,标签为employee-record,每个子对象有各自的标签、类型和值。10.1 web10.1 web数据挖掘概述数据挖掘概述在OEM模型中,对象对应节点,对象与对象的关系以带标签的边表示。 1 2 3company employeeemployeeemployeedepartmentnamenamedepartmentJimHRJac
9、kAccountant10.1 web10.1 web数据挖掘概述数据挖掘概述五、五、WebWeb数据挖掘流程数据挖掘流程采集数据 数 据 预 处 理 模 式 发 现模式分析10.1 web10.1 web数据挖掘概述数据挖掘概述采集数据即从外部的Web 环境中有选择地获取数据,为后面的数据挖掘提供资源。Web数据挖掘的数据源主要有:(1)服务器日志(2)Cookie(3)表单或用户注册数据 (4)电子商务站点交易数据1 1、采集数据、采集数据 Cookie是用户访问站点时由Web服务器传递到用户浏览器的少量信息,详细描述了访问者访问站点时浏览了哪些地方,当访问者下次再访问同一网站时,Cook
10、ie会自动识别用户。利用cookies可以跟踪统计用户访问该网站的习惯,比如什么时间访问,访问了哪些页面,在每个网页的停留时间等。 主要是访问者在进入站点时注册提供的个人信息如姓名、地址、出生日期、性别以及职业等,为Web挖掘提供重要的数据。WebWeb数据挖掘的数据源数据挖掘的数据源10.1 web10.1 web数据挖掘概述数据挖掘概述电子商务站点的交易数据记录了大量的客户历史交易数据,根据历史交易记录,可以挖掘客户的行为模式和兴趣爱好,从而向客户推荐相关的商品,提高客户的满意度。电子商务站点交易数据服务器日志包括访问日志和引用日志。访问日志记录Web浏览中点击以及每次执行成功或失败的请求
11、。引用日志是Web服务器上的日志文件,包含访问者的访问位置和引入Web站点的关键词或路径。 10.1 web10.1 web数据挖掘概述数据挖掘概述例如,在数据清理过程中,Web数据挖掘一般要去除ROBOT或SIPDER请求以及一些错误请求等;在研究用户浏览模式的日志记录中,需要识别每一位用户的浏览记录以及每一位用户的不同会话时段,因此必须对采集的数据记录根据用户和会话时段的不同,进行数据的归类集成。2 2、数据预处理、数据预处理与传统数据挖掘一样,web数据挖掘在进行挖掘之前也需要进行数据预处理,包括数据清理,数据集成,数据转换与数据约简。10.1 web10.1 web数据挖掘概述数据挖掘
12、概述3.3.模式发现模式发现模式发现是数据挖掘系统的核心部分,主要是运用各种数据挖掘技术,从海量的经过预处理的数据中提取出潜在的、有效且能被人理解的知识模式。Web数据挖掘结合传统数据挖掘技术和Web挖掘技术来进行模式发现。4.4.模式分析模式分析对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。可以是机器自动完成,也可以是与分析人员进行交互来完成。10.1 web10.1 web数据挖掘概述数据挖掘概述六、六、WebWeb数据挖掘的分类数据挖掘的分类Web数据挖掘Web内容挖掘Web结构挖掘Web使用挖掘 文本 挖掘 多媒 体挖
13、 掘 文档 间超 链接 挖掘 内部 结构 挖掘 一般 访问 模式 跟踪 个性 化的 使用 记录 跟踪Web内容挖掘内容挖掘 Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程。 根据挖掘的对象是文本文档还是多媒体文档,Web内容挖掘又可以分为WebWeb文本挖掘文本挖掘和WebWeb多媒体挖掘多媒体挖掘。 Web文本挖掘可以对Web上大量的文档集合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势分析等。 Web 多媒体挖掘主要是指通过对 Web上的音频、视频数据和图像进行预处理,运用挖掘技术挖掘其中潜在的、有价值的信息和模式的过程。 10.1
14、 web数据挖掘概述数据挖掘概述Web Web 结构挖掘结构挖掘 Web结构挖掘是对Web 文档之间的链接结构以及页面内部结构进行挖掘。 Web结构包括不同网页之间的超链接结构和一个页面内部的树形结构,以及文档URL中的目录路径结构等。 通过Web结构挖掘可以从Web的组织结构以及引用和被引用间的链接关系中得到知识,利用这些知识可以对页面进行排序,发现重要的、权威的页面等。Web结构挖掘在网站优化中也有着重要作用,可以评价和分析网页的质量,也有助于优化网页的链接设计,减少不合理的链接。 10.1 web数据挖掘概述数据挖掘概述Web Web 使用挖掘使用挖掘 Web使用挖掘是对用户访问Web时
15、在服务器上留下的访问记录进行挖掘,以发现用户的访问模式。 Web使用挖掘的数据源主要有Web服务器日志、浏览器日志和交易记录等。 通过用户的访问记录挖掘可以发现用户的行为模式,从而可以为用户提供个性化推荐服务,也可以改进站点结构。10.1 web数据挖掘概述数据挖掘概述10.1 web10.1 web数据挖掘概述数据挖掘概述三类Web挖掘比较如下表: Web挖掘种类Web内容挖掘 Web结构挖掘 Web使用挖掘 数据文本文档多媒体数据 链接结构Web服务器日志浏览器日志交易记录数据特征非结构化半结构化 链接结构 交互式数据方法分类聚类关联规则PageRank算法HITS算法关联规则聚类分析分类
16、分析序列模式挖掘应用领域 自动摘要 文档自动分类 站点优化站点优化网络销售用户建模推荐系统10.2 web10.2 web内容挖掘内容挖掘一、一、WebWeb文本挖掘文本挖掘Web 文本挖掘是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从大量的文本数据中发现和提取隐含的、事先未知的知识,最终形成用户可理解的、有价值的信息和知识的过程。 在Web 文本挖掘中,文本的特征表示和提取是挖掘工作的基础,而文本的分类分析和聚类分析是最重要、最基本的挖掘功能。 10.2 web10.2 web内容挖掘内容挖掘1 1、WebWeb文本挖掘的一般过程文本挖掘的一般过程Web文本挖掘的一般
17、过程为:文本采集、文本预处理、文本挖掘方法实施和挖掘结果展示,如图所示:Web文本采集文本预处理文本库文 本 特征库文本分类文本聚类挖 掘 结果展示10.2 web10.2 web内容挖掘内容挖掘2、分词技术、分词技术 对文档进行特征表示和提取前,先要对文本信息进行预处理,即进行词汇分析,把文档中的文本转换为词。中文分词方法有多种,大致可以分为基于词库的分词方法、基于统计的分词方法以及二者相结合的方法。基于统计的分词方法基于统计的分词方法这种方法的基本思想是统计字串出现的频率来判断该字串是不是词,相邻的字同时出现的次数越多,就越有可能构成一个词。该方法能够解决基于词库分词方法的缺陷,可以有效提
18、取未被录入的词。但基于统计的分词方法也有自身的缺点即不够准确,有的字串不是词,但因为出现频率很高,也会被提取出来,识别精度较差。基于词库的分词方法基于词库的分词方法其基本思想是建立词库,其中包含所有可能出现的词。给定的待分词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割其余的部分,直到剩余部分为空;否则,该子串不是词, 转上重新切取S的子串进行匹配。匹配方法包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等。这种方法设计简单,易于实现,但因为必须以词库为基础,对于未录入词库的词则无法切分,因此不具备自适应性。 10.2 web10.2
19、 web内容挖掘内容挖掘3、web文本的特征表示文本的特征表示 与数据库中的结构化数据相比,Web文档是半结构化或非结构化的数据。文本信息源的这些特征使得现有的数据挖掘技术无法直接应用于其上,需要对文本进行预处理,抽取其特征并用结构化的形式保存,作为文档的中间表示形式。 特征表示是指以一定的特征项(如词条或描述)来代表文档信息。文本特征指的是关于文本的元数据,分为描述性特征和语义性特征。描述性特征,例如文本的名称、日期、大小、类型等易于获得;语义性特征,例如文本的作者、机构、标题、内容等则较难得到。W3C(World Wide Web Consortium,万维网联盟)近来制定的XML、RDF
20、等规范提供了对Web 文档资源进行描述的语言和框架,在此基础上,我们可以从半结构化的Web文档中抽取作者、机构等特征。特征表示模型特征表示模型 特征表示模型有多种,常用的有布尔逻辑型、向量空间型、概率型等。近年来应用较多且效果较好的特征表示法是向量空间模型(Vector Space Model,VSM)法。在VSM法中,将文本文档看成是一组词条(T1,T2,Tn)构成,对于每一词条Ti,都根据其在文档中的重要程度赋予一定的权值Wi,可以将其看成一个n维坐标系,W1,W2,Wn为对应的坐标值,因此,每一篇文档都可以映射为由一组词条矢量组成的向量空间中的一点,对于所有待挖掘的文档都用词条特征矢量(
21、T1,W1,T2,W2,Tn,Wn)表示。 10.2 web内容挖掘内容挖掘10.2 web10.2 web内容挖掘内容挖掘4、web文本特征提取文本特征提取 对Web文本中出现的词条Ti及其权值Wi的选取称为特征提取。特征提取主要是识别文本中词项的意义,提取过程是自动的,而且提取的多数是文本集中表示的概念,从文本的内容抽取出来一些能代表文本内容的词条,通过分析这些特征词,达到分析 Web 文本内容的目的。特征项选取的原则有以下几条:(1)特征项应具备完全性和区分性。完全性是指特征项能够确实表示目标内容。区分性是指特征项能够将目标同其他文档区分。(2)词、词组、短语适合作特征项。(3)虚词不适
22、合作特征项,如中文中的虚词“的”,英文中的虚词“a”、“the”不适合作特征项。(4)稀有词不适合作特征项。 (5)词频平均的词条不适合作特征项。文本分类是一种典型的有指导的机器学习方法,是文本挖掘的一个核心。文本分类是按照预先定义的分类模型,为文档集合中的每个文档确定一个类别,使得用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。5 5、文本分类、文本分类10.2 web内容挖掘内容挖掘10.2 web10.2 web内容挖掘内容挖掘文本分类的过程文本分类的过程文本分类一般可分为训练和分类两个阶段,训练阶段即建立分类模型,分类阶段即根据分类模型进行分类,具体过程如下
23、: (1)训练阶段 首先定义类别集合 C =(c1 , c2 , ci ,cm ),这些类别可以是层次式,也可以是并列式;然后给出训练文档集合S = (s1 ,s2 ,si,sn ) ,每一个训练文档都被标上所属的类别标识ci; 提取训练文档集合S中所有文档的特征矢量V(si),并采用一定原则来确定代表C中每一个类别的特征矢量V(cj);10.2 web10.2 web内容挖掘内容挖掘文本分类的过程文本分类的过程(2)分类阶段对于测试文档集合T=(d1,d2 , dk dr )中的每一个待分文档dk ,计算其特征矢量V(dk)与每一个V(cj)之间的相似度sim(dk,cj),最常用的方法就是
24、考虑两个特征矢量之间的夹角的余弦 ,即 sim(dk ,cj) = 选取相似度最大的一个类别作为dk的类别。如果dk 与所有的类别的相似度均低于阈值,那么通常将该文档放在一边,由用户来做最终的决定。当经常出现类别与预定义类别不匹配的文档时,则说明需要修改预定义类别,然后再重新进行上述训练与分类过程。)()()()(jkjkcVdVcVdV10.2 web10.2 web内容挖掘内容挖掘6、文本聚类、文本聚类文本聚类是一种典型的无指导的机器学习方法。文本聚类是指把一组对象结合按照相似性归成若干类别。与分类有所不同,聚类没有预先定义好主题类别标记,需要由聚类学习算法自行确定,其目标是将文档集合分成
25、若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小,即“物以类聚”。可以按照文档内容聚类,也可按文档属性聚类。利用文本聚类技术,可以提供大规模文档集内容的总括,识别隐藏的文档间的相似度,减轻浏览相关、相似信息的过程,如将搜索引擎的检索结果划分为若干个簇,用户只需考虑那些相关的簇,大大缩小了所需要浏览的结果数量。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。10.2 web10.2 web内容挖掘内容挖掘层次凝聚法对于给定的文档集合D =d1, , di, , dn, 层次凝聚法的具体过程如下: 将D 中的每个文档di 看作是一个具有单个成员的簇ci=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科第10章 web数据挖掘教学ppt课件 本科 10 web 数据 挖掘 教学 ppt 课件
限制150内