第6章现代数据挖掘技术与发展.ppt
《第6章现代数据挖掘技术与发展.ppt》由会员分享,可在线阅读,更多相关《第6章现代数据挖掘技术与发展.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章现代数据挖掘技术与发展 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望现代数据挖掘技术与发展 6.1知识挖掘系统的体系结构 6.2现代挖掘技术及应用 6.3知识发现工具与应用6.4数据挖掘技术的发展 练习6.1知识挖掘系统的体系结构6.1.16.1.1知识发现的定义知识发现的定义 知知识识发发现现是是用用一一种种简简洁洁的的方方式式从从大大量量数数据据中中抽抽取取信信息息的的一一种种技技术术,所所抽抽取取的信息是隐含的、未知的,并且具有潜在应用价值。的信息是
2、隐含的、未知的,并且具有潜在应用价值。知知识识发发现现可可看看成成是是一一种种有有价价值值信信息息的的搜搜寻寻过过程程,它它不不必必预预先先假假设设或或提提出出问问题题,仍仍然然能能够够找找到到那那些些非非预预期期的的令令人人关关注注的的信信息息,这这些些信信息息表表示示了了不不同同研研究究对对象象之之间间的的关关系系和和模模式式。它它还还能能通通过过全全面面的的信信息息发发现现与与分分析析,找找到到有有价值的商业规则。价值的商业规则。知知识识发发现现意意味味着着在在数数据据仓仓库库或或数数据据集集市市的的几几千千兆兆、几几万万兆兆字字节节数数据据中中寻寻找找预先未知的商业模式与事实。预先未知
3、的商业模式与事实。6.1.26.1.2知识发现系统的结构知识发现系统的结构 知知识识发发现现系系统统的的结结构构由由知知识识发发现现系系统统管管理理器器、知知识识库库、商商业业分分析析员员、数数据据仓仓库库的的数数据据库库接接口口、数数据据选选择择、知知识识发发现现引引擎擎、知知识识发发现现评评价价和和知知识识发现描述等部分组成(图发现描述等部分组成(图6.1)。)。数据仓库知识库数 据库 接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1知识发现系统结构1.知识发现系统管理器 控制并管理整个知识发现过程 2.知识库和商业分析员 知识库包含了源于各方面的知识。商业
4、分析员要按一种有效的方式指导关注信息的发现。3.数据仓库的数据库接口 知识发现系统的数据库接口可以直接与数据仓库通信。4.数据选择 确定从数据仓库中需要抽取的数据及数据结构5.知识发现引擎 将知识库中的抽取算法提供给数据选择构件抽取的数据 6.发现评价 有助于商业分析员筛选模式,选出那些关注性的信息7.发现描述 发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信。频繁模式是频繁的出现在数据集中的模式频繁模式是频繁的出现在数据集中的模式如项集、子序或者子结构如项集、子序或者子结构动机:发现数据中蕴含的内在规律动机:发现数据中蕴含的内在规律那些产品经
5、常被一起购买?那些产品经常被一起购买?-啤酒和尿布?啤酒和尿布?买了买了PC之后接着都会买些什么?之后接着都会买些什么?哪种哪种DNA对这种新药敏感对这种新药敏感我们能够自动的分类我们能够自动的分类WEB文档吗?文档吗?应用应用购物篮分析、购物篮分析、WEB日志(点击流)分析、捆绑日志(点击流)分析、捆绑销售、销售、DNA序列分析等序列分析等什么是什么是频繁模式分析?繁模式分析?6.2现代挖掘技术及应用揭示数据集的内在的、重要的特性揭示数据集的内在的、重要的特性作为很多重要数据挖掘任务的基础作为很多重要数据挖掘任务的基础关联、相关和因果分析关联、相关和因果分析序列、结构(序列、结构(e.g.子
6、图)模式分析子图)模式分析时空、多媒体、时序和流数据中的模式分析时空、多媒体、时序和流数据中的模式分析分类:关联分类分类:关联分类聚类分析:基于频繁模式的聚类聚类分析:基于频繁模式的聚类数据仓库:冰山方体计算数据仓库:冰山方体计算频繁模式挖掘的重要性繁模式挖掘的重要性购物物篮分析分析如果问题的全域是商店中所有商品的集合,则对每种商品如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品
7、被频繁关联或被同时购买的模式,这些量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示(模式就可以用关联规则表示(e.g.0001001100)关联规则的两个兴趣度度量关联规则的两个兴趣度度量支持度支持度置信度置信度通常,如果关联规则同时满足最小支持度阈值和最小置信通常,如果关联规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的度阈值,则此关联规则是有趣的关关联规则:基本概念:基本概念给定:给定:项的集合:项的集合:I=i1,i2,.,in任务相关数据任务相关数据D是数据库事务的集合,每个事务是数据库事务的集合,每个事务T则是项的集合,使得则是项的集合,使得
8、每个事务由事务标识符每个事务由事务标识符TID标识;标识;A,B为两个项集,事务为两个项集,事务T包含包含A当且仅当当且仅当则关联规则是如下蕴涵式:则关联规则是如下蕴涵式:其中其中 并且并且 ,规则,规则 在事在事务集务集D中成立,并且具有支持度中成立,并且具有支持度s和置信度和置信度c基本概念基本概念示例示例项的集合项的集合 I=A,B,C,D,E,F每个事务每个事务T由事务标识符由事务标识符TID标识,它是项的集合标识,它是项的集合 TID(2000)=A,B,C任务相关数据任务相关数据D是数据库事务的集合是数据库事务的集合支持度支持度s是指事务集是指事务集D中包含中包含 的百分比的百分比
9、置信度置信度c是指是指D中包含中包含A的的事务同时也包含事务同时也包含B的百分的百分比比假设最小支持度阈值为假设最小支持度阈值为50%,最小置信度阈值为,最小置信度阈值为50%,则有如下关联规则,则有如下关联规则A C (50%,66.6%)C A (50%,100%)同时满足最小支持度阈值同时满足最小支持度阈值和最小置信度阈值的规则和最小置信度阈值的规则称作强规则称作强规则规则度量:支持度和置信度度量:支持度和置信度Customerbuys diaperCustomerbuys bothCustomerbuys beer6.2现代挖掘技术及应用6.2.16.2.1规则型现代挖掘技术及应用规则
10、型现代挖掘技术及应用 1.关联规则的基本概念布尔关联规则、单维规则buys(x,“computer”)=buys(x,“finacial_management_software”)量化关联规则、多维关联age(“30.40”)income(“42000.50000”)=buys(x,“high_resolution_TV”)多层关联规则单层关联规则age(x,“30.40”)=buys(x,“IBMcomputer”)(6.3)age(x,“30.40”)=buys(x,“computer”)(6.4)关联规则(6.2)可以用下面的SQL查询语句完成。SelectCust.name,P.ite
11、m_namefromPurchases,PgroupbyCust.IDhaving(Cust.age=30.and.Cust.age=42000andCust.income40否是一般良好6.2.5决策树型现代挖掘技术2.决策树的应用6.2.5决策树型现代挖掘技术编号年龄学生信誉等级类别标号1=30是良好会购买240否一般会购买440否良好不会购买540否一般会购买63140是一般会购买740是一般会购买940否良好不会购买11=30否一般不会购买123140是一般会购买133140否一般会购买143140是良好会购买6.2.5决策树型现代挖掘技术“年龄年龄”在各个属性中具有最大的信息增益,所
12、以选择在各个属性中具有最大的信息增益,所以选择“年龄年龄”属性作为第一个测试属性,创建一个节点,用属性作为第一个测试属性,创建一个节点,用“年年龄龄”标记。标记。计算剩余各个属性的相应的信息增益,选择信息增益最大计算剩余各个属性的相应的信息增益,选择信息增益最大的属性作为测试属性,这时信息增益最大的是的属性作为测试属性,这时信息增益最大的是“学生学生”属属性,创建一个节点,用性,创建一个节点,用“学生学生”标记标记。6.3知识发现工具与应用6.3.1 知识挖掘工具的系统结构知识挖掘工具的系统结构1.无耦合(无耦合(no coupling)DM系统不利用系统不利用DB或或DW系统的任何功能系统的
13、任何功能 2.松散耦合(松散耦合(loose coupling)DM系统将使用系统将使用DB/DW的某些工具的某些工具 3.半紧密耦合(半紧密耦合(semitight coupling)DM系系统统连连接接到到一一个个DB/DW系系统统,一一些些基基本本数数据据挖挖掘掘原原语语可以在可以在DB/DW系统中实现。系统中实现。4.紧密耦合(紧密耦合(tight coupling)DM系统被平滑地集成到系统被平滑地集成到DB/DW系统中系统中6.3知识发现工具与应用6.3.2 知识挖掘工具运用中的问题知识挖掘工具运用中的问题1.数据挖掘技术应用中的共性问题数据挖掘技术应用中的共性问题(1)数据质量数
14、据质量(2)数据可视化数据可视化(3)极大数据库极大数据库(vLDB)的问题的问题(4)性能和成本性能和成本(5)商业分折员的技能商业分折员的技能(6)处理噪声和不完全数据处理噪声和不完全数据(7)模式评估模式评估兴趣度问题兴趣度问题6.3知识发现工具与应用6.3.2 知识挖掘工具运用中的问题知识挖掘工具运用中的问题2.数据挖掘技术应用中的个性问题数据挖掘技术应用中的个性问题(1)规则归纳应用中的问题规则归纳应用中的问题主主要要用用于于显显式式描描述述数数据据抽抽取取的的规规则则、找到所有的规则,工作量是巨大的(2)神经网络应用中的问题神经网络应用中的问题受训练过度的影响受训练过度的影响、神经
15、网络的训练速度问题(3)遗传算法应用中的问题遗传算法应用中的问题6.3知识发现工具与应用6.3.3 知识挖掘的价值知识挖掘的价值1.了解商业活动了解商业活动2.发现商业异常发现商业异常3.预测模型预测模型6.3.4 现代数据挖掘工具简介现代数据挖掘工具简介1.DBMiner的体系结构的体系结构2.DBMiner的数据挖掘类型的数据挖掘类型6.4数据挖掘技术的发展6.4.1 文本挖掘文本挖掘1.文本分析和语义网络文本分析和语义网络文本分析文本分析为一个大型文本集合提供内容概况为一个大型文本集合提供内容概况例如,可以发现一个客户反馈集合中文档的显著簇,这样可能会发现公司的产例如,可以发现一个客户反
16、馈集合中文档的显著簇,这样可能会发现公司的产品或服务在哪里需要改进。品或服务在哪里需要改进。指出对象间的隐藏结构指出对象间的隐藏结构在组织一个企业内部网站时,文本分析可以找出对象间的隐藏结构,这样有关在组织一个企业内部网站时,文本分析可以找出对象间的隐藏结构,这样有关联的文档就能被超链接连接起来。联的文档就能被超链接连接起来。提高发现相似或相关信息搜索过程的效率和有效性提高发现相似或相关信息搜索过程的效率和有效性例如,可以从一个新闻服务机构搜索文章和发现独有的文档,这些文档含有到例如,可以从一个新闻服务机构搜索文章和发现独有的文档,这些文档含有到现在为止在别的文章中没有提到过的新趋势或技术的线
17、索。现在为止在别的文章中没有提到过的新趋势或技术的线索。侦察存档中的重复文档侦察存档中的重复文档文本分析可以用于大量文本需要分析的地方。虽然自动处理不能达到人类阅读文本分析可以用于大量文本需要分析的地方。虽然自动处理不能达到人类阅读分析的深度,但它可以被用来抽取关键点、产生总结、分类文档等。分析的深度,但它可以被用来抽取关键点、产生总结、分类文档等。6.4数据挖掘技术的发展语义网络语义网络一个有效文本分析的第一步是创建该文本的一个语义网络。一个有效文本分析的第一步是创建该文本的一个语义网络。一个语义网络是一系列来自分析的文本的最重要概念(词一个语义网络是一系列来自分析的文本的最重要概念(词与词
18、的组合)以及文本中这些概念间的语义联系。一个语与词的组合)以及文本中这些概念间的语义联系。一个语义网络为分析的文本提供了一个简明和非常准确的总结。义网络为分析的文本提供了一个简明和非常准确的总结。与人工神经网络一样,语义网络的每个元素与人工神经网络一样,语义网络的每个元素概念都被概念都被它的权重和一组与此网络其他元素的联系所标识它的权重和一组与此网络其他元素的联系所标识一个一个上下文结点。一旦为调查研究的文本构造的一组准确的语上下文结点。一旦为调查研究的文本构造的一组准确的语义网络建立起来,所有文本分析任务就可以执行。义网络建立起来,所有文本分析任务就可以执行。在现有的大部分算法中,一个语义网
19、络是在一些已定义的在现有的大部分算法中,一个语义网络是在一些已定义的规则和概念的基础上建立起来的。不过,也存在一些比较规则和概念的基础上建立起来的。不过,也存在一些比较强大的算法,这些算法不需要任何关于主题的预先背景知强大的算法,这些算法不需要任何关于主题的预先背景知识,可以仅仅在一个调查研究文本的基础上完全自动建立识,可以仅仅在一个调查研究文本的基础上完全自动建立起一个语义网络。起一个语义网络。6.4数据挖掘技术的发展2.文本挖掘文本挖掘文本总结文本总结从从文文档档中中抽抽取取关关键键信信息息,用用简简洁洁的的形形式式对对文文档档内内容容进进行行摘摘要要或或解解释释。用户不需要浏览全文就可以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 数据 挖掘 技术 发展
限制150内