数据挖掘与知识发现.ppt
《数据挖掘与知识发现.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与知识发现.ppt(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章数据挖掘与知识发现数据挖掘与知识发现提纲n n知识发现与数据挖掘的基本概念n n数据挖掘方法和技术n n数据挖掘的知识表示知识发现与数据挖掘的基本概念n n知识发现的定义n n知识发现的研究问题n n知识发现的过程n n知识发现系统的结构知识发现的定义(KDD,Knowledge Discovery in DatabaseKDD,Knowledge Discovery in Database)n n知识发现是用一种简洁的方式从大量数据中抽取信息的一知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在种技术,所抽取的信息是隐含的、未知的
2、,并且具有潜在应用价值。应用价值。n n知识发现可看成是一种有价值信息的搜寻过程,它不必预知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规它还能通过全面的信息发现与分析,找到有价值的商业规则。则。n n知识发现意味着在数据仓库或数据集市的几千兆、几万兆知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。字
3、节数据中寻找预先未知的商业模式与事实。知识发现的研究问题n n定性知识和定量知识的发现n n知识发现方法n n知识发现的应用知识发现的过程n n数据准备数据准备n n数据挖掘数据挖掘n n结果的解释和评估结果的解释和评估知识发现的过程n n数据准备数据准备数据集成:对数据进行合并处理、数据检查和清洗工作数据集成:对数据进行合并处理、数据检查和清洗工作数据选择:缩小处理数据的范围,提高数据挖掘的质量数据选择:缩小处理数据的范围,提高数据挖掘的质量数据预处理:削减数据维数或降维,克服数据挖掘工具数据预处理:削减数据维数或降维,克服数据挖掘工具的局限性的局限性知识发现的过程n n数据挖掘数据挖掘探索
4、性数据分析:利用图形化方式对数据进行探索探索性数据分析:利用图形化方式对数据进行探索描述建模:描述数据的所有特征描述建模:描述数据的所有特征预测建模:建立一个根据已知变量预测其它变量的模型预测建模:建立一个根据已知变量预测其它变量的模型分类分类回归回归寻找模式和规则:进行模式探测寻找模式和规则:进行模式探测根据内容检索:根据用户感兴趣的模式建立相似的模式根据内容检索:根据用户感兴趣的模式建立相似的模式知识发现的过程n n结果的解释和评估结果的解释和评估结果的解释结果的解释结果不满足用户要求,换一种挖掘方法结果不满足用户要求,换一种挖掘方法结果非常抽象,换一种容易理解的方法结果非常抽象,换一种容
5、易理解的方法结果的评估结果的评估所采用的数据挖掘技术的有效性所采用的数据挖掘技术的有效性用于挖掘的数据质量和数量用于挖掘的数据质量和数量知识发现系统的结构n n知识发现系统管理器知识发现系统管理器n n知识库和商业分析员知识库和商业分析员n n数据仓库的数据库接口数据仓库的数据库接口n n数据选择数据选择n n知识发现引擎知识发现引擎n n知识发现评价知识发现评价n n知识发现描述知识发现描述商业分析员数据仓库知识库接口数据库数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识发现系统管理器:知识发现系统管理器:知识发现系统管理器:知识发现系统管理器:作用是作
6、用是控制并管理整个知控制并管理整个知识发现过程识发现过程 商业分析员数据仓库知识库接口数据库数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识库和商业分析员知识库和商业分析员知识库和商业分析员知识库和商业分析员知识库包含了源于各方面知识库包含了源于各方面的知识。商业分析员要按的知识。商业分析员要按一种有效的方式指导关注一种有效的方式指导关注信息的发现信息的发现。商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n数据仓库的数据库接口数据仓库的数据库接口数据仓库的数据库接口数据仓库的数据库接口知识
7、发现系统的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。可以直接与数据仓库通信。商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n数据选择数据选择数据选择数据选择确定从数据仓库中需要抽确定从数据仓库中需要抽取的数据及数据结构取的数据及数据结构商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识发现引擎知识发现引擎知识发现引擎知识发现引擎将知识库中的抽取算法提将知识库中的抽取算法提供给数据选择构件抽取的供给数据选择构件抽取的数据数据商业分析员数据仓库知
8、识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识发现评价知识发现评价知识发现评价知识发现评价有助于商业分析员筛选模式,有助于商业分析员筛选模式,选出那些关注性的信息选出那些关注性的信息商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识发现描述知识发现描述知识发现描述知识发现描述发现、评价并辅助商业分发现、评价并辅助商业分析员在知识库中保存关注析员在知识库中保存关注性发现结果以备将来引用性发现结果以备将来引用,并保持知识发现与管理人并保持知识发现与管理人员的通信员的通信商业分
9、析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现与数据挖掘的基本概念n n数据挖掘的进化历程数据挖掘的进化历程n n数据挖掘的任务数据挖掘的任务n n数据挖掘的分类数据挖掘的分类n n数据挖掘的对象数据挖掘的对象n n数据挖掘与专家系统的区别数据挖掘与专家系统的区别知识发现与数据挖掘的基本概念n n数据挖掘的进化历程数据挖掘的进化历程n n数据挖掘的任务数据挖掘的任务n n数据挖掘的分类数据挖掘的分类n n数据挖掘的对象数据挖掘的对象n n数据挖掘与专家系统的区别数据挖掘与专家系统的区别数据挖掘的进化历程进进化化阶阶段段商商业问题业问题支持技支持技
10、术术产产品厂家品厂家产产品特点品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrat
11、egy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘的进化历程n n数据挖掘的范围 n n数据库可以由此拓展深度和广度 数据挖掘的进化历程n n数据挖掘的范围 n n数据库可以由此拓展深度和广度 数据挖掘的范围n n“数据挖掘数据挖掘”这这个名字来源于它有点个名字来源于它有点类类似于在山脉中挖掘似于在山脉中挖掘有价有价值值的的矿矿藏藏n n在商在商业应业应用里,它就表用里,它就表现为现为在大型数据在大型数据库库里面搜索有价里面
12、搜索有价值值的商的商业业信息信息n n这这两种两种过过程都需要程都需要对对巨量的材料巨量的材料进进行行详细详细地地过滤过滤,并且需,并且需要智能且精确地定位潜在价要智能且精确地定位潜在价值值的所在。的所在。n n对对于于给给定了大小的数据定了大小的数据库库,数据挖掘技,数据挖掘技术术可以用它如下的可以用它如下的超能力超能力产产生巨大的商生巨大的商业业机会机会:自动趋势预测自动趋势预测 自动探测以前未发现的模式自动探测以前未发现的模式数据挖掘的范围n n“数据挖掘数据挖掘”这这个名字来源于它有点个名字来源于它有点类类似于在山脉中挖掘似于在山脉中挖掘有价有价值值的的矿矿藏藏n n在商在商业应业应用
13、里,它就表用里,它就表现为现为在大型数据在大型数据库库里面搜索有价里面搜索有价值值的商的商业业信息信息n n这这两种两种过过程都需要程都需要对对巨量的材料巨量的材料进进行行详细详细地地过滤过滤,并且需,并且需要智能且精确地定位潜在价要智能且精确地定位潜在价值值的所在。的所在。n n对对于于给给定了大小的数据定了大小的数据库库,数据挖掘技,数据挖掘技术术可以用它如下的可以用它如下的超能力超能力产产生巨大的商生巨大的商业业机会机会:自动趋势预测自动趋势预测 自动探测以前未发现的模式自动探测以前未发现的模式自动趋势预测n n数据挖掘能自数据挖掘能自动动在大型数据在大型数据库库里面找里面找寻寻潜在的潜
14、在的预预测测信息。信息。传统传统上需要很多上需要很多专专家来家来进进行分析的行分析的问题问题,现现在可以快速而直接地从数据中在可以快速而直接地从数据中间间找到答案。找到答案。n n一个典型的利用数据挖掘一个典型的利用数据挖掘进进行行预测预测的例子就是目的例子就是目标营销标营销。数据挖掘工具可以根据。数据挖掘工具可以根据过过去去邮邮件推件推销销中中的大量数据找出其中最有可能的大量数据找出其中最有可能对对将来的将来的邮邮件推件推销销作出反作出反应应的客的客户户。数据挖掘的范围n n“数据挖掘数据挖掘”这这个名字来源于它有点个名字来源于它有点类类似于在山脉中挖掘似于在山脉中挖掘有价有价值值的的矿矿藏
15、藏n n在商在商业应业应用里,它就表用里,它就表现为现为在大型数据在大型数据库库里面搜索有价里面搜索有价值值的商的商业业信息信息n n这这两种两种过过程都需要程都需要对对巨量的材料巨量的材料进进行行详细详细地地过滤过滤,并且需,并且需要智能且精确地定位潜在价要智能且精确地定位潜在价值值的所在。的所在。n n对对于于给给定了大小的数据定了大小的数据库库,数据挖掘技,数据挖掘技术术可以用它如下的可以用它如下的超能力超能力产产生巨大的商生巨大的商业业机会机会:自动趋势预测自动趋势预测 自动探测以前未发现的模式自动探测以前未发现的模式自动探测以前未发现的模式n n数据挖掘工具数据挖掘工具扫扫描整个数据
16、描整个数据库库并辨并辨认认出那些出那些隐隐藏着的藏着的模式,比如通模式,比如通过过分析零售数据来辨分析零售数据来辨别别出表面上看起来出表面上看起来没没联联系的系的产产品,品,实际实际上有很多情况下是一起被售出的上有很多情况下是一起被售出的情况。情况。n n数据挖掘技数据挖掘技术术可以可以让现让现有的有的软软件和硬件更加自件和硬件更加自动动化,化,并且可以在升并且可以在升级级的或者新开的或者新开发发的平台上的平台上执执行。行。n n当数据挖掘工具运行于高性能的并行当数据挖掘工具运行于高性能的并行处处理系理系统统上的上的时时候,它能在数分候,它能在数分钟钟内分析一个超大型的数据内分析一个超大型的数
17、据库库。这这种种更快的更快的处处理速度意味着用理速度意味着用户户有更多的机会来分析数据,有更多的机会来分析数据,让让分析的分析的结结果更加准确可靠,并且易于理解。果更加准确可靠,并且易于理解。数据挖掘的进化历程n n数据挖掘的范围 n n数据库可以由此拓展深度和广度 数据库可以由此拓展深度和广度n n深度上,允深度上,允深度上,允深度上,允许许许许有更多的列存在。有更多的列存在。有更多的列存在。有更多的列存在。以往,在以往,在进进行行较较复复杂杂的数据分析的数据分析时时,专专家家们们限于限于时间时间因素,不因素,不得不得不对对参加运算的参加运算的变变量数量加以限制,但是那些被量数量加以限制,但
18、是那些被丢丢弃而没有弃而没有参加运算的参加运算的变变量有可能包含着另一些不量有可能包含着另一些不为为人知的有用信息。人知的有用信息。现现在,高性能的数据挖掘工具在,高性能的数据挖掘工具让让用用户对户对数据数据库库能能进进行通行通盘盘的深的深度遍度遍历历,并且任何可能参,并且任何可能参选选的的变变量都被考量都被考虑进虑进去,再不需要去,再不需要选选择变择变量的子集来量的子集来进进行运算了。行运算了。n n广度上,允广度上,允广度上,允广度上,允许许许许有更多的行存在。有更多的行存在。有更多的行存在。有更多的行存在。更大的更大的样样本本让产让产生生错误错误和和变变化的概率降低,化的概率降低,这样这
19、样用用户户就能更加就能更加精确地推精确地推导导出一些出一些虽虽小但小但颇为颇为重要的重要的结论结论。知识发现与数据挖掘的基本概念n n数据挖掘的进化历程数据挖掘的进化历程n n数据挖掘的任务数据挖掘的任务n n数据挖掘的分类数据挖掘的分类n n数据挖掘的对象数据挖掘的对象n n数据挖掘与专家系统的区别数据挖掘与专家系统的区别数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测关联分析n n在数据记录的数据项之间发掘关联关系,某些数据项的出现预示着该记录中其它一些数据项出现的可
20、能。n n面包和牛奶的故事关联分析n n关联规则的形式:n n支持度Support:表示该规则所代表的事例占全部事例的百分比表示该规则所代表的事例占全部事例的百分比n n置信度Confidence:表示该规则所代表事例占满足前提条件事例的百表示该规则所代表事例占满足前提条件事例的百分比分比数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测时序模式n n给定一段时间内的数据记录,发掘记录间的相关性,当前记录中某些数据项的出现预示着其它数据项在随后记录中出现的可能性。n n纵向的关联数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n
21、n预测聚类将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类n n聚类原则:同一类别的对象间距离尽可能小;同一类别的对象间距离尽可能小;不同类别的对象间距离尽可能大。不同类别的对象间距离尽可能大。n n考虑对象间的相似性问题数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测分类n n给定属于不同类型的数据记录,根据记录中数据项的特征为每种类型生成分类模型。n n分类模型用于预测新的数据记录所属类型。n n汽车销售的例子n n必须事先给出分类的标号分类决策树分类:规则分类:IF()Then()Else()数据挖掘的任务n n关联分析n n时序模
22、式n n聚类n n分类n n偏差检测n n预测偏差检测n n在数据分析中发现有很多异常情况存在于数据库在数据分析中发现有很多异常情况存在于数据库中,我们可以根据这种异常情况获得很多有用的中,我们可以根据这种异常情况获得很多有用的信息信息n n用于统计试验检测用于统计试验检测n n信用卡欺骗的例子信用卡欺骗的例子数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测预测n n利用历史数据或数据分布依据一定的模型计算出利用历史数据或数据分布依据一定的模型计算出数值数据或识别出未来分布趋势等。数值数据或识别出未来分布趋势等。n n用于分类的预测和用于回归的预测用于分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 知识 发现
限制150内