数据挖掘原理与SPSS Clementine应用宝典第2章数据挖掘可挖掘的知识类型.ppt
《数据挖掘原理与SPSS Clementine应用宝典第2章数据挖掘可挖掘的知识类型.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与SPSS Clementine应用宝典第2章数据挖掘可挖掘的知识类型.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典第第2章章 数据挖掘可挖数据挖掘可挖掘的知识类型掘的知识类型概念概念/类描述类描述关联模式关联模式分类分类聚类分析聚类分析预测预测时间序列时间序列偏差检测偏差检测2 23 3概念/类描述就是通过对某类对象关联数据的汇总、分析和比较,用汇总的、简洁的、精确的方式对此类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述。特征性描述是指从与某类对象相关的一组数据中提取出关于这些对象的共同特征。生成一个类的特征性描述只涉及该类对象中所有对象的共性。区别性描述描述两个或更多个不同类对象之间的差异。生成
2、区别性描述则涉及目标类和对比类中对象的共性。2.1 概念/类描述4 42.1 概念概念/类描述类描述 数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称作特征规则)形式提供。例如:利用面向属性的归纳方法(AOI),在一个商场数据库(2000销售)中进行属性归纳操作,获得了如下的归纳结果:表2-1 AOI方法挖掘结果表格表示示意描述 地点地点商品商品销售额(百万)销售额(百万)个数累计(千)个数累计(千)亚洲亚洲欧洲欧洲北美北美亚洲亚洲欧洲欧洲北美北美 电视电视电视电视电视电视电脑电脑电脑电脑电脑电脑 151228120
3、150200 300250450100012001800 5 52.1 概念概念/类描述类描述 对于以上结果,也可以用组合表(crosstab)或其他图表的形式来加以描述。数据分析中可视化图示非常普遍。表2-2 对应表2-1的组合表表示描述 图2-1 对应表2-2棒图表示描述 TVComputerTV+ComputersalescountsalescountsalescountAsia1530012010001351300Europe1225015012001621450North_Amaerica2845020018002282250All_region4510004704000525500
4、0 itemLocation6 62.1 概念概念/类描述类描述图2-2 对应表2-1(部分数据)的饼图表示描述北美51%亚洲27%欧洲22%电视销售图7 72.1 概念概念/类描述类描述 区别性描述是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。这种比较必须是在具备可比性的两个或多个类之间进行。例如,对某校讲师和副教授的特征进行比较,可能会得到这样一条规则:“讲师:(78%)(paper3)and(teaching course=3)and(teaching course=2)”;该对比规则表示该校讲师中约有四分至三的人发表论文少于三篇且主讲课程不超过一门;而对比之下该校副教授
5、中约有三分至二的人发表论文不少于三篇且主讲课程不少于一门。8 82.2 关联模式关联模式 关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互依赖关系。这种存在于给定数据集中的频繁出现的关联模式,又称为关联规则。关联可分为简单关联、时序关联、因果关联等。这些关联并不总是事先知道,而是通过数据库中数据的关联分析获得的,其对商业决策具有重要价值。因而关联分析广泛用于市场营销、事务分析等应用领域。挖掘关联知识的一个典型应用实例就是市场购物分析。根据被放到一个购物袋的(购物)内容记录数据而发现的不同(被购买)商品之间所存在的关联知识无疑将会帮助商家分析顾客的购买习惯。发现常在一起被购买的商品(
6、关联知识)将帮助商家指定有针对性的市场策略。比如:顾客在购买牛奶时,是否也可能同时购买面包或会购买哪个牌子的面包,显然能够回答这些问题的有关信息肯定回有效地帮助商家进行有针对性的促销,以及进行合适的货架商品摆放。如可以将牛奶和面包放在相近的地方或许会促进这两个商品的销售。9 92.2 关联模式关联模式根据关联规则所涉及变量的多少,可以分为多维关联规则和单维关联规则。通常,关联规则具有:X Y的形式,即”A1.Am B1.Bn”的规则;其中,Ai(i1,.,m),Bj(j1,.,n)是属性-值对。关联规则X Y解释为“满足X中条件的数据库元组多半也满足Y中条件”。例如:一个数据挖掘系统可以从一个
7、商场的销售(交易事务处理)记录数据中,挖掘出如下所示的关联规则:age(X,”20-29”)income(X,”20K-30K”)buys(X,”mp3”)support=2%,confidence=60%上述关联规则表示:该商场有的顾客年龄在20岁到29岁且收入在2万到3万之间,这群顾客中有60%的人购买了MP3,或者说这群顾客购买MP3的概率为六成。这一规则涉及到年龄、收入和购买三个变量(即三维),可称为多维关联规则。10102.2 关联模式关联模式 对于一个商场经理,或许更想知道哪些商品是常被一起购买,描述这种情况的一条关联规则可能是:Contains(X,”computer”)cont
8、ain(X,”software”)support=1%,confidence=60%上述关联规则表示:该商场1%销售交易事物记录中包含“computer”和“software”两个商品;而对于一条包含(购买)“computer”商品的交易事物记录有60%可能也包含(购买)”software”商品。这条记录中由于只涉及到购买事物这一个变量,所以称为单维关联规则。11112.3 分类分类 分类是数据挖掘中一项非常重要的任务,利用分类可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘原理与SPSS Clementine应用宝典第2章 数据挖掘可挖掘的知识类型 数据 挖掘 原理 SPSS Clementine 应用 宝典 知识 类型
限制150内