数据挖掘章概念描述特征化与比较.ppt
《数据挖掘章概念描述特征化与比较.ppt》由会员分享,可在线阅读,更多相关《数据挖掘章概念描述特征化与比较.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘章概念描述特征化与比较 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望特征化和比较特征化和比较n什么是概念描述什么是概念描述?n数据概化和基于汇总的特征化数据概化和基于汇总的特征化n解析特征化解析特征化:分析属性之间的关联性分析属性之间的关联性n挖掘类比较挖掘类比较:获取不同类之间的不同处获取不同类之间的不同处n在大型数据库中挖掘描述统计度量在大型数据库中挖掘描述统计度量n讨论讨论n总结总结2022/11/132什么是概念描述什么是概念描述?n描述性 vs
2、.预测性 数据挖掘n描述性数据挖掘描述性数据挖掘:n预测性数据挖掘预测性数据挖掘:n概念描述:n特征化特征化:对所选择的数据集给出一个简单明了的描述,汇总n比较比较:提供对于两个或多个数据集进行比较的描述2022/11/133概念描述和概念描述和OLAPOLAP区别区别n概念描述:n 能够处理复杂的数据类型和各种汇总方法n 更加自动化nOLAP:OLAP:n只能限制于少量的维度和数据类型n用户控制的流程2022/11/134特征化和比较特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大
3、型数据库中挖掘描述统计度量n讨论n总结2022/11/135数据概化和基于汇总的特征化数据概化和基于汇总的特征化n数据概化n将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高的层次n方法:nOLAP方法:n面向属性的归纳2022/11/136OLAPOLAP方法方法n在数据立方体上进行计算和存储结果n优点n效率高n能够计算多种汇总n如:count,average,sum,min,maxn还可以使用roll-down和roll-up操作n限制n只能处理非数值化数据和数值数据的简单汇总。n只能分析,不能自动的选择哪些字段和相应的概念层次2022/11/137面向属性的归纳nKDD Work
4、shop(89)中提出n不限制于种类字段和特定的汇总方法n方法介绍:n使用SQL等收集相关数据n通过数据属性值删除和属性值概化来实现概化n聚集通过合并相等的广义元组,并累计他们对应的计数值进行n和使用者之间交互式的呈现方式.2022/11/138基本方法基本方法n数据聚焦数据聚焦:选择和当前分析相关的数据,包括维。n属性删除属性删除:如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。n属性概化属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。n属性阈值控制属性阈值控制:typical 2-8,specif
5、ied/default.n概化关系阈值控制概化关系阈值控制:控制最终关系的大小2022/11/139基本算法基本算法nInitialRelInitialRel:得到相关数据,形成初始关系表nPreGen:通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。nPrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。n结果的表示结果的表示:概化关系、交叉表、3D立方体2022/11/1310示例示例nDMQL:use Big_University_DBmine characteristics as“Science_Students”in rel
6、evance to name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status in“graduate”n相应的相应的SQL:SQL:Select name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status in“Msc”,“MBA”,“PhD”2022/11/1311类特征化:示例类特征化:示例Prime Generalized RelationInitial Relat
7、ion2022/11/1312概化结果的表示概化结果的表示n概化关系:n一个表格,其中有属性字段,后附汇总方法。n交叉表:n二维交叉表n可视化方法:nPie charts,bar charts,curves,cubes,and other visual forms.n量化特征规则:(上表与上表与136页例页例4.26)2022/11/1313表达方式表达方式-概化关系概化关系(133页例页例4.22)2022/11/1314表达方式表达方式交叉表交叉表(133页例页例4.23)2022/11/1315使用使用CubeCube技术进行实现技术进行实现n对给定的数据动态创建数据立方体:对给定的数据
8、动态创建数据立方体:n便于有效的下钻操作n可能增加响应时间n解决方法:实现存储一些较高层次的统计信息。n使用预定义的数据立方体:使用预定义的数据立方体:n预先构建数据立方体nCube计算的花费和额外的存储空间2022/11/1316特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化分析特征化:分析属性之间的关联性分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2022/11/1317属性相关性分析属性相关性分析nwhy?n哪些维需要包括?n需要概化到什么层次?n减少属性;从而容易理解模型结果nWhat?n使用统计的方法进行
9、数据预处理n过滤掉一些不相关或者相关性比较弱的字段n保留并对相关属性进行排序n相关性和维度、层次有关n分析特征化,分析比较 2022/11/1318属性相关性分析属性相关性分析n步骤:n数据收集n使用保守的AOI进行预相关分析n相关性分析,删除不相关和弱相关属性n使用AOI产生概念描述2022/11/1319相关性度量标准相关性度量标准n相关性度量标准决定了如何对属性进行判断的标准n方法n信息增益information gain(ID3)n增益比gain ratio(C4.5)nGini索引gini indexn不确定性n相关系数2022/11/1320Entropy 和 Informatio
10、n Gainn集合S中类别Ci的记录个数是si 个 i=1,m n期望信息n属性A的熵是n信息增益2022/11/1321一个例子一个例子(131页例页例5.9)n任务n使用分析特征化来了解研究生的一般特征n属性名称 gender,major,birth_place,birth_date,phone#,and gpanGen(ai)=concept hierarchies on ainUi=attribute analytical thresholds for ainTi=attribute generalization thresholds for ainR=attribute releva
11、nce threshold2022/11/1322例子:分析特征化(续)例子:分析特征化(续)n1.数据收集ntarget class:graduate studentncontrasting class:undergraduate studentn2.使用 Ui分析概化n属性删除nremove name and phone#n属性概化n generalize major,birth_place,birth_date and gpanaccumulate countsn候选关系:gender,major,birth_country,age_range and gpa2022/11/1323例子
12、:分析特征化例子:分析特征化(2)(2)Candidate relation for Target class:Graduate students(=120)Candidate relation for Contrasting class:Undergraduate students(=130)2022/11/1324例子:分析特征化例子:分析特征化(3)(3)n3.相关性分析n计算期望信息n计算每个属性的熵Number of grad students in“Science”Number of undergrad students in“Science”2022/11/1325例子:分析特征
13、化例子:分析特征化(4)(4)n得出每个属性的熵n计算每个属性的Information GainnInformation gain for all attributes2022/11/1326例子:分析特征化例子:分析特征化(5)(5)n4.Initial working relation(W0)derivationnR=0.1n删除不相关或者弱相关的属性=drop gender,birth_countryn删除比较类的关系n5.在W0进行AOI分析Initial target class working relation W0:Graduate students2022/11/1327特征化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 描述 特征 比较
限制150内