第5章概念描述特征化与比较课件.ppt
第五章 概念描述:特征化与比较n什么是概念描述? n数据概化和基于汇总的特征化n解析特征化:属性相关分析n挖掘类比较:区分不同的类n在大型数据库中挖掘描述统计度量n讨论n小结什么是概念描述?n概念描述 : n特征化: 提供给定数据的简洁汇总n比较: 提供两个或多个数据汇集的比较描述概念描述与OLAP的比较n概念描述: n 能处理复杂数据类型的属性和它们的聚集n 更加自动运行nOLAP: n简单的数据分析模型n用户控制运行数据概化和基于汇总的特征化n数据概化n是一个将大的任务相关的数据集从较低的概念层抽象到较高的概念层n方法:n数据立方体方法n面向属性的归纳方法12345概念上的层次面向属性归纳n1989年首次提出n基本思想n使用关系数据库查询收集相关的数据n考察数据每个属性的不同值的个数,进行概化n概化可以通过属性删除,或者属性概化进行n与用户交互.例子nDMQL: 描述了大学数据库毕业学生的情况use Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “graduate”n对应 SQL 语句:Select name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “Msc”, “MBA”, “PhD” 类描述:一个例子NameGenderMajorBirth-PlaceBirth_dateResidencePhone #GPAJimWoodman M CSVancouver,BC,Canada 8-12-763511 Main St.,Richmond687-45983.67ScottLachance M CSMontreal, Que,Canada28-7-75345 1st Ave.,Richmond253-91063.70Laura Lee FPhysicsSeattle, WA, USA25-8-70125 Austin Ave.,Burnaby420-52323.83RemovedRetainedSci,Eng,BusCountryAge rangeCityRemovedExcl,VG,.GenderMajorBirth_regionAge_rangeResidenceGPACount MScience Canada 20-25RichmondVery-good 16 FScience Foreign 25-30BurnabyExcellent 22 Birth_RegionGenderCanadaForeignTotal M 16 14 30 F 10 22 32 Total 26 36 62Prime Generalized RelationInitial Relation导出概化的表示n交叉表:n直接将数据立方体结构影射到交叉表n条形图,饼图,曲线n量化特征规则:n将概化结果影射成量化特征规则.%47: )(_%53: )(_)()(tforeignxregionbirthtCanadaxregionbirthxmalexgrad表达-概化关系交叉表属性相关分析n为什么?n哪些维要包含进来? n概化到哪个层次?n自动化和交互性n减少属性,提供容易理解的模式n什么?n对预处理数据的统计方法n适当和维与层次关联n概化分析和比较分析 属性相关分析n如何分析?n收集数据n概化分析n相关性分析n选择最相关的维和层次n面向属性归纳的类描述n在选择的维和层次上nOLAP 操作(如上钻,下卷)熵与信息增益nS 包含 si 个 Ci 类样本 i = 1, , m n值为a1,a2,av,属性为A的熵nA上该划分的获得的信息增益定义为sslogss),.,s,ssI(imiim2121)s,.,s( Iss.sE(A)mjjvjmjj111E(A)s,.,s ,I(sGain(A)m21解析特征化:一个例子gendermajorbirth_countryage_rangegpacountMScienceCanada20-25Very_good16FScienceForeign25-30Excellent22MEngineeringForeign25-30Excellent18FScienceForeign25-30Excellent25MScienceCanada20-25Excellent21FEngineeringCanada20-25Excellent18Candidate relation for Target class: Graduate students ( =120)gendermajorbirth_countryage_rangegpacountMScienceForeign20Very_good18FBusinessCanada20Fair20MBusinessCanada20Fair22FScienceCanada20-25Fair24MEngineering Foreign20-25Very_good22FEngineering Canada20Excellent24对比类关系对比类关系:未毕业学生未毕业学生 ( =130)解析特征化:一个例子n3. 相关分析n计算分类需要的相关信息n计算每个属性的熵:如 major998802501302501302501202501201301202221.loglog),I()s ,I(sFor major=”Science”:S11=84S21=42I(s11,s21)=0.9183For major=”Engineering”:S12=36S22=46I(s12,s22)=0.9892For major=”Business”:S13=0S23=42I(s13,s23)=0Number of grad students in “Science”Number of undergrad students in “Science”解析特征化的例子n如果S根据属性划分,计算所要的信息n计算每个属性的信息增益n每个属性的信息增益787302504225082250126231322122111.)s ,s( I)s ,s( I)s ,s( IE(major)2115021.E(major)s ,I(s)Gain(majorGain(gender)= 0.0003Gain(birth_country)= 0.0407Gain(major)= 0.2115Gain(gpa)= 0.4490Gain(age_range)= 0.5971挖掘类比较n比较:比较两个或者两个以上的类.n方法:n将相关的数据集划分成一个目标类和一个或多个比较类n将所有的类概化到相同的层次n比较相同层次的描述n每个类提供它的描述和两个度量n相关分析:n寻找最好区别两个类的属性例子:比较分析n任务n运用判别规则区分毕业学生和未毕业学生.nDMQL 查询use Big_University_DBmine comparison as “grad_vs_undergrad_students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafor “graduate_students”where status in “graduate”versus “undergraduate_students”where status in “undergraduate”analyze count%from student例子:比较分析Birth_country Age_rangeGpaCount%Canada20-25Good5.53%Canada25-30Good2.32%CanadaOver_30Very_good5.86%OtherOver_30Excellent4.68%目标类目标类: Graduate studentsBirth_country Age_rangeGpaCount%Canada15-20Fair5.53%Canada15-20Good4.53%Canada25-30Good5.02%OtherOver_30Excellent0.68%比较类比较类: Undergraduate students量化区分规则nCj = target classnqa = 覆盖目标类的某些元组nd-weightn范围: 0, 1n量化区分规则的形式:miiaja)Ccount(q)Ccount(qweightd1d_weight:dX)condition(ss(X)target_claX,例子:量化区分规则n量化区分规则nwhere 90/(90+120) = 30%StatusBirth_countryAge_rangeGpaCountGraduateCanada25-30Good90UndergraduateCanada25-30Good210计算 graduate and undergraduate students 之间的比例%30:)(3025)(_)(_)(_,dgoodXgpaXrangeageCanadaXcountrybirthXstudentgraduateX类描述 n量化特征规则n必要条件n量化比较规则n充分条件n量化描述规则n充分必要条件w:d,w:t.w:d,w:tnn111(X)condition(X)conditionss(X)target_claX,nd_weight:dX)condition(ss(X)target_claX,t_weight:tX)condition(ss(X)target_claX,例子:量化描述规则n目标类欧洲的量化描述规则30%:d75%,:t40%:d25%,:t)computer(item(X)TV(item(X)Europe(X)X,Location/item TV Computer Both_items Count t-wt d-wt Count t-wt d-wt Count t-wt d-wt Europe 80 25% 40% 240 75% 30% 320 100% 32% N_Am 120 17.65% 60% 560 82.35% 70% 680 100% 68% Both_ regions 200 20% 100% 800 80% 100% 1000 100% 100% z 度量数据的离散度n动机n更好的理解数据:度量中心趋势,度量离散度等n数据差量特征 n中值,最大值,最小值,分位数,变异数n多粒度精度分析n有序的间隔进行分位数分析n在计算度量上进行离散度分析计算中心趋势n平均数n算术平均数n中值:n模n某个值在数据里面的频率niixnx11niiniiiwxwx11cflfnLmedianmedian)(2/(1)(3medianmeanmodemean数据离散度的计算n四分位数,盒图n四分位数: Q1 (25th 百分位数), Q3 (75th百分位数)n中间四分位数区间: IQR = Q3 Q1 n五数概括: min, Q1, M, Q3, maxn盒图:盒的端点在四分位数上,中位数用盒内的线标记,盒外的两条线延伸到最小和最大观测值n方差和标准方差n方差 s2n标准方差:niniiiniixnxnxxns1122122)(111)(11 Boxplot AnalysisnFive-number summary of a distribution:Minimum, Q1, M, Q3, MaximumnBoxplotnData is represented with a boxnThe ends of the box are at the first and third quartiles, i.e., the height of the box is IRQnThe median is marked by a line within the boxnWhiskers: two lines outside the box extend to Minimum and Maximum盒图A boxplot盒图分析:数据离散度的可视化在大型数据库中挖掘描述统计度量n方差n标准方差:方差的开方根22122111)(11iiniixnxnxxns柱状图分析n基本统计类描述的图形显示n频率直方图n一种单变量图形方法n直方图由一组矩形组成,这些矩形反映类在给定数据中出现的计数或频率分位数图n显示所有的数据n绘出了分位数信息n每个观测值xi与一个百分数 fi 对应,指出大约 100 fi% 的数据小于等于xi分位数-分位数图或q-q图n对着另一个分位数n允许用户可以观察从一个分布到另一个分布是否有移位散步图n确定两个量化变量之间看上去是否有联系,模式或趋势的最有效的图形方法Loess 曲线n添加一条平滑曲线到散布图,以便更好的理解以来模式概念描述的增量挖掘和并行挖掘n增量描述基于新增加的数据 DBn归纳 DB ,将属性概化到与R对应属性关系相同的的概念层 R n合并 R U Rn可以研究概念描述的选样方法,并行算法和分布式算法