第5章概念描述特征化与比较课件.ppt
《第5章概念描述特征化与比较课件.ppt》由会员分享,可在线阅读,更多相关《第5章概念描述特征化与比较课件.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章 概念描述:特征化与比较n什么是概念描述? n数据概化和基于汇总的特征化n解析特征化:属性相关分析n挖掘类比较:区分不同的类n在大型数据库中挖掘描述统计度量n讨论n小结什么是概念描述?n概念描述 : n特征化: 提供给定数据的简洁汇总n比较: 提供两个或多个数据汇集的比较描述概念描述与OLAP的比较n概念描述: n 能处理复杂数据类型的属性和它们的聚集n 更加自动运行nOLAP: n简单的数据分析模型n用户控制运行数据概化和基于汇总的特征化n数据概化n是一个将大的任务相关的数据集从较低的概念层抽象到较高的概念层n方法:n数据立方体方法n面向属性的归纳方法12345概念上的层次面向属性归纳
2、n1989年首次提出n基本思想n使用关系数据库查询收集相关的数据n考察数据每个属性的不同值的个数,进行概化n概化可以通过属性删除,或者属性概化进行n与用户交互.例子nDMQL: 描述了大学数据库毕业学生的情况use Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “graduate”n对应 SQL 语句:
3、Select name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “Msc”, “MBA”, “PhD” 类描述:一个例子NameGenderMajorBirth-PlaceBirth_dateResidencePhone #GPAJimWoodman M CSVancouver,BC,Canada 8-12-763511 Main St.,Richmond687-45983.67ScottLachance M CSMontreal, Que,Canada
4、28-7-75345 1st Ave.,Richmond253-91063.70Laura Lee FPhysicsSeattle, WA, USA25-8-70125 Austin Ave.,Burnaby420-52323.83RemovedRetainedSci,Eng,BusCountryAge rangeCityRemovedExcl,VG,.GenderMajorBirth_regionAge_rangeResidenceGPACount MScience Canada 20-25RichmondVery-good 16 FScience Foreign 25-30BurnabyE
5、xcellent 22 Birth_RegionGenderCanadaForeignTotal M 16 14 30 F 10 22 32 Total 26 36 62Prime Generalized RelationInitial Relation导出概化的表示n交叉表:n直接将数据立方体结构影射到交叉表n条形图,饼图,曲线n量化特征规则:n将概化结果影射成量化特征规则.%47: )(_%53: )(_)()(tforeignxregionbirthtCanadaxregionbirthxmalexgrad表达-概化关系交叉表属性相关分析n为什么?n哪些维要包含进来? n概化到哪个层次?
6、n自动化和交互性n减少属性,提供容易理解的模式n什么?n对预处理数据的统计方法n适当和维与层次关联n概化分析和比较分析 属性相关分析n如何分析?n收集数据n概化分析n相关性分析n选择最相关的维和层次n面向属性归纳的类描述n在选择的维和层次上nOLAP 操作(如上钻,下卷)熵与信息增益nS 包含 si 个 Ci 类样本 i = 1, , m n值为a1,a2,av,属性为A的熵nA上该划分的获得的信息增益定义为sslogss),.,s,ssI(imiim2121)s,.,s( Iss.sE(A)mjjvjmjj111E(A)s,.,s ,I(sGain(A)m21解析特征化:一个例子gender
7、majorbirth_countryage_rangegpacountMScienceCanada20-25Very_good16FScienceForeign25-30Excellent22MEngineeringForeign25-30Excellent18FScienceForeign25-30Excellent25MScienceCanada20-25Excellent21FEngineeringCanada20-25Excellent18Candidate relation for Target class: Graduate students ( =120)gendermajorb
8、irth_countryage_rangegpacountMScienceForeign20Very_good18FBusinessCanada20Fair20MBusinessCanada20Fair22FScienceCanada20-25Fair24MEngineering Foreign20-25Very_good22FEngineering Canada20Excellent24对比类关系对比类关系:未毕业学生未毕业学生 ( =130)解析特征化:一个例子n3. 相关分析n计算分类需要的相关信息n计算每个属性的熵:如 major9988025013025013025012025012
9、01301202221.loglog),I()s ,I(sFor major=”Science”:S11=84S21=42I(s11,s21)=0.9183For major=”Engineering”:S12=36S22=46I(s12,s22)=0.9892For major=”Business”:S13=0S23=42I(s13,s23)=0Number of grad students in “Science”Number of undergrad students in “Science”解析特征化的例子n如果S根据属性划分,计算所要的信息n计算每个属性的信息增益n每个属性的信息增益
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概念 描述 特征 比较 课件
限制150内