《数据仓库与数据挖掘习题.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘习题.ppt(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、习题一一假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l(a)使用min-max规范化将age值35变换到0.0,1.0区间。l(b)使用z-score规范化变换age值35,其中age的标准差为12.94岁。l(c)使用小数定标规范化变换age值35。l(d)对于给定的数据,你愿意使用哪种方法?陈述你的理由。解答一解答一(a)使用min-max规范化将age值35变换到0.0,1.0区间。minA=13,maxA
2、=70,new_minA=0.0,new_maxA=1.0,而v=35,(b)使用z-score规范化变换age值35,其中age的标准差为12.94岁。解答一解答一(续)(c)使用小数定标规范化变换age值35。由于最大的绝对值为70,所以j=2。(d)对于给定的数据,你愿意使用哪种方法?陈述你的理由。答:更倾向于选择小数定标规范化。因为小数定标规范化会保持数据的分布,这种变换更直观并容易解释 习题二二2.14 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。l(a)等频(等深)划分。l(b)等
3、宽划分。解答二解答二(a)等频(等深)划分。(b)等宽划分。每个区间的宽度是:(215-5)/3=70bin15,10,11,13bin115,35,50,55bin172,91,204,215bin15,10,11,13,15,35,50,55,72bin191bin1204,215习题三三3假定BigUniversity的数据仓库包含如下4个维:student(student_name,area_id,major,status,university),course(course_name,department),semester(semester,year)和instructor(dept
4、,rank);2个度量:count和avg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。(a)为该数据仓库画出雪花形模式图。(b)由基本方体student,course,semester,instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。(c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?解答三解答三解答三解答三b)由基本方体student,course,semest
5、er,instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。这些特殊的联机分析处理(OLAP)操作有:l沿课程(course)维从course_id“上卷”到department。l沿学生(student)维从student_id“上卷”到university。l取department=“CS”和university=“Big University”,沿课程(course)维和学生(student)维切块。l沿学生(student)维从university下钻到student_name。c)如果每维有5层(包括all),如“st
6、udentmajorstatusuniversityall”,该立方体包含多少方体?l这个立方体将包含54=625个方体。习题四四4 假定数据仓库包含4个维:date(day,month,quarter,year),spectator(spectator_name,status,phone,address),location(location_name,phone#,street,city,province,country)和game(game_name,description,description,producer);2个度量:count和charge。其中,charge是观众在给定的日期
7、观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。(b)由基本方体 date,spectator,location,game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?解答四解答四解答四解答四(b)由基本方体 date,spectator,location,game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?这些特殊的联机分析处理(OLAP)操作有:沿date维从date id“上卷”到year沿game维从game id“上卷”到all沿loca
8、tion维从location id“上卷”到location name沿spectator维从spectator id“上卷”到status取status=“students”,location name=“GM Place”和year=2004切块习题五五5给定两个对象,分别表示为(22,1,42,10),(20,0,36,8):l(a)计算两个对象之间的欧几里得距离l(b)计算两个对象之间的曼哈顿距离l(c)计算两个对象之间的明考斯基距离,p=3习题六六假设数据挖掘的任务是将如下 8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),
9、B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧几里德距离.假设初始选择A1,B1,C1为每个聚类的中心.用k-平均算法来给出(a)在第一次循环执行后的三个聚类中心(b)最后的三个簇解答六解答六(a)(2,10),(6,6),(1.5,3.5)(b)lA1 B1 C2lA3 B2 C3lA2 C1d2A1A2A3B1B2B3C1C2102536+369+425+2516+361+644+129+49+99+1604+91+1616+361+131+641+95316+364529058第一次迭代:中心为1:A1(2,10),2:B1(5,8),3:C1(1,2)因此:
10、1:A1 (2,10)2:A3,B1,B2,B3,C2 (6,6)3:A2,C1(1.5,3.5)d2A1A2A3B1B2B3C1C2102536+369+425+2516+361+644+123217852441133.52+6.52.52+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第二次迭代:中心为1:(2,10),2:(6,6),3:(1.5,3.5)1:A1,C2 (3.5,9.5)2:A3,B1,B2,B3 (6.5,5.25)3:A2,C1(1.5,3.5)d2A1A2A3B1B2B3C1C211+.521+
11、4.5252+5.5222+1.5242+4.5232+5.5222+7.5212+.5224.52+7.524.52+0.2521.52+1.2521.52+2.752.52+0.252.52+1.2525.52+3.2522.52+3.7523.52+6.52.52+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第三次迭代:中心为1:(3.5,9.5),2:(6.5,5.25),3:(1.5,3.5)1:A1,B1,C2 (11/3,9)2:A3,B2,B3 (7,13/3)3:A2,C1(1.5,3.5)d2A1A2A3B1B2B3C1C2123.52+6.52.52+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第四次迭代:中心为1:(11/3,9),2:(7,13/3),3:(1.5,3.5)1:A1,B1,C2 (11/3,9)2:A3,B2,B3 (7,13/3)3:A2,C1(1.5,3.5)
限制150内