《数据挖掘概念与技术_课后题答案汇总.pdf》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术_课后题答案汇总.pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘概念概念与技术DataData MiningMiningConcepts andConcepts and T Techniquesechniques习题答案习题答案第 1 章 引言1.1 什么是数据挖掘?在你的回答中,针对以下问题:1.21.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚 类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功 能的例子。解答: 特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征 可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特 征包括作为一种高的年级平均成绩 (GPA:Grade point avers
2、ge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般 特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有 低 GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的 轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生, 而具有低 GPA 的学生的 65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特 征值的 条件。 例如, 一个数 据挖掘 系统可能发现的关联规则为:major(X,“computingscience”) owns(X,“personalcomputer”) su
3、pport=12%,confidence=98%其中,X 是一个表示学生的变量。这个规则指出正在学习的学生, 12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生 拥有一台个人电脑的概率是 98%(置信度,或确定度) 。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型 或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效 的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的 数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性
4、的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、 区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析1.3 1.9 列举并描述说明数据挖掘任务的五种原语。解答:用于指定数据挖掘任务的五种原语是: 任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关
5、于修复的数据排序和分组。 挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。 背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的形式。 模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量,因为一
6、种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。 发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地将知识传给用户,数据挖掘系统应该能将发现的各种形式的模式展示出来,正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。1.4 1.13 描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦 合、 松散耦合、半紧耦合和紧密耦合。你认为哪种方法最流行, 为什么?解答: 数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下。 不耦合:数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始 数据集,因为没有数据库
7、系统或数据仓库系统的任何功能被作为处理过 程的一部分执行。因此,这种构架是一种糟糕的设计。 松散耦合:数据挖掘系统不与数据库或数据仓库集成,除了使用被挖掘 的初始数据集的源数据和存储挖掘结果。这样,这种构架能得到数据库 和数据仓库提供的灵活、高效、和特征的优点。但是,在大量的数据集 中,由松散耦合得到高可测性和良好的性能是非常困难的,因为许多这 种系统是基于内存的。 半紧密耦合:一些数据挖掘原语, 如聚合、分类、或统计功能的预计算,可在数据库或数据仓库系统有效的执行, 以便数据挖掘系统在挖掘-查询 过程的应用。另外,一些经常用到的中间挖掘结果能被预计算并存储到 数据库或数据仓库系统中,从而增强
8、了数据挖掘系统的性能。 紧密耦合:数据库或数据仓库系统被完全整合成数据挖掘系统的一部 份,并且因此提供了优化的数据查询处理。这样的话,数据挖掘子系统 被视为一个信息系统的功能组件。这是一中高度期望的结构,因为它有 利于数据挖掘功能、高系统性能和集成信息处理环境的有效实现。从以上提供的体系结构的描述看,紧密耦合是最优的,没有值得顾虑的技术 和执行问题。但紧密耦合系统所需的大量技术基础结构仍然在发展变化,其实现 并非易事。因此,目前最流行的体系结构仍是半紧密耦合,因为它是松散耦合和 紧密耦合的折中。1.5 1.14 描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。第 2 章 数据预处理2.1
9、 2.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄1551515202050508080110计算数据的近似中位数值。解答: 先判定中位数区间:N=200+450+300+1500+700+44=3194 ;N/2=1597频率200450300150070044 200+450+300=95015972450=950+1500 ; 2050 对应中位数区间。 我们有:L1=20,N=3197,( freq)l=950,freqmedian=1500,width=30,使用公式(2.3) :median L1 N / 2freq 9503197 / 2width 20 3
10、0 32.97lfreqmedian1500median=32.97 岁。2.2 2.4 假定用于分析的数据包含属性 age。数据元组的 age 值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(a) 该数据的均值是什么?中位数是什么?(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。(c) 数据的中列数是什么?(d) 你能 (粗略地) 找出数据的第一个四分位数(Q1) 和第三个四分位数 (Q3) 吗?(e) 给出数据的五数概括。(f) 画出数据的盒图。
11、(g) 分位数分位数图与分位数图的不同之处是什么?解答:(a) 该数据的均值是什么?中位数是什么?1N 809 / 27 29.96 30 (公式 2.1) 。中位数应是第 14均值是: x xiNi1个,即 x14=25=Q2。(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。 这个数集的众数有两个:25 和 35,发生在同样最高的频率处,因此是双峰众数。(c) 数据的中列数是什么? 数据的中列数是最大术和最小是的均值。即:midrange=(70+13)/2=41.5。(d) 你能 (粗略地) 找出数据的第一个四分位数(Q1) 和第三个四分位数 (Q3) 吗?Q1=20。数据集的
12、第一个四分位数应发生在25%处, 即在(N+1)/4=7处。 所以:而第三个四分位数应发生在 75%处,即在 3(N+1)/4=21 处。所以:Q3=35(e) 给出数据的五数概括。一个数据集的分布的 5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总,并且这些数据是:13、20、25、35、70。(f) 画出数据的盒略。(g) 分位数分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘
13、出来。但分位数分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。 两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线( y=x)可画到图中,以增加图像的信息。落在该线以上的点表示在 y 轴上显示的值的分布比 x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。2.3 2.7 使用习题 2.4 给出的 age 数据回答下列问题:(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为 3。解释你的步骤。评述对于给定的数据,该技术的效果。(b) 如何确定数据中的离群点?(c) 对于数据光滑,还有哪些其他方法?解答:(a) 使用
14、分箱均值光滑对以上数据进行光滑,箱的深度为 3。解释你的步骤。评述对于给定的数据,该技术的效果。用箱深度为 3 的分箱均值光滑对以上数据进行光滑需要以下步骤:步骤 1:对数据排序。 (因为数据已被排序,所以此时不需要该步骤。 )步骤 2:将数据划分到大小为 3 的等频箱中。箱 1:13,15,16箱 2:16,19,20箱 3:20,21,224:22,25,25箱 5:25,25,30箱 6:33,33,35箱箱 7:35,35,35箱 8:36,40,45箱 9:46,52,70步骤 3:计算每个等频箱的算数均值。步骤 4:用各箱计算出的算数均值替换每箱中的每个值。箱 1:44/3,44/
15、3,44/3 箱 2:55/3,55/3,55/3箱 3:21,21,214:24,24,24箱箱 7:35,35,355:80/3,80/3,80/3箱6:101/3,101/3,101/3箱箱 8:121/3,121/3,121/3 箱 9:56,56,56 (b) 如何确定数据中的离群点? 聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。 这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。(c) 对于数据光滑,还有哪些其他方法?其它可用来数据光滑的
16、方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层, 这是通过将低级概念上卷到高级概念来光滑数据。2.4 2.10 如下规范化方法的值域是什么?(a) min-max 规范化。(b) z-score 规范化。(c) 小数定标规范化。解答:(a) min-max 规范化。 值域是new_min, new_max。 (b) z-score 规范化。值域是(old _minmean)/ ,(old_max mean)/,
17、总的来说,对于所有可能的数据集的值域是(,+)。(c) 小数定标规范化。值域是(1.0,1.0)。2.5 2.12 使用习题 2.4 给出的 age 数据,回答以下问题:(a) 使用 min-max 规范化将 age 值 35 变换到0.0,1.0区间。(b) 使用 z-score 规范化变换 age 值 35,其中 age 的标准差为 12.94 岁。(c) 使用小数定标规范化变换 age 值 35。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。解答:(a) 使用 min-max 规范化将 age 值 35 变换到0.0,1.0区间。 minA=13,maxA=70,new_mi
18、nA=0.0,new _maxA=1.0,而 v=35,v minAvnew_ minA new_ minAnew_ maxAmaxA minA35 131.0 0.0 0.0 0.386070 13(b) 使用 z-score 规范化变换 age 值 35,其中 age 的标准差为 12.94 岁。13 15 2 16 19 2 20 21 2 22 4 25A 2730 2 33 4 35 36 40 45 46 52 7027809 29.963272i1AAN Ai2 161.2949,AA 12.7002N2i1ANs或Ai AN 167.4986,s2sA12.9421Av=35v
19、v AA35 29.9635.037 0.3966 0.40012.700212.7002v A35 29.9635.037 0.3892 0.39或v ssA12.942112.9421(c) 使用小数定标规范化变换 age 值 35。v35由于最大的绝对值为 70,所以 j=2。v 0.3510j102(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。略。2.6 2.14 假设 12 个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。(a) 等频(等深)划分。(b) 等宽划分。(c) 聚类。 解
20、答:(a) 等频(等深)划分。bin1bin1(b) 等宽划分。bin172,91,204,215每个区间的宽度是:(215-5)/3=705,10,11,1315,35,50,55bin15,10,11,13,15,35,50,55,72bin1bin1(c) 聚类。我们可以使用一种简单的聚类技术:用 2 个最大的间隙将数据分成 3 个箱。91204,215bin15,10,11,13,15bin135,50,55,72,91bin1204,2152.7 2.15 使用习题 2.4 给出的 age 数据,(a) 画出一个等宽为 10 的等宽直方图;(b) 为如下每种抽样技术勾画例子: SRS
21、WOR,SRSWR ,聚类抽样,分层抽样。使用大小为 5 的样本和层“青年” , “中年”和“老年” 。解答:(a) 画出一个等宽为 10 的等宽直方图;876543210152535455565(b) 为如下每种抽样技术勾画例子: SRSWOR,SRSWR ,聚类抽样,分层 抽样。使用大小为 5 的样本和层“青年” , “中年”和“老年” 。元组:T113T1022T1935T215T1125T2035T316T1225T2135T416T1325T2236T519T1425T2340T620T1530T2445T720T1633T2546T821T1733T2652T922T1835T27
22、70SRSWOR 和 SRSWR:不是同次的随机抽样结果可以不同,但前者因无放回所以不能有相同的元组。SRSWOR(n=5)SRSWR(n=5)T4T6T10T11T261620222552T7T7T20T21T252020353546聚类抽样:设起始聚类共有 6 类,可抽其中的 m 类。Sample1T1T2T3T4T51315161619Sample2T6T7T8T9T102020212222Sample3T11T12T13T14T152525252530Sample4T16T17T18T19T203333353535Sample5T21T22T23T24T253536404546Samp
23、le6T26T275270Sample2Sample5T21T22T23T24T253536404546T6T7T8T9T102020212222分层抽样:按照年龄分层抽样时,不同的随机试验结果不同。T113youngT1022T215youngT1125T316youngT1225T416youngT1325T519youngT1425youngyoungyoungyoungyoungT1935middle ageT2035middle ageT2135middle ageT2236middle ageT2340middle ageT620youngT1530middle ageT2445m
24、iddle ageT720youngT1633middle ageT2546middle ageT821youngT1733middle ageT2652middle ageT922youngT1835middle ageT2770seniorT416T1225youngyoungT1733middle ageT2546middle ageT2770Senior2.8 55555555555555555555555555第 3 章 数据仓库与 OLAP 技术概述3.1 3.4 假定 BigUniversity 的数据仓库包含如下 4 个维: student(student_name,area_
25、id , major,status,university),course(course_name,department),semester(semester, year) 和 instructor(dept, rank);2 个度量: count 和 avg_grade。在最低概念层,度量 avg_grade 存放学生的实际课程成绩。在较高概念层,avg_grade 存放给定组合的平均成绩。(a) 为该数据仓库画出雪花形模式图。(b) 由 基 本 方 体 student,course,semester, instructor 开 始 , 为 列 出BigUniversity 每个学生的 CS
26、课程的平均成绩,应当使用哪些特殊的OLAP 操作。(c) 如果每维有 5 层(包括 all) ,如“studentmajorstatusuniversityall ” ,该立方体包含多少方体?解答:a)为该数据仓库画出雪花形模式图。雪花模式如图所示。b)由 基 本 方 体 student, course, semester, instructor 开 始 , 为 列 出BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特殊的OLAP 操作。这些特殊的联机分析处理(OLAP)操作有:i.ii.iii.iv.沿课程(course)维从 course_id“上卷”到 depa
27、rtment。沿学生(student)维从 student_id“上卷”到 university。取 department=“CS”和 university=“Big University” ,沿课程(course)维和学生(student)维切片。沿学生(student)维从 university 下钻到 student_name。c)如果每维有 5 层 (包括 all) , 如 “studentmajorstatusuniversityall ” ,该立方体包含多少方体?这个立方体将包含 54=625 个方体。course维表course_idcourse_nameuniv事实表stude
28、nt_idcourse_idsemester_idinstructor_idstudent维表student_idstudent namearea_idmajorstatusuniversitydepartmentsemester维表semester_idsemesteryearcountavg_gradearea维表area_idcityinstructor维表Instructor_iddeptprovincecountryrank题 3.4 图 题 3.4 中数据仓库的雪花形模式第四章4.1 2008-11-294.2 有几种典型的立方体计算方法,4.3 题 4.12 考虑下面的多特征立方
29、体查询:按item ,regio n,month的所有 子集分组,对每组找出2004 年的最小货架寿命,并对价格低于100 美元、货架 寿命在最小货架寿命的 1.251.5 倍之间的元组找出总销售额部分。d)画出该查询的多特征立方体图。e)用扩充的 SQL 表示该查询。f)这是一个分布式多特征立方体吗?为什么? 解答:(a) 画出该查询的多特征立方体图。 R0R1(1.25*min(shelf)and1.5*min(shelf) (b) 用扩充的 SQL 表示该查询。selectitem, region, month, Min(shelf), SUM(R1)frome where04cube
30、byitem,year=20Purchasregion, month: R1such thatR1.shelf1.25*MIN(Shelf) and (R1.Shelf1.5*MIN(Shelf) andR1.Price0=0=P(X|senior)P(senior);所以:朴素贝叶斯分类器将 X 分到 junior 类。 解二:设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式 。 所以已知:X=(department=system,age=2630,salary=46K50K),元组总数 为:30+40+40+20+5+3+3+10+4+4+6=165 。先验概率:当 status
31、=senior 时,元组总数为:30+5+3+10+4=52,P(senior)=52/165=0.32 ;当status=junior时 , 元 组 总 数 为 : 40+40+20+3+4+6=113,P(junior)=113/165=0.68;因为 status=senior 状态没有对应的 age=2630 区间,所以:P(X|senior)=0;因为 status=junior 状态对应的 partment=systems、age=2630 区间的总元组数为:3,所以:P(X|junior)=3/113; 因为:P(X|junior)P(junior)=3/113113/1650.0180=P(X|senior)P(senior); 所以:朴素贝叶斯分类器将 X 分junior 类。到(d) 为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。(e) 使用上面得到的多层前馈神经网络,给定训练实例( sales,senior,3135,46K50K) ,给出后向传播算法一次迭代后的权重值。指出你使用的初始权重和偏倚以及学习率。
限制150内