《2022年数据挖掘_概念与技术部分习题答案 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘_概念与技术部分习题答案 .pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER 数据模型。相似:它们都为数据挖掘提供了源数据,都是数据的组合。1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。答:特征化 是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮
2、廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。区分 是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高 GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高 GPA 的学生的 75% 是四年级计算机科学专业的学生,而具有低GPA 的学生的 65% 不是。关联 是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing scien
3、ce”) ? owns(X, “personal computer”) support=12%, confidence=98% 其中, X 是一个表示学生的变量。这个规则指出正在学习的学生, 12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98% (置信度,或确定度)。分类与预测 不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。聚类分析 的数据对
4、象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。数据演变分析 描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄频率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 计算数据
5、的近似中位数值。解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 200+450+300=95015972450=950+1500 ; 2050 对应中位数区间。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 19 页 median=32.97 岁。2.2 假定用于分析的数据包含属性age。数据元组的age 值(以递增序)是:13,15,16,16,19, 20,20,21,22,22,25,25,25,25,30, 33,33,35, 35,35,35,36,40,45,46,52
6、, 70。答: (a) 该数据的均值是什么?中位数是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27 =29.96 中位数应是第 14个, 即x14=25=Q2。(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。这个数集的众数有两个:25 和35, 发生在同样最高的频率处, 因此是双峰众数。(c) 数据的中列数是什么?数据的中列数是最大数和最小数的均值。即:midrange=(70+13)/2=41.5。(d) 你能(粗略地)找出数据的第一个四分位数(
7、Q1)和第三个四分位数(Q3)吗?数据集的第一个四分位数应发生在25% 处,即在 (N+1)/4= (27+1)/4=7 处。所以:Q1=20。而第三个四分位数应发生在75% 处, 即在 3(N+1)/4=21 处。所以:Q3=35 (e) 给出数据的五数概括。一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。(f) 画出数据的盒图。 (g) 分位数分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样 , 他可以
8、展示所有数的分位数信息, 而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。 但分位数分位数图用纵轴表示一种单变量分布的分位数, 用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域, 且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比 x 轴的相应的等同分位数对应的值的分布高。反之, 对落在该线以下的点则低。2.4 假设医院检测随机选择的18 个成年人年龄和身体脂肪数据,得到如下结果:(a) 计算年龄和脂肪百分比的均值、中位数和标准差. 年龄均值 =(23+23+27+27+39+4
9、1+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位数 = (50+52)/2=51, 标准差 =方差的平方根=开根号( 1/n(Xi)2-1/n( Xi)2 )=开根号 1/182970.44=12.85. 脂肪百分比均值=28.78, 中位数 =30.7, 标准差 = 8.99. (b)绘制年龄和脂肪百分比的盒图精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 19 页(c) 根据这两个属性, 绘制散布图 , 各 q-q 图 q-q图散布图(d) 根据 z-score
10、规范化来规范化这两个属性(P46)(e) 计算相关系数( 皮尔逊积矩系数). 这两个变量是正相关还是负相关? ra,b= (ai-A)(bi-B)/N AB= ( (aibi)-NAB ) /N AB=( (aibi)-18*46.44*28.78)/18*12.85*8.99=0.82 相关系数是 0.82。变量呈正相关。3.3 使用习题2.4 给出的 age 数据回答下列问题: (a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给定的数据,该技术的效果。 (b) 如何确定数据中的离群点? (c) 对于数据光滑,还有哪些其他方法?精选学习资料 - - - - -
11、 - - - - 名师归纳总结 - - - - - - -第 3 页,共 19 页解答: (a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。 评述对于给定的数据,该技术的效果。用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤:步骤 1:对数据排序。 (因为数据已被排序,所以此时不需要该步骤。)步骤 2:将数据划分到大小为3 的等频箱中。箱 1:13,15,16 箱 2:16, 19,20 箱 3:20,21, 22 箱 4:22,25,25 箱 5:25, 25,30 箱 6:33,33, 35 箱 7:35,35,35 箱 8:36, 40,45 箱 9:46
12、,52, 70 步骤 3:计算每个等频箱的算数均值。步骤 4:用各箱计算出的算数均值替换每箱中的每个值。箱 1:44/3 ,44/3 ,44/3 箱 2:55/3 ,55/3 ,55/3 箱 3:21,21,21 箱 4:24,24,24 箱 5: 80/3 ,80/3 , 80/3 箱 6 : 101/3,101/3 , 101/3 箱 7:35,35,35 箱 8:121/3 ,121/3 ,121/3 箱 9:56,56,56 (b) 如何确定数据中的离群点?聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而
13、计算机用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。 (c) 对于数据光滑,还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。3.5 如下规范化方法的值域是什么?答:(a) min-max 规范化。值域是 new_min, new_max 。(b) z-score 规范化。值
14、域是 (old_minmean)/ ,(old_max mean)/ ,总的来说,对于所有可能的数据集的值域是( , +) 。(c) 小数定标规范化。值域是 ( 1.0,1.0)。3.7使用习题 2.4 给出的 age 数据,回答以下问题:(a) 使用 min-max 规范化将age 值 35 变换到 0.0 , 1.0区间。(b) 使用 z-score 规范化变换age 值 35,其中 age 的标准差为12.94 岁。(c) 使用小数定标规范化变换age 值35。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。解答:精选学习资料 - - - - - - - - - 名师归纳总结
15、- - - - - - -第 4 页,共 19 页3.9 假设 12 个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。(a) 等频(等深)划分。(b) 等宽划分。(c) 聚类。解答:(a) 等频(等深)划分。bin15,10,11,13bin115,35,50,55bin1 72,91,204,215 (b) 等宽划分。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 19 页第 3章数据仓库与OLAP 技术概述每个区间的宽度是:(215-5)/3=
16、70bin15,10,11,13,15,35,50,55,72bin191bin1204,215(c) 聚类。我们可以使用一种简单的聚类技术:用2 个最大的间隙将数据分成3 个箱。bin15,10,11,13,15bin135,50,55,72,91bin1204,2153.11 使用习题 2.4 给出的 age 数据,(a) 画出一个等宽为10 的等宽直方图;(b) 为如 下每种抽 样技术勾 画例子: SRSWOR ,SRSWR ,聚类抽样,分层 抽样。使用大小为5 的样本和层“青年” ,“中年”和“老年”。解答:(a) 画出一个等宽为10 的等宽直方图;87654321015 25 35
17、45 55 65(b) 为如 下每种抽 样技术勾 画例子: SRSWOR ,SRSWR ,聚类抽样,分层抽样。使用大小为5 的样本和层“青年” ,“中年”和“老年”。元组:T113T1022T1935T215T1125T2035T316T1225T2135T416T1325T2236T519T1425T2340T620T1530T2445T720T1633T2546T821T1733T2652精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 19 页第 3章数据仓库与OLAP 技术概述T922T1835T2770SRSWOR 和SRSWR
18、 : 不是同次的随机抽样结果可以不同,但前者因无放回所以不能有相同的元组。SRSWOR(n=5)SRSWR(n=5)T416T720T620T720T1022T2035T1125T2135T2652T2546聚类抽样:设起始聚类共有6 类,可抽其中的m 类。Sample1Sample2Sample3Sample4Sample5Sample6T113T620T1125T1633T2135T2652T215T720T1225T1733T2236T2770T316T821T1325T1835T2340T416T922T1425T1935T2445T519T1022T1530T2035T2546Sam
19、ple2 Sample5 T620T2135T720T2236T821T2340T922T2445T1022T2546T113youngT1022youngT1935middle ageT215youngT1125youngT2035middle ageT316youngT1225youngT2135middle ageT416youngT1325youngT2236middle ageT519youngT1425youngT2340middle ageT620youngT1530middle ageT2445middle ageT720youngT1633middle ageT2546mid
20、dle ageT821youngT1733middle ageT2652middle ageT922youngT1835middle ageT2770seniorT416youngT1225young精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 19 页第 3章数据仓库与OLAP 技术概述T1733middle ageT2546middle ageT2770Senio r4.3假定数据仓库包含三维:time,doctor和patient;和两个度量: count 和charge; 其中,charge是医生对病人一次诊治的收费。(a)
21、列举三种流行的数据仓库建模模式答:三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。(b) 使用 (a) 列举的模式之一,画出上面的数据仓库的模式图数据仓库的星形模型(C)由基本方体 day,doctor,patient开始, 为列出 2004年每位医生的收费总数,应当执行哪些 OLAP 操作?沿课程(course )维从 course_id “上卷”到 department 。沿时间(time)维从day “上卷”到year。取time=2004 ,对维time作“切片” 操作沿病人(patient)维从个别病人“上卷”到全部病人 。(d) 为得到同样结果,写一个SQL 查
22、询。假定数据存放在关系数据库中,其模式为fee(day,month,year,doctor,hospital,patient,count,charge)。答:SQL 查询语句如下:select doctor, SUM(charge) from fee where year=2004 group by doctor 4.4 假定 BigUniversity 的数据仓库包含如下4 个维: student(student_name,area_id , major, status, university) ,course(course_name, department) , semester(seme
23、ster, year) 和 instructor(dept, rank) ;2 个 度量 :count 和 avg_grade。 在最低概念层,度 量 avg_grade 存放学生的实际课 程成绩。在较高概念层,avg_grade 存放给定组合的平均成绩。(a) 为该数据仓库画出雪花形模式图。(b) 由 基 本 方 体 student, course, semester, instructor 开 始 , 为 列出 BigUniversity 每 个 学 生 的 CS 课程的平均成绩,应当使用哪些特殊 的 OLAP 操作。精选学习资料 - - - - - - - - - 名师归纳总结 - -
24、- - - - -第 8 页,共 19 页第 3章数据仓库与OLAP 技术概述(c) 如果每维有5 层(包括 all),如“ studentmajorstatusuniversityall ”, 该立方体包含多少方体?解答:a) 为该数据仓库画出雪花形模式图。雪花模式如图所示。b) 由 基本方体 student, course, semester, instructor 开始 ,为 列出BigUniversity 每个学生的CS 课程的平均成绩,应当使用哪些特殊的OLAP 操作。这些特殊的联机分析处理(OLAP )操作有:i. 沿课程( course)维从 course_id “上卷”到dep
25、artment。ii. 沿学生( student)维从 student_id “上卷”到university 。iii. 取 department= “ CS ” 和 university= “ Big University ” ,沿课程(course)维和学生(student)维切片。iv. 沿学生( student)维从 university 下钻到 student_name。c) 如果每维有5 层 (包括 all ), 如 “studentmajorstatusuniversity 1. 所以,买 hot dogs 不是独立于买 humburgers。两者存在正相关关系8.1简述决策树分
26、类的主要步骤。8.5给定一个具有50个属性(每个属性包含100个不同值)的5GB的数据集,而你的台式机有512M内存。简述对这种大型数据集构造决策树的一种有效算法。通过粗略地计算机主存的使用说明你的答案是正确的。这个问题我们将使用雨林算法。 假设有 C 类标签。 最需要的内存将是 avc-set 为根的树。 计算 avc-set的根节点, 我们扫描一次数据库, 构建 avc-list每 50 个属性。每一个 avc-list的尺寸是 100 C,avc-set 的总大小是 100 C 50,对于合理的 C 将很容易适应 512 MB 内存,计算其他 avc-sets也是使用类似的方法,但他们将
27、较小,因为很少属性可用。在并行计算时,我们可以通过计算avc-set 节点来减少同一水平上的扫描次数,使用这种每节点小 avc-sets 的方法,我们或许可以适应内存的水平。8.7 下表由雇员数据库的训练数据组成。数据已泛化。例如:age “31.35 ”表示年龄在31-35 之间。对于给定的行, count 表示 department,status,age和 salary 在该行具有给定值的元组数。设status 是类标号属性。(a)如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count? (b) 使用修改的算法,构造给定数据的决策树。 (c) 给定一个数据元组, 它在属性 department,age 和 salary 的值分别为“ systems”,“26.30 ”, 和 “46K. 50K” 。该元组 status 的朴素贝叶斯分类是什么?9.2 支持向量机( SVM )是一种具有高准确率的分类方法。然而,在使用大型数据元组集进行训练时,SVM 的处理速度很慢。讨论如何克服这一困难,并为大型数据集有效的SVM 算法。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 19 页,共 19 页
限制150内