2022年数据挖掘_概念与技术部分习题答案 .pdf





《2022年数据挖掘_概念与技术部分习题答案 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘_概念与技术部分习题答案 .pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER 数据模型。相似:它们都为数据挖掘提供了源数据,都是数据的组合。1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。答:特征化 是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮
2、廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。区分 是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高 GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高 GPA 的学生的 75% 是四年级计算机科学专业的学生,而具有低GPA 的学生的 65% 不是。关联 是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing scien
3、ce”) ? owns(X, “personal computer”) support=12%, confidence=98% 其中, X 是一个表示学生的变量。这个规则指出正在学习的学生, 12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98% (置信度,或确定度)。分类与预测 不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。聚类分析 的数据对
4、象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。数据演变分析 描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄频率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 计算数据
5、的近似中位数值。解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 200+450+300=95015972450=950+1500 ; 2050 对应中位数区间。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 19 页 median=32.97 岁。2.2 假定用于分析的数据包含属性age。数据元组的age 值(以递增序)是:13,15,16,16,19, 20,20,21,22,22,25,25,25,25,30, 33,33,35, 35,35,35,36,40,45,46,52
6、, 70。答: (a) 该数据的均值是什么?中位数是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27 =29.96 中位数应是第 14个, 即x14=25=Q2。(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。这个数集的众数有两个:25 和35, 发生在同样最高的频率处, 因此是双峰众数。(c) 数据的中列数是什么?数据的中列数是最大数和最小数的均值。即:midrange=(70+13)/2=41.5。(d) 你能(粗略地)找出数据的第一个四分位数(
7、Q1)和第三个四分位数(Q3)吗?数据集的第一个四分位数应发生在25% 处,即在 (N+1)/4= (27+1)/4=7 处。所以:Q1=20。而第三个四分位数应发生在75% 处, 即在 3(N+1)/4=21 处。所以:Q3=35 (e) 给出数据的五数概括。一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。(f) 画出数据的盒图。 (g) 分位数分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样 , 他可以
8、展示所有数的分位数信息, 而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。 但分位数分位数图用纵轴表示一种单变量分布的分位数, 用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域, 且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比 x 轴的相应的等同分位数对应的值的分布高。反之, 对落在该线以下的点则低。2.4 假设医院检测随机选择的18 个成年人年龄和身体脂肪数据,得到如下结果:(a) 计算年龄和脂肪百分比的均值、中位数和标准差. 年龄均值 =(23+23+27+27+39+4
9、1+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位数 = (50+52)/2=51, 标准差 =方差的平方根=开根号( 1/n(Xi)2-1/n( Xi)2 )=开根号 1/182970.44=12.85. 脂肪百分比均值=28.78, 中位数 =30.7, 标准差 = 8.99. (b)绘制年龄和脂肪百分比的盒图精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 19 页(c) 根据这两个属性, 绘制散布图 , 各 q-q 图 q-q图散布图(d) 根据 z-score
10、规范化来规范化这两个属性(P46)(e) 计算相关系数( 皮尔逊积矩系数). 这两个变量是正相关还是负相关? ra,b= (ai-A)(bi-B)/N AB= ( (aibi)-NAB ) /N AB=( (aibi)-18*46.44*28.78)/18*12.85*8.99=0.82 相关系数是 0.82。变量呈正相关。3.3 使用习题2.4 给出的 age 数据回答下列问题: (a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给定的数据,该技术的效果。 (b) 如何确定数据中的离群点? (c) 对于数据光滑,还有哪些其他方法?精选学习资料 - - - - -
11、 - - - - 名师归纳总结 - - - - - - -第 3 页,共 19 页解答: (a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。 评述对于给定的数据,该技术的效果。用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤:步骤 1:对数据排序。 (因为数据已被排序,所以此时不需要该步骤。)步骤 2:将数据划分到大小为3 的等频箱中。箱 1:13,15,16 箱 2:16, 19,20 箱 3:20,21, 22 箱 4:22,25,25 箱 5:25, 25,30 箱 6:33,33, 35 箱 7:35,35,35 箱 8:36, 40,45 箱 9:46
12、,52, 70 步骤 3:计算每个等频箱的算数均值。步骤 4:用各箱计算出的算数均值替换每箱中的每个值。箱 1:44/3 ,44/3 ,44/3 箱 2:55/3 ,55/3 ,55/3 箱 3:21,21,21 箱 4:24,24,24 箱 5: 80/3 ,80/3 , 80/3 箱 6 : 101/3,101/3 , 101/3 箱 7:35,35,35 箱 8:121/3 ,121/3 ,121/3 箱 9:56,56,56 (b) 如何确定数据中的离群点?聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而
13、计算机用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。 (c) 对于数据光滑,还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。3.5 如下规范化方法的值域是什么?答:(a) min-max 规范化。值域是 new_min, new_max 。(b) z-score 规范化。值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘_概念与技术部分习题答案 2022 数据 挖掘 概念 技术 部分 习题 答案

限制150内