《数据挖掘复习题纲.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习题纲.docx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一、1.2 数据仓库与数据库有何不同?它们有哪些相似之处简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量防止冗余,一般采用符合范式的规那么来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个根本的元素是维表与事实表。维是看问题的角度,比方时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。 单从概念上讲,有些晦涩。任何技术都是为应用效劳的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据
2、平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比方,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的
3、分析数据就到达目的了。 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库。那么,数据仓库与传统数据库比拟,有哪些不同呢让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的:传统数据库主要是为应用程序进展数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜那么各自一块。也就是说,市场里的菜(数据)是按照小贩(应
4、用程序)归堆(存储)的,超市里面那么是按照菜的类型(同主题)归堆的。 “与时间相关:数据库保存信息的时候,并不强调一定有时间信息。数据仓库那么不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购置过九车产品的顾客,一位是最近三个月购置九车,一位是最近一年从未买过,这对于决策者意义是不同的。 “不可修改:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。 数据仓库
5、的出现,并不是要取代数据库。目前,大局部数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 补充一下,数据仓库的方案建立的目的,是为前端查询与分析作为根底,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用效劳,数据仓库必须有如下几点优点,否那么是失败的数据仓库方案。 1.效率足够高。客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。 2.数据质量。客户要看各
6、种信息,肯定要准确的数据,但由于数据仓库流程至少分为3步,2次ETL,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。 3.扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运行。主要表达在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。1.3 定义以下数据挖掘功能:特征化、区分、关联与相关性分析、分类、回归、聚类、离君点分析。使用你熟悉的现实生
7、活中的数据库,给出每种数据挖掘功能的例子。特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。. 区分是将目标类数据对象的一般特性与一个或多个比照类对象的一般特性进展比拟。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比拟。最终的描述可能是学生的一个一般可比拟的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。. 关联是指发现关联规那
8、么,这些规那么表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规那么为:major(X, “computing science) owns(X, “personal computer)support=12%, confidence=98%其中,X 是一个表示学生的变量。这个规那么指出正在学习的学生,12%支持度主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%置信度,或确定度。. 分类与预测不同,因为前者的作用是构造一系列能描述与区分数据类型或概念的模型或功能,而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们
9、的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。. 聚类分析的数据对象不考虑的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原那么进展聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层构造,把类似的事件组织在一起。. 数据延边分析描述与模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联与相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、与基于相似性的数据分析二、2.2假设所分析的数据包括属性age,它在数据元组中的值
10、以递増为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70A)该数据的均值是多少?中位数是什么?B)该数据的众数是什么?讨论数据的模态即二模,三模等。C)该数据的中列数是多少D)你能粗略地找出该据的第一个四分位数Q1与第三个四分位数Q3吗?E)给出该数据的五数概括。F)绘制出该数据的盒图。G)分位数分位数图与分位数图有何不同?解答:(a) 该数据的均值是什么?中位数是什么?(b) 该数据的众数是什么?讨论数据的峰即双峰、三峰等。这个数集的众数有两个:25 与35,发生在同样最高的频率处
11、,因此是双峰众数。(c) 数据的中列数是什么?数据的中列数是最大术与最小是的均值。即:midrange。(d) 你能粗略地找出数据的第一个四分位数Q1与第三个四分位数Q3吗?数据集的第一个四分位数应发生在25%处,即在(N+1)/4=7 处。所以:Q1=20。而第三个四分位数应发生在75%处,即在3(N+1)/4=21 处。所以:Q3=35(e) 给出数据的五数概括。一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、与最大值构成。它给出了分布形状良好的汇总,并且这些数据是:13、20、25、35、70。(f) 画出数据的盒图。略。(g) 分位数分位数图与分位数图的不
12、同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值纵轴相对于它们的分位数横轴被描绘出来。但分位数分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线y=x可画到图中,以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点那么低。2.3设给定的数据集已经分组到区间。这些区间与对应频率如下所示:Age frequency1-
13、52006-1545016-2030021-50150051-8070080-11044计算该数据的近似中位数。2.4假设医院对18个随机挑选的成年人检查年龄与身体肥胖,得到如下结果:Age232327273941474950Age525454565758586061A) 计算age与%fat的均值,中位数与标准差。B) 绘制age与%fat的盒图。C) 绘制基于这两个变量的散点图与q-q图。三3.3在习题2.2中,age包括如下值以递增序:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52
14、,70.A) 使用蒌3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对缎带定数据的效果。B) 如何确定该数据中的离群点?C) 还有什么其他方法来光滑数据?(a) 使用分箱均值光滑对以上数据进展光滑,箱的深度为3。解释你的步骤。评述对于给定的数据,该技术的效果。用箱深度为3 的分箱均值光滑对以上数据进展光滑需要以下步骤: 步骤1:对数据排序。因为数据已被排序,所以此时不需要该步骤。 步骤2:将数据划分到大小为3 的等频箱中。箱1:13,15,16 箱2:16,19,20 箱3:20,21,22箱4:22,25,25 箱5:25,25,30 箱6:3
15、3,33,35箱7:35,35,35 箱8:36,40,45 箱9:46,52,70 步骤3:计算每个等频箱的算数均值。 步骤4:用各箱计算出的算数均值替换每箱中的每个值。箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21箱4:24,24,24 箱5:80/3,80/3,80/3 箱6:101/3,101/3,101/3箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56(b) 如何确定数据中的离群点?聚类的方法可用来将相似的点分成组或“簇,并检测离群点。落到簇的集外的值可以
16、被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。(c) 对于数据光滑,还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑与箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。3.5如下标准化方法的值域是什么?A) 最小-最大标准化B) Z分数标准化。C) Z分数标准化,使
17、用均值绝对念头而不是标准差。D) 小数定标标准化。(a) min-max 标准化。值域是new_min, new_max。(b) z-score 标准化。值域是(old_minmean)/,(old_maxmean)/,总的来说,对于所有可能的数据集的值域是(,+)。(c) 小数定标标准化。值域是(,1.0)。3.6使用如下方法标准化如下数据组:200,300,400,600,1000(a) min=0,max=1,最小-最大标准化。(b) Z分数标准化。(c) Z分数标准化,使用均值绝对偏差而不是标准差。(d) 小数定标标准化。(a) min-max 标准化。值域是new_min, new_
18、max。(b) z-score 标准化。值域是(old_minmean)/,(old_maxmean)/,总的来说,对于所有可能的数据集的值域是(,+)。(c) 小数定标标准化。值域是(,1.0)。4.1试述对于多个异构信息源的集成,为什么许多公司更愿意使用更 新驱动的方法构造与使用数据仓库,而不是查询驱动的方法使用包装程序与集成程序。描述一些查询驱动方法比更 新驱动方法更可取的情况。 答: 因为对于多个异种, 查询驱动方法需要复杂的信息过滤与集成处理, 并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需 要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据
19、库系统带来了高性能,因 为数据被处理与重新组织到一个语义一致的数据存储中, 进展查询的同时并不影响局部数据 源上进展的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。 4.2简单比拟以下概念,可以用例子解释你的观点。(a) 雪花模式、事实星座、星网查询模型。(b) 数据清理、数据变换、刷新。(c) 发现驱动的立方体、多特征冷言冷语腐朽 、虚拟仓库(a) 雪花形模式、事实星座形、星形网查询模型。 答:雪花形与事实星形模式都是变形的星形模式,都是由事实表与维表组成,雪花形模式的维表都是标准化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它
20、是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。 (b) 数据清理、数据变换、刷新 答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。date,spectator,location,game,2个度量count与charge,其中charge是观众在给定的日期观看节目的费用。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。(a) 画出该数据仓库的星形模式图(b) 由根本方体【date,spectator,location,game】开场,为列出2021年学生观众在GM_place的
21、总付费,应当执行哪些OLAP操作?(c) 对于数据仓库,位图是有用的。以该数据立方体为例,简单讨论使用位图索引构造的优点与问题。6.3 Apriori算法使用子集支持度性质的先验知识。(a) 证明频繁项集的所有非空子集一定也是频繁的。(b) 证明项集s的任意非空子集s的支持度至少与s的支持度一样大。(c) 给定频繁项集l与l的子集s,证明规那么“s=l(s)的置信度不可能大于“s=l(s)的置信度。其中,s是s的子集(d) Apriori算法的一种变形将事务数据库D中的事务划分成n个不重叠的分区。证明在D中频繁的项集至少在D的一个分区中是频繁的。1证明频繁集的所有非空子集必须也是频繁的。证明:
22、根据定义,如果项集I不满足最小支持度阈值min_sup,那么I不是频繁的,即supmin_)(buys(X,itm3)s,c6.8数据库有4个事务。设min_sup=60%,min_conf=80%。Cust_IDTID购置的商品以brand-item_category形式01T100Kings-Carb,Sunset-Milk, Dairyland-Cheese,best-Bread02T200Best-Cheese, Dairyland-Milk, Goldenfarm-Apple,Tasty-Pie,Wonder-Bread01T300Westcoast-Apple,Dairyland-
23、Milk,Wonder-Bread,Tasty-Pie03T400Wonder-Bread,Sunset-Milk,Dairyland-Cheese(a) 在item_category粒度例如,item,所可能已经milk),对于下面的规那么模板xtransaction,buys(X,item1)buys(X,item2)=buys(X,item3)s,c列出最大k的频繁k项集与包含最大k的频繁k諅的所有强关联规那么包括它们的支持度s与置信度c。(b)在brand-item_category粒度例如,item i可以是Sunset-Milk,对于下面的规那么模板xcustomer,buys(X
24、,item1)buys(X,item2)=buys(X,item3)列出最大k的频繁k项集但不输出任何规那么7.3量化关联规那么可能提示数据集中的异常行为,其中“异常Sex=femalemeanwage=7,90 $/h(overallmeanwage=9.02 $/h暗示一个异常模式。该规那么说明,女性的平均工资每小时只有7.90美元,显著地于每小时9.02美元的总体平均工资。讨论如何在具有量化属性的大型数据集中系统而有效地发现这种量化规那么。8.1简述决策树分类的主要步骤。8.7下表由雇员数据库的训练数据组成。数据已泛化。例如,age“31.35表示年龄在31-35之间。对于给定的行,co
25、unt表department、status、age与salary在该行上具有给定值的元组数。Department statusage salarycountSalessenior31-3546k-50k30Salesjunior26-3026-30k40Salesjunior31-3531-35k40Systemsjunior21-2546-50k20Systemssenior31-3566-70k5Systemsjunior26-3046-50k3Systemssenior41-4566-70k3Marketingsenior36-4046-50k10Marketingjunior31-35
26、41-45k4Secretarysenior46-5036-40k4Secretaryjunior26-3026-30k6(a) 如何修改根本决策树算法,以便考虑每个广义数据元组即每个行的count?(b) 使用修改正的算法,构造绷带定数据的决策树(c) 给定一个数据元组,它的属性department、age与salary的值分别为“system“2630与“4660。该元级status的相互贝叶斯分类是什么?解一:设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30|jun
27、ior)=(40+3+6)/113=49/113;P(46K-50K|junior)=(20+3)/113=23/113; X=(department=system,age=2630,salary=46K50K); P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)=234923/1133;P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;P(26-30|senior)=(0)/53=0;P(46K-50K|senior)=(30+10)/52=40/52; X=(department
28、=system,age=2630,salary=46K50K); P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-50K|senior)=0; 60.68=0.01221280=0=P(X|senior)P(senior);所以:朴素贝叶斯分类器将X 分到junior 类。解二:设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。所以:X=(department=system,age=2630,salary=46K50K),元组总数为:30+40+40+20+5+3+3+10+4+4+6=165。先验概率:当status=senior
29、 时,元组总数为:30+5+3+10+4=52,;当status=junior 时, 元组总数为: 40+40+20+3+4+6=113 ,因为status=senior 状态没有对应的age=2630 区间,所以:P(X|senior)=0;因为status=junior 状态对应的partment=systems、age=2630 区间的总元组数为:3,所以:P(X|junior)=3/113;因为:P(X|junior)P(junior)=3/1130=P(X|senior)P(senior);所以:朴素贝叶斯分类器将X 分到junior 类。(d) 为给定的数据设计一个多层前馈神经网络。标记输入与输出层节点。(e) 使用上面得到的多层前馈神经网络,给定训练实例sales,senior,3135,46K50K,给出后向传播算法一次迭代后的权重值。指出你使用的初始权重与偏倚以及学习率。10.2假设数据挖掘的任务是将如下的8个点用x,y代表位置聚类为3个簇。A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧氏距离。假设初始我们选择A1,B1与C1分别为每个入籍的中心,用k-均值算法给出:(a) 在第一轮执行后的3 个入籍中心。(b) 最后的3个簇第 20 页
限制150内