习题及参考答案.doc
Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date习题及参考答案习题答案习题参考答案第1章绪论1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。 实际生活的例子:电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA。描述你要选取的结构,该结构的每个成分的作用是什么? 答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用可视化软件进行显示。1.4 假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明,数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测等技术为企业服务。答:(1) 使用聚类发现互联网中的不同群体,用于网络社区发现;(2) 使用分类对客户进行等级划分,从而实施不同的服务;(3) 使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜索“信息学院”。(4) 使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息的攻击。1.5 定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。 答:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”)owns(X, “personal computer”) support=12%, confidence=98% 其中,X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学生有98%拥有个人计算机。分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到一个预测模型,预测新客户是否可能会流失。聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为低值客户、高值客户以及普通客户等。数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 。离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。它需要一种不同于本章列举的数据挖掘技术吗? 答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技术解决这类问题。1.7 讨论下列每项活动是否是数据挖掘任务:(1)根据性别划分公司的顾客。(2)根据可赢利性划分公司的顾客。(3)计算公司的总销售额。(4)按学生的标识号对学生数据库排序。(5)预测掷一对骰子的结果。(6)使用历史记录预测某公司未来的股票价格。(7)监视病人心率的异常变化。(8)监视地震活动的地震波。(9)提取声波的频率。答: (1) 不是,这属于简单的数据库查询。(2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。(3) 不是,还是简单的会计计算。(4) 不是,这是简单的数据库查询。(5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据历史数据预测结果则更类似于数据挖掘任务。(6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。可以使用回归来建模,或使用时间序列分析。(7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。(8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖掘领域的分类。(9) 不是,属于信号处理。第2章数据处理基础2.1 将下列属性分类成二元的、分类的或连续的,并将它们分类成定性的(标称的或序数的)或定量的(区间的或比率的)。例子:年龄。回答:分类的、定量的、比率的。(a)用AM和PM表示的时间。(b)根据曝光表测出的亮度。(c)根据人的判断测出的亮度。(d)医院中的病人数。(e)书的ISBN号。(f)用每立方厘米表示的物质密度。答:(a)二元,定量,比率;(b)连续,定量 ,比率;(c)分类,定性,标称;(d)连续,定量,比率;(e)分类,定性,标称;(f)连续,定量,比率。2.2 你能想象一种情况,标识号对于预测是有用的吗?答:学生的ID号可以预测该学生的毕业日期。2.3 在现实世界的数据中,元组在某些属性上缺失值是常有的。请描述处理该问题的各种方法。 答:处理遗漏值问题的策略有如下几种。(1) 删除数据对象或属性。一种简单而有效的策略是删除具有遗漏值的数据对象。然而,即使部分给定的数据对象也包含一些信息,并且,如果许多对象都有遗漏值,则很难甚至不可能进行可靠的分析。尽管如此,如果一个数据集只有少量的对象具有遗漏值,则忽略他们可能是合算的。一种相关的策略是删除具有遗漏值的属性。然而,做这件事要小心,因为被删除的属性可能对分析是至关重要的。(2) 估计遗漏值。有时,遗漏值可以可靠地估计。例如,在考虑以较平滑的方式变化的具有少量但大大分散的遗漏值的时间序列,遗漏值可以使用其他值来估计(插值)。作为另一个例子,考虑一个具有许多相似数据点的数据集。在这种情况下,与具有遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。如果属性是连续的,则可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近邻中最常出现的属性值。(3) 在分析时忽略遗漏值。许多数据挖掘方法都可以修改,忽略遗漏值。例如。假定正在对数据对象聚类,需要计算数据对象间的相似性;如果对于某属性,两个对象之一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。当然,这种相似性只是紧邻的,但是除非整个属性数目很少,或者遗漏值的数量很大,否则这种误差影响不大。同样的,许多分类方法都可以修改,处理遗漏值。2.4 以下规范方法的值域是什么?(a) min-max规范化。(b) z-score 规范化。(c) 小数定标规范化。答:(a)new_min,new_max;(b)(-,+ );(c)(-1.0,1.0)。2.5 假定用于分析的数据包含属性age,数据元组中age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。解释你的步骤。评论对于给定的数据,该技术的效果。 (b) 对于数据平滑,还有哪些其它方法? 答:(a)已知数据元组中age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度为3,划分为(等频)箱:箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,33箱7:35,35,35箱8:35,36,40箱9:45,46,52箱10:70用箱均值光滑:箱1:15,15,15箱2:18,18,18箱3:21,21,21箱4:24,24,24箱5:27,27,37箱6:33,33,33箱7:35,35,35箱8:37,37,37箱9:48,48,48箱10:70;(b)对于数据平滑,其它方法有:(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;(2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。2.6 使用习题2.5 给出的age数据,回答以下问题: (a) 使用min-max 规范化,将age 值35 转换到0.0,1.0区间。 (b) 使用z-score 规范化转换age 值35,其中,age 的标准偏差为12.94 年。 (c) 使用小数定标规范化转换age 值35。 (d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。 答:(a)已知最大值为70,最小值为13,则可将35规范化为:;(b)已知均值为30,标准差为12.94,则可将35规范化为:;(c)使用小数定标规范化可将35规范化为:;(d)对于给定的数据,你愿意使用min-max 规范化。理由是计算简单。2.7 使用习题2.5 给出的age 数据 (a) 画一个宽度为10 的等宽的直方图。 (b) 为以下每种抽样技术勾画例子:有放回简单随机抽样,无放回简单随机抽样,聚类抽样,分层抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。答:(a)如下为宽度为10 的等宽的直方图:(b)已知样本大小为5和层“青年”,“中年”和“老年”,(1)有放回简单随机抽样:30,33,30,25,30(2)无放回简单随机抽样:30,33,33,35,25(3)聚类抽样:16,25,33,35,46(4)分层抽样:25,35,522.8以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。请分别用等宽的方法和等高的方法对上面的数据集进行划分。答:(1)等宽方法:划分为3个数据集,每个数据集的宽度为价格10。价格在110之间出现次数为13;价格在1120之间出现的次数为24;价格在2130之间出现的次数为13。(2)等高方法:划分为2个数据集,每个数据集的高度为出现的次数4。出现次数14之间的价格为1、8、10、12、14、21、28、30,共8个数据;出现次数58之间的价格为5、15、18、20、25,共5个数据。2.9 讨论数据聚合需要考虑的问题。 答:数据聚合需要考虑的问题有:(1)模式识别:这主要是实体识别问题;(2)冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或维的命名不一致,也可能导致冗余,可以用相关分析来检测;(3)数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同。2.10 假定我们对一个比率属性x使用平方根变换,得到一个新属性x*。作为分析的一部分,你识别出区间(a, b),在该区间内,x*与另一个属性y具有线性关系。(a)换算成x, (a, b)的对应区间是什么?(b)给出y关联x的方程。答:(a)(a2,b2);(b)Y=kx0.5 +C (k, C是常数)。2.11 讨论使用抽样减少需要显示的数据对象个数的优缺点。简单随机抽样(无放回)是一种好的抽样方法吗?为什么是,为什么不是?答:抽样减少需要显示的数据对象个数的优点是减少处理数据的费用和时间。缺点是不能利用总体的已知信息和代表总体数据的信息。简单随机抽样(无放回)不是一种好的抽样方法,不能充分地代表不太频繁出现的对象类型和每个对象被选中的概率不一样。2.12 给定m个对象的集合,这些对象划分成K组,其中第i组的大小为mi。如果目标是得到容量为n<m的样本,下面两种抽样方案有什么区别?(假定使用有放回抽样)(a)从每组随机地选择n×mi/m个元素。(b)从数据集中随机地选择n个元素,而不管对象属于哪个组。答:(a)组保证了可以在每个组里面得到等比例的样本,而(b)组在每个组里面抽取的样本的个数是随机的,不能保证每个组都能抽到样本。2.13 一个地方公司的销售主管与你联系,他相信他已经设计出了一种评估顾客满意度的方法。他这样解释他的方案:“这太简单了,我简直不敢相信,以前竟然没有人想到,我只是记录顾客对每种产品的抱怨次数,我在数据挖掘的书中读到计数具有比率属性,因此,我的产品满意度度量必定具有比率属性。但是,当我根据我的顾客满意度度量评估产品并拿给老板看时,他说我忽略了显而易见的东西,说我的度量毫无价值。我想,他简直是疯了,因为我们的畅销产品满意度最差,因为对它的抱怨最多。你能帮助我摆平他吗?”(a)谁是对的,销售主管还是他的老板?如果你的答案是他的老板,你做些什么来修正满意度度量?(b)对于原来的产品满意度度量的属性类型,你能说些什么?答: (a) 老板是对的。更好的衡量方法应该如下:不满意率(产品)=每种产品的抱怨次数/该产品的总销售量(b) 原来衡量方法的属性类型是没有意义的。例如,两件商品有相同的顾客满意度可能会有不同的抱怨次数,反之亦然。2.14 考虑一个文档-词矩阵,其中是第i个词(术语)出现在第j个文档中的频率,而m是文档数。考虑由下式定义的变量变换:其中,是出现i个词的文档数,称作词的文档频率(document frequency)。该变换称作逆文档频率变换(inverse document frequency)。(a)如果出现在一个文档中,该变换的结果是什么?如果术语出现在每个文档中呢?(b)该变换的目的可能是什么?答:(a) 如果该词出现在每一个文档中,它的词权就会为0,但是如果这个词仅仅出现在一个文档中,它就有最大的词权,例如,log m 。(b) 这个变换反映了以下一个现象:当一个词出现在每一个文档中,对于文档与文档之间,该词没有区分能力,但是那些只是某一两篇文档出现的词,其区分文档的能力就较强。2.15 对于下面的向量x和y,计算指定的相似性或距离度量。(a)x=(1,1,1,1),y=(2,2,2,2) 余弦相似度、相关系数、欧几里得。(b) x=(0,1,0,1),y=(1,0,1,0) 余弦相似度、相关系数、欧几里得、Jaccard系数。(c) x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1) 余弦相似度、相关系数。答:(a) 余弦相似度、相关系数、欧几里得分别是0.5,0,2;(b) 余弦相似度、相关系数、欧几里得、Jaccard系数分别是0,1,2,0;(c) 余弦相似度、相关系数分别是0,0。2.16 简单地描述如何计算由以下类型的变量描述的对象间的相异度: (a) 不对称的二元变量 (b) 分类变量 (c) 比例标度型(ratio-scaled)变量 (d) 数值型变量 答:(a) 使用Jaccard系数计算不对称的二元变量的相异度;(b) 采用属性值匹配的方法(属性值匹配,相似度为1,否则为0)可以计算用分类变量描述的对象间的相异度;(c) 对比例标度变量进行对数变换,对变换得到的值采用与处理区间标度变量相同的方法来计算相异度;(d) 可采用欧几里得距离公式或曼哈顿距离公式计算。2.17 给定两个向量对象,分别表示为p1(22,1,42,10),p2(20,0,36,8): (a) 计算两个对象之间的欧几里得距离 (b) 计算两个对象之间的曼哈顿距离 (c) 计算两个对象之间的切比雪夫距离(d) 计算两个对象之间的闵可夫斯基距离,用x=3答:(a) 计算两个对象之间的欧几里得距离(b) 计算两个对象之间的曼哈顿距离(c) 计算两个对象之间的闵可夫斯基距离,其中参数r=32.18 以下表格包含了属性name,gender,trait-1,trait-2,trait-3,及trait-4,这里的name 是对象的id,gender 是一个对称的属性,剩余的trait 属性是不对称的,描述了希望找到的笔友的个人特点。假设有一个服务是试图发现合适的笔友。 namegendertrait-1trait-2trait-3trait-4KeavnMNPPNCarolineFNPPNErikMPNNP对不对称的属性的值,值P 被设为1,值N 被设为0。 假设对象(潜在的笔友)间的距离是基于不对称变量来计算的。 (a) 计算对象间的简单匹配系数;(b) 计算对象间的Jaccard 系数; (c) 你认为哪两个人将成为最佳笔友?哪两个会是最不能相容的? (d) 假设我们将对称变量gender 包含在我们的分析中。基于Jaccard 系数,谁将是最和谐的一对?为什么? 答:(a) 计算对象间的简单匹配系数SMC (Keavn, Caroline) = (2+2)/( 0+0+2+2) = 1SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0(b) 计算对象间的Jaccard 系数Jaccard (Keavn, Caroline) = 2/(2+0+0) = 1Jaccard (Keavn, Erik) = 0/(0+2+2) = 0Jaccard (Caroline,Erik) = 0/(0+2+2) = 0(c) 根据属性的匹配程度,Keavn和Caroline将成为最佳笔友,Caroline和Erik会是最不能相容的。(d) 若将对称变量gender 包含在分析中,设值M被设为1,值F被设为0,Jaccard (Keavn, Caroline) = 2/(2+1+0) = 2/3Jaccard (Keavn, Erik) = 1/(1+2+2) = 1/5Jaccard (Caroline,Erik) = 0/(0+2+3) = 0因为Jaccard (Keavn, Caroline)最大,因此,Keavn和 Caroline是最和谐的一对。2.19 给定一个在区间0,1取值的相似性度量,描述两种将该相似度变换成区间0,中的相异度的方法。答:取倒数减一:取对数:第3章分类与回归3.1 简述决策树分类的主要步骤。答:决策树生成的过程如下:(1)对数据源进行数据预处理, 得到训练集和测试集;(2)对训练集进行训练;(3)对初始决策树进行树剪枝;(4)由所得到的决策树提取分类规则;(5)使用测试数据集进行预测,评估决策树模型;3.2 给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或(2)对决策树剪枝,然后将剪枝后的树转换成规则。相对于(2),(1)的优点是什么?答:相对于(2),(1)的优点是:由于第一种方法已经将决策树转换成规则,通过规则,可以很快速的评估决策树以及其子树紧凑程度,不能提高规则的估计准确率的任何条件都可以减掉,从而泛化规则; 3.3 计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集D,具有m个属性和|D|个训练记录,证明决策树生长的计算时间最多为。答:假设训练集拥有|D|实例以及m个属性。我们需要对树的尺寸做一个假设,假设树的深度是由log |D| 决定,即O(log |D|)。考虑一个属性在树的所有节点上所要做的工作量。当然不必在每一个节点上考虑所有的实例。但在树的每一层,必须考虑含有|D|个实例的整个数据集。由于树有log |D|个不同的层,处理一个属性需要的工作量是。在每个节点上所有属性都要被考虑,因此总的工作量为。3.4 考虑表3-23所示二元分类问题的数据集。表3-23 习题3.4数据集AB类标号TF+TT+TT+TF-TT+FF-FF-FF-TT-TF-(1) 计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?(2) 计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择那个属性?答:按照属性A和B划分时,数据集可分为如下两种情况:A=TA=F+40-33B=TB=F+31-15(1)划分前样本集的信息熵为 E=-0.4log20.4-0.6log20.6=0.9710按照属性A划分样本集分别得到的两个子集(A取值T和A取值F)的信息熵分别为: 按照属性A划分样本集得到的信息增益为:按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信息熵分别为: 按照属性B划分样本集得到的信息增益为:因此,决策树归纳算法将会选择属性A。(2) 划分前的Gini值为G=1-0.42-0.62=0.48按照属性A划分时Gini指标:Gini增益按照属性B划分时Gini指标:Gini增益因此,决策树归纳算法将会选择属性B。3.5 证明:将结点划分为更小的后续结点之后,结点熵不会增加。证明:根据定义可知,熵值越大,类分布越均匀;熵值越小,类分布越不平衡。假设原有的结点属于各个类的概率都相等,熵值为1,则分出来的后续结点在各个类上均匀分布,此时熵值为1,即熵值不变。假设原有的结点属于个各类的概率不等,因而分出来的后续结点不均匀地分布在各个类上,则此时的分类比原有的分类更不均匀,故熵值减少。3.6 为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。答:朴素贝叶斯之所以称之为朴素是因为,它假设属性之间是相互独立的。朴素贝叶斯分类的主要思想为:利用贝叶斯定理,计算未知样本属于某个类标号值的概率,根据概率值的大小来决定未知样本的分类结果。(通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。)3.7 考虑表3-24数据集,请完成以下问题:表3-24 习题3.7数据集记录号ABC类1000+2001-3011-4011-5001+6101+7101-8101-9111+10101+(1) 估计条件概率,。(2) 根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号;(3) 使用Laplace估计方法,其中p=1/2,l=4,估计条件概率,。(4) 同(2),使用(3)中的条件概率(5) 比较估计概率的两种方法,哪一种更好,为什么?答:(1) =3/5=1/5=2/5=2/5=1(2) 假设P(A=0,B=1,C=0)=K则K属于两个类的概率为:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K则得到,此样本的类标号是+。(3) P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(4) 假设P(A=0,B=1,C=0)=K则K属于两个类的概率为:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=(4/9) ×(1/3) ×(1/3) ×0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=(5/9) ×(4/9) ×(2/9) ×0.5/K=0.0274/K则得到,此样本的类标号是-。(5) 当条件概率为0的时候,条件概率的预测用Laplace估计方法比较好,因为我们不想整个条件概率计算结果为0.3.8 考虑表3-25中的一维数据集。 表3-25 习题3.8数据集X0.53.04.54.64.95.25.35.57.09.5Y-+-+-根据1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点x=5.0分类,使用多数表决。答: 1-最近邻:+3-最近邻:-5-最近邻:+9-最近邻:-3.9 表3-26的数据集包含两个属性X与Y,两个类标号“+”和“-”。每个属性取三个不同值策略:0,1或2。“+”类的概念是Y=1,“-”类的概念是X=0 and X=2。表3-26 习题3.9数据集XY实例数+-00010010002001001110021101000201001200220100(1) 建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?(2) 决策树的准确率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是对“+”类定义)(3) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么?(提示:只需改变原决策树的结点。)答:(1)在数据集中有20个正样本和500个负样本,因此在根节点处错误率为 如果按照属性X划分,则:X=0X=1X=2+01010-2000300 EX=0=0/310=0 EX=1=0/10=0 EX=2=10/310 如果按照属性Y划分,则:Y=0Y=1Y=2+0200-200100200 EY=0=0/200=0 EY=1=20/120 EY=2=0/200=0因此X被选为第一个分裂属性,因为X=0和X=1都是纯节点,所以使用Y属性去分割不纯节点X=2。Y=0节点包含100个负样本,Y=1节点包含10个正样本和100个负样本,Y=2节点包含100个负样本,所以子节点被标记为“”。整个结果为:类标记=(2)预测类+-实际类+1010-0500accuracy:=0.9808,precision:=1.0 recall: =0.5 , F-measure:=0.6666(3)由题可得代价矩阵为预测类+-实际类+0500/20=25-10决策树在(1)之后还有3个叶节点,X=2Y=0,X=2Y=1,X=2Y=2。其中X=2Y=1是不纯节点,误分类该节点为“+”类的代价为:100+1001=100,误分该节点为“”类的代价为:1025+1000=250。所以这些节点被标记为“+”类。分类结果为: 3.10 什么是提升?陈述它为何能提高决策树归纳的准确性?答:提升是指给每个训练元组赋予权重,迭代地学习k个分类器序列,学习得到分类器Mi之后,更新权重,使得其后的分类器Mi+1“更关注”Mi误分的训练元组,最终提升的分类器M*组合每个个体分类器,其中每个分类器投票的权重是其准确率的函数。在提升的过程中,训练元组的权重根据它们的分类情况调整,如果元组不正确地分类,则它的权重增加,如果元组正确分类,则它的权重减少。元组的权重反映对它们分类的困难程度,权重越高,越可能错误的分类。根据每个分类器的投票,如果一个分类器的误差率越低,提升就赋予它越高的表决权重。在建立分类器的时候,让具有更高表决权重的分类器对具有更高权重的元组进行分类,这样,建立了一个互补的分类器系列。所以能够提高分类的准确性。3.11 表3-27给出课程数据库中学生的期中和期末考试成绩。表3-27 习题3.11数据集期中考试期末考试XY728450638177747894908675594983796577335288748190(1) 绘制数据的散点图。X和Y看上去具有线性联系吗?(2) 使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。(3) 预测期中成绩为86分的学生的期末成绩。答:(1)数据图如下所示:X和Y具有线性联系。(2)XYX*YX2预测Y172846048518473.9031250633150250061.1079381776237656179.1375474785772547675.0663594908460883686.6983686756450739682.0455759492891348166.3423883796557688980.3007965775005422569.83191033521716108951.22071188746512774483.20871281907290656179.1375SUM8668886608865942Y = a + b*Xa = Y0 + b*X0b = (xiyi-nX0Y0)/(xi2-nX02)X0 = (xi)/nY0 = (yi)/n求得 a = 32.0279,b = 0.5816。(3)由(2)中表可得,预测成绩为86分的学生的期末成绩为82.0455。3.12 通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回归方程转换成可以用最小二乘法求解的线性回归方程。答:令,对样本数据做变换,利用(wi,Yi)(i=1,2,n)解出y = aw中的a,再代入即得到y对x的回归方程。第4章聚类分析4.1 什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。为每类方法给出例子。 答:聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。主要有以下几种类型方法:(1)划分方法给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。(2)层次方法这种方法对给定的数据集进行层次似的分解,直到某种