数据挖掘原理与应用试题及答案汇总试卷1~12.pdf





《数据挖掘原理与应用试题及答案汇总试卷1~12.pdf》由会员分享,可在线阅读,更多相关《数据挖掘原理与应用试题及答案汇总试卷1~12.pdf(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘原理与应用试题及答案 数据挖掘:原理与应用第17章试卷一答案:解:CB AD D A二、解:由今count(A=a)xc o u n t=b.)/-得:n300 x 450 仙-=901500I?。*45。=3601500300 x 1050-二21015001200 x 1250-=8401500所以2(250-90)2(50-210)2(200-360)2(1000-840)2X-1-H-1-90 210 360 840=284.44+121.90+71.11+30.48=507.93三、解:分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分
2、类,或者说是离散变量预测。四、解:(FP-Tree(不唯一)数据挖掘:原理与应用第1 7章五、解:itemconditional pattern baseconditional treefrequent patternyome k,e,m,o:l,k,e,o:l,k,m:l k,e,m:l,k,e:2 k,e:2,k:l k:4 k:3k:3,e:3k:3k:4k,y:3k,o:3,e,o:3.k,e,o:3k,m:3 k,e:4(1)在数据集中有20个正样本和500个负样本,因此在根结点处错误率为 ,Z 20 500、20E=1 max(.,)520 520 520如果按照属性X 划分,贝I
3、 J:x=oX=1X=24-01010-2000300EX=O=O/31O=O200A x=E-*0A 520Ex=i=0/10=010 310 10-*0 一 -*-520 520 310EX=2=10/310_ 10 520如果按照属性Y 划分,贝I J:Y=0Y=1Y=2+0200-200100200EY=O=O/2OO=O120A x=E-A 520EY=I=20/120 EY=2=0/200=020=0120因此X 被选为第一个分裂属性,因为X=0和 X=1都是纯节点,所以使用Y 属性去分割不纯节点 X=2。Y=0节点包含100个负样本,Y=1节点包含10个正样本和100个负样本,Y
4、=2节 点 100个负样本,所以子节点被标记为 二整个结果为:+,X=1(2)类标记=其他2 数据挖掘:原理与应用第17章预测类+-实际类+1010-0500510 10a ccu ra cy:-=0.9 8 0 8,a p re ci s i o n:=1.07 520-1010 2*0.5*1.0re ca l l:=0.5,F-m e a s u re:-=0.6 6 6 620 1.0+0.5(3)由题可得代价矩阵为预测类+-实际类+0500/20=2.5-10决策树在(1)之后还有3 个叶节点,X=2 A Y=0,X=2 A Y=1,X=2 A Y=2 其中X=2/Y=1 是不纯节点
5、,误分类该节点为“+”类的代价为:1 0*0+1 0 0*1 =1 0 0,误分该节点 为 -”类的代价为:1 0*2 5+1 0 0*0=2 5 0。所以这些节点被标记为“+”类。分类结果为:+X=1 v(X=2AY=1)类标记=P(h-|D)答:该邮件是垃圾邮件五、c(ABC f D)2 c(AB f CD)c(A f BCD)14 数据挖掘:原理与应用第1 7章c(ABC-D)=support(AuBuCuD)/support(AuBuC)c(AB CD)=support(A)uBuC)uD)/support(AuB)c(A-BCD)=support(AuBoCuD)/support(/
6、4)很显然:support(AuBuC)support(AuB)c(AB CD)c(A-BCD)六、神经网络使用激活函数能够增加模型的非线性映射,提高网络的拟合和表达能力;;0=(1+尸=_(1+6-,)一2(_-)(1 +6-1)2=3)(1 一/)r(O)=/(O)(l-/(O)=i七:问题1解答:小梅采用OneHotEncoder独热编码,而小雷采用的是LabelEncoder标签编码(即用某一个数字代表一种类型,如 1代表一线城市,2 代表二线城市,3 代表三线城市)。如果模型损失函数对变量的数值大小是敏感的,如 SVM、LR、GLM等,为模型A;如果模型损失函数对变量数据大小不敏感,
7、数值的存在意义是为了排序,如各种树模型,则为模型B。显然该题用的LR模型对变量数值大小是敏感的,所以小梅的编码方式更合适。问题2 解答:1 5 数据挖掘:原理与应用第17章beta为机器学习模型中的截距,如果设置为1,与事实相比过大,可能需要模型训练更长时间。所以小梅更好,能在短时间找到最优的模型参数。问题3 解答:在训练样本中拟合的很好,但是在测试样本中效果比较差,属于过拟合问题。该损失函数使用的是经验风险最小化,不是结构风险最小化,泛化能力差,容易过拟合(结构风险=经验风险+置信风险,置信风险是一个减函数,整个公示反映了经验风险和真实误差的差距上界,表征了根据经验风险最小化原则得到的模型的
8、泛化能力。称为泛化误差上界。)问题4 解答:AUC最大的应用应该就是点击率预估(C T R)的离线评估。其计算过程如下:得到结果数据,数据结构为:(输出概率,标签真值);对结果数据按输出概率进行分组,得到(输出概率,该输出概率下真实正样本数,该输出概率下真实负样本数)。这样做的好处是方便后面的分组统计、阈值划分统计等;对结果数据按输出概率进行从大到小排序;从大到小,把每一个输出概率作为分类阈值,统计该分类阈值下的TPR和 FPR;微元法计算ROC曲线面积、绘制ROC曲线。试题十答案一、单选题ADDBD CABDC CBBCB CCAAC DDCCC CCAAB二、判断题FFTTF FTFTF三
9、、不定项选择题BCD ABC ABD ABC ABC四、答:聚类算法主要有:层次的方法(hierarchical method)划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based m ethod)等。其中,前两种算法是利用统计学定义的距离进行度量。K-Means算法的计算原理如下:首先从个数据对象任意选择k个对象作为初始聚类中心;16 数据挖掘:原理与应用第 17章而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配
10、给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。在算法中,一般都采用均方差作为标准测度函数,算法收敛后各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。五、答:在模型建立的时候,如果一味的追求提高对训练数据的预测能力,所选模型的复杂度往往会比真实的模型高,这种现象称之为过拟合。从原理上来说,过拟合是对训练数据的过度学习,得到的模型参数太多太复杂,所建立模型太过于依赖训练数据,从而导致模型放在预测数据上时反而得不到很好的效果。因此在模型建立和选择时,不仅仅要考虑在训练集上准确率高,更重要的是在测试
11、集上的准确性。防止过拟合最常用的方法就是模型的正则化,即在模型的经验风险后面加上一个正则项(惩罚项),正则项一般是模型复杂度的单调递增函数,模型越复杂,正则项也越大。通过添加正则项强迫机器去学习尽可能简单的模型。正则化的作用就是选择经验风险和模型复杂度都比较小的模型。正则化符合奥卡姆剃刀原则:在所有可以选择的模型中,能够很好地解释已知数据同时十分简单的模型才是最好的模型。六、1)年龄均值=(2 3+2 3+2 7+2 7+3 9+4 1+4 7+4 9+5 0+5 2+5 4+5 4+5 6+5 7+5 8+5 8+6 0+6 1)/1 8=8 3 6/1 8=4 6.4 4年龄中位数=(5
12、0+5 2)/2=5 1标准差=方差的平方根=开根号(l/n-l E (X i)2-l/n-l(E X i)2 )注意这里是抽样(即估算样本方差),根号内除以(n-1)=开根号 1/1 7 2 9 7 0.4 4 =1 3.2 2脂肪百分比均值=2 8.7 8,中位数=3 0.7,标准差=9.2 52)绘制年龄和脂肪百分比的盒图17 数据挖掘:原理与应用第17章3)根据这两个属性,绘制散布图4)根据z-score规范化来规范化这两个属性age232327273941474950z-age-1.83-1.83-1.51-1.51-0.58-0.420.040.200.28%fat9.52G.57
13、.817.831.425.927.427.231.2z-%fat-2.14-0.25-2.33-1.220.29-0.32-0.15-0.180.27age525454565758586061z-age0.430.590.590.740.820.900.901.061.13%fat34.G42.528.833.430.234.132.941.235.7z-%fat().651.530.0().510.1G0.590.461.380.775)计算得到相关系数为0.82公式如下,两个属性变量呈正相关Px.Y=corr(x,V)=cov(X,V)Ox。,1 j (X-Nx)My)(n-l)乙 axa
14、Y七:18 数据挖掘:原理与应用第1 7章1)节 点 4、5、6 的净输入右 和 输 出 Q 为:单元/净输入4输出840.2+0 -0.5-0.4 =-0.7l+(l+e0 7)=0.3 3 25-0 3+0+0.2+0.2 =0.11+(1+&。)=0.5 2 56(-0 3)(0.3 3 2)+(-0.2)(0.5 2 5)+0.1 =-0.1 0 5l+d+e-o 1 0 5)=o.4 7 42)节点4、5、6 的误差E为为:单元jErr)6(0.474)(1-0.474)(1-0.474)=0.13115(0.525)(1-0.525)(0.1311)(-0.2)=-0.00654(
15、0332)(1-0.332)(0.1311)(-03)=-0.00873)更新后的权值和偏置为:权或偏置新值-0.3 +(0.9)(0.1 3 1 1)(0.3 3 2)=-0.2 6 1W-0.2 +(0.9)(0.1 3 1 1)(0.5 2 5)=-0.1 3 8N d0.2 +(0.9)(-0.0 0 8 7)(1)=0.1 9 2w”-0.3 +(0.9)(0.0 0 6 5)(1)=-0.3 0 6W240.4 +(0.9)(-0.0 0 8 7)(0)=0.4W250.1+(0.9)(-0.0 0 6 5)(0)=0.1W34-0.5 +(0.9)(-0.0 0 8 7)(l)=
16、-0.5 0 8卬350.1 +(0.9)(-0.0 0 6 5)(1)=0.1 9 4a0.1+(0.9)(0.1 3 1 1)=0.2 1 8仇0.2+(0.9)(-0.0 0 6 5)=0.1 9 4a-0.4 4-(0.9)(-0.0 0 8 7)=-0.4 0 84)根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0,简言之,随着网络层数的增加,误差反向传播的梯度更新信息会朝着指数衰减的方式减少,这就是梯度消失。1 9数据挖掘原理与应用i试 题及答案一、(30分,总共30题,每题答
17、对得1分,答错得0分)单选题1、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(A )A、聚类;B、关联分析;C、分类;D、隐马尔科夫2、朴素贝叶斯是一种特殊的贝叶斯分类器,特征变量是X,类别标签是C,它的一个假定是:(C )A、各类别的先验概率P(C)是相等的B、以0为均值,s q r (2)/2为标准差的正态分布C、特征变量X的各个维度是类别条件独立随机变量I)、P(X|C)是高斯分布3、下列说法错误的是(A )A.K-me a n s算法能够解决有离群点的聚类问题B.K-mo d e s能够解决离散数据的聚类问题C.K-me a n s+能够解决初始
18、点影响聚类效果的问题D.K中心点能够解决有离群点的聚类问题4、只有非零值才重要的二元属性被称作:(C)A、计数属性 B、离散属性C、非对称的二元属性 D、对称属性5、以下哪些方法不可以直接来对文本分类(A )A、K me a n s B、决策树 C、支持向量机 D、K N N6、在l o gi s t i c分类中,口正则化和L 2正则化的引入为了解决什么问题?(C )A、数据量不充分 B、训练数据不匹配C、训练过拟合 D、训练速度太慢7、标称类型数据的可以实现数学计算(A )A、众数 B、中位数 C、均值 D、方差8、对于数据组:2 0 0,30 0,5 0 0,7 0 0,1 0 0 0,
19、使用最小-最大规范化,将数据规约到区间 5,1 0 ,其中数据5 0 0将变换为(C )A、7.3 7 5 B、5.5 2 C、6.8 7 5 D、79、主成分分析(P C A)中各因子的关系是(A )A、互相独立 B、线性相关 C、非线性相关 1)、都有可能1 0、数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是(B )A、单个模型之间有高相关性B、单个模型之间有低相关性C、在集成学习中使用“平均权重”而不是“投票”会比较好D、单个模型都是用的一个算法1 1、训练神经网络时,以下哪种激活函数最容易造成梯度
20、消失:(B )第1页(共9页)A、t a n hB、s i g m o i dC、R e L UD、l e a ky R e L U1 2、在训练L a s s。回归模型时,训练数据集有N个特征(X I,X 2,,X N)。在模型调优阶段的数据预处理时,无意将某个特征X X扩大了 2 0倍,然后用相同的正则化参数对L a s s o回归进行修正。那么,下列说法正确的是?(B )A、特征X X很可能被排除在模型之外B、特征X X很可能还包含在模型之中C、无法确定特征X X是否被舍弃D、其他选项说法都不对1 3、以下模型中,在数据预处理时,不需要考虑归一化处理的是:(C )A l o g i s
21、t i c回归 B、S V M C、树形模型 D、神经网络1 4、关于数据预处理,以下说法错误的是(B )A、可以通过聚类分析方法找出离群点。B、数据质量的三个基本属性(指标)是:正确性、精确性和完整性。C、聚类和回归算法可在数据预处理中做数据规约操作。I)、数据集成包括内容集成和结构集成。1 5、如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?(假设在庞大的数据集上使用L o g i s t i c回归模型。可能遇到一个问题,L o g i s t i c回归需要很长时间才能训练。)(D )A、降低学习率,减少迭代次数 B、降低学习率,增加迭代次
22、数C、提高学习率,增加迭代次数 D、增加学习率,减少迭代次数1 6、小明想使用逻辑回归预测用户点击某广告可能性,使用了变量xl,x2作为输入特征,两个变量量纲差异巨大,且xl本身呈双峰分布,两个分布中心数值差异巨大,请问小明应该怎么做特征工程(D )A、对 xl,x2 做m i n-m a x 归一化B、对xl做z-s c o r e归一化,对x2做m i n-m a x归一化C、对 xl,x2 做 z-s c o r e 归一化D、以上皆不对1 7、关于逻辑回归和SVM算法,说法不正确的是(A)A、逻辑回归的目标是最小化后验概率B、逻辑回归可以用于预测事件发生概率的大小C、SVM的目标是最小
23、化结构风险D、SVM可以有效避免模型过拟合1 8、以下关于逻辑回归的说法不正确的是?(C )A、逻辑回归必须对缺失值做预处理;B、逻辑回归要求自变量和目标变量是线性关系;C、逻辑回归比决策树,更容易过度拟合;D、逻辑回归只能做2值分类,不能直接做多值分类;1 9、有如下 6 条 记 录 的 数 据 集:t l=0,P,B ,t 2=P,B,M ,t 3=M,A,t 4=0,P,M ,t 5=0,P,B,A,t 6=0,P,B,M,o则支持度大于5 0%的频繁3项集为(A)第 2 页(共 9 页)A,O P B B、O P M C、P B M D、O B M2 0、通常可以通过关联规则挖掘来发现
24、啤酒和尿布的关系,那么如果对于一条规则A-B,如果同时购买A和B的顾客比例是4/7,而购买A的顾客当中也购买了 B的顾客比例是1/2,而购买B的顾客当中也购买了A的顾客比例是1/3,则以下对于规则A fB的支持度(s up p o r t)和置信度(c o n f i d e n c e)分别是多少?(C )A、4/7,1/3 B、3/7,1/2C、4/7,1/2 D、4/7,2/32 1、下面关于关联规则的描述错误的是(D )A、关联规则经典的算法主要有Ap r i o r i算法和F P-g r o wth算法B.F P-g r o wth算法主要采取分而治之的策略C、F P-g r o
25、wth对不同长度的规则都有很好的适应性D,Ap r i o r i算法不需要重复的扫描数据库2 2、D B S C AN算法适用于哪种样本集(C )A、凸样本集 B、非凸样本集 C、凸样本集与非凸样本集 D、无法判断2 3、在k-均值算法中,以下哪个选项可用于获得全局最小?(D )A、尝试为不同的质心(ce n tr o i d)初始化运行算法B、调整迭代的次数C、找到集群的最佳数量I)、以上所有2 4、两个种子点A(点,0),B(T,6),其余点为(0,0),(2,0),(0,6),(2,6),利用K m e an s算法,点群中心按坐标平均计算。最终同类点到种子点A和同类点到种子点B的距离
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 原理 应用 试题 答案 汇总 试卷 12

限制150内