数据挖掘原理与应用试题及答案试卷十二答案.pdf
数 据 挖 掘 原 理 与 应 用 试 题 及 答 案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID 3算法中信息增益是指(D )A、信息的溢出程度 B、信息的增加效益C、嫡增加的程度最大 D、嫡减少的程度最大2、下面哪种情况不会影响b m e a n s聚类的效果?(B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名(C )A、样品 B、实例 C、维度 D、元组4、人从出生到长大的过程中,是如何认识事物的?(D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:(C )A、直接忽略 B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化 D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性a g e。数据元组中a g e的值如下(按递增序):1 3,1 5,1 6,1 6,1 9,2 0,2 0,2 1,2 2,2 2,2 5,2 5,2 5,30,33,33,35,35,36,4 0,4 5,4 6,5 2,7 0 问题:期按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A )A、1 8.3 B、2 2.6 C、2 6.8 D、2 7.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C )A、根据内容检索 B、建模描述C、预测建模 I)、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取(A )A、聚类分析 B、回归分析 C、相关分析 D、判别分析9、时间序列数据更适合用(A )做数据规约。A、小波变换 B、主成分分析 C、决策树 D、直方图1 0、下面哪些场景合适使用P C A?(A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征第1页(共7页)D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:(C)A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;I)、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A、频繁模式挖掘 B、分类和预测C、数据预处理 D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。然后使用这些PCA预测作为特征,以下哪个声明是正确的?(B)A、更高的“k”意味着更正则化 B、更高的“k”意味着较少的正则化C、都不对 D、都正确14、为节省神经网络模型的训练时间,神经网络模型的权重和偏移参数一般初始化为(D)A、0 B、0.5 C、1 D、随机值15、在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用?(D)A、AUC-ROC B、准确度 C、Logloss D、均方误差16、假设对数据提供一个逻辑回归模型,得到训练精度X和测试精度Y.在数据中加入新的特征值,则下列哪一项是正确的?提示:其余参数是一样的。(B)A、训练精度总是下降 B、训练精度总是上升或不变C、测试精度总是下降 D、测试精度总是上升或不变17、SVM(支持向量机)与LR(逻辑回归)的数学本质上的区别是什么?(A)A、损失函数 B、是否有核技巧 C、是否支持多分类 D、其余选项皆错18、逻辑回归为什么是一个分类算法而不是回归算法?(A)A、是由于激活函数sigmod把回归问题转化成了二分类问题B、是由于激活函数maxsoft把回归问题转化成了二分类问题C、是由于激活函数tanh把回归问题转化成了二分类问题D、是由于激活函数Relu把回归问题转化成了二分类问题19、以下关于逻辑回归说法错误的是:(C)A、特征归一化有助于模型效果B、逻辑回归是一种广义线性模型C、逻辑回归相比最小二乘法分类器对异常值更敏感D、逻辑回归可以看成是只有输入层和输出层且输出层为单一神经元的神经网络20、Apriori算法的计算复杂度受(D)影响A、项 数(维度)B、事务平均宽度 C,事务数 D、支持度阀值第2页(共7页)2 1、考虑下面的频繁 3-项集的集合:1.2.3 ,1.2.4 ,(1.2.5),1.3.4 ,1.3.5 ,(2.3.4 ,2.3.5 ,3.4.5。假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)A、1.2.3.4 B、1.2.3.5 C、1.2.4.5 D、1.3.4.52 2、在关联规则中,有三个重要的指标,支持度(suppo rt),置 信 度(co n f i de n t),作用度(l i f t),则对于规则X-Y的三个指标说法错误的是(N表示所有的样本i te m数目):(C)A、suppo rt=f re q (X,Y)/NB、co n f i de n t=f re q (X,Y)/f re q (x)C、l i f t=f re q(X,Y)/f re q(Y)D,l i f t=f re q(X,Y)*N/(f re q(X)*f re q(Y)2 3、在基本K均值算法里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中位数。A、曼哈顿距离 B、平方欧几里德距离 C、余弦距离 D、Bre g m a n散度2 4、一共 5 个点 A(0,0),B(l,0.3),C(3,0.5),D(2,1),E(1.8,1.5),采用 K m e a n s 方法如果选取 A,D为种子点,B,C,E分别属于(A)种子点A、A,D,D B、A,A,D C、D,D,A D、D,A,D2 5、图像中应用的k m e a n s算法,以下说法错误的是:(D )A、k m e a n s算法有效的前提假设是数据满足高斯分布B、k m e a n s需要手工指定类别的数目KC、对于多维实数数据,k m e a n s算法最终一定是收敛的D、k m e a n s算法可以直接得到类别分布的层级关系2 6、以下关于K NN的描述,不正确的是(A)A、K NN算法只适用于数值型的数据分类B、K NN算法对异常值不敏感C、K NN算法无数据输入假定D、其他说法都正确2 7、假定某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是:(B)A、被重复的在模型中作用被加强B、模型效果精度降低C、如果所有特征都被重复一遍,则预测结果不发生变化D、以上均正确2 8、在其他条件不变的前提下,以下哪种做法容易引起模型中的过拟合问题?(D )A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征I)、S V M算法中使用高斯核/R B F核代替线性核第3页(共7页)2 9、下列哪一项在神经网络中引入了非线性(B )A、S GD B、激活函数 C、卷积函数 D、都不正确3 0、下列哪个神经网络结构会发生权重共享(D )A、卷积神经网络 B、循环神经网络C、全连接神经网络 D、选项A和 B二、(2 0分,总共1 0题,每题全对得2分,漏选得1 分,错选得0 分)不定项选择题1、下列哪些是非监督数据离散化方法(A B C )A、等宽法 B、等频法 C、聚类法 D、决策树法2、在现实世界的数据中,元组在某些属,生上缺少值是常有的。描述处理该问题的各种方法有:D)A、忽略元组 B、使用属性的平均值填充空缺值C、使用一个全局常量填充空缺值 D、使用最可能的值填充空缺值3、序数类型数据的可以实现数学计算(A B )A、众数 B、中位数 C、均值 D、方差4、应用P C A 后,以下哪项可以是前两个主成分?(C D )A、(0.5,0.5,0.5,0.5)和(0.7 1,0.7 1,0,0)B、(0.5,0.5,0.5,0.5)和(0,0,-0.7 1,0.7 1)C、(0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)D、(0.5,0.5,0.5,0.5)和(-0.5,-0.5,0.5,0.5)5、贝叶斯分类器是一种(A C )A、基于贝叶斯公式的分类器B、是一种无监督的学习C、是一种概率预测模型D、可处理小样本数据的方法6、下面关于贝叶斯分类器说法正确的是(A C )A、贝叶斯的思想是“由因推果”B、贝叶斯的思想是“执果溯因”C、可以用极大似然估计法解贝叶斯分类器D、可以解决无监督学习的问题7、对于信息增益,决策树分裂节点,下面说法正确的是(B C )A、纯度高的节点需要更多的信息去区分B、信息增益可以用“1 比特 牖”获得C、如果选择一个属性具有许多归类值,那么这个信息增益是有偏差的D、上述均错误8、下列哪些机器学习算法不需要做数据归一化处理(C D )A、K 均值 B、线性回归 C、决策树 D、朴素贝叶斯(ABC第4页(共7页)9、对于P C A说法正确的是:(A B D )A、我们必须在使用P C A前规范化数据B、我们应该选择使得模型有最大v a r i a n c e的主成分C、我们应该选择使得模型有最小v a r i a n c e的主成分I)、我们可以使用P C A在低维度上做数据可视化1 0、逻辑回归有哪些处理非线性关系特征的方法?(ABC D )A、特征离散化 B、特征交叉C、引入高阶项 D、引入核函数三、(1 0分,总共1 0题,每题答对得1分,答错得0分)判断题,正确的用“V,错误的用“F”1、”飞机的飞行高度3 0 0 0米”表示信息。(对)2、皮尔逊相关系数可用来判断X和Y之间的因果关系。(错)3、焙衡量的是系统的不确定性,焙值越大(接近于1)说明系统的不确定性越低。(错)4、样品是数据对象的别名。(对)5、在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。(错)6、杰卡德系数用来度量非对称的二进制属性的相似性。(对)7、K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个数据对应的簇中心点。(对)8、决策树算法只能做2值分类,不能做多值分类。(错)9、决策树通过预剪枝和后剪枝提升模型的泛化能力。(对)1 0、杰卡德系数用来度量非对称的二进制属性的相似性。(对)四、(1 0分)已知两个一维模式类别的类概率密度函数为:x 0 x 1p(x/;)=2-x 1 x 2.0 其它f x-1 l x 2p(x/02)=-x 2 x 3,0 其它先验概率P(3 1)=0.6;P(3 2)=0.4,则样本 x=l.6 5 属于哪一类别?第5页(共7页)五、(1 0 分)对于数据:1 2,9,7,6,2 0,1 0 0,3 5,2 1,1 1,1 8,2 5,3 7(1)计算它的平均值,2 0%的截断均值和中位数。(2)使用M I N-M A X 规范方法将值其中的6,1 0 0,3 5 转换到 0,1 。(3)对数据按照深度为4 进行划分,再写出按边界值进行平滑后的结果。六、假设我们手上有6 0 个正样本,4 0 个负样本,我们要找出所有的正样本,系统查找出5 0 个,其中只有4 0 个是真正的正样本,计算上述各指标。请计算:(1)T P:将正类预测为正类数?(2)F N:将正类预测为负类数?(3)F P:将负类预测为正类数?(4)T N:将负类预测为负类数?(5)准确率(a c c u ra c y)?(6)精确率(pre c ision)?(7)召回率(re c a l l)?七、逻辑回归中,常用优势比O R (od d s ra t io)衡量因素作用大小的比数比例指标:O R =式中P,和Pa分别表示在X,取值为G及C。时的发病概率,。叫称作多1 po/(l-Po星量调整后的优势比,表示扣除了其他自变量影响后危险因素的作用。在一个具有1 7 个家庭的样本里,共有3 家的收入为 1 0 0 0 0 ,5 家的收入为 1 1 0 0 0,9 家的收入为 1 2 0 0 0。在收入为 1 0 0 0 0 的家庭里,1 个主妇不工作,2个主妇工作;在收入为 1 1 0 0 0 的家庭里,1 个主妇不工作,4个主妇工作;在收入为 1 2 0 0 0 的家庭里,1 个主妇不工作,8个主妇工作。收入(单位:干)主妇工作状况总计0 (不工作)1 (工作)1 01231 11451 2189总计31 41 7令收入为变量X,类别标签为工作状态。(1)计算X 为 1 0 和 H时,优势比0 R 等于多少?(2)计算X为 1 1 和 1 2 时,优势比0 R 等于多少?四、解:属于 w l 的概率:(2 T.6 5)*0.6=0.2 1 4 分属于 w 2 的概率:0.6 5*0.4=0.2 6 4 分因此,属于w 2 类 2 分第6页(共7页)五、解:(1)平均值是2 5.0 8,2 0%的截断均值(两端各去掉两个数以后的平均值)是1 8.8,中位数是1 9。3 分(2)规范化后,转换后的值为(0,1,0.3 1)3 分 深 度 为 4 进行划分,得到三个箱(6,7,9,1 1),(1 2,1 8,2 0,2 1),(2 5,3 5,3 7,1 0 0);边界值平滑后的结果为(6,6,1 1,1 1),(1 2,1 2,2 1,2 1),(2 5,25,25,1 0 0)4 分六、解:(1)1 分 T P:将正类预测为正类数:4 0(2)1 分 F N:将正类预测为负类数:2 0 (6 0-4 0,剩余没正确分类的正样本)(3)口分 F P:将负类预测为正类数:1 0(4)分 T N:将负类预测为负类数:3 0(5)2 分 准确率(a c c u ra c y)=预测对的/所有=(T P+T N)/(T P+F N+F P+T N)=7 0%(6)2 分 精确率(pre c ision)=T P/(T P+F P)=8 0%(7)2 分 召回率(re c a l l)=T P/(T P+F N)=2/3七、解:X 分别取1 0 和 H时,or=4/2=2 5 分X 分别取1 1 和 1 2 时,oi-4/2=2 5 分第7页(共7页)