数据挖掘原理与应用试题及答案试卷十二答案.pdf





《数据挖掘原理与应用试题及答案试卷十二答案.pdf》由会员分享,可在线阅读,更多相关《数据挖掘原理与应用试题及答案试卷十二答案.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数 据 挖 掘 原 理 与 应 用 试 题 及 答 案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID 3算法中信息增益是指(D )A、信息的溢出程度 B、信息的增加效益C、嫡增加的程度最大 D、嫡减少的程度最大2、下面哪种情况不会影响b m e a n s聚类的效果?(B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名(C )A、样品 B、实例 C、维度 D、元组4、人从出生到长大的过程中,是如何认识事物的?(D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中
2、应如何妥善处理连续型属性:(C )A、直接忽略 B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化 D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性a g e。数据元组中a g e的值如下(按递增序):1 3,1 5,1 6,1 6,1 9,2 0,2 0,2 1,2 2,2 2,2 5,2 5,2 5,30,33,33,35,35,36,4 0,4 5,4 6,5 2,7 0 问题:期按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A )A、1 8.3 B、2 2.6 C、2 6.8 D、2 7.97、建立一个模型,通过这个模型根据已
3、知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C )A、根据内容检索 B、建模描述C、预测建模 I)、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取(A )A、聚类分析 B、回归分析 C、相关分析 D、判别分析9、时间序列数据更适合用(A )做数据规约。A、小波变换 B、主成分分析 C、决策树 D、直方图1 0、下面哪些场景合适使用P C A?(A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征第1页(共7页)D、替代线性回归11、数字图像处理中
4、常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:(C)A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;I)、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A、频繁模式挖掘 B、分类和预测C、数据预处理 D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。然后使用这些PCA预测作为特征,以下哪个声明是正确的?(B
5、)A、更高的“k”意味着更正则化 B、更高的“k”意味着较少的正则化C、都不对 D、都正确14、为节省神经网络模型的训练时间,神经网络模型的权重和偏移参数一般初始化为(D)A、0 B、0.5 C、1 D、随机值15、在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用?(D)A、AUC-ROC B、准确度 C、Logloss D、均方误差16、假设对数据提供一个逻辑回归模型,得到训练精度X和测试精度Y.在数据中加入新的特征值,则下列哪一项是正确的?提示:其余参数是一样的。(B)A、训练精度总是下降 B、训练精度总是上升或不变C、测试精度总是下降 D、测试精度总是上升或不变17、SVM(
6、支持向量机)与LR(逻辑回归)的数学本质上的区别是什么?(A)A、损失函数 B、是否有核技巧 C、是否支持多分类 D、其余选项皆错18、逻辑回归为什么是一个分类算法而不是回归算法?(A)A、是由于激活函数sigmod把回归问题转化成了二分类问题B、是由于激活函数maxsoft把回归问题转化成了二分类问题C、是由于激活函数tanh把回归问题转化成了二分类问题D、是由于激活函数Relu把回归问题转化成了二分类问题19、以下关于逻辑回归说法错误的是:(C)A、特征归一化有助于模型效果B、逻辑回归是一种广义线性模型C、逻辑回归相比最小二乘法分类器对异常值更敏感D、逻辑回归可以看成是只有输入层和输出层且
7、输出层为单一神经元的神经网络20、Apriori算法的计算复杂度受(D)影响A、项 数(维度)B、事务平均宽度 C,事务数 D、支持度阀值第2页(共7页)2 1、考虑下面的频繁 3-项集的集合:1.2.3 ,1.2.4 ,(1.2.5),1.3.4 ,1.3.5 ,(2.3.4 ,2.3.5 ,3.4.5。假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)A、1.2.3.4 B、1.2.3.5 C、1.2.4.5 D、1.3.4.52 2、在关联规则中,有三个重要的指标,支持度(suppo rt),置 信 度(co n f i de n t),作用度(l i f t)
8、,则对于规则X-Y的三个指标说法错误的是(N表示所有的样本i te m数目):(C)A、suppo rt=f re q (X,Y)/NB、co n f i de n t=f re q (X,Y)/f re q (x)C、l i f t=f re q(X,Y)/f re q(Y)D,l i f t=f re q(X,Y)*N/(f re q(X)*f re q(Y)2 3、在基本K均值算法里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中位数。A、曼哈顿距离 B、平方欧几里德距离 C、余弦距离 D、Bre g m a n散度2 4、一共 5 个点 A(0,0),B(l,0.3),C(3,
9、0.5),D(2,1),E(1.8,1.5),采用 K m e a n s 方法如果选取 A,D为种子点,B,C,E分别属于(A)种子点A、A,D,D B、A,A,D C、D,D,A D、D,A,D2 5、图像中应用的k m e a n s算法,以下说法错误的是:(D )A、k m e a n s算法有效的前提假设是数据满足高斯分布B、k m e a n s需要手工指定类别的数目KC、对于多维实数数据,k m e a n s算法最终一定是收敛的D、k m e a n s算法可以直接得到类别分布的层级关系2 6、以下关于K NN的描述,不正确的是(A)A、K NN算法只适用于数值型的数据分类B、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 原理 应用 试题 答案 试卷 十二

限制150内