《大数据时代下的数据挖掘》试题和答案解析.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《《大数据时代下的数据挖掘》试题和答案解析.docx》由会员分享,可在线阅读,更多相关《《大数据时代下的数据挖掘》试题和答案解析.docx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、海量数据挖掘技术及工程实践题目一、单项选择题(共80题)1) ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据一样的分析结果。A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购置尿布,这种属于数据挖 掘的哪类问题(A)A.关联规则发现B.聚类C.分类D.自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A. Precision, Recall B. Recall, Precisi
2、onA. Precision, ROC D. Recall, ROC4)将原始数据进展集成、变换、维度规约、数值规约是在以下哪个步骤的任务(C)A.频繁模式挖掘 B.分类和预测C.数据预处理 D.数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相别离(B)A.分类 B.聚类C.关联分析D.隐马尔可夫链6)建设一个模型,通过这个模型根据的变量值来预测其他某个变量值属于数据挖掘的哪一 类任务(C)A.根据内容检索 B.建模描述C.预测建模D.寻找模式和规则7)下面哪种不属于数据预处理的方法(D)A.变量代换B.离散化C.聚集D.估计遗漏值D.可以并行处
3、理的应用程序64) PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就 DA.相关性越高C,相关性越低Xa.对c.多对多B.越不重要D.越重要B. 一对多D.多对一65)协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对 某一信息的评价,形成系统对该指定用户对此信息的喜好程度(D),并将这些用户喜欢的项推荐给有相似兴趣的用户。B. 一样A.相似C.推荐D.预测66)大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内到 达撷取、管理、处理、并B )成为帮助企业经营决策更积极目的的信
4、息。A.收集B.整理C.规划D.聚集67)大数据科学关注大数据网络开展和运营过程中1 D )大数据的规律及其与自然和 社会活动之间的关系。A.大数据网络开展和运营过程B.规划建设运营管理C,规律和验证D.发现和验证68)大数据的价值是通过数据共享、(D )后获取最大的数据价值A.算法共享B.共享应用C.数据交换D.穿插复用69)社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的1 C ),通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需 要的品牌商家或是微博营销公司。A.地址B.行为C.情绪D.来源70)通过数据收集和展示数据背后的(),运用丰富的、具有
5、互动性的可视化手段,数据新闻学成为新闻学作为一门新的分支进入主流媒体,即用数据报道新闻。A.数据收集B.数据挖掘C.真相D.关联与模式71 ) CRISP-DM模型中Evaluation表示对建设的模型进展评估,重点具体考虑得出的结果是 否符合(C )的商业目的。A.第二步B.第三步C.第一步D.最后一步72)发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持 度和1 D ,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、 评估关联规则A.最小兴趣度B.最小置信度C.最大支持度D.最小可信度73)规则j, “有可能,等于所有包含I的购物篮中同时包含J的购物篮
6、的比例,为 B )。A.置信度B.可信度C.兴趣度D.支持度74)如果一个匹配中,任何一个节点都不同时是两条或多条边的端点,也称作(A.极大匹配B.二分匹配C完美匹配D.极小匹配75)只要具有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力以及(D )的关键要素。A .提高消费B.提高GDPC.提高生活水平D.创造消费者盈余76)个性化推荐系统是建设在海量数据挖掘根基上的一种高级商务智能平台,以帮助D 为其顾客购物提供完全个性化的决策支持和信息服务。A.公司B.各单位C,跨国企业D.电子商务网站77)云计算是对()技术的开展与运用A.并行计算B.网格计算C.分布式计算 D.三
7、个选项都是78) B )是Google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构。A. GFSB. MapReduceC.ChubbyD. BitTable79)在 Bigtable 中,()主要用来存储子表数据以及一些日志文件A. GFSB. ChubbyC.SSTableD.MapReduce二、判断题共40题) 1)分类是预测数据对象的离散类别,预测是用于数据对象的连续取值。(对)2)时序预测回归预测一样,也是用的数据预测未来的值,但这些数据的区别是变量所处时 间的不同。(错)3)数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数 据
8、等任务。(对)4)对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏 值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。 (对)5)神经网络对噪音数据具有高承受能力,并能对未经过训练的数据具有分类能力,但其需 要很长的训练时间,因而对于有足够长训练时间的应用更适宜。(对)6)数据分类由两步过程组成:第一步,建设一个聚类模型,描述指定的数据类集或概念集; 第二步,使用模型进展分类。(错)7)聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。(对)8)决策树方法通常用于关联规则挖掘。(错)9)数据标准化指将数据按比例缩放(如更
9、换大单位),使之落入一个特定的区域(如0T) 以提高数据挖掘效率的方法。标准化的常用方法有:最大-最小标准化、零-均值标准化、 小数定标标准化。(对)10)原始业务数据来自多个数据库或数据仓库,它们的构造和规则可能是不同的,这将导致 原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的 数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进展数据的预处理。(对)11)数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表 性。(对)12)分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传 算法。(
10、对)13)可信度是对关联规则的准确度的衡量。(错)14)孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。(错)15) Apriori算法是一种典型的关联规则挖掘算法。(对)16)用于分类的离散化方法之间的基本区别在于是否使用类信息。(对)17)特征提取技术并不依赖于特定的领域。(错)18)模型的具体化就是预测公式,公式可以产生与观察值有相似构造的输出,这就是预测值。 (对)19)文本挖掘又称信息检索,是从大量文本数据中提取以前未知的、有用的、可理解的、可 操作的知识的过程。错20)定量属性可以是整数值或者是连续值。(对)21)可视化技术对于分析的数据类型通常不是专用性的。(错)22) OLA
11、P技术侧重于把数据库中的数据进展分析、转换成辅助决策信息,是继数据库技术开 展之后迅猛开展起来的一种新技术。(对23) Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设 过程中提取信息。错)24)关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。错)25)利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(对)26)先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错27)回归分析通常用于挖掘关联规则。(错)28)具有较高的支持度的项集具有较高的置信度。(错)29)维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少
12、数据挖掘处理的数据 量,提高挖掘效率。(对30)聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。(错31)对于SVM分类算法,待分样本集中的大局部样本不是支持向量,移去或者减少这些样本对分类结果没有影响。(对)32) Bayes法是一种在后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结 果取决于各类域中样本的全体。 (错)33)在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验 误差开场增大,这是出现了模型拟合缺乏的问题。(错)34)在聚类分析当中,簇内的相似性越大,簇间的差异
13、越大,聚类的效果就越差。错35)聚类分析可以看作是一种非监视的分类。(对36) K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错37)基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)38)如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。对)39)大数据的 4V 特点是 Volume、Velocity、Variety Veracity0 (对)40)聚类分析的相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单 模矩阵。(对)三、多项选择题共30题)1)噪声数据的产生原因主要有:(ABCDA.数据采集设备有问题B.在数据录入过
14、程中发生了人为或计算机错误C.数据传输过程中发生错误D.由于命名规则或数据代码不同而引起的不一致2)寻找数据集中的关系是为了寻找准确、方便并且有价值地总结出数据的某一特征的表示, 这个过程包括了以下哪些步骤(A B C D)A.选择一个算法过程使评分函数最优B.决定若何量化和对比不同表示拟合数据的好坏C.决定要使用的表示的特征和构造D.决定用什么样的数据管理原则以高效地实现算法3)数据挖掘的预测建模任务主要包括哪几大类问题(A B)A.分类B.回归C.聚类D.关联规则挖掘4)以下属于不同的有序数据的有:(A B C D)A.时序数据B.序列数据C.时间序列数据D.事务数据E.空间数据5)下面属
15、于数据集的一般特性的有:(BCD)A.连续性B.维度C.稀疏性D.分辨率E.相异性6下面属于维归约常用的处理技术的有:(A C)A.主成分分析B.特征提取C.奇异值分解D.特征加权E.离散化7)噪声数据处理的方法主要有:(ABD )A.分箱B.聚类C.关联分析D.回归8)数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及(ABCD )等方面。A.挖掘频繁模式B.分类和预测C.聚类分析D.偏差分析9)以下各项均是针对数据仓库的不同说法,你认为正确的有(BCD )。A.数据仓库就是数据库B.数据仓库是一切商业智能系统的根基C.数据仓库是面向业务的,支持联机事务处理(OLTP)D.数据仓库支持决
16、策而非事务处理 10)联机分析处理包括(BCD )基本分析功能。A.聚类B.切片C.转轴D.切块11)利用Apr iori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是(BD )TID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐A.啤酒、尿布B.啤酒、面包C.面包、尿布 D.啤酒、牛奶12)下表是一个购物篮,假定支持度阈值为40%,其中(AD )是频繁闭项集。ID项集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、鸡蛋4面包、尿布、啤酒
17、、鸡蛋5啤酒、鸡蛋A.面包、牛奶、尿布B.面包、啤酒C.尿布、啤酒D.啤酒、鸡蛋13) Apriori算法的计算复杂度受(ABCD )影响。A.支持度阀值B.项数(维度C.事务数D.事务平均宽度14)以下关于非频繁模式说法,正确的选项是(AD )A.其支持度小于阈值B.都是不让人感兴趣的C.包含负模式和负相关模式D.对异常数据项敏感15)以下属于分类器评价或对比尺度的有:(ACD)A.预测准确度B.召回率C.模型描述的简洁度D.计算复杂度16)贝叶斯信念网络(BBN)有如下哪些特点。ABA.构造网络费时费力B.对模型的过分问题非常鲁棒C.贝叶斯网络不适合处理不完整的数据D.网络构造确定后,添加
18、变量相当麻烦17)如下哪些不是最近邻分类器的特点。(C)A.它使用具体的训练实例进展预测,不必维护源自数据的模型B.分类一个测试样例开销很大C.最近邻分类器基于全局信息进展预测D.可以生产任意形状的决策边界18)以下属于聚类算法的是(AB )。A. K-MeansB. DBSCANC.AprioriD. KNN19) ( CD )都属于簇有效性的监视度量。A.轮廓系数B.共性分类相关系数C.熠D. F度量20) ABCD这些数据特性都是对聚类分析具有很强影响的。A.高维性B.规模C.稀疏性D.噪声和离群点21)在聚类分析当中,(AD等技术可以处理任意形状的簇。A. MIN (单链)B.MAX
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据时代下的数据挖掘 数据 时代 挖掘 试题 答案 解析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内