《大数据分析应用技能理论考核试题及答案.docx》由会员分享,可在线阅读,更多相关《大数据分析应用技能理论考核试题及答案.docx(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据分析应用技能理论考核一、选择题1.大数据中的小数据可能缺失、冗余、存在垃圾数据,但不影响大数据的可信数据,是大数据的() 的表现形式。单选题*A.价值涌现B.隐私涌现C.质量涌现VD.安全涌现2.数据科学基本原则中,基于数据的智能的主要特点是(1 单选题*A.数据简单,但算法简单B.数据复杂,但算法简单VC.数据简单,但算法复杂D.数据复杂,但算法复杂3.()是数据库管理系统运行的基本工作单位。单选题*A.事务,B.数据仓库C.数据单元D.数据分析4.目前,多数NoSQL数据库是针对特定应用场景研发出来的,其设计遵循()原则,更强调读写效率、数据容量以及系统可扩展性。单选题*8.主要用来
2、实现实时计算类应用的组件有( 多选题*A.流计算组件VB.内存计算组件VC. MPP数据库D. Hadoop的后台定时分析计算任务9 .下列属于数据统计分析工具的有( 多选题*A. WekaVB. SASVC. SPSSVD. MatlabV10 .下列关于数据维度的描述正确的有( 多选题*A.采用列表表示一维数据,不同数据类型的元素是可以的VB.JSON格式可以表示比二维数据还复杂的高维数据VC.二维数据可以看成是一维数据的组合形式VD.字典不可以表示二维以上的高维数据三、判断题1 .数据产品开发涉及数据科学项目流程的部分活动。()判断题*对错V2 .半结构化数据是经过一定转换处理后可以用传
3、统关系数据库存储和管理的数据。()判断题*对V错3 .大数据的存储方案通常对一份数据在不同节点上存储多份副本,以提高系统容错性。()判断题 *对V错4 .非结构化数据是可以直接用传统关系数据库存储和管理的数据。()判断题*对错V5 .数据类型的多样性往往导致数据的同质性,进而加大数据处理的复杂性。()判断题*对错V6 .大数据分析是对总体数据,尤其是针对传统手段捕捉到的数据之外的非结构化数据进行分析。(”判 断题*对V错7 .基于大数据的数据真实性分析技术能够提高垃圾信息的鉴别能力。()判断题*对V错8 .二次指数平滑法有多期预测能力,短期预测效果较好。()判断题*对错V9 .通常把分类错误的
4、样本数量与分类正确样本数量的比例称为错误率。()判断题*错,10 .数据挖掘的目的是发现数据集中的模式或规律,数据挖掘有监督学习和无监督学习两种方式。()判断题*11 大数据是以容量大、类型多、存取速度快 为主要特征的数据集合。填空题*空1答案:应用价值高12 从学科定位看,数据科学处于、和 三大领域的重叠之处。填空题*空1答案:数学与统计知识;黑客精神与技能;领域实务知识 空2答案:请设置答案 空3答案: 请设置答案13 数据科学领域常用的工具之是统计学家发明的语言。填空题*空1答案:R语言14 根据能否清晰地表述和有效地转移,将知识分为 和 两种。填空题*空1答案:显性知识;隐性知识 空2
5、答案:请设置答案15 _是一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。填空题 *空1答案:大数据思维空1答案:数据可视化7 .大数据包括结构化、半结构化和非结构化数据,其中 为数据的主要部分。填空题*空1答案:非结构化数据8 . 的目的是缩小数据的取值范围,使其更适合数据挖掘算法的需要,并且能够得到和原始数据 相同的分析结果。填空题*空1答案:数据归约9 .是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。填空题*空1答案:聚类10 .是一个高可靠性、高性能、面向列、可伸缩的系统,可在廉价PC服务器上搭建起大规模 结构化存储集群。填空题*空1答案:
6、HBase或分布式。A. EASYB. READC. BASEVD. BASIC5 .数据可视化的本质是( 单选题*A.将数据转换为知识”B.将知识转换为数据C.将数据转换为信息D.将信息转换为智慧6 .下列不属于大数据在社会活动中的典型应用的是( 单选题*A.美团实现了快速精准的送餐服务B.共享单车、滴滴打车方便了人们的日常出行C.快递实现了订单的实时跟踪D.供电公司提供电费账单查询V7 .在空间维度上刻画数据连续性是数据的(1 单选题*A.可关联性V8 .可溯源性C.可理解性D.可复制性9 .将观测值分为相同数目的两部分,当统计结果为非对称分布时经常使用的是( 单选题*A.众数B.标准差C
7、.中位数VD.均值10 ()的本质是将低层次数据转换为高层次数据的过程。单选题*A.数据处理B.数据计算C.数据加工VD.整齐数据11 .在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是(、单选题*A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样V1L下列关于基本元数据描述正确的是(X 单选题*A.基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息B.基本元数据包括与企业相关的管理方面的数据和信息C.基本元数据包括日志文件和简历执行处理的时序调度信息D.基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息V12 .下列关于数据分析的
8、说法正确的是(X 单选题*A.描述性分析和预测性分析是诊断性分析的基础B.诊断性分析是对规范性分析的进一步理解C.预测性分析是规范性分析的基础VD.规范性分析是数据分析的最高阶段,可以直接产生产业价值13 .下列不属于脏数据的是( 单选题*A.含有缺失数据B.冗余数据C.噪声数据D.不规则形态数据V14 .在一些算法中,为了进行属性之间的比较或运算,需要把不同属性的不同变量取值范围变换成同一 范围,以免使得结果发生扭曲,偏向取值范围大的变量。这一过程称为(I 单选题*A.合并B.数据聚合C.归一化VD.数据处理15 .下列关于数据仓库随时间变化的描述不正确的是( 1单选题*A.数据仓库随时间的
9、变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随时间变化不断删去旧的数据内容VD.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新组合16.下列属于无监督学习的是(1 单选题*A. K-meansVB. SVMC.最大燧D. CRFA. Json内的取值只能有统一格式B. PDF文件在不同平台上打开显示不同C.可以通过Python将CSV文件转换成Excel格式VD. Excel存储数据的量无限制18.()反映数据的精细化程度,越细化的数据,价值越高。单选题*A.规模B.灵活性C.关联度D.颗粒度V19.是指给目标用户产生的错误或不准确的视觉感知
10、,而这种感知与数据可视化者的意图或数据本身的 真实情况不一致。单选题*A.视觉假象VB.视觉认知C视觉胸D.数据可视2O.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank 越高,那么它就(单选题*A.相关性越高B.越不重要C.相关性越低D.越重要V21.决定事务对数据对象加锁后拥有何种控制权的是锁的( 单选题*A.状态B.类型VC.数量D属性22 .数据的原始内容及其备份数据是数据产品研发的( 单选题*A.零次数据VB.一次数据C.二次数据D.采集数据23 .数据科学处于()三大领域的重叠之处。单选题*A.数学与统计知识、黑客精神与技能、领域
11、实务知识24 数据挖掘、黑客精神与技能、领域实务知识C.数学与统计知识、数据挖掘、领域实务知识VD.数学与统计知识、黑客精神与技能、数据挖掘24.数据科学中,人们开始注意到传统数据处理方式中普遍存在的信息丢失现象,进而数据处理范式变 为( 单选题*A.从产品在先,数据在后范式转向数据在先,产品在后范式或无模式B.从模式在先,产品在后范式转向产品在先,模式在后范式或无模式C.从数据在先,模式在后范式或无模式转向模式在先,数据在后范式D.从模式在先,数据在后范式转向数据在先,模式在后范式或无模式,25.数据可视化的方法论基础是(1单选题*A.统计图表B.视觉编码VC.图论D.图形符号学26 .下列
12、不属于现阶段的大数据技术体系主要类型的是( 单选题*A.数据源与AppB.基础设施C. HadoopVD.数据资源27 .关系数据库中存储、计算和管理的数据是(I 单选题*A.结构化数据VB.海量数据C.半结构化数据D.非结构化数据28 .图灵奖获得者JimGray提出的科学研究第四范式的全称为()单选题A.数据密集型科学发现VB.以数据为中心的科学发现C.数据驱动型的科学发现D.大数据科学研究29.下列不属于数据科学开源工具的是( 单选题*A. M叩ReduceB. ERPVC. HadoopD. Spark30.集群的最主要瓶颈通常是(I 单选题*A.CPUB.网络C.磁盘I/OVD.内存
13、二、多选题1 .以数据为中心是数据产品区别于其他类型产品的本质特征,表现方面有( 多选题*A.数据驱动VB.数据密集型,C.数据范式VD.数据可视化2 J专统关系数据库的优点包括( 多选题*A.数据一致性高V8 .数据冗余度低VC.简单处理的效率高D.产品成熟度高V3.大数据处理流程可以概括为( 多选题*A.数据分析与挖掘VB.数据采集VC.数据储存VD.结果展示。4.大数据参考架构的三个层次包含(工多选题*A.角色VB.活动VC.逻辑构件D.功能组件V5.数据科学项目主要涉及的活动包括( 多选题*A.模式/模型的应用及维护VB.模式/模型的洞见VC.结果的可视化与文档化VD.模式/模型的睑证和优化V6 .在数据科学中,计算模式发生了根本性的变化从集中式计算、分布式计算、网格计算等传统计 算过渡至云计算,有一定的代表性的是Google云计算三大技术,这三大技术包括( 多选题*A. HadoopYRN资源管理器B. GFS分布式存储系统VC. M叩Redue分布式处理技术VD. BigTable分布式数据库V7 .下列既可以用于分类,又可以用于回归的机器学习算法有(X 多选题*A. k近邻V8 .逻辑回归C.决策树VD.线性回归
限制150内