《大数据工程技术人员初级理论考核试题与答案.docx》由会员分享,可在线阅读,更多相关《大数据工程技术人员初级理论考核试题与答案.docx(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据工程技术人员初级理论考核一、选择题1.以下哪个选项不属于数据可视化的范畴( 单项选择题*A.科学可视化B.图表可视化VC.信息可视化D.可视化分析2 .以下哪个选项不属于最为常见的六种图形( 单项选择题*A饼图B.条形图C.树图VD.柱状图3 .以下()可视化图表通常用颜色深浅表示数值大小单项选择题*A.柱状图8 .热力图VC.散点图D.气泡图4.数据集合中出现次数最多的数值被称为()单项选择题*A平均数B.众数VB.聚类VC.关联分析D.隐马尔可夫链38 .下面()属于映射数据到新的空间的方法。单项选择题*A.傅里叶变换VB.mE加权C.渐进抽样D.维归约39 .以下()不是专门用于可
2、视化时间空间数据的技术。单项选择题*A.等高线图B.饼图VC.曲面图D.矢量场图40 .可用作数据挖掘分析中的关联规那么算法有(1 单项选择题*A.决策树、对数回归、关联模式B.K均值法、SOM神经网络C.Apriori 算法、FP-Tree 算法VD.RBF神经网络、K均值法、决策树41.以下()不是可视化交互方法。单项选择题*A.概览+细节技术B.焦点+上下文技术C.概览+缩放技术VD.平移+缩放技术42 .以下()属于可视化交互设备。单项选择题*A.平板电脑B.触摸屏C.立体眼镜D.以上都是V43 .可视分析的运行过程可看作是()的循环过程。单项选择题*A.数据知识-数据V44 知识知识
3、知识”C.”数据一数据一数据D.知识一数据一数据44.与大数据密切相关的技术是( 单项选择题*A.蓝牙B.云计算VC.博弈论D.Wifi45.极坐标图形是使用()来绘制的。单项选择题*A.原点和半径B.相角和距离V(:横纵坐标D.原点和相角46.文本可视化流程是()单项选择题A.原始文本-文本信息挖掘-视图绘制-人机交互。VB.原始文本-视图绘制-人机交互。C.原始文本-文本信息挖掘-人机交互。D.原始文本- 文本信息挖掘- 视图绘制。47 .以下属于反映比例关系的可视化图表的是( 单项选择题*A.旭日图VB.散点图C.热力图D.气泡图48 .以下属于数据收集内部渠道的是(客户调查专家与客户访
4、谈专业调研机构内部数据库单项选择题*A.、VB.、C.、D.、49 .作为电商企业,以下()图可以有效地提供不同商品的销售和趋势情况。单项选择题A饼图B.分组直方图C.气泡图D.条形图和线图的组合图V50 .以下属于基本图表的是(1 单项选择题*A.瀑布图B.滑珠图C.漏斗图D.折线图V51 .对于一个右偏的频数分布,一般情况下()的值最大。单项选择题*A.中位数B.众数C.算术平均数。D.无法判断52 .散点图是对成组的()数值进行比拟,气泡图是对()数值进行比拟。单项选择题*A.两个;两个B.两个;三个VC.三个;两个D.四个;三个53.图表操作以下个操作选择数据源图表布局插入图表,他们的
5、正确顺序是(工单项选择题*A.B.VC.D.54 .使用一下那种可视化工具不需要编程基础(X 单项选择题*B.TableauVC.Vega0.Processing55 .现有两个数据(0,1,0 , LO)与(0,0 ,1,1,1),其中每个属性为二元属性类型,那么它们 的Jaccard相似系数为( 单项选择题*56 .下面哪个选项不是表达维度的展现方式(X 单项选择题*A.次序VB彳生向C.螺旋形D.雌57 .下面哪个维度表示事件组之间的关系(X 单项选择题*A.布局维度V58 表达维度C.比例维度D.随机58.要展示多个文档之间的主题相似性,以下哪类可视化技术较为合适( 单项选择题*A.图
6、结构可视化,如节点连接图B.空间数据可视化,如体绘制C.时序数据可视化,如主题河流D.高维数据可视化,如降维投影V59 .假设有-个数据集,每个数据点有5个属性,以下哪种可视化技术最适用于表示其属 性两两之简的相关性( 单项选择题*A.降维投影后使用二维散点图进行可视化B.像素图C.散点图矩阵VD.平行坐标系60 .可视化可以将难以理解的原始数据变换成用户可以理解的模式和特征,并显示出来。 依据可视化流程概念图,在原始数据和可视化中间这一步骤是(X 单项选择题*A.用户感知B.数据分析C.数据采集D.数据处理和变换V61 .在TamaraMunzner提出的可视分析模型中,可视设计的whatw
7、hyhow三个维度 中的what指代的是(工单项选择题*A.可视化任务的抽象B.对于要被可视化的数据的抽象VC.视觉编码形式的设计D.可视化交互形式的设计62 .可视化和其他数据分析处理方法最大的不同是用户起到了关键作用,可视化映射后的结果只有通过()才能转换成知识和灵感。单项选择题*A.可视化映射B.数据处理与变换C.用户感知VD.以上答案均不正确63 .以下哪一个不属于可视化三部曲(X 单项选择题*A.可视化编码映射B.视图与交互设计C.可视化代码实现VD.可展示数据筛选64 .颜色的视觉通道不包括(1单项选择题*A.颜口度B.色相/色调C.透明度D.美观度V65 .可视化的输入是( 单项
8、选择题*A.数据VB代码C.视觉形式D.语言66 .可视化的输出是( 单项选择题*A.数据B代码C.视觉形式VD语言67 .哪句话可以说明可视化的作用( 单项选择题*A.一图胜千言VB.掷地有声C.力透纸背D.画龙点睛68 .数据的维度指的是(1单项选择题*A.重要属性的数量B.属性值的大小C.属性的数量VD.样本的数量69 .以下关于统计的说法中,错误的选项是(X 单项选择题*A.统计学是关于收集、整理、分析数据和从数据中得出结论的科学B.描述统计和推断统计的作用只能分开发挥VC.参数估计是利用样本信息推断总体特征D.描述统计的内容包括如何用图表或数学方法对数据进行整理和展示70 .用组中值
9、代表各组内得一般水平得假定条件就是( 单项选择题*A.各组得次数均相等B.各组得组距均相等C.各组得变量值均相等D.各组次数在本组内呈均匀分布V71 .RFM模型的R代表什么?()单项选择题*A.客户最近一次交易时间的间隔VB.客户在最近一段时间内交易的次数C.客户在最近一段时间内交易的金额D.客户在最近一段时间内交易的频率72 .多维数据模型中的钻取主要指(X 单项选择题*A.从细粒度数据向高层的聚合B.将汇总数据拆分到更细节的数据VC.选择维中特定的值进行分析D.选择维中特定的值进行聚合73 .数据分析的具体步骤为分析业务含义、制定分析计划、拆分查询数据、提炼业务洞察和(I 单项选择题*A
10、.提交报告B.反应汇总C.产出业务决策,D.以上都对74 .上卷是钻取的逆操作(I 单项选择题*A.正确VB错误C.不确定D.不相关75 .苹果手机的LOGO遵循了闭合性原那么中的(工单项选择题*A.形状闭合B.负形闭合VC.经验闭合D.截断闭合76.OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是(X 单项选择题*A.表B.维VC.数据D统计77.基于OLAP技术通过对数据进行多层次、多阶段的分析处理,获得高度归纳的信息是(X 单项选择题*A.多维数据分析VB.多维标度分析C.业务分析D.逻辑分析78.下述对维度成员的描述错误的选项是( 单项选择题*A.维的一个取值
11、称为该维的一个维度成员(简称维成员)B如果一个维是多级别的,那么该维的维度成员是在不同维级别的取值的组合。C.银行会给不同经济性质的企业贷款,比方国有、集体等,假设通过企业性质的角度来分析贷款数据,那么经济性质就是维度成员VC.中位数D极差5 .()指总体中的最大值与最小值的差,反映总体标志值的差异范围。单项选择题*A.极差,B方差C.标准差D.离散系数6 .分析买家购买商品时产生流量和金额的各渠道情况需要细分()单项选择题*A.终端B.时间C.地区D.品类V7 .统计时间内支付金额/支付买家数(或商品件数),衡量统计时间内每位买家的消费金 额大小是()指标单项选择题*A.支付金额V8 .买家
12、数C.单价D.客单价8.平均停留时长和跳失率都是()的分析内容单项选择题*A.交易分析B.流量分析VC.访客分析D.考虑时间维具有日、月、年这3个级别,分别在日、月、年上各取一个值组合起来, 就得到了时间维的一个维成员,即某年某月某日。79.PV和UV分别指的是(1单项选择题*A.访客数和浏览量B.浏览量和访客数VC.浏览量和买家数D.买家数和浏览量80.以下哪个不是数据库对象(I 单项选择题*A.数据模型B视图C.表D.用户V1 .运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫 做数据挖掘。判断题*对V错2 .大数据往往可能蕴含着丰富的规律和知识,所以在大数据之上
13、应用数据挖掘就成了理 所当然的活动了。判断题*对V错3 . 1989年,术语数据库中的知识发现正式确立,即KDD。判断题*对V错4 .通过数据挖掘技术,可以发现许多深层的、手工无法发现的规律,帮助企业在激烈的 竞争环境中,占有更多的先机。判断题*对V错5 .一般而言,数据仓库应先行建立完成,数据开掘才能有效率的进行。判断题*对V错6 .Web数据挖掘是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的 假设过程中提取信息。判断题*对错V7 .与分类不同的是,回归的输出是离散的类别值,而分类的输出是连续数值。判断题 *对错V8 .近年来,随着人工智能机器学习模式识别和数据挖掘等领域中传统
14、方法的不断开展以 及各种新方法新技术的不断涌现,分类方法得到了长足的开展。判断题*对V错9 .根据客户的消费行为,把客户分成三个类,第一个类的主要特征是,实际上这 是一个分类问题。判断题*错V10 .至今Apriori仍然作为聚类分析的经典算法被广泛讨论。判断题*对错V11 神经网络在学习中,一般分为“有教师学习和无教师学习两种。判断题*对V错12 .早期的数据挖掘工具采用命令行界面,而且文本格式的输出也不够直观。判断题 *对V错13 .k-Means聚类算法以相对距离作为相似度测度,它是求对应某一初始聚类中心向量 V最优分类,使得评价指标J最小。判断题*对错V14 .从混淆矩阵中,可以衍生出
15、各种评价的指标。错误发现率(False discoveryrate , FDR ),表示在模型预测为正类的样本中,真正的负类的样本所占的比例。判断题*对V错15 .层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相 似度由高到低排序,逐步重新连接个节点。填空题*(答案:请设置答案)15 .层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相 似度由高到低排序,逐步重新连接个节点。判断题*对V错16 .政府2.0、政府3.0 ,与政府以后的治理改革和服务型政府建设的目标是完全不一致 的。判断题*对错V17 .深度学习就是指Tensorflow框架。判断题
16、*对错V18 .大数据的价值重在挖掘,目的在于从数据中获取有用知识。判断题*对V错19 .简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本 作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差19.简 单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调直 对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。判断题*对错V20.维是人们观察数据的特定角度,是考虑问题时的一类属性。判断题对V错1、在进行数据探索性分析时,经常使用各种可视化图形的方式。请说明探索性分析的 目标,以下几种图形的核心学旨令,以及各图
17、的主要功能。填空题*答案解析:(1)条形图核心指令:plt.bar( x, y) (3分)作用:用来表现类别数据的频数分布(3分)(2 )箱线图核心指令:sns.boxplot(x , v,data) (4 分)作用:用来表现数值型数据的数据分布情况,如中位数、上四分位数、下四分位数、四分位距等。(4分)(3)折线图核心指令:plt.plot(x, y) (3 分)作用:一般用来表现数据随时间变化的趋势。(3分)2、什么异常值分析?如何运用原那么进行异常值分析?填空题*答案解析:1)异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也 称为离群点,异常值的分析也称为离群点的分析。2)
18、异常值分析是检验数据是否有异常值。忽视异常值的存在是十分危险的,不加剔除 地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分 析其产生的原因,常常成为发现问题进而改进决策的契机。3 )如果数据服从正态分布,在原那么下,异常值被定义为一组测定值中与平均值的偏差 超过三倍标准差的值。在正态分布的假设下,距离平均值之外的值出现的概率为,属于极 个别的小概率事件。3、某次期中考试,A学生的语文和数学分别考了 60和54分。B学生考了 50和60 分。我们如何知道哪个学生的成绩相对更好?(语文考试=50 ,0=5,数学考试:50 ,0=2 ) 填空题*答案解析:所有z分数都
19、具有形同的平均数和标准差,任意一个分布转换成z分数的分 布后,都可以用来进行比拟。由于语文成绩和数学成绩是两个完全不同的分布,不能拿来 匕匕较,我们不能简单的将两门课的分数相加,从而认为A的成绩更好。这种情况下我们就 需要通过z分数来标准化这两个分布。假如语文考试=50 , a=5 ,数学考试二50,。二2。通 过计算,我们可以得知A两科z分数的总和为2+2=4 , B两科z分数的总和为0+5=5.相 对来说,B的成绩比A要好。4、甲、乙两人轮流投篮,每人每次投一球。约定甲先投且先投中者获胜,一直到有人获 胜或每人都已投球3次时投篮结束。设甲每次投篮投中的概率为,乙每次投篮投中的概率 为,且各
20、次投篮互不影响。(1)求甲获胜的概率;(2)求投篮结束时甲的投篮次数的分布列与期望。解:设分别表示甲、乙在第次投篮投中,那么填空题答案解析:(1)记甲获胜为事件G由互斥事件有一个发生的概率与相互独立事件 同时发生的概率计算公式知,(2)的所有可能为:由独立性知:综上知,有分布列123从而,(次)。D.商品分析9.商品分析中的重点商品选择可以借助()方法单项选择题*A.回归分析B.相关分析C.漏斗分析D.ABC分类V10 .ABC分类中畅销的、库存周转率高的高价值商品为()单项选择题*A.B类B.C类C.A 类 VD.都不属于11 .流量质量评估采用()作为衡量流量有效性的宏观指标单项选择题*A
21、.访客数B.转化率VC.浏览量D.浏览时长12 .据Ward M 0(2010)的研究,超过()的人脑功能用于视觉信息的处理,视觉信息 处理是人脑的最主要功能之一。单项选择题*A.30%B.50%VC.70%D.40%13 .当前,市场上已经出现了众多的数据可视化软件和工具,下面工具不是大数据可视化工具的是(工单项选择题*A.TableauB.DatawatchC.PIatforaD.PhotoshopV14 .从宏观角度看,数据可视化的功能不包括(1 单项选择题*A.信息记录B.信息的推理分析C.信息清洗VD.信息传播15 .目前有多种成熟的知识可视化工具,下面()不属于这类可视化工具。单项
22、选择题*A.概念图B.思维导图C.认知地图D.趋势图V16 .可视化模型有助于理解可视化的具体过程,常用的可视化模型不包括单项选择题*A.循环模型B.分析模型C.递进模型VD.顺序模型17 .人眼的视场是很宽的,垂直方向能超过80。,水平方向能超过(X 单项选择题A.180B.170C.160VD.15018 .雷达图适用于()数据,且每个维度必须可以排序。单项选择题*AfB二维C.三维D.多维V19 .以下四项中,不属于数据库特点的是( 单项选择题*A.数据共享B.数据完整性C.数据冗余很高,D.数据独立性高20 .()是位于用户与操作系统之间的一层数据管理软件,它属于系统软件,它为用户 或
23、应用程序提供访问数据库的方法。数据库在建立、使用和维护时由其统一管理、统一控制。 单项选择题*A.DBMSVB.DBC.DBSD.DBA21在SQL中,建立表用的命令是( 单项选择题*A.CREATE SCHEMAB.CREATE TABLEVC.CREATE VIEWD.CREATE INDEX21 .SQL的视图是从()中导出的。单项选择题*A.基本表B视图C.基本表或视图,D.数据库23 .以下哪个不是sql数据库文件的后缀(单项选择题*A.mdfBJdfC.tifVD.ndf24 .数据定义语言的缩写词为(I 单项选择题*A.DDLVB.DCLC.DMLD.DBL25 .目前()数据库
24、系统已逐渐淘汰了网状数据库和层次数据库,成为当今最为流行的 商用数据库系统。单项选择题*A.关系VB.面向对象C分布D.逻辑26.SQL语言中,删除一个表中所有数据,但保存表结构的命令是(工单项选择题*A.DELETEVB.DROPC.CLEARD.REMORE27 .在MS SQL Server中,关于数据库的说法正确的( 单项选择题*A.一个数据库可以不包含事务日志文件B.一个数据库可以只包含一个事务日志文件和一个数据库文件VC.一个数据库可以包含多个数据库文件,但只能包含一个事务日志文件。一个数据库可以包含多个事务日志文件,但只能包含一个数据库文件28 .数据库管理系统的英文缩写是(X
25、单项选择题*A.DBMSVB.DBSC.DBAD.DB29 .建立索引的目的是(工单项选择题*A.降低SQL Server数据检索的速度B.与SQL Server数据检索的速度无关C.加快数据库的翻开速度D.提高SQL Server数据检索的速度V30 .以下关于主键的描述正确的选项是( 单项选择题*A.标识表中唯一的实体VB.创立唯一的索引,允许空值C.只允许以表中第一字段建立D.表中允许有多个主键31 .有关数据冗余说法错误的选项是(I 单项选择题*A.数据库中,数据存在副本的现象,就是数据冗余B.通过分类存储,可以有效减少数据冗余,但是会增加数据查找的复杂性C.在数据库设计阶段,一定要尽
26、最大可能防止数据冗余,最好做到无数据冗余。D.数据冗余通常是由于数据库设计引起的。V32 .关于标识列,以下说法正确的选项是( 单项选择题*A.使用sql语句插入数据时,可以为标识列指定要插入的值。B.设定标识时,必须同时指定标识种子和标识递增量。VC.假设设定标识时,未指定标识递增量,D.只能把主键设定为标识列。33 .现有表 user,字段:userid ,username, salary, deptid ,email;表 department, 字段:deptid, deptname;下面()应采用检杳约束来实现。单项选择题*A.假设department中不存在deptid为2的纪录,那
27、么不允许在user表中插入deptid为 2的数据行。B.假设user表中已经存在userid为10的记录,那么不允许在user表中再次插入userid为10的数据行。C.User表中的salary (薪水)值必须在1000元以上。VD.假设User表的email列允许为空,那么向user表中插入数据时,可以不输入email值。34 .以下不属于企业管理器功能的是(X 单项选择题*A.创立并管理所有数据库、登陆、用户、权限等。B.管理和执行数据导入导出、数据库备份等多项辅助功能。C.定义 sql server 组。D.调试、执行sql语句,批处理和脚本。V35 .将原始数据进行集成、变换、维度规约、数值规约是在()步骤的任务。单项选择题 *A.频繁模式挖掘B.分类和预测C.数据预处理VD.数据流挖掘36 .某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖掘的()问题。单项选择题*A.关联规那么发现VB.聚类C.分类D启然语言处理37.当不知道数所带标签时,可以使用()技术位使带同类标签的数据与带其他标签的 数据相别离。单项选择题*A.分类
限制150内