国家开放大学《大数据分析与挖掘技术》形考任务1-3参考答案.docx
《国家开放大学《大数据分析与挖掘技术》形考任务1-3参考答案.docx》由会员分享,可在线阅读,更多相关《国家开放大学《大数据分析与挖掘技术》形考任务1-3参考答案.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、国家开放大学大数据分析与挖掘技术形考任务1-3参考答案形考任务1一、选择题1.请问在Python中缺失值通常用()来记号。A.NaNB.?C.NAD.na2.请问不是缺失值通常用的处理方式是()。A.填补B.删除C.插补D.提取3.数据整合后()。A.数据量会增加B.数据量会不变C.数据的波动性增加D.数据波动性减小4.数据离散化可以采用()方式。A.等宽或者等频B.插补C.抽样D.查询5.下面关于主成分分析说法错误的是()。A.主成分是相互正交(垂直)的B.主成分捕获了数据差异最大的方向C.是线性降维方法D.是非线性降维方法6.数据经过标准化处理后()。A.数据的波动性将会增加B.数据的波动
2、单位为1C.数据的波动性将会减小D.数据值将被放大7.白化是指()。A.从相关矩阵出发求解主成分B.从协方差矩阵出发求解主成分C.将数据进行标准化D.剔除数据中的异常值8.分类模型评价时,通常采用()损失。A.0-1损失B.指数C.绝对值D.平方9.不是回归模型常采用的评价指标是()。A.MAEB.MSEC.R2D.准确率10.期望预测误差是指()。A.真实值与预测值在某种损失函数下的平均值B.真实值与预测值之差C.真实值与预测值在某种损失函数下的值D.真实值与预测值之比11.缺失数据的处理方法包括()。A.填补B.删除C.插补D.提取12.数据抽样后()。A.数据量会增加B.数据量会减少C.
3、数据的波动性可能增加D.数据波动性可能减小13.下面关于主成分分析说法正确的是()。A.主成分是相互正交(垂直)的B.主成分捕获了数据差异最大的方向C.是线性降维方法D.是非线性降维方法14.期望预测误差中的方差部分是由()带来的。A.最优解所在空间假设失误B.数据的随机性C.估计值自身的波动D.估计值的平均可能偏离了真实值15.聚类分析的外部评价指标通常有()。A.DBIB.兰德指数C.Jaccard系数D.FM指数E.DI16.分类任务的评价指标通常采用()。A.准确度B.ROC曲线C.特效度D.灵敏度E.错分成本二、判断题17.主成分分析中最大的特征值对应的特征向量也就是是数据差异最大的
4、的方向。()18.白化是指将数据进行标准化。()19.数据经过标准化处理后,数据的波动性将会减小。()20.在Python中缺失值通常用NA来记号。()21.主成分是相互正交(垂直)的。()22.回归模型评价时,通常采用0-1损失。()23.兰德指数是聚类分析的内部评价指标。()24.期望预测误差中的偏差部分是由估计值的平均可能偏离了真实值带来的。()25.分类模型评价时,通常采用平方损失。()26.由于最优解所在空间假设失误将会造成期望预测误差中的方差部分。()形考任务2一、选择题1.在关联分析中,下面哪个有可能是频繁3项集()A.面包,牛奶B.面包,牛奶,啤酒C.面包D.面包,牛奶,花生,
5、啤酒2.从下面两个变量的相关系数图可以看出()A.左图相关系数大于0B.右图相关系数小于0C.左图相关系数等于0D.右图相关系数等于03.要考虑“储蓄水平”与“人口水平”之间的相关。“储蓄水平”收集了储蓄比率(sr)、人均可支配收入(dpi)、人均可支配收入变化的百分率(ddpi)3个变量,“人口水平”收集了15岁以下人口的百分比、75岁以上人口百分比2个变量。请问采用下面哪种分析方法更合适()。A.单向关B.典型相关C.偏相关D.点二列(点双列)相关4.关于设定虚拟变量时应当遵循如下原则,下列说法错误的是:()A.对于有k个表现值的定性变量,只设定(k-1)个虚拟变量;B.虚拟变量的值通常用
6、“0”或“1”来表示;C.对于每个样本而言,同一个定性变量对应虚拟变量的值之和不超过1;D.对于季节变量而言,四个季节需要设定4个虚拟变量5.如果要解决随着员工职位的变动,员工报酬会变动多大的问题,下面说法不正确的是()A.员工职位需要考虑成是分类变量B.员工职位需要引入虚拟变量来处理C.如果员工职位有5个类别,那么需要引入5个虚拟变量来表示D.员工报酬需要考虑成被解释变量6.为研究电商注册用户数量与其销售收入之间的关系,收集数据得到下面的散点图。请问这样的散点图适用建立下面哪种回归模型()。A.线性回归模型B.非线性回归模型C.对数线性模型D.Logistic回归模型7.当因变量数据具有尖峰
7、厚尾的分布特征或有离群点(即异常值)时,更合适的回归模型是()。A.线性回归模型B.Logistic回归模型C.分位数回归D.非线性回归8.为监测某厂家生产的某款激光打印机的质量问题,考察该款打印机发生故障的次数。其发生故障的次数可能会受到打印纸张数量(千页)、打印机使用时长(千小时)、硒鼓(原装/兼容)等因素的影响。收集数据后的分析结果如下:请问关于上面的结果说法不正确的是:()A.此次分析构建了一个计数模型B.收集了30个观测数据C.对数似然值为-39.804D.自变量都不显著9.近邻分类中的近邻个数说法正确的是:()A.1-近邻的复杂度最高B.随着近邻个数的增加,模型的复杂度增加C.近邻
8、个数不会影响模型的预测能力D.近邻个数需要人为确定10.关于下面的决策树说法不正确的是()。A.此决策树根节点的gini为0.145B.落入此决策树根节点中的数据有35个C.此次划分的gini增益为0.058D.落入Petal.Length5.05的数据将为判为versicolor一类11.从下面两个变量的相关系数图可以看出()A.左图相关系数大于0B.右图相关系数小于0C.左图相关系数大于右图D.右图相关系数等于012.定性数据之间的相关通常采用()来度量。A.Pearson相关系数B.Spearman相关系数C.Kendalltau-b相关系数D.HoeffdingsD相关系数13.关于分
9、位数回归,下面说法正确的是()A.当数据具有尖峰厚尾的分布特征或有离群点(即异常值)时,采用分位数回归更稳健。B.分位数回归不需要进行残差检验C.分位数回归会给出因变量不同分位数水平下的参数估计D.分位数回归不需要做模型检验14.关于马氏距离说法正确的是:()A.马氏距离不受总体空间大小的影响B.受计量单位的影响C.反映了按平均水平计算被判定样本到中心的相对距离(该距离以方差为单位)D.是标准化的变量的欧氏距离15.决策树中结点的最优划分是依据()来确定的。A.局部最优性B.信息增益大的划分C.信息增益小的划分D.GINI增益大的划分16.由下图中两类数据(红色一类,黄色一类)的划分问题引出的
10、关于线性可分与不可分的概念正确的是()。A.左图两类数据的划分是一个线性可分问题B.右图的两类数据的划分是一个线性不可分问题C.左图两类数据的划分是一个线性不可分问题D.右图的两类数据的划分是一个线性可分问题二、判断题17.典型相关分析解决的问题是两组变量之间的非线性相关关系。()18.按考虑相关因素(变量)的多少,相关关系分为正相关和负相关。()19.Pearson相关系数取值为0时,表现为变量无相关。()20.偏相关系数总是比相关系数高。()21.线性回归模型的拟合优度的判定系数越大,说明回归方程预测能力较好。()22.Poisson回归模型假设观测因变量数据服从Poisson分布。()2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据分析与挖掘技术 国家 开放 大学 数据 分析 挖掘 技术 任务 参考答案
限制150内