数据分析与应用模拟试卷期末考试卷带答案测试卷.docx
-
资源ID:4418781
资源大小:103.72KB
全文页数:11页
- 资源格式: DOCX
下载积分:10金币
快捷下载
![游客一键下载](/images/hot.gif)
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
数据分析与应用模拟试卷期末考试卷带答案测试卷.docx
模拟试卷一、 单项选择题(本大题共15小题,每小题2分,共30分)1、下列用来描述一组数据的平均水平的是 A均值 B.标准差 C.偏度 D.峰度2、下列用来描述数据的波动程度的是 A中位数 B.均值 C. 方差 D.偏度3、在SPSS中双定性变量适合绘制下面那种图形 A堆积百分比图 B.箱线图 C. 直方图 D.散点图4、在SPSS中双定量变量适合绘制下面那种图形 A堆积百分比图 B.箱线图 C. 直方图 D.散点图5、在SPSS中一个定性变量、一个定量变量适合绘制下面那种图形 A堆积百分比图 B.箱线图 C. 直方图 D.散点图6、下列属于定性变量的是 A.年龄 B.驾龄 C.性别 D.销量 7、以下不属于定量变量的是 A.婚姻 B.收入 C.工龄D.体重8、以下哪个变量适合做线性回归的因变量 A是否购买 B.是否出险 C.是否恋爱 D.房价9、以下哪个变量适合做逻辑回归的因变量 A客户是否流失 B.酒店价格 C.二手房价 D.以上都不正确10、因子分析的作用是 A分类 B.降维 C.回归 D.以上都不正确11、关于聚类分析,下列说法错误的是 A.聚类就是把“类似”的对象聚到一起 B.聚类分析首先要确定特征指标C.聚类分析中刻画相似度方法只有欧式距离D.层次聚类法是聚类分析的一种 12“物以类聚,人以群分”与下列哪个模型特征相似 A.线性回归 B.逻辑回归 C.聚类分析 D.因子分析13、以下哪个因变量可以用线性回归模型进行分析 A.大学生薪资影响因素分析B.信用卡是否逾期 C.某用户是否患胃病的预测D.明天是否降雨的预测 14、线性回归模型的整体评价,不包括以下哪一项 A.F检验的结果B.调整的R方 C.AUC值D.R方的大小15、关于聚类分析的要点,错误的是 A.根据不同的特征指标聚出的类是不同的 B.定义什么是“相似的研究对象”C.层次聚类就是k均值聚类 D.如何归类二、多项选择题(本大题共5小题,每小题4分,共20分)在每小题列出的五个备用选项中至少有两个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选、少选或未选均无分。16、SPSS可以实现以下哪些分析? A.频率分析B. 线性回归分析C.因子分析 D.聚类分析E.逻辑回归分析17、关于线性回归模型,描述正确的是 A.模型简单B.可解读性较高 C.在实际数据分析中很常用D.因变量是定性数据E.解决的是分类问题18、以下关于直方图,描述正确的是 A.一般用于定性数据B.反映数据的分布情况C.显示数据的对称性 D.纵轴可表示频数E.一般用于定量数据E.明确要研究的问题,指出可能的商业价值19、以下属于线性回归基本假设的有 A. 误差项的期望为0B. 误差项的方差相等C. 误差项相互独立D. 误差项服从正态分布E以上都不对20、以下场景可以利用逻辑回归的有 A.NBA球员薪资影响因素 B.顾客是否购买某产品C.火锅团购订单数分析 D.学生对本课程是否满意E.判断信用卡用户是否逾期三、判断题(本大题共5小题,每小题2分,共10分)请在每小题的对应的括号内填写,正确的涂写T,错误的涂写F。21、当变量较多,且相关性较强时比较适合使用因子分析。 22、中位数是排序后位于中间的一位数或两位数的平均值。 23、K均值聚类法就是一层一层地聚。 24、二分类问题一般可以使用逻辑回归分析。 25、逻辑回归预测出来的是Y=0的概率。 四、简答题(本大题共2小题,每小题5分,共10分)26、茶及茶文化是大众生活中不可缺少的重要内容,但在电商平台上不同的茶叶销量差异很大,现想对影响茶叶销量的影响因素进行分析。以某电商在售茶叶数据为例(见表1),请根据茶叶数据回答以下问题。表1:茶叶数据样例标题价格销售量好评率品牌产品毛重商品产地2017新茶云雾绿茶4盒共500克一杯香茶叶明前春茶毛尖8696000100%一杯香125云南省乐品乐茶 2017新茶 茶叶 绿茶 雀舌茶593200097%乐品乐茶210安徽省买2件送精美西施砂壶 印象堂茶叶39.84000097%印象堂100云南省立顿(Lipton) 茶叶 红茶 黄牌精选红茶100包 200g (新老包装随机发货)39.98200097%立顿280安徽省乐品乐茶 2017新茶 茶叶 绿茶992600097%乐品乐茶450安徽省【首件26元买2送1再送杯】安溪铁观音茶叶散装402000095%蓝翼250福建省(1) 请围绕问题说明数据中的因变量和自变量。(2) 请说明数据中的定量变量和定性变量。27、收集了北京二手房数据,并对影响房价的影响因素进行分析,请根据北京二手房房价的描述分析图回答以下问题:(1)对北京二手房价的直方图进行解读,房价单位:元/平米。频率房价图1:二手房价直方图(2)对箱线图进行解读。房价城区图2:城区与单位房价的箱线图五、案例分析(本大题共3小题,每小题10分,共30分)28、北京市房地产市场是我国最为发达、最具代表性的房地产市场之一。因此以北京二手房为研究对象,通过线性回归分析探究了学区、地铁、房屋面积等相关因素对二手房价(单位:万元/平米)的影响作用,建立了线性回归模型,得到模型结果见表2。表2:线性回归模型结果变量回归系数p值备注截距项3.315<0.001城区-丰台0.1310.002基准组:石景山区城区-朝阳0.875<.001城区-东城2.443<.001城区-海淀2.191<.001城区-西城3.705<.001学区房1.183<.001基准组:无学区地铁房0.6720.003基准组:不邻近地铁楼层-中层0.152<.001基准组:高层楼层-低层0.198<.001客厅-有0.163<.001基准组:无客厅卧室数0.1110.611房间面积-0.002<.001F检验p值<0.0001调整的R20.7901请根据以上建模结果回答如下问题。(1) 在5%的显著性水平下,对模型整体显著性和模型拟合效果进行解读。(2) 在5%的显著性水平下,哪些自变量对因变量是有显著影响的,并说明原因。(3) 在5%的显著性水平下,分别对学区房、楼层、房间面积这3个变量的回归系数进行解读。29、伴随着信用卡的普及,持卡人的消费、还款等信用卡使用行为已经成为个人征信的重要依据。本案例以是否逾期为因变量建立了逻辑回归模型,模型结果见表3。表3:逻辑回归模型结果变量回归系数P值备注截距项 -0.137 <0.001性别-女性 -0.268 <0.001基准组:男性 信用卡使用率 0.544 <0.001信用卡额度 -0.477 <0.001房贷-有贷款 -0.430 <0.001基准组:无房贷 历史逾期行为-有逾期 1.624 <0.001基准组:无历史逾期 开户行为-有开户 0.015 0.058基准组:无开户行为 全模型似然比检验 p值<0.001 同时,绘制了模型的ROC曲线,并计算AUC值为:0.755。基于逻辑回归模型的结果,得到如下混淆矩阵,见表4。表4:混淆矩阵预测值真实值未逾期逾期总计未逾期24917273218逾期184533085153总计433640358371请根据上面案例分析结果回答如下问题。(1) 在5%的显著性水平下,模型整体是否显著,说明原因。(2) 在5%的显著性水平下,哪些变量对逾期有显著影响。(3) 在5%的显著性水平下,对有显著影响的变量系数进行解读。(4) 根据混淆矩阵的结果,计算整体错判率、TPR、FPR。30、当前有8个裁判对300名选手打分,最低分为1分,最高分为10分;希望对8个裁判进行聚类,以识别出裁判的风格类型。得到聚类树状图见图3。图3:聚类树状图根据图中数据回答以下问题:(1) 请写出如何将图1的裁判聚类树状图按照编号划分为3类;(2) 请根据(1)中的类别,分别写出这三类裁判的编号。模拟试卷答案二、 单项选择题(本大题共15小题,每小题2分,共30分)1-5 ACADB 6-10 CADAB 11-15 CCACC二、多项选择题(本大题共5小题,每小题4分,共20分)16 ABCDE17 ABC18 BCDE19 ABCD20 BDE三、判断题(本大题共5小题,每小题2分,共10分)请在每小题的对应的括号内填写,正确的涂写T,错误的涂写F。 21-25 TTTTF四、简答题(本大题共2小题,每小题5分,共10分)26(1)因变量:销售量;自变量:价格、好评率、品牌、产品毛重、商品产地。(2)定量变量:销售量、价格、好评率、产品毛重。定性变量。品牌、商品产地。27(1)图中横坐标表示房价分布,纵左边表示频数。北京二手房价主要集中在40000-50000元/平米之间,平均房价为61151元/平米,分布呈现右偏分布,即存在少量的高价房。(2)图中横坐标表示城区,纵左边表示了房价。从箱线图可以看出不同城区的平均房价有明显差异,西城区的平均房价最高、丰台区的平均房价最低。五、案例分析(本大题共3小题,每小题10分,共30分)28(1) 整体检验:F检验p<0.05 模型整体显著 拟合效果:调整后的R2为0.7901,拟合效果较好,表示解释变量能解释因变量变异程度的79.01%。(2)显著的变量:城区、学区房、地铁房、楼层、客厅、房间面积。或者写:除去卧室数其他变量都显著。因为这些自变量所对应的P值小于0.05 。 (3)在控制其他因素不变的情况下, 学区房:学区房比无学区的房价贵,平均每平米贵1.183万元。 楼层:高层的房价最低,底层的房价贵高。中层的房子平均每平米比高层贵0.152万元,低层的房子平均每平米比高层贵0.198万元。 房间面积:房屋面积越大,房价越低。房屋面积每增加1平米,房价平均降0.002万元。 29、(1)整体检验:似然比检验p<0.05 模型整体显著。 (2)有显著影响的变量:性别、信用卡使用率、信用卡额度、房贷、历史逾期行为。(3)在5%的显著性水平下,控制其他因素不变:性别:女性逾期可能性比男性低。 信用卡使用率:信用卡使用率越高逾期可能性越大。 信用卡额度:信用卡额度越大,逾期可能性越小。 房贷:有贷款的比没有贷款的逾期可能性小。 历史逾期行为:有逾期行为的比没有历史逾期行为的逾期可能性大。(4)错分率:(727+1847)/8371=30.72% TPR:3308/5153=64.19%; FPR:727/3218=22.59%。 30、(1)在横坐标等于0.2处用垂直的一条线与谱系聚类图相交,总共有3个交点,可将数据分为3类; (2)第一类:8 第二类:5、3、7 第三类:1、6、2、4