数据分析与SPSS软件应用(微课版)-课后习题答案1-10章全书章节练习题答案.docx
《数据分析与SPSS软件应用(微课版)-课后习题答案1-10章全书章节练习题答案.docx》由会员分享,可在线阅读,更多相关《数据分析与SPSS软件应用(微课版)-课后习题答案1-10章全书章节练习题答案.docx(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第1章 统计分析与SPSS软件概述习题与思考题(一)填空题1.定性数据,定序数据,定距数据,定比数据2.主成分分析,因子分析,聚类分析,判别分析,对应分析等3.数据清理,数据转换,缺失数据插补,数据的合并汇总拆分4.完全窗口菜单运行方式,程序运行方式5.SPSS Base(二)选择BADAD(三)判断(四)简答题1.目前常用的统计分析工具或软件有哪些?你使用过哪些?它们之间的区别在哪里?解:常用的统计分析工具有SPSS、SAS、STATA、Python等。2.试检查自己的SPSS软件共有几个模块,其中包括了哪些基本功能,并思考平时的统计分析需要哪些模块才能满足需要。 解:SPSS软件共有11个
2、模块,分别是SPSS Base、SPSS Advance、SPSS Categories、SPSS Complex Sample、SPSS Conjoint、SPSS Exact Test、SPSS Maps、SPSS Missing Value Analysis、SPSS Regression、SPSS Tables和SPSS Trends。其中SPSS Base是必需的,SPSS的整体框架、基本数据的获取、数据准备和整理等基本功能都集中在这一模块上,其他模块必须在该模块的基础上才能工作。3.阐述定性、定序、定距、定比数据,并各举1例。 解:定性变量又称为名义变量。这是一种测量精度最低、最粗
3、略的基于“质”因素的变量,它的取值只代表观测对象的不同类别,如“班级”。定序变量又称为有序变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量,如“满意度”。定距变量又称为间隔变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小,如“重量”。定比变量又称为比率变量,它与定距变量意义相近,差别在于定距变量中的“0”值只表示某一取值,定比数据变量表示“没有”,如“年龄”。4.sav,.spv,.sps分别是spss哪类文件的扩展名? 解:“.sav”是SPSS的数据文件的扩展名,“.spv”是SPSS的结果输出文件扩展名,“.sps”是
4、SPSS的程序文件扩展名。5.简述统计分析基本流程。任何一个数据分析项目,都要经过项目计划、数据获取与准备、概括性描述统计分析、探索性统计推断、统计模型精准分析和结果报告6个阶段。(1)项目计划的内容包括确定研究问题和研究对象、样本抽取方法、样本量、数据搜集方式、数据分析方法和分析工具、项目预算等内容。(2)按照项目计划搜集数据。(3)概括性描述统计分析阶段是对数据进行的初步探讨,是通过参数估计输出相关统计量,并辅以统计表或统计图,从而对数据的集中趋势、离散趋势、分布特征等信息有详细的了解。(4)探索性统计推断阶段,主要对数据进行深层次的分析尝试,通过探索分析、方差分析,相关分析等方法,对不同
5、变量数据的内在联系进行探讨,为后续的精准模型分析奠定基础。(5)统计模型精准分析阶段,选择最优的统计模型,寻求变量间数据信息的完美呈现和解释。(6)统计报告阶段将整个数据分析项目的结果以合适的方式表达出来,从而使得决策者或者读者快速理解和掌握核心内容,并能据此做出科学决策。第2章 数据的获取与管理习题与思考题(一)填空题1.查找和替换2.拆入变量3.计算变量4.原始数据组织方式,频数数据组织方式5.指定加权变量(二)选择题DDCDC(三)判断(四)简答题1.试述“个案排序”和“个案排秩”两种排序操作的区别。 解:“个案排序”操作会改变原有样本的排列顺序。“个案排秩”会在原有数据的基础上形成一个
6、新的变量,用于存储样本的秩序号。2.如何进行变量集的定义和使用? 解:变量集的定义在“实用程序”菜单中的“定义变量集”命令。变量集定义之后,在“实用程序”菜单中选择的“使用变量集”命令,在 “选择要应用的变量集”框中选择想要使用的变量集。3.简述数据排序在数据分析过程中的目的。 解:数据排序是数据整理的关键步骤,在很多的统计分析过程中,如数据文件的合并等,都需要先对原始数据按照一定的规则进行排序。排序后的数据文件更便于进行相关的统计分析。4.对于缺失值,如何利用SPSS进行科学替代?解:SPSS提供了5种缺失值的替代方式:序列平均值:用该变量的所有非缺失值的均数作替代。临近点的平均值:用缺失值
7、相邻点的非缺失值的均数作替代,取多少个相邻点可任意定义。临近点的中间值:用缺失值相邻点的非缺失值的中位数作替代,取多少个相邻点可任意定义。线性插值:用缺失值相邻两点的非缺失值的中点值作替代。临近点的线性趋势:用线性拟合方式确定替代值。5.在计算数据的加权平均数时,如何对变量进行加权? 解:数据的加权在“数据”菜单中的“个案加权”命令,其中,“不对个案加权”项表示不作加权,是SPSS系统默认选项,也可用于取消加权操作;“个案加权依据”项表示选择一个变量作加权变量。案例分析题1.根据下述调查问卷中的题目,完成变量的设置和编码。“4.请问您的家庭月收入: a.3000以下 b.30004999 c.
8、50006999 d.70009999 e.10000以上”2.请根据下列数据建立SPSS数据文件,并完成相关数据操作。表2-2 数据ID年龄体重(公斤)性别12569.0男22768.5男31948.3女42951.6女51945.9女62270.5男72348.6女82266.7男92467.3男102650.2女(1)请采用多种方法根据体重指标值对样本进行排序(升序排列)。升序排列方式1:方式2:(2)对“性别”变量设置变量值标签,使其对应0和1值。3.现有自由格式的文本文件,其中包含4个样本,每个样本为一行,每个样本测度6个指标,如下所示,请将文本文件数据信息导入到SPSS软件中,并对
9、数据文件进行保存。 23;45;3;46;65;12 46;89;56;12;4;1355;1;23;61;41;2041;20;61;20;1;30第3章 描述统计分析及SPSS实现习题与思考题(一)填空题1.探索分析2.分析-描述统计-描述3.离散程度4.均值、中位数、众数5.备选选择项,答案(二)选择题CACBD(三)判断题(四)简答题1.探索性统计分析主要目的有哪些? 解:探索分析的目的主要有三个:检查数据是否有错误;获得数据分布基本特征;对数据规律进行初步观察。2.什么是峰度和偏度?解:偏度是描述某变量取值分布对称性的统计量。具体的计算公式如下:这个统计量是与正态分布相比较的量,偏度
10、为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大。峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式如下:表示分布形态的偏斜程度越大。3.简述SPSS对数据进行统计分析刻画集中趋势以及离散程度的描述统计量。解:对数据集中趋势刻画的描述统计量包括:均值、中位数
11、、众数、总和等。 对数据离散趋势刻画的描述统计量包括:方差、标准差、极差、标准误等。4.简述交叉列联表分析主要内容。 解:交叉列联表分析主要包括两部分的内容:第一是输出交叉分组下的频数分布状态表;二是分析交叉分类的两个变量之间是否具有独立性,并判断他们之间的相关性的大小。5.对于多项选择问题,分解(编码方案)的方法主要有哪两种,请简要说明。 解:多项选择问题的编码方式有两种:一种是二分法,一种是多分法。多选项二分法将每个可能的答案设置为一个SPSS变量,变量的取值为0或1,0表示没选中,1表示选中。多选项分类法首先估计多选项问题可能出现的答案个数。比如,一个多选题,如果最多有3个答案,那么就设
12、置3个SPSS变量,分别用来存放3个可能的答案。SPSS变量的取值为备选答案的代码,常用数字1,2,3表示不同的备选答案。案例分析题1.某学校科研团队进行库区移民生存状态调查,经过抽样,抽取20名库区移民,对其生存状态进行调查,部分指标见表3-2.表3-2 库区移民生存状况调查部分指标样本ID性别年龄家庭年收入家庭食品烟酒支出单位岁元元01男55850842800002女381030352900003女36850352200004男611078553850005女44849642560006女36790353870007男55877733570008男54877863040009男537899
13、53280010女411387644360011男45830352080012男521033202380013男32494352160014男341020243680015男63427461700016男311210172000017女61842352000018女59899802000019女481090803000020男439067832000请分析:数据状态: 1.样本在性别与年龄上分布状态。年龄 * 性别 交叉表计数 性别总计男女年龄3110132101341013602238011410114310144011451014801152101531015410155202590116
14、111263101总计12820 男性样本与女性样本的对比关系为12:8。描述统计N最小值最大值均值标准 偏差偏度峰度统计统计统计统计统计统计标准 错误统计标准 错误年龄20316347.0510.435-.034.512-1.359.992样本的平均年龄为47.05岁,峰度为-1.359,与正态分布相比较为平缓,偏度为-0.034,轻微的左偏。2.受访样本的家庭年收入是否符合正态分布正态性检验柯尔莫戈洛夫-斯米诺夫(V)a夏皮洛-威尔克统计自由度显著性统计自由度显著性家庭年收入.19320.049.93120.159a. 里利氏显著性修正 从正态性分布检验结果和图可以看出,夏皮洛威尔克检验接
15、受了原假设,即数据符合正态分布特征,图也基本呈现较为一致的特征。柯尔莫戈洛夫-斯米诺夫呈轻微的拒绝原假设状态,可认为接受正态分布的假设。3.不同性别的受访群体的食品烟酒消费支出方差是否相等。个案处理摘要性别个案有效缺失总计N百分比N百分比N百分比烟酒食品支出男12100.0%00.0%12100.0%女8100.0%00.0%8100.0%方差齐性检验莱文统计自由度 1自由度 2显著性烟酒食品支出基于平均值.064118.803基于中位数.059118.811基于中位数并具有调整后自由度.059115.599.812基于剪除后平均值.064118.803不同性别受访者食品烟酒消费的方差是相等的
16、,四种莱文检验的结果均接受原假设,即不同组别因变量的方差是相等的。2.调查得到甲乙两班学生的上网状况,调查结果如表3-3所示,请根据下列数据分析班级与上网状况是否存在相关关系。表3-3 甲乙两班上网状况班级每天上网经常上网偶尔上网从不上网合计甲班49926541247乙班621136742284合计11120513283531采用交叉列联分析:卡方检验值自由度渐进显著性(双侧)皮尔逊卡方1.143a3.767似然比1.1433.767有效个案数531a. 0 个单元格 (0.0%) 的期望计数小于 5。最小期望计数为 38.61。对称测量c值渐进显著性名义到名义列联系数.046.767有效个案
17、数531c. 相关性统计仅适用于数字数据。卡方检验的结果接受原假设,即上网状态与班级之间是相互独立的。3.先得到某超市9月份每一天的商品销售总额数据,如下表所示。表3-4 超市商品销售总额257269268301336365298562289306290249316296311369403569416279510410368356413426369376406456 (1)计算该超市日销售额的均值、中位数;(2)判断该超市日销售额数据的偏度和峰度状况。应用基本描述统计分析方法:统计销售额 个案数有效30缺失0平均值361.30中位数360.50偏度.933偏度标准误差.427峰度.499峰度标
18、准误差.833 第4章 参数检验与SPSS实现习题与思考题(一)填空题1. 总体均值和指定检验值之间不存在显著差异2.两独立样本组的均值比较,两配对样本组的均值比较3.拒绝4.T统计量5.两样本群的方差是否相等(二)选择题BDCBB(三)判断题(四)简答题1.什么是配对样本?请举例解释。解:常见的配对样本情况有4种:同一研究对象分别给予两种不同处理的效果比较;两配对对象分别给予两种不同处理的效果比较;同一研究对象处理前后的效果比较;两配对对象(一个接受处理,一个不接受处理)的效果比较。和推断两种效果有无差别,和推断某种处理是否有效。比如一组高血压患者在服药前和服药一段时间后对于舒张压和收缩压测
19、量结果就形成了配对样本。2.两独立样本群的均值比较分析的流程是怎样的?解:在具体的计算中需要通过两步来完成:第一,利用F检验判断两总体的方差是否相同;第二,根据第一步的结果,决定T统计量和自由度计算公式,进而对T检验的结论作出判断。3.什么是独立样本,请举例说明。解:独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。比如生产同一类产品的不同国家的厂商,若彼此之间在生产链条上无任何相关性,则其生产产品的抽取样本即构成了独立样本。4.对两配对样本进行T检验的前提要求是?解:两配对样本T检验的前提要求如下。(1)两个样
20、本应是配对的。在应用领域中,主要的配对资料包括具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。(2)样本出自的两个总体应服从正态分布。5.如何检验某一样本某变量的总体均值和指定值之间是否存在显著差异?解:检验某一样本某变量的总体均值和指定值之间是否存在显著差异用到的是单一样本的均值比较。单样本T检验的零假设(H0)为:总体均值和指定检验值之间不存在显著差异。采用T统计量,计算公式为式中,是样本均值和检验值的差。因为总体方差未知,所以用样本方差S代替总体方差。n为样本数。SPSS将自动计算t值,由于该统计量服从n1个自由度的T分
21、布,SPSS将根据T分布表给出t值对应的相伴概率值。如果相伴概率值小于或等于用户设想的显著性水平,则拒绝H0,认为总体均值和检验值之间存在显著差异。相反,相伴概率大于显著性水平,则接受H0,可以认为总体均值和检验值之间不存在显著差异。案例分析题1. 从小学二年级某班抽取10名男生,分别测得他们的身高,是否可以认为该班男生的平均身高为1.35米?1.29 1.36 1.39 1.27 1.35 1.30 1.36 1.26 1.31 1.24单一样本T检验的伴随概率为0.044,因此拒绝原假设,即该班男生的平均身高与1.35有显著性差异。2. 用某药治疗6位高血压病人,对每一位病人治疗前、后的舒
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 SPSS 软件 应用 微课版 课后 习题 答案 10 全书 章节 练习题
限制150内