数据分析与SPSS软件应用(微课版)-课后习题答案1-10章全书章节练习题答案.pdf
《数据分析与SPSS软件应用(微课版)-课后习题答案1-10章全书章节练习题答案.pdf》由会员分享,可在线阅读,更多相关《数据分析与SPSS软件应用(微课版)-课后习题答案1-10章全书章节练习题答案.pdf(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第1章 统计分析与SPSS软件概述习题与思考题(-)填空题1.定性数据,定序数据,定距数据,定比数据2.主成分分析,因子分析,聚类分析,判别分析,对应分析等3.数据清理,数据转换,缺失数据插补,数据的合并汇总拆分4.完全窗口菜单运行方式,程序运行方式5.SPSS Base(-)选择BADAD(三)判断V V X V X(四)简答题1.目前常用的统计分析工具或软件有哪些?你使用过哪些?它们之间的区别在哪里?解:常用的统计分析工具有SPSS、SAS、STATA.Python等。2.试检查自己的SPSS软件共有几个模块,其中包括了哪些基本功能,并思考平时的统计分析需要哪些模块才能满足需要。解:SPS
2、S 软件共有 11 个模块,分别是 SPSS Base、SPSS Advance、SPSS C ategoriesSPSS Complex Sample、SPSS Conjoint ,SPSS Exact T est、SPSS Maps、SPSS MissingValue Analysis SPSS Regression、SPSS Tables 和 SPSS T re n d s,其中 SPSS Base 是必需的,SPSS的整体框架、基本数据的获取、数据准备和整理等基本功能都集中在这一模块上,其他模块必须在该模块的基础上才能工作。3.阐述定性、定序、定距、定比数据,并各举1例。解:定性变量又
3、称为名义变量。这是-种测量精度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别,如“班级”。定序变量又称为有序变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基 于“质”因素的变量,如“满意度”。定距变量又称为间隔变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小,如“重量”。定比变量又称为比率变量,它与定距变量意义相近,差别在于定距变量中的“0”值只表示某一取值,定比数据变量表示“没有”,如“年龄”。4.sav,.spv,.s p s分别是sp ss哪类文件的扩展名?解:s a v”是S P S S 的数据文件的扩展名,s
4、p v”是 S P S S 的结果输出文件扩展名,“.s p s”是 S P S S 的程序文件扩展名.5.简述统计分析基本流程。任何一个数据分析项目,都要经过项目计划、数据获取与准备、概括性描述统计分析、探索性统计推断、统计模型精准分析和结果报告6个阶段。(1)项目计划的内容包括确定研究问题和研究对象、样本抽取方法、样本量、数据搜集方式、数据分析方法和分析工具、项目预算等内容。(2)按照项目计划搜集数据。(3)概括性描述统计分析阶段是对数据进行的初步探讨,是通过参数估计输出相关统计量,并辅以统计表或统计图,从而对数据的集中趋势、离散趋势、分布特征等信息有详细的了解。(4)探索性统计推断阶段,
5、主要对数据进行深层次的分析尝试,通过探索分析、方差分析,相关分析等方法,对不同变量数据的内在联系进行探讨,为后续的精准模型分析奠定基础。(5)统计模型精准分析阶段,选择最优的统计模型,寻求变量间数据信息的完美呈现和解释。(6)统计报告阶段将整个数据分析项目的结果以合适的方式表达出来,从而使得决策者或者读者快速理解和掌握核心内容,并能据此做出科学决策。第 2 章 数据的获取与管理习题与思考题(一)填空题1 .查找和替换2 .拆入变量3.计算变量4 .原始数据组织方式,频数数据组织方式5 .指定加权变量(-)选择题D D C D C(三)判断X V V X X(四)简答题1 .试 述“个案排序”和
6、“个案排秩”两种排序操作的区别。解:“个案排序”操作会改变原有样本的排列顺序。“个案排秩”会在原有数据的基础上形成一个新的变量,用于存储样本的秩序号。2 .如何进行变量集的定义和使用?解:变量集的定义在“实用程序”菜单中的“定义变量集”命令。变量集定义之后,在“实用程序”菜单中选择的“使用变量集”命令,在“选择要应用的变量集”框中选择想要使用的变量集。3.简述数据排序在数据分析过程中的目的。解:数据排序是数据整理的关键步骤,在很多的统计分析过程中,如数据文件的合并等,都需要先对原始数据按照一定的规则进行排序。排序后的数据文件更便于进行相关的统计分析。4 .对于缺失值,如何利用S P S S 进
7、行科学替代?解:S P S S 提供了 5种缺失值的替代方式:序列平均值:用该变量的所有非缺失值的均数作替代。临近点的平均值:用缺失值相邻点的非缺失值的均数作替代,取多少个相邻点可任意定义。临近点的中间值:用缺失值相邻点的非缺失值的中位数作替代,取多少个相邻点可任意定义。线性插值:用缺失值相邻两点的非缺失值的中点值作替代。临近点的线性趋势:用线性拟合方式确定替代值。5 .在计算数据的加权平均数时,如何对变量进行加权?解:数据的加权在“数据”菜单中的“个案加权”命令,其中,“不对个案加权”项表示不作加权,是 S P S S 系统默认选项,也可用于取消加权操作:“个案加权依据”项表示选择一个变量作
8、加权变量。案例分析题1 .根据下述调查问卷中的题目,完成变量的设置和编码。“4.请问您的家庭月收入:a.3 0 0 0 以下 b.3 0 0 0 4 999 c.5 0 0 0 6 999 d.70 0 0 9999 e.1 0 0 0 0 以上”Value Labels2.请根据下列数据建立SP SS数据文件,并完成相关数据操作。表 2-2 数据I D年龄体 重(公斤)性别12 56 9.0男22 76 8.5男31 94 8.3女42 95 1.6女51 94 5.9女62 270.5男72 34 8.6女82 26 6.7男92 46 7.3男1 02 65 0.2女(1)请采用多种方法
9、根据体重指标值对样本进行排序(升序排列)。升序排列方 式 1:方式2:(2)对“性别”变量设置变量值标签,使其对应0 和 1 值。1 -,Untitiedl DataSetO-iBM SPSS Statistics Data EditorEile Edit View Qata Iransform Analyze graphs Utilities Extensions y/indow helpmH坞 四 4 0 甘 褊 嚼 n蠹 困 小通目Type Width Decimals Label Values Missing ColumnsNumeric 8 0 None None 7Numeric
10、8|。None None 18Numeric 8 1 None None 8String 8 0 None None 8Value Labels3,现有自由格式的文本文件,其中包含4个样本,每个样本为一行,每个样本测度6个指标,如下所示,请将文本文件数据信息导入到SP SS软件中,并对数据文件进行保存。2 3;4 5;3;4 6;6 5;1 24 6;89;5 6;1 2;4;1 35 5;1;2 3;6 1;4 1;2 04 1;2 0;6 1;2 0;1;3 0第3章描述统计分析及SPSS实现习题与思考题(-)填空题1 .探索分析2 .分析-描述统计-描述3 .离散程度4 .均值、中位数、
11、众数5 .备选选择项,答案(二)选择题CACBD(三)判断题X X V V X(四)简答题1 .探索性统计分析主要目的有哪些?解:探索分析的目的主要有三个:检查数据是否有错误;获得数据分布基本特征;对数据规律进行初步观察。2 .什么是峰度和偏度?解:偏度是描述某变量取值分布对称性的统计量。具体的计算公式如下:Skewness=Z(怎 -/i=i这个统计量是与正态分布相比较的量,偏度为0 表示其数据分布形态与正态分布偏度x 相同;偏度大于0 表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度 小 于 0 表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大。峰度
12、是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0 表示其数据分布与正态分布的陡缓程度相同;峰度大于0 表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0 表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式如下:Kurtosis=V(x(-x)4/SD4 3-,=i表示分布形态的偏斜程度越大。3.简述SPSS对数据进行统计分析刻画集中趋势以及离散程度的描述统计量。解:对数据集中趋势刻画的描述统计量包括:均值、中位数、众数、总和等。对数据离散趋势刻画的描述统计量包括:方差、标准差、极差、标准误等4.简述交叉列联表分析主要内容。解:交叉列联表分析主要包括两部
13、分的内容:第一是输出交叉分组下的频数分布状态表;二是分析交叉分类的两个变量之间是否具有独立性,并判断他们之间的相关性的大小。5.对于多项选择问题,分解(编码方案)的方法主要有哪两种,请简要说明。解:多项选择问题的编码方式有两种:一种是二分法,一种是多分法。多选项二分法将每个可能的答案设置为一个SPSS变量,变量的取值为0 或 1,0 表示没选中,1 表示选中。多选项分类法首先估计多选项问题可能出现的答案个数。比如,一个多选题,如果最多 有 3 个答案,那么就设置3 个 SPSS变量,分别用来存放3 个可能的答案。SPSS变量的取值为备选答案的代码,常用数字1,2,3表示不同的备选答案。案例分析
14、题1.某学校科研团队进行库区移民生存状态调查,经过抽样,抽取20名库区移民,对其生存状态进行调查,部分指标见表3-2.表 3-2 库区移民生存状况调查部分指标样 本 ID性别年龄家庭年收入家庭食品烟酒支出单位岁元元0 1男5 585 0 842 80 0 00 2女3 81 0 3 0 3 52 9 0 0 00 3女3 685 0 3 52 2 0 0 00 4男6 11 0 785 53 85 0 00 5女4 484 9 6 42 5 6 0 00 6女3 679 0 3 53 870 00 7男5 5877733 5 70 00 8男5 4877863 0 4 0 00 9男5 378
15、9 9 53 2 80 01 0女4 11 3 876 44 3 6 0 01 1男4 583 0 3 52 0 80 012男5 21 0 3 3 2 02 3 80 01 3男3 24 9 4 3 52 1 6 0 01 4男3 41 0 2 0 2 43 6 80 01 5男6 34 2 74 61 70 0 01 6男3 11 2 1 0 1 72 0 0 0 01 7女6 184 2 3 52 0 0 0 01 8女5 989 9 802 0 0 0 01 9女4 81 0 9 0 803 0 0 0 02 0男4 39 0 6 783 2 0 0 0请分析:数据状态:1.样本在性别
16、与年龄上分布状态。年 龄*性别交叉表计数性别总男女计年31101龄32101341013602238011410114310144011451014801152101531015410155202590116111263101总计12820男性样本与女性样本的对比关系为12:8。N统计最小值统计最大值统计均值统计描述统id标准偏差统计1统计偏度标准错误统计哮度标准错误年龄 20316347.0510.435-.034.512-1.359.992样本的平均年龄为47.05岁,峰度为-1.3 5 9,与正态分布相比较为平缓,偏度为-0.034,轻微的左偏。2.受访样本的家庭年收入是否符合正态分布正
17、态性检验柯尔莫戈洛夫-斯米诺夫(V)夏皮洛-威尔克统计 自由度 显著性 统计 自由度 显著性家庭年收.193 20.049.931 20.159入a.里利氏显著性修正家庭年收入的正态Q-Q图20.000 40,000 60 0080,000 100.000 120,000 140.000实测值从正态性分布检验结果和Q-Q图可以看出,夏皮洛威尔克检验接受了原假设,即数据符合正态分布特征,Q -Q图也基本呈现较为一致的特征。柯尔莫戈洛夫-斯米诺夫呈轻微的拒绝原假设状态,可认为接受正态分布的假设。3.不同性别的受访群体的食品烟酒消费支出方差是否相等。个案处理摘要个案性别有效N 百分比缺失N 百分比总
18、计N 百分比烟 酒 食 品 支 芝 _出 女12100.0%00.0%12100.0%8100.0%00.0%8100.0%方差齐性检验莱文统计自 由 度1自 由 度2显著性烟酒食品支出 基于平均值.064118.803基于中位数.059118.811基于中位数并具有调整后自由度,059115.599.812基于剪除后平均值.064118.803不同性别受访者食品烟酒消费的方差是相等的,四种莱文检验的结果均接受原假设,即不同组别因变量的方差是相等的。2.调查得到甲乙两班学生的上网状况,调查结果如表3-3 所示,请根据下列数据分析班级与上网状况是否存在相关关系。表 3-3甲乙两班上网状况班级每天
19、上网经常上网偶尔上网从不上网合计甲班4 99 26 54 12 4 7乙班6 21 1 36 74 22 8 4合计1 1 12 0 51 3 28 35 3 1通*无标题2 数据集1 -I B M S P S S S t a t is t ic s 致振箱塔器文件(E)编 辑 丘)查 看Q)数据(2)转换C D 分 析 但)图 形 实用程序(U)is昌1船最3 B H 1 3:鼻 上 网状态向班级夕人数变量变量3711每天上网甲班4 92每天上网乙班6 23经常上网甲班9 24经常上网乙班1 1 35偶尔上网甲班6 56偶尔上网乙班6 77从不上网甲班4 18从不上网乙班4 291 0采用交
20、叉列联分析:卡方检验值自由度渐进显著性(双侧)皮尔逊卡方1.143”3.767似然比1.1433.767有效个案数531a.0 个单元格(0.0%)的期望计数小于5。最小期望计数为 38.61。对称测量c.相关性统计仅适用于数字数据。值渐进显著性名义到名义列联系数.046.767有效个案数531卡方检验的结果接受原假设,即上网状态与班级之间是相互独立的。3.先得到某超市9月份每一天的商品销售总额数据,如下表所示。表 3-4 超市商品销售总额2 5 72 6 92 6 83 0 13 3 63 6 52 9 85 6 22 8 93 0 62 9 02 4 93 1 62 9 63 1 13 6
21、 94 0 35 6 94 1 62 7 95 1 04 1 03 6 83 5 64 1 34 2 63 6 93 7 64 0 64 5 6(1)计算该超市日销售额的均值、中位数;(2)判断该超市日销售额数据的偏度和峰度状况。22:夕 销售额变量3ES变量,125722693268430153366365729885629289103061129012249_i3161429615311163691740318569194162027921510224102336824356254132642627369283762940630456应用基本描述统计分析方法:统计销售额个案数 有效 30缺
22、失 0平均值 361,30中位数 360.50偏度.933偏度能俣举.427峰度.499峰度标准误差.833第4章 参数检验与SPSS实现习题与思考题(一)填空题1 .总体均值和指定检验值之间不存在显著差异2 .两独立样本组的均值比较,两配对样本组的均值比较3 .拒绝4 .T统计量公。而5 .两样本群的方差是否相等(二)选择题B DCB B(三)判断题V 7 X V V(四)简答题1 .什么是配对样本?请举例解释。解:常见的配对样本情况有4种:同一研究对象分别给予两种不同处理的效果比较;两配对对象分别给予两种不同处理的效果比较;同一研究对象处理前后的效果比较;两配对对象(一个接受处理,一个不接
23、受处理)的效果比较。和推断两种效果有无差别,和推断某种处理是否有效。比如一组高血压患者在服药前和服药一段时间后对于舒张压和收缩压测量结果就形成了配对样本。2 .两独立样本群的均值比较分析的流程是怎样的?解:在具体的计算中需要通过两步来完成:第一,利 用 F检验判断两总体的方差是否相同;第二,根据第一步的结果,决 定 T统计量和自由度计算公式,进而对T检验的结论作出判断。3 .什么是独立样本,请举例说明。解:独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。比如生产同一类产品的不同国家的厂商,若彼此之间在生产链条上
24、无任何相关性,则其生产产品的抽取样本即构成了独立样本。4.对两配对样本进行T 检验的前提要求是?解:两配对样本T 检验的前提要求如下。(1)两个样本应是配对的。在应用领域中,主要的配对资料包括具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。(2)样本出自的两个总体应服从正态分布。5.如何检验某一样本某变量的总体均值和指定值之间是否存在显著差异?解:检验某一样本某变量的总体均值和指定值之间是否存在显著差异用到的是单一样本的均值比较。单 样 本 T 检验的零假设(H o)为:总体均值和指定检验值之间不存在显著差异。采用T 统计量,
25、计算公式为DF式中,石是样本均值和检验值的差。因为总体方差未知,所以用样本方差s 代替总体方差。n 为样本数。SPSS将自动计算t 值,由于该统计量服从n T 个自由度的T 分布,SPSS将根据T 分布表给出t 值对应的相伴概率值。如果相伴概率值小于或等于用户设想的显著性水平a ,则拒绝H 0,认为总体均值和检验值之间存在显著差异。相反,相伴概率大于显著性水平a,则接受HO,可以认为总体均值和检验值之间不存在显著差异。案例分析题1.从小学二年级某班抽取1 0 名男生,分别测得他们的身高,是否可以认为该班男生的平均身高为1.35米?1.29 1.36 1.39 1.27 1.35 1.30 1.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 SPSS 软件 应用 微课版 课后 习题 答案 10 全书 章节 练习题
限制150内