4第四章 基本统计分析.ppt





《4第四章 基本统计分析.ppt》由会员分享,可在线阅读,更多相关《4第四章 基本统计分析.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章 基本统计分析 一、SPSS统计分析功能概述1、SPSS数值分析过程数值分析过程(部分自学)(部分自学)2、SPSS图形分析过程图形分析过程1、SPSS数值分析过程Descriptive Statistics Compare means General linear model CorrelateRegressionLoglinearClassifyData reduction ScaleNonparametric tests SurvivalMultiple response2、SPSS图形分析过程专门作专门作为一章为一章讲授讲授基本统计分析功能包括:基本统计分析功能包括:1 1、报告
2、分析(、报告分析(ReportReport)2 2、描述性统计分析(描述性统计分析(Descriptive Descriptive StatisticsStatistics)二、基本统计分析功能(一)报告分析(Report)1、OLAP 在线分析处理过程2、Case Summaries 观测值摘要分析过程3、摘要报告分析过程(1)Report Summaries in Rows 行形式摘要报告行形式摘要报告(2)Report Summaries in Column 列形式摘要报告列形式摘要报告按AnalyzeReportsOLAP Cubes顺序单击打开如下对话框:摘要变摘要变量框:量框:进入
3、此进入此框变量框变量为数值为数值型变量型变量分层变分层变量框:量框:进入此进入此框变量框变量为数值为数值型或字型或字符型变符型变量量1、OLAP(在线分析处理过程)可选择的统计量可选择的统计量:Sum 总和总和Number of Cases 观测量数目观测量数目Mean 均值均值 Standard Deviation 标准差标准差Percent of Total Sum 占总和的占总和的百分比百分比Percent of Total N 占观察量总占观察量总数的百分比数的百分比Medina 中位数中位数Grouping Median 分组中位数分组中位数Std.Error of Mean 均值标
4、准误均值标准误Minimum 最小值最小值Maximum 最大值最大值Range 范围范围First 首值首值Last 尾值尾值Variance 方差方差 Skewness 偏度偏度Std.Error of Skewness 偏偏度的度的标准误标准误Kurtosis 峰度峰度Std.Error of Kurtosis 峰度的标峰度的标准误准误Harmonic Mean 调和均数调和均数Geometric Mean 几何均数几何均数标题标题 对话框对话框输入统输入统计量的计量的标题标题 输入注解输入注解,这些注解将这些注解将显示在统计显示在统计量输出栏的量输出栏的下面下面请看演示分析请看演示分析
5、30名少儿身高数据名少儿身高数据1、操作步骤:、操作步骤:1)按AnalyzeReportsOLAP Cubes顺序单击打开OLAP Cubes对话框2)打开数据文件“少儿身高少儿身高.sav”,将height变量选入Summary Variable框中,将sex变量作为分组变量选入Grouping Variable 框中;3)单击Statistics按钮,在 Statistics框中选择Sum、Mean、Median项作为要输出的统计量;4)单击Title按钮,在Title框中输入“少儿身高分层报告”,单击Continue返回;单击OK2、输出结果及分析输出结果及分析表表4-3 观测量摘要观
6、测量摘要 表4-2说明观测量的一些基本情况,包括总个数、有效值个数和缺省值个数。表4-3是分层报告,输出了总和、均值和中位数。其他数据基本分析方法自学、练习(二)描述性统计分析(Descriptive Statistics)1、Frequencies 频数分析表频数分析表2、Descriptive 描述性统计分析过程描述性统计分析过程3、Explore 探索分析过程探索分析过程4、Crosstabs 列列联表分析过程联表分析过程1、频数分析表一、主要功能一、主要功能 可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。二、频数分析二、频数分析1)按Ana
7、lyzeDescriptive StatisticFrequencies顺序,打开Frequencies对话框如图。选择一个或多个变量右移入Variable(s)框。按Statistics按钮,打开Statistics对话框显示频数分布表按Chart按钮,打开Chart 对话框按Format按钮,打开Format 对话框 Frequences主对话框 输出百分位数:输出四分位数,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2100 的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0100 的整数。输入值后:按Add:输入值后按此键,可反复操
8、作键入多个百分位数;按Remove:删除已键入的数值 按Change:重新输入新数离差栏分布参数栏在计算百分位数值和中位数时,假设数据已分组,且用各组的组中值代替各组数据中心趋势栏输出统计量对话框Chart 对话框对话框不输出任何图形,为默认 输出条形图,各条高度代表变量各分类的频数输出圆图,圆图中各块的数值表示各分类变量的频数输出直方图,此图仅适用于区间型数值变量。选择此项后,还可选择With normal curve,画出的直方图带有正态曲线只有选择了条形图只有选择了条形图和圆图项才有效,和圆图项才有效,决定纵轴表示的统决定纵轴表示的统计量计量纵轴表示频数图纵轴表示频数图纵轴表示百分比纵轴
9、表示百分比Format 对话框对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列表表49 100名大学生血清蛋白含量(名大学生血清蛋白含量(%)三、例题分析三、例题分析对某高校100名大学生血清蛋白含量(g%)做频数分析,数据如表49 1、具体步骤、具体步骤按AnalyzeDescriptive StatisticFrequencies 顺序,打开Frequencies对话框。打开数据文件“大学生血大学
10、生血清清.sav”,挑xdh变量进入Variable框,grade变量进入Break框。选中Display frequency tables复选框,要求输出频数分布表。单击Statistics按钮,选择要输出的统计量。单击Chart 按钮,选择Histogram项,输出直方图,并选择With normal curve复选框,输出正态曲线。单击Format 按钮,选Ascending项。单击“OK”完成。2、输出结果及分析输出结果及分析结果如下表、图 血清蛋白含量的直方图血清蛋白含量的直方图 血清蛋白含量的统计表血清蛋白含量的统计表血清蛋白含量的频数分布表一、主要功能:一、主要功能:调用此过程对
11、变量进行描述性统计分析,计算均值、标准差、调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等,并可将原始数据转换成全距和均值标准误差等,并可将原始数据转换成Z分数。分数。二、描述统计量分析二、描述统计量分析按按Analyze Descriptive Statistics Descriptives顺序单击,打开顺序单击,打开 Descriptives主对话框。如图主对话框。如图选一个或多个变量移入如选中此框,将对Variables框中选择的变量进行标准化产生相应的Z分值,并作为新变量保存到数据窗口,其变量名在原变量名前加z。Descriptive 对话框对话框 2、描述性
12、统计分析过程Options 对话框对话框 基本统计量当Variables框中有多个变量时,此框确定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布三、例题分析三、例题分析 已知20个初生婴儿的体重数据如下表,对其进行描述统计。2770 2915 2795 2995 2860 2970 3087 3126 3125 46542272 3503 4218 3418 3921 2669 3707 2310 2573 388120个初生婴儿的体重(个初生婴儿的体重(g)1、操作步骤:打开数据文件“婴儿体重.sav”。打开 Descriptiv
13、es主对话框,选定变量t进入Variable栏中。选中Save standardized values as variables 复选框,要求计算变量的z值,并保存结果到当前数据集中。单击Options 按钮,选中Mean、Std.Deviation、Minimum、Maximum、Variance 项。2、输出结果及分析婴儿体重的描述统计量婴儿体重的描述统计量这时打开原数据集,可看到多了一列zt,这是t 的z 分数,如下图所示:保存了保存了z 分数的数据集分数的数据集一、主要功能:一、主要功能:调用此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察。剔除奇异值和错误数据。
14、探索分析过程将提供在分组和不分组的情况下常用的统计量与图形。二、探索分析二、探索分析 按Analyze-Descriptive Statistics-Explore 顺序单击,打开 Explore 主对话框。如图3、探索分析过程选择一个或多个变量选择一个或多个变量进入进入Dependent框框作为作为因变量,单击因变量,单击OK可获可获得因变量的一系列基得因变量的一系列基本统计量和图形。本统计量和图形。此作为分组变量,可以是字符变量,对此作为分组变量,可以是字符变量,对因变量的分析将按该变量的观测值进行因变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会分组分析。可有多个分组变
15、量,这时会按多个变量的交叉组合进行分组。按多个变量的交叉组合进行分组。该框中的变量作为标识该框中的变量作为标识符,在输出诸如异常值符,在输出诸如异常值时,用该变量进行标识,时,用该变量进行标识,只允许有一个标识符。只允许有一个标识符。可同时输出基本统可同时输出基本统计量和图形计量和图形只输出基本统计量只输出基本统计量只输出图形只输出图形Explore 主对话框输出基本统计量输出基本统计量 均值的置信区间,可键入均值的置信区间,可键入199%的任的任意值,根据该值算出置信区间的上下限。意值,根据该值算出置信区间的上下限。给出中心趋势的给出中心趋势的最大拟然比的稳最大拟然比的稳健估计量,当数健估计
16、量,当数据分布均匀,且据分布均匀,且两尾较长,或当两尾较长,或当数据中存在极端数据中存在极端值时,可给出比值时,可给出比均值或中位数更均值或中位数更合理的估计。合理的估计。输出最大和输出最大和最小的最小的5个个数,且在输数,且在输出窗口中加出窗口中加以标明。以标明。输出输出5%、10%、25%、50%、75%、90%和和95%的百分位数。的百分位数。Statistics对话框只有指定分组变量才有效,可输出分布只有指定分组变量才有效,可输出分布水平图,同时输出回归直线水平图,同时输出回归直线斜率以及对方差的斜率以及对方差的Levenes检验检验不输出分布不输出分布水平图水平图对每组数据产生一个中
17、位数与四分位范围的自然对数散点图,同时对每组数据产生一个中位数与四分位范围的自然对数散点图,同时在满足每组中数据方差相等的条件下对数据进行幂变换的估计。在满足每组中数据方差相等的条件下对数据进行幂变换的估计。根据在根据在Power参数框中指定的变换对原始数据进行变换。参数框中指定的变换对原始数据进行变换。不对数据进行转换不对数据进行转换 Explore 栏中栏中Plots对话框对话框在此对话框中可选择要输出的在此对话框中可选择要输出的统计图形及其参数。统计图形及其参数。只有在主对话框只有在主对话框中指定了一个以中指定了一个以上变量时,上变量时,Boxplot栏才有效。栏才有效。在该栏选择盒形在
18、该栏选择盒形图的输出方式:图的输出方式:每一个因变量生每一个因变量生成一个盒形图成一个盒形图所有因变量生成所有因变量生成一个盒形图一个盒形图不显示任何盒形不显示任何盒形图图生成茎叶图,生成茎叶图,为默认为默认生成直方图生成直方图输出正态概率和离输出正态概率和离散正态概率图,同散正态概率图,同时输出时输出K-S统计量统计量中的中的Liliefors显著显著水平检验,如果观水平检验,如果观测数不超过测数不超过20,将,将用用W-S统计量代替统计量代替K-S。确定缺失值的处置:确定缺失值的处置:因变量或分组变量中带有缺失值的观因变量或分组变量中带有缺失值的观测量都将在分析过程中被剔除。测量都将在分析
19、过程中被剔除。在分析过程中根据分组变量产生的组在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。中带缺失值的观测量都将被剔除。分组变量的缺失值被单独分为一组,分组变量的缺失值被单独分为一组,输出频数时将标出缺失组。输出频数时将标出缺失组。Explore 栏中栏中Options对话框对话框三、例:下表为三、例:下表为30名名10岁少儿的身高(岁少儿的身高(cm)数据,对数据,对其进行探索分析其进行探索分析编号身高编号身高编号身高男女男女男女1131.5132.76135.5137.511132.2124.02137.4133.07121.4141.412129.0140.33128.
20、2139.78129.2138.813132.6130.14136.0125.49135.4120.914140.9133.45140.4138.610135.8137.515129.3136.71、操作步骤:、操作步骤:打开 Explore主对话框,打开数据文件“Explore分分析析.sav”选变量height进入Dependent List栏中,选sex变量进入Factor List栏中;在Display栏中选择 Both项;打开Statistics对话框,选中Descriptives、M-estimation、Outliers复选项,单击Continue返回;要求计算变量的z值,并保存
21、结果到当前数据集中。打开Plot对话框,选择Boxplots栏中的Factor levels together项,选择Descriptives栏内的 Stem-and-leaf复选项,选择Spread vs level with levene Test栏中的 Power estimation项,单击 Continue 返回。单击OK2、输出结果及分析输出结果及分析 输出结果如下表观测量摘要表观测量摘要表M估计量表估计量表少儿身高的分组描述统计量少儿身高的分组描述统计量少儿身高的极端值少儿身高的极端值方差一致性检验方差一致性检验HIGHT Stem-and-Leaf Plot forSEX=1
22、Frequency Stem&Leaf 1.00 12.1 4.00 12.8999 3.00 13.122 5.00 13.55567 2.00 14.00 Stem width:10.00 Each leaf:1 case(s)少儿身高的茎叶图少儿身高的茎叶图少儿身高的盒形图少儿身高的盒形图 结果分析表4-13摘要性地说明了数据的基本情况,包括总数、有效值数目和缺失值数。表4-14是按性别分组后的统计量表,上半部分是男生,下半部分是女生的。表4-15下面的a、b、c、d分别表示四种加权常数,此表的结果是使用四种不同的方法计算出的M估计量的结果。表4-16显示分组后少儿身高的极端值分布,最大
23、值和最小值各取5个。表4-17是方差的一致性检验,零假设是分组后的方差为相等的。表中四行是依据不同的统计量得到的检验,分别是基于均值、基于中位数与调整后的自由度和基于调整后的均值。由于其显著值均大于0.05,不能否定零假设,即可以认为男生和女生的身高的方差是无差异的。茎叶图从左到右分为三部分:频数、茎和叶、茎是整数部分,叶是小数部分,Stem width表示茎宽。每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,实际数据中与该近似值靠近的值的个数即为频数表示的个数。盒形图各部分的含义:方箱是盒形图的主体,上下边为四分位数,中心粗线为中位数,变量的50%的观测值落在这一区域中。方箱上下两
24、条纵向直线是触须线,触须线外的两端线为本体的最大值和最小值。本体指除奇异值外的变量值。奇异值用“0”表出,本例中无奇异值。4、列联表分析过程主要功能:主要功能:调用列联表分析过程可进行计数资料和某些等级资料的列联表分析,一个行变量和一个列变量可组成一个二维列联表,如再加一个控制变量则可组成一个三维列联表。而多个行、列、控制变量就可组成一个复杂的多维列联表。在分析中可对二维和多维列联表资料进行统计描述和x2检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fishers Exact Test),且有单双侧(One-Tail、Two-Tail)、对数拟然比检验(Likelihood Ra
25、tio)以及线性关系的Mantel-Haenszel x2检验。4、列联表分析过程列联表分析程序列联表分析程序 按Analyze-Descriptive Statistics-Crosstabs 顺序打开 Crosstabs 主对话框。如图该框中的变量该框中的变量作为分布表中作为分布表中的行变量,必的行变量,必须是数值型或须是数值型或字符型等分类字符型等分类变量。变量。该框中的变量作该框中的变量作为控制变量,决为控制变量,决定频数分布表中定频数分布表中的层,可有多个的层,可有多个控制变量,如要控制变量,如要增加新的控制变增加新的控制变量,按量,按Next 键,键,要修改以前的变要修改以前的变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 4第四章 基本统计分析 第四 基本 统计分析

限制150内