《SPSS描述统计.ppt》由会员分享,可在线阅读,更多相关《SPSS描述统计.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据转换数据转换(Transform)(Transform)Compute Compute 计算产生变量计算产生变量数据转换数据转换(Transform)(Transform)Compute Compute 利用函数进行计算利用函数进行计算描述性统计分析描述性统计分析p1 1统计量介绍统计量介绍p2 2频数分析频数分析p3 3描述统计量描述统计量p4 4数据探索数据探索p5 5比率统计分析比率统计分析pSPSSSPSS基本统计分析是进行其他统计分析的基本统计分析是进行其他统计分析的基础和前提。通过基本统计方法的学习,基础和前提。通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确可以对
2、要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的的把握,从而有助于选择其他更为深入的统计分析方法。统计分析方法。p 本节课主要介绍如何在本节课主要介绍如何在SPSSSPSS中进行平中进行平均数、中位数、众数、方差、百分位、频均数、中位数、众数、方差、百分位、频数、峰度、偏度、探索分析、交叉联列表数、峰度、偏度、探索分析、交叉联列表分析、多选项分析、基本统计报表制作等分析、多选项分析、基本统计报表制作等的操作。的操作。基本统计量介绍基本统计量介绍p集中趋势集中趋势集中趋势集中趋势pp均值(均值(均值(均值(Mean)Mean)Mean)Mean)pp中位数(中位数(中位数(中位
3、数(MedianMedianMedianMedian)pp众数(众数(众数(众数(ModeModeModeMode)pp百分数(四分位数百分数(四分位数百分数(四分位数百分数(四分位数QuartilesQuartilesQuartilesQuartiles等)等)等)等)p离散趋势离散趋势离散趋势离散趋势pp样本方差(样本方差(样本方差(样本方差(VarianceVarianceVarianceVariance)pp样本标准差样本标准差样本标准差样本标准差(Std.deviationStd.deviationStd.deviationStd.deviation)pp均值标准差(均值标准差(均值
4、标准差(均值标准差(Stand Stand Stand Stand Error of MeanError of MeanError of MeanError of Mean)pp极差(极差(极差(极差(RangeRangeRangeRange)p分布形态分布形态分布形态分布形态pp偏度(偏度(偏度(偏度(SkewnessSkewnessSkewnessSkewness)pp峰度(峰度(峰度(峰度(KutosisKutosisKutosisKutosis)定义:峰度是描述某变量所有取值分布形态定义:峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态陡缓程度的统计量。这个统计量是
5、与正态分布相比较的量,峰度为分布相比较的量,峰度为0 0表示其数据分布表示其数据分布与正态分布的陡缓程度相同;峰度大于与正态分布的陡缓程度相同;峰度大于0 0表表示比正态分布高峰要更加陡峭,为尖顶峰;示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于峰度小于0 0表示比正态分布的高峰要平坦,表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式为为平顶峰。具体的计算公式为 定义:偏度也是描述数据分布形态的,它定义:偏度也是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。具体是描述某变量取值分布对称性的统计量。具体的计算公式为的计算公式为 这个统计量是与正态分布相比较的量,偏这个统计量是与正
6、态分布相比较的量,偏度为度为0 0表示其数据分布形态与正态分布偏度表示其数据分布形态与正态分布偏度x x相相同;偏度大于同;偏度大于0 0表示正偏差数值较大,为正偏表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于或右偏,即有一条长尾巴拖在右边;偏度小于0 0表示负偏差数值大,为负偏或左偏,有一条表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。分布形态的偏斜程度越大。扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布峰态峰态峰态峰态左偏分布左偏分布左偏分布
7、左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!偏态偏态偏态偏态扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布左偏分布左偏分布左偏分布左偏分布扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布右偏分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布左偏分布扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布频数分析p频数分析目的和主要功能频数分析目的和主
8、要功能pp 频数就是一个变量在各个变量值上取值的个案频数就是一个变量在各个变量值上取值的个案数,基本统计分析往往从频数分析开始。通过频数分析能数,基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有够了解变量取值的状况,对把握数据的分布特征是非常有用的。用的。pp 例如,调查消费者拥有数码产品的数量,首先分析例如,调查消费者拥有数码产品的数量,首先分析受访者的总人数、家庭收入情况、受教育程度、性别等,受访者的总人数、家庭收入情况、受教育程度、性别等,获取样本是否具有总体代表性、抽样是否存在系统偏差等获取样本是否具有总体代表性、抽样是否存在系统偏差等信
9、息。这些可以通过频数分析来实现,信息。这些可以通过频数分析来实现,经过频数分析可以经过频数分析可以得到如下结果:得到如下结果:pp(1 1)频数分布表:该表中包含频数、各频数占总样本数)频数分布表:该表中包含频数、各频数占总样本数的百分比、有效百分比、累计百分比。的百分比、有效百分比、累计百分比。pp(2 2)统计图:用统计图形展示变量的取值状况,频数分)统计图:用统计图形展示变量的取值状况,频数分析中提供的统计图形可以是条形图、饼图或者直方图。析中提供的统计图形可以是条形图、饼图或者直方图。p新建数据库或打开已有数据库Analyze Descriptive statistics Freque
10、ncies 使左侧源变量栏进入右侧使左侧源变量栏进入右侧variable(s)栏栏 单单击击statistics 选择统计指标选择统计指标 continue chat 选选择要输出的图形择要输出的图形 continue format 选择要输选择要输出的格式出的格式 continue OK频数分析频数分析(frequencies)pp(1 1)候)候选变选变量框量框pp列出数据文件中所有的变量列出数据文件中所有的变量pp(2 2)VariablesVariables框框pp从候选变量框中选择要分析的变量从候选变量框中选择要分析的变量pp移入此框中,可同时选择多个变量,移入此框中,可同时选择多个
11、变量,pp此时,此时,SPSSSPSS就将分别产生多张就将分别产生多张pp频数表或统计图形。频数表或统计图形。pp(3 3)Display frequency tablesDisplay frequency tables复选框复选框pp此复选框设置是否显示频数表,此复选框设置是否显示频数表,pp系统默认选中,表示要显示频数表。系统默认选中,表示要显示频数表。图4-1频数分析过程的操作界面频数分析过程的操作界面pp(4 4)StatisticsStatistics按钮按钮pp单击该按钮会弹出新的对话框,单击该按钮会弹出新的对话框,pp该对话框主要用于确定将要在该对话框主要用于确定将要在pp输出结
12、果中出现的统计量,输出结果中出现的统计量,pp选中统计量前的复选框表示选中统计量前的复选框表示pp输出该统计量。输出该统计量。pp(5 5)ChartsCharts按钮按钮pp用于确定将输出的图形类型用于确定将输出的图形类型pp和图形取值。和图形取值。pp(6 6)FormatFormat按钮按钮pp定义输出频数表的格式定义输出频数表的格式图4-1频数分析频数分析p例:例:例:例:测量测量测量测量100100100100名健康成名健康成名健康成名健康成人的血清蛋白总含量,人的血清蛋白总含量,人的血清蛋白总含量,人的血清蛋白总含量,形成数据形成数据形成数据形成数据serumserumserums
13、erum(克(克(克(克/升),使用频数分析升),使用频数分析升),使用频数分析升),使用频数分析了解这一数据的统计了解这一数据的统计了解这一数据的统计了解这一数据的统计特征。特征。特征。特征。S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤1 1、菜单中点、菜单中点、菜单中点、菜单中点分析分析分析分析/描述统计描述统计描述统计描述统计/频率频率频率频率,进入,进入,进入,进入频率对话框频率对话框频率对话框频率对话框频数分析频数分析S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤2 2、将变量选入、将变量选入、将变量选入、将变量选入变量变量变量变量窗口,再点击窗
14、口,再点击窗口,再点击窗口,再点击统计统计统计统计量量量量,进行设置,完,进行设置,完,进行设置,完,进行设置,完成后点成后点成后点成后点继续继续继续继续返回返回返回返回S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤2 2、在频率主对话框中分别进入、在频率主对话框中分别进入、在频率主对话框中分别进入、在频率主对话框中分别进入图表图表图表图表和和和和格式格式格式格式进进进进行设置,完成后点行设置,完成后点行设置,完成后点行设置,完成后点继续继续继续继续返回,最后点返回,最后点返回,最后点返回,最后点确定确定确定确定S SP PS SS S的的的的输输输输出出出出结结结结果果果果
15、该教学案例数据解析该教学案例数据解析p均值(平均值、平均数)表示的是某变量均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。例如,所有取值的集中趋势或平均水平。例如,学生某门学科的平均成绩、公司员工的平学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。均收入、某班级学生的平均身高等。p计算公式如下。计算公式如下。总体平均数:若一组数据总体平均数:若一组数据X X1 1,X X2 2,X XN N,代表一个大小为,代表一个大小为N N的有限总体,则其总体平的有限总体,则其总体平均数为均数为 样本平均数:若一组数据样本平均数:若一组数据x x1 1,x x2 2,
16、x xn n,代表一个大小为,代表一个大小为n n的有限样本,则其样本平的有限样本,则其样本平均数为均数为 p中值是在一组数据中居于中间的数中值是在一组数据中居于中间的数(特别注特别注意的地方是:这组数据之前已经经过升序意的地方是:这组数据之前已经经过升序排列!排列!),即在这组数据中,有一半的,即在这组数据中,有一半的数据比它大,有一半的数据比它小。如果数据比它大,有一半的数据比它小。如果这组数据包含偶数个数字,中值是位于中这组数据包含偶数个数字,中值是位于中间的两个数的平均值。间的两个数的平均值。p10 20 40 50 70 10 20 40 50 70 p10 20 30 40 50
17、60 10 20 30 40 50 60 p百分位数分析:比如,假设某个考生在入百分位数分析:比如,假设某个考生在入学考试中的语文部分的原始分数为学考试中的语文部分的原始分数为5454分。分。相对于参加同一考试的其他学生来说,他相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道。但是如果原始的成绩如何并不容易知道。但是如果原始分数分数5454分恰好对应的是第分恰好对应的是第7070百分位数,我百分位数,我们就能知道大约们就能知道大约7070的学生的考分比他低,的学生的考分比他低,而约而约3030的学生考分比他高。的学生考分比他高。p众数(众数(ModeMode)统计学名词,在统计分布上
18、)统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。一般水平(众数可以不存在或多于一个)。修正定义:是一组数据中出现次数最多的修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好数值,叫众数,有时众数在一组数中有好几个。用几个。用M M表示。表示。理性理解:简单的说,理性理解:简单的说,就是一组数据中占比例最多的那个数。就是一组数据中占比例最多的那个数。phttp:/ mp定义:全距也称为极差,是数据的最大值定义:全距也称为极差,是数据的最大值与最小值之间的绝对差。在相同样本容量与最小值之间
19、的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。比全距小的一组数据更为分散。p 计算公式:最大值最小值。计算公式:最大值最小值。4.3 描述性分析p 描述性分析主要用于输出变量的各类描述性统计量的值,通过上一节的学习可知,频数分析同样可以做到,都是以计算数值型单变量的统计量为主。描述性统计分析没有图形功能,也不能生成频数表,但描述性分析可以将原始数据转换成标准正态评分值,并以变量形式存入数据文件中,以便后续分析时应用。变变量量标标准化:将原始数据准化:将原始数据转转化成化成标标准常准常态评态评分分值值,采用以下公式:,
20、采用以下公式:其中其中为变为变量的第量的第i个个观测值观测值,为变为变量均量均值值为变为变量量标标准差。准差。在在多元统计分析中,对均值差异较大的变量,采用变量标多元统计分析中,对均值差异较大的变量,采用变量标准化后的数据进行分析,可以消除均值差异带来的影响。准化后的数据进行分析,可以消除均值差异带来的影响。p在处理试验数据时在处理试验数据时,因素在不同水平下的均因素在不同水平下的均值一般情况下都有差异值一般情况下都有差异,就是在同一水平下就是在同一水平下进行多次不同的试验进行多次不同的试验,由于随机误差的存在由于随机误差的存在,试验数据波动也不小试验数据波动也不小.p 描述统计量描述统计量p
21、例:例:例:例:调查记录了调查记录了调查记录了调查记录了130130130130名名名名正常男性血液中的红正常男性血液中的红正常男性血液中的红正常男性血液中的红细胞数(细胞数(细胞数(细胞数(RBCRBCRBCRBC,万,万,万,万/mm/mm/mm/mm),用描述统计量用描述统计量用描述统计量用描述统计量查看该数据的统计特查看该数据的统计特查看该数据的统计特查看该数据的统计特征。征。征。征。S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤1 1、菜单中点、菜单中点、菜单中点、菜单中点分析分析分析分析/描述统描述统描述统描述统计计计计/描述描述描述描述,进入描述对话框,进入描述
22、对话框,进入描述对话框,进入描述对话框2 2、将变量算入、将变量算入、将变量算入、将变量算入变量变量变量变量窗口,进入窗口,进入窗口,进入窗口,进入选项选项选项选项对话框进行设置,对话框进行设置,对话框进行设置,对话框进行设置,完成后点完成后点完成后点完成后点继续继续继续继续,并,并,并,并确定确定确定确定S SP PS SS S的的的的输输输输出出出出结结结结果果果果数据编辑窗口中,在数据编辑窗口中,在数据编辑窗口中,在数据编辑窗口中,在原变量右侧多了一列原变量右侧多了一列原变量右侧多了一列原变量右侧多了一列由原变量标准化产生由原变量标准化产生由原变量标准化产生由原变量标准化产生的的的的“Z
23、+Z+原变量名原变量名原变量名原变量名”的列的列的列的列3 3 数据探索数据探索p数据中隐含的统计规律数据中隐含的统计规律数据中隐含的统计规律数据中隐含的统计规律尚不清楚时,可以对数尚不清楚时,可以对数尚不清楚时,可以对数尚不清楚时,可以对数据进行考察和探索,也据进行考察和探索,也据进行考察和探索,也据进行考察和探索,也可找出异常值。可找出异常值。可找出异常值。可找出异常值。p例;例;例;例;调查记录了调查记录了调查记录了调查记录了97979797名幼名幼名幼名幼儿的编号、性别、月龄、儿的编号、性别、月龄、儿的编号、性别、月龄、儿的编号、性别、月龄、体重、身高、坐高、胸体重、身高、坐高、胸体重
24、、身高、坐高、胸体重、身高、坐高、胸围、头围、左眼视力、围、头围、左眼视力、围、头围、左眼视力、围、头围、左眼视力、右眼视力、年龄、血检右眼视力、年龄、血检右眼视力、年龄、血检右眼视力、年龄、血检数据。要求对身高进行数据。要求对身高进行数据。要求对身高进行数据。要求对身高进行探索分析。探索分析。探索分析。探索分析。S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤1 1、菜单中点、菜单中点、菜单中点、菜单中点分析分析分析分析/描述统计描述统计描述统计描述统计/探索探索探索探索,进入探索对话框,进入探索对话框,进入探索对话框,进入探索对话框2 2、分别将身高和性别变量选入、分别将身
25、高和性别变量选入、分别将身高和性别变量选入、分别将身高和性别变量选入因变量因变量因变量因变量和和和和因子因子因子因子列表,打开列表,打开列表,打开列表,打开统统统统计量计量计量计量窗口进行设置,完成后点窗口进行设置,完成后点窗口进行设置,完成后点窗口进行设置,完成后点继续继续继续继续返回返回返回返回S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤3 3、分别打开、分别打开、分别打开、分别打开绘制绘制绘制绘制和和和和选项选项选项选项对话框,对所输出图形以及对话框,对所输出图形以及对话框,对所输出图形以及对话框,对所输出图形以及缺失值处理进行设置,完成后点缺失值处理进行设置,完成后
26、点缺失值处理进行设置,完成后点缺失值处理进行设置,完成后点继续继续继续继续返回,并点返回,并点返回,并点返回,并点确定确定确定确定S SP PS SS S的的的的输输输输出出出出结结结结果果果果S SP PS SS S的的的的输输输输出出出出结结结结果果果果S SP PS SS S的的的的输输输输出出出出结结结结果果果果p箱线图(箱线图(BoxplotBoxplot)也称箱须图()也称箱须图(Box-Box-whisker Plotwhisker Plot),是利用数据中的五个统),是利用数据中的五个统计量:最小值、第一四分位数、中位数、计量:最小值、第一四分位数、中位数、第三四分位数与最大值
27、来描述数据的一种第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较可以用于对几个样本的比较 S SP PS SS S的的的的输输输输出出出出结结结结果果果果茎叶分析 出生率出生率出生率出生率6.266.267.677.6712.8212.8211.4811.489.879.876.406.407.677.677.577.577.477.479.369.3610.2910.29死亡率死亡率死亡率死亡率4.974.976.076.076.596.
28、595.735.735.915.915.305.305.005.005.185.185.895.897.087.085.425.42出生率出生率出生率出生率9.089.0811.9211.9211.7811.7814.4414.4414.5914.599.909.909.149.1413.9713.9713.2013.2017.4017.4010.1910.19死亡率死亡率死亡率死亡率5.955.956.736.734.494.496.106.105.735.736.506.506.286.286.716.716.306.305.705.706.156.15出生率出生率出生率出生率12.601
29、2.6012.0012.0013.8013.8011.6011.6011.5911.5912.8612.8615.2415.2415.5315.5315.7915.79死亡率死亡率死亡率死亡率6.306.305.755.756.016.016.106.106.276.276.626.626.276.274.844.845.035.03茎叶图理解p茎叶图利用原始数据以图形茎叶图利用原始数据以图形茎叶图利用原始数据以图形茎叶图利用原始数据以图形的形式表现了分布的形状,图的形式表现了分布的形状,图的形式表现了分布的形状,图的形式表现了分布的形状,图中包括频数(中包括频数(中包括频数(中包括频数(Fr
30、equencyFrequencyFrequencyFrequency)、)、)、)、茎(茎(茎(茎(StemStemStemStem)和叶()和叶()和叶()和叶(LeafLeafLeafLeaf)3 3 3 3部部部部分分分分 ,右图中,右图中,右图中,右图中的下方的下方的下方的下方说说说说明中明中明中明中给给给给出了本出了本出了本出了本图图图图的茎的茎的茎的茎宽为宽为宽为宽为1010,每片叶,每片叶,每片叶,每片叶子代表一个数据。子代表一个数据。子代表一个数据。子代表一个数据。对应图对应图对应图对应图中的中的中的中的第一行数据,从左到右依次第一行数据,从左到右依次第一行数据,从左到右依次第
31、一行数据,从左到右依次为为为为:频频频频数数数数为为为为6 6,茎,茎,茎,茎为为为为0 0,有,有,有,有6 6片叶子。片叶子。片叶子。片叶子。也就是指第一也就是指第一也就是指第一也就是指第一组组组组里包含里包含里包含里包含6 6个数个数个数个数据,其近似据,其近似据,其近似据,其近似值为值为值为值为:6 6、6 6、7 7、7 7、7 7、7 7 图4-10出生率茎叶图出生率Stem-and-LeafPlotFrequencyStem&Leaf6.000.6677775.000.999997.001.00111117.001.22223335.001.445551.001.7Stemwid
32、th:10.00Eachleaf:1case(s)4 4 比率统计比率统计p将两个连续型变量之将两个连续型变量之将两个连续型变量之将两个连续型变量之比的指标进行描述统比的指标进行描述统比的指标进行描述统比的指标进行描述统计分析,反映对比关计分析,反映对比关计分析,反映对比关计分析,反映对比关系的一致性。系的一致性。系的一致性。系的一致性。p例:例:例:例:仍用上节中的仍用上节中的仍用上节中的仍用上节中的97979797名幼儿的数据,按年名幼儿的数据,按年名幼儿的数据,按年名幼儿的数据,按年龄变量分组,对坐高龄变量分组,对坐高龄变量分组,对坐高龄变量分组,对坐高和身高进行比率统计和身高进行比率统
33、计和身高进行比率统计和身高进行比率统计分析。分析。分析。分析。S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤1、菜单中点、菜单中点分析分析/描述统计描述统计/比率比率,进入,进入比率对话框比率对话框2、分别将坐高、身高和年龄选入、分别将坐高、身高和年龄选入分子分子、分母分母,和,和组变量组变量窗口,打开窗口,打开统计量统计量窗口窗口进行设置,完成后点进行设置,完成后点继续继续返回返回S SP PS SS S的的的的输输输输出出出出结结结结果果果果QQQQ图分析数据图分析数据出生率出生率出生率出生率6.266.267.677.6712.8212.8211.4811.489.87
34、9.876.406.407.677.677.577.577.477.479.369.3610.2910.29死亡率死亡率死亡率死亡率4.974.976.076.076.596.595.735.735.915.915.305.305.005.005.185.185.895.897.087.085.425.42出生率出生率出生率出生率9.089.0811.9211.9211.7811.7814.4414.4414.5914.599.909.909.149.1413.9713.9713.2013.2017.4017.4010.1910.19死亡率死亡率死亡率死亡率5.955.956.736.734.
35、494.496.106.105.735.736.506.506.286.286.716.716.306.305.705.706.156.15出生率出生率出生率出生率12.6012.6012.0012.0013.8013.8011.6011.6011.5911.5912.8612.8615.2415.2415.5315.5315.7915.79死亡率死亡率死亡率死亡率6.306.305.755.756.016.016.106.106.276.276.626.626.276.274.844.845.035.03QQ图正态分析pp 图4-9出生率QQ图Q-Q图可以用来检验数据是否服从某种分布,在Q-Q图中,检验数据是否较好地服从给定分布的标准有两个:看Q-Q图上的数据点与直线的重合度;Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。QQ图趋势分析pp 图4-8出生率QQ趋势图课堂作业课堂作业phttp:/
限制150内