《4 描述性统计.ppt》由会员分享,可在线阅读,更多相关《4 描述性统计.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析:数据分析:描述性统计分析描述性统计分析在做数据分析的时候,一般首先要对数据进行描述性统计分析,以便于描述以便于描述测量量样本的各种特征及其所代表的本的各种特征及其所代表的总体体的特征的特征以及发现其数据的内在规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。描述性统计(Descriptive Statistics),是对收集的数据的整理、描述、汇总和解释。SPSS 的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在【Descript
2、ive Statistics】菜单中。最常用的是列在最前面的五个过程 Frequencies:产生频数表。Descriptive:进行基本的统计描述分析。Explore:探索性分析。Crosstabs:列联表分析。Ratio statistics:比率统计分析。一、一、一、一、FrequenciesFrequenciesFrequenciesFrequencies:频数分析:频数分析:频数分析:频数分析利用Frequencies功能整理数据,得到一系列描述数据分布状况的统计量,即频数表,获得数据的分布特征和内部结构的粗略了解。Frequencies 过程就是专门为产生频数表而设计的。它不仅可以
3、产生详细的频数表,还可以按要求给出某百分位点的数值以及常用的条图、饼图等统计图。同时,SPSS的频数分析还可以进行集中趋势、离散趋势的各种基本统计量等计算功能。频数分析的基本操作流程频数分析的基本操作流程频数分析的基本操作流程频数分析的基本操作流程Step01:打开主窗口:打开主窗口 选择菜单栏中的【Analyze(分析)】【Descriptive Statistics(描述性统计)】【Frequencies(频率)】命令,弹出【Frequencies(频率)】对话框,这是频数分析的主操作窗口。Step02:选择分析分析变量量 在【Frequencies(频率)】对话框的左侧的候选变量列表框中
4、,选取一个或多个待分析变量,将它们移入右侧的【Variable(s)(变量)】列表框中。Step03:输出出频数分析表数分析表 勾选【Display frequency tables(显示频数表格)】复选框,输出频数分析表。Step04:其他基本:其他基本统计分析分析 在对话框中还可以单击【Statistics(统计量)】和【Chars(图表)】等按钮。这些选项提供了丰富的统计输出结果。Step05:输出格式出格式选择 单击【Format】按钮,在弹出的对话框中设置频数表的输出格式。Step06:完成操作完成操作 分布指标分布指标百分位数指标百分位数指标集中趋势指标集中趋势指标离散趋势指标离散
5、趋势指标计算百分数时选此项计算百分数时选此项应用举例应用举例应用举例应用举例P65 应用举例分析1:分析被调查者的户籍以及他们认为房价的变化状况分析2:分析月住房开销的分布,并对不同居住类型进行比较数据文件“商品房购买意向调查模拟数据.sav”二、二、二、二、DescriptiveDescriptiveDescriptiveDescriptive:描述统计分析:描述统计分析:描述统计分析:描述统计分析Descriptive 过程是连续资料统计描述应用最多的一个过程,它可对变量进行描述性统计分析计算,并列出一系列相应的统计指标。这和其他过程相比并无不同。描述性统计分析没有图形功能,也不能生成频数
6、表。但该过程还有个特殊功能,就是可将原始数据转换成标准化值,并以变量的形式保存。描述性统计量的分类描述性统计量的分类描述性统计量的分类描述性统计量的分类集中趋势集中趋势定义 在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。度量方法 集中趋势的度量包括了均值(mean),中位数(median),众数(mode)。均值、中位数、众数用那一个去度量平均水平呢?以及为什么?均值、中位数、众数均值、中位数、众数u定义 均值:表示一系列数据或统计总体的平均特征的值 中位数:将总体单位的某一数量标志的各个数值按照大小顺序排列,居于中间位置的那个数值就是中位数。众数:众数是指变
7、量数列中出现次数最多或频率最大的变量值。2525,2020,19 19,1717,16 16,1616,1616,1414,1414,9 9,7 7众数、中位数、均值的比较众数、中位数、均值的比较 均值比中位数、众数对数据的概括能力要强。相对于中位数和众数而言均值对数据的灵敏度较大。均值比中位数、众数便于计算和分析。均值的抗耐性较差,极容易受个别和少数极端值的影响。均值适用范围比中位数、众数窄。数据类型与集中趋势测度值数据类型与集中趋势测度值为该数据类型最适合用的测度值.如果一只脚放在摄氏1度的水里,另一只脚放在摄氏79度的水里,平均水温40度。你感觉舒服极了!?这只是一个笑话。说明了只了解数
8、据的集中趋势是不够的。还需要看数据的变异(离散)程度。变异(离散)趋势变异(离散)趋势 1.变异趋势的各测度值是对数据离散程度所做的描述2.反映各变量值远离其中心值的程度,因此也称为离中趋势3.从另一个侧面说明了集中趋势测度值的代表程度。离散趋势离散趋势测度指标测度指标 1、全距、全距2、四分位差、四分位差3、标准差准差4、方差、方差四分位差是四分位数中间两个分位之差。总体各单位标志值对其算术平均数离差平方的算术平均数的平方根又称均方差或均方根差标准差的平方即为方差一组变量值的最大值与最小值之差分布形状分布形状分布形状分布形状峰度(Kurtosis):是描述某变量所有取值的分布形态陡缓程度的统
9、计量,而峰度对陡缓程度的度量是与正态分布进行比较的结果。如果峰度等于 0,其数据分布的陡缓程度与正态分布相同;峰度大于 0,其数据分布比正态分布更陡峭;峰度小于0,其数据分布比正态分布更平坦。偏度(Skewness)是描述数据分布对称性的统计量,而且也是与正态分布的对称性相比较而得到的。如果分布的偏度等于0,则其数据分布的对称性与正态分布相同;如果偏度大于0,则其分布为正偏或右偏,即在峰的右边有大的偏差值,使右边出现一个拖得较远的尾巴;如果偏度小于 0,则为负偏或左偏,即在峰的左边有大的偏差值,使左边出现一个拖得较远的尾巴。正态曲线正态曲线正态分布的标准差正态分布的标准差各有各有50%50%的
10、数落在平均数两边的数落在平均数两边正态曲线正态曲线正态分布的标准差正态分布的标准差“68-95-99.768-95-99.7”原则原则DescriptiveDescriptiveDescriptiveDescriptive的基本操作流程的基本操作流程的基本操作流程的基本操作流程Step01:打开主窗口:打开主窗口 选择菜单栏中的【Analyze(分析)】【Descriptive Statistics(描述性统计)】【Descriptives(描述)】命令,弹出 【Descriptives(描述)】对话框,该对话框是描述性统计分析的主操作窗口。Step02:选择分析分析变量量Step03:计算基
11、本描述性算基本描述性统计量量 单击【Options】按钮,弹出【Options(选择)】对话框,该对话框用于指定输出的描述性统计量。这些统计量的含义是:均数(Mean)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误差(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis)。Step04:保存:保存标准化准化变量量 勾选【Save standardized values as variables(保存标准化变量值)】复选框。Step05:完成操作完成操作变量列
12、表顺序字母顺序均数升序 均数降序 应用举例应用举例应用举例应用举例P71 应用举例分析1:计算月住房开销的基本描述统计量,并对不同居住类型进行比较分析2:分析月住房开销的数量是否存在不均衡的现象数据文件“商品房购买意向调查模拟数据.sav”练习题练习题练习题练习题打开数据“人力资源管理概论课程学生成绩表.xls”。(1)请建立SPSS数据文件;(2)计算全班同学考试成绩的基本描述统计量,并对不同的修读情况进行比较;(3)作出课程总评成绩的直方图(按三七开计算),从直方图大致判断其偏度、峰度是大于0还是小于0,然后计算各自的偏度和峰度,并与你的估计作比较;(4)分析平时成绩和考试成绩中是否存在不
13、均衡的现象;三、三、三、三、ExploreExploreExploreExplore:探索性分析:探索性分析:探索性分析:探索性分析探索性数据分析(Exploratary Data Analysis,简称EDA)的基本思想是从数据本身出发,不拘泥于模型的假设而采用非常灵活的方法来探讨数据分布的大致情况,也可以为进一步结合模型的研究提供线索,为传统的统计推断提供良好的基础和减少盲目性。一般来说,进行探索性分析主要考察以下内容。(1)检查数据是否有错。(2)获得数据分布特征。(3)对数据的初步观察,发现一些内在规律。探索性分析的操作界面探索性分析的操作界面(1)Depend List框框选择待分析
14、的变量,可以选择待分析的变量,可以同时选择多个变量。注意:同时选择多个变量。注意:选择的变量必须是数值型选择的变量必须是数值型变量变量(2)Factor List框框选择分组变量,根据该变选择分组变量,根据该变量的取值不同,分组分析量的取值不同,分组分析Dependlist框中的变量。框中的变量。可以不选,也可以多选。可以不选,也可以多选。(3)statistics按钮:设按钮:设置输出的统计量;置输出的统计量;Plots按钮:设置输出的图按钮:设置输出的图形;形;Option按钮:设置缺失值按钮:设置缺失值的处理。的处理。ExploreExploreExploreExplore的基本操作流程
15、的基本操作流程的基本操作流程的基本操作流程Step01:打开主窗口:打开主窗口 选择菜单栏中的【Analyze(分析)】【Descriptive Statistics(描述性统计)】【Explore(探索)】命令,弹出【Explore(探索)】对话框,该对话框是探索性分析的主操作窗口。Step02:选择分析分析变量量Step03:选取分取分组变量量Step04:选择标签值选择标签值 从候选变量列表框中选择一个变量作为标识变量,并将其移入【Label Cases by(标注个案)】列表框中。选择标识变量的作用在于,若系统在数据探索时发现异常值,便可利用标识变量加以标记,便于用户找这些异常值。如果
16、不选择它,系统默认以id变量作为标识变量。Step05:选择输选择输出出类类型型 【Display】选项组中可以选择输出项。Both:输出图形以及描述性统计量。Statistics:只输出描述统计量。选择此项后激活【Statistics】功能按钮。Plots:只输出图形。选择此项后激活【Plots】功能按钮。Step06:描述性描述性统计统计量量结结果果输输出出 在【Explore(探索)】对话框中还可以单击【Statistics】按钮,弹出【Explore:Statistics】对话框,该对话框中提供了各类基本描述性统计输出结果。Step07:统计图统计图形形结结果果输输出出 在【Explo
17、re(探索)】对话框中还可以单击【Plots】按钮,弹出【Explore:Plots】对话框。该对话框中提供了图形输出的类型。Step08:选择缺失缺失值的的处理方式理方式Step09:操作完成:操作完成应用举例应用举例应用举例应用举例中国南北城市的温度差异.sav茎叶茎叶图频数树茎树叶茎叶图相当于横置的直方图,但它可以保留原始数据的信息。箱箱线图中位数与上四分位数的距离下四分位数与众位数间的距离判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布如何看数据是如何看数据是否服从正态分否服从正态分布呢?布呢?四、四、四、四、Crosstab
18、sCrosstabsCrosstabsCrosstabs:列联表分析:列联表分析:列联表分析:列联表分析频数表可以描述一个变量的分布情况,但是在实际中研究者往往希望对两个,甚至多个变量的频数分析进行联合观察。列联表是两个变量(或以上)交叉分组后形成的频数分布表(一个变量用来对行分类,第二个变量用来对列分类)。列联表非常重要,它经常被用来分析调查结果。它有两个基本任务:第一,根据收集到的样本数据产生二维或多维交叉列联表;第二,在列联表基础上,对两两变量间是否存在一定的相关性进行分析。交叉列联表交叉列联表交叉列联表的检验问题是行、列变量的独立性检验。独立性检验指的是对列联表中行变量和列变量无关这个
19、零假设进行的检验,即检验行、列变量之间是否彼此独立。一般采用的检验方法是卡方(2)检验,它的计算公式为:其中,f0表示实际观察频数,fe表示期望频数。CrosstabsCrosstabsCrosstabsCrosstabs的基本操作流程的基本操作流程Step01:打开主窗口:打开主窗口 选择菜单栏中的【Analyze(分析)】【Descriptive Statistics(描述性统计)】【Crosstabs(列联表)】命令,弹出【Crosstabs(列联表)】对话框,这是列联表分析的主操作窗口。Step02:选择选择行、列行、列变变量量 在【Crosstabs(列联表)】对话框左侧的候选变量列
20、表框中,选取一个或多个待分析变量,将它们移入右侧的【Row(s)(行)】列表框中,作为列联表的行变量。同理,选择若干候选变量移入右侧的【Column(s)(列)】列表框中,作为列联表的列变量。Step03:选择层变选择层变量量 如果要进行三维或多维列联表分析,可以根据需要选择控制变量进入【Layer(层)】列表框中。Step04:列:列联表表输出格式的出格式的选择 在【Crosstabs(列联表)】对话框下面有两个复选框,用来选择列联表的输出格式。Display clustered bar charts:显示各变量交叉分组下频数分布条形图。Suppress tables:只输出统计量,而不输出
21、列联表。Step05:行、列行、列变变量相关程度的度量量相关程度的度量 在【Crosstabs(列联表)】对话框中单击【Statistics】按钮,在弹出的对话框中可以根据数据类型选择不同的独立性检验方法和相关度量。在对话框中选择输出统计量,完成后单击【Continue】按钮,返回主对话框。Step06:选择列列联表表单元格的元格的输出出类型型 在【Crosstabs(列联表)】对话框中单击【Cell】按钮,在弹出的对话框中可以选择显示在列联表单元格中的统计量,包括观测数量、百分比和残差。在对话框中选择相应选项,完成后单击【Continue】按钮,返回主对话框。Step07:选择列列联表表单元
22、格的元格的输出排列出排列顺序序 在【Crosstabs(列联表)】对话框中单击【Format】按钮,在弹出的对话框中可以选择各单元格的输出排列顺序。Step08:完成操作:完成操作交叉列联表分析操作界面卡方检验:选择是否对行变量和列变量的独立性进行卡方检验。相关系数检验:选择是否计算相关系数,用于检验两个变量的线性相关程度。Nominal选项组:用于定义分类变量的相关性指标 Ordinal选项组:用于定义有序变量的相关性系数应用举例:大学生身体素质调查应用举例:大学生身体素质调查应用举例:大学生身体素质调查应用举例:大学生身体素质调查在一次上海大学生身体素质的实际调查中,选择了部分大专院校的学
23、生进行实际问卷调查。调查内容主要包括:性别、出生日期、身高、体重、血型、教育背景、学科、男女身高级别和男女体重级别等内容。请根据调查数据分析下面问题:进行“性别”和“体重级别”双因素交叉作用下的列联表分析,并研究“性别”对“体重级别”有无显著性影响。实例操作过程实例操作过程实例操作过程实例操作过程实例结果实例结果实例结果实例结果练习题练习题练习题练习题1、对上述大学生身体素质调查数据,进行“教育背景”和“身高级别”双因素交叉作用下的列联表分析,并研究“教育背景”对“身高级别”有无显著性影响。2、课本P98,例4-3(数据文件“动物实验统计数据.sav”)-此例适用于无原始数据的情况五、五、五、
24、五、Ratio statisticsRatio statisticsRatio statisticsRatio statistics:比率统计分析:比率统计分析:比率统计分析:比率统计分析在实际问题中,研究者有时除了希望了解变量自身的统计特征外,还希望得到两个变量相对比之间的统计描述特征比率分析主要用于对两个变量间变量值的比率变化进行描述性分析。比率分析生成比率变量,并对该比率变量计算基本描述性统计量(如均值、中位数、标准差、全距等),进而刻画出比率变量的集中趋势和离散程度。Ratio statisticsRatio statisticsRatio statisticsRatio statis
25、tics基本操作流程基本操作流程基本操作流程基本操作流程Step01:打开主窗口:打开主窗口 选择菜单栏中的【Analyze(分析)】【Descriptive Statistics(描述性统计)】【Ratio(比率)】命令,弹出【Ratio(比率)】对话框,这是比率分析的主操作窗口。Step02:选择分子分子变量量 在左侧的候选变量列表框中选取一个分析变量作为比率分析的分子,将它移入右侧的【Numerator(分子)】列表框中。Step03:选择分母分母变量量 在【Ratio Statistics(比率统计量)】对话框左侧的候选变量列表框中选取一个分析变量作为比率分析的分母,将它移入右侧的【D
26、enominator(分母)】列表框中。Step04:选择分分组变量量 在【Ratio Statistics(比率统计量)】对话框左侧的候选变量列表框中选取一个变量作为分组变量,将它移入右侧的【Group Variable(组变量)】列表框中。Step05:结果果显示示选择 在【Ratio Statistics(比率统计量)】对话中,用户可以选择比率分析的结果输出类型。Display result:系统默认选项,选择是否显示结果。Save results to external file:选择是否将分析结果保存至外部文件。同时,外部文件的保存路径需要单击【File】按钮来选择。Step06:选
27、择描述性描述性统计量量输出出 单击【Statistics】按钮,弹出的【Ratio Statistics:Statistics】对话框主要用于输出各类基本统计量结果。产生的统计量有:比率中位数(median)、比率均数(mean)、比率平均绝对偏差(aad)、比率离差系数(cod)、价格相对微分(prd)、中位中心变异系数(COV)、比率标准差(std.deviation)、比率全距(range)等。Step07:完成操作:完成操作相相对比描述的常用指比描述的常用指标应用举例:应用举例:应用举例:应用举例:城乡消费水平区域比对城乡消费水平区域比对城乡消费水平区域比对城乡消费水平区域比对上图是2006年各地区城乡居民消费水平统计数据,试按地区对各省城乡消费水平之比进行分析,并比较不同地区之间城乡消费水平是否有较大差异。(数据文件“cxxf.sav”)实例操作过程实例操作过程实例操作过程实例操作过程实例结果实例结果实例结果实例结果 谢谢
限制150内