07第七章 定量资料的分析.ppt
第七章第七章 定量资料的分析定量资料的分析第二节第二节 统计描述与推断统计描述与推断第三节第三节 假设检验假设检验第四节第四节 统计分析统计分析第一节第一节 统计的理解统计的理解第一节第一节 统计的理解统计的理解统计是一种语言统计是一种语言统计是一种规律统计是一种规律统计是一种思想统计是一种思想统计是一种工具统计是一种工具第二节 平均值、标准差和相关系数 统计分析需要处理的是统计数据。表征某一随机现象统计分析需要处理的是统计数据。表征某一随机现象的统计数据总是具有一定的特征。描述统计数据特征的是的统计数据总是具有一定的特征。描述统计数据特征的是特征量,常用的特征量有:集中量、差异量和相关量。平特征量,常用的特征量有:集中量、差异量和相关量。平均值、标准差、相关系数分别是最常用的集中量、差异量均值、标准差、相关系数分别是最常用的集中量、差异量和相关量和相关量。一一、集中量和平均值集中量和平均值 集中量是代表一组数据典型水平或集中趋势的集中量是代表一组数据典型水平或集中趋势的 量,反映频数分布中大量数据向某一点集中的情量,反映频数分布中大量数据向某一点集中的情 况。平况。平均值(算术平均值均值(算术平均值)是统计学中最容易理解和最常用的集是统计学中最容易理解和最常用的集中量指标,可以表示为:中量指标,可以表示为:数据向平均值集中的趋势数据向平均值集中的趋势二、二、差异量和方差、标准差差异量和方差、标准差 集中量可以描述一组数据的平均水平、向某一点集中集中量可以描述一组数据的平均水平、向某一点集中的趋势,但没有反映一组数据的全部特征。一组数据,的趋势,但没有反映一组数据的全部特征。一组数据,不仅有不仅有 集中的趋势,同时,也有离散的、变异的状态。集中的趋势,同时,也有离散的、变异的状态。比如比如,两组学生测验成绩如下:两组学生测验成绩如下:甲组甲组 54,63,72,74,82,88,99 乙组乙组 67,71,73,76,79,82,84 虽然平均分都是虽然平均分都是76,但离散的程度却不同。,但离散的程度却不同。表示一组数据变异程度或离散程度的量称为差异量。表示一组数据变异程度或离散程度的量称为差异量。差异量越大表示数据分布范围越广、越不整齐;差异差异量越大表示数据分布范围越广、越不整齐;差异量越小,表示数据分布得越集中,变动范围越小。量越小,表示数据分布得越集中,变动范围越小。左图数据差异量或离散程度大,数据分布范围广、右图数左图数据差异量或离散程度大,数据分布范围广、右图数据差异量小,数据分布得比较集中。据差异量小,数据分布得比较集中。方差和标准差是使用最广泛的差异量。方差是离差平方和方差和标准差是使用最广泛的差异量。方差是离差平方和的算术平均数。其定义式为:的算术平均数。其定义式为:标准差是方差的平方根。其定义式为:标准差是方差的平方根。其定义式为:标准分标准分 标准分是以标准差为单位来计量每个分属于平均分之间的标准分是以标准差为单位来计量每个分属于平均分之间的离差。(某个分数的离均差包含几个标准差)反映某个分离差。(某个分数的离均差包含几个标准差)反映某个分数在所有分数中的相对位置。数在所有分数中的相对位置。标准分数标准分数标准分数又称标准分数又称z分数,是以标准差为单位表示一个分数在全分数,是以标准差为单位表示一个分数在全部数据中所处的相对位置。部数据中所处的相对位置。标准分数的定义式是:标准分数的定义式是:三三 、相关系数、相关系数 平均值、标准差都是对单变量进行描述的特征量。对两个平均值、标准差都是对单变量进行描述的特征量。对两个变量之间的变化关系需要用相关量来描述。变量之间的变化关系需要用相关量来描述。两个变量之间的变化关系从变化方向看,有三种情况:两个变量之间的变化关系从变化方向看,有三种情况:正相关正相关 两个变量的变化方向一致。一个变量值变大时,两个变量的变化方向一致。一个变量值变大时,另一个变量值也随之变大。另一个变量值也随之变大。负相关负相关 两个变量的变化方向相反。一个变量值变大时,两个变量的变化方向相反。一个变量值变大时,另一个变量值随之变小。另一个变量值随之变小。零相关零相关 两个变量值变化方向无一定规律。一个变量值两个变量值变化方向无一定规律。一个变量值变大时,另一个变量值可能变大也可能变小,并且变大变大时,另一个变量值可能变大也可能变小,并且变大变小的机会趋于相等。这样的关系称为零相关,两个变变小的机会趋于相等。这样的关系称为零相关,两个变量之间无相关。量之间无相关。相关系数相关系数用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数,一般用系数,一般用 r r 表示。表示。相关系数的取值范围是在相关系数的取值范围是在-1-1到到+1+1之间。之间。+、-号表示相关关系的方向。号表示相关关系的方向。+号表示变化方向一致,为正相关。号表示变化方向一致,为正相关。-号表示变化方向相反,为负相关。号表示变化方向相反,为负相关。r r 的绝对值表示两个变量之间的的绝对值表示两个变量之间的密切程度。绝对值越接近密切程度。绝对值越接近1 1,表示两个变量之间关系密切,越接近,表示两个变量之间关系密切,越接近0 0,表示两个变量间的关系越不密切。表示两个变量间的关系越不密切。相关系数只能描述两个变量之间的变化方向及密切程度,不能表明二相关系数只能描述两个变量之间的变化方向及密切程度,不能表明二者之间的本质联系,分析内在的本质联系需要有关的专业知识。相关者之间的本质联系,分析内在的本质联系需要有关的专业知识。相关关系也不能确定两个变量间的因果关系,两个相关变量间是否存在因关系也不能确定两个变量间的因果关系,两个相关变量间是否存在因果关系同样需要根据有关知识和经验做进一步的分析。果关系同样需要根据有关知识和经验做进一步的分析。积差相关系数的定义式积差相关系数的定义式:两个变量离差乘积之和除以两个变量离差乘积之和除以n 所得之商所得之商称为协方差称为协方差。离差。离差积之和的大小,反映两个变量之间的关系。两个离差除以积之和的大小,反映两个变量之间的关系。两个离差除以相应的标准差,变成两个标准分,把协方差变成相对量。相应的标准差,变成两个标准分,把协方差变成相对量。积差相关系数就是两个变量离差除以各自的标准差所得标积差相关系数就是两个变量离差除以各自的标准差所得标准分乘积之和除以准分乘积之和除以 n所得之商。数值范围在所得之商。数值范围在-1.00至至1.00之之间间。四四、SPSS概述概述(一)(一)SPSS简介简介 SPSS(Statistical Package for the Social Science,社会科学统计软件包社会科学统计软件包)是由美国是由美国SPSS公司自公司自20世纪世纪80年年代开发的大型统计学软件包,自代开发的大型统计学软件包,自1985年推出年推出V 1.0以来,以来,版本不断更新,目前已推出版本不断更新,目前已推出V 16.0的最新版本。功能更的最新版本。功能更加强劲,操作更加简便,并且与其他统计及数据库软件,加强劲,操作更加简便,并且与其他统计及数据库软件,如如Excel、DaBase、Foxbase、Access等的兼容性不等的兼容性不断增强,因此它是目前世界最流行的统计软件之一,也断增强,因此它是目前世界最流行的统计软件之一,也是社会科学研究人员首选的统计软件。是社会科学研究人员首选的统计软件。(二)(二)SPSS操作基本过程操作基本过程SPSS功能强大,操作简单。运用功能强大,操作简单。运用SPSS对数据进行统计对数据进行统计处理的基本过程如下:处理的基本过程如下:1建立数据库,录入数据:一是定义变量,二是录入变建立数据库,录入数据:一是定义变量,二是录入变量值;量值;2对数据进行预处理:根据需要,对数据进行整理、分对数据进行预处理:根据需要,对数据进行整理、分组、合并、排序等;组、合并、排序等;3统计分析:按研究要求的统计分析方法,对数据进行统计分析:按研究要求的统计分析方法,对数据进行处理;处理;4数据呈现:生成数据表和可视化图形;数据呈现:生成数据表和可视化图形;5保存和导出结果:可将结果以数据库文件格式存贮,保存和导出结果:可将结果以数据库文件格式存贮,并能以常见的数据格式输出。并能以常见的数据格式输出。(三)(三)SPSS应用应用1启动和输入数据启动和输入数据启动启动SPSS即进入主画面新数据窗口,这时可以定义变量,即进入主画面新数据窗口,这时可以定义变量,输入、编辑数据文件。输入、编辑数据文件。(1)定义变量:)定义变量:定义变量类型定义变量长度(2)录入数据:2计算平均值和标准差计算平均值和标准差录入数据或打开数据文件后,点击菜单选项录入数据或打开数据文件后,点击菜单选项AnalyzeDescriptive StatisticsDescriptives,出现对话框。在,出现对话框。在左侧的源变量框中选择一个或多个变量,点击箭头图标,左侧的源变量框中选择一个或多个变量,点击箭头图标,进入变量框进入变量框variable(s)ok,得到输出结果(得到输出结果(Output)。)。3计算相关系数计算相关系数录入数据或打开数据文件后,点击菜单选项录入数据或打开数据文件后,点击菜单选项AnalyzeCorrelateBivariate,出现二元变量相关分析对话框。,出现二元变量相关分析对话框。在此对话框中做如下操作:在此对话框中做如下操作:(1)选择分析变量:从源变量框中选定需要做相关分析)选择分析变量:从源变量框中选定需要做相关分析的变量进入变量框;的变量进入变量框;(2)选择分析方法:通常选皮尔逊相关)选择分析方法:通常选皮尔逊相关(pearson)计算连计算连续变量的相关。续变量的相关。选择完成后,点击选择完成后,点击ok,得出输出结果。得出输出结果。显著性检验选项显著性检验选项 双尾检验、单尾检验,是否显示显著性水双尾检验、单尾检验,是否显示显著性水平。平。输出结果输出结果 为一相关矩阵。矩阵中每个值为对应行、列两为一相关矩阵。矩阵中每个值为对应行、列两个变量的相关系数。同时显示参与计算的样本数和显著性个变量的相关系数。同时显示参与计算的样本数和显著性水平(相关系数为水平(相关系数为0 0的假设成立的概率)。的假设成立的概率)。一一、基本原理、基本原理 检验一般有两个相互对立的假设:虚无假设(亦称零假设)检验一般有两个相互对立的假设:虚无假设(亦称零假设)(H0)和研究假设(亦称备择假设)和研究假设(亦称备择假设)(H1)。虚无假设是关于当前样。虚无假设是关于当前样本所属的总体与假设总体无区别的假设,即认为两者之间没有差本所属的总体与假设总体无区别的假设,即认为两者之间没有差异。备择假设与虚无假设正相反,是根据样本信息否定了虚无假异。备择假设与虚无假设正相反,是根据样本信息否定了虚无假设时应当选择的假设。假设检验是从虚无假设出发,根据样本统设时应当选择的假设。假设检验是从虚无假设出发,根据样本统计量的值在以假设的总体参数为中心的抽样分布上出现的概率做计量的值在以假设的总体参数为中心的抽样分布上出现的概率做出决断。当出现的概率足够小时,就可以从实际的可能性上否定出决断。当出现的概率足够小时,就可以从实际的可能性上否定零假设,接受备择假设。零假设,接受备择假设。第三节第三节 假设检验假设检验显著性水平显著性水平 统计学上把拒绝零假设的概率称为显著性水平。统计学上把拒绝零假设的概率称为显著性水平。一般常用的显著性水平有两种:一种以概率等于或小于一般常用的显著性水平有两种:一种以概率等于或小于0.05的事件作为小概率事件;一种以概率等于或小于的事件作为小概率事件;一种以概率等于或小于0.01的事件作为小概率事件,用的事件作为小概率事件,用=0.05,=0.01 表示。表示。根据根据p值的大小,判断假设值的大小,判断假设H0成立与否,从而推断出样本成立与否,从而推断出样本与总体参数之间的差异性程度。根据与总体参数之间的差异性程度。根据p值推断假设检验的值推断假设检验的规则如下:规则如下:P值值H0成立概率成立概率差异显著程度差异显著程度P0.01H0成立概率极小成立概率极小 差异非常显著差异非常显著P0.05H0成立概率较小成立概率较小差异显著差异显著 p0.05 H0成立概率较大成立概率较大 差异不显著差异不显著 常用的假设检验方法有平均数差异显著性检验、方差及方常用的假设检验方法有平均数差异显著性检验、方差及方差差异显著性检验及计数数据的差异性检验。由于每一种差差异显著性检验及计数数据的差异性检验。由于每一种检验方法都有较严格的试用范围和对数据的要求,因此在检验方法都有较严格的试用范围和对数据的要求,因此在进行假设检验时,要根据其使用条件选择相应的检验方法。进行假设检验时,要根据其使用条件选择相应的检验方法。平均数的差异显著性检验是常用的参数检验方法,分两种平均数的差异显著性检验是常用的参数检验方法,分两种情况:情况:一是关于样本平均数与总体平均数差异的显著性检验:在一是关于样本平均数与总体平均数差异的显著性检验:在大样本前提下(样本总数超过大样本前提下(样本总数超过30列),且总体服从正态分列),且总体服从正态分布,总体方差已知的情况下,用布,总体方差已知的情况下,用z检验;而在小样本前提检验;而在小样本前提下,总体方差未知的前提下,则用下,总体方差未知的前提下,则用t检验。检验。二是关于两组样本平均数差异的显著性检验,如两个总体二是关于两组样本平均数差异的显著性检验,如两个总体都服从正态分布,总体方差已知的情况下,用都服从正态分布,总体方差已知的情况下,用z检验;而检验;而在总体方差未知的情况下,用在总体方差未知的情况下,用t检验。检验。方差及方差差异的显著性检验分亦为两种情况:一是样本方差及方差差异的显著性检验分亦为两种情况:一是样本方差与总体方差差异的检验,用卡方检验(检验);另一方差与总体方差差异的检验,用卡方检验(检验);另一个是两个样本方差差异性的检验,用个是两个样本方差差异性的检验,用F检验。检验。计数资料的统计检验主要用检验,可以用来同时检验一个计数资料的统计检验主要用检验,可以用来同时检验一个因素的两项或多项分类的实际观测数据,与某理论次数分因素的两项或多项分类的实际观测数据,与某理论次数分布是否一致的问题,或有无显著性差异的问题;还可以用布是否一致的问题,或有无显著性差异的问题;还可以用于检验两个或两个以上因素的各项分类之间,是否有关联于检验两个或两个以上因素的各项分类之间,是否有关联或是否具有独立性的问题。或是否具有独立性的问题。二二、大样本平均数差异的显著性检验、大样本平均数差异的显著性检验z检验检验z检验适用于大样本的两个平均数之间差异显著性检验的方检验适用于大样本的两个平均数之间差异显著性检验的方法。它是通过比较两个样本平均数之间差的法。它是通过比较两个样本平均数之间差的z分数和理论分数和理论的的z值的大小,来判断两平均数从差异是否显著的检验方值的大小,来判断两平均数从差异是否显著的检验方法。法。z检验是以正态分布理论估计概率,来推断平均数与总体平检验是以正态分布理论估计概率,来推断平均数与总体平均数的差异的检验。均数的差异的检验。z值的定义式为:值的定义式为:z为样本平均数的标准分数,为样本平均数的标准分数,为样本平均数,为总体平均为样本平均数,为总体平均数,数,n 为样本容量,为样本容量,0为总体标准差,为平均数标准误为总体标准差,为平均数标准误(平均数在抽样分布上的标准差)。(平均数在抽样分布上的标准差)。如果总体标准差如果总体标准差 0已知,样本平均数与总体平均数离差已知,样本平均数与总体平均数离差统计量呈正态分布,可以按上式计算统计量呈正态分布,可以按上式计算 z 值,按正态分布估值,按正态分布估计其概率,做计其概率,做z 检验。检验。通过比较实际通过比较实际z值与理论值与理论z值(值(z值在值在0.01和和0.05水平上的水平上的值分别为值分别为2.58和和1.96),判断假设成立的概率,可以推断),判断假设成立的概率,可以推断样本与总体参数差异性程度。表样本与总体参数差异性程度。表75是根据是根据z值推断假设值推断假设检验的规则。检验的规则。根据根据z值推断假设检验的规则如下:值推断假设检验的规则如下:z P值值 差异显著程度差异显著程度z2.58P0.01 差异非常显著差异非常显著z1.96P0.05差异显著差异显著 z1.96 p0.05 差异不显著差异不显著 三三、小样本平均数差异的显著性检验、小样本平均数差异的显著性检验t检验检验 t检验是适用于小样本的两个平均值的差异程度的检验检验是适用于小样本的两个平均值的差异程度的检验方法。如果总体标准差方法。如果总体标准差0未知,需要用样本标准差作为未知,需要用样本标准差作为0的的估计值,这样,样本平均数与总体平均数离差统计量就不估计值,这样,样本平均数与总体平均数离差统计量就不再是正态分布,而呈现为再是正态分布,而呈现为t分布。分布。t分布与正态分布类似,分布与正态分布类似,是对称的钟形分布,区别之处在于:是对称的钟形分布,区别之处在于:t分布的形态随自由分布的形态随自由度的变化呈一簇分布形态,自由度度的变化呈一簇分布形态,自由度(df=n-1)逐渐增大时,逐渐增大时,t 分布逐渐接近正态分布,自由度趋于无穷大时,与正态分分布逐渐接近正态分布,自由度趋于无穷大时,与正态分布重合。布重合。t值的定义式为:值的定义式为:通常通常是未知的,因为期望推论的总体往往很大,难以测是未知的,因为期望推论的总体往往很大,难以测量。但当样本容量超过量。但当样本容量超过30 时,可以用正态分布近似处理。时,可以用正态分布近似处理。通过比较实际通过比较实际t值与理论值与理论t值,判断假设成立的概率,可以值,判断假设成立的概率,可以推断样本与总体参数差异性程度。根据推断样本与总体参数差异性程度。根据t值推断假设检验的值推断假设检验的规则如下:规则如下:t P值 差异显著程度tt(df)0.01P0.01 差异非常显著tt(df)0.05P0.05差异显著 tt(df)0.05 p0.05 差异不显著 四、四、卡方检验卡方检验z检验和检验和t检验,通常用于计量资料的统计分析,而在教育检验,通常用于计量资料的统计分析,而在教育科学研究中,我们还经常需要对按品质分类的资料进行分科学研究中,我们还经常需要对按品质分类的资料进行分析处理,如性别中的男、女,问题答案的对、错,学科分析处理,如性别中的男、女,问题答案的对、错,学科分类的自然科学和人文、社会科学,学业成绩的优、良、中、类的自然科学和人文、社会科学,学业成绩的优、良、中、差等。检验是对样本的频数分布所来自的总体分布是否服差等。检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或假设分布进行假设检验,根据样本的频从某种理论分布或假设分布进行假设检验,根据样本的频数分布来推断总体的分布。与数分布来推断总体的分布。与z检验检验 t检验相比,卡方检验检验相比,卡方检验有如下不同:有如下不同:(1)z检验、检验、t检验的数据是连续变量,卡方检验的数据检验的数据是连续变量,卡方检验的数据属于点计而来的间断变量;属于点计而来的间断变量;(2)z检验、检验、t检验的数据来自的总体要求呈正态分布,检验的数据来自的总体要求呈正态分布,卡方检验的数据来自的总体分布是未知的;卡方检验的数据来自的总体分布是未知的;(3)z检验、检验、t检验都是对某种总体参数的检验,卡方检检验都是对某种总体参数的检验,卡方检验不是对参数的检验,只是对总体分布的检验,属于非参验不是对参数的检验,只是对总体分布的检验,属于非参数检验。数检验。卡方检验的计算公式是:卡方检验的计算公式是:式中式中f0是实际频次,是实际频次,ft是理论频次。是理论频次。当当f0=ft时,卡方时,卡方=0,卡方值越小,说明实际频次与理论频,卡方值越小,说明实际频次与理论频次越接近。次越接近。根据卡方值推断假设检验的规则如下:根据卡方值推断假设检验的规则如下:卡方值卡方值P值值 差异显著程度差异显著程度卡方值卡方值 卡方值卡方值(df)0.01 P0.01 差异非常显著差异非常显著卡方值卡方值卡方值卡方值(df)0.05P0.05差异显著差异显著 卡方值卡方值卡方值卡方值(df)0.05 p0.05 差异不显著差异不显著 一一、回归分析、回归分析 把存在相关关系的两个或多个变量,一个或几个作为把存在相关关系的两个或多个变量,一个或几个作为自变量,另一个作为因变量,把它们之间不十分准确、稳自变量,另一个作为因变量,把它们之间不十分准确、稳定的关系用数学方程式来表达,用自变量的值来估计、预定的关系用数学方程式来表达,用自变量的值来估计、预测因变量的值,这个过程称为回归分析。变量之间相互关测因变量的值,这个过程称为回归分析。变量之间相互关联的规律或关系称为回归关系,表达回归关系的数学方程联的规律或关系称为回归关系,表达回归关系的数学方程称为回归方程。称为回归方程。应用应用SPSS做回归分析做回归分析Statisticsregression-liner第四节第四节 统计分析统计分析二二、聚类分析聚类分析 聚类分析是按照统计数据的数值特征进行分类的多元聚类分析是按照统计数据的数值特征进行分类的多元统计分析方法。分为统计分析方法。分为Q 型聚类(对个体分类)和型聚类(对个体分类)和R型聚类型聚类(对指标分类)两种类型。(对指标分类)两种类型。Q 型聚类把样本中的每个个型聚类把样本中的每个个体看作是体看作是P维空间中(维空间中(P个指标)的个指标)的N个点(个点(N个个体),个个体),以多维空间中两点距离最小为原则,把所有个体两两聚合以多维空间中两点距离最小为原则,把所有个体两两聚合成为一类,聚合后的类继续聚合,直到所有的个体及聚合成为一类,聚合后的类继续聚合,直到所有的个体及聚合而成的类全部被聚合为一个整体。形成以类间距离为区分而成的类全部被聚合为一个整体。形成以类间距离为区分的系统聚类谱系。的系统聚类谱系。应用应用SPSS做聚类分析做聚类分析Statisticsclassfyhierarchical claster三、三、因子分析因子分析 因子分析是一种降维技术,是把具有复杂关系的因因子分析是一种降维技术,是把具有复杂关系的因子归结为数量较少的几个主因子的一种多元统计分析方子归结为数量较少的几个主因子的一种多元统计分析方法。具有复杂关系的因子之间总有一定的相关性,总有法。具有复杂关系的因子之间总有一定的相关性,总有起支配作用的共同因素。因子分析就是从原来因子的相起支配作用的共同因素。因子分析就是从原来因子的相关矩阵出发,通过研究它的内部结构,找出对这些因子关矩阵出发,通过研究它的内部结构,找出对这些因子起支配作用的新的综合因子即主因子。因子分析以少数起支配作用的新的综合因子即主因子。因子分析以少数几个主因子代表原来众多的因子,主因子既能尽可能多几个主因子代表原来众多的因子,主因子既能尽可能多地反映原来因子的信息,彼此之间又相互独立,既合理地反映原来因子的信息,彼此之间又相互独立,既合理地解释了包含在原始因子之间的相关性,又简化了观测地解释了包含在原始因子之间的相关性,又简化了观测系统,抓住了影响所有观测数据的主要矛盾。系统,抓住了影响所有观测数据的主要矛盾。应用应用SPSS做因子分析做因子分析Statisticsdata reductionfactor