最新定量分析----统计分析法PPT课件.ppt
定量分析定量分析-统计分析法统计分析法n统计分析法:运用建立在数学科学基础之上的各种方法去收集、整理和分析事物量的资料的工作方法。中数与众数n中数:位于一组数据中较大一半与较小一半中间位置的那个数。n众数:次数分布中出现次数最多的那个数的数值。(2)差异量数差异量数是描述一组数据离中趋势的量数,也就是数据的离散程度。常用的差异量数有:方差、标准差(Standard deviation)、全距、方差(s2或2)和标准差(s或)n样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。n样本中各数据与样本平均数的差的平方和的平均数叫做样本方差。n样本方差的算术平方根叫做样本标准差。方差与标准差 A、B两组各有5位学生参加同一次能力测验,A组的分数为68、69、70、71、72,B组的分数为45、62、70、78、95。请问哪组学生能力差异小?A、B两组各有5位学生参加同一次能力测验,A组的分数为68、69、70、71、72,B组的分数为45、62、70、78、95。请问哪组学生能力差异小?n解答:求其标准差。这两组的平均数都是70,但A组的标准差为1.41,B组的标准差为16.6,说明A组比B组能力差异小。(3)地位量数n地位量数是描述单个数据在样本或总体中地位的量数。n地位量数有名次、百分等级、标准分数百分等级n某省考生的高考成绩单:考号 姓名 语文 数学 外语 物理 理综 综合分 10050516 张华 592 598 642 581 619 636 百分等级 82.1 83.7 92.2 79.1 88.3 91.3 百分等级也称百分位,反映的是某个观测分数以下数据个数占总个数的比例,在0100之间取值。标准分数(z)标准分数(stardard score):一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置。在统计中,变量值与其平均数的离差除以标准差后的值,称为标准分数,也Z分数。某五名大学生参加公务员考试,其申论和行政职业能力测验的成绩如下:申论:82、79、90、88、66行政职业能力测验:76、84、96、91、68其中,小王的申论成绩为88,行政职业能力测验成绩为91,请问小王哪门成绩好?解答:求其标准分数。该大学生两个分数的标准分数都是正数,说明他两门考课程考试成绩皆高于该组平均分数;因为申论标准分数的绝对值大于职业行政能力准标分数的绝对值,说明申论成绩距离平均分的差距要大于职业行政能力距离平均分的差距,即申论成绩更为突出。(4)相关系数 相关的界定:n函数关系两种现象或变量之间存在确定的严格的依存关系,这种关系可用函数关系式表达。n相关关系两种现象或变量之间存在不确定的不严格的依存关系。计件工资总额与零件数量身高与体重血压与年龄商品的销售量与单价数学成绩的好坏与物理成绩的好坏商品销售与广告粮食生产与施肥量吸烟与身体健康这些变量中哪些是相关关系,哪些是函数关系?(4)相关系数 相关的分类:A 按相关的性质分,有正相关和负相关B 按相关的形式分,有线性相关和非线性相关 C 按影响因素多少分,有单相关和复相关 D 按相关的程度分,有完全相关、不完全相关和不相关(4)相关系数 相关的分类:A 按相关的性质分,有正相关和负相关。正相关:两个变量按照相同的方向变化负相关指:两个变量按照相反的方向变化(4)相关系数 相关的分类:B按相关的形式分,有线性相关和非线性相关 线性相关(直线相关):即当自变量变动时,因变量也随之发生大致均等的变动。非线性相关(曲线相关):即当自变量发生变动时,因变量也发生变动,但其增加或减少不是均等的。散点图(散布图):变量X、Y的全部可能取值在直角坐标系中形成的图形。示例为研究学习时间与学习成绩之间的关系,测得出下数据:时间100110120130140150160170180190成绩45515461667074788589(4)相关系数 相关的分类:C按影响因素多少分,有单相关和复相关。单相关:两个变量之间的相关称为单相关;复相关:一个因变量与两个或两上以上自变量之间的相关称为复相关或多元相关。(4)相关系数 相关的分类:D按相关的程度分,有完全相关、不完全相关和不相关完全相关:指某变量的变化,另一变量有一确定的值对它对应。不完全相关:指两个变量之间有数量联系,但是数量是不确定的关系。零相关:指两个现象在数量上完全独立,在一定的形式下,互不影响,互不相干的关系。(4)相关系数n相关系数n相关系数是描述两个变量之间相关关系的一种量数。用符号p或r表示。n相关系数的性质:有界性、方向性n有界性:相关系数的取值范围在-1,1r的绝对值取值范围意义0.00-0.19极低相关0.20-0.39低相关0.40-0.69中度相关0.70-0.89高度相关0.90-1.00极高相关方向性:两个变量之间相关关系的性质可以由其符号反映出来。r 0,正相关r 0,负相关r=0,零相关相关系数计算方法A 皮尔逊积差相关适用条件:两列数据都是连续变量,且两列变量各自总体的分布呈正态分布;两列变量之间的关系是线性的。(4)相关系数n连续变量:在一定区间内可以任意取值的变量叫连续变量。正态分布:指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。特征:正态分布的中央点(均数)最高,然后逐渐向两侧下降;以均数为中心,两端对称;永远不与x轴相交的钟形曲线;正态曲线下的面积分布有一定规律:正负一个标准差之间,包含总面积的68.26%;正负1.96个标准差之间,包含总面积的95%;正负2.58个标准差之间,包含总面积的99%。正态分布有两个重要参数:位置参数:均数,均数决定正态曲线的中心位置;形状参数:标准差,标准差决定正态曲线的陡峭或扁平程度。均值相同,标准差不同的均值相同,标准差不同的正态分布曲线正态分布曲线标准差相同、均数不同的标准差相同、均数不同的正态分布曲线正态分布曲线正态分布的简单判断方式n绘制数据的条形图,如果数据来自正态分布,条形图呈现“钟形”分布。皮尔逊积差相关以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。公务员业绩评分资料表公务员编号领导评分群众评分1672763884655776667988659771087计算领导与群众评分之间的相关程度,以此判定领导与群众对公务人员测评的一致性程度。解答:设领导评分为X,群体评分为Y,用积差相关法测定二者之间的相关程度。22相关系数计算方法B 斯皮尔曼等级相关(用符号rp表示)适用条件:A 适用于一列或两列变量皆为等级变量的数据资料;B 两列变量之间的关系是线性的。(4)相关系数斯皮尔曼等级相关计算公式D:成对数据的等级之差N:成对数据的个数10名学生的学习成绩与其品德等级统计表,计算二者的相关程度。学号学习成绩等级品德等级190优288中388中483良579良675中775良870中968良1062中赋予等级时注意:n 对两列变量赋予等级的方向要一致;n 对于相同的等级要以它们占等级位置的平均数赋予等级。10名学生的学习成绩与其品德等级统计表,计算二者的相关程度。学号学习成绩等级品德等级1901优12882.5中83882.5中84834良3.55795良3.56756.5中87756.5良3.58708中89689良3.5106210中810名学生的学习成绩与其品德等级统计表,计算二者的相关程度。=1-6x108.510 x(102-1)=0.3425一、思想信息的获取方法二、思想信息的分析方法(一)思想信息分析的特点(二)思想信息分析的优化(三)思想信息的定量分析-统计分析法1、描述性统计2、推断性统计-假设检验n假设检验假设检验亦称“显著性检验显著性检验(Test of statistical significance)”,是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。(1)(1)什么是假设检验什么是假设检验(2)(2)假设检验的基本思想假设检验的基本思想 n假设检验的基本思想是小概率原理。n小概率原理是指小概率事件在一次试验中基本上不会发生。n显著性水平:即概率水平,统计检验中所规定的小概率的数量标准。一般用符号a表示。(3)(3)假设检验的基本步骤假设检验的基本步骤 第一第一,提出虚无假设提出虚无假设H H0 0。研究假设:H1:0 虚无假设:H0:=0 第二第二,计算统计量计算统计量。即选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如t值等。第三第三,确定显著性水平,并查出临界值。确定显著性水平,并查出临界值。显著性水平:0.05或0.01 第四第四,作出推断统计:将统计量与临界值进行比较,从而作出作出推断统计:将统计量与临界值进行比较,从而作出拒绝还是接受虚无假设的判断。拒绝还是接受虚无假设的判断。n自由度(df):样本变量中可以自由取值的个数,一般为df=n-1。(3)(3)假设检验的基本步骤假设检验的基本步骤 第一第一,提出虚无假设提出虚无假设H H0 0 。研究假设:H1:0 虚无假设:H0:=0 第二第二,计算统计量。计算统计量。即选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如t值等。第三第三,确定显著性水平,并查出临界值。确定显著性水平,并查出临界值。显著性水平:0.05或0.01 第四第四,作出推断统计:将统计量与临界值进行比较,从而作出拒绝还是接受作出推断统计:将统计量与临界值进行比较,从而作出拒绝还是接受虚无假设的判断。虚无假设的判断。如果|t|t(df),则p 0.05或p 0.01,拒绝虚无假设H0,表明有显著差异;如果|t|0.05或p0.01,接受虚无假设H0,表明无显著差异。(4)平均数差异的t检验t 检验的应用条件:样本来自正态分布总体;两样本均数比较时,要求两样本相应的总体方差相等,即方差齐性。t检验的三种类型n单样本t检验(One-Sample T Test)n独立样本t检验(Independent-Sample T Test)n配对样本t检验(Paires-Sample T Test)单样本单样本t t检验(检验(One-Sample T One-Sample T TestTest)n单样本t检验适用于样本均数与已知总体均数0的比较,其比较目的是检验样本均数所代表的总体均数是否与已知总体均数0有差别。已知总体已知总体0未知总体样本n以往通过大规模调查已知某地新生儿出生体重为3.30千克。从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42千克,标准差为0.40,问该地难产儿出生体重是否与一般新生儿体重不同?单个样本单个样本t t检验检验案例分析案例分析单个样本单个样本t t检验检验检验步骤检验步骤nA 建立虚无假设建立虚无假设:H0:0(即假设该地难产儿与一般新生儿平均出生体重相同)单个样本单个样本t t检验检验检验步骤检验步骤nB 计算计算t t值值 ,n=35,S=0.40,0=3.30,单个样本单个样本t检验检验检验步骤检验步骤B计算计算t值值C C 确定显著性水平确定显著性水平 0.050.05,自由度,自由度df=34df=34,查,查t t值表,得临界值值表,得临界值t t0.05(34)0.05(34)=单个样本单个样本t检验检验检验步骤检验步骤2.032D D 作作出统计推断出统计推断|t|=1.77,t t0.05(34)0.05(34)=2.032|t|t0.05(34),说明出现这种情况的概率高于5%,所以接受虚无假设H0,即难产儿与一般新生儿平均出生体重相同。单个样本单个样本t检验检验检验步骤检验步骤独立样本独立样本t t检验检验(Independent-Sample T Independent-Sample T TestTest)适用于两样本均数的比较适用于两样本均数的比较,其目的是检验两样本所来自总其目的是检验两样本所来自总体的均数是否相等。体的均数是否相等。n用特质愤怒量表对40名大学生进行测试,其中男大学生22名,特质愤怒量表平均得分18分,标准差是4,女大学生18名,特质愤怒量表平均得分19分,标准差3.9。问男女大学生的特质愤怒水平是否存在显著差异?独立样本独立样本t检验检验-案例分析案例分析nA 建立虚无假设建立虚无假设:H0:0(即假设男女大学生特质愤怒水平无显著差异)独立样本独立样本t检验检验-案例分析案例分析nB计算计算t t值值独立样本独立样本t检验检验-案例分析案例分析nB 计算计算t t值值 独立样本独立样本t检验检验-案例分析案例分析C C 确定显著性水平确定显著性水平 0.050.05,自由度,自由度df=ndf=n1 1+n+n2 2-2=38-2=38,查,查t t值表,得临界值表,得临界值值t t0.05(38)0.05(38)=2.024独立样本独立样本t检验检验-案例分析案例分析D D 作作出统计推断出统计推断|t|=0.60,t t0.05(38)0.05(38)=2.024|t|t0.05(7),说明出现这种情况的概率低于5%,所以拒绝虚无假设H0,即此8名大学生实验前后特质愤怒水平有显著差异配对样本配对样本t检验(检验(Paires-Sample T Test(5)方差分析(F检验)方差分析(ANOVA)又称F检验,用于两个及两个以上样本均数差别的显著性检验,其统计推断是推断各样本所代表的各总体均数是否相等。方差分析(analysis of variance,ANOVA)由英国统计学家R.A.Fisher首先提出,以F命名其统计量,故方差分析又称F检验。方差分析的应用条件为:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等,即方差齐性(5)方差分析(F检验)n某项关于大学生就业意向的调查研究中,对未来职业的薪金水平一年级大学生为月均2000元,二年级大学生为2200元,三年级大学为2250元,四年级大学生为1800元,请问几个年级大学生的期望月收入是否有显著性差异?2 检验是检验实际观察得到的某样本检验是检验实际观察得到的某样本次数分布情况与有关总体的理论次数是否次数分布情况与有关总体的理论次数是否一致的问题。一致的问题。凡是可以应用比率进行检验的资料,都可以用卡方检验。(6)2检验(卡方检验)检验(卡方检验)2 2检验的基本公式检验的基本公式f0实际次数实际次数fe理论次数理论次数2 检验案例检验案例n某学者进行一次面向七所学校的134名学生进行了一个问卷调查,其中一个题目为:你觉得班上的同学多些好还是少些好?该题目有三个备选答案:即多些好、差不多、少些好。被调查的134名学生中有78人回答多些好,有12人回答差不多,有44人回答少些好。问持这三种态度的学生人数是否有显著差异?nA 建立虚无假设建立虚无假设:H0:三种态度的学生人数的比率为1:1:1nB 计算计算2 2值值f01=78f02=12f03=44fe=134/3=44.72=47.32 检验案例检验案例C 确定显著性水平确定显著性水平 0.01,自由度,自由度df=组数组数-1=3-1=2,查查2 2值表,得临界值值表,得临界值2 2 0.01(2)=9.21D 作作出统计推断出统计推断|2 2|=47.3,2 2 0.01(2)=9.21|2 2|2 2 0.01(2),说明出现这种情况的概率低于1%,所以拒绝虚无假设H0,即三种态度的学生人数有显著差异。2 检验案例检验案例n如果我们还想了解一下不同性别的同学对某一调查题目的选择是否具有显著性差异,即对同一组对象按两种分类标准进行分类,怎样进行显著性检验呢?四格表的四格表的2 检验检验n四格表卡方检验用于进行两个率或两个构成比的比较。2=n(ad bc)2/(a+b)(c+d)(a+c)(b+d)a,b,c,d 分别为四格表资料中四个格子的频数。自由度v=(行数-1)(列数-1)四格表的四格表的2 检验检验例:例:某次中学生抑郁症状的调查资料如下:某次中学生抑郁症状的调查资料如下:问:男女性别间总体抑郁流行率是否有差问:男女性别间总体抑郁流行率是否有差异?异?抑郁阳性抑郁阴性合计抑郁流行率(%)男51(a)9(b)6042.16女27(c)24(d)5135.84合计783311170.27nSPSS统计软件的使用nSPSS:Statistical Package for Social Science的缩写,社会科学用统计软件包。n数据资料的录入n录入数据的检查n计算问卷因子分及总分n描述性统计n推断性统计SPSS主界面n数据资料的录入变量窗口:编辑、查看变量的各个属性。名称:变量名称类型:常用的有数值及字符串宽度:默认值为8小数:默认值为2标签:说明变量的具体,帮助自己更好地理解变量的文字值:主要用于分类变量缺失:列:列宽对齐:对齐方式度量标准:度量变量:连续变量;有序变量:有等级的离散变量;名义变量:无等级的离散变量。录入数据的检查n查缺失数据n查异常数据计算问卷因子分、总分n问卷项目的反向计分n加因子分、总分特质愤怒量表:16-25气质型特质愤怒因子:16、17、18、21反应型特质愤怒因子:19、20、22、23、24、25攻击量表:9、16需反向计分身体攻击因子:2、5、8、11、13、16、22、25、29语言攻击因子:4、6、14、21、27愤怒因子:1、9、12、18、19、23、28敌意因子:3、7、10、15、17、20、24、26n描述性统计-集中量数、差异量数均值、标准差的统计均值标准差气质型特质愤怒7.00 2.39 反应型特质怒10.78 2.34 特质愤怒17.78 4.10 身体攻击因子23.55 4.93 语言攻击因子14.23 3.33 愤怒因子16.78 4.74 敌意因子21.44 5.48 攻击量表总分76.00 13.89 n描述性统计均值、标准差的统计n描述性统计-地位量数百分位数:反映的是某个观测分数以下数据个数占 总个数的比例,在0100之间取值。描述性统计-相关系数皮尔逊积差相关适用条件:两列数据都是连续变量,且两列变量各自总体的分布呈正态分布;两列变量之间的关系是线性的。数据是否呈正态分布的检验变量的次数分布直方图K-S(柯尔莫果洛夫-斯米尔洛夫)检验法数据是否呈正态分布的检验变量的次数分布直方图数据是否呈正态分布的检验K-S(柯尔莫果洛夫-斯米尔洛夫)检验法Kolmogorov-Smirnova统计量dfSig.特质愤怒0.11 216.00 0.00 攻击量表总分0.04 216.00.200*描述性统计-相关系数描述性统计-相关系数1 2 3 4 5 6 7 8 气质型特质愤怒1.000 反应型特质怒.505*1.000 特质愤怒.871*.864*1.000 身体攻击因子.264*.437*.403*1.000 语言攻击因子.190*.257*.257*.412*1.000 愤怒因子.514*.363*.506*.430*.409*1.000 敌意因子.243*.406*.373*.486*.365*.364*1.000 攻击量表总分.411*.501*.525*.793*.670*.736*.779*1.000 推断统计-平均数差异的t检验n单样本t检验(One-Sample T Test)n独立样本t检验(Independent-Sample T Test)n配对样本t检验(Paires-Sample T Test)t 检验的应用条件:样本来自正态分布总体;两样本均数比较时,要求两样本相应的总体方差相等,即方差齐性。推断统计-平均数差异的t检验方差齐性检验方法:Levene 的方差齐性检验推断统计-平均数差异的t检验推断统计-平均数差异的t检验因子男(n=94)女(n=122)t值P值气质型特质愤怒6.932.297.072.480.430.67反应型特质愤怒10.952.5410.652.170.930.35特质愤怒17.874.2217.714.020.280.78推断统计-平均数差异的t检验不同性别大学生特质愤怒水平的显著性显著推断统计-F检验n方差分析的应用条件为:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等,即方差齐性因子暴躁型(n=9)冷淡型(n=23)和谐型(n=184)F值P值身体攻击因子25.003.4624.435.3023.364.94.888.413语言攻击因子15.332.9215.303.1514.043.352.016.136愤怒因子20.334.9217.655.4616.504.583.309*.038敌意因子24.225.1924.574.7520.915.436.021*.003攻击总分84.8911.9881.9614.4374.8213.634.789*.009不同家庭氛围大学生攻击水平显著性检验推断统计-F检验按一个分类直接输入原始数据的卡方检验:Analyze(分析)onParameter Test(非参数检验)Chi-Square(卡方检验),选择相应项进行检验即可。推断统计-2检验 四格表2检验比较性别在心理焦虑上的差异:心理焦虑 性别 合计 男 女是 455 162 617否 183 476 659合计 638 638 1276练习思想信息分析上课用数据资料21、缺失值及异常数据的检查2、青少年生活事件量表因子分计算(B201-B227)青少年生活事件量表共有27个项目,包括人际关系、学习压力、受惩罚、丧失、健康适应、其他六个因子,总应激值(LES)为各项因子评分之和。n人际关系因子:1 1、2 2、4 4、1515、2525n学习压力因子:3 3、9 9、1616、1818、2222n受惩罚因子:1717、1818、1919、2020、2121、2323、2424n丧失因子:1212、1313、1414n健康适应因子:5 5、8 8、1111、2727n其他:6 6、7 7、2323、24243、按青少年生活事件量表总分的百分位进行分组,前25%为高应激组、后25%为低应激组,其它为中间组。练习思想信息分析上课用数据资料3中学生心理健康诊断问卷(B101-B169)青少年生活事件量表(B201-B227)简易应对方式量表(B301-B320)自尊量表(B401-B410)1、统计各量表因子的均值、标准差。2、统计这几个量表变量值之间的相关系数3、进行这几个量表不同性别、年级、是否独生子女、是否宏志生、学习成绩之间的平均数显著性检验。