教育与心理统计第四章差异量数优秀课件.ppt
教育与心理统计课件第四章差异量数第1页,本讲稿共57页第四章第四章 差异量数差异量数学习目标学习目标1、离散程度各测度值的计算方法、离散程度各测度值的计算方法2、离散程度各测度值的特点及应用场合、离散程度各测度值的特点及应用场合3、偏态与峰态的测度方法、偏态与峰态的测度方法第2页,本讲稿共57页离中趋势1.1.数据分布的另一个重要特征数据分布的另一个重要特征2.2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值第3页,本讲稿共57页全距(极差)(range)1.1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.2.离散程度的最简单测度值离散程度的最简单测度值3.3.易受极端值影响易受极端值影响4.4.未考虑数据的分布未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R=max(xi)-min(xi)*R*R越大,说明离散程度越大。越大,说明离散程度越大。越大,说明离散程度越大。越大,说明离散程度越大。5.5.计算公式为计算公式为第4页,本讲稿共57页百分位差(百分位差(percentile)n n为了避免极端数据的影响,将数据的两端各截去10%,即P10和P90之间的距离作为差异量数。第5页,本讲稿共57页百分等级分数百分等级分数n n表示分数在整个分数分布中所处的百分位置。表示分数在整个分数分布中所处的百分位置。表示分数在整个分数分布中所处的百分位置。表示分数在整个分数分布中所处的百分位置。其中:其中:PR:百分等级百分等级 X:对应的原始分数对应的原始分数 f:该分数所在组的次数该分数所在组的次数 Lb:该分数所在组的精确下限该分数所在组的精确下限 Fb:小于小于L的各组次数之和的各组次数之和 N:总次数总次数 i:组距:组距*百分等级一般只用整数不用小数。百分等级一般只用整数不用小数。第6页,本讲稿共57页例:如下表示,求分数为例:如下表示,求分数为77的百分等级分数。的百分等级分数。组别组别f fF F808078787676747472724 47 7191912125 547474343363617175 5解:第7页,本讲稿共57页百分位分数百分位分数n n意义:n n1、原始分数在次数分布中的特定地位分数。n n2、表示总体中有p%的分数小于PP。n n计算公式:第8页,本讲稿共57页【例例】:用下面的次数分布表计算该分布的百:用下面的次数分布表计算该分布的百分位差分位差P9090-P-P1010。组组组组 别别别别f f向上累加次数向上累加次数向上累加次数向上累加次数65-65-1 115715760-60-4 415615655-55-6 615215250-50-8 814614645-45-161613813840-40-242412212235-35-3434989830-30-2121646425-25-1616434320-20-1111272715-15-9 9161610-10-7 77 7合计合计合计合计157157注意:注意:注意:注意:注意:注意:组位在组位在组位在组位在组位在组位在第一次大于第一次大于第一次大于第一次大于第一次大于第一次大于N*m/100N*m/100N*m/100的的的的的的F FF所在组!所在组!所在组!所在组!所在组!所在组!第9页,本讲稿共57页n n解:先计算解:先计算解:先计算解:先计算P P9090和和和和P P1010两个百分位数两个百分位数两个百分位数两个百分位数。(如何确定(如何确定(如何确定(如何确定P PP P所在的组位?)所在的组位?)所在的组位?)所在的组位?)第10页,本讲稿共57页四分位数(quartile)1、排序后处于、排序后处于25%25%和75%位置上的值位置上的值2.不受极端值的影响3.主主要要用用于于顺顺序序数数据据,也也可可用用于于数数值值型型数数据据,但但不能用于分类数据不能用于分类数据QQ1 1QQ2 2QQ3 325%25%25%25%第11页,本讲稿共57页四分位数(位置的确定)原始数据:原始数据:原始数据:原始数据:顺序数据:顺序数据:顺序数据:顺序数据:第12页,本讲稿共57页顺序数据的四分位数解:解:解:解:Q Q1 1位置位置=(300)/4(300)/4=7575 Q Q3 3位置位置=(3300)/4(3300)/4=225225从累计频数看,从累计频数看,Q Q1 1在在“不不满意满意”这一组别中;这一组别中;Q Q3 3在在“一般一般”这一组别中这一组别中四分位数为四分位数为 Q Q1 1=不满意不满意不满意不满意 QQ3 3 =一般一般一般一般甲城市家庭对住房状况评价的次数分布甲城市家庭对住房状况评价的次数分布甲城市家庭对住房状况评价的次数分布甲城市家庭对住房状况评价的次数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市次数次数次数次数 (户户户户)累计次数累计次数累计次数累计次数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意 24 24108108 93 93 45 45 30 30 24 24132132225225270270300300合计合计合计合计300300第13页,本讲稿共57页数值型数据的四分位数(9个数据的算例)n n【例例例例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据n n原始数据原始数据原始数据原始数据:1500750780108085096020001250163015007507801080850960200012501630n n排排排排 序序序序:7507808509601080125015001630200075078085096010801250150016302000n n位位位位 置置置置:112 32 34564567 87 899第14页,本讲稿共57页数值型数据的四分位数(10个数据的算例)n n【例例例例】:10个家庭的人均月收入数据n n排排排排 序序序序:660660 7507808509601080125015001630200075078085096010801250150016302000n n位位位位 置置置置:112 32 344 5675678 98 91010第15页,本讲稿共57页四分位差(quartile deviation)1.1.对顺序数据离散程度的测度2.2.也称为内距或四分间距3.3.上四分位数与下四分位数之差的一半。n nQ=(Q3 Q1)/24.4.反映了中间50%数据的离散程度5.5.不受极端值的影响6.6.用于衡量中位数的代表性第16页,本讲稿共57页四分位差解解解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2,2,一一般般为为3,3,满满意意为为 4,4,非非常常满满意为意为5 5。已知已知Q Q1 1=不满意不满意=2=2Q Q33 =一般一般=3=3四分位差:四分位差:Q Q=(=(Q Q3 3-Q Q1)/21)/2 =(=(3 2)/2 3 2)/2 =0.50.5甲城市家庭对住房状况评价的次数分布甲城市家庭对住房状况评价的次数分布甲城市家庭对住房状况评价的次数分布甲城市家庭对住房状况评价的次数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市次数次数次数次数 (户户户户)累计次数累计次数累计次数累计次数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意 24 24108108 93 93 45 45 30 30 24 24132132225225270270300300合计合计合计合计300300第17页,本讲稿共57页平均差(mean deviation)1.1.各变量值与其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数2.2.能全面反映一组数据的离散程度能全面反映一组数据的离散程度3.3.数学性质较差,实际中应用较少数学性质较差,实际中应用较少4.4.计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据第18页,本讲稿共57页n n【例例例例】:有:有:有:有5 5名被试的错觉实验数据如下,求其平均差。名被试的错觉实验数据如下,求其平均差。名被试的错觉实验数据如下,求其平均差。名被试的错觉实验数据如下,求其平均差。n n解:已知解:已知解:已知解:已知n=5 n=5 x=18.6x=18.6被试被试被试被试1 12 23 34 45 5错觉量错觉量错觉量错觉量16161818202022221717第19页,本讲稿共57页平均差某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组按销售量分组按销售量分组组中值组中值组中值组中值(x xc c)次数次数次数次数(f fi i)140150140150150 160150 160160 170160 170170 180170 180180 190180 190190 200190 200200 210200 210210 220210 220220 230220 230230 240230 240145145155155165165175175185185195195205205215215225225235235 4 4 9 916162727202017171010 8 8 4 4 5 54040303020201010 0 010102020303040405050160160270270320320270270 0 0170170200200240240160160250250合计合计合计合计12012020402040求该电脑公司销售量的平均差第20页,本讲稿共57页解:含义:含义:每一天的销售量平均数相比,平均相差17台第21页,本讲稿共57页方差和标准差(variance and standard deviation)1.1.为了避免负数出现,数据离散程度的最常用测度值2.2.反映了各变量值与均值的平均差异3.3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差第22页,本讲稿共57页n n总体方差计算公式:n n总体标准差的计算公式:第23页,本讲稿共57页样本方差和标准差(simple variance and standard deviation)n n未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除!第24页,本讲稿共57页 样本方差自由度(degree of freedom)1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.2.当当样样本本数数据据的的个个数数为为 n n 时时,若若样样本本均均值值 x x 确确定定后后,只只有有n n-1-1个个数数据据可可以以自自由由取取值值,其其中中必必有有一一个个数数据据则则不不能能自自由由取值取值3.3.例例如如,样样本本有有3 3个个数数值值,即即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则则 x x =5 5。当当 x x =5 5 确确定定后后,x x1 1,x x2 2和和x x3 3有有两两个个数数据据可可以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x x1 1=6=6,x x2 2=7=7,那那么么x x3 3则则必必然然取取2 2,而不能取其他值,而不能取其他值4.4.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可从从多多方方面面解解释释,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差去去估估计计总总体方差体方差 2 2时,它是时,它是 2 2的无偏估计量的无偏估计量第25页,本讲稿共57页方差、标准差的计算方差、标准差的计算n n原始数据:【例例例例】:计算:计算:计算:计算6 6、5 5、7 7、4 4、6 6、8 8、这一组数据的方差和标准差。、这一组数据的方差和标准差。、这一组数据的方差和标准差。、这一组数据的方差和标准差。解:解:解:解:(1 1)公式法计算)公式法计算)公式法计算)公式法计算 (2 2)计算器计算法)计算器计算法)计算器计算法)计算器计算法第26页,本讲稿共57页分组数据的样本标准差计算某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组按销售量分组按销售量分组组中值组中值组中值组中值(X Xc c)次数次数次数次数(f fi i)140150140150150 160150 160160 170160 170170 180170 180180 190180 190190 200190 200200 210200 210210 220210 220220 230220 230230 240230 240145145155155165165175175185185195195205205215215225225235235 4 4 9 916162727202017171010 8 8 4 4 5 54040303020201010 0 010102020303040405050160160270270320320270270 0 0170170200200240240160160250250合计合计合计合计1201205540055400第27页,本讲稿共57页样本标准差 含义:含义:每一天的销售量与平均数相比,平均相差21.58台。*计算器的算法?!计算器的算法?!计算器的算法?!计算器的算法?!第28页,本讲稿共57页总标准差的合成:【例】:在三个班级进行某项能力研究,三个班测查结果【例】:在三个班级进行某项能力研究,三个班测查结果【例】:在三个班级进行某项能力研究,三个班测查结果【例】:在三个班级进行某项能力研究,三个班测查结果的平均数和标准差如下,求三个班的总标准差。的平均数和标准差如下,求三个班的总标准差。的平均数和标准差如下,求三个班的总标准差。的平均数和标准差如下,求三个班的总标准差。班级班级班级班级n n x xS S1 1424210310316162 2363611011012123 3505098981717第29页,本讲稿共57页方差和标准差的性质和意义方差和标准差的性质和意义n n性质性质n n(1 1)每每一一个个观观测测值值都都加加上上一一个个相相同同常常数数C C之之后后,计计算算得到的标准差等于原标准差。得到的标准差等于原标准差。n n(2 2)每每一一个个观观测测值值都都乘乘以以一一个个相相同同的的常常数数C C,则则所得的标准差等原标准差乘以这个常数。所得的标准差等原标准差乘以这个常数。n n(3 3)每每一一个个观观测测值值都都乘乘以以同同一一个个常常数数C C(C0C0),再再加加一一个个常常数数d d,所所得得的的标标准准差差等等于于原原标标准准差差乘乘以以这这个常数个常数C C。第30页,本讲稿共57页意义:意义:n n(1 1)方方方方差差差差与与与与标标标标准准准准差差差差是是是是表表表表示示示示一一一一组组组组数数数数据据据据离离离离散散散散程程程程度度度度的的的的最最最最好好好好指指指指标标标标。其其其其值值值值越越越越大,次数分布越分散,反之,其值越小,离散越小。大,次数分布越分散,反之,其值越小,离散越小。大,次数分布越分散,反之,其值越小,离散越小。大,次数分布越分散,反之,其值越小,离散越小。n n(2 2)标准差具备一个良好的差异量数应具备的条件:标准差具备一个良好的差异量数应具备的条件:标准差具备一个良好的差异量数应具备的条件:标准差具备一个良好的差异量数应具备的条件:n n反反反反应应应应灵灵灵灵敏敏敏敏,每每每每个个个个数数数数据据据据取取取取值值值值变变变变化化化化,方方方方差差差差与与与与标标标标准准准准关关关关都都都都随随随随之之之之变变变变化化化化;计算公式严密确定;计算公式严密确定;计算公式严密确定;计算公式严密确定;n n容易计算;容易计算;容易计算;容易计算;n n适合代数运算;适合代数运算;适合代数运算;适合代数运算;n n受受受受抽抽抽抽样样样样变变变变动动动动影影影影响响响响,即即即即不不不不同同同同样样样样本本本本的的的的标标标标准准准准差差差差或或或或方方方方差差差差比比比比较较较较稳稳稳稳定定定定;简简简简单单单单明明明明了,这一点其他差异量数比较稍有不足,但其意义还是较明确的。了,这一点其他差异量数比较稍有不足,但其意义还是较明确的。了,这一点其他差异量数比较稍有不足,但其意义还是较明确的。了,这一点其他差异量数比较稍有不足,但其意义还是较明确的。(3 3 3 3)标准差与其他各种差异量数相比,具有数学上的优越性,特)标准差与其他各种差异量数相比,具有数学上的优越性,特)标准差与其他各种差异量数相比,具有数学上的优越性,特)标准差与其他各种差异量数相比,具有数学上的优越性,特别是当已知一组数据的平均数与标准差后,就可以知道落在平均别是当已知一组数据的平均数与标准差后,就可以知道落在平均别是当已知一组数据的平均数与标准差后,就可以知道落在平均别是当已知一组数据的平均数与标准差后,就可以知道落在平均数上下各一个标准差、两个标准差,或三个标准差范围内的数据数上下各一个标准差、两个标准差,或三个标准差范围内的数据数上下各一个标准差、两个标准差,或三个标准差范围内的数据数上下各一个标准差、两个标准差,或三个标准差范围内的数据所占的百分比。所占的百分比。所占的百分比。所占的百分比。第31页,本讲稿共57页标准差的应用差异系数标准分数第32页,本讲稿共57页差异系数(coefficient of variation)n n1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响n n4.用于对不同组别数据离散程度的比较n n5.计算公式为第33页,本讲稿共57页差异系数某管理局所属某管理局所属某管理局所属某管理局所属8 8家企业的产品销售数据家企业的产品销售数据家企业的产品销售数据家企业的产品销售数据企业编号企业编号企业编号企业编号产品销售额(万元)产品销售额(万元)产品销售额(万元)产品销售额(万元)x x1 1销售利润(万元)销售利润(万元)销售利润(万元)销售利润(万元)x x2 21 12 23 34 45 56 67 78 8170170220220390390430430480480650650950950100010008.18.112.512.518.018.022.022.026.526.540.040.064.064.069.069.0【例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度第34页,本讲稿共57页解:结结结结论论论论:计计算算结结果果表表明明,c cv1 1c 0为右偏分布n n4.偏态系数 0为左偏分布第48页,本讲稿共57页偏态系数(skewness coefficient)1.1.根据原始数据计算2.2.根据分组数据计算第49页,本讲稿共57页偏态系数 某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组按销售量份组按销售量份组(台台台台)组中值组中值组中值组中值(MMi i)频数频数频数频数 f fi i140 150140 150150 160150 160160 170160 170170 180170 180180 190180 190190 200190 200200 210200 210210 220210 220220 230220 230230 240230 240145145155155165165175175185185195195205205215215225225235235 4 4 9 916162727202017171010 8 8 4 4 5 5-256000-256000-243000-243000-128000-128000 -27000 -27000 0 0 17000 17000 80000 80000 216000 216000 256000 256000 625000 6250001024000010240000 7290000 7290000 2560000 2560000 270000 270000 0 0 170000 170000 1600000 1600000 6480000 648000010240000102400003125000031250000合计合计合计合计120120540000540000 7010000070100000 第50页,本讲稿共57页偏态系数结论:结论:结论:结论:偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明电脑的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数而销售量较多的天数则占少数第51页,本讲稿共57页峰态第52页,本讲稿共57页峰态(kurtosis)1.1.统计学家Pearson于1905年首次提出2.2.数据分布扁平程度的测度3.3.峰态系数=0扁平峰度适中4.4.峰态系数0为尖峰分布第53页,本讲稿共57页峰态系数(kurtosis coefficient)1.1.根据原始数据计算2.2.根据分组数据计算第54页,本讲稿共57页峰态系数结论:结论:结论:结论:偏态系数为负值,但与偏态系数为负值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布第55页,本讲稿共57页偏态与峰态(从直方图上观察)按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组(台台台台台台)结论结论结论结论:1.1.为右偏分布为右偏分布 2.2.峰态适中峰态适中140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230240240第56页,本讲稿共57页 差异量数的选用(差异量数的选用(P104)1、选用的依据、选用的依据(1)优良差异量数具备的标准(2)各种差异量数优缺点的比较(3)各种差异量数间的关系2、如何选用差异量数、如何选用差异量数第57页,本讲稿共57页