《卡方检验-PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《卡方检验-PPT讲稿.ppt(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、卡方检验-第1页,共27页,编辑于2022年,星期五2 2检验(检验(chi-square test)是专门用于)是专门用于计数计数数据的统计方法。数据的统计方法。由于这类数据在整理时,常常以由于这类数据在整理时,常常以列联表列联表(contingency table)或交叉表()或交叉表(cross tabulation)呈现,因此这种分析方法又被称为列)呈现,因此这种分析方法又被称为列联表分析或交叉表分析。联表分析或交叉表分析。第2页,共27页,编辑于2022年,星期五一.2 2检验及其特点 1 12 2分布分布2 2分布是统计学中应用较多的一种抽样分布。分布是统计学中应用较多的一种抽样分
2、布。2 2值是从同一总体中随机抽取的无限多个容量为值是从同一总体中随机抽取的无限多个容量为 n 的样本数据的平方和或标准分数的平方和,即的样本数据的平方和或标准分数的平方和,即或或此时此时2分布的自由度为分布的自由度为dfn。第3页,共27页,编辑于2022年,星期五如果正态总体的平均数未知,需要用样本平均数作为如果正态总体的平均数未知,需要用样本平均数作为总体平均数的估计值,这时公式变为:总体平均数的估计值,这时公式变为:此时,此时,2 2分布的自由度为分布的自由度为df n1 1。第4页,共27页,编辑于2022年,星期五2 2分布曲线相相对对频频数数图图15151 1 几种不同自由度的几
3、种不同自由度的2 2分布曲线分布曲线n=1n=4n=10n=202第5页,共27页,编辑于2022年,星期五22 2分布的特点 2 2分布呈分布呈正偏态正偏态,曲线的右侧无限延伸,曲线的右侧无限延伸,但不与基线相交。但不与基线相交。2 2值都是值都是正值正值。2 2分布的分布的和和也是也是2 2分布。分布。2 2分布随分布随自由度自由度的变化而不同。自由度的变化而不同。自由度越小,曲线偏斜度越大;自由度越大,分布形态越小,曲线偏斜度越大;自由度越大,分布形态越趋于对称。越趋于对称。第6页,共27页,编辑于2022年,星期五32检验2 2检检验验用用于于对对点点计计而而来来的的离离散散型型数数据
4、据资资料料进进行行假假设设检检验验,对对总总体体的的分分布布不不做做要要求求,也也不不对对总总体体参参数数进进行行推推论论。2 2检检验验主主要要是是对对总总体体的的数数据据分分布布进进行行假假设设检检验验,因因此此属属于于自自由由分分布布的非参数检验。的非参数检验。第7页,共27页,编辑于2022年,星期五2 2 2 2检验是对由样本得来的检验是对由样本得来的实际实际频数与频数与理论理论频数的分布是否有显著性差异所进行的检验。其计频数的分布是否有显著性差异所进行的检验。其计算公式为:算公式为:这一公式是根据这一公式是根据18991899年统计学家皮尔逊推导的配合适年统计学家皮尔逊推导的配合适
5、度的理论公式而来。这是与前述度的理论公式而来。这是与前述2 2分布非常近似的次数分分布非常近似的次数分布。当布。当 f e 越大时,其接近的越好。越大时,其接近的越好。(151)第8页,共27页,编辑于2022年,星期五2 2值的特点2 2值具有可加性;值具有可加性;2 2永远是正值;永远是正值;2 2的大小随实际频数与理论频数差的大的大小随实际频数与理论频数差的大小而变化。两者之差越小,说明样本分布与假设小而变化。两者之差越小,说明样本分布与假设的理论分布越一致;两者之差越大,说明样本分的理论分布越一致;两者之差越大,说明样本分布与假设的理论分布越不一致。布与假设的理论分布越不一致。理理论论
6、频频数数也也称为期望次数称为期望次数。第9页,共27页,编辑于2022年,星期五二单向表的2检验(配合度检验)把实得的点计数据只按一种分类标准编制把实得的点计数据只按一种分类标准编制成表就是单向表。对单向表的数据所进行的成表就是单向表。对单向表的数据所进行的2 2检验,称为单向表的检验,称为单向表的2 2检验,也称为配合度检验,也称为配合度检验(检验(goodness of fit testgoodness of fit test)。)。第10页,共27页,编辑于2022年,星期五1单向表2检验的计算公式单向表中只有一个变量,被按一定标准单向表中只有一个变量,被按一定标准分为分为k 组。单向表
7、组。单向表2 2检验中,检验中,2 2值的计算公值的计算公式可采用(式可采用(15151 1)式,自由度为)式,自由度为dfk1 1。第11页,共27页,编辑于2022年,星期五2单向表2 2检验中理论频数的计算两种情形各类别理论频数相等各类别理论频数符合一定的比例计算要点第12页,共27页,编辑于2022年,星期五32检验的计算表15-1 单向表2检验计算表分组分组分组分组分组分组总总 和和2 第13页,共27页,编辑于2022年,星期五例1:随机抽取随机抽取6060名学生,询问他们在高中名学生,询问他们在高中是否需要文理分科,赞成分科的是否需要文理分科,赞成分科的3939人,反对分人,反对
8、分科的科的2121人,问他们对分科的意见是否有显著差人,问他们对分科的意见是否有显著差异?异?解:1.提出假设H H0 0:学生对分科的意见没有显著差异:学生对分科的意见没有显著差异H H1 1:学生对分科的意见有显著差异:学生对分科的意见有显著差异 2.选择检验统计量并计算对点计数据进行差异检验对点计数据进行差异检验,可选择可选择2 2检验检验第14页,共27页,编辑于2022年,星期五计 算表15-2 学生对分科意见的2检验计算表赞成赞成39309812.7反对反对2130-9812.7总总 和和60605.4 自由度为自由度为:df=k-1=1第15页,共27页,编辑于2022年,星期五
9、3.统计决断查查2 2值表,当值表,当 df =1=1 时时计算结果为:计算结果为:2=5.4*3.84 2=5.4 6.63,则 0.05 P 0.01结论:学生对高中文理分科的态度有显著差异。结论:学生对高中文理分科的态度有显著差异。第16页,共27页,编辑于2022年,星期五例2:大学某系大学某系5454位老年教师中,健康状况位老年教师中,健康状况属于好的有属于好的有1515人,中等的有人,中等的有2323人,差的有人,差的有1616人。人。问该校老年教师健康状况好、中、差的人数比问该校老年教师健康状况好、中、差的人数比例是否为例是否为1 1:2 2:1 1?1.1.提出假设提出假设H
10、H0 0:健康状况好、中、差的人数比例是:健康状况好、中、差的人数比例是1 1:2 2:1 1H H1 1:健康状况好、中、差的人数比例不是:健康状况好、中、差的人数比例不是1 1:2 2:1 1第17页,共27页,编辑于2022年,星期五2.计 算表15-4 老年教师健康状况的2检验计算表好好1513.51.52.250.167中中2327.0-4.016.00.593差差1613.52.56.250.463总总 和和54541.22第18页,共27页,编辑于2022年,星期五3.3.结结 论论查查2 2值表,当值表,当 df =k-1=2-1=2 时时计算结果为:计算结果为:2=1.222
11、=1.22 5.99,则,则 P 0.05结论:理论频数与实际频数差异不显著结论:理论频数与实际频数差异不显著,表明该校表明该校老年教师健康状况的人数比例是老年教师健康状况的人数比例是1:2:1。第19页,共27页,编辑于2022年,星期五42 2的连续性校正当当dfdf1 1时,其中只要有一个组的时,其中只要有一个组的理论频理论频数数小于小于5 5,就要运用亚茨(,就要运用亚茨(YatesYates)连续性)连续性校正校正法,计算公式为:法,计算公式为:(152)第20页,共27页,编辑于2022年,星期五例3:历年优秀学生干部中男女比例为历年优秀学生干部中男女比例为2 2:8 8,今年优秀
12、学生干部中有,今年优秀学生干部中有3 3个男生,个男生,7 7个女生。问个女生。问今年优秀学生干部的性别比例与往年是否有显著差今年优秀学生干部的性别比例与往年是否有显著差异?异?1.1.提出假设提出假设H H0 0:今年优秀学生干部的性别比例与往年没有显著差异:今年优秀学生干部的性别比例与往年没有显著差异H H1 1:今年优秀学生干部的性别比例与往年有显著差异:今年优秀学生干部的性别比例与往年有显著差异第21页,共27页,编辑于2022年,星期五2.计 算表15-5 学生干部性别比例的2检验计算表男男3210.50.250.125女女78-10.50.250.031总和总和10100.156自
13、由度为自由度为:df=k-1=1第22页,共27页,编辑于2022年,星期五3.统计决断查查2 2值表,当值表,当 df =1=1 时时计算结果为:计算结果为:2=0.1562=0.156 3.84,则,则 P 0.05结论:优秀学生干部中的性别比例与往年一样。结论:优秀学生干部中的性别比例与往年一样。思考:为什么只有思考:为什么只有 df=1 时需要校正时需要校正?第23页,共27页,编辑于2022年,星期五三频数分布正态性的2检验实际应用中,常常需要对一组数据的分布是否实际应用中,常常需要对一组数据的分布是否符合正态的情况进行检验。除了用累积分布曲线的符合正态的情况进行检验。除了用累积分布
14、曲线的形状和皮尔逊的经验公式进行大致判断之外,对实形状和皮尔逊的经验公式进行大致判断之外,对实际频数分布与理论频数的分布是否一致的际频数分布与理论频数的分布是否一致的2 2检验检验是对数据分布形态进行检验的比较精确和可靠的方是对数据分布形态进行检验的比较精确和可靠的方法。法。第24页,共27页,编辑于2022年,星期五频数分布正态性检验的基本思路将待检验的一组数据列成次数分布表。将待检验的一组数据列成次数分布表。根据次数分布表的分组界限,计算出该组根据次数分布表的分组界限,计算出该组数据正态分布情况下的理论频数。数据正态分布情况下的理论频数。对实际频数与理论频数是否一致进行对实际频数与理论频数
15、是否一致进行2 2检验。检验。如何计算各组的理论频数?第25页,共27页,编辑于2022年,星期五频数分布正态性检验的计算要点将次数分布表中各分组区间的上、下将次数分布表中各分组区间的上、下限转换成标准分数限转换成标准分数Z Z值;值;根据各组上、下限根据各组上、下限Z Z值查表,寻找值查表,寻找Z Z0 0至各组上、下限至各组上、下限Z Z值之间的面积;值之间的面积;求各组的面积(即概率)。求各组的面积(即概率)。计算中应注意Z值的正、负号。第26页,共27页,编辑于2022年,星期五将各组的面积与总频数相乘,求出各组的将各组的面积与总频数相乘,求出各组的理论频数。理论频数。计算理论频数时,两端若有任何一组的理论频计算理论频数时,两端若有任何一组的理论频数小于数小于5 5,需要将这组的理论频数与相邻组的理论,需要将这组的理论频数与相邻组的理论频数合并。如果合并后仍然小于频数合并。如果合并后仍然小于5 5,可再合并,直,可再合并,直至大于至大于5 5为止。为止。根据计算出的理论频数与表中的实际频数,根据计算出的理论频数与表中的实际频数,计算各组的计算各组的2 2值,并将各组值,并将各组2 2值相加,得到最终值相加,得到最终的的2 2值。(注意值。(注意:自由度为自由度为 df=k-3 )第27页,共27页,编辑于2022年,星期五
限制150内