列联表分析.ppt
第九章第九章 列联分析列联分析统计学第九章第九章 列联分析列联分析第一节第一节 列联表列联表 第二节第二节 分布与分布与 检验检验第三节第三节 列联表中的相关测量列联表中的相关测量学习目标学习目标1.解释列联表解释列联表2.进行进行 2 检验检验n n一致性检验一致性检验n n独立性检验独立性检验3.测度列联表中的相关性测度列联表中的相关性数据的类型与列联分析数据的类型与列联分析数数 据据定量数据定量数据(数值型数据数值型数据)定性数据定性数据(品质数据品质数据)离散数据离散数据连续数据连续数据列联分析列联分析品质数据品质数据1.品质随机变量的结果表现为类别n n例如:性别例如:性别 (男男,女女)2.各类别用符号或数字代码来测度3.使用定类或定序尺度n n你吸烟吗你吸烟吗?l l1.1.是;是;2.2.否否n n你赞成还是反对这一改革方案你赞成还是反对这一改革方案?l l1.1.赞成;赞成;2.2.反对反对4.对品质数据的描述和分析通常使用列联表5.可使用检验第一节第一节 列联表列联表一一.列联表的构造列联表的构造二二.列联表的分布列联表的分布列联表的构造列联表的构造列联表列联表(概念要点)(概念要点)1.由两个以上的变量进行交叉分类的频数分布表2.行变量的类别用 r 表示,ri 表示第 i 个类别3.列变量的类别用 c 表示,cj 表示第 j 个类别4.每种组合的观察频数用 fij 表示5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表6.一个 r 行 c 列的列联表称为 r c 列联表列联表的结构列联表的结构(2 2 列联表列联表)列列列列(c cj j)合计合计合计合计j j=1=1j j=1=1i i=1=1f11f12f11+f12i i=2=2f21f22f21+f22合合合合计计计计f11+f21f12+f22n列列列列(c cj j)行行行行(r ri i)一个一个2 2 列联表列联表列联表的结构列联表的结构(r c 列联表的一般表示列联表的一般表示)列列列列(c cj j)合计合计合计合计j j=1=1j j=2 2i i=1=1f11f12r1i i=2=2f21f22r2:合合合合计计计计c1c2n列列列列(c cj j)行行行行(r ri i)r 行行 c 列的列联表列的列联表f fij ij 表示第表示第表示第表示第 i i 行第行第行第行第 j j 列的观察频数列的观察频数列的观察频数列的观察频数列联表列联表(一个实际例子一个实际例子)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计合计合计赞赞成成该该方案方案6868757557577979279279反反对该对该方案方案3232757533333131141141合合合合计计计计1001001201209090110110420420【例例例例】一一个个集集团团公公司司在在四四个个不不同同的的地地区区设设有有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改革革,此此项项改改革革可可能能涉涉及及到到各各分分公公司司的的利利益益,故故采采用用抽抽样样调调查查方方式式,从从四四个个分分公公司司共共抽抽取取420420个个样样本本单位单位(人人),了解职工对此项改革的看法,调查结果如下表,了解职工对此项改革的看法,调查结果如下表列联表的分布列联表的分布观察值的分布观察值的分布(概念要点)(概念要点)1.边缘分布边缘分布n n行边缘分布行边缘分布l l行观察值的合计数的分布行观察值的合计数的分布l l例如,赞成改革方案的共有例如,赞成改革方案的共有279279人,反对改革方案的人,反对改革方案的141141人人n n列边缘分布列边缘分布l l列观察值的合计数的分布列观察值的合计数的分布l l例例如如,四四个个分分公公司司接接受受调调查查的的人人数数分分别别为为100100人人,120120人人,9090人,人,110110人人2.条件分布与条件频数条件分布与条件频数n n变变量量 X X 条条件件下下变变量量 Y Y 的的分分布布,或或在在变变量量 Y Y 条条件件下下变变量量 X X 的分布的分布n n每个具体的观察值称为条件频数每个具体的观察值称为条件频数观察值的分布观察值的分布(图示)(图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计合计合计赞赞成成该该方案方案6868757557577979279279反反对该对该方案方案3232454533333131141141合合合合计计计计1001001201209090110110420420行边缘分布行边缘分布行边缘分布行边缘分布列边缘分布列边缘分布列边缘分布列边缘分布条件频数条件频数条件频数条件频数百分比分布百分比分布(概念要点)(概念要点)1.条件频数反映了数据的分布,但不适合进行对比2.为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布n n行行百百分分比比:行行的的每每一一个个观观察察频频数数除除以以相相应应的的行行合计数(合计数(f fij ij /r ri i)n n列列百百分分比比:列列的的每每一一个个观观察察频频数数除除以以相相应应的的列列合计数(合计数(f fij ij /c cj j )n n总总百百分分比比:每每一一个个观观察察值值除除以以观观察察值值的的总总个个数数(f fij ij /n n)百分比分布百分比分布(图示)(图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计合计合计赞赞成成该该方案方案24.4%24.4%26.9%26.9%20.4%20.4%28.3%28.3%66.4%66.4%68.0%68.0%62.5%62.5%63.3563.3571.8%71.8%16.2%16.2%17.8%17.8%13.6%13.6%18.8%18.8%反反对该对该方案方案22.7%22.7%31.9%31.9%23.4%23.4%22.0%22.0%33.6%33.6%32.0%32.0%37.5%37.5%36.7%36.7%28.2%28.2%7.6%7.6%10.7%10.7%7.9%7.9%7.4%7.4%合合合合计计计计23.8%23.8%28.6%28.6%21.4%21.4%26.2%26.2%100%100%总百分比总百分比总百分比总百分比列百分比列百分比列百分比列百分比行百分比行百分比行百分比行百分比期望频数的分布期望频数的分布(概念要点)(概念要点)1.假定行变量和列变量是独立的2.一个实际频数 fij 的期望频数 eij,是总频数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即期望频数的分布期望频数的分布(算例)(算例)由于观察频数的总数为由于观察频数的总数为n n ,所以,所以f f1111 的期望频数的期望频数 e e11 11 应为应为 例例如如,第第1 1行行和和第第1 1列列的的实实际际频频数数为为 f f1111 ,它它落落在在第第1 1行行的的概概率率估估计计值值为为该该行行的的频频数数之之和和r r1 1除除以以总总频频数数的的个个数数 n n ,即即:r r1 1/n n;它它落落在在第第1 1列列的的概概率率的的估估计计值值为为该该列列的的频频数数之之和和c c1 1除除以以总总频频数数的的个个数数 n n ,即即:c c1 1/n n。根根据据概概率率的的乘法公式,该频数落在第乘法公式,该频数落在第1 1行和第行和第1 1列的概率应为列的概率应为期望频数的分布期望频数的分布(算例)(算例)根据上述公式计算的前例的期望频数一分公司一分公司一分公司一分公司二分公司二分公司二分公司二分公司三分公司三分公司三分公司三分公司四分公司四分公司四分公司四分公司赞赞赞赞成成成成该该该该方案方案方案方案实际频实际频实际频实际频数数数数68755779期望期望期望期望频频频频数数数数66806073反反反反对该对该对该对该方案方案方案方案实际频实际频实际频实际频数数数数32453331期望期望期望期望频频频频数数数数34403037第二节第二节 分布与分布与 检验检验一一.统计量统计量二二.检验检验 统计量统计量 统计量统计量(要点)(要点)1.用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立2.计算公式为 统计量统计量(算例)(算例)实际频数实际频数实际频数实际频数(f fij ij)期望频数期望频数期望频数期望频数(e eij ij)f fij ij-e eij ij(f fij ij-e eij ij)2 2(f fij ij-e eij ij)2 2f f68687575575779793232454533333131666680806060737334344040303037372 2-5-5-3-36 6-2-25 53 3-6-64 425259 936364 425259 936360.06060.06060.31250.31250.15000.15000.49320.49320.11760.11760.62500.62500.30000.30000.97300.9730合计:合计:合计:合计:3.03193.0319 检验检验品质数据的假设检验品质数据的假设检验品质数据品质数据比例检验比例检验独立性检验独立性检验Z 检验检验一个总体一个总体 检验检验Z 检验检验 检验检验两个以上总体两个以上总体两个总体两个总体一致性检验一致性检验(要点)(要点)1.1.检验列联表中目标变量之间是否存在显著性差异检验列联表中目标变量之间是否存在显著性差异2.2.检验的步骤为检验的步骤为n n提出假设提出假设l lH H0 0:P P1 1 =P P2 2 =P Pj j (目标变量的各个比例一致目标变量的各个比例一致)l lH H1 1:P P1 1 ,P P2 2 ,P Pj j 不全相等不全相等 (各个比例不一致各个比例不一致)n n计算检验的统计量计算检验的统计量n n进行决策进行决策l l根据显著性水平根据显著性水平 和自由度和自由度(r r-1)(-1)(c c-1)-1)查出临界值查出临界值 2 2l l若若 2 2 2 2,拒绝,拒绝H H0 0;若若 2 2 2 2,接受,接受H H0 0一致性检验一致性检验(实例)(实例)1.1.提出假设提出假设n nH H0 0:P P1 1 =P P2 2 =P P2 2 =P P4 4 (赞成比例一致赞成比例一致)n nH H1 1:P P1 1 ,P P2 2 ,P P3 3 ,P P4 4不全相等不全相等 (赞成比例不一致赞成比例不一致)2.2.计算检验的统计量计算检验的统计量【例例例例】续续前前例例,检检验验职职工工的的态态度度是是否否与与所所在在单单位位有有关关?(0.10.1)3.3.根根据据显显著著性性水水平平 0.10.1和和自自由由度度(2-1)(4-1)=3(2-1)(4-1)=3查查出出相相应应的的临临界界值值 2 2=6.251=6.251。由由于于 2 2=3.0319=3.0319 2 2=6.251=6.251,接受,接受H H0 0独立性检验独立性检验(要点)(要点)1.1.检验列联表中的行变量与列变量之间是否独立检验列联表中的行变量与列变量之间是否独立2.2.检验的步骤为检验的步骤为n n提出假设提出假设l lH H0 0:行变量与列变量独立行变量与列变量独立l lH H1 1:行:行变量与列变量不独立变量与列变量不独立n n计算检验的统计量计算检验的统计量n n进行决策进行决策l l根据显著性水平根据显著性水平 和自由度和自由度(r r-1)(-1)(c c-1)-1)查出临界值查出临界值 2 2l l若若 2 2 2 2,拒绝,拒绝H H0 0;若若 2 2 29.448,拒绝H0第三节第三节 列联表中的相关测量列联表中的相关测量一一.相关系数相关系数二二.列联相关系数列联相关系数三三.V 相关系数相关系数列联表中的相关测量列联表中的相关测量(一般问题)(一般问题)1.品质相关n n对品质数据对品质数据(定类和定序数据定类和定序数据)之间相关程之间相关程度的测度度的测度2.列联表变量的相关属于品质相关3.列联表相关测量的指标主要有n n 相关系数相关系数n n列联相关系数列联相关系数n nV V 相关系数相关系数 相关系数相关系数(要点)(要点)1.测度 22列联表中数据相关程度的一个量2.对于22 列联表,系数的值在01之间3.相关系数计算公式为 相关系数相关系数(原理分析)(原理分析)一个简化的一个简化的 2 2 列联表列联表因素因素因素因素Y Y因素因素因素因素 X X合计合计合计合计x x1 1x x2 2y y1 1aba+by y2 2cdc+d合合合合计计计计a+cb+dn 相关系数相关系数(原理分析)(原理分析)1.列联表中每个单元格的期望频数分别为列联表中每个单元格的期望频数分别为2.将各期望频数代入将各期望频数代入 的计算公式得的计算公式得 相关系数相关系数(原理分析)(原理分析)3.将将 入入 相关系数的计算公式得相关系数的计算公式得 ad ad 等于等于 bcbc ,=0=0,表明变量表明变量X X 与与 Y Y 之间独立之间独立 若若 b b=0=0 ,c c=0=0,或或a a=0=0 ,d d=0=0,意意味味着着各各观观察察频频数数全全部部落落在在对对角角线线上上,此此时时|=1=1,表表明明变变量量X X 与与 Y Y 之间完全相关之间完全相关4.列列联联表表中中变变量量的的位位置置可可以以互互换换,的的符符号号没没有有实际意义,故取绝对值即可实际意义,故取绝对值即可列联列联相关系数相关系数(要点)(要点)1.用于测度大于22列联表中数据的相关程度2.计算公式为 C C 的取值范围是的取值范围是 0 0 C C11 C C=0=0表明列联表中的两个变量独立表明列联表中的两个变量独立 C C 的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,并随行数和列数的增大而增大并随行数和列数的增大而增大 根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便于比较便于比较V V 相关系数相关系数(要点)(要点)1.计算公式为计算公式为2.V V 的取值范围是的取值范围是 0 0 V V 1 13.V V=0=0表明列联表中的两个变量独立表明列联表中的两个变量独立4.V V=1=1表明列联表中的两个变量完全相关表明列联表中的两个变量完全相关5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较6.当当列列联联表表中中有有一一维维为为2 2,min(min(r r-1),(-1),(c c-1)=1,-1)=1,此此时时V V=、C C、V V 的比较的比较1.同一个列联表,、C、V 的结果会不同2.不同的列联表,、C、V 的结果也不同3.在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数列联表中的相关测量列联表中的相关测量(一个实例)(一个实例)【例例例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500500件件进进行行检检验验,结结果果如如下表。分别计算下表。分别计算 系数、系数、C C系数和系数和V V系数,并分析相关程度系数,并分析相关程度地区地区地区地区一级一级一级一级二级二级二级二级三级三级三级三级合计合计合计合计甲地区甲地区甲地区甲地区525264642424140140乙地区乙地区乙地区乙地区606059595252171171丙地区丙地区丙地区丙地区505065657474189189合合合合计计计计162162188188150150500500列联表中的相关测量列联表中的相关测量(一个实例)(一个实例)解解解解:已已知知n n=500=500,根根据据前前面面的的计计算算 19.8219.82,列列联联表表为为3 3 3 3结论:结论:结论:结论:三个系数均不高,表明产地和原料等级之三个系数均不高,表明产地和原料等级之 间的相关程度不高间的相关程度不高本章小结本章小结1.解释列联表解释列联表2.计算期望频数计算期望频数3.进行进行 2 检验检验n n一致性检验一致性检验n n独立性检验独立性检验4.对列联表进行相关分析对列联表进行相关分析5.用用Excel进行进行 2 检验检验结结 束束