独立性检验的基本思想及其初步应用(1).ppt
二个概念二个概念这种变量的不同取这种变量的不同取“值值”表示个体所属的不表示个体所属的不同类别,这类变量称为同类别,这类变量称为分类变量分类变量1.1.分类变量分类变量 对于性别变量,取值为:男、女对于性别变量,取值为:男、女 分类变量分类变量在现实生活中是大量存在的,如是在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。出生月份等等。利用随机变量利用随机变量K K2 2来确定在多大程度上可以认为来确定在多大程度上可以认为”两个分类变量有关系两个分类变量有关系”的方法称为的方法称为两个分类变两个分类变量的独立性检验量的独立性检验.(.(为假设检验的特例为假设检验的特例) ) 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大吸烟者患肺癌的可能性大0.54%0.54%2.28%2.28%1) 通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:二维条二维条形图形图2)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:患肺癌患肺癌比例比例不患肺癌不患肺癌比例比例 独立性检验H H0 0: 吸烟吸烟和和患肺癌患肺癌之间没有关系之间没有关系 H H1 1: 吸烟吸烟和和患患肺癌肺癌之间有关系之间有关系通过数据和图表分析,得到通过数据和图表分析,得到结论是:结论是:吸烟与患肺癌有关吸烟与患肺癌有关结论的可靠结论的可靠程度如何?程度如何? 用用 A A 表示表示“不吸烟不吸烟”, B B 表示表示“不患肺癌不患肺癌”则则 H0: 吸烟和患肺癌之间没有关系 “吸烟吸烟”与与“患肺癌患肺癌”独立独立, ,即即A A与与B B独立独立P(AB)= P(A)P(B)P(AB)= P(A)P(B)等价于等价于等价于等价于 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+da a + + b ba a + + c ca aP P( (A A) ), ,P P( (B B) ), ,P P( (A AB B) )n nn nn n其其 中中 n n = = a a + + b b + + c c + + d dacac,a+bc+da+bc+d a c+d c a+b , a c+d c a+b ,adbcaa+ba+caa+ba+cnnnnnn2 22 2n n(a ad d- -b bc c)K K = =( (a a+ +b b) )( (c c+ +d d) )( (a a+ +c c) )( (b b+ +d d) ) 独立性检验0.adbcad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量引入一个随机变量作为检验在多大程度上可以认为作为检验在多大程度上可以认为“两个变量两个变量有关系有关系”的标准的标准 。1)1)如果如果P(P(m10.828)= 0.00110.828)= 0.001表示有表示有99.9%99.9%的把握认为的把握认为”X X与与Y”Y”有关有关系系; ;2)2)如果如果P(mP(m7.879)= 0.0057.879)= 0.005表示有表示有99.5%99.5%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;3)3)如果如果P(mP(m6.635)= 0.016.635)= 0.01表示有表示有99%99%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;4)4)如果如果P(mP(m5.024)= 0.0255.024)= 0.025表示有表示有97.5%97.5%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;5)5)如果如果P(mP(m3.841)= 0.053.841)= 0.05表示有表示有95%95%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;6)6)如果如果P(mP(m2.706)= 0.0102.706)= 0.010表示有表示有90%90%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;7)7)如果如果m m2.706),2.706),就认为没有充分的证据显示就认为没有充分的证据显示”X X与与Y”Y”有关系有关系; ;设有两个分类变量设有两个分类变量X X和和Y Y它们的值域分别为它们的值域分别为xx1 1,x,x2 2 和和yy1 1,y,y2 2 其样本频数列表其样本频数列表( (称为称为2 22 2列联表列联表) ) 为为y y1 1y y2 2总计总计x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d22列联表22()()()()n ad bcKa b c d a c b d()2 2P(k m)P(k m)适用观测数据适用观测数据a a、b b、c c、d d不小于不小于5 5 独立性检验 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7775427817吸烟吸烟2099492148总计总计9874919965通过公式计算通过公式计算2242 209956.6327817 2148 9874 91K9965(7775 49) 独立性检验已知在已知在 成立的情况下,成立的情况下,0H2(6.635)0.01P K 即在即在 成立的情况下,成立的情况下,K K2 2 大于大于6.6356.635概率非常概率非常小,近似为小,近似为0.010.010H现在的现在的K K2 2=56.632=56.632的观测值远大于的观测值远大于6.6356.635分类变量之间关系条形图列联表独立性检验背景分析例例1.1.在某医院在某医院, ,因为患心脏病而住院的因为患心脏病而住院的665665名男性病人中名男性病人中, ,有有214214人秃顶人秃顶, ,而另外而另外772772名名不是因为患心脏病而住院的男性病人中有不是因为患心脏病而住院的男性病人中有175175人秃顶人秃顶. .分别利用图形和独立性检验方分别利用图形和独立性检验方法判断是否有关法判断是否有关? ?你所得的结论在什么范围你所得的结论在什么范围内有效内有效? ?例例2 2. .为考察高中生性别与是否喜欢数学为考察高中生性别与是否喜欢数学课程之间的关系课程之间的关系, ,在某城市的某校高中生在某城市的某校高中生中随机抽取中随机抽取300300名学生名学生, ,得到如下列联表得到如下列联表: : 性别与喜欢数学课程列联表性别与喜欢数学课程列联表喜欢数学课程喜欢数学课程不喜欢数学课程不喜欢数学课程 总计总计 男男 37 37 85 85 122 122 女女 35 35 143 143 178 178 总计总计 72 72 228 228 300 300由表中数据计算得由表中数据计算得 , ,高中生的高中生的性别与是否喜欢数学课程之间是否有关系性别与是否喜欢数学课程之间是否有关系? ?为什么为什么? ?2 2K 4.513K 4.513acdb独立性检验基本的思想类似独立性检验基本的思想类似反证法反证法( (1)1)假设结论不成立假设结论不成立, ,即即“两个分类变量没有关系两个分类变量没有关系”. .(2)(2)在此假设下随机变量在此假设下随机变量 K K2 2 应该很能小应该很能小, ,如果由观测数据如果由观测数据计算得到计算得到K K2 2的观测值的观测值k k很大很大, ,则在一定程度上说明假设则在一定程度上说明假设不合理不合理. .(3)(3)根据随机变量根据随机变量K K2 2的含义的含义, ,可以通过可以通过评价该假设不合理的程度评价该假设不合理的程度, ,由实际计算出的由实际计算出的, ,说明假设合理的程度为说明假设合理的程度为99.9%,99.9%,即即“两个分类变量有关两个分类变量有关系系”这一结论成立的可信度为约为这一结论成立的可信度为约为99.9%.99.9%.课外作业:P15练习题