32独立性检验的基本思想及其初步应用(2课时选修2-3).ppt
《32独立性检验的基本思想及其初步应用(2课时选修2-3).ppt》由会员分享,可在线阅读,更多相关《32独立性检验的基本思想及其初步应用(2课时选修2-3).ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、独立性检验独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心在日常生活中,我们常常关心分类变量之间是否有关系分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。性别是否对于喜欢数学课程有影响?等等。吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所
2、随机地调查了地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。肺癌的可能性大。0.54%0.54%2.28%2.28%探究探究n列联表n定义:列出的两个分类变量的称为列联表n22列联表n一般地,假设两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(也称为22列联表)为下表.频数表x1,x2y1,y2n一般地,假设有两个分类变量X和Y
3、,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(即22列联表)为:n(其中n 为样本容量)y1y2合计x1ababx2cdcd总计 acbdabcdabcd不患肺癌患肺癌吸烟不吸烟不患肺癌患肺癌吸烟不吸烟080007000600050004000300020001000三维柱形图二维条形图在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上两个柱形高度的乘积相差越大,两个分类变量有关系的可能性就越大.等高条形图等高条形图与表格相比,更能直观地反映出两个分类变量间是否互相影响常用等高条形图展示列联表数据的频率特征 不吸烟不吸烟吸烟吸烟患肺癌比例不患肺癌比例等高条形图等高条形图
4、更清晰地表达了两种情况下患肺癌的比例。某企业为了考察同一种产品在甲、乙两条生产线的某企业为了考察同一种产品在甲、乙两条生产线的产品合格率,同时各抽取产品合格率,同时各抽取100件产品,其中甲线中合件产品,其中甲线中合格产品的个数为格产品的个数为97,乙线中合格产品的个数为,乙线中合格产品的个数为95。请做出列联表,三维柱形图与二维条形图。请做出列联表,三维柱形图与二维条形图。合格不合格总计甲生产线973100乙生产线955100总计1928200n122列联表是传统的调查研究中最常用的方法之一,用于研究两个变量之间相互独立还是存在某种关联性,它适用于分析两个变量之间的关系n2在实际问题中,判断
5、两个分类变量的关系的可靠性时,一般利用随机变量K2来确定,而不利用三维柱形图和二维条形图 上上面面我我们们通通过过分分析析数数据据和和图图形形,得得到到的的直直观观印印象象是是吸吸烟烟和和患患肺肺癌癌有有关关,那那么么事事实实是是否否真真的的如如此此呢呢?这这需需要要用用统统计计观观点点来考察这个问题。来考察这个问题。现在想要知道能够以多大的把握认为现在想要知道能够以多大的把握认为“吸烟与患肺癌有关吸烟与患肺癌有关”,为此先假设为此先假设 H0:吸烟与患肺癌没有关系吸烟与患肺癌没有关系.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+
6、d把表中的数字用字母代替,得到如下用字母表示的列联表把表中的数字用字母代替,得到如下用字母表示的列联表 用用A表示不吸烟,表示不吸烟,B表示不患肺癌,则表示不患肺癌,则“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”等价于等价于“吸烟与患肺癌独立吸烟与患肺癌独立”,即假设,即假设H0等价于等价于 P(AB)=P(A)P(B).因此因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。越大,说明吸烟与患肺癌之间关系越强。不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+d
7、a+b+c+d在表中,在表中,a恰好为事件恰好为事件AB发生的频数;发生的频数;a+b和和a+c恰好分别为事恰好分别为事件件A和和B发生的频数。由于频率接近于概率,所以在发生的频数。由于频率接近于概率,所以在H0成立的条成立的条件下应该有件下应该有 为为了了使使不不同同样样本本容容量量的的数数据据有有统统一一的的评评判判标标准准,基基于于上上述述分分析,我们构造一个随机变量析,我们构造一个随机变量-卡方统计量卡方统计量(1)若若 H0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则K2应很小。应很小。根据表根据表3-7中的数据,利用公式(中的数据,利用公式(1)计算得到)计
8、算得到K2的观测值为:的观测值为:那么这个值到底能告诉我们什么呢?那么这个值到底能告诉我们什么呢?(2)独立性检验独立性检验k k大小的标准是什么呢?大小的标准是什么呢?独立性检验独立性检验首先,假设结论不成立,即首先,假设结论不成立,即 H:两个分类变量没有关系:两个分类变量没有关系 (在这种假设下(在这种假设下k应该很小)应该很小)其次,由观测数据计算其次,由观测数据计算K 的观测值的观测值k,(如果(如果k很大,则在一定可信程度上说明很大,则在一定可信程度上说明H 不不成立成立,即两个分类变量之间有关系)即两个分类变量之间有关系)最后,根据最后,根据k的值判断假设是否成立的值判断假设是否
9、成立2临界值表:0.500.400.250.150.100.050.0250.0100.0050.0010.4450.7081.3232.0722.7063.8415.0246.6357.87910.828这种判断可能有错误,但是犯错误的不会超过这种判断可能有错误,但是犯错误的不会超过0.001,这是个小概率时间,我们有,这是个小概率时间,我们有99.9%的把的把握认为握认为“吸烟与患癌症有关系吸烟与患癌症有关系”n利用随机变量K2来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验在吸烟与患肺病这两个分类变量的计算中,下列说法正确在吸烟与患肺病这两个分类变量的计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 32 独立性 检验 基本 思想 及其 初步 应用 课时 选修
限制150内