32独立性检验的基本思想及其应用.ppt
《32独立性检验的基本思想及其应用.ppt》由会员分享,可在线阅读,更多相关《32独立性检验的基本思想及其应用.ppt(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、3.2 独立性检验的基独立性检验的基本思想及其初步应用本思想及其初步应用高二数学高二数学 选修选修2-3 第三章第三章 统计案例统计案例两个相关的概念两个相关的概念 对于性别变量,其取值为男和女两种,这种变量的不同对于性别变量,其取值为男和女两种,这种变量的不同“值值”表示个体所属的不同类别,像这样的变量称为分类变量,表示个体所属的不同类别,像这样的变量称为分类变量,也称为属性变量或定性变量,它们的取值一定是离散的,其不也称为属性变量或定性变量,它们的取值一定是离散的,其不同的取值仅表示个体所属的不同类别,除了起分类作用外,无同的取值仅表示个体所属的不同类别,除了起分类作用外,无其他含义,有时
2、也把分类变量的不同取值用数字表示,但这些其他含义,有时也把分类变量的不同取值用数字表示,但这些数字只起区分作用,无数值意义数字只起区分作用,无数值意义. .(1 1)分类变量)分类变量 定量变量的取值一定是实数,它们的取值大小有特定的定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义含义,不同取值之间的运算也有特定的含义. .(2 2)定量变量)定量变量 例如身高、体重、考试成绩等,张明的身高是例如身高、体重、考试成绩等,张明的身高是180cm180cm,李立的,李立的身高是身高是175cm175cm,说明张明比李立高,说明张明比李立高180-175=518
3、0-175=5(cmcm). .性别是否喜欢数学课程吸烟患肺癌在日常生活中,我们常常关心在日常生活中,我们常常关心分类变量之间是否有关系分类变量之间是否有关系2 2定定量量变变量量回回归归分分析析(画画散散点点图图、相相关关系系数数r r、变变量量 相相关关指指数数R R 、残残差差分分析析)分分类类变变量量独立性检验独立性检验本节研究的是本节研究的是两个分类变量的独立性检验问题两个分类变量的独立性检验问题. .定量变量:体重、身高、温度、考试成绩等等定量变量:体重、身高、温度、考试成绩等等. .变量变量 分类变量:性别、是否吸烟、是否患肺癌、分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、
4、国籍等等宗教信仰、国籍等等. .5 5月月3131日是世界无烟日,有关医学研究表日是世界无烟日,有关医学研究表明,许多疾病,如:心脏病、癌症、脑血明,许多疾病,如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀吸烟已成为继高血压之后的第二号全球杀手手. .这些疾病与吸烟有关的结论是怎么得这些疾病与吸烟有关的结论是怎么得出的呢?我们来看下面的问题出的呢?我们来看下面的问题. .吸烟与患肺癌列联表吸烟与患肺癌列联表列联表列联表%54. 0%100781742%28. 2%100214849吸烟是否对患肺癌有影响?思考思
5、考1)1)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:三维柱形图三维柱形图从三维柱形图能清晰看出各个频数的相对大小从三维柱形图能清晰看出各个频数的相对大小.2)2)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:二维条形图二维条形图从二维条形图能看出,吸烟者中患肺癌的比例高于从二维条形图能看出,吸烟者中患肺癌的比例高于不患肺癌的比例不患肺癌的比例.3)3)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:等高条形图等高条形图患病患病比例比例不患病不患病比例比例等高条形图更清晰地表达了两种情况下患肺癌的比例等高
6、条形图更清晰地表达了两种情况下患肺癌的比例.通过数据和图形分析,我们得到的直观判断是通过数据和图形分析,我们得到的直观判断是“吸烟和患肺癌吸烟和患肺癌有关有关”.吸烟患肺癌吸烟与患肺癌列联表 为了回答上述问题,我们先假设为了回答上述问题,我们先假设 H0:吸烟与患肺癌没有关系吸烟与患肺癌没有关系. . 用用A表示不吸烟,表示不吸烟,B表示不患肺癌,则表示不患肺癌,则“吸烟与患肺癌吸烟与患肺癌没有关系没有关系”等价于等价于“吸烟与患肺癌独立吸烟与患肺癌独立”,即假设,即假设H0等价于等价于 P(AB)=P(A)P(B).把表中的数字用字母代替,得到如下用字母表示的列联表把表中的数字用字母代替,得
7、到如下用字母表示的列联表(a+b+c+d)a(a+b)(a+c)adbc0|ad-bc|越小吸烟与患肺癌之间的关系越弱|ad-bc|越大吸烟与患肺癌之间的关系越强在表中,在表中,a恰好为事件恰好为事件AB发生的频数;发生的频数;a+b和和a+c恰好分别为事件恰好分别为事件A和和B发生的频数发生的频数. .由于频率接近于概率,所以在由于频率接近于概率,所以在H0成立的条件下成立的条件下应该有应该有ncanbana(n=a+b+c+d)dbcadcbabcadnK22独立性检验其中其中n=a+b+c+d为样本容量为样本容量. .若H0成立K2应该很小632.56919874214878172099
8、4249777599652kK2的观察值 为了使不同样本容量的数据有统一的评判标准,基于上述为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量分析,我们构造一个随机变量-卡方统计量卡方统计量(1)根据前面表格中的数据,利用公式(根据前面表格中的数据,利用公式(1)计算得到)计算得到K2的观测值为:的观测值为:那么这个值到底能告诉我们什么呢?那么这个值到底能告诉我们什么呢? 统计学家经过研究后发现,在统计学家经过研究后发现,在H H0 0成立的情况下,成立的情况下,即在即在H H0 0成立的情况下,成立的情况下,K K2 2的值大于的值大于6.6356.635的概率非常
9、小,近似的概率非常小,近似于于0.010.01,是一个小概率事件,是一个小概率事件. .2(6.635)0.01.P K (2) 也就是说,在也就是说,在H H0 0成立的情况下,对随机变量成立的情况下,对随机变量K K2 2进行多次观测,进行多次观测,观测值超过观测值超过6.6356.635的频率约为的频率约为0.010.01思考 206.635?KH如果,就断定不成立,这种判断出错的可能性有多大 在(在(2 2)中,)中,n越大,近似程度越高,在实际应用中,通常越大,近似程度越高,在实际应用中,通常要求要求a,b,c,d都不小于都不小于5.5. .%99,%99.01. 02,635. 6
10、632.5600吸烟与肺癌有关系的把握认为即有不成立的把握认为因此我们有观测值的概率不超过式可知能够出现这样的由成立的条件下在远远大于现在观测值HHk 上面解决问题的想法类似于反证法.要判断“两个分类变量有关系” ,首先假设该结论不成立,即“两个分类变量没有关系” ,在该假设成立的条件下随机变量 k2的值应该很小,如果由观测数据计算得到的 K2的观测值 k 很大,则在一定程度上说明假设不合理,即认为“两个分类变量有关系”;如果观测值 k 很小,则说明在样本数据中没有发现足够证据拒绝“两个分类变量没有关系”怎样判断怎样判断K2的观测值的观测值k是大还是小呢?是大还是小呢? 这仅需要确定一个正数这
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 32 独立性 检验 基本 思想 及其 应用
限制150内