2020高中数学第三章统计案例.2独立性检验的基本思想及其初步应用讲义.pdf
学必求其心得,业必贵于专精 -1-3。2 独立性检验的基本思想及其初步应用 知识点 分类变量及 22 列联表 1分类变量 变量的不同“值表示个体所属的错误!不同类别,像这样的变量称为分类变量 2列联表(1)定义:列出的两个分类变量的错误!频数表,称为列联表(2)22 列联表 一般地,假设有两个分类变量X和Y,它们的取值分别为错误!x1,x2和错误!y1,y2,其样本频数列联表(也称为 22 列联表)为下表 y1 y2 总计 x1 a b ab x2 c d cd 总计 ac bd abcd 知识点 等高条形图 学必求其心得,业必贵于专精 -2-(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否错误!相互影响,常用等高条形图展示列联表数据的错误!频率特征(2)观察等高条形图发现错误!和错误!相差很大,就判断两个分类变量之间错误!有关系 知识点 独立性检验 1列联表与等高条形图 列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的学必求其心得,业必贵于专精 -3-差异,进而推断它们之间是否具有关联关系 2对独立性检验思想的理解 独立性检验的基本思想类似于数学中的反证法先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理K2越大,两个分类变量有关系的可能性越大 1判一判(正确的打“”,错误的打“”)(1)分类变量中的变量与函数中的变量是同一概念()(2)列联表频率分析法、等高条形图可初步分析两分类变量是否有关系,而独立性检验中K2取值则可通过统计表从数据上说明两分类变量的相关性的大小()(3)独立性检验的方法就是反证法()答案(1)(2)(3)2做一做(1)为了调查高中生的性别与是否喜欢踢足球之间有无关系,一般需要收集以下数据_(2)若观测值k7.8,得到的正确结论是在犯错误的概率不超过_的前提下认为“爱好该项运动与性别有关”学必求其心得,业必贵于专精 -4-(3)独立性检验中,假设H0:变量x与变量y没有关系则在H0成立的情况下,估计概率P(K26。635)0。01 表示的意义是变量x与变量y_(填“有关系”或“无关系”)的概率是99.答案(1)男女生中喜欢和不喜欢踢足球的人数(2)1%(3)有关系 解析(1)为了调查高中生的性别与是否喜欢踢足球之间有无关系,一般需要收集男女生中喜欢和不喜欢踢足球的人数,再得出 22列联表,最后代入随机变量的观测值公式,得出结果(2)因为 7。86。635,所以这个结论有 0.011%的机会说错,在犯错误的概率不超过 1%的前提下认为“爱好该项运动与性别有关”(3)因为概率P(K26。635)0。01,所以两个变量有关系的可信度是 10。0199,即两个变量有关系的概率是 99%.探究错误!独立性检验的基本思想 例 1 在吸烟与患肺病这两个分类变量中,下列说法正确的是()A若K2的观测值k6。635,我们有 99%的把握认为吸烟与患肺病有关系,那么在 100 个吸烟的人中必有 99 个人患有肺病 学必求其心得,业必贵于专精 -5-B 从独立性检验可知有 99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有 99%的可能患有肺病 C若从统计量中求出有 95%的把握认为吸烟与患肺病有关系,是指有 5%的可能性使得推断出现错误 D以上三种说法都不正确 解析 独立性检验的结果是一种相关关系,不是确定性关系,反映的是有关或无关的概率的大小,故 A 错误,B 错误,C 正确答案选 C。答案 C 拓展提升 本例考查独立性检验的基本思想,相关性检验的结果是一种相关关系,而不是确定性关系,是反映有关和无关的概率本题考查学生对基本知识的理解 跟踪训练1 给出下列实际问题,其中不可以用独立性检验解决的是 ()A喜欢参加体育锻炼与性别是否有关 B喝酒者得胃病的概率 C喜欢喝酒与性别是否有关 学必求其心得,业必贵于专精 -6-D青少年犯罪与上网成瘾是否有关 答案 B 解析 独立性检验主要是对两个分类变量是否有关进行检验,故不可用独立性检验解决的问题是B.故选 B.跟踪训练2 通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 由K2错误!算得,K2错误!7。8。附表:P(K2k0)0。050 0。010 0.001 k0 3.841 6。635 10.828 参照附表,得到的正确结论是()A在犯错误的概率不超过 0。1%的前提下,认为“爱好该项运动与性别有关”学必求其心得,业必贵于专精 -7-B在犯错误的概率不超过 0.1的前提下,认为“爱好该项运动与性别无关”C有 99%以上的把握认为“爱好该项运动与性别有关”D有 99以上的把握认为“爱好该项运动与性别无关 答案 C 解析 根据独立性检验的定义,由k27.86。635 可知在犯错误的概率不超过 0.01 的前提下,认为“爱好该项运动与性别有关,即有 99%以上的把握认为“爱好该项运动与性别有关”故选 C。探究错误!用等高条形图判断两个变量是否相关 例 2 为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:药物效果试验列联表 患病 未患病 总计 服用药 10 45 55 未服用药 20 30 50 总计 30 75 105 试用等高条形图分析服用药和患病之间是否有关系 解 根据列联表所给的数据可得出服用药患病的频率为错误!学必求其心得,业必贵于专精 -8-0.18,未服用药患病的频率为错误!0。4,两者的差距是0.180.40。22,两者相差很大,作出等高条形图如图所示,因此服用药与患病之间有关系的程度很大 拓展提升 应用等高条形图判断两变量是否相关的方法 在等高条形图中,可以估计满足条件Xx1的个体中具有Yy1的个体所占的比例错误!,也可以估计满足条件Xx2的个体中具有Yy1的个体所占的比例错误!.“两个比例的值相差越大,H1成立的可能性就越大”错误!某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426 人中有 332 人在考前心情紧张,性格外向的学生 594 人中有 213 人在考前心情紧张,作出等高条形图,利用图形学必求其心得,业必贵于专精 -9-判断考前心情紧张与性格类型是否有关系 解 作列联表如下:性格内向 性格外向 总计 考前心情紧张 332 213 545 考前心情不紧张 94 381 475 总计 426 594 1020 相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关 探究错误!由K2进行独立性检验 例 3 某校对学生课外活动进行调查,结果整理成下表:学必求其心得,业必贵于专精 -10-体育 文娱 合计 男生 21 23 44 女生 6 29 35 合计 27 52 79 试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005 的前提下,认为“喜欢体育还是文娱与性别有关系”?解 其等高条形图如图所示 由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系,但只能作粗略判断,具体判断方法如下:假设“喜欢体育还是喜欢文娱与性别没有关系”,a21,b23,c6,d29,n79.K2nadbc2abcdacbd 学必求其心得,业必贵于专精 -11-错误!8。106.且P(K27.879)0.005,即我们得到的K2的观测值k8.106,超过 7。879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于 0。005,即在犯错误的概率不超过 0。005的前提下认为“喜欢体育还是喜欢文娱与性别有关”拓展提升 独立性检验的具体做法(1)根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界,然后查表确定临界值k0.(2)利用公式K2错误!计算随机变量K2的观测值k。(3)如果kk0,推断“X与Y有关系”这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”错误!某地区甲校高二年级有1100 人,乙校高二年级有 900 人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用学必求其心得,业必贵于专精 -12-分层抽样的方法在两校共抽取了 200 名学生的数学成绩,如下表:(已知本次测试合格线是 50 分,两校合格率均为 100)甲校高二年级数学成绩:分组 50,60)60,70)70,80)80,90)90,100 频数 10 25 35 30 x 乙校高二年级数学成绩:分组 50,60)60,70)70,80)80,90)90,100 频数 15 30 25 y 5 (1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到 1 分);(2)若数学成绩不低于 80 分为优秀,低于 80 分为非优秀,根据以上统计数据填写下面 22 列联表,并回答能否在犯错误的概率不超过 0。05 的前提下认为“两个学校的数学成绩有差异?”学必求其心得,业必贵于专精 -13-甲校 乙校 总计 优秀 非优秀 总计 解(1)依题意知甲校应抽取 110 人,乙校应抽取 90 人,x10,y15,估计两个学校的平均分,甲校的平均分为 错误!75。乙校的平均分为 错误!71.(2)数学成绩不低于 80 分为优秀,低于 80 分为非优秀,得到列联表 甲校 乙校 总计 优秀 40 20 60 非优秀 70 70 140 总计 110 90 200 k错误!4。174,学必求其心得,业必贵于专精 -14-又因为 4。1743。841,故能在犯错误的概率不超过 0.05 的前提下认为“两个学校的数学成绩有差异 1.独立性检验是数理统计的一种方法,是数学中的一种基本理论,是数学体系中对数据关系进行探索的一种基本思想判断两个分类变量是否相关可以通过等高条形图进行粗略判断,也可以通过独立性检验来考察两个分类变量是否有关系,利用公式K2错误!计算出随机变量K2的观测值k,通过查表确定临界值k0.若kk0说明X与Y有关系,否则是没有关系.2.解决一般的独立性检验问题的步骤(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;(2)利用K2错误!求出K2的观测值k;(3)如果kk0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“两个分类变量有关系.其中第(2)步易算错K2的值,是本节课的易错点.学必求其心得,业必贵于专精 -15-1在独立性检验中,假设H0:变量x与变量y没有关系,则在H0成立的情况下,P(K26。635)0.01 表示 ()A变量x与变量y有关系的概率是 1 B变量x与变量y有关系的概率是 99%C变量x与变量y没有关系的概率是 0。1 D变量x与变量y没有关系的概率是 99.9 答案 B 解析 因为P(K26。635)0.01,所以两个变量有关系的可信度是 99%,即两个变量有关系的概率是 99%.故选 B.2某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:文化程度与月收入列联表(单位:人)由上表中数据计算得K2的观测值 k错误!6.109,请估计有多大把握认为“文化程度与月收入有学必求其心得,业必贵于专精 -16-关系”()A1 B99%C2。5 D97。5 答案 D 解析 由于 6.1095。024,故在犯错误的概率不超过 0.025 的前提下,即有 97。5%的把握认为“文化程度与月收入有关系”3如图是某地区男女中学生是否喜欢理科的等高条形图,从图中可以看出 ()A是否喜欢理科与性别无关 B女生中喜欢理科的百分比约为 80 C男生比女生喜欢理科的可能性大 D男生中不喜欢理科的百分比约为 60%答案 C 学必求其心得,业必贵于专精 -17-解析 由等高条形图,可知女生中喜欢理科的百分比约为 10.80.220,男生中喜欢理科的百分比约为10。40。660,因此男生比女生喜欢理科的可能性大故选 C.4为了解某班学生喜爱打篮球是否与性别有关,对该班 50 名学生进行了问卷调查,得到了如下的 22 列联表:喜爱打篮球 不喜爱打篮球 总计 男生 20 5 25 女生 10 15 25 总计 30 20 50 则在犯错误的概率不超过_的前提下认为喜爱打篮球与性别有关(请用百分数表示)答案 0。5%解析 K2错误!错误!8.3337。879,所以在犯错误的概率不超过 0.005 的前提下认为喜爱打篮球与性别有关 5吃零食是在中学生中普遍存在的现象,吃零食对中学生的身学必求其心得,业必贵于专精 -18-体发育有诸多不利影响,并影响他们的健康成长下表是性别与喜欢吃零食的列联表:男 女 合计 喜欢吃零食 5 12 17 不喜欢吃零食 40 28 68 合计 45 40 85 试用等高条形图分析性别与吃零食是否有关系 解 根据列联表所给的数据,可得出男生中喜欢吃零食的频率为错误!0.11,女生中喜欢吃零食的频率为错误!0。3,两者差距是|0。30。11|0.19。两者相差较大,作出等高条形图如图所示,比较图中两个深色的条形可以发现,女生中喜欢吃零食的频率明显高于男生中喜欢吃零食的频率,因此可以认为性别与喜欢吃零食有关系 学必求其心得,业必贵于专精 -19-