2014-2015学年高中数学32独立性检验的基本思想及其初步应用课件1新人教A版选修2-3.ppt
2022-5-28思思想想及及其其初初步步应应用用独独立立性性检检验验的的基基本本2.32022-5-28.,.,.,等等等等国国籍籍宗宗教教信信仰仰否否吸吸烟烟是是例例如如分分类类变变量量是是大大量量存存在在的的生生活活中中在在现现实实像像这这类类变变量量称称为为别别类类表表示示个个体体所所属属的的不不同同值值种种变变量量的的不不同同这这其其取取值值为为男男和和女女两两种种对对于于性性别别变变量量分类变量分类变量.?,.,等等等等影影响响有有程程数数学学课课别别对对于于是是否否喜喜欢欢性性有有关关系系吸吸烟烟与与肺肺癌癌是是否否例例如如量量之之间间是是否否有有关关系系变变我我们们常常常常关关心心两两个个分分类类在在日日常常生生活活中中2022-5-28: ):(,9659,人人单位单位结果结果得到如下得到如下人人了了肿瘤研究所随机地调查肿瘤研究所随机地调查某某癌有影响癌有影响为调查吸烟是否对患肺为调查吸烟是否对患肺探究探究996591987421484920997817427775总总计计吸吸烟烟不不吸吸烟烟总总计计患患肺肺癌癌不不患患肺肺癌癌吸吸烟烟与与患患肺肺癌癌列列联联表表表表73 ?有有影影响响那那么么吸吸烟烟是是否否对对患患肺肺癌癌2022-5-28.:,.%28.2,;%54.0,:.,73在差异在差异肺癌可能存肺癌可能存烟者患烟者患吸烟者和不吸吸烟者和不吸结论结论直观上可以得出直观上可以得出因此因此患有肺癌患有肺癌有有在吸烟者中在吸烟者中患有肺癌患有肺癌有有吸烟者中吸烟者中在不在不估计出估计出表可以粗略表可以粗略癌情况的列联癌情况的列联由吸烟情况和患肺由吸烟情况和患肺称为称为频数表频数表的的样列出的两个分类变量样列出的两个分类变量这这像表像表列联表列联表,.与表格相比 图形能更直观地反映出相关数据的总体状况2022-5-2832.3图图不不吸吸烟烟吸吸烟烟,;.在等高条形图中 绿色的条高表示不患肺癌的百分比 黑色的条高表示患肺癌的百分比2022-5-28?.,呢呢烟烟与与患患肺肺癌癌有有关关吸吸的的把把握握认认为为或或者者说说我我们们能能够够以以多多大大此此呢呢那那么么事事实实是是否否真真的的如如象象是是吸吸烟烟和和患患肺肺癌癌有有关关得得到到的的直直观观印印和和图图形形上上面面我我们们通通过过分分析析数数据据.:H,0吸烟与患肺癌没有关系我们先假设为了回答上述问题 .BPAPABPH, ,B,A0等价于即吸烟与患肺癌独立等价于癌没有关系肺吸烟与患则表示不患肺癌表示不吸烟用2022-5-28:,73母表示的列联表母表示的列联表得到如下用字得到如下用字中的数字用字母代替中的数字用字母代替把表把表dcbadbcadcdcbaba总总计计吸吸烟烟不不吸吸烟烟总总计计患患肺肺癌癌不不患患肺肺癌癌吸吸烟烟与与患患肺肺癌癌列列联联表表表表83 成立的条件下应有所以在于频率近似于概率由发生的频数和恰恰好分别为事件和发生的频数恰好为事件中在表0H,.BAcaba:ABa,832022-5-28,cabaadcba,dcban,ncanbana即量为样本容其中.bcad 即.,|bcad;|,|bcad,|关系越强说明吸烟与患肺癌之间越大系越弱关说明吸烟与患肺癌之间越小因此 .dcban1dbcadcbabcadnK,22为样本容量其中我们构造一个随机变量基于上面的分析准数据有统一的评判标为了使不同样本容量的2022-5-28 ,632.56919874214878172099424977759965kK1,73,.K, ,H2220的观测值为算得计利用公式中的数据根据表现在很小应该则吸烟与肺癌没有关系即成立若?这个值是不是很大呢 2.01.0635.6KP,H20率统计学家估算出如下概成立的情况下在成立的情况在也就是说近似于非常小的概率的值大于成立的情况下即在020H.01.0.635.6KH2022-5-28.1001635.6,K2的频率约为观测值超过进行多次观测下对随机变量 .5d, c, b, a,.,n,2都不小于都不小于要求要求通常通常在实际应用中在实际应用中近似程度越高近似程度越高越大越大中中在在?,H,635.6K02断出错的可能性有多大断出错的可能性有多大这种判这种判不成立不成立就断定就断定如果如果思考思考 056.6326.635,20.01.0.01.kH现在观测值远远大于在成立的条件下 由式可知能够出现这样的观测值的概率不超过因此,在我们认为 吸烟与肺癌有关系 的犯错误概率不会超过2022-5-28.2个分类变量的的方法称为两两个分类变量有关系可以认为来确定在多大程度上上面这种利用随机变量 K.独立性检验独立性检验22.,.,.KK独立性检验的基本思想类似于反证法 要确认 两个分类变量有关系 这一结论成立的可信程度 首先假设该结论不成立 即假设结论 两个分类变量没有关系 成立 在该假设下构造的随机变量应该很小 如果由观测数据计算得到的的观察值很大 则在一定程度上说明假设不合理2022-5-28?,量量是是否否相相关关吗吗形形图图中中看看出出两两个个分分类类变变你你能能从从列列联联表表的的三三维维柱柱利利用用上上面面的的结结论论思思考考:)22(,y,yx,x,YX,2121为为列联表列联表称为称为其样本频数列联表其样本频数列联表和和别为别为它们的值域分它们的值域分和和假设两个分类变量假设两个分类变量一般地一般地dcbadbcadcdcxbabaxyy2121总总计计总总计计93表表列联表列联表222022-5-28111121121:.,;.3-9,;,.,.HXYP Yy XxP Yy XxXYaXxYyXxabcYycdacabcd若要推断的论述为与 有关系 ,可以通过频率直观判断两个条件概率和是否相等 如果判断它们相等 就意味着 和 没有关系 否则就认为它们有关系由表知 在的情况下的频率为在的情况下的频率为因此 如果通过直接计算或等高条形图发现和相差很大 就判断两个变量之间有关系2022-5-28020,.:(1),(310).,;kKkkkXY上 面 的 这 种 直 观 判 断 不 足 之 处 在 于 不 能 给 出 推 断两 个 分 类 变 量 有 关 系 犯 错 误 概 率 而 独 立 性 检 验则 可 以 弥 补 这 个 不 足 独 立 性 检 验 的 具 体 做 法 是根 据 实 际 问 题 的 需 要 确 定 容 许 推 断 两 个 分 类变 量 有 关 系 犯 错 误 概 率 的 上 界然 后 通 过 查 表表确 定 临 界 值( 2) 利 用 公 式 计 算 变 量的 观 测 值( 3) 如 果就 推 断与有 关 系这 种 推 断 犯错 误 的 概 率 不 超 过否 则 就 认 为 在 犯 错 误 概 率 不超 过的 前 提,.XYXY下 不 能 推 断与有 关 系或 者 在 样本 数 据 中 没 有 发 现 足 够 的 证 据 支 持 结 论与有关 系2022-5-28.,5d, c, b, a确确的的检检验验方方法法需需采采用用很很复复杂杂的的精精时时中中有有小小于于当当观观测测数数据据706.2072.2323.1708.0455.0k10.015.025.040.050.0kKP2828.10879.7635.6024.5841.3001.0005.0010.0025.005.0103表表2022-5-281,665,214,772175.(1);(2)0.01?例在某医院 因为心脏病而住院的名男性病人中 有人秃顶 而另外名不是因为患心脏病而住院的男性病人中有人秃顶利用图形判断秃顶与患心脏病是否有关系能否在犯错误概率不超过的前提下认为秃顶与患心脏病有关系如下列联表根据题目所给数据得到解秃顶与患心脏病列联表表11314377726651048597451389175214总计不秃顶秃顶总计患其他病患心脏病2022-5-28(1)等高条形图(图略)所示,透顶样本中患心脏病的频率明显高于不秃顶中患心脏病的频率,因此可以认为秃顶与患心脏病有关系。(2)根据列联表中的数据,得到因此,在犯错误概率不超过0.01的前提下,认为秃顶与患心脏病有关系.21437214 597-175 45116. 3736. 635389 1048 665 772k2022-5-28:,300,2得得到到如如下下列列联联表表名名学学生生抽抽出出中中随随机机在在某某城城市市的的某某校校高高中中生生之之间间的的关关系系是是否否喜喜欢欢数数学学课课程程为为考考察察高高中中生生的的性性别别与与例例30022872178143351228537总总计计女女男男总总计计不不喜喜欢欢数数学学课课程程喜喜欢欢数数学学课课程程联联表表性性别别与与喜喜欢欢数数学学课课程程列列表表123 ?.513.4K2为为什什么么否否有有关关系系否否喜喜欢欢数数学学课课程程之之间间是是高高中中生生的的性性别别与与是是由由表表中中数数据据计计算算得得2022-5-28.dcbabdacdccbaa,dccbaa,.d, c, b, a应很大即相差很多应该数学课的人数比例与女生中喜欢例的比课学数欢中喜生则男系有关课学数欢如果性别与是否喜生人数数、不喜欢数学课的女数学课的女生人数、喜欢不喜欢数学课的男生人的男生人数、表示样本中喜欢数学课分别用解:在犯错误概率不超过0.05的前提下,认为性别与是否喜欢数学课程有关系.2022-5-28,dbcadcbadcba乘以常数因子将上式等号右边的式子,dbcadcbabdacnK22然后平方得. ,K. dcban2成立的可能性越大欢数学课之间有关系性别与喜越大因此其中2022-5-28.%95,%.5,.A,513.4K.A,05.0841.3KP841.3KA, ,222喜欢数学课之间有关系性别与的把握认为约有所以可能性约为并且这种判断出错的成立欢数学课之间有关系性别与喜我们应该断定据假设检验的基本原理根发生这表明小概率事件据计算得而由样本数是一个小概率事件因此事件的概率为由于事件没有关系性别与喜欢数学课之间假设另一方面2022-5-28作业:P97习题3.2A组