【数学】列联表与独立性检验教学课件 2023-2024学年高二数学(人教A版2019选择性必修第三册).pptx
-
资源ID:96636407
资源大小:1.49MB
全文页数:26页
- 资源格式: PPTX
下载积分:6金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
【数学】列联表与独立性检验教学课件 2023-2024学年高二数学(人教A版2019选择性必修第三册).pptx
选 修 三 第 八 章选 修 三 第 八 章 成 对 数 据 的 统 计 分 析 成 对 数 据 的 统 计 分 析 8.3 列联表与独立性检验列联表与独立性检验数值变量的取值为实数,数值变量的取值为实数,其大小和运算都有实际含义其大小和运算都有实际含义.分类分类变量的取值变量的取值可用可用实数实数表示表示,但数值只作为编号使用,没有但数值只作为编号使用,没有大小和运算大小和运算意义意义.本节只讨论取值本节只讨论取值0,1的分类变量的分类变量的关联性的关联性研究研究一定范一定范围内的两种围内的两种现象或性质现象或性质之间是否存之间是否存在在关联性关联性或或存在存在差异差异研究研究一定范一定范围内的围内的两个两个变量的变量的相关相关关系关系选 修 三 第 八 章选 修 三 第 八 章 成 对 数 据 的 统 计 分 析 成 对 数 据 的 统 计 分 析 8.3.1 分类变量与分类变量与列联表列联表思考思考1:如何利如何利用统计数据判断一对分类变量之间是否具有关联性呢用统计数据判断一对分类变量之间是否具有关联性呢?问题背景:问题背景:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有名女生中有331名经常锻炼名经常锻炼;601名男生中有名男生中有473名经常锻炼名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?该校的女生和男生在体育锻炼的经常性方面有差异,且男生更经常锻炼.在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成将数据分类统计,并做成22列联表列联表加以保存加以保存.问题背景:问题背景:全校学生的普查数据如下:523名女生中有名女生中有331名经常锻炼名经常锻炼;601名男生中有名男生中有473名经常锻炼名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?性别性别锻炼锻炼合计合计不经常不经常(Y=0)经常经常(Y=1)女生女生(X=0)331523男生男生(X=1)473601合计合计22列联表1921281124320804列联表给出了成对分类变量数据的交叉分类频数列联表给出了成对分类变量数据的交叉分类频数.性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性性别对体育锻炼的经常性无无影响:影响:频率稳定于概率频率稳定于概率对于大多数实际问题,我们无法获得所关心的全部对象的数据,但可利用随机抽样对于大多数实际问题,我们无法获得所关心的全部对象的数据,但可利用随机抽样获得一定数量的获得一定数量的样本样本数据,再利用随机事件发生的数据,再利用随机事件发生的频率稳定于概率频率稳定于概率的原理的原理作出推断作出推断.例例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测试得到了如下数据:甲校甲校43名学生中有名学生中有10名数学成绩优秀;乙校名数学成绩优秀;乙校45名学名学生中有生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.性别性别锻炼锻炼合计合计不优秀不优秀(Y=0)优秀优秀(Y=1)甲校甲校(X=0)331043乙乙校校(X=1)38745合计合计711788甲校学生中数学成绩优秀的频率为:乙校学生中数学成绩优秀的频率为:依据频率稳定于概率的原理,可推断P(Y=1|X=0)P(Y=1|X=1).故可认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.等高堆积条形图不优秀的频率为0.7674不优秀的频率为0.8444新知1:列联表XY合计合计Y=0Y=1X=0aba+bX=1cdc+d合计合计a+cb+da+b+c+d(样本容量样本容量n)若不相等,则推断两个分类变量有关联或存在明显差异.若相等,则推断两个分类变量无关联或没有明显差异.巩固:列联表练习练习1.假设有两个分类变量假设有两个分类变量X与与Y,它们的可能取值分别为,它们的可能取值分别为0,1和和0,1,其其22列联表为:列联表为:XY合计合计Y=0Y=1X=0101828X=1m26m+26合计合计10+m44m+54则当则当m取取()时,时,X与与Y的关系最弱的关系最弱.A8B9C14D19X与与Y的关系几乎无关联的关系几乎无关联C新知2:等高堆积条形图等高条形图展示可列联表数据的频率特征,依据频率稳定与概率的原理,我们可以推断结果和表格相比,等高条形图更能直观地反映出两个分类变量间是否相互影响.比较同色的条形图高度差,若高度差明显,则判断两个分类变量有关系或存在明显差异.两个分类变量两个分类变量x,y之间之间关系最强关系最强的是的是()吸烟与患肺病有关联D巩固:等高堆积条形图练习练习2.某学校对高三学生做了一项调查发现:在平时的模拟考试中,某学校对高三学生做了一项调查发现:在平时的模拟考试中,性格内向的性格内向的学生学生426人中有人中有332人在考前心情紧张,性格外向的学生人在考前心情紧张,性格外向的学生594人中有人中有213人在考前心人在考前心情紧张情紧张.作出等高堆积条形图,利用图形判断考前心情紧张与性格类别是否有关系作出等高堆积条形图,利用图形判断考前心情紧张与性格类别是否有关系.从图中可以看出性格内向从图中可以看出性格内向的的样本中考前心情紧张样本中考前心情紧张的的频率频率比性格比性格外外向向的的样本中考前心情紧张的样本中考前心情紧张的频率频率高,可以认为高,可以认为考前心情紧张与性格类型有关考前心情紧张与性格类型有关联联.内向内向外向外向紧张紧张0.60920.60920.19790.1979不紧张不紧张0.39080.39080.80210.8021思考思考2:你认为你认为“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的这一结论是否有可能是错误的?甲校学生中数学成绩优秀的频率为:乙校学生中数学成绩优秀的频率为:依据频率稳定于概率的原理,可推断P(Y=1|X=0)P(Y=1|X=1).即甲校学生的数学成绩优秀率比乙校学生的高,故可认为两校学生的数学成绩优秀率存在差异.“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.但有可能在随机抽取的样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.导致推断放错误的原因:样本容量较小,导致频率与概率的误差较大;样本具有随机性,因而频率有随机性,频率和概率之间存在误差;思考思考3:有多大的把握有多大的把握推断推断“学校与优秀率有关学校与优秀率有关”?这个推断?这个推断犯错误的可能性多大?犯错误的可能性多大?希望能对出现错误推断的概率有一定的控制或估算希望能对出现错误推断的概率有一定的控制或估算.选 修 三 第 八 章选 修 三 第 八 章 成 对 数 据 的 统 计 分 析 成 对 数 据 的 统 计 分 析 8.3.2 独立性检验独立性检验判 断 两 个 分 类 变 量 是 否 独 立判 断 两 个 分 类 变 量 是 否 独 立判 断 两 个 分 类 变 量 是 否 独 立判 断 两 个 分 类 变 量 是 否 独 立(无 关 联无 关 联无 关 联无 关 联)的 检 验 方 法的 检 验 方 法的 检 验 方 法的 检 验 方 法课前需知在合理的假设前提下,小概率事件几乎不会发生.若小概率事件发生了,则认为原假设不成立.设X和Y为定义在样本空间上,取值于0,1的成对分类变量.课本P128-129证明X=0,Y=0发生频数的期望值EaX=0,Y=0发生频数的观测值同理由图知2x是小概率事件找某个值x来界定2的大小理解:犯错误的概率不超过新知:(卡方)独立性检验的步骤(1)认清分类变量,提出零假设H0:X和Y独立,即与无关联(无差异);(2)列表:列出22列联表.(3)求值:由表中数据计算2的值.(4)推断:将2值与临界值x比较,根据小概率值的独立性检验规则,得出结论若2x,则推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;若2x,则我们没有充分证据推断H0不成立,可认为X和Y独立.P(2x)=0.10.050.010.0050.001x2.7063.8416.6357.87910.828利用利用2的取值的取值推断推断分类变量分类变量X 和和Y 是否独立是否独立的方法称为的方法称为2独立性检验独立性检验新知:(卡方)独立性检验作用:由2x是否发生推断分类变量X和Y是否独立.独立性检验中常用的小概率值和相应的临界值P(2x)=0.10.050.010.0050.001x2.7063.8416.6357.87910.828利用利用2的取值的取值推断推断分类变量分类变量X 和和Y 是否独立是否独立的方法称为的方法称为2独立性检验独立性检验如:若如:若假设假设H0成立成立,对于,对于小概率值小概率值=0.05的的2独立性检验独立性检验规则如下:规则如下:(1)当当23.841=x0.05时,时,P(23.841)=0.05,可,可推断推断H0不成立不成立,即即认为认为X和和Y不独立不独立,该推断,该推断犯错误的概率不超过犯错误的概率不超过0.05;(2)当当23.841=x0.05时,我们时,我们没有充分证据推断没有充分证据推断H0不成立不成立,可,可认为认为X和和Y独立独立.应用:(卡方)独立性检验例例1.根据以下列联表的数据,试分析两校学生中数学成绩优秀率之间是否存在差异.性别性别锻炼锻炼合计合计不优秀不优秀(Y=0)优秀优秀(Y=1)甲校甲校(X=0)331043乙乙校校(X=1)38745合计合计711788P(2x)=0.10.050.010.0050.001x2.7063.8416.6357.87910.828提出原提出原(零零)假设假设计算计算2找临界值比较找临界值比较下结论下结论没有考虑由样本随机性可能导致的错误,所以这个推断依据不太充分独立性检验更理性、更全面,理论依据更充分应用:(卡方)独立性检验例例3.儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种治疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136P(2x)=0.10.050.010.0050.001x2.706 3.8416.635 7.879 10.828应用:(卡方)独立性检验变式变式儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种治疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值=0.05的独立性检验,分析甲、乙两种疗法的效果是否有差异.疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136P(2x)=0.10.050.010.0050.001x2.706 3.8416.635 7.879 10.828应用:(卡方)独立性检验例例4.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值=0.001的独立性检验,分析吸烟是否会增加患肺癌得风险.吸烟吸烟肺癌肺癌合计合计不患肺癌不患肺癌患肺癌患肺癌非吸烟者非吸烟者7775427817吸烟者吸烟者2099492148合计合计987491159965P(2x)=0.10.050.010.0050.001x2.706 3.8416.635 7.879 10.828思辨:(卡方)独立性检验例例4.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值=0.001的独立性检验,分析吸烟是否会增加患肺癌得风险.吸烟吸烟肺癌肺癌合计合计不患肺癌不患肺癌患肺癌患肺癌非吸烟者非吸烟者7775427817吸烟者吸烟者2099492148合计合计987491159965应用:(卡方)独立性检验练习练习1.同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下22列联表,则可以说其亲属的饮食习惯与年龄有关,该推断犯错误的概率不超过()A0.005B0.004 C0.002D0.001P(2x)=0.10.050.010.0050.001x2.706 3.8416.635 7.879 10.828年龄饮食习惯合计偏爱蔬菜偏爱肉类50岁以下481250岁以上16218合计201030应用:(卡方)独立性检验P(2x)=0.10.050.010.0050.001x2.706 3.8416.635 7.879 10.828吸烟情况患病情况合计患肺癌不患肺癌吸烟4xx5x不吸烟x4x5x合计5x5x10 x