【数学】列联表和独立性检验课件-2023-2024学年高二下学期数学人教A版(2019)选择性必修第三册.pptx
《【数学】列联表和独立性检验课件-2023-2024学年高二下学期数学人教A版(2019)选择性必修第三册.pptx》由会员分享,可在线阅读,更多相关《【数学】列联表和独立性检验课件-2023-2024学年高二下学期数学人教A版(2019)选择性必修第三册.pptx(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、8.38.3列联表与独立性检验列联表与独立性检验8.3.18.3.1分类变量与列联表分类变量与列联表8.3.28.3.2独立性检验独立性检验复习导入 在现实生活中,人们经常需要回答在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在一定范围内的两种现象或性质之间是否存在关联性或相互影响关联性或相互影响的问题的问题.例如,例如,就读不同学校是否对学生的成绩有影响就读不同学校是否对学生的成绩有影响,不同班不同班级学生用于体育锻炼的时间是否有差别级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险吸烟是否会增加患肺癌的风险,等等等等.本本节将要学习的独立性检验方法为我们提供
2、了解决这类问题的方案节将要学习的独立性检验方法为我们提供了解决这类问题的方案.新知探索 如何利如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比问题,有时可以利用普查数据,通过比较相关的比率率给出问题的准确回答,但在大给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法多数情况下,需要借助概率的观点和方法.我们先看下面的具体问题我们先看下面的具体问题.新知探索问题问题:为了有针对性为了有针对性地地提高学生体育锻炼的积极性提高学生体育锻炼的积极性,某中学需要了解性
3、别因素是否某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下全校学生的普查数据如下:523523名女生中有名女生中有331331名经常锻炼名经常锻炼;601601名男生中有名男生中有473473名经名经常锻炼常锻炼.你能利用这些数据你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?差异吗?新知探索新知探索在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,在实践中,由于
4、保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成将数据分类统计,并做成2222列联表列联表加以保存加以保存.问题背景:问题背景:全校学生的普查数据如下:523523名女生中有名女生中有331331名经常锻炼名经常锻炼;601601名男生中有名男生中有473473名经常锻炼名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?性别性别锻炼锻炼合计合计不经常不经常(Y=0)经常经常(Y=1)女生女生(X=0)331523男生男生(X=1)473601合计合计22列联表1921281124320804列联表给出了成对分类变量数据的交叉分类频数列
5、联表给出了成对分类变量数据的交叉分类频数.性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性性别对体育锻炼的经常性无无影响:影响:频率稳定于概率频率稳定于概率新知探索新知探索 在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比够完全确定解答问题所需的比率率和条件概率和条件概率.然而,对于大多数实际问题,我们无法然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比获得所关心的全部对象的数据,因此无法准确计算出有关的比率
6、率或条件概率或条件概率.在这种在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定定于于概率的原理对问题答案做出推断概率的原理对问题答案做出推断.对于大多数实际问题,我们无法获得所关心的全部对象的数据,但可利用随机抽样对于大多数实际问题,我们无法获得所关心的全部对象的数据,但可利用随机抽样获得一定数量的获得一定数量的样本样本数据,再利用随机事件发生的数
7、据,再利用随机事件发生的频率稳定于概率频率稳定于概率的原理的原理作出推断作出推断.例例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测试得到了如下数据:甲校甲校43名学生中有名学生中有10名数学成绩优秀;乙校名数学成绩优秀;乙校45名学名学生中有生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.性别性别锻炼锻炼合计合计不优秀不优秀(Y=0)优秀优秀(Y=1)甲校甲校(X=0)331043乙乙校校(X=1)38745合计合计711788甲校学生中数学成绩优秀的频率为:乙校学生中数学成绩优秀的频率为:依据频率稳定于概率的原理,
8、可推断P(Y=1|X=0)P(Y=1|X=1).故可认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.等高堆积条形图XY合计合计Y=0Y=1X=0aba+bX=1cdc+d合计合计a+cb+da+b+c+d(样本容量样本容量n)若不相等,则推断两个分类变量有关联或存在明显差异.若相等,则推断两个分类变量无关联或没有明显差异.概念形成1 1、2222列联表列联表例析例析练习练习1.假设有两个分类变量假设有两个分类变量X与与Y,它们的可能取值分别为,它们的可能取值分别为0,1和和0,1,其其22列联表为:列联表为:XY合计合计Y=0Y=1X=0101828X=1m26m
9、+26合计合计10+m44m+54则当则当m取取()时,时,X与与Y的关系最弱的关系最弱.A8B9C14D19X与与Y的关系几乎无关联的关系几乎无关联C练习例析例析新知探索 我们可以用我们可以用等高堆积条形图等高堆积条形图直观地展示上述计算结果,如图所示直观地展示上述计算结果,如图所示.在上图中,在上图中,左边的蓝色和红色条的高度分别是甲校左边的蓝色和红色条的高度分别是甲校学生中数学成绩学生中数学成绩不不优秀和数学成绩优秀的频率优秀和数学成绩优秀的频率;右边的右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率和数学成绩优秀
10、的频率.新知探索等高条形图展示可列联表数据的频率特征,依据频率稳定与概率的原理,我们可以推断结果和表格相比,等高条形图更能直观地反映出两个分类变量间是否相互影响.比较同色的条形图高度差,若高度差明显,则判断两个分类变量有关系或存在明显差异.两个分类变量两个分类变量x,y之间之间关系最强关系最强的是的是()吸烟与患肺病有关联D2 2、等高条形图、等高条形图 例例2 2 为为考考察察甲甲、乙乙两两种种药药物物预预防防某某疾疾病病的的效效果果,进进行行动动物物实实验验,分分别别得得到到如如下下等等高高堆堆积积条条形形图图.根根据据图图中中信信息息,在下列各项中在下列各项中,说法最佳的一项是说法最佳的
11、一项是()A.A.药物乙的预防效果优于药物甲的预防效果药物乙的预防效果优于药物甲的预防效果B.B.药物甲的预防效果优于药物乙的预防效果药物甲的预防效果优于药物乙的预防效果C.C.药物甲、乙对该疾病均有显著的预防效果药物甲、乙对该疾病均有显著的预防效果D.D.药物甲、乙对该疾病均没有预防效果药物甲、乙对该疾病均没有预防效果例析新知探索思考思考2 2:你认为你认为“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误这一结论是否有可能是错误的?的?甲校学生中数学成绩优秀的频率为:乙校学生中数学成绩优秀的频率为:依据频率稳定于概率的原理,可推断P(Y=1|X=0
12、)P(Y=1|X=1).即甲校学生的数学成绩优秀率比乙校学生的高,故可认为两校学生的数学成绩优秀率存在差异.“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这个结论是根这个结论是根据据两个频率间存在差异两个频率间存在差异推断出来的推断出来的.但有可能但有可能在随机抽在随机抽取的样本中,取的样本中,两个频率两个频率间确实存在差异,但两校学生的间确实存在差异,但两校学生的数学成绩数学成绩优秀率优秀率实际上是没有差别的实际上是没有差别的.导致推断放错误的原因:导致推断放错误的原因:样本容量较小,导致频率与概率的误差较大;样本容量较小,导致频率与概率的误差较大;样本具有随机性,因而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 列联表 独立性 检验 课件 2023 2024 学年 下学 期数 学人 2019 选择性 必修 第三
链接地址:https://www.taowenge.com/p-97204307.html
限制150内