【2022高中数学精品教案】8.3 分类变量与列联表 教学设计.docx
《【2022高中数学精品教案】8.3 分类变量与列联表 教学设计.docx》由会员分享,可在线阅读,更多相关《【2022高中数学精品教案】8.3 分类变量与列联表 教学设计.docx(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、8.3 分类变量与列联表 本节课选自2019人教A版高中数学选择性必修第三册,第七章随机变量及其分布列,本节课主本节课主要学习分类变量与列联表 学生前面已经学习了基本获取样本数据的方法,从样本数据中提取信息的方法,也掌握了相互独立事件的概率计算,独立性检验是进一步分析两个分类变量之间是否有关系,是高中数学知识中体现统计思想的重要课节。学习重点应放在独立性检验的统计学原理上,理解独立性检验的基本思想,明确独立性检验的基本步骤。课堂趣味性较强,充分体现了数学在实际生活中的应用,对于提高学生应用意识和数学建模思想有重要意义。 课程目标学科素养A. 通过对典型案例的探究,了解独立性检验(只要求22列联
2、表)的基本思想、方法及初步应用.B.通过对数据的收集、整理和分析,增强学生的社会实践能力,培养学生分析问题、解决问题的能力.1.数学抽象:从特殊实例到一般原理 2.逻辑推理:独立性检验的思想方法3.数学运算:独立检验的运用4.数学建模:模型化思想重点:了解独立性检验(只要求22列联表)的应用. 难点:独立性检验(只要求22列联表)的基本思想、方法多媒体教学过程教学设计意图核心素养目标一、 问题导学 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义. 在现实生活中,人们经常需要回答一定范围内的
3、两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于0,1的分类变量的关联性问题.二、 探究新知问题1. 为了有
4、针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设f0=经常锻炼的女生数女生总数, f1=经常锻炼的男生数男生总数那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到f0=3
5、315230.633, f1=4736010.787.由f1-f0 0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.所以该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼. 用n表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n为样本空间的古典概型,并定义一对分类变量X和Y如下:对于中的每一名学生,分别令X=0,该生为女生1,该生为男生,y=0,该生不经常锻炼1,该生经常锻炼,“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)P(
6、Y=1|X=1). 我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.按照条件本概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1).为了清楚起见,我们用表格整理数据性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124我们用X=0,Y=1表示事件X=0和Y=1的积事件,用X=1,Y=1表示事件X=1和Y=1的积事件,根据古典概型和条件概率的计算公式,我们有P(Y=1|X=0
7、)=n(X=0,Y=1)n(X=0)=3315230.633;P(Y=1|X=1)=n(X=1,Y=1)n(X=1)=4736010.787由P(Y=1|X=1)P(Y=1|X=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为22列联表(contingency table).22列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:最后一行的前两个
8、数分别是事件Y=0和Y=1中样本点的个数;最后一列的前两个数分别是事件X=0和X=1中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件X=x,Y=y(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124三、 典例解析例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差
9、异.解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.对于中每一名学生,定义分类变量X和Y如下:X=0,该生来自甲校1,该生来自乙校,y=0,该生数学成绩不优秀1,该生数学成绩优秀,学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788我们将所给数据整理成表(单位:人) 表是关于分类变量X和Y的抽样数据的22列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;甲校学生中数学成绩不优
10、秀和数学成绩优秀的频率分别为33430.7674和1043 0.2326;乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为3845 0.8444和745 0.1556我们可以用等高堆积条形图直观地展示上述计算结果,如图所示 左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率,通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名学生,那
11、么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计7117882.两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中aa+b与cc+d值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.(2)图形分析法:与表格相比,图形更能直观地反映出两个
12、分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能 “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误
13、差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算. “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.考虑以为样本空间的
14、古典概型,设X和Y为定义在上,取值于0,1的成对分类变量,我们希望判断事件X=1和Y=1之间是否有关联。注意到X=0和X=1, Y=0和Y=1都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设(null hypothesis).P(Y=1|X=0)表示从X=0中随机选取一个样本点,该样本点属于X=0,Y=1的概率;P(Y=1|X=1)表示从X=1中随机选取一个样本点,该样本点属于X=1,Y=1的概率。由条件概率的定义可知,零假设H0等价于P(X=0,Y=1)P(X=0)= P(X=1,Y=1)P(X=
15、1)或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0). 考虑以为样本空间的古典概型,设X和Y为定义在上,取值于0,1的成对分类变量,我们希望判断事件X=1和Y=1之间是否有关联。注意到X=0和X=1, Y=0和Y=1都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设(null hypothesis).P(Y=1|X=0)表示从X=0中随机选取一个样本点,该样本点属于X=0,Y=1的概率;P(Y=1|X=1)表示从X=1中随机选取一个样本点,该样本点属于X=1,Y=1的概率。由条件概
16、率的定义可知,零假设H0等价于P(X=0,Y=1)P(X=0)= P(X=1,Y=1)P(X=1)或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0). 注意到(X=0)和(X=1)为对立事件,于是P(X=0)=1-P(X=1).再由概率的性质,我们有P(X=0,Y=1)=P(Y=1)-P(X=1,Y=1).由此推得式等价于P(X=1)P(Y=1)=P(X=1,Y=1).因此,零假设H0等价于X=1与Y=1独立。根据已经学过的概率知识,下面的四条性质彼此等价: X=0与Y=0独立;X=0与Y=1独立;X=1与Y=0独立;X=1与Y=1独立。以上性质成立,我们就称分类变量X和Y独
17、立,这相当于下面四个等式成立;P(X=0,Y=0)=P(X=0)P(Y=0); P(X=0,Y=1)=P(X=0)P(Y=1);P(X=1,Y=0)=P(X=1)P(Y=0); P(X=1,Y=1)=P(X=1)P(Y=1). 我们可以用概率语言,将零假设改述为H0:分类变量X和Y独立.假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示。 表是关于分类变量X和Y的抽样数据的22列联表:最后一行的前两个数分别是事件Y=0和Y=1的频数;最后一列的前两个数分别是事件X=0和X=1的频数;中间的四个数a,b,c,d是事件X=x,Y=y(x, y=0,1)的频数;右下角格中的数n是样本容
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022高中数学精品教案 【2022高中数学精品教案】8.3 分类变量与列联表 教学设计 2022 高中数学 精品 教案 8.3 分类 变量 列联表 教学 设计
限制150内