【数学课件】分类变量与列联表 2022-2023学年高二数学同步课件(人教A版2019选择性必修第三册).pptx
第八章 成对数据的统计分析8.3 8.3 列联表与独立性检验列联表与独立性检验 8.3.1 8.3.1 分类变量与列联表分类变量与列联表新课导入吸烟的危害吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题为此,联合国固定每年5月31日为全球戒烟日 为什么将世界无烟日改为5月 31日呢?是因为第二天是国际儿童节,希望下一代免受烟草危害。世界无烟日的意义是宣扬不吸烟的观念。而每年皆会有一个中心主题。例如:例如:20192019年世界无烟日的重点是年世界无烟日的重点是“烟草和肺部健康”吸烟是否会增加患肺癌的风险?怎样用数学知识说明呢怎样用数学知识说明呢?新知讲解 例如例如,就读不同学校是否对学生的成绩有影响就读不同学校是否对学生的成绩有影响,不同班级学不同班级学生用于体育锻炼的时间是否有差别生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风吸烟是否会增加患肺癌的风险险,等等等等,本节将要学习的独立性检验方法为我们提供了解决这本节将要学习的独立性检验方法为我们提供了解决这类问题的方案类问题的方案.在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题.在讨论上述问题时在讨论上述问题时,为了表述方便为了表述方便,我们经常会使用我们经常会使用一种特殊一种特殊的随机变量的随机变量,以区别不同的现象或性质以区别不同的现象或性质,这类随机变量称为这类随机变量称为分类分类变量变量.新知讲解变量数值变量分类变量数值变量的取值为实数数值变量的取值为实数.其大小和运算都有实际含义其大小和运算都有实际含义.例如例如:人的身高、树的胸径、树的高度、短跑人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间世界纪录和创纪录的时间等等两个数值变量之间的关系:两个数值变量之间的关系:回归分析法回归分析法;由一个变量的变化去推测另一个变量的变化由一个变量的变化去推测另一个变量的变化分类分类变量的取值变量的取值可以用实数来表示可以用实数来表示;这些数值这些数值只作为编号使用,用来表示不同的类别只作为编号使用,用来表示不同的类别;并并没有通常的大小和运算意义。没有通常的大小和运算意义。例例:性别、是否吸烟、是否患肺癌性别、是否吸烟、是否患肺癌、国籍等、国籍等例如例如,学生所在的班级可以用学生所在的班级可以用1,2,31,2,3等表示等表示,男性、女性可以用男性、女性可以用1,01,0表示表示本节我们主要讨论本节我们主要讨论取值是取值是0,1的分类的分类变量的关联性问题变量的关联性问题.新知探究问题1 为了有针对性地提高学生体育锻炼的积极性为了有针对性地提高学生体育锻炼的积极性,某中学需要了解某中学需要了解性别性别因素是否对本校学生体育锻炼的经常性有影响因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的为此对学生是否经常锻炼的情况进行了普查情况进行了普查,全校学生的普查数据如下全校学生的普查数据如下:523:523名女生中有名女生中有331331名经常锻炼名经常锻炼;601601名男生中有名男生中有473473名经常锻炼名经常锻炼.你能利用这些数据你能利用这些数据,说明说明该校女生和男生在该校女生和男生在体育锻炼的经常性方面是否存在差异体育锻炼的经常性方面是否存在差异吗吗?这是一个简单的统计问题这是一个简单的统计问题,最直接的解答方法是最直接的解答方法是,比较经常锻炼的学生在女生和男生比较经常锻炼的学生在女生和男生中的比率中的比率.解法解法1 1:(:(由频率估计概率由频率估计概率)结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。新知探究上面的问题还可以通过建立一个古典概型,上面的问题还可以通过建立一个古典概型,使用条件概率使用条件概率的语言,给出另外的语言,给出另外一一 种解答方法种解答方法.解法解法2 2:(:(借助条件概率借助条件概率)用用表示该校全体学生构成的集合,则表示该校全体学生构成的集合,则为样本空间,定义一对分类变量为样本空间,定义一对分类变量X和和Y如下如下:对于对于中的每一名学生,分别令中的每一名学生,分别令若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为的概率为 而该男生属于经常锻炼群体的概率为而该男生属于经常锻炼群体的概率为 我们希望通过比较条件概率我们希望通过比较条件概率P(Y=1|X=0)和和P(Y=1|X=1)回答上面的问题回答上面的问题性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性有影响:新知探究为了清楚起见,我们用表格整理数据,如下表所示为了清楚起见,我们用表格整理数据,如下表所示.性别性别锻炼锻炼合计合计不经常不经常(Y=0)经常经常(Y=1)女生女生(X=0)192331523男生男生(X=1)128473601合计合计3208041124X=0,Y=1:事件:事件X=0和和Y=1的积事件的积事件 X=1,Y=1:事件:事件X=1和和Y=1的积事件的积事件结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。在在上上面面问问题题的的两两种种解解答答中中,使使用用了了学学校校全全部部学学生生的的调调查查数数据据,利利用用这这些些数数据据能能够够完完全全确确定定解解答答问问题题所所需需的的比比率率和和条条件件概概率率.然然而而,对对于于大大多多数数实实际际问问题题,我我们们无无法法获获得得所所关关心心的的全全部部对对象象的的数数据据,因此无法准确计算出有关的比率或条件概率因此无法准确计算出有关的比率或条件概率.在在这这种种情情况况下下,上上述述古古典典概概型型和和条条件件概概率率的的观观点点为为我我们们提提供供了了一一个个解解决决问问题题的的思思路路.比比较较简简单单的的做做法法是是利利用用随随机机抽抽样样获获得得一一定定数数量量的的样样本本数数据据,再再利利用用随随机机事事件件发发生生的的频频率率稳稳定定于于概概率率的的原原理理对对问题答案作出推断问题答案作出推断.(用样本估计总体)(用样本估计总体)方法归纳概念生成 列联表在在实实践中,由于保存原始数据的成本践中,由于保存原始数据的成本较较高,人高,人们经们经常按研究常按研究问题问题的需要,的需要,将数据分将数据分类统计类统计,并做成表格加以保存,并做成表格加以保存.我我们们将形如下表将形如下表这这种形式的数据种形式的数据统计统计表称表称为为22列联表列联表.22列列联联表表给给出了出了成成对对分分类变类变量数据的交叉分量数据的交叉分类频类频数数.组别组别甲甲(Y0)乙乙(Y1)合合计计A(X0)ababB(X1)cdcd合合计计acbdabcd 以上表为例以上表为例,22列联列联包含了包含了X和和Y的如下信息的如下信息:最后一行的前两个数分别是事件最后一行的前两个数分别是事件Y=0和和Y=1中样本点的个数中样本点的个数;最后一列的前两个数分别是事件最后一列的前两个数分别是事件 X=0和和 X=1中样本中样本点的个数点的个数;中间的四个格中的数是表格的核心部分中间的四个格中的数是表格的核心部分,给出了事件给出了事件X=x,Y=y(x,y=0,1)中中样本点的个数样本点的个数;右下角格中的数是样本空间中样本点的总数右下角格中的数是样本空间中样本点的总数.新知探究例1 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取取88名学生名学生.通过测验得到了如下数据通过测验得到了如下数据:甲校甲校43名学生中有名学生中有10名数学成绩优名数学成绩优秀秀;乙校乙校45名学生中有名学生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀试分析两校学生中数学成绩优秀率之间是否存在差异率之间是否存在差异.解:(用用表示两所学校的全体学生构成的集合表示两所学校的全体学生构成的集合.考虑以考虑以为样本空间的古典为样本空间的古典概型概型)对于对于中每一名学生,定义分类变量中每一名学生,定义分类变量X和和Y如下:如下:合计合计乙校乙校(X=1)甲校甲校(X=0)优秀优秀(Y=1)不优秀不优秀(Y=0)合计合计数学成绩数学成绩学校学校我们将所给数据我们将所给数据整理成整理成22列联表列联表(单位:人单位:人).新知探究甲校学生中数学成甲校学生中数学成绩绩不不优优秀和数学成秀和数学成绩优绩优秀的秀的频频率分率分别为别为乙校学生中数学成乙校学生中数学成绩绩不不优优秀和数学成秀和数学成绩优绩优秀的秀的频频率分率分别为别为由由22列列联联表可得表可得新知探究还可以用等高堆积条形图直观地展示上述计算结果:还可以用等高堆积条形图直观地展示上述计算结果:左边左边的蓝色和红色条的高度分别是的蓝色和红色条的高度分别是甲校学生中数学甲校学生中数学成绩不优秀和数学成绩优秀的频率成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色右边的蓝色和红色条的高度分别是条的高度分别是乙校学生中数学成绩不优秀和数学成绩乙校学生中数学成绩不优秀和数学成绩优秀的频率优秀的频率.通过比较发现,两个学校学生抽样数据中数学成绩优通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断:依据频率稳定于概率的原理,我们可以推断:P(Y=1|X=0)P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高的数学成绩优秀率比乙校学生的高.问题2 你认为你认为“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这一结论是否有这一结论是否有可能是错误的可能是错误的?新知探究有可能事实上,事实上,“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这个结论是根据两个这个结论是根据两个频率间存在差异推断出来的频率间存在差异推断出来的.有有可能出现这种情况可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有对于随机样本而言,因为频率具有随机性随机性,频率与概率之间存在,频率与概率之间存在误差误差,所以我们的推断所以我们的推断可能犯错误可能犯错误,而且在,而且在样本容量较小样本容量较小时,犯错误的时,犯错误的可能性可能性会会较大较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算推断的概率有一定的控制或估算.后面后面我们将讨论我们将讨论犯这种错误的概率大小问题犯这种错误的概率大小问题.巩固练习 1.成语成语“名师出高徒名师出高徒”可以解释为可以解释为“知名老师指导出高水平学生的概率较知名老师指导出高水平学生的概率较大大”,即老师的名声与学生的水平之间有关联,即老师的名声与学生的水平之间有关联.你能举出更多的描述生活你能举出更多的描述生活中两种属性或现象之间关联的成语吗中两种属性或现象之间关联的成语吗?解:解:例如水例如水涨涨船高、登高望船高、登高望远远等等.课课本本127页页 2.例例1中的随机抽样数据是否足够确定与中的随机抽样数据是否足够确定与X和和Y有关的所有概率和条件概率有关的所有概率和条件概率?为什么为什么?解:解:不能不能.因因为为随机抽随机抽样样得到的得到的样样本具有随机性,根据本具有随机性,根据样样本数据本数据计计算出来算出来的的频频率也具有随机性率也具有随机性.在在统计统计推断中,依据推断中,依据频频率率稳稳定于概率的原理,可以定于概率的原理,可以利用利用频频率推断与率推断与X和和Y有关的概率和条件概率,但由于有关的概率和条件概率,但由于频频率具有随机性,率具有随机性,这这种推断可能犯种推断可能犯错误错误.因此,随机抽因此,随机抽样样数据不足以确定与数据不足以确定与X和和Y有关的所有概有关的所有概率和条件概率率和条件概率.巩固练习3.根据有关规定,香烟盒上必须印上根据有关规定,香烟盒上必须印上“吸烟有害健康吸烟有害健康”的警示语的警示语.那么那么 (1)吸烟是否对每位烟民一定会引发健康问题吸烟是否对每位烟民一定会引发健康问题?(2)有人说吸烟不一定引起健康问题,因此可以吸烟有人说吸烟不一定引起健康问题,因此可以吸烟.这种说法对吗这种说法对吗?解:解:(1)从已掌握的知从已掌握的知识识来看,吸烟会来看,吸烟会损损害身体的健康害身体的健康.但除了吸烟之但除了吸烟之外,身体的健康外,身体的健康还还受受许许多其他随机因素的影响,它是很多因素共同作用多其他随机因素的影响,它是很多因素共同作用的的结结果果.吸烟吸烟导导致患病的案例非常普遍,但也可以找到致患病的案例非常普遍,但也可以找到长长寿的吸烟者寿的吸烟者.因因此健康与吸烟有关此健康与吸烟有关联联,即从,即从统计统计意意义义上上讲讲,吸烟会,吸烟会损损害健康,但不一定害健康,但不一定会会对对每位烟民都引起健康每位烟民都引起健康问题问题.(2)这这种种说说法不正确法不正确.虽虽然吸烟不一定会然吸烟不一定会对对每个人都引起健康每个人都引起健康问题问题,但根,但根据据统计统计数据,吸烟比不吸烟引起健康数据,吸烟比不吸烟引起健康问题问题的可能性大,因此的可能性大,因此“吸烟不一定吸烟不一定引起健康引起健康问题问题,因此可以吸烟,因此可以吸烟”的的说说法是不法是不对对的的.课课本本127页页巩固练习课课本本127页页 4.假设在本小节假设在本小节“问题问题”中,只是随机抽取了中,只是随机抽取了44名学生,按照性别和体名学生,按照性别和体育锻炼情况整理为如下的列联表育锻炼情况整理为如下的列联表:性别性别锻炼锻炼合计合计不经常不经常经常经常女生女生51520男生男生61824合计合计113344(1)据此推断性别因素是否影响学据此推断性别因素是否影响学生锻炼的经常性;生锻炼的经常性;(2)说明你的推断结论是否可能犯说明你的推断结论是否可能犯错,并解释原因错,并解释原因.解:解:(1)根据列根据列联联表中的数据,表中的数据,计计算得男女算得男女生中不生中不经经常常锻炼锻炼和和经经常常锻炼锻炼的的频频率分率分别为别为通通过对过对比比发现发现,男生中不,男生中不经经常常锻炼锻炼和和经经常常锻炼锻炼的的频频率与女生中不率与女生中不经经常常锻炼锻炼和和经经常常锻锻炼炼的的频频率分率分别别相等,依据相等,依据频频率率稳稳定于概率的原理,可以推断定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1).因此,可以因此,可以认为认为性性别对别对体育体育锻炼锻炼的的经经常性没有影响常性没有影响.(2)推断可能犯推断可能犯错误错误.因因为样为样本是通本是通过过随机抽随机抽样样得到的,得到的,频频率具有随机性率具有随机性,因此推断,因此推断可能犯可能犯错误错误.1.分类变量分类变量 用以区用以区别别不同的不同的现现象象或或性性质质的一种特殊的随机的一种特殊的随机变变量,称量,称为为分分类变类变量量分分类变类变量的取量的取值值可以用可以用实实数表示,例如,学生所在的班数表示,例如,学生所在的班级级可以用可以用1,2,3等表示,男性、女性可以用等表示,男性、女性可以用1,0表示,等等表示,等等2.列联表列联表将形如下表将形如下表这这种形式的数据种形式的数据统计统计表称表称为为22列联表列联表.22列列联联表表给给出了出了成成对对分分类变类变量数据的交叉分量数据的交叉分类频类频数数.组别组别甲甲(Y0)乙乙(Y1)合合计计A(X0)ababB(X1)cdcd合合计计acbdabcd课堂小结