8.3.1分类变量与列联表 课件(共10张PPT).pptx
-
资源ID:55439423
资源大小:1.06MB
全文页数:10页
- 资源格式: PPTX
下载积分:3.6金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
8.3.1分类变量与列联表 课件(共10张PPT).pptx
8.3.1 分类变量与列联表吸烟的危害吸烟的危害吸烟已成为全球范围内严重危害健康、吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题为此,联合国缩短人类寿命的紧迫问题为此,联合国固定每年固定每年5月月31日为全球戒烟日日为全球戒烟日创设情境 在现实生活中,人们经常需要回答一定范围内的在现实生活中,人们经常需要回答一定范围内的两种两种现象或性质之间是否存在关联性现象或性质之间是否存在关联性或或互相影响互相影响的问题的问题.吸烟是否会增加患肺癌的风险?吸烟是否会增加患肺癌的风险?探究新知分类变量分类变量是区别是区别不同的现象和性质不同的现象和性质的一种的一种特殊的特殊的随机变量随机变量本节主要讨论取值于本节主要讨论取值于本节主要讨论取值于本节主要讨论取值于0,10,10,10,1的分类变量的关联性的分类变量的关联性的分类变量的关联性的分类变量的关联性.数值变量数值变量的取值为的取值为实数实数,其大小和运算都有,其大小和运算都有实际含义实际含义.分类分类变量的取值可以用实数来变量的取值可以用实数来表示,例如表示,例如男性,女性可以男性,女性可以用用1,0表示,学生的班级可以用表示,学生的班级可以用1,2,3来来表示表示这些这些数值只作编号使用数值只作编号使用,并没有大小和运算并没有大小和运算意义意义分类分类变量是相对于数值变量来说变量是相对于数值变量来说的的几点说明:几点说明:问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解法一 比较经常锻炼的学生在女生和男中的比率.探究新知 男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.解法二:对于中的每一名学生,分别令性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:探究新知1124804320合计601473128男生(X=1)523331192女生(X=0)经常(Y=1)不经常(Y=0)合计锻炼性别 由 可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,男生更经常性的锻炼.在在上上面面问问题题的的两两种种解解答答中中,使使用用了了学学校校全全部部学学生生的的调调查查数数据据,利利用用这这些些数数据据能能够够完完全全确确定定解解答答问问题题所所需需的的比比率率和和条条件件概概率率.然然而而,对对于于大大多多数数实实际际问问题题,我我们们无无法法获获得得所所关关心心的的全全部部对对象象的的数数据据,因此无法准确计算出有关的比率或条件概率因此无法准确计算出有关的比率或条件概率.在在这这种种情情况况下下,上上述述古古典典概概型型和和条条件件概概率率的的观观点点为为我我们们提提供供了了一一个个解解决决问问题题的的思思路路.比比较较简简单单的的做做法法是是利利用用随随机机抽抽样样获获得得一一定定数数量量的的样样本本数数据据,再再利利用用随随机机事事件件发发生生的的频频率率稳稳定定于于概概率率的的原原理理对问题答案作出推断对问题答案作出推断.归纳总结分类变量X和Y的抽样数据的22列联表:22列联表给出成对分类变量数据的交叉分类频数交叉分类频数.n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX2222列联表的概念列联表的概念 探究新知例1 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.对于中每一名学生,定义分类变量X和Y如下:881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校典例分析因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为可以用等高堆积条形图直观地展示上述计算结果:通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为120.00.20.40.60.81.0不优秀优秀甲校甲校 乙校乙校 因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中 值的大小粗略地判断分类变量X和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.归纳总结(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.