第7章类别变量分析(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx
-
资源ID:88334059
资源大小:1.61MB
全文页数:15页
- 资源格式: PPTX
下载积分:10金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
第7章类别变量分析(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx
第7章 类别变量分析(DA)教学课件数据分析基础基于Python的实现 电子教案第 1 章1-2统计学Python实现贾俊平2023/4/162023/4/16贾俊平俊平2023/4/162023/4/16数据分析基础数据分析基础贾俊平俊平 2023/4/162023/4/16Fundamentals of data Fundamentals of data analysis with Pythonanalysis with Python基于基于 Python 的实现的实现第 7 章7-3数据分析基础基于Python的实现2023/4/162023/4/16贾俊平俊平2023/4/162023/4/167.1 7.1 一个类别变量的拟合优度检验一个类别变量的拟合优度检验7.2 7.2 多个总体比例相等的检验多个总体比例相等的检验7.3 7.3 两个类别变量的独立性检验两个类别变量的独立性检验 7.4 7.4 两个类别变量的相关性度量两个类别变量的相关性度量 第 7 章 类别变量分析第 7 章7-4数据分析基础基于Python的实现2023/4/162023/4/16 7.1 一个类别变量的拟合优度检验拟合优度检验拟合优度检验期望频数相等期望频数相等l利用Pearson-2统计量来判断某个类别变量各类别的观察频数分布与某一理论分布或期望分布是否一致的检验方法比如,各月份的产品销售量是否符合均匀分布不同地区的离婚率是否有显著差异l也称为一致性检验(test of homogeneity)l该检验也可用于判断各类别的观察频数分布是否符合泊松分布或正态分布等第 7 章7-5数据分析基础基于Python的实现2023/4/162023/4/16 7.1 一个类别变量的拟合优度检验拟合优度检验拟合优度检验期望频数相等期望频数相等例题分析例题分析【例例7-1】(数据:example7_1.RData)为研究消费者对不同类型的饮料是否有明显偏好,一家调查公司随机调查了2000个消费者对4种类型饮料的偏好情况,得到不同类型饮料的偏好数据如表7-1所示。饮料料类型型人数人数碳酸碳酸饮料料525矿泉水泉水550果汁果汁470其他其他455合合计2000饮饮料料料料类类型型型型碳酸碳酸碳酸碳酸饮饮料料料料5255255005001.251.25矿矿泉水泉水泉水泉水5505505005005.005.00果汁果汁果汁果汁4704705005001.801.80其他其他其他其他4554555005004.054.05合合合合计计200020002000200012.1012.10卡方统计量=12.10,p值=0.007048第 7 章7-6数据分析基础基于Python的实现2023/4/162023/4/16 7.1 一个类别变量的拟合优度检验拟合优度检验拟合优度检验期望频数不相等期望频数不相等例题分析例题分析受教育程度受教育程度离婚家庭数离婚家庭数小学及以下小学及以下30初中初中110高中高中80大学大学25研究生研究生15合合计260第 7 章7-7数据分析基础基于Python的实现2023/4/162023/4/16 7.1 一个类别变量的拟合优度检验拟合优度检验拟合优度检验期望频数不相等期望频数不相等例题分析例题分析卡方统计量=19.586,p值=0.0006028受教育程度受教育程度受教育程度受教育程度观观察察察察频频数数数数期望比例期望比例期望比例期望比例%期望期望频数数=期望比例期望比例 样本量本量小学及以下小学及以下小学及以下小学及以下30200.20 260=52.0初中初中初中初中110350.35 260=91.0高中高中高中高中80250.25 260=65.0大学大学大学大学25120.12 260=31.2研究生研究生研究生研究生1580.08 260=20.8合合合合计计260100300受教育程度受教育程度小学及以下小学及以下3052.09.3077初中初中11091.03.9670高中高中8065.03.4615大学大学2531.21.2321研究生研究生1520.81.6173合合计26026019.5856第 7 章7-8数据分析基础基于Python的实现2023/4/162023/4/167 7.2.2 多个总体比例相等的检验【例例7-3】(数据:example7_3.csv)一家购物网站对在本网站购物的客户做了一项调查。调查的客户来自东部、中部、西部三个地区共500 人,表7-6是对本购物网站的整体满意度评价结果。检验各地区客户中对网站满意的的客户比例是否相同。满意度意度地区地区东部部中部中部西部西部合合计满意意12615835319不不满意意348265181合合计160240100500第 7 章7-9数据分析基础基于Python的实现2023/4/162023/4/167 7.2.2 多个总体比例相等的检验第 7 章7-10数据分析基础基于Python的实现2023/4/162023/4/167 7.2.2 多个总体比例相等的检验多个总体比例的多重比较方法多个总体比例的多重比较方法例题分析例题分析l通过上一节中各总体比例的检验,在拒绝原假设时可以得出类似各总体的比例不完全相同的结论,但是该结论较为模糊,可能是个别总体与其他大部分总体的比例不同,也可能是每个总体的比例都不相同。l因此,若要进一步判断每两个总体之间的比例是否相同,需要依靠用于对所有成对的总体比例进行统计检验的多重比较方法,下面将介绍Marascuilo方法,通过从一个例子介绍该方法的具体流程。【例例7-4】(数据:example7_3.csv)一家购物网站对在本网站购物的客户做了一项调查。调查的客户来自东部、中部、西部三个地区共500 人,表7-7是各个地区满意客户所占的比例。通过例7-3已经确认各个地区的比例不完全相同,使用Marascuilo方法对每两个总体进行检验。客户比例地区东部中部西部客户数量0.78750.65830.35003190.21250.34170.6500181客户数量160240100500第 7 章7-11数据分析基础基于Python的实现2023/4/162023/4/16 7.2 两个类别变量的独立性检验独立性检验独立性检验l第1步:计算每一对总体比例之差的绝对值。东部与西部:|0.7875-0.3500|=0.4375东部与中部:|0.7875-0.6583|=0.1292中部与西部:|0.6583-0.3500|=0.3083l第2步:选择显著性水平,计算Marascuilo成对比较方法的临界值,若两个总体比例之差的绝对值大于临界值,则说明在显著性水平为时,两个总体的比例显著不同,反之两个总体的比例之差不显著。K个总体比例的Marascuilo成对比较方法的临界值计算方法如下:表7-7时显著性水平=0.01时计算的检验结果,在该显著性水平下,东部与中部地区对本网站满意的客户所占比例之差的绝对值小于临界值,说明东部与中部地区的比例差距不显著,而东部与西部地区、中部与西部地区的比例之差绝对值大于临界值,说明这两对地区之间的比例显著不同。组1组2结论东部中部0.1291670.135148不显著东部西部0.4375000.174890显著不同中部西部0.3083330.172005显著不同第 7 章7-12数据分析基础基于Python的实现2023/4/162023/4/16 7.3 两个类别变量的独立性检验独立性检验独立性检验例题分析例题分析满意度意度地区地区东部部中部中部西西部部合合计满意意12615835319不不满意意348265181合合计160240100500满意度意度地区地区东部部中部中部西西部部合合计满意意126(102.08)158(153.12)35(63.80)319不不满意意34(57.92)82(86.88)65(36.20)181合合计160240100500卡方统计量=51.827,自由度=2,p值=5.572e-12。期望频数为:102.08 153.12 63.8 57.92 86.88 36.2 第 7 章7-13数据分析基础基于Python的实现2023/4/162023/4/16 7.2 两个类别变量的独立性检验独立性检验独立性检验注意事项注意事项l在应用2检验时,要求样本量应足够大,特别是每个单元格的期望频数不能太小,否则应用应检验可能会得出错误的结论从2统计量的公式可以看出,期望频数在公式的分母上,如果某个单元格的期望频数过小,统计量的值就会变大,从而导致拒绝原假设l应用2检验时对单元格的期望频数有以下要求如果仅有两个单元格,单元格的最小期望频数不应小于5。否则不能进行2检验单元格在两个以上时,期望频数小于5的单元格不能超过总格子数的20%,否则不能进行2检验如果出现期望频数小于5的单元格超过20%,可以采取合并类别的办法来解决这一问题第 7 章7-14数据分析基础基于Python的实现2023/4/162023/4/16 7.3 两个类别变量的相关性度量两个类别变量两个类别变量相关性度量相关性度量例题分析例题分析 系数系数l主要用于22列联表的相关性测量。计算公式Cramers V系数系数l由Cramer提出,计算公式 系数系数l主要用于大于22列联表的相关性测量,用C表示。计算公式为l联系数不可能大于1。当两个变量独立时,C=0,但即使两个变量完全相关,列联系数也不可能等于1,因此,对列联系数含义的解释就不够方便phi系数=0.32195 v系数=0.32195 c系数=0.30646THE ENDTHE ENDT THHAANNKKS S2023/4/16人人 生生 苦苦 短短我我 用用P Py yt th ho on n