《统计学—基于R》(07)第7章--类别变量分析(R3).pptx
《《统计学—基于R》(07)第7章--类别变量分析(R3).pptx》由会员分享,可在线阅读,更多相关《《统计学—基于R》(07)第7章--类别变量分析(R3).pptx(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、3-3-1 1统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)数据分析数据分析(方法与案例方法与案例)作者 贾俊平 版权所有 违者必究统计学统计学R R 语言语言第第 7 章章 类别变量分析类别变量分析7.1 一个类别变量的拟合优度检验一个类别变量的拟合优度检验 7.2 两个类别变量的独立性检验两个类别变量的独立性检验 7.3 两个类别变量的相关性度量两个类别变量的相关性度量 7.1 一个类别变量的拟合优度检验一个类别变量的拟合优度检验 7.1.1 期望频数相等期望频数相等 7.1.2 期望频数不等期望频数不等 第第 7 章章 类别变量分析类别变量分析7-7-4 4统计学统计
2、学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25l利利用用Pearson-Pearson-2 2统统计计量量来来判判断断某某个个类类别别变变量量各各类类别别的的观观察察频频数数分分布布与与某某一一理理论论分分布布或或期期望望分分布是否一致的检验方法布是否一致的检验方法n n比如,各月份的产品销售量是否符合均匀分布比如,各月份的产品销售量是否符合均匀分布n n不同地区的离婚率是否有显著差异不同地区的离婚率是否有显著差异l也称为也称为一致性检验一致性检验一致性检验一致性检验(test of homogeneity)(test of homogeneity
3、)l该该检检验验也也可可用用于于判判断断各各类类别别的的观观察察频频数数分分布布是是否符合泊松分布或正态分布等否符合泊松分布或正态分布等 什么是拟合优度检验什么是拟合优度检验?(goodness of fit test)7.1.1 期望频数相等期望频数相等7.1 一个类别变量的拟合优度检验一个类别变量的拟合优度检验7-7-6 6统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25拟合优度检验拟合优度检验(期望频数相等期望频数相等)【例例例例7-17-1】(数数据据:example7_1.RDataexample7_1.RData)为为研研究究消
4、消费费者者对对不不同同类类型型的的饮饮料料是是否否有有明明显显偏偏好好,一一家家调调查查公公司司随随机机调调查查了了20002000个个消消费费者者对对4 4种种类类型型饮饮料料的的偏偏好好情情况况,得得到到不不同同类类型饮料的偏好数据如表型饮料的偏好数据如表7-17-1所示。所示。饮料类型饮料类型人数人数碳酸饮料碳酸饮料525矿泉水矿泉水550果汁果汁470其他其他455合计合计20007-7-7 7统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25拟合优度检验拟合优度检验(期望频数相等期望频数相等)第第1步:步:提出假设 H0:观察频数与
5、期望频数无显著差 异(无明显偏好)H1:观察频数与期望频数有显著差 异(有明显偏好)第第2步:步:计算2统计量自由度自由度自由度自由度df=df=类别个数类别个数类别个数类别个数-1-17-7-8 8统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25拟合优度检验拟合优度检验(期望频数相等期望频数相等)2 2 统计量计算表统计量计算表统计量计算表统计量计算表由由R R函函数数得得P=0.007P=0.007。拒拒绝绝原原假假设设,表表明明消消费费者者对对不不同同乐乐类类型型饮饮料的偏好有显著差异料的偏好有显著差异 饮料类型饮料类型饮料类型饮料类
6、型碳酸饮料碳酸饮料碳酸饮料碳酸饮料5255255005001.251.25矿泉水矿泉水矿泉水矿泉水5505505005005.005.00果汁果汁果汁果汁4704705005001.801.80其他其他其他其他4554555005004.054.05合计合计合计合计200020002000200012.1012.107-7-9 9统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25拟合优度检验拟合优度检验(例题例题71)#期望频数相等时的拟合优度检验期望频数相等时的拟合优度检验 load(C:/example/ch7/example7_1.RD
7、ata)example7_1 chisq.test(example7_1$人数)7.1.2 期望频数不等期望频数不等7.1 一个类别变量的拟合优度检验一个类别变量的拟合优度检验7-7-1111统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25拟合优度检验拟合优度检验(期望频数不等期望频数不等)受教育程度受教育程度离婚家庭数离婚家庭数小学及以下小学及以下30初中初中110高中高中80大学大学25研究生研究生15合计合计2607-7-1212统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25拟合
8、优度检验拟合优度检验(期望频数不等期望频数不等)第第第第1 1步:步:步:步:提出假设提出假设 H H0 0:不同受教育程度的离婚家庭数与期望频数无显著差异 H H1 1 :不同受教育程度的离婚家庭数与期望频数有显著差异第第第第2 2步:步:步:步:计算期望频数和计算期望频数和 2 2统计量统计量自由度自由度自由度自由度df=df=类别个数类别个数类别个数类别个数-1-17-7-1313统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25拟合优度检验拟合优度检验(期望频数不等期望频数不等)期望频数计算表期望频数计算表期望频数计算表期望频数计算表
9、受教育程度受教育程度观察频数观察频数期望比例期望比例%期望频数期望频数=期望比例期望比例 样本量样本量小学及以下小学及以下30200.20 260=52.0初中初中110350.35 260=91.0高中高中80250.25 260=65.0大学大学25120.12 260=31.2研究生研究生1580.08 260=20.8合计合计2601003007-7-1414统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25拟合优度检验拟合优度检验(期望频数不等期望频数不等)2 2 统计量计算表统计量计算表统计量计算表统计量计算表由由于于自自由由度度
10、=5-1=4=5-1=4,利利用用R R函函数数得得P P值值(右右尾尾概概率率)为为0.0006 0.0006 ,由由于于P0.05P0.05。不不拒拒绝绝原原假假设设,没没有有证证据据表表明明该该城城市市居居民民对对房房屋屋价格满意度的评价与全国有显著差异价格满意度的评价与全国有显著差异受教育程度受教育程度小学及以下小学及以下3052.09.3077初中初中11091.03.9670高中高中8065.03.4615大学大学2531.21.2321研究生研究生1520.81.6173合计合计26026019.58567-7-1515统计学统计学基于基于基于基于 R R(第第第第 3 3 版版
11、版版)2018-9-252018-9-25拟合优度检验拟合优度检验(例题例题72)#期望频数期望频数不不相等相等时的拟合优度检验时的拟合优度检验 load(C:/example/ch7/example7_2.RData)example7_2 chisq.test(example7_2$离婚家庭数,p=example7_2$期望比例)7.2 两个类别变量的独立性检验两个类别变量的独立性检验 7.2.1 列联表与列联表与 2独立性检验独立性检验 7.2.2 应用应用 2检验应注意的问题检验应注意的问题 第第 7 章章 类别变量分析类别变量分析7.2.1 列联表与列联表与 2独立性检验独立性检验 7
12、.2 两个类别变量的独立性检验两个类别变量的独立性检验7-7-1818统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25l l研研究究两两个个类类别别变变量量时时,每每个个变变量量有有多多个个类类别别,通通常常将将两两个变量多个类别的频数用交叉表的形式表示出来个变量多个类别的频数用交叉表的形式表示出来n n一一个个变变量量放放在在行行(row)(row)的的位位置置,称称为为行行变变量量,其其类类别别数数(行行数数)用用r r表示表示n n另另一一个个变变量量放放在在列列(column)(column)的的位位置置,称称为为列列变变量量,其其
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学基于R 统计学 基于 07 类别 变量 分析 R3
限制150内