《第九章列联分析精选PPT.ppt》由会员分享,可在线阅读,更多相关《第九章列联分析精选PPT.ppt(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章第九章 列联分析列联分析第1页,本讲稿共20页第一节第一节 列联分析列联分析第2页,本讲稿共20页二维列联表(二维列联表(contingency table;交叉表:;交叉表:cross table):):这些变量中每个都有两个或更多的可能取值,这些取值也这些变量中每个都有两个或更多的可能取值,这些取值也称为水平;比如收入有三个水平,观点有两个水平。各个变量称为水平;比如收入有三个水平,观点有两个水平。各个变量不同水平的交汇处是频数。不同水平的交汇处是频数。更多维的列联表称为高维列联表。更多维的列联表称为高维列联表。第3页,本讲稿共20页 列联表分析的一个重要内容是看变量之间是否独立,列
2、联表分析的一个重要内容是看变量之间是否独立,如本例中的收入和观点是否无关。如本例中的收入和观点是否无关。原假设和备选假设:原假设和备选假设:H0:(观点和收入)变量之间独立;:(观点和收入)变量之间独立;H1:变量之间相关。:变量之间相关。所用的检验统计量一般为所用的检验统计量一般为Pearson卡方统计量(也有其他卡方统计量(也有其他统计量,如似然比统计量,但统计量,如似然比统计量,但Pearson卡方统计量最常用),卡方统计量最常用),它在原假设成立的前提下有(大样本时)近似的卡方分布。它在原假设成立的前提下有(大样本时)近似的卡方分布。第4页,本讲稿共20页第5页,本讲稿共20页第6页,
3、本讲稿共20页第7页,本讲稿共20页 既然这个既然这个c c2 2统计量是近似的,那么有没有精确的统计量统计量是近似的,那么有没有精确的统计量呢?有。这个检验称为呢?有。这个检验称为FisherFisher精确检验;它不是精确检验;它不是c c2 2分布,而是分布,而是超几何分布。超几何分布。当当数数目目很很大大时时,超超几几何何分分布布计计算算相相当当缓缓慢慢(比比近近似似计计算算会会差差很很多多倍倍的的时时间间);而而且且在在计计算算机机速速度度不不快快时时,根本无法计算。因此人们多用大样本近似的根本无法计算。因此人们多用大样本近似的c c2 2统计量。统计量。第8页,本讲稿共20页例:收
4、入水平与对待该项政策的态度独立(无关)吗?例:收入水平与对待该项政策的态度独立(无关)吗?第9页,本讲稿共20页例:收入水平与对待该项政策的态度相关吗?例:收入水平与对待该项政策的态度相关吗?第10页,本讲稿共20页 data=read.csv(table7.csv,head=TRUE);attach(data)data1=xtabs(numberopinion+income)#把三维表转化为二维把三维表转化为二维 sum=sum(data1)理论频率理论频率=c(sum(numberopinion=0)/sum,sum(numberopinion=1)/sum)理论频数理论频数=cbind(
5、sum(numberincome=1)*理论频率理论频率,sum(numberincome=2)*理论频率理论频率,sum(numberincome=3)*理理论频率论频率)#计算理论频数计算理论频数 实际理论之差实际理论之差=data1-理论频数理论频数 卡方统计量值卡方统计量值=sum(实际理论之差实际理论之差2/理论频数理论频数)自由度自由度=(2-1)*(3-1)pvalue=1-pchisq(卡方统计量值卡方统计量值,自由度自由度);pvalue1 3.614199e-05第11页,本讲稿共20页列联检验的软件实现:SPSS:Analyze(分析)Descriptive Statis
6、tics(描述统计)Crosstabs(交叉表)。R:data=read.csv(table7.csv,head=TRUE);attach(data)data1=xtabs(numberopinion+income)#把三维表转化为二维 chisq.test(data1)或 fisher.test(data1)#fisher精确检验第12页,本讲稿共20页第二节第二节 检验检验第13页,本讲稿共20页第14页,本讲稿共20页1、看看基本指标、看看基本指标 data=read.csv(概率论与数理统计课程成绩数据概率论与数理统计课程成绩数据.csv,head=TRUE)attach(data);
7、length(课程成绩课程成绩);mean(课程成绩课程成绩);sd(课程成绩课程成绩);range(课程成绩课程成绩)1 147 1 80.57143 1 12.61278 1 39 1002、划分区间并计算实际频数、划分区间并计算实际频数 区间区间=quantile(课程成绩课程成绩,prob=seq(0,1,0.1)#把课程成绩把课程成绩分成等概率的分成等概率的10个区间个区间(即频数为即频数为147*0.1)第15页,本讲稿共20页 实际频数实际频数=table(cut(课程成绩课程成绩,区间区间,include.lowest=TRUE)#计计算成绩落在各区间的频数(并列成绩的存在使各
8、区间频数并不严算成绩落在各区间的频数(并列成绩的存在使各区间频数并不严格相等),格相等),include.lowest=TRUE选项保证选项保证39分的成绩不被漏掉分的成绩不被漏掉3、计算理论概率、计算理论概率 理论概率理论概率1=pnorm(区间区间,mean(课程成绩课程成绩),sd(课程成绩课程成绩)理论概率理论概率1=理论概率理论概率1-1 理论概率理论概率=c(理论概率理论概率11,理论概率理论概率12:10-理论概率理论概率11:9)理论频数理论频数=理论概率理论概率*length(课程成绩课程成绩)第16页,本讲稿共20页4、计算卡方统计量、计算卡方统计量、p值值 卡方统计量卡方
9、统计量=sum(实际频数实际频数-理论频数理论频数)2/理论频数理论频数)df=10-1#自由度为自由度为10个区间数个区间数(即卡方统计量中即卡方统计量中sum的的项数项数)-1 pvalue=1-pchisq(卡方统计量卡方统计量,df)卡方统计量卡方统计量;pvalue1 30.63441 0.0003419502第17页,本讲稿共20页分布的拟合优度的卡方检验的计算机实现:SPSS:Analyze(分析)Nonparametric Tests(非参数检验)Chi-Square(卡方)。(麻烦:理论频数需要一个一个地输入)第18页,本讲稿共20页R:#读入数据、划分区间、计算实际频数读入
10、数据、划分区间、计算实际频数 data=read.csv(概率论与数理统计课程成绩数据概率论与数理统计课程成绩数据.csv,head=TRUE)attach(data);n=length(课程成绩课程成绩);mean=mean(课程成绩课程成绩);sd=sd(课程成绩课程成绩);range(课程成绩课程成绩)区间区间=quantile(课程成绩课程成绩,prob=seq(0,1,0.1)#把课程成绩把课程成绩分成等概率的分成等概率的10个区间个区间(即频数为即频数为147*0.1)实际频数实际频数=table(cut(课程成绩课程成绩,区间区间,include.lowest=TRUE)#计算成
11、绩落在各区间的频数计算成绩落在各区间的频数(由于有并列成绩所以各区间频数由于有并列成绩所以各区间频数并不严格相等并不严格相等),include.lowest=TRUE选项保证选项保证39分的成绩不分的成绩不被漏掉被漏掉第19页,本讲稿共20页#构造概率向量:为了使概率向量的区间数与实际频数相构造概率向量:为了使概率向量的区间数与实际频数相等并使概率和为等并使概率和为1(这是使用这是使用chisq.test命令的前提命令的前提),需要,需要进行修正进行修正 累积理论概率累积理论概率1=pnorm(区间区间,mean,sd)累积理论概率修正累积理论概率修正1=c(累积理论概率累积理论概率11+累积理论概率累积理论概率12,累积理论概率累积理论概率13:10,1)理论概率修正理论概率修正1=c(累积理论概率修正累积理论概率修正11,累积理论概率修累积理论概率修正正12:10-累积理论概率修正累积理论概率修正11:9)chisq.test(实际频数实际频数,p=理论概率修正理论概率修正1)第20页,本讲稿共20页
限制150内