分类数据的统计分析.pdf
分类数据的统计分析分类数据的统计分析开设目的开设目的?医学科研中分类数据多见医学科研中分类数据多见?常用的分类数据的统计分析方法常用的分类数据的统计分析方法?软件实现过程软件实现过程讲授内容讲授内容?列联表中变量关联列联表中变量关联(association)的假设检验的假设检验?22表表?行列表行列表?分层分层2 2表表?CMH方法方法?解释变量与反应结果间联系的统计模型解释变量与反应结果间联系的统计模型?LOGISTIC回归模型回归模型?Poisson回归模型回归模型?对数线性模型对数线性模型成绩评定成绩评定?到课次数到课次数(20%)?平时作业平时作业(30%)?期终测验期终测验(50%)参考资料参考资料?分类数据的统计分析及分类数据的统计分析及SAS编程编程?Categorical Data Analysis Using the SAS System?SAS-Base and SAS-STAT Users Guide _Version 8?SPSS 使用教程使用教程分类数据定义分类数据定义分类数据是指分类数据是指反应变量反应变量(应变量应变量)为分类变量,而解释变量为分类变量,而解释变量(自变量自变量)可是分类变量或连续变量。可是分类变量或连续变量。?列联表中变量关联列联表中变量关联(association)的假设检验的假设检验?解释变量与反应结果间联系的统计模型。解释变量与反应结果间联系的统计模型。分类反应变量的尺度分类反应变量的尺度?分类尺度分类尺度:分类尺度是两种可能的结果分类尺度是两种可能的结果?顺序尺度顺序尺度:结果不止两种可能性,而且有顺序关系结果不止两种可能性,而且有顺序关系?离散计数离散计数:结果本身是离散计数结果本身是离散计数?名义尺度名义尺度:结果多于两类,而类别之间并没有顺序关系结果多于两类,而类别之间并没有顺序关系?分组计数分组计数:数据本身是连续数据,经分组后,反应变量为在不同组中的例数。数据本身是连续数据,经分组后,反应变量为在不同组中的例数。分类数据分析策略分类数据分析策略?假设检验对建立的一个关于联系假设检验对建立的一个关于联系(association)的假设进行检验,说明列联表的行与列之间是否有关。的假设进行检验,说明列联表的行与列之间是否有关。?建立模型用建立模型的方法可求得各参数值,说明各因素的作用。通常用最大似然估计或加权最小二乘法估计。建立模型用建立模型的方法可求得各参数值,说明各因素的作用。通常用最大似然估计或加权最小二乘法估计。列 联 表列 联 表一般,若总体中的个体可按两个属性一般,若总体中的个体可按两个属性A与与B分类,分类,A有有r个等级个等级A1,A2,Ar,B有有c个等级个等级B1,B2,Bc,从总体中抽取大小为,从总体中抽取大小为n的样本,设其中有的样本,设其中有nij个个体的属性属于等级个个体的属性属于等级Ai和和Bj,nij称为频数,将称为频数,将rc个个nij排列为一个排列为一个r行行c列的二维列联表列的二维列联表(contingency table),简称,简称rc表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维(分层)列联表。若每次只分析两个定性变量时,可将资料整理为表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维(分层)列联表。若每次只分析两个定性变量时,可将资料整理为22表、表、2 C表或表或RC表的形式。表的形式。列 联 表列 联 表列联表分析的基本问题是,判明所考察的各变量之间有无关联,即是否独立。列联表分析的统计分析方法很多,所以在实际应用中,可根据下列几方面正确的选用分析方法:列联表分析的基本问题是,判明所考察的各变量之间有无关联,即是否独立。列联表分析的统计分析方法很多,所以在实际应用中,可根据下列几方面正确的选用分析方法:?定性变量个数定性变量个数?定性变量的属性(名义变量还是有序变量)、定性变量的属性(名义变量还是有序变量)、?频数(总频数和各网格上的理论频数)频数(总频数和各网格上的理论频数)?资料的收集方式(研究设计)。资料的收集方式(研究设计)。?分析目的分析目的22 列联表资料22 列联表资料例 题例 题例例 1 在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。结果疗效如下表所示,试作统计分析。在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。结果疗效如下表所示,试作统计分析。组组 别别 无效无效 有效有效 合计合计 江剪刀草江剪刀草 263 70 333 胆麻片胆麻片 180 102 282 合合 计计 443 172 615 Pearson2 检验检验2211()(1)(1)RCijijPijijATRCT=基本公式基本公式由Karl Pearson(1900)提出,因此软件上常称这种检验为Pearson 2检验22 列联表列联表Pearson2 检验检验222211()ijijPijijATT=四格表四格表行变量列变量合计有无组行变量列变量合计有无组1n11n12n1+组组2n21n22n2+合计合计n+1n+2n1=ijijn nTn+=四格表专用公式四格表专用公式可由可由基本公式基本公式推导出,直接由各格子的实际频数(推导出,直接由各格子的实际频数(a、b、c、d)计算可得四格表专用公式:)计算可得四格表专用公式:222222()()()()()()()()()()()()()()()()()()A TTab acab bdac cdcd bdabcdabcdabcdabcdabcdab acab bdac cdcd bdabcdabcdabcdabcdadbc=+=+=基本公式:21;()()()()nab cd ac bd=+四格表行变量列变量合计有无组四格表行变量列变量合计有无组1aba+b组组2cdc+d合计合计a+cb+dn连续性校正连续性校正2分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续性校正分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续性校正(correction for continuity),又称又称Yates校正(校正(Yates correction,1934)。当)。当n40,而,而1T5时,用连续性校正公式当时,用连续性校正公式当n40或或T1时,用时,用Fisher精确检验精确检验(Fisher exact test)校正公式校正公式:22(0.5)cA TT=,(也适合其它行 列表资料))()()()2/(22dbcadcbannbcadc+=Mantel-Haenszel 2(called the Mantel-Haenszel test for linear associationor linear by linear association chi-square)计算公式为在计算公式为在H0成立的条件下成立的条件下22列联表列联表Mantel-Haenszel 2(1959)22111111()MHnmv=1111n nmn+=1212112(1)n n n nvn n+=处理结果处理结果12合计合计1n11n12n1+2n21n22n2+合计合计n+1n+2n似然比 似然比 2 (Wilks,1938)计算公式为计算公式为22列联表列联表似然比 似然比 2(Likelihood ratio chi-square)222112ln()ijLijijijAAT=Mantel-Haenszel 2与与Pearson 2的关系的关系221PMHnn=2统计量间的关系统计量间的关系Mantel-Haenszel 2与与Pearson 相关系数相关系数r 的关系的关系22(1)MHpnr=例 题例 题在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。研究结果如下表。试作统计分析。在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。研究结果如下表。试作统计分析。组组 别别 无无 效有效有 效合效合 计计江剪刀草江剪刀草 263 70 333 胆麻片胆麻片 180 102 282 合合 计计 443 172 615 例 题例 题例例 2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将 78 例脑血管疾病患者随机分为两组,结果见下表。试作统计分析。例脑血管疾病患者随机分为两组,结果见下表。试作统计分析。两种药物治疗脑血管疾病有效率的比较两种药物治疗脑血管疾病有效率的比较 组别组别 有效有效 无效无效 合计合计 胞磷胆碱组胞磷胆碱组 46 6 52 神经节苷酯组神经节苷酯组 18 8 26 合合 计计 64 14 78 配对四格表资料的配对四格表资料的 2检验检验 1,)1(2402=+=+cbcbcb时,需作连续性校正,1,)(2240c=+=+cbcbb时,当配对四格表方法配对四格表方法1方法方法2合计合计+aba+bcdc+d合计合计a+cb+dn?有无差别:有无差别:McNemar检验检验?一致性:一致性:Kappa 检验检验McNemar检验(检验(McNemars test for correlated proportions),主要用于配对资料率的检验),主要用于配对资料率的检验配对四格表资料的配对四格表资料的2 检验公式推导检验公式推导(+,)和(,+)两个格子中的理论频数均为 2cb+40+cb时 2)2(2)2()(2222cbcbccbcbbTTA+=cbcb+=2)(2分布 40+cb时 cbcbTTA+=222)1|(|)5.0|(|SPSS中的中的 McNemar检验检验SPSS 中中 McNemar 检验所采用的是一种精确计算概率的方法:检验所采用的是一种精确计算概率的方法:令令cbm+=,),min(cbk=。对于双侧检验,对于双侧检验,P 值计算公式为:值计算公式为:mkjjmP=2120 若若 b=c 则则 P=1 例 题例 题例例 3 205 份标本分别接种于甲、乙两种培养基,共有份标本分别接种于甲、乙两种培养基,共有 4 种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:两种培养基的效果比较两种培养基的效果比较 甲培养基甲培养基 乙培养基乙培养基 生长生长 不生长不生长 合计合计 生长生长 36 34 70 不生长不生长 0 135 135 合计合计 36 169 205 Fisher Exact test精确检验法由精确检验法由R.A.Fisher于于1935提出。其思想是在固定各周边合计的条件下,实际频数提出。其思想是在固定各周边合计的条件下,实际频数a、b、c、d可有多种组合,根据超几何分布,可以计算各种组合中小于等于现有样本概率的概率值之和可有多种组合,根据超几何分布,可以计算各种组合中小于等于现有样本概率的概率值之和P,并与检验水准,并与检验水准比较,若所得结果比较,若所得结果P,则判定所考虑的两个属性存在关联,从而拒绝,则判定所考虑的两个属性存在关联,从而拒绝H0。单侧检验时只需求出一侧所需组合的概率总和,双侧检验时则需求出两侧所需组合的概率总和。计算公式为:。单侧检验时只需求出一侧所需组合的概率总和,双侧检验时则需求出两侧所需组合的概率总和。计算公式为:()()()()!abcbacbdpa b c d n+=Fisher Exact test适用条件:?n40检验检验22关联表中的相关联性时采用关联表中的相关联性时采用Fisher精确检验,一般要求精确检验,一般要求n比较小。若比较小。若n比较大,大到足以支持变量(比如“成功”的次数)的平均数有近似正态性的假定,倘若根据原假设为真作出的预测值也比较大,则不宜采用比较大,大到足以支持变量(比如“成功”的次数)的平均数有近似正态性的假定,倘若根据原假设为真作出的预测值也比较大,则不宜采用Fisher方法,而常采用方法,而常采用2检验。检验。n40?T1?P二项分布二项分布一批产品共一批产品共N件,其中有件,其中有M件次品,进行有放回抽样检查,每次从这批产品中任意取出一件,取出的产品再放回去,连续取件次品,进行有放回抽样检查,每次从这批产品中任意取出一件,取出的产品再放回去,连续取 n次,共取出次,共取出 n件产品,则取出的件产品,则取出的n 件产品中的次品数件产品中的次品数X服从二项分布服从二项分布X=0,1,n(1)()XnXnXPP XC P=超几何分布超几何分布一批产品共一批产品共N件,其中有件,其中有M件次品,进行不放回抽样检查,每次从这批产品中任意取出一件,取出的产品不再放回去,连续取件次品,进行不放回抽样检查,每次从这批产品中任意取出一件,取出的产品不再放回去,连续取 n次,共取出次,共取出 n件产品,则取出的件产品,则取出的n 件产品中的次品数件产品中的次品数X服从超几何分布服从超几何分布 X=0,1,n()mn mMN MnNC CP XmC=例 题例 题例例 4 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染某医师为研究乙肝免疫球蛋白预防胎儿宫内感染 HBV 的效果,将的效果,将 34 例例 HBsAg 阳性孕妇随机分为预防注射组和非预防组,结果见下表。试作统计分析。阳性孕妇随机分为预防注射组和非预防组,结果见下表。试作统计分析。两组新生儿两组新生儿 HBV 感染率的比较感染率的比较 组别组别 阳性阳性 阴性阴性 合计合计 预防注射组预防注射组4 19 23 非预防组非预防组 6 5 11 合合 计计 9 24 34 例 题例 题例例 5 某单位研究胆囊腺癌、腺瘤的某单位研究胆囊腺癌、腺瘤的 P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各 10 份,用免疫组化法检测份,用免疫组化法检测 P53基因,资料见下表。问胆囊腺癌和胆囊腺瘤的基因,资料见下表。问胆囊腺癌和胆囊腺瘤的 P53基因表达阳性率有无差别?基因表达阳性率有无差别?胆囊腺癌与胆囊腺瘤胆囊腺癌与胆囊腺瘤 P53 基因表达阳性率的比较基因表达阳性率的比较 病种病种 阳性阳性 阴性阴性 合计合计 胆囊腺癌胆囊腺癌6 4 10 胆囊腺瘤胆囊腺瘤1 9 10 合计合计 7 13 20 观察结果的一致性评价观察结果的一致性评价Cohens kappa值用于表示两种值用于表示两种方法(方法(two raters)对对同一批同一批研究对象进行评判所得结果的一致性的程度,是评价分类变量结果一致性和信度的指标。研究对象进行评判所得结果的一致性的程度,是评价分类变量结果一致性和信度的指标。1AeePPP=PA为两次观察的一致性(为两次观察的一致性(observed agreement)Pe为两次观察的机遇(期望)一致性(为两次观察的机遇(期望)一致性(agreement of chance)Kappa值基本公式为:值基本公式为:二分类测定结果的一致性评价二分类测定结果的一致性评价观察一致性率观察一致性率:机遇一致性率:机遇一致性率:甲乙合计甲乙合计+aba+bcdc+d合 计合 计a+cb+dnndaPA+=2)()(ndbdccabaPe+=多分类测定结果的一致性评价多分类测定结果的一致性评价第一次第二次合计第一次第二次合计12g1a11a12a1gn1+2a21a22a2gn2+gag1ag2aggng+合 计合 计n+1n+2n+gnnanaaaaPiiggA=+=?3322111 12233221gggiiein nn nn nn nn nPnn+=+=?观察一致率观察一致率:机遇一致率:机遇一致率:Kappa 值的意义值的意义Kappa值的取值范围是值的取值范围是|1。?=-1时,表明完全不一致;时,表明完全不一致;?=1时,表明两次分类结果完全一致。时,表明两次分类结果完全一致。?=0时,表明一致性完全由机遇造成;时,表明一致性完全由机遇造成;?-1 0时,表明观察一致性小于机遇一致性,无意义;时,表明观察一致性小于机遇一致性,无意义;?0.4时,表明一致性较差;时,表明一致性较差;?0.40.6时,表明中度一致;时,表明中度一致;?0.60.8时,表明有极好的一致性。时,表明有极好的一致性。Kappa值究竟多大有实际意义,需要根据具体问题而定。值究竟多大有实际意义,需要根据具体问题而定。一致性一致性Kappa 值检验值检验(0,1)uNS=1/221()(1)3eeijijeSPPn nnnPn+=+S1.9695%可信区间为可信区间为正态近似(渐近)为正态近似(渐近)为一致性一致性Kappa 值检验值检验Fleiss and Light developed a generalized version of kappa for more than two raters;Cohen also developed a weighted kappa version to allow for degrees of agreement rather than simple agree/disagree classification.例 题例 题例例 3 205 份标本分别接种于甲、乙两种培养基,共有份标本分别接种于甲、乙两种培养基,共有 4 种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:两种培养基的效果比较两种培养基的效果比较 甲培养基甲培养基 乙培养基乙培养基 生长生长 不生长不生长 合计合计 生长生长 36 34 70 不生长不生长 0 135 135 合计合计 36 169 205 例 题例 题例例 6 采用两种方法对冠心病患者检查室壁收缩运动情况,其列联表的结果为:试作一致性分析。采用两种方法对冠心病患者检查室壁收缩运动情况,其列联表的结果为:试作一致性分析。核素法病例数核素法病例数 对比法对比法 正常正常 减弱减弱 异常异常 合计合计 正常正常 58 2 3 63 减弱减弱 1 42 7 50 异常异常 8 9 17 34 合计 67 53 27 147 合计 67 53 27 147 优势比(优势比(odds ratio,OR)某事件发生的概率与其对立事件发生的概率之比称为优势或比数(某事件发生的概率与其对立事件发生的概率之比称为优势或比数(odds)。优势比或比数比()。优势比或比数比(odds ratio,OR)来反映病例与对照在暴露上的差异,从而建立起疾病与暴露因素之间的联系。)来反映病例与对照在暴露上的差异,从而建立起疾病与暴露因素之间的联系。优势比(优势比(odds ratio,OR)?Odds1,表示事件的发生与其对立事件发生相比具有优势;,表示事件的发生与其对立事件发生相比具有优势;?Odds=1,表示事件的发生与其对立事件发生势均力敌;,表示事件的发生与其对立事件发生势均力敌;?Odds0.05)0.05)秩和检验秩和检验分析结果:分析结果:Ranks6061.573694.005857.363327.00118VAR000011.002.00TotalVAR00002NMean RankSum of RanksVAR00002Mann-Whitney U1616.000Wilcoxon W3327.000Z-0.731Asymp.Sig.(2-tailed)0.465?双向有序且属性相同的列联表资料研究的目的是要考察两种测定方法的测定结果之间是否具有一致性,故仍不适合选用一般的双向有序且属性相同的列联表资料研究的目的是要考察两种测定方法的测定结果之间是否具有一致性,故仍不适合选用一般的 2 2 检验分析资料,应采用检验两个变量一致性的检验:检验分析资料,应采用检验两个变量一致性的检验:?一致性一致性Kappa检验检验。行列(行列(RC)表资料)表资料例 题例 题例例 6 采用两种方法对冠心病患者检查室壁收缩运动情况,其列联表的结果为:试作一致性分析。采用两种方法对冠心病患者检查室壁收缩运动情况,其列联表的结果为:试作一致性分析。核素法病例数核素法病例数 对比法对比法 正常正常 减弱减弱 异常异常 合计合计 正常正常 58 2 3 63 减弱减弱 1 42 7 50 异常异常 8 9 17 34 合计 67 53 27 147 合计 67 53 27 147 例 题例 题例例 12 某研究者欲研究年龄与冠状动脉粥样硬化等级之间的关系,将某研究者欲研究年龄与冠状动脉粥样硬化等级之间的关系,将 278 例尸解资料整理成下表,问年龄与冠状动脉粥样硬化等级之间是否存在线性变化趋势?例尸解资料整理成下表,问年龄与冠状动脉粥样硬化等级之间是否存在线性变化趋势?年龄与冠状动脉硬化的关系年龄与冠状动脉硬化的关系 冠状动脉硬化等级冠状动脉硬化等级(Y)年龄年龄(岁)岁)(X)+合计合计 20 70 22 4 2 98 30 27 24 9 3 63 40 16 23 13 7 59 50 9 20 15 14 58 合计合计 122 89 41 26 278?双向有序且属性不同双向有序且属性不同?若研究目的为分析不同行分组下,结果变量之间有无差别时,可把它视为单向有序表资料,选用:若研究目的为分析不同行分组下,结果变量之间有无差别时,可把它视为单向有序表资料,选用:?秩和检验秩和检验;?不适合选用不适合选用 2检验分析资料检验分析资料?若研究目的为分析两有序分类变量间是否存在关联关系,宜用若研究目的为分析两有序分类变量间是否存在关联关系,宜用:?双有序变量的关联性分析双有序变量的关联性分析?不适合选用不适合选用 2检验和检验和秩和检验秩和检验分析资料分析资料行列(行列(RC)表资料)表资料?若研究目的为分析两有序分类变量间是否存在线性变化趋势,宜用若研究目的为分析两有序分类变量间是否存在线性变化趋势,宜用:?线性趋势检验线性趋势检验?对应分析对应分析?不适合选用不适合选用 2 2检验和秩和检验分析资料检验和秩和检验分析资料行列(行列(RC)表资料)表资料双向有序且属性不同为什么不适合用双向有序且属性不同为什么不适合用 2 2 检验做分析?检验做分析?某病病情与疗效的关系某病病情与疗效的关系病 情疗效合计恶化无效有效轻病 情疗效合计恶化无效有效轻10203060 中中30201060 重重20301060 极重极重20103060合计合计808080240实例实例两表的区别仅在于病情“极重”组和“中”组的数据进行了互换。两表的区别仅在于病情“极重”组和“中”组的数据进行了互换。病 情疗效合计恶化无效有效轻病 情疗效合计恶化无效有效轻10203060 中中20103060 重重20301060 极重极重30201060合计合计808080240实例实例 2 2检验和多组资料比较的Kruskal-Wallis秩和检验结果检验和多组资料比较的Kruskal-Wallis秩和检验结果对于前一个表:对于前一个表:2=40.000,P=0.000H=24.896,P=0.000对于后一个表:对于后一个表:2=40.000,P=0.000H=24.896,P=0.000两种检验都无法表达两表的差别,直观地看,两表的资料显示病情与疗效趋势有所不同。两种检验都无法表达两表的差别,直观地看,两表的资料显示病情与疗效趋势有所不同。RC表的表的2 检验通用公式检验通用公式代入基本公式可推导出:基本公式通用公式自由度代入基本公式可推导出:基本公式通用公式自由度=(行数(行数1)(列数)(列数1)nnnTCR=总例数列合计行合计理论频数)1()(2222=CRnnAnTTARC表的表的2 检验适用条件检验适用条件?不能有不能有1/5以上的格子理论频数小于以上的格子理论频数小于5,且不能有任意一个格子的理论频数小于,且不能有任意一个格子的理论频数小于1,否则易导致分析的偏性。,否则易导致分析的偏性。?出现这些情况时可采取以下措施:在可能的情况下再增加样本量;从专业上如果允许,可将太小的理论频数所在的行或列与性质相近的邻行或邻列合并;删去理论频数太小的行和列;用双向无序出现这些情况时可采取以下措施:在可能的情况下再增加样本量;从专业上如果允许,可将太小的理论频数所在的行或列与性质相近的邻行或邻列合并;删去理论频数太小的行和列;用双向无序RC表的确切概率法表的确切概率法RC表的表的2 检验适用条件检验适用条件?行列表资料经行列表资料经 2检验后,若假设检验的结果拒绝检验后,若假设检验的结果拒绝H0,只能认为各总体率或构成比之间总的来说有差别,但并不一定它们彼此之间都有差别,如果需要分析两两之间的差别,需进一步作两两比较。,只能认为各总体率或构成比之间总的来说有差别,但并不一定它们彼此之间都有差别,如果需要分析两两之间的差别,需进一步作两两比较。?常用调整犯第一类错误的概率方法常用调整犯第一类错误的概率方法?Bonferroni 法。法。似然比 似然比 2的计算公式为计算公式为的计算公式为计算公式为RC表似然比 表似然比 2(Likelihood ratio chi-square)2112ln()RCijLijijijAAT=Relationship 关系Relationship 关系?Association关联(两、多分类间、有序分类间)关联(两、多分类间、有序分类间)?Correlation(线性)相关(连续变量)(线性)相关(连续变量)?linear correlation?partial correlation?multiple correlation?part correlation?Reliability信度(量表评分)信度(量表评分)Nominal Association?contingency coefficient?phi,Cramrs V?lambdas?uncertainty coefficient列联系数列联系数(Contingency coefficient)?CC 多用于多用于RC列联表,对列联表,对22表的关联性估计过低。表的关联性估计过低。?0CC1?CC关于行列对称关于行列对称?调整的调整的CC*22ppCCn=+计算公式计算公式2*2(1)ppCCm mn=+where m=min R,C Phi?Phi 一般仅用于四格表一般仅用于四格表?0Phi,对四格表,对四格表0Phi1?Phi 关于行列对称关于行列对称?Phi的符号与的符号与Pearson相关系数相关系数rp相同相同2pn=计算公式计算公式112212211212n nn nn n n n+=Cramers V?V 多用于多用于RC表表?0 V 1?|V|=|Phi|,对四格表,对四格表?V 关于行列对称关于行列对称2(1)pVn m=计算公式计算公式where m=min R,C LambdaLambda?是误差减少率量度指标也称为是误差减少率量度指标也称为 Goodman-Kruskal lambda,其值表示通过自变量来预测因变量时误差减少的比例其值表示通过自变量来预测因变量时误差减少的比例PRE(proportionate reduction in error)measure。?0 1?关于行列非对称关于行列非对称,immjmmffRC,分别为第i行,第j列中频数最大者,分别为行,列合计中频数最大者计算公式计算公式1 RimmicmfCnC=1 CmjmjrmfRnR=11 2RCimmjmmijmmffRCnRC=+=Uncertainty coefficient?UC 也是误差减少率量度指标也称为 熵系数(也是误差减少率量度指标也称为 熵系数(entropy coefficient)其值表示通过自变量来说明因变量熵时误差减少的比例。其值表示通过自变量来说明因变量熵时误差减少的比例。?0UC 1?UC关于行列非对称关于行列非对称1()lnRiiirrU Rnn=计算公式计算公式C|R()()()UC()U RU CU RCU C+=1()lnCjjjccU Cnn=,()lnijiji jffU RCnn=()()()UC2()()U RU CU RCU RU C+=+例 题例 题例例 13 为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机调查了消化不良的婴儿为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机调查了消化不良的婴儿 82 例。对每个个体分别观察腹泻与否和喂养方式两种属性,结果见下表。试作统计分析。例。对每个个体分别观察腹泻与否和喂养方式两种属性,结果见下表。试作统计分析。婴儿腹泻与喂养方式的关系婴儿腹泻与喂养方式的关系 腹腹 泻泻 喂养方式有喂养方式有 无无 合合 计计 人人 工工 30 10 40 17 25 42 母母 乳乳 合合 计计 47 35 82 OrdinalFor tables in which both rows and columns contain ordered values,select:?Gamma:(zero-order for 2-way tables and conditional for 3-way to 10-way tables)?Kendalls tau-b?Kendalls tau-c?Somers d:For predicting column categories from row categoriesThe concept of pairsType of PairNumber of PairsSymbolConcordanta(e+f)+b(f)PDiscordantc(d+e)+b(d)QTied on xad+be+cfXoTied on ya(b+c)+bc+d(e+f)+efYoxy1231abc2def?Strict monotonicity.?Ordered monotonic.?Predictive monotonic.?Weak monotonic.?Curvilinear.Gamma?Gamma,also called Goodman and Kruskals gamma,?-1 Gamma 1?Gammais a symmetrical measure.?both variables are ordinal or higher计算公式计算公式 PQPQ=+City Size/ArenasSmallMediumLargeWeak Mayora=10b=5c=2Strong Mayord=10e=15f=20P=a(e+f)+bf=10(15+20)+5*20=450Q=c(d+e)+bd=2(10+15)+5*10=100gamma=(P-Q)/(P+Q)=(450-100)/(450+100)=0.636 knowing the independent variable reduces our errors in predicting the rank(not value)of the dependent variable by 63.6%.Kendalls tau-b?-1 tau-b 1?symmetrical measure.?binary or ordinal data brcPQD D=计算公式计算公式221 RriiDnn+=221 CcjjDnn+=Kendalls tau-c?Kendalls tau-c,also called Stuarts tau-cor Kendall-Stuart tau-c,?-1 tau-c 1?symmetrical measure.?at least one of two variables is ordinal in level()2(1)cm PQn m=计算公式计算公式where m=min R,C Somers d?Somers d is gamma modified to penalize for pairs tied?-1 d 1?an asymmetric statistic?at least one of two variables is ordinal in level?For 2-by-2 tables,Somers d is equivalent to percent difference.计算公式计算公式|Y XrPQdD=|X YcPQdD=X YY X()2rcPQdDD=+行变量行变量X 是自变量行变量是自变量行变量X 是因变量是因变量Nominal by IntervalNominal by Interval.When one variable is categorical and the other is quantitative,select Eta.The categorical variable must be coded numerically.Eta?Eta is a coefficient of nonlinear association.eta2is the percent of variance in the dependent variable explained linearly or nonlinearly by the independent variable.?the dependent variable be interval in level,and the independent variable be categorical(nominal,ordinal,or grouped interval).?0 Eta 5 qqqqhhhhhhhhmnLnUm=()()11121111max(0,)min(,)hhhhhhnLnnnUnn+=分层分层 22 列联表列联表 Mantel-Haenszel 2Conditional IndependenceThe Cochrans and Mantel-Haenzel statistics test the independence of two dichotomous variables,controlling for one or more other categorical variables.These“other”categorical variables define a number of strata,across which thesestatistics are computed.HomogeneityThe Breslow-Day statistic is used to test homogeneity of the common odds ratio,which is a weaker condition than the conditional independence(i.e.,homogeneity with the common odds ratio of 1)tested by Cochrans and Mantel-Haenszel statistics.Tarones statistic is the Breslow-Day statistic adjusted for the consistent but inefficient estimator such as the Mantel-Haenszel estimator of the common odds ratio.例 题例 题例例 14 在三所医院中考察某感冒药在三所医院中考察某感冒药 A(江剪刀革组江剪刀革组)对治疗流鼻涕的效果,与对照药对治疗流鼻涕的效果,与对照药 B(胆麻片组胆麻片组)对比记录其疗效如表:对