分类数据的统计分析.pdf
《分类数据的统计分析.pdf》由会员分享,可在线阅读,更多相关《分类数据的统计分析.pdf(113页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类数据的统计分析分类数据的统计分析开设目的开设目的?医学科研中分类数据多见医学科研中分类数据多见?常用的分类数据的统计分析方法常用的分类数据的统计分析方法?软件实现过程软件实现过程讲授内容讲授内容?列联表中变量关联列联表中变量关联(association)的假设检验的假设检验?22表表?行列表行列表?分层分层2 2表表?CMH方法方法?解释变量与反应结果间联系的统计模型解释变量与反应结果间联系的统计模型?LOGISTIC回归模型回归模型?Poisson回归模型回归模型?对数线性模型对数线性模型成绩评定成绩评定?到课次数到课次数(20%)?平时作业平时作业(30%)?期终测验期终测验(50%)
2、参考资料参考资料?分类数据的统计分析及分类数据的统计分析及SAS编程编程?Categorical Data Analysis Using the SAS System?SAS-Base and SAS-STAT Users Guide _Version 8?SPSS 使用教程使用教程分类数据定义分类数据定义分类数据是指分类数据是指反应变量反应变量(应变量应变量)为分类变量,而解释变量为分类变量,而解释变量(自变量自变量)可是分类变量或连续变量。可是分类变量或连续变量。?列联表中变量关联列联表中变量关联(association)的假设检验的假设检验?解释变量与反应结果间联系的统计模型。解释变量与
3、反应结果间联系的统计模型。分类反应变量的尺度分类反应变量的尺度?分类尺度分类尺度:分类尺度是两种可能的结果分类尺度是两种可能的结果?顺序尺度顺序尺度:结果不止两种可能性,而且有顺序关系结果不止两种可能性,而且有顺序关系?离散计数离散计数:结果本身是离散计数结果本身是离散计数?名义尺度名义尺度:结果多于两类,而类别之间并没有顺序关系结果多于两类,而类别之间并没有顺序关系?分组计数分组计数:数据本身是连续数据,经分组后,反应变量为在不同组中的例数。数据本身是连续数据,经分组后,反应变量为在不同组中的例数。分类数据分析策略分类数据分析策略?假设检验对建立的一个关于联系假设检验对建立的一个关于联系(a
4、ssociation)的假设进行检验,说明列联表的行与列之间是否有关。的假设进行检验,说明列联表的行与列之间是否有关。?建立模型用建立模型的方法可求得各参数值,说明各因素的作用。通常用最大似然估计或加权最小二乘法估计。建立模型用建立模型的方法可求得各参数值,说明各因素的作用。通常用最大似然估计或加权最小二乘法估计。列 联 表列 联 表一般,若总体中的个体可按两个属性一般,若总体中的个体可按两个属性A与与B分类,分类,A有有r个等级个等级A1,A2,Ar,B有有c个等级个等级B1,B2,Bc,从总体中抽取大小为,从总体中抽取大小为n的样本,设其中有的样本,设其中有nij个个体的属性属于等级个个体
5、的属性属于等级Ai和和Bj,nij称为频数,将称为频数,将rc个个nij排列为一个排列为一个r行行c列的二维列联表列的二维列联表(contingency table),简称,简称rc表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维(分层)列联表。若每次只分析两个定性变量时,可将资料整理为表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维(分层)列联表。若每次只分析两个定性变量时,可将资料整理为22表、表、2 C表或表或RC表的形式。表的形式。列 联 表列 联 表列联表分析的基本问题是,判明所考察的各变量之间有无关联,即是否独立。列联表分析的统计分析方法很多,所以在
6、实际应用中,可根据下列几方面正确的选用分析方法:列联表分析的基本问题是,判明所考察的各变量之间有无关联,即是否独立。列联表分析的统计分析方法很多,所以在实际应用中,可根据下列几方面正确的选用分析方法:?定性变量个数定性变量个数?定性变量的属性(名义变量还是有序变量)、定性变量的属性(名义变量还是有序变量)、?频数(总频数和各网格上的理论频数)频数(总频数和各网格上的理论频数)?资料的收集方式(研究设计)。资料的收集方式(研究设计)。?分析目的分析目的22 列联表资料22 列联表资料例 题例 题例例 1 在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。结果疗效如下表所
7、示,试作统计分析。在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。结果疗效如下表所示,试作统计分析。组组 别别 无效无效 有效有效 合计合计 江剪刀草江剪刀草 263 70 333 胆麻片胆麻片 180 102 282 合合 计计 443 172 615 Pearson2 检验检验2211()(1)(1)RCijijPijijATRCT=基本公式基本公式由Karl Pearson(1900)提出,因此软件上常称这种检验为Pearson 2检验22 列联表列联表Pearson2 检验检验222211()ijijPijijATT=四格表四格表行变量列变量合计有无组行变量
8、列变量合计有无组1n11n12n1+组组2n21n22n2+合计合计n+1n+2n1=ijijn nTn+=四格表专用公式四格表专用公式可由可由基本公式基本公式推导出,直接由各格子的实际频数(推导出,直接由各格子的实际频数(a、b、c、d)计算可得四格表专用公式:)计算可得四格表专用公式:222222()()()()()()()()()()()()()()()()()()A TTab acab bdac cdcd bdabcdabcdabcdabcdabcdab acab bdac cdcd bdabcdabcdabcdabcdadbc=+=+=基本公式:21;()()()()nab cd a
9、c bd=+四格表行变量列变量合计有无组四格表行变量列变量合计有无组1aba+b组组2cdc+d合计合计a+cb+dn连续性校正连续性校正2分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续性校正分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续性校正(correction for continuity),又称又称Yates校正(校正(Yates correction,1934)。当)。当n40,而,而1T5时,用连续性校正公式当时,用连续性校正公式当n40或或T1时,用时,用Fisher精确检验精确检验(Fisher exact test)校正公式校正公式:2
10、2(0.5)cA TT=,(也适合其它行 列表资料))()()()2/(22dbcadcbannbcadc+=Mantel-Haenszel 2(called the Mantel-Haenszel test for linear associationor linear by linear association chi-square)计算公式为在计算公式为在H0成立的条件下成立的条件下22列联表列联表Mantel-Haenszel 2(1959)22111111()MHnmv=1111n nmn+=1212112(1)n n n nvn n+=处理结果处理结果12合计合计1n11n12n1
11、+2n21n22n2+合计合计n+1n+2n似然比 似然比 2 (Wilks,1938)计算公式为计算公式为22列联表列联表似然比 似然比 2(Likelihood ratio chi-square)222112ln()ijLijijijAAT=Mantel-Haenszel 2与与Pearson 2的关系的关系221PMHnn=2统计量间的关系统计量间的关系Mantel-Haenszel 2与与Pearson 相关系数相关系数r 的关系的关系22(1)MHpnr=例 题例 题在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。研究结果如下表。试作统计分析。在研究老年慢
12、性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。研究结果如下表。试作统计分析。组组 别别 无无 效有效有 效合效合 计计江剪刀草江剪刀草 263 70 333 胆麻片胆麻片 180 102 282 合合 计计 443 172 615 例 题例 题例例 2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将 78 例脑血管疾病患者随机分为两组,结果见下表。试作统计分析。例脑血管疾病患者随机分为两组,结果见下表。试作统计分析。两种药物治疗脑血管疾病有效率的比较两种药物治疗脑血管疾病有效率的比较 组别组别 有效有效 无效无
13、效 合计合计 胞磷胆碱组胞磷胆碱组 46 6 52 神经节苷酯组神经节苷酯组 18 8 26 合合 计计 64 14 78 配对四格表资料的配对四格表资料的 2检验检验 1,)1(2402=+=+cbcbcb时,需作连续性校正,1,)(2240c=+=+cbcbb时,当配对四格表方法配对四格表方法1方法方法2合计合计+aba+bcdc+d合计合计a+cb+dn?有无差别:有无差别:McNemar检验检验?一致性:一致性:Kappa 检验检验McNemar检验(检验(McNemars test for correlated proportions),主要用于配对资料率的检验),主要用于配对资料率
14、的检验配对四格表资料的配对四格表资料的2 检验公式推导检验公式推导(+,)和(,+)两个格子中的理论频数均为 2cb+40+cb时 2)2(2)2()(2222cbcbccbcbbTTA+=cbcb+=2)(2分布 40+cb时 cbcbTTA+=222)1|(|)5.0|(|SPSS中的中的 McNemar检验检验SPSS 中中 McNemar 检验所采用的是一种精确计算概率的方法:检验所采用的是一种精确计算概率的方法:令令cbm+=,),min(cbk=。对于双侧检验,对于双侧检验,P 值计算公式为:值计算公式为:mkjjmP=2120 若若 b=c 则则 P=1 例 题例 题例例 3 2
15、05 份标本分别接种于甲、乙两种培养基,共有份标本分别接种于甲、乙两种培养基,共有 4 种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:两种培养基的效果比较两种培养基的效果比较 甲培养基甲培养基 乙培养基乙培养基 生长生长 不生长不生长 合计合计 生长生长 36 34 70 不生长不生长 0 135 135 合计合计 36 169 205 Fisher Exact test精确检验法由精确检验法由R.A.Fisher于于1935提出
16、。其思想是在固定各周边合计的条件下,实际频数提出。其思想是在固定各周边合计的条件下,实际频数a、b、c、d可有多种组合,根据超几何分布,可以计算各种组合中小于等于现有样本概率的概率值之和可有多种组合,根据超几何分布,可以计算各种组合中小于等于现有样本概率的概率值之和P,并与检验水准,并与检验水准比较,若所得结果比较,若所得结果P,则判定所考虑的两个属性存在关联,从而拒绝,则判定所考虑的两个属性存在关联,从而拒绝H0。单侧检验时只需求出一侧所需组合的概率总和,双侧检验时则需求出两侧所需组合的概率总和。计算公式为:。单侧检验时只需求出一侧所需组合的概率总和,双侧检验时则需求出两侧所需组合的概率总和
17、。计算公式为:()()()()!abcbacbdpa b c d n+=Fisher Exact test适用条件:?n40检验检验22关联表中的相关联性时采用关联表中的相关联性时采用Fisher精确检验,一般要求精确检验,一般要求n比较小。若比较小。若n比较大,大到足以支持变量(比如“成功”的次数)的平均数有近似正态性的假定,倘若根据原假设为真作出的预测值也比较大,则不宜采用比较大,大到足以支持变量(比如“成功”的次数)的平均数有近似正态性的假定,倘若根据原假设为真作出的预测值也比较大,则不宜采用Fisher方法,而常采用方法,而常采用2检验。检验。n40?T1?P二项分布二项分布一批产品共
18、一批产品共N件,其中有件,其中有M件次品,进行有放回抽样检查,每次从这批产品中任意取出一件,取出的产品再放回去,连续取件次品,进行有放回抽样检查,每次从这批产品中任意取出一件,取出的产品再放回去,连续取 n次,共取出次,共取出 n件产品,则取出的件产品,则取出的n 件产品中的次品数件产品中的次品数X服从二项分布服从二项分布X=0,1,n(1)()XnXnXPP XC P=超几何分布超几何分布一批产品共一批产品共N件,其中有件,其中有M件次品,进行不放回抽样检查,每次从这批产品中任意取出一件,取出的产品不再放回去,连续取件次品,进行不放回抽样检查,每次从这批产品中任意取出一件,取出的产品不再放回
19、去,连续取 n次,共取出次,共取出 n件产品,则取出的件产品,则取出的n 件产品中的次品数件产品中的次品数X服从超几何分布服从超几何分布 X=0,1,n()mn mMN MnNC CP XmC=例 题例 题例例 4 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染某医师为研究乙肝免疫球蛋白预防胎儿宫内感染 HBV 的效果,将的效果,将 34 例例 HBsAg 阳性孕妇随机分为预防注射组和非预防组,结果见下表。试作统计分析。阳性孕妇随机分为预防注射组和非预防组,结果见下表。试作统计分析。两组新生儿两组新生儿 HBV 感染率的比较感染率的比较 组别组别 阳性阳性 阴性阴性 合计合计 预防注射组预防注射组
20、4 19 23 非预防组非预防组 6 5 11 合合 计计 9 24 34 例 题例 题例例 5 某单位研究胆囊腺癌、腺瘤的某单位研究胆囊腺癌、腺瘤的 P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各 10 份,用免疫组化法检测份,用免疫组化法检测 P53基因,资料见下表。问胆囊腺癌和胆囊腺瘤的基因,资料见下表。问胆囊腺癌和胆囊腺瘤的 P53基因表达阳性率有无差别?基因表达阳性率有无差别?胆囊腺癌与胆囊腺瘤胆囊腺癌与胆囊腺瘤 P53 基因表达阳性率的比较基因表达阳性率的比较 病种病种 阳性阳性 阴性阴性 合计合计 胆囊腺癌胆囊腺癌6 4 10
21、胆囊腺瘤胆囊腺瘤1 9 10 合计合计 7 13 20 观察结果的一致性评价观察结果的一致性评价Cohens kappa值用于表示两种值用于表示两种方法(方法(two raters)对对同一批同一批研究对象进行评判所得结果的一致性的程度,是评价分类变量结果一致性和信度的指标。研究对象进行评判所得结果的一致性的程度,是评价分类变量结果一致性和信度的指标。1AeePPP=PA为两次观察的一致性(为两次观察的一致性(observed agreement)Pe为两次观察的机遇(期望)一致性(为两次观察的机遇(期望)一致性(agreement of chance)Kappa值基本公式为:值基本公式为:二
22、分类测定结果的一致性评价二分类测定结果的一致性评价观察一致性率观察一致性率:机遇一致性率:机遇一致性率:甲乙合计甲乙合计+aba+bcdc+d合 计合 计a+cb+dnndaPA+=2)()(ndbdccabaPe+=多分类测定结果的一致性评价多分类测定结果的一致性评价第一次第二次合计第一次第二次合计12g1a11a12a1gn1+2a21a22a2gn2+gag1ag2aggng+合 计合 计n+1n+2n+gnnanaaaaPiiggA=+=?3322111 12233221gggiiein nn nn nn nn nPnn+=+=?观察一致率观察一致率:机遇一致率:机遇一致率:Kappa
23、 值的意义值的意义Kappa值的取值范围是值的取值范围是|1。?=-1时,表明完全不一致;时,表明完全不一致;?=1时,表明两次分类结果完全一致。时,表明两次分类结果完全一致。?=0时,表明一致性完全由机遇造成;时,表明一致性完全由机遇造成;?-1 0时,表明观察一致性小于机遇一致性,无意义;时,表明观察一致性小于机遇一致性,无意义;?0.4时,表明一致性较差;时,表明一致性较差;?0.40.6时,表明中度一致;时,表明中度一致;?0.60.8时,表明有极好的一致性。时,表明有极好的一致性。Kappa值究竟多大有实际意义,需要根据具体问题而定。值究竟多大有实际意义,需要根据具体问题而定。一致性
24、一致性Kappa 值检验值检验(0,1)uNS=1/221()(1)3eeijijeSPPn nnnPn+=+S1.9695%可信区间为可信区间为正态近似(渐近)为正态近似(渐近)为一致性一致性Kappa 值检验值检验Fleiss and Light developed a generalized version of kappa for more than two raters;Cohen also developed a weighted kappa version to allow for degrees of agreement rather than simple agree/dis
25、agree classification.例 题例 题例例 3 205 份标本分别接种于甲、乙两种培养基,共有份标本分别接种于甲、乙两种培养基,共有 4 种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:两种培养基的效果比较两种培养基的效果比较 甲培养基甲培养基 乙培养基乙培养基 生长生长 不生长不生长 合计合计 生长生长 36 34 70 不生长不生长 0 135 135 合计合计 36 169 205 例 题例 题例例 6 采用两
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 数据 统计分析
限制150内