医学科学研究论文材料中统计方法的正确应用.doc





《医学科学研究论文材料中统计方法的正确应用.doc》由会员分享,可在线阅读,更多相关《医学科学研究论文材料中统计方法的正确应用.doc(89页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学科学研究论文中统计方法的正确应用一、 统计方法正确应用的重要性医学统计方法很多,各适用于不同的数据。临床试验中所用统计方法必须根据数据情况认真选用。这是因为,数理统计是根据一定的数据分布推导出一定的统计方法,它仅适用于一定的数据。例如,检验及方差分析是由正态分布数据以及各组方差相同推导出来的,因而要求数据为正态分布(至少接近正态分布)且方差齐性。但是,在论文的统计方法部分常有如下阐述:一般资料进行2检验,其余资料进行检验,这种不管数据分布是否很偏态,就一概使用某种统计方法不正确。此外,分类数据与计量数据的统计方法也不同,分类数据中对于名义变量和顺序变量的统计方法也不同。统计方法应用的错误会
2、使整个精心进行的研究得出错误的结论。在这一讲中我们将结合目前文献中常见的一些统计方法的错误应用,对如何根据数据的情况来正确地选择统计方法进行讨论。二、 统计方法上常见的一些问题1.检验和方差分析要求数据服从正态分布:在医学研究中大量的数据并不服从正态分布。有时可以从报告中的数据看出。例如,在文献中体温降至正常的平均日数在两组分别为3 .01 .7及2 .42 .0。由数据可以看到标准差是平均数的1/2以上,甚至接近平均数。这就提示数据严重偏离了正态分布。因为,当数据不可能为负值(如日数),且样本不是过小时,按正态分布规律,平均数减3个标准差仍应是正数。这里平均数减3个标准差已经是-2.1和-3
3、.6了。因为日数不可能是负数,这就说明数据偏离了正态分布规律。又如,文献2关于统计分析方法方面写道:“测量参数以表示。根据性别及骨密度(2.5为界)分组,用两样本均数检验对组间各形态计量参数进行统计分析(SPSS8.0软件)。样本均数与总体均数用检验比较形态计量学参数与正常参考值之间的差异”。由文内表格(表1)可以看到有不少标准差大于均数。数据很可能是很偏态,不宜使用检验。事实上,检验和方差分析是一种所谓“稳建的”(robust)统计方法。就是说,当分布偏离正态分布不大时,对其结果的影响不大。但对于计量数据还是应当先做正态性检验。如果正态性检验结果认为数据不服从正态,可以进行数据转换,但比较麻
4、烦。简单的方法是用非参数统计。过去一般认为非参数统计效率较差,但这是指当数据为正态分布时。如果数据是非正态分布时其效率比参数法高,甚至可以高出很多。常用的有秩和检验和符号秩和检验等。2.关于多组计量资料的一揽子比较:在多组计量资料的组间两两比较时不可以用“一揽子比较”。所谓“一揽子比较”是进行多组比较时进行所有的两两比较。这是因为,在进行两组间比较时我们确定了第类错误的概率。一般我们用=0.05。如果做一揽子比较,就会扩大,也即,第类错误的概率扩大了。我们就会得到过多的假阳性结果。这时对第类错误的概率进行调整的方法很多。一般先做方差分析,然后再用各种多重比较的方法,如Student Newma
5、n Keuls法等,做各组间的两两比较。文献2是一个用错了的例子。文献4的表中(表2),原作者对A、B、C3组做了一揽子比较。正确的做法应当是先做总的检验,然后再做多重比较。本例还有各组间方差不齐的问题。不宜用方差分析而需用非参数统计方法来处理。3.顺序变量的2检验:(1)临床疗效的比较:2组有效率的比较,用四格表2检验或Fisher精确检验法是可以的。但是,如按疗效分成多个等级,如痊愈、显效、进步、无效4个疗效等级,则目前常用的2(Peason2)不能说明疗效的好坏。因为Peason2只检验结构是否均衡而不能检验2组疗效是否有差别。在表3这个假设的例子中, Peason2检验得到差别有高度统
6、计意义的结果。而实际上很难说哪一组疗效更好。如果我们对表3中任何两列进行对换。Peason2的数值也不会有变化。表1老年股骨颈骨折患者骨密度、骨形态计量学参数与形态计量学正常值比较(%,)组别 例数 TBV OV TOS PRS正常值 15.36 1.07 13.21 4.76骨密度降低2.5 10 8.683.18 7.7813.54 6.557.07 6.798.68骨密度降低2.5 7 7.922.58 4.357.40 5.946.27 2.432 .9与正常值比较: 0.05, 0.001表2 燃煤型砷中毒患者皮肤组织中p53mt阳性表达分析组别 例数阳性 细胞密度() 阳性率(%)
7、组 18 38.0729.00 88.89组 11 17.1615.00 72.73组 39 4.058.24 25.64对照 12 0 0各组与对照比较:0.01;与比较0.01;与比较0.01;与比较0.05表3一个假设的顺序变量2检验的例子(例数)组别 痊愈 显效 进步 无效药 100 50 50 100药 50 100 100 502=56.556,=3,=0.001表4是克霉唑与对照治疗阴道炎的实例。原作者并未对此进行统计分析。对于这种顺序分类变量资料可以用Wilcoxon秩和检验、Ridit分析或Cochran Mantel Haensze行平均分差检验(Test of row m
8、ean scores difference)。这三者都是合理的方法,只是评分方法有所不同而已。因为其检验的假设有所不同,其结果也会有些差别,其中以用“行平均分差检验”较好。因为可以计算出平均得分显示两者之差值。如表4,若用4个等级以0,1,2,3来评分,2组平均分分别为2 728及2 632分,十分接近,=1,=0 324。本例得出差别无统计意义的结论,但这并不能说2种药的疗效相等或相近(见本讲第三节)。表4克霉唑与对照治疗阴道炎的疗效比较(例数)组别 痊愈 显效 进步 无效 平均分克霉唑 92 17 1 4 311/114=2.728对照药 65 14 6 2 229/87=2.632(2)
9、时间作为顺序变量:如上所述,Pearson2检验只能说明构成比例的不同。对于顺序变量,需要用行平均分差的检验。Ridit检验或者Wilcoxon秩和检验。文献7是以时间作为顺序变量的例子(表5)。这一Pearson2检验的结果只能得出新生儿黄疸消退时间不同的结论,而不能得出观察组消退较晚的结论。如果我们把任何各列交换。Pearson2检验的结果完全不变。如果我们以0、1、2、3 来代表7、9、11等依次各列,可以计算对照组和观察组的平均分为:对照组:(08+116+236 )/(8+16+36 )=446/150=2.973。观察组:(00+16+218 )/(0+6+18+ )=826/19
10、6=4.214。行平均分检验结果为2=94 593,=1,=0.001说明观察组黄疸消退延长。本例为计量资料的频数表形式。也可计算均数和标准差,用检验比较均数的差别。4.把行列表合并成四格表:比较疗效时,把疗效合并成四格表而用卡方检验有效率,在方法上似无不可,但损失了信息。而且,合并的方法对于疗效的判断会有影响(表6)。表5 肉眼观察新生儿黄疸消退时间(例数)出 生 后 时 间()组别 7 9 11 13 15 17 19 21 23 24对照组 8 16 36 68 16 6 0 0 0观察组 0 6 18 34 59 45 19 13 2Peason2=113 9(作者为114 06),0
11、 01表6治疗组与对照组的疗效比较显效 好转 无效 总有效组别 例数 例数 (%) 例数 (%) 例数 (%) 例数 (%)治疗组 20 16 80.0 3 15.0 1 5.0 19 95.0对照组 27 4 14.8 20 74.1 3 11.1 24 88.9作者由表6得出结论:治疗组显效率明显高于对照组,统计学上差异有极显著性(0.05)。由此可见,不同的合并方法对结果有很大的影响。这种情况还是用对顺序变量作分析的统计方法来分析为好。本例用秩和检验结果=4.088,=0.000。说明2组差别有高度统计意义。从数据可见治疗组疗效较好。在临床试验中有人把无效和改善合并为无效,显效和控制合并
12、为有效来计算有效率。由于病情轻的病人原来病情为1级,治愈了为0级,降低了1级,只能算改善,不可能达到显效或控制。因而,有效率的统计就会受到入组病人病情严重程度差异的影响。比较各组病人病情的不同也会影响有效率的比较。这只有采用在病人入组时,按病情分层随机化的方法来解决。对于分层的数据应当把层作为一个因素进行分析。如用方差分析和多元回归。对于生存数据用COX回归分析等。这时把层作为协变量进行分析。5.一般2检验只用于分析计数资料:2分布原本由连续变量导出。但目前我们大量应用的2检验是应用于计数资料。计数是指清点的数目。对于分类数据是清点人数、阳性数文献7是一个应用错误的例子。表7的数据是计量数据,
13、这样算出来的2什么也不是。表7新生儿接种乙肝疫苗后不同时间平均胆红素浓度血胆红素平均值(mol/L)出生后时间() 观察组(44例) 对照组(21例)0 18.0 17.53 110.0 108.06 151.2 148.29 177.0 130.312 168.0 66.015 159.3 31.018 126.0 20.121 76.3 15.024 36.427 16.02=164 04,0 05的结果。但作者并未作出两药疗效相同或相近的结论。这是正确的。然而,这样设计的目的却常常是为了说明两种药的疗效相近。这是应该用等效性检验的方法。四、 科研论文中应写明所用统计分析方法的具体名称统计
14、方法的误用在杂志上屡见不鲜。通常,在文章的材料与方法部分应当有一段专门阐明所用统计方法的内容。在发表文章时写明所用的统计方法,这样才能供审稿者或读者来判断结论是否正确可靠。例如,配对数据与成组数据的统计方法就不同。如果笼统地说用了检验,就很难判断其正确性。可是,有些研究报告中却完全没有提到所用的是什么统计方法。例如,在文献12中,列出了许多值,下了许多结论,竟完全没有提及所用的统计方法。这样怎么让读者来判断结论是否正确呢?五、 统计检验结论的表达1.差别有统计意义的表达:统计分析的结果是推翻无效假设或是不能推翻无效假设。无效假设在一般的统计检验为2组总体参数相等。推翻无效假设只能说2组总体参数
15、不相等而并不能说2组相差很大。2组相差如何要对可信区间进行研究观察后得出。由于统计检验不能得出差别的大小,因而结论不能说“有明显差异”或“有显著差异”,也不能说“差异非常显著”,更不能说“差异明显”。在国外的统计书籍上的英语表达为“significant”,它的正确意义应当是“有意义的、有重要性的”。俄语为和日语中的“有意”也是这个意思。国内只有极个别的英汉词典把“significant”误译为“显著的”。正确的说法应当是“差异有统计意义”或“差异有高度统计意义”等。在中华医学会系列杂志对来稿中统计学处理的有关要求中对此也有说明。文献15中有这样一段说明:“丙酸倍氯米松组患者吸入糖皮质激素后,
16、其气道反应性有显著降低(0.05);对照组治疗前后气道反应性无明显变化(0.05,)。这显然是把统计意义和差别的大小混为一谈了。文献16总结了1984年6月至1998年12月手术治疗的肝内胆管结石640例。文中有一段说明为:“肝切除术后残石率(7.8%)明显低于胆道探查组(69.3%),差异有非常显著意义(0.005),左肝管术后残石率明显低于右肝管或左右肝管,差异有非常显著意义(0.005)。516例获0.55年随访,优良率为87 4%,397例获612年随访,术后优良率为82.1%。结论:肝切除术和自体组织修复术明显优于其他术式,左肝管结石的手术效果明显优于右肝管和左右肝管结石。”2.值的
17、表达:中华医学会系列杂志对来稿中统计学处理的有关要求中对统计结果的解释和表达要求之一为:“应尽可能给出具体的值(如:=0.0238)”,但目前大多数的文献中都只用0 (单侧)或 H0:Md(d)=0, H1:Md(d)50时,正态近似有效对子数n=11, , 查附表10,双侧临界值=11,T*双侧临界值故不能拒绝H0。结论:可以认为孪生兄弟间的差异尚无统计学意义。或 尚不能认为孪生兄弟间的差异具有统计学意义。当研究例数较大时(n50),秩和T的分布近似正态分布,可以用正态分布理论作假设检验。这时正态分布的均数和标准差分别等于:mTn(n1)/4 检验的公式为:表 7.2 Wilcoxon 符号
18、秩检验的判断原则双侧检验单侧检验(1)单侧检验(2)检验假设H0:Md(d)0H0:Md(d)0H0:Md(d)0H1:Md(d)0H1:Md(d)0H1:Md(d)0统计决策:小样本查表法若T*Ta/2(n)则拒绝H0若T-Ta(n)则拒绝H0若T+Ta(n)则拒绝H0大样本正态近似法若ZZa/2 则拒绝H0若ZZa 则拒绝H0若ZZa 则拒绝H0l 符号秩检验的分布理论:假定有4个差值,如果H0成立时,这4个差值有同等的概率取正值或负值,即每个值取正值的概率等于1/2。4个差值每种组合发生的可能性就是:所有可能的秩和情况和T*的分布见表7.1。表7.1 n4时所有可能秩和情况和T*的分布正
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 科学研究 论文 材料 中统 方法 法子 正确 应用 利用 运用

限制150内