最新医学科研设计方案与统计学思维精品课件.ppt
《最新医学科研设计方案与统计学思维精品课件.ppt》由会员分享,可在线阅读,更多相关《最新医学科研设计方案与统计学思维精品课件.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 医学统计学要说它简单吧,其实也挺简单的,常见的统计方法也就十余种,在教科书上都能找到,只要熟练掌握了,虽不敢夸下海口说可以“以秋风扫落叶的气概横扫四海之内的杂志”,但足以轻车熟路地应付一般的科学研究。要说它复杂吧,也挺复杂的,毫不夸张地说,绝大部分国内期刊,甚至在SCI杂志上,乱用统计学的现象多如牛毛。很多人在学习医学统计学时,都在抱怨自己很难走出“一学就会,一会就用,一用就错,一错就懵”的怪圈。究其原因,主要是我们在学习医学统计学时都抱着一副“依葫芦画瓢”的态度,试图“套用统计学方法”来解决自己面临的问题,而不去仔细思考统计学方法的本身的特点
2、。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅浙江大学公共卫生学院流行病与卫生统计学科系 沈毅浙江大学公共卫生学院流行病与卫生统计学科系 沈毅浙江大学公共卫生学院流行病与卫生统计学科系 沈毅浙江大学公共卫生学院流行病与卫生统计学科系 沈毅浙江大学公共卫生学院流行病与卫生统计学科系 沈毅浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 科学容不得半点虚假,造假者一旦被科学容不得半点虚假,造假者一旦被揭露就背上了永远洗脱不掉的耻辱揭露就背上了永远洗脱不掉的耻辱 。伪造统计数据违反科学道德伪造统计数据违反科学道德 据据1976年年New Science 杂志关于科研舞弊行为的调杂志关于科研舞弊行
3、为的调查查74%的调查表反映有不正当修改数据的情况,其中,的调查表反映有不正当修改数据的情况,其中,17%拼凑实验结果,拼凑实验结果,7%凭空捏造数据,凭空捏造数据,2%故意曲解故意曲解结果。结果。 就统计学本身来说,正确实验设计得出的统计结果,就统计学本身来说,正确实验设计得出的统计结果,是用是用P值作为值作为“重现性重现性”的概率保证。的概率保证。P0.05,就是,就是说实验结果显示的差别是机遇所致的可能性不足说实验结果显示的差别是机遇所致的可能性不足5%,或者说,别人在同样的条件下重复同样的试验,得出或者说,别人在同样的条件下重复同样的试验,得出相反结论的可能性不足相反结论的可能性不足5
4、%。 浙江大学公共卫生学院流行病与卫生统计学科系 沈毅样本样本抽取部分观察单位抽取部分观察单位 统计推断统计推断统计推断统计推断 statistical inferencestatistical inference如:样本均数如:样本均数 样本标准差样本标准差S 样本率样本率 P如:总体均数如:总体均数 总体标准差总体标准差 总体率总体率X内容:内容:参数估计参数估计(estimation of parameters) 包括:点估计与包括:点估计与区间估计区间估计2. 假设检验假设检验(test of hypothesis)浙江大学公共卫生学院流行病与卫生统计学科系 沈毅样本样本抽取部分观察单
5、位抽取部分观察单位 统计推断统计推断抽样误差抽样误差如:如:样本均数样本均数 样本标准差样本标准差S 样本率样本率 P如:如:总体均数总体均数 总体标准差总体标准差 总体率总体率X 抽样误差抽样误差 (sampling sampling error) error) :由:由于个体差异导于个体差异导致的致的样本样本统计统计量与量与总体总体参数参数间的差别。间的差别。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 统计的结论是推断而不是证明,正确的统计结论必须统计的结论是推断而不是证明,正确的统计结论必须建立在科学的设计和合适的统计方法上,否则得到是不恰建立在科学的设计和合适的统计方法上,否则得
6、到是不恰当或是错误的结论。当或是错误的结论。 1、收集数据的方法(研究假说、调查或实验设计、误、收集数据的方法(研究假说、调查或实验设计、误 差和偏倚的控制等)差和偏倚的控制等) 2、分析数据的方法(变量的类型、数据的分布、研究、分析数据的方法(变量的类型、数据的分布、研究 目的和因素等)目的和因素等) 3、结论的外推(统计结论是否适合所有研究对象)、结论的外推(统计结论是否适合所有研究对象)浙江大学公共卫生学院流行病与卫生统计学科系 沈毅1. 采用统计学方法,发现不确定现采用统计学方法,发现不确定现象背后隐藏的规律。象背后隐藏的规律。 变异变异(variation)是社会和生物医学中的)是社
7、会和生物医学中的普遍现象。普遍现象。 变异使得实验或观察的结果具有变异使得实验或观察的结果具有不确定性不确定性,如每个人的身高、体重、血压等各有不同。如每个人的身高、体重、血压等各有不同。 一、为什么要学统计学?一、为什么要学统计学?浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 最大值=6.18, 最小值=3.29, 极差=2.89。 算术均数=4.72,标准差=0.57。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅案例一:两个指标诊断疾病的问题案例一:两个指标诊断疾病的问题路人甲做了一个研究,旨在比较两个指标(A和B)对肝癌的诊断价值。路人甲以A和B的参考范围上限作为诊断界值,得出了
8、A和B在该界值下对应的诊断敏感性和特异性。结果表明,A的诊断敏感性为0.80,特异性为0.90;B的诊断敏感性为0.85,特异性为0.87。路人甲很快撰写论文报道了自己的研究成果,指出B诊断肝癌的敏感性高于A,而特异性低于A。 路人乙是这篇文章的审稿人,当他看见这个结论后,毫不犹豫地在审稿意见中写道:就敏感性而言,B高于A;就特异性而言,A高于B。诊断敏感性和特异性与所采用的界值密切相关,作者得出的敏感性和特异性仅仅代表了一个诊断界点下面的诊断效能,无法从全局上反映A和B的诊断价值。文章的结论到底是想说明A优秀还是B优秀呢Reject!这个例子说明:这个例子说明:统计指标选错了统计指标选错了,
9、统计出来的东西往往难以,统计出来的东西往往难以“自圆其自圆其说说”。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅稿件被退了,路人甲有些许郁闷。经过认真学习科研设计与统计学知识后,路人甲终于明白了一个问题:两个指标诊断性能的比较是不能比较敏感性和特异性的,而应该比较ROC的曲线下面积,因为曲线下面积才是衡量整体诊断效率的最佳指标。路人甲很快绘制了ROC曲线,统计结果表明,A的曲线下面积为0.80,B的曲线下面积为0.82。路人甲欣喜若狂,赶紧动笔写论文,并且理直气壮地给文章定了一个结论:B的诊断效率是优于A的,其理由就是因为B的曲线下面积大于A。 路人丙是这篇文章的审稿人,当他看见这个结论后
10、,脸色铁青,毫不犹豫地在审稿意见中写道:从表面上看,B的曲线下面积高于A,但是导致这种差异的原因有两种,一种是随机误差,一种是试验效应,即B确实是高于A的。你怎么能确定这不是抽样误差呢?在统计学上,要确定0.82是否高于0.80,就一定要经过统计学检验的。又Reject! 这个例子说明:在医学科研中,这个例子说明:在医学科研中,没有经过统计学检验的结论没有经过统计学检验的结论杂志社多半认为是不科学的。杂志社多半认为是不科学的。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅稿件又被退了,路人甲很是郁闷。他吸取了经验教训,自学了很多统计学理论,终于弄清楚了采用何种方法去比较曲线下面积。接下来的事
11、情就是改稿,然后另选杂志继续投稿。路人甲在文稿中特别注明了,曲线下面积是经过了统计学检验的,B的曲线下面积(0.82)与A的曲线下面积(0.80)之间的差异是有统计学意义的,而且还大摇大摆地在后面加了个括号,写明P=0.01。路人甲仰天长叹了一口气,很郑重地给自己的研究下了结论:本研究表明B的诊断效率是优于A的。 路人丁是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:B是常见的诊断指标,其检测结果并不对临床医师设盲,在很大程度上可以检测影响临床医师对疾病的诊断。A是新进发现的诊断指标,其结果完全对临床医师设盲,不可能影响医生的诊断。所以作者的结论(B比A优秀)是不可
12、靠的。再说得通俗点,如果把A和B分别理解成法庭上的原稿和被告,那B无疑既充当了辩护律师,又充当了法官的角色。在这种情况下,A输掉了官司是十分正常的。如果换一个公平的、独立的法官来断案,B能否胜出就不好说了。再一次Reject! 这个例子说明:这个例子说明:实(试)验设计有缺陷,即便是统计学方法实(试)验设计有缺陷,即便是统计学方法准确也于事无补准确也于事无补。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅稿件又一次被退了,路人甲的心情极度郁闷。思来想去,决定把实验重做一遍,让A和B在一个公平的环境中比较(为便于描述,此处忽略医学伦理学问题)。在新开展的研究中,A和B都是对临床医生设盲的,不可
13、能影响金标准。这下A和B的比较结果应该比较可靠了吧,路人甲又仰天长叹了一口气,感觉自己如释重负了。科研太折腾人了,太不容易了!统计结果很快出来,A的曲线下面积是0.80,B的曲线下面积则变成了0.77,经过统计学检验后发现,A的诊断效能确实是高于B的。整个研究的试验设计滴水不漏,统计学过程天衣无缝,我就不信还有人敢拒这篇稿件,路人甲心中开始暗喜。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅路人戊是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:A和B的检测并不矛盾,他们之间的关系不应该是竞争关系,而应该是合作关系。读者最关心的问题显然不是A和B“孰强孰弱”的问题,
14、虽然这个问题有一定的专业价值。如果我是坐诊医生,我会说:A和B谁强谁弱关我什么事?总之来一个病人我就A和B都检测,我的患者都不差钱!作者的研究重点应该是明确A和B能否互补,联合使用是否能有助于提高诊断准确性的问题,而非A和B“孰强孰弱”的问题。简单地说,就是明确1+1是否大于1的问题。还是被Reject!(作者吐血)这个例子说明:这个例子说明:研究方向错了,即使是无懈可击的实研究方向错了,即使是无懈可击的实(试)验设计和天衣无缝的统计方法,也是无济于事。(试)验设计和天衣无缝的统计方法,也是无济于事。这四个例子说明:医学科研是很痛苦的,不重视统计学和科这四个例子说明:医学科研是很痛苦的,不重视
15、统计学和科研设计,会走很多弯路的。研设计,会走很多弯路的。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅2. 用统计学思维方式考虑有关医学研用统计学思维方式考虑有关医学研究中的问题究中的问题 “阳性阳性”结果是否是虚假联系?结果是否是虚假联系? 某感冒药治疗某感冒药治疗1周后,治愈率为周后,治愈率为90%,能否说该感冒药十,能否说该感冒药十分有效?分有效? 以前的许多研究表明,血清甘油三酯的含量与冠心病危险以前的许多研究表明,血清甘油三酯的含量与冠心病危险性有关,即甘油三酯的含量越高,患冠心病的危险性就越大。性有关,即甘油三酯的含量越高,患冠心病的危险性就越大。有的医生以此筛选危险人群?有的
16、医生以此筛选危险人群? 冠心病甘油三酯胆固醇+ 高密度脂蛋白虚假联系浙江大学公共卫生学院流行病与卫生统计学科系 沈毅案例二案例二,如何看待统计学结果如何看待统计学结果路人甲经历数十年的研究,动用了各种高精尖的研究手段,发现了一个新的蛋白(命名为蛋白A)。在肝癌患者中展开的研究表明,蛋白A和甲胎蛋白(AFP)有很好的相关性,其相关程度之好,几乎可以用“一塌糊涂”来形容,相关系数达到了0.99(P0.0001)。路人甲欣喜若狂,尽管蛋白A的检测过程还十分繁琐,检测费用还十分高,但是路人甲还是把持不住内心的激动,日夜兼程地撰写论文,宣称自己找到了一个新的肝癌标志物。 路人乙是这篇文章的审稿人,当他看
17、见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:统计结果表明蛋白A和AFP的相关性十分明显。如果是这样,在临床实践中,通过检测AFP完全就可以得知蛋白A的浓度了,蛋白A在肝癌中的临床价值完全可以被AFP代替,还不说蛋白A的检测过程繁琐,费用太高的问题,你说蛋白A还有什么价值? Reject!这个例子说明:这个例子说明:统计学阳性的结果未必是统计学阳性的结果未必是“好结果好结果”。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 如:当专业上有一定联系的两个变量之间的变化呈“S型”或“倒S型”曲线趋势时,若错误地用直线方程去描述,从统计学角度看效果也很好,但在专业上是解释不通的。再比如,某两个
18、统计量(如均值、率等)之间的差别在统计学上有显著性意义,有时在专业上并无实用价值。如某种新的降压药,平均降低血压 2 mmHg,若样本含量较大,误差又较小,统计检验可能会得到“P0.05”的结果,但在临床上却认为此新药的疗效没有多大提高。另外,在运用统计学中,稍有不慎都可能犯这样或那样的错误。因此,统计结论的可靠性仍需通过实践去检验。所以,应当牢记:运用统计学时必须结合医学实际,才能真正发挥统计学应有的作用。组别N基线血压(mmHg)治疗后血压(mmHg)标准差(mmHg)P值95%CI(mmHg)统计学意义临床意义治疗组20016014260.050.83.2有无对照组2001601446有
19、统计学(差异)意义,并不代表有生物学、临床意义有统计学(差异)意义,并不代表有生物学、临床意义浙江大学公共卫生学院流行病与卫生统计学科系 沈毅案例三,降糖药的研究、学生自杀事件案例三,降糖药的研究、学生自杀事件某医生长期从事降糖药的研究,最近他发现了一种药物,可以降低患者的血糖。为了评价该药的降糖效果,路人甲费尽心机地设计了一个看似完美的随机对照试验(RCT),为了保证结果可靠,路人甲严格遵守RCT设计准则,包括随机、双盲、安慰剂对照等措施。研究结果表明,实验组和对照组在接受药物治疗前血糖浓度的均值都是10mmol/L,差异无统计学意义,表明两组研究对象的基线特征具有可比性。对照组未经任何药物
20、治疗(为便于描述,此处忽略医学伦理学问题),血糖浓度还是10mmol/L;实验组经过药物干预后,血糖浓度变成了9mmol/L,统计学检验结果表明,实验组和对照组治疗后的血糖浓度的差异是有统计学意义的(P0.01)。路人甲赶紧撰写论文,并毫不客气地给研究下了个结论:该药可以降低患者血糖。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:却要确实可以降低血糖,但是一个只能降低1mmol/L的降糖药有何临床价值?Reject! 这个例子说明:这个例子说明:有统计学意义不一定有专业意义。有统计学意义不一定有专业意义。浙江大
21、学公共卫生学院流行病与卫生统计学科系 沈毅某CDC做了一个调查,同处一地的A和B两所中学,各有1000名学生,过去的一年,A校有5名学生自杀(自杀率为0.5%),B校没有学生自杀(自杀率为0%)。统计学结果表明,两校自杀率的差异无统计学意义(P=0.07,Fisher确切概率法)。于是写论文得出结论:A和B两校的自杀率是没有统计学上的差异,A校5名学生自杀纯属小概率事件。路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:5个鲜活的生命就这样没有了,5个家庭就这样毁了,你却告诉我这纯属小概率事件,你就不怕“人神共愤”吗?Reject! 这个故事说明:这个故事说明:
22、有专业意义不一定有统计学意义。有专业意义不一定有统计学意义。这两个故事说明:统计学只是方法学,医学科研中需要借这两个故事说明:统计学只是方法学,医学科研中需要借助统计学方法来发现事物的规律性,但助统计学方法来发现事物的规律性,但不能死磕统计。不能死磕统计。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅例:某医生用一种新的治疗某病的疗法(简称治疗组),用现在公认的疗法作为对照(简称对照组),经临床试验,对照组和治疗组的疗效分别为P1=75%与P2=95。问:能认为这两个有效率之间的差别有显著性意义吗?答:这两个有效率之间的差别可能有统计学意义,也可能没有统计学意义。因为其结论不仅取决于二者之差
23、的绝对值大小,更主要的是取决于随机误差的大小和样本大小,千万不可轻率地作出统计推断。现假定这两个有效率分别来自下列甲、乙、丙三批实验的结果,则具有下列3种不同的统计检验结果。“阴性阴性”结果是否是样本含量不足?结果是否是样本含量不足? 有人曾对发表在有人曾对发表在Lancet, N Engl J Med,JAMA等著名医学杂志上的等著名医学杂志上的71篇阴性结果的论文作过分析,发现其中有篇阴性结果的论文作过分析,发现其中有62篇(篇( 93%)可能是由于)可能是由于样本含样本含量量不足造成的假阴性。不足造成的假阴性。 浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 例 数 组 别 疗效: 有
24、效 无效 合计 有效率() 甲实验 对照组 15 5 20 75.0 治疗组 19 1 20 95.0 乙实验 对照组 30 10 40 75.0 治疗组 38 2 40 95.0 丙实验 对照组 45 15 60 75.0 治疗组 57 3 60 95.0表1、两个有效率的比较甲实验中,P1与P2之间的差别无统计学意义(校正2 =1.765,P0.05)乙实验中,P1与P2之间的差别有统计学意义(26.275,0.01P0.05);丙实验中,P1与P2之间的差别也有统计学意义(29.412,P0.01)。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅00.10.20.30.40.50.60
25、.70.80.91020406080100120140样本大小检验效能浙江大学公共卫生学院流行病与卫生统计学科系 沈毅案例四:路人甲发明了两套诊断肺癌的方案,分别命名为A和B。为了明确这两种方到底谁“更胜一筹”,路人甲找了100个肺癌患者和100个疑似肺癌患者(结核、肺炎等),分别用A、B两套方案去进行鉴别诊断。在200个研究对象中(100个肺癌和100个非肺癌),方案A正确了100例,准确率50,方案B仅仅正确了50例,准确率仅为25%。卡方检验结果:方案A和B准确率之间的差异有统计学意义(P0.01)。很明显,方案A的准确性要高于方案B。路人甲赶紧发表论文,指出:方案A诊断肺癌的准确性优于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 医学 科研 设计方案 统计学 思维 精品 课件
限制150内