《科研课题的研究设计与统计分析科研设计中常犯的错误.pdf》由会员分享,可在线阅读,更多相关《科研课题的研究设计与统计分析科研设计中常犯的错误.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中华脑血管病杂志(电子版)2010年6月 第4卷 第3期Chin J Cerebrovasc Dis(Electronic Edition),June 2010,Vol 4,No.3219 特约专栏科研课题的研究设计与统计分析科研设计中常犯的错误胡良平 胡纯严 一、某些科研工作者在指导思想上存在的问题1.临床科研流程倒置:在审阅临床研究论文时,常常产生很多科研工作的“流程”倒了的印象。按理说,进行一项科研工作,首先应当有科研假设,对科研假设深思熟虑之后,提出研究目标和实现目标的思路。在此基础上,结合专业知识和统计学知识,制定出完善的科研设计方案。进而在方案的指导下,有的放矢、循序渐进地实施科研
2、课题。然而,很多临床科研工作采取的是“回顾性研究策略”。也就是说,临床研究工作已经结束了,因晋升职称等的急需,赶写学术论文,翻阅临床病历,对其加工整理,从而撰写出所谓的“临床科研论文”。这种回顾性研究工作,往往因事先缺乏完善的统计研究设计,在“随机、对照、重复、均衡”四个试验设计原则方面存在严重问题,以至于推理证据不充分,说理底气不足,其结论难以令人信服。有些科研工作,由于在试验设计、资料统计分析方面存在严重错误,甚至得出错误的结论。在临床科研工作中,此类问题具有相当的普遍性,应当引起临床科研工作者和有关业务主管部门的高度重视1,2。2.严重忽视统计研究设计:很多实际工作者,在开展调查或试验研
3、究之前,只从专业角度考虑问题,很少从统计学角度考虑问题,以至于仅根据“1、2个”动物或患者的观测结果,就作出带有“规律性的结论”.在某些中高档科研成果档案中我们看到常常是一卷又一卷的“科研流水账”,但却很难寻觅到“完善的试验设计方案”。“拍着脑袋定方案、随心所欲搞科研”,必然导致科研设计不严谨、不完善。有些研究工作从表面看似乎也参照试验设计的三要素进行了安排,并遵守了试验设计的四个基本原则,但每个原则都遵守得不严,以至试验设计“千疮百孔、漏洞百出”。显然,在这种试验方案的指导下,得到的结果和结论恰似“墙上芦苇,头重脚轻根底浅”,有时甚至是“荒唐透顶,颠倒黑白”!3.很多科研人员经常忘记自己是个
4、正常人:在生物医学科研中,经常可以看到一个奇怪的反常现象:有些科研人员一辈子从事某项科研工作,但在科研设计中却显得“专业知识”贫乏,有时,甚至严重违反“基本常识”,真让人怀疑他们是 作者单位:100850 北京,军事医学科学院生物医学统计学咨询中心220 中华脑血管病杂志(电子版)2010年6月 第4卷 第3期Chin J Cerebrovasc Dis(Electronic Edition),June 2010,Vol 4,No.3否还是“正常人”。例如,某临床医生在其进行的一项眼科科研中,患者的基本情况是:22例(22只眼,男13只眼,女9只眼;年龄4883岁,平均66.5岁)单纯性老年性
5、白内障患者;选择的对照者为“意外死亡的健康青壮年人10只眼(男9只,女1只,年龄2535岁)”。若由此研究得出“患白内障会使眼中测出的多项定量指标的取值变得很差”,治疗组与对照组之间具有统计学差别,谁敢相信此结论的正确性呢?因为两组受试者在年龄分布、性别构成、样本含量等方面都不具有可比性,尤其是年龄的影响不可忽视。老年人即使未患白内障,眼内很多定量指标的取值都会朝着差的方向变化。在此基础上又患了白内障,就说不清治疗组与对照组间的统计学差异,究竟是白内障所致、还是年龄大所致。这说明此项研究对照组受试者选得很不恰当。况且,样本含量过小,混杂因素很多,样本并非通过随机方法获得,故该研究严重违反试验设
6、计的“随机、对照、重复和均衡原则”,其结论难以令人置信。又例如,有这样一项国家自然科学基金资助项目,研究目的:研究绝经后骨质疏松症与血清I L26及TNF2浓度关系。但实际研究的是骨质疏松症对有关定量指标的影响。研究方法:选择绝经后骨质疏松患者30例,采用Elisa检测其血清中I L26,TNF2水平,并与正常青年妇女对照。试验设计:30例绝经后妇女临床均确诊为骨质疏松症,年龄最大59岁,最小52岁。绝经时间最长10年,最短5年;30例青年妇女临床诊断排除骨质疏松症,年龄最大33岁,最小28岁。以上对象均排除患有慢性肝、肾、胃肠疾病和各种内分泌疾病,免疫系统疾病,白血病,骨髓瘤,淋巴瘤;也排除
7、了患有精神病,老年性痴呆,神经官能症;过度嗜烟(20支/日)或过度饮酒(70 ml/日)者不入选。若该项研究结论是:骨质疏松症使血清I L26及TNF2浓度等定量指标的取值发生了很坏的变化,因试验组与对照组间的取值具有统计学差异,请问:这个结论正确可信吗?为什么?这个结论是否正确,很难断言,但此结论肯定不可信!因为该项目的科研设计是错误的!试验组与对照组受试对象在年龄上相差悬殊。由医学常识可知,妇女处于不同的年龄段,尤其是妇女绝经前后,雌激素分泌水平与机体是否易患骨质疏松症有关。因此,对于是否患骨质疏松症这个结果变量而言,妇女的“年龄”和“是否绝经”是两个十分重要的影响因素。课题研究者选择的对
8、照组在这两个重要影响因素上是不够“格”的!因此,这个对照组“形同虚设”,违背了设立“对照组”的初衷!对照组也应选择绝经后的妇女,但未患骨质疏松症。对照组妇女的年龄分布和个体平均健康状况等各种重要的非试验因素都应尽可能与试验组妇女接近或相同。这样对照组才有存在价值,才能真正提高研究结果的可信度和说服力。以上两个实例都显示研究者违反了“基本常识”,而且是一般正常人思考和处理日常问题时都具有的起码的“基本常识”。令人费解的是:为什么很多正常中华脑血管病杂志(电子版)2010年6月 第4卷 第3期Chin J Cerebrovasc Dis(Electronic Edition),June 2010,
9、Vol 4,No.3221 人,一旦搞科研,就轻而易举地忘记自己是一个“正常人”。这种现象或者可称之为“科研失常症”。二、设计类型及常见错误什么是试验设计类型?试验要涉及一个或多个试验因素,有时还需要考虑重要的非试验因素(称为区组因素)。这些因素的水平以不同的方式进行组合,将对试验结果产生不同的影响。研究的目的是希望了解哪些因素对结果的影响是主要的,哪些因素对结果的影响是次要的,哪些因素在其特定的水平变化范围内几乎对结果没有影响。人们需要根据试验研究中可能涉及之因素的个数、水平数进行适当的组合,以便实现研究者的研究目的,而与特定因素组合对应的具体试验安排则被称为“试验设计类型”。试验设计类型的
10、作用是什么?合理地利用各种试验设计类型,不仅可以准确评价各因素对观测结果的影响大小,而且可以合理地评价因素之间的交互作用的效应大小。标准的试验设计类型,有与之对应的标准的统计分析方法。由此可见,处理定量资料的关键点有两个:其一,正确判定定量资料所对应的试验设计类型;其二,认真检查定量资料是否具备参数检验所要求的前提条件(独立性、正态性和方差齐性)。标准的试验设计类型有很多,可大体分为单因素设计与多因素设计。在单因素设计中,又可细分为单组设计、配对设计、成组设计和单因素多水平设计。在多因素设计中,有无法考察交互作用的双因素无重复试验的设计、随机区组设计、平衡不完全随机区组设计、交叉设计、拉丁方设
11、计、正交拉丁方设计、系统分组(或叫嵌套)设计等。此外,还有可以考察交互作用的析因设计、正交设计、反应曲面设计、分割(或叫裂区)设计以及重复测量设计等。试验前,仅从专业角度考虑问题,凭想当然设置多个组,不知道如何对试验因素及其水平进行合理安排,常导致对照不全,无法找到正确的处理试验数据的统计分析方法。有时,人们习惯用多次单因素设计取代多因素设计,当因素之间不独立时,极易得出错误结论。试验结束后想处理试验资料时,在没弄清资料的背景情况时,根据资料的表现型盲目套用统计分析方法,极易发生上述错误。三、试验设计三要素及常见错误何为试验设计三要素?受试对象、试验因素和试验效应(常以观测指标的具体取值来反映
12、)为试验研究中不可缺少的内容,故称之为试验设计三要素。根据试验研究的目的和具体情况,应结合专业知识选择合适的受试对象。例如,有些试验需要选用小动物,而另一些试验则需要选用大动物;有些试验需要选用这种品系的动物,而另一些试验则需要选用那种品系的动物。显然,受试对象种类的选取主要取决于专业知识。从统计学角度看,更多场合下是应当结合具体问题制定出“纳入和剔除”受试对象的标准,以减少或消除重要非试验因素对试222 中华脑血管病杂志(电子版)2010年6月 第4卷 第3期Chin J Cerebrovasc Dis(Electronic Edition),June 2010,Vol 4,No.3验结果的
13、干扰和影响。若是药物的临床试验,还必须考虑“伦理道德”、“尊重人权”和“提高受试者依从性”等问题。1.受试对象的种类:根据受试对象的特征和属性可将其粗分为生物体与非生物体两大类。生物体又可粗分为人体与非人体两类,其中人体又常分为患者与非患者;非人体又常分为动物、植物。另外,还可以是人体的离体标本或细胞等。不同的试验目的、试验因素和试验的技术水平需要选用不同的受试对象。例如:在新药的临床试验前期,一般只能选用动物作为受试对象,在 期临床试验阶段,一般选用健康志愿者作为受试对象。在、期临床试验阶段,一般都选患有特定疾病并符合入选标准且不具有排除标准的患者作为受试对象。选用动物作为受试对象时,又要根
14、据处理因素的性质、作用机理、作用部位等,选用不同种类的动物。具体如何选定,主要取决于专业知识,此处不便赘述。2.受试对象的数量:受试对象的数量通常指试验研究中总共需要多少样本含量,也称样本大小,在统计学上称为“样本大小估计问题”。值得注意的是,若试验涉及的因素很多,根据因素的水平组合会形成很多小组,每个小组中的受试对象数量不能太小!样本大小估计是一个比较复杂的问题.它涉及到试验设计的类型、观测指标的性质、有关的先验知识和对结果精确度的要求。单因素设计各种情况下样本大小的估计公式比较多。其他设计样本大小的估计公式就比较少了。尤其是多因素试验设计多指标情形下样本大小的估计几乎不可能,通常需要根据极
15、少数主要因素和指标来考虑样本含量的估计问题。尽管如此,还是应当尽可能科学地给出样本大小的估计。例如,一般来说,在新药的 期临床试验中,试验组与对照组各至少需要100例样本。对于试验室进行的小规模试验研究,当试验因素多、分的小组很多时,若使用的是大动物(如狗、猴、猪),各小组样本量在5只以上为宜,最少不宜少于3只;若是小动物(如小鼠、大鼠、兔),各小组样本量在10只以上为宜,最少不宜少于5只。3.常见错误有:动物试验,常常盲目选取某种受试对象;在以人为受试对象的试验研究中,常忽视伦理道德问题,选择不恰当的对照组等。何为试验因素?试验因素就是研究者希望通过试验考察其对试验结果是否有影响的、性质相同
16、的、不同试验条件的总称。例如,不同药物和不同剂量对患者的疗效可能有不同的影响,假定现有3种药物,每种药物有4种不同的用量,每组患者只能用一种药物的一种剂量,则需把某病患者分成12个小组。从统计学角度看,此试验仅涉及到两个试验因素,一个叫“药物种类”,它有3个水平;另一个叫“药物剂量”,它有4个水平。4.重要非试验因素及其选定:在试验研究中,除了试验因素对观测结果有影响外,还会有其他因素对观测结果产生影响。例如受试对象的“性别、体重、年中华脑血管病杂志(电子版)2010年6月 第4卷 第3期Chin J Cerebrovasc Dis(Electronic Edition),June 2010,
17、Vol 4,No.3223 龄、心理状态”等基本特征,试验者的技术水平和情绪等是否稳定,药物或试剂的质量和性能是否稳定,做试验时的环境和条件是否稳定等。这些都被称为非试验因素。结合具体问题,选定其中对观测结果具有最大影响的一个或若干个,将其定为“重要的非试验因素(简称为区组因素)”。在试验设计时,设法对其加以控制,这就是所谓“含区组因素”的试验设计类型。例如配对设计、随机区组设计、平衡不完全随机区组设计、含区组因素的析因设计等。实际工作者中确定试验因素方面常犯的错误有:喜欢用“组别”这个词作为全部试验分组的总称。无论试验中涉及到多少个组,他们总把这个“组别”理解为“一个试验因素”,很自然地将其
18、下的各组理解为该因素的各个水平。如前例,错误地理解是试验中仅涉及一个叫“组别”的因素,它有12个水平;毫无根据地选择很多试验因素,使试验研究变得十分复杂。这种情况往往因为试验条件、人力和时间等都达不到起码的要求,使试验研究半途而废或因安排不当,组间夹杂着某些混杂因素的影响,导致结论可信度低;由于研究者试验设计水平贫乏,不会科学地利用多因素试验设计技术,只能将其他试验因素视而不见,每次只让自己关心的某个试验因素取不同水平,当因素之间不互相独立时,常得出错误结论。何为试验效应?试验效应就是试验因素作用于受试对象后所产生的效果。它是通过具体的观测指标来体现的。观测指标是用来反映试验因素作用强弱的重要
19、“尺子”,必须结合试验因素的性质和特点,仪器、试剂和技术水平等多方面综合考虑。要找出“特异性强、灵敏度高、准确、可靠”的观测指标,以“客观指标”为主,以“半客观和主观指标”为辅。不同的试验因素需要选取不同的观测指标,选取的依据是专业知识。例1,人们在进行疾病与某些基因之间关系的研究时,常常盲目地选取一些观测指标,因此,常得出“阴性”结果,即不同的基因型对所考察的观测指标的影响无统计学差异。例2,研究哮喘与某些基因之间的关系时,若选取“身高、体重、血小板等”为观测指标,就没有什么意义;若选取“血清总IgE等”为观测指标,就比较有意义了。例3,反映肝病治疗效果的指标绝对不可能选用身高、体重和胸围,
20、必须是能直接反映肝损伤严重程度的关键性指标。例4,当人类对严重急性呼吸综合征(SARS)一无所知时,不知道感染上SARS病毒的患者与未感染上SARS病毒的患者在哪些外周血指标上有差异。如此,解放军三零二医院临床检验中心的毛远丽等检测了67例已被明确诊断为SARS的患者的外周血血细胞、血清生化检验指标等30余项指标。他们对其中23例痊愈出院患者发病早期、中期和恢复期的各项指标进行了动态观察。将其中某些指标的数值与相应的正常值范围相比较。SARS患者外周血试验室检查结果表明,多项检测指标产生有统计学意义的改变。其中在发病1周内即有变化且对临床诊治具有一定作用的指标为:LY M(淋224 中华脑血管
21、病杂志(电子版)2010年6月 第4卷 第3期Chin J Cerebrovasc Dis(Electronic Edition),June 2010,Vol 4,No.3巴细胞绝对值)、Fe(铁)、urea(尿素)的特异性降低以及LDH(乳酸脱氢酶)、CK(肌酸激酶)、2HBD(2 羟丁酸脱氢酶)、AST(门冬氨酸氨基转移酶)的特异性升高。这就为日后的类似研究提供了选取指标的科学依据,其他人就不必去检测其他一些无临床意义的血清学常规指标了,可以节省人力、物力和时间。四、试验设计四原则及常见错误何为试验设计四原则?就是指试验研究必需遵循的四个基本原则,即“随机、对照、重复、均衡”原则。一项科研
22、工作,在这四个基本原则中任何一个原则上出了问题,其结论很可能就是错误的。何为随机原则?在选取样本时,应确保总体中任何一个个体都有同等的机会被抽取进入样本。在分配样本时,应确保样本中任何一个个体都有同等的机会被分入任何一个组中去。这就是严格意义上的随机化原则。随机的作用是什么?其作用就是使样本具有极好的代表性,使各组受试对象在重要的非试验因素方面具有极好的均衡性,提高试验资料的可比性。在随机原则方面常犯的错误有:用“随意”取代“随机”;由发病时间短的患者组成试验组;按时间先后分别选取样本形成试验组与对照组。何为对照原则?医学试验研究,一般都应设立对照组,这就是所谓的“对照原则”。设立对照组,实际
23、上就是寻找一个“参照物”或“对比的基础”。因为“好与坏”、“高与矮”、“快与慢”、“长与短”等都是一事物相对于与之同类的另一事物而言的。现在的火车速度快,但它却没有现在的飞机速度快。一个药物的疗效如何,要看与谁比较。是与“安慰剂”比较还是与“当前市面上治疗此类疾病疗效最好的某种药物”比较,其结论是不同的,可能产生的价值也不一样。对照原则的作用是什么?设立对照组的作用就在于提高鉴别的能力和结论的说服力。换言之,缺乏对照的研究是没有说服力的。当然,对照不全或对照设置得不合理也是没有说服力的。在对照原则方面常犯的错误有:缺乏必要的对照组、对照过剩、盲目设立对照组、假对照、对照不全等。何为重复原则?虽
24、然通常重复有三层含义,即重复试验、重复测量和重复取样,但试验设计中所讲的“重复原则”主要指“相同试验条件下的独立重复试验的次数要足够多”这样一个原则,即“重复试验原则”。重复测量一般指受试对象接受某种处理后,在不同时间点或对称的不同部位上重复观测某定量指标的数值大小,目的是看定量指标随时间推移(或部位改变)的动态变化情况。而重复取样则是在同一个时间点从同一受试对象身上或同一个样品中取得多个标本,目的是看各标本中某定量观测指标含量的分布是否均匀。重复原则的作用是什么?重复的作用就是确保能真实地反映随机变量(即事先不能准确知道在试验结束后中华脑血管病杂志(电子版)2010年6月 第4卷 第3期Ch
25、in J Cerebrovasc Dis(Electronic Edition),June 2010,Vol 4,No.3225 变量的具体取值是多少)的统计规律性。当然,在实际的科研工作中,在一个特定的条件下不可能做无数次独立重复试验,最好结合具体情况作出合理的估计。一般来说,不做重复试验或仅重复2、3次试验,其可靠性是值得怀疑的。在样本量方面常见的错误有:有时盲目追求大样本,导致质量差效率低;有时又严重忽视重复试验的作用,在不同试验条件下,仅做一次试验。因为生物体的个体差异很大,在相同条件下重复试验次数过少,随机变量的规律性无法正确地显露出来。更有甚者,用“个案”上得出的结论取代一般规律。
26、何为均衡原则?均衡原则就是要求同一个试验因素各水平组之间除了所考察的因素取不同水平外,在一切非处理因素方面达到均衡一致。例如:临床上经常有这样的资料,一组为正常人,测定其血压值,另一组是高血压患者,将他们在治疗前、治疗后的血压值都测定出来,这样就有了三组血压值。很多人都将这三组定量数据视为来自“单因素3水平设计的定量资料”,这显然是不妥的!因为它既不是一个标准的“单因素3水平设计”,也不是一个标准的两因素析因设计或重复测量设计。这三组之间是不均衡的,没有一个统一的名称(即试验因素)能将这3个组概括进去又能明确地区分开来。若将这3组所代表的试验因素取名为“受试者的类型”,它只有两个水平(不是3个
27、水平!),即“正常人与高血压患者”,不能明确区分测自患者的两组数据。若将这3组所代表的试验因素取名为“测定时间”,它也只有两个水平(不是3个水平),即“治疗前与治疗后”,不能明确区分测自正常人的那一组数据。但是,若在患者治疗前、后测定血压值的同时,也对正常人各测定了一次,此时,有4组血压值,其中测自正常人的两组数据之间有较好的可比性,而测自患者的两组数据之间也有较好的可比性。这样做实际上就是一个标准的两因素试验设计了,其具体的名称为“具有一个重复测量的两因素试验设计”。均衡原则方面常见错误有:对照组与试验组受试对象在“基线”上不可比,如平均年龄、与观测结果有关的指标的平均值、性别构成等,可能对观测结果有重要影响的非试验因素方面相差悬殊。参 考 文 献1 胡良平.科研课题的研究设计与统计分析 错误案例辨析与释疑(第一集).北京:军事医学科学出版社,2008:11215.2 胡良平.科研课题的研究设计与统计分析 提高学位论文统计学质量的对策(第二集).北京:军事医学科学出版社,2010:326.(收稿日期:2010204220)(本文编辑:安静)胡良平,胡纯严.科研课题的研究设计与统计分析科研设计中常犯的错误J/CD.中华脑血管病杂志:电子版,2010,4(3):2192225.
限制150内