《诊断试验设计与循证评价.ppt》由会员分享,可在线阅读,更多相关《诊断试验设计与循证评价.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、诊断试验的设计与评价南方医科大学南方医院南方医科大学南方医院曾方银曾方银2011.7.162011.7.16一一.诊断试验(诊断试验(diagnostic test)是对疾病进行诊断的试验方法。是对疾病进行诊断的试验方法。包括实验室检查,各种物理诊断如各种影像诊断(包括实验室检查,各种物理诊断如各种影像诊断(X X线诊线诊断、断、CTCT、磁共振成像)、超声诊断以及放射性核素检查、磁共振成像)、超声诊断以及放射性核素检查、纤维内窥镜、电镜等方法。纤维内窥镜、电镜等方法。诊断试验评价的意义诊断试验评价的意义应用流行病学的方法对新的诊断试验进行评价研究,将有助于临床医师正确选用各种诊断试验,科学地
2、解释诊断试验的各种结果,从而提高诊断水平。二二.诊断试验研究的设计原则诊断试验研究的设计原则确定“金标准”选择研究对象样本含量的估计诊断试验临界值的制定盲法比较诊断试验与金标准的结果(一)金标准(一)金标准(gold standardgold standard)是指当前临床医学界公认的诊断疾病的最可靠的是指当前临床医学界公认的诊断疾病的最可靠的方法。也称为标准诊断。方法。也称为标准诊断。通常包括:活检、手术发现、微生物培养、尸检、通常包括:活检、手术发现、微生物培养、尸检、特殊检查和影像诊断,以及长期随访的结果。特殊检查和影像诊断,以及长期随访的结果。关于金标准关于金标准可正确区分可正确区分“
3、有病有病”或或“无病无病”。当新试验实际上更优于传统当新试验实际上更优于传统“金标准金标准”方法时,应采用最方法时,应采用最新的病理生理知识去新的病理生理知识去更新更新传统的传统的“金标准金标准”常见问题常见问题金金标标准准选择选择不不当当:会会造成造成对对受受试试者者诊断诊断分分类类上的上的错误错误,使整使整个试验个试验的的评评价失去准确性的基价失去准确性的基础础。研研究究设计设计方法不熟悉方法不熟悉,或是或是对对金金标标准在准在诊断诊断性性试验评试验评价中价中的重要性的重要性认识认识不足以及疾病不足以及疾病诊断诊断的金的金标标准准过过于于复杂复杂或或风险风险较较大等原因大等原因,常常选选用
4、容易得到用容易得到结结果的、但准确性不高的果的、但准确性不高的诊诊断断方法作方法作为为金金标标准。准。导导致致结论结论的可信度低甚至是的可信度低甚至是错误错误的的结论结论。(二)研究对象(二)研究对象病例组:病例组:是指用金标准确诊是指用金标准确诊“有病有病”的病例,应包含典型的、不典型病例,的病例,应包含典型的、不典型病例,早、中、晚期病例,轻、中、重病例,有和无并发症的患者。早、中、晚期病例,轻、中、重病例,有和无并发症的患者。对照组:对照组:是指用金标准证实没有目标疾病的其他病例,特别是与该病容易是指用金标准证实没有目标疾病的其他病例,特别是与该病容易混淆的病例。混淆的病例。正常人一般不
5、宜纳入对照组。正常人一般不宜纳入对照组。研究对象的代表性影响评价指标的真实性研究对象的代表性影响评价指标的真实性常见错误常见错误将已知某病患者作为病例组将已知某病患者作为病例组,然后再挑选健康人或其他疾然后再挑选健康人或其他疾病患者作为对照组病患者作为对照组只对诊断试验阳性的患者行金标准检查只对诊断试验阳性的患者行金标准检查仅选用经金标准确诊的患者及非患者为研究对象;而将仅选用经金标准确诊的患者及非患者为研究对象;而将曾疑为某病曾疑为某病,但因某诊断试验阴性暂未采用金标准检查但因某诊断试验阴性暂未采用金标准检查的患者除外的患者除外只选用金标准确诊有病的患者作为研究对象而无对照组只选用金标准确诊
6、有病的患者作为研究对象而无对照组(三)样本含量的估计(三)样本含量的估计诊断试验要求有一定数量诊断试验要求有一定数量的观察对象,即样本含量。的观察对象,即样本含量。按照统计学中有关总体率按照统计学中有关总体率的样本含量估算方法,分的样本含量估算方法,分别计算病例组和对照组的别计算病例组和对照组的样本含量。样本含量。样本含量计算举例:(五)诊断试验结果的测量1.1.同步盲法比较同步盲法比较受检对象在检测前不分组,在整理资料时才按金标准受检对象在检测前不分组,在整理资料时才按金标准进行分组,尽可能让所有受试患者同时接受诊断试验和进行分组,尽可能让所有受试患者同时接受诊断试验和金标准方法金标准方法采
7、用同步盲法判定结果采用同步盲法判定结果(尤其是定性结果尤其是定性结果),由不知另,由不知另一试验结果的人独立、客观地对诊断试验或金标准结果一试验结果的人独立、客观地对诊断试验或金标准结果做出判断做出判断 (四)结果测量与处理(四)结果测量与处理(五)诊断试验结果的测量1.1.同步盲法比较同步盲法比较如果先做诊断试验或金标准如果先做诊断试验或金标准,然后由了解前一试验结果的然后由了解前一试验结果的人判断后一试验结果人判断后一试验结果,则会发生判断倾向性则会发生判断倾向性,使两种方法一使两种方法一致性增高致性增高当评估者了解受试者是患者当评估者了解受试者是患者,就会潜意识地寻找可能存在就会潜意识地
8、寻找可能存在的阳性结果;相反,如果知道受试者不是患者,则可能放的阳性结果;相反,如果知道受试者不是患者,则可能放弃仔细寻找阳性信息的机会弃仔细寻找阳性信息的机会,使可能存在的阳性信息被遗使可能存在的阳性信息被遗漏漏,从而导致敏感度和特异度高于真实值从而导致敏感度和特异度高于真实值偏倚的原因偏倚的原因2.2.诊断实验的测量偏倚诊断实验的测量偏倚应注意诊断试验的重复性及测量结果的可靠性应注意诊断试验的重复性及测量结果的可靠性,防止测量防止测量偏倚。偏倚。如需要由操作者判断结果的试验如需要由操作者判断结果的试验,至少应该用部分受试者至少应该用部分受试者对操作者的变异性进行简要评估。对操作者的变异性进
9、行简要评估。试验结果由仪器判断时试验结果由仪器判断时,应对仪器的变异性进行简要估计。应对仪器的变异性进行简要估计。对诊断试验中不确定结果出现的频率对诊断试验中不确定结果出现的频率,计算评价指标时是计算评价指标时是否包括了这些不确定结果均应说明。否包括了这些不确定结果均应说明。偏倚的原因偏倚的原因不同诊断界值时敏度与特异度间的平衡0204060801005060708090100特异度灵敏度百分率()(五)诊断试验临界值的制定(五)诊断试验临界值的制定ROC曲线法确定诊断试验临界值是目前较为理想的方法ROC曲线反映了灵敏度与特异度间的平衡曲线反映了灵敏度与特异度间的平衡。在在ROC曲线空间,如果
10、曲线沿着左边线,然后沿着曲线空间,如果曲线沿着左边线,然后沿着上边线越紧密,则试验准确度越高。上边线越紧密,则试验准确度越高。在在ROC曲线空间,如果曲线沿着机会线(曲线空间,如果曲线沿着机会线(45度对角度对角线)越紧密,则试验准确度越低。线)越紧密,则试验准确度越低。ROC曲线下面积是重要的试验准确度指标。曲线下面积是重要的试验准确度指标。完美与无用的ROC曲线诊断准确度较低(诊断准确度较低(0.9)0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPRA0.938ROCROC曲线下面积(曲线下面积(AreaArea)与诊断准确度高低)与诊断准确度高低高高 0
11、.90-1.00=excellent(A)0.90-1.00=excellent(A)中中 0.80-0.90=good(B)0.70-0.80=fair(C)0.80-0.90=good(B)0.70-0.80=fair(C)低低 0.60-0.70=poor(D)0.50-0.60=fail(F)0.60-0.70=poor(D)0.50-0.60=fail(F)临界值的选择临界值的选择其选择直接影响到敏感度和特异度等评价指标其选择直接影响到敏感度和特异度等评价指标诊断试验不仅要有区分健康或非某病与某病的界值,最好诊断试验不仅要有区分健康或非某病与某病的界值,最好还有需要治疗与判断预后的界
12、值(如:医学决定水平)还有需要治疗与判断预后的界值(如:医学决定水平)其选择取决于诊断试验的目的与权衡漏诊和误诊的利弊其选择取决于诊断试验的目的与权衡漏诊和误诊的利弊有时还要根据研究对象中不同年龄组、不同临床特征时临有时还要根据研究对象中不同年龄组、不同临床特征时临界值的差异对诊断试验准确性的影响等多种临床实际情界值的差异对诊断试验准确性的影响等多种临床实际情况况,分别选用多个临界值分别选用多个临界值参考区间的差别参考区间的差别正常参考区间的获得可根据常用的统计学方法正常参考区间的获得可根据常用的统计学方法,如正态分如正态分布法及百分位数法布法及百分位数法资料必须来源于健康人的结果资料必须来源
13、于健康人的结果,同时要注意不同人种、地同时要注意不同人种、地区、性别、年龄、不同的检测方法和系统误差等对参考值区、性别、年龄、不同的检测方法和系统误差等对参考值的影响的影响正态分布法要求资料呈正态分布正态分布法要求资料呈正态分布,且样本含量要大且样本含量要大(120(120例例以上以上),),以保证样本的代表性和结果的稳定性以保证样本的代表性和结果的稳定性,一般用一般用(X(X2SD)2SD)作为正常参考值作为正常参考值资料呈偏态分布时资料呈偏态分布时,要求使用百分位数法要求使用百分位数法三、诊断试验评价三、诊断试验评价诊断试验评价就是将待评诊断试验与诊断目标疾病的标准方法,即“金标准”(go
14、ld standard),进行同步盲法比较,判定该方法对疾病“诊断”的真实性、可靠性和实用性。目目标标人人群群金标准金标准病人病人病人病人非非非非病病病病人人人人待评价诊待评价诊断试验断试验评价指标评价指标评价指标评价指标有效有效有效有效无效无效无效无效有效有效有效有效无效无效无效无效诊断试验评价程序诊断试验评价程序诊断试验与金标准比较的四格表标准诊断标准诊断有病有病无病无病诊诊断断性性试试验验+a a(真阳性真阳性)b b(假阳性假阳性)-c c(假阴性假阴性)d d(真阴性真阴性)诊断试验的评价指标特征值特征值别名别名含义含义公式公式 灵敏度灵敏度(S)真阳性率真阳性率(真患者)(真患者)
15、在金标准诊断的在金标准诊断的“有病有病”病例中,诊断病例中,诊断性试验检测为阳性例数的比例。真阳性率性试验检测为阳性例数的比例。真阳性率越高,漏诊率越低越高,漏诊率越低 a/(a+c)特异性特异性(Sp)真阴性率真阴性率(非患者)(非患者)在金标准诊断的在金标准诊断的“无病无病”病例中,诊断病例中,诊断性试验检测为阴性例数的比例。真阴性率性试验检测为阴性例数的比例。真阴性率越高,误诊率越低。越高,误诊率越低。d/(b+d)灵敏度与特异度的优缺点优点:灵敏度与特异度不受患病率的影响,其取值范围均在(0,1)之间,其值越接近于1,说明其诊断准确性越好。缺点:当比较两个诊断试验时,单独使用灵敏度或特
16、异度,可能出现矛盾。解决办法:将两指标结合:Youden指数、阳性似然比、阴性似然比等诊断试验的指标(续)阳性阳性预测值预测值(PPV)阳性试验的阳性试验的事后概率事后概率 诊断试验出现阳性的全部事例中,诊断试验出现阳性的全部事例中,有病患者出现阳性所占的比率。有病患者出现阳性所占的比率。a/(a+b)阴性阴性预测值预测值(NPV)阴性试验的阴性试验的事后概率事后概率 诊断试验出现阴性的全部事例中,诊断试验出现阴性的全部事例中,无病患者出现阴性所占的比率。无病患者出现阴性所占的比率。d/(c+d)准确性准确性(Acc)所有检测结果中,全部真阳性和真所有检测结果中,全部真阳性和真阴性所占的比率阴
17、性所占的比率(a+d)/(a+b+c+d)例例:阳性预测值阳性预测值=215/231X100%=93.07%阴性预测值阴性预测值=114/129X100%=8837%PPV=93.07%表示用表示用CPK诊断心肌梗死,结果阳性者中有诊断心肌梗死,结果阳性者中有93.07%确实患心肌梗死,确实患心肌梗死,或者说某受检者得到阳性结果时,有或者说某受检者得到阳性结果时,有93.07%的可能患心肌梗死。的可能患心肌梗死。NPV=88.37%则表示结果为阴性者不患心肌梗死的比例,即得到阴性结果时,排则表示结果为阴性者不患心肌梗死的比例,即得到阴性结果时,排除患心肌梗死的概率。除患心肌梗死的概率。预测值与
18、灵敏度、特异度、患病率的关系预测值与灵敏度、特异度、患病率的关系1预测值与患病率的关系预测值与患病率的关系 当灵敏度、特异度一定时,阳性预测值随着患病率的升高当灵敏度、特异度一定时,阳性预测值随着患病率的升高而升高;阴性预测值随着患病率的降低而升高。而升高;阴性预测值随着患病率的降低而升高。Sketch做了一个冠状动脉狭窄的诊断研究,取了195个受试者。动脉造影以动脉狭窄75作为异常,而运动试验以心电图判断,结果见下表。患病率高时,阳性预测值高;患病率低时,阴性预测值高。患病率高时,阳性预测值高;患病率低时,阴性预测值高。阳性试验似阳性试验似然比然比(+LR)在在“有病有病”患者中,真阳性比例
19、与在患者中,真阳性比例与在“无病无病”患者患者中,假阳性的比例的比值。表明试验阳性时,患病与中,假阳性的比例的比值。表明试验阳性时,患病与不患病机会的比值。比值越大不患病机会的比值。比值越大(如(如10),患病概率),患病概率越大,试验越好。越大,试验越好。灵敏度灵敏度/(1特异性)特异性)a/(a+c)/1d(b+d)阴性试验似阴性试验似然比然比(-LR)患者试验假阴性比例与非患者试验真阴性比例的比患者试验假阴性比例与非患者试验真阴性比例的比值,表明试验阴性时,患病与不患病机会的比值。比值,表明试验阴性时,患病与不患病机会的比值。比值越小值越小(如(如0.1),不患病的概率越大,试验越好。)
20、,不患病的概率越大,试验越好。(1灵敏度灵敏度)/特异性特异性1-a(a+c)/d(b+d)比数比比数比(OR)有病患者阳性试验似然比与阴性试验似然比的比值。有病患者阳性试验似然比与阴性试验似然比的比值。数值越大,表明诊断试验区分患者与非患者的能力越数值越大,表明诊断试验区分患者与非患者的能力越大。大。灵敏度灵敏度/(1特异性特异性)/(1灵敏度灵敏度)/特异性特异性(ad)/(cb)注注:a,真阳性;真阳性;b,假阳性;假阳性;c,假阴性;假阴性;d,真阴性真阴性诊断试验的指标(续)临床实践中似然比应用的粗略判断原则阳性似然比阳性似然比阴性似然比阴性似然比临床判断临床判断10100.10.1
21、 基本上可确定或排除诊断基本上可确定或排除诊断5 510100.10.10.20.2 试验前后概率中度变化试验前后概率中度变化2 25 50.20.20.50.5 试验前后概率变化较小试验前后概率变化较小1 12 20.50.51 1 试验前后概率基本上无变化试验前后概率基本上无变化关于诊断性能指标特点:*灵敏度和特异性灵敏度和特异性 是最基本、必须具备的独立指标,不受患病率影响。是最基本、必须具备的独立指标,不受患病率影响。*诊断性能诊断性能 其他指均来自其他指均来自S和和Sp的计算。的计算。*预测值预测值 高低常取决于患病率。高低常取决于患病率。*似然比似然比 同时反映同时反映S和和Sp的
22、复合指标,比的复合指标,比S和和Sp指标更稳定。指标更稳定。关于诊断试验临床实用性评价指所获证据的诊断试验是否能鉴别目标疾病和非目标疾病,其鉴别诊断的临界点是什么,如果使用此试验或不使用此试验,对目标疾病的结局有何不同。受试者操作特性曲线(receiver operating characteristic curve,ROC):常被用来决定诊断试验,鉴别诊断的最佳临界点。四四.诊断试验的临床应用诊断试验的临床应用稳定的指标:敏感性、特异性、稳定的指标:敏感性、特异性、LRLR、LRLR(是最重要的指标)(是最重要的指标)相对稳定的指标:准确性相对稳定的指标:准确性不稳定的指标:阳性预测值、阴性
23、预测不稳定的指标:阳性预测值、阴性预测值、患病率值、患病率 似然比的应用似然比的应用计算验后概率计算验后概率验前比(验前比(Pretest OddsPretest Odds)=验前概率验前概率/(1-1-验前概率)验前概率)验后比(验后比(Post-test OddsPost-test Odds)=验前比验前比似然比似然比 验后概率(验后概率(Post-test ProbabilityPost-test Probability)=验后比验后比/(1+1+验后比)验后比)诊断性试验证据的应用示例诊断性试验证据的应用示例缺铁性贫血的诊断缺铁性贫血的诊断(Guyatt GH,et al)铁蛋白铁蛋白
24、 IDAIDA非非IDAIDALRLR45100100 8/85 8/85 108/150 0.13 108/150 0.13总数总数8585150150该患者患病(该患者患病(IDAIDA)概率的计算)概率的计算估计验前概率为估计验前概率为30%30%该患者血清铁为该患者血清铁为4040m mg/Lg/L,LR 8.2LR 8.2验前比验前比0.3/0.3/(1 10.30.3)0.430.43验后比验后比0.438.2=3.530.438.2=3.53验后概率验后概率3.53/3.53/(1+3.531+3.53)77.9%77.9%Quality assessment of diagno
25、sis study1疾病疾病谱谱是否包含了各是否包含了各种种病例及易混淆的病例?病例及易混淆的病例?Was the spectrum of patients representative of the patients who will receive the test in practice?2研研究究对对象的象的选择标选择标准是否明确准是否明确?Were selection criteria clearly described?3参参考考标标准是否能准确准是否能准确区区分有病、无病分有病、无病状态状态?Is the reference standard likely to correctl
26、y classify the target condition?五.诊断试验证据的质量评价4参参考考标标准准与诊断试验与诊断试验的的实实施是否施是否时间间时间间隔隔够够短,以避免病情短,以避免病情变变化的影化的影响响?Is the time period between reference standard and index test short enough to be reasonably sure that the target condition did not change between the two tests?5是否所有的是否所有的样样本或本或随随机机选择选择的的样样本均接
27、受了本均接受了参参考考标标准的准的验证验证?Did the whole sample or a random selection of the sample,receive verification using a reference standard?6不管不管试验结试验结果如何果如何,是否所有的是否所有的纳纳入病人均接受了同一入病人均接受了同一参参考考标标准的准的证实证实?Did patients receive the same reference standard regardless of the index test result?7参参考考标标准是否准是否与研与研究究试验独试验独
28、立不相干(即立不相干(即参参考考标标准不包含准不包含研研究究试验试验)?Was the reference standard independent of the index test(i.e.the index test did not form part of the reference standard)?8诊断诊断性性试验试验的的细节细节是否已充分描述是否已充分描述并并可重可重复复?Was the execution of the index test described in sufficient detail to permit replication of the test?9参
29、参考考标标准的准的细节细节是否已充分描述是否已充分描述并并可重可重复复?Was the execution of the reference standard described in sufficient detail to permit its replication?10诊断试验诊断试验的的结结果解果解释释是否是在不知是否是在不知晓参晓参考考标标准准试验结试验结果的情果的情况况下下进进行的?行的?Were the index test results interpreted without knowledge of the results of the reference standar
30、d?11参参考考标标准准试验试验的的结结果解果解释释是否是在不知是否是在不知晓诊断晓诊断性性试验结试验结果的情果的情况况下下进进行的行的?Were the reference standard results interpreted without knowledge of the results of the index test?12当当解解释试验结释试验结果果时时可可获获得的得的临临床床资资料是否料是否与实际应与实际应用中可用中可获获得的得的临临床床资资料料一致一致?Were the same clinical data available when test results were
31、interpreted as would be available when the test is used in practice?13是否是否报报道了道了异异常常/难难以解以解释释/中中间试验验间试验验的的结结果?果?Were uninterpretable/intermediate test results reported?14对对退出退出研研究的病例是否究的病例是否进进行了解行了解释释?Were withdrawals from the study explained?六、诊断试验的系统评价六、诊断试验的系统评价确定临床问题确定临床问题某病的诊断方法某病的诊断方法查找全球范围内所能收集到的同类研究结果查找全球范围内所能收集到的同类研究结果评价研究质量评价研究质量提取试验数据提取试验数据合并分析(如合并分析(如MetaMeta)评估其临床实用性评估其临床实用性诊断试验的系统评价指标诊断试验的系统评价指标合合并并敏感度敏感度合合并并特特异异度度合合并阳并阳性似然比性似然比合合并阴并阴性似然比性似然比合合并诊断并诊断比比数数比比综综合合ROC曲曲线线致致 谢谢
限制150内