非劣效性、等效性临床试验.doc
Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date非劣效性、等效性临床试验非劣效性/等效性试验中的样本含量估计优效性试验(superiority)显示优效性的设计通过安慰剂对照试验显示优于安慰剂或优于阳性药,或由剂量反应关系证实疗效是最可信的。此类试验称为优效性试验。非劣效性(non-inferiority)试验/等效性(equivalence)试验显示非劣效性或等效性的设计,以阳性药物为对照,试验的目标是显示试验药物的疗效与某种已知的阳性药物“不差”或“相当”,分别称为非劣效性试验和等效性试验稳定性假设(constancy assumption)指阳性对照药物在既往研究(对安慰剂)中的效应量在当前的非劣效性或等效性试验保持不变。检测灵敏度(assay sensitivity)分辨某种治疗与较差的治疗或无效的治疗之间差别的能力,对优效性试验、非劣效性试验与等效性试验具有不同的意义。优效性试验如果是成功的,即试验显示出试验药与安慰剂之间的差别,则检验灵敏度自然成立;对非劣效性和等效性试验而言,如果阳性药没有检测灵敏度,一个无效的试验药可能会因为非劣效性而错误地确认其疗效。无效药如何得出非劣效性一、 非劣效性/等效性试验中的样本含量估计 (一)决定非劣效性/等效性试验样本含量估计的要素 1. 非劣效性(non-inferiority)/等效性(equivalence)界值 从临床意义上确认药物的疗效,需要事先确认评价的界值。在优效性试验中,界值指试验药和对照药之间相差的临床上认可的最小值。在非劣效性试验中指临床上可接受的最大值。对非劣效性和等效性试验,它必须小于阳性对照药与安慰剂比较时的效应差值(如果已知,可取去1/3或1/2)。界值的确定需要由主要研究者从临床意义上和统计学专业人员才统计学意义上共同商定,而不是单独依赖于主要研究者或统计学专业人员。优效性试验和非劣效性试验仅用一个界值,用0表示;而等效性试验要用劣侧和优侧两个界值,分别用 01和02表示,理论上两侧界值可以取不等距,但实际上有一般取等距。界值确定必须在实验设计阶段完成,并在试验方案中阐明,如有修订,必须在揭盲之前进行并阐述理由,一旦揭盲,不得修改。这一点很重要,若不遵守,则很容易陷入“数字游戏”的危险。根据既往经验,对有些临床定量指标具有专业意义上的变化量,血压实验组血压对照组可根据粗略的界值参考标准,例如血压可取为0.67kPa(5mmHg),胆固醇可取为0.52mmol/L(20mg/dl),白细胞可取为0.5x109/L(500个/mm3)。非劣效性/等效性试验经常是对变化量间的比较,相应的界值(指变化量之间的差值)应更小血压变化值实验组血压变化值对照值,例如血压变化值的等效界值可取为0.4kPa(3mmHg),胆固醇变化值的等效界值可取为0.26mmol/L(10mg/dl),白细胞变化值的等效界值可取为0.2x109/L(200个/mm3)。当难以确定时,可酌取1/51/2个标准差或参比组均数的1/101/5等。变化值的标准差和变化值的标准误?还是指标的标准差、标准误? 对两组率而言,建议取15%以下的值,通常最大不超过对照组样本率的1/5。当然,界值也不能过小。例12-1 为了显示一种新药血管紧张素拮抗剂(A)治疗轻中度原发性高血压的降压效果不差于标准药血管紧张素转换酶抑制剂(ACE),主要终点指标用仰卧舒张压()的下降幅度,变化量 应如何考虑制定非劣性界值的问题?资料表明,既往ACE与安慰剂的对照试验显示最小的药物效应差值为1.34kPa(10mmHg),基于临床考虑,认为用0=0.40kPa(约为的1/3)作为非劣效性试验的界值是合理的有文献表明不可取,即只要A的平均降压不比ACE的平均降压值小0.40kPa或更多,则可认为A与ACE相比为非劣效。当然,若适当放宽控制非劣效的标准时, 0的取值可稍微大些,例如0=0.670kpa(约为的1/2)。2. 、型错误概率 型错误概率用表示,指事实为劣效/不等效时拒绝了劣效/不等效的概率;型错误概率用表示,指当事实为非劣效/等效是接受了劣效/不等效的概率。检验功效power=1。一般准则是,取0.05或0.10,取0.05、0.10或0.20。新药注册研究中,取0.05或0.10,取0.20或0.10可被认可。3. 变异度 反映两组总的变异程度,一般用方差(或标准差)表示。两组定量指标均数比较,其方差可通过两组样本方差估计,或用标准治疗组方差,或以既往研究结果作为估计值。两组率指标比较其方差可通过两组样本率估计,或根据既往知识取值;若难以获知事先信息。可用50%作为总体率,估算最大样本含量。4. 终点指标类型及效应测量 最常见的终点指标和二分类指标。从非劣效性/等效性对比判定考虑,还需考虑效应指标差值或比值的选择问题,一般使用差值。对两组比较以表示两组总体参数或比值。在实际进行非劣效性/等效性设计时往往不能获知的大小,通常令=0 (两组为差值时)或=1(两组为比值时)。5.比较类型 设计非劣性试验是为了显示试验治疗按照一个事先制定的界值0不差于标准治疗,该类型试验关心的问题是单侧的,但对试验治疗可能优于的程度未加限制。而等效性试验关心的问题则是双侧的,希望阐明两种治疗的效应在两个方向上差别不大,即分别按照 界值01和02揭示出试验治疗既不比标准治疗差,也不优于标准治疗。从假设检验的角度考虑,双侧等效性不同于大家熟知的通常意义上的双侧检验情形(图12-2a)。后者涉及的无效假设是取单个数值0,备选假设取两个方向上的不同于0的任何值,因此其备选假设是“双侧”的。然而,在双侧等效性情况下(图12-2b),无效假设(01或02)是双侧的。这种比较类型的不同将体现在样本含量估计中。6. 两组的例数分配比例 两组比较去相等的样本含量时总样本含量最少,且可在同等总样本含量下达到最高的统计效能,当然,实际工作中也可按需要进行两组不等的样本含量估算。试验中有时尚需结合具体情况进行适当调整,例如考虑最多的是依从性和失访问题。(1)依从性(compliance) 临床试验的困难之一就是患者不遵从指定的治疗。从保守的角度考虑,假定不依从的患者没有从治疗中收益,则样本含量调整计算式为: 式中,pm: 不依从的比例,表12-2列举了不同的不依从比例的调整因子大小。表12-2 不同的依从比例下的调整因子大小不依从比例 0.05 0.10 0.20 0.30 0.50调整因子=1/(1)2 1.11 1.23 1.56 2.04 4.00(2) 失访(loss to follow-up) 泛指分析时未能获得终点结果。假定失访率为l, 则样本含量调整公式为:它假定所有患者的失访都发生在随机化时(?),可见该结果偏于保守。 (二) 非劣效性/等效性试验样本含量的估计方法非劣效性试验两组总样本含量计算通用公式为式中,N:两组总样本含量;:方差;,:对应于和的标准正态离差;k和(k1):各组在总样本中所占的比例;:对照组减试验组的总体真实差值;0:临床上可以接受的界值。对非劣效性/等效性试验,常设定=0。方差须事先给定。对于率指标,若两组总体率相同且已知为,则=(1);若两组总体率不同,则可取两总体率的平均数。实际应用中常难以获得总体信息,可以预实验结果代替。设T代表试验组,P代表阳性对照组,根据预实验结果对方差进行估计,定量指标和二分类率指标的计算公式分别为式中,:为两组预实验样本的合并率,。对等效性试验,假定两端界值等距,即02=01=0,计算总体样本含量将单侧替换为双侧即可。例12-2 例12-3由上例计算结果不难理解,若试验目的主要在于确认新药不比标准药差。而不关心新药是否比标准药好,采用非劣效性试验更节省样本含量。二、 非劣效性/等效性试验中的统计推断(一) 判定非劣效性/等效性的假设检验方法我们平时所做的觉得多数假设检验其零假设为两总体参数相等,其统计推断往往仅限于两者的差别是否有统计学意义。若P, 意味着统计上“不能拒绝零假设”,但并非说明零假设成立,更没有理由说两组相等;若P,虽然可“拒绝零假设”,但也只能推断两者在统计上有差别,而不能评价差别的大小。为能对非劣效性/等效性进行推断,需要建立有别于传统的检验假设,并据此进行统计推断。 1. 检验假设的构建 无效假设和备选假设分别用H0和Ha表示。以作为总的检验水准。设T为试验组参数,P为阳性对照组参数,表12-3列举几种不同情形的检验假设。(此时不能在称无效假设为零假设了)表12-3 不同试验类型的检验假设 试验类型 无效假设 备选假设 检验水准非劣效性试验 H0:TP 0 Ha:TP 等效性试验 H01:TP 0 Ha1:TP0 2 H02:TP 0 Ha2:TP 0 2统计优效性试验 H0:TP 0 Ha:TP 0 临床优效性试验 H0:TP 0 Ha:TP 0 假设检验的意义:非劣效试验 H0:试验药劣于对照药,其差值大于或等于0 Ha:试验药非劣于对照药等效性试验 H01:试验药劣于对照药,其差值大于或等于0 Ha1:试验药非劣于对照药 H02:试验药优于对照药,其差值大于或等于0 Ha2:试验药非优于对照药优效性试验 H0:两药疗效相等或试验药劣于对照药,其差值大于 或等于0或者0 Ha:试验药优于对照药2. 检验统计量和推断结论(1) 非劣效性试验 由非劣效性试验的检验假设可见只需进行一次单侧检验即可做出推断结论。若P,则拒绝H0,可推论T非劣效于P;若P,则还不能下非劣效的结论。这里的含义是,当T比P疗效差,其效应值实际上超过0时,错误地下T非劣效于P的结论的概率。1) 定量指标 均数的非劣效性检验用单侧t检验,统计量计算 自由度?式中,:两组均数差值的标准误。2) 率指标 率的非劣效性检验用单侧检验,统计量计算式中,:两组率差值的标准误(2) 等效性试验 对等效性的推断需要采用双向单侧检验,即在两个方向上同时进行两次单侧检验(two one-sided tests)。若 P1/2和P2/2同时成立(注意每次检验的水准用总的检验水准的一半),要求总的检验水准为,即要求检验假设允许的型错误概率总的为,这样解释对不对?Vs.析因分析和重复测量资料的方差分析 则两个无效假设均被拒绝,前者推论T不比P差,后者推论T不比P好,因此综合的推断是T和P具有等效性;若和中任何一个大于/2,则不可下等效的结论。这里含义是,当T与P的疗效差值实际超过0(包括比0还小比-0还小的比0还大两种情况)时,错误的下T和P等效结论的概率。1)定量指标: 均数的等效性检验需进行两次单侧t检验,一次是对劣方向上的检验,另一次是对优方向上的检验,其统计量计算公式分别为: 自由度?2) 率指标: 率的等效性检验用两次单侧u检验,统计量计算公式分别为:(3) 优效性试验 优效性试验有两种不同的情形:一种是从统计学角度考虑的优效性,其假设为零假设,用单侧检验。如果能拒绝无效假设,可下统计学意义上优效的结论。当然这种优效性较弱,有事可看作是边缘优效性。其统计量计算公式为: 另一种是从临床意义上提出的优出一定量的优效性。此时若拒绝无效假设,可下临床优效性的结论,一般认为疗效的确认应基于临床意义。其统计量计算公式为: (二) 判定非劣效性/等效性的可信区间方法可信区间方法亦可用于非劣效性/等效性的判定,该方法通过构建有关参数差别的可信区间(confidence interval CI)作为评价的决策准则。假定总的可信度取100(1-)%,以表示可信区间的下限,以表示可信区间的上限。1. 非劣效性试验 按单侧100(1-)%的可信度,计算出TP的可信区间的下限,若,完全在0,的范围内,或者0,可下非劣效性的结论。 (1) 定量指标 计算两组均数差值可信区间下限的公式为:式中,:自由度为,检验水准为时的单侧t分布界值。 (2) 计算两组率差值可信区间下限的公式为:式中,:检验水准为时的单侧正态分布离差界值。2. 等效性试验 按双侧单侧100(1-)%的可信度,计算出TP的可信区间的下限和上限,若,完全在0,0范围内,或者 ,可下等效性结论。 (1) 定量指标 计算两组均属差值可信区间下限和上限的公式分别为:式中,: 自由度为,检验水准为时的双侧t分布界值。 (2) 率指标 计算两组率差值可信区间下限和上限的公式分别为:式中,: 检验水准为时的双侧正态分布离差界值。3. 优效性试验 按按单侧100(1-)%的可信度,计算出TP的可信区间的下限,若,不包括0,或0,可下统计学优效性结论;若,完全超出(,0)范围,或者0,可下临床优效性结论。三、有关非劣效性/等效性临床试验的进一步说明1. 等效与非劣效的概念界定 有关“临床等效性”的概念在非劣效性和等效性之间仍有混淆,似乎只要试验药不比阳性药差都笼统的称为等效。但严格地讲,等效性和非劣效性是有区别的,正如生物利用度的等效性一样,新药比参照药不能低太多,也不能高太多,低了达不到参照药的效果,高了可能有更多的毒性。临床疗效上要求“等效”似无必要,因为实际上只要关心试验药不比标准对照药差就行,至于在另一个方向上的好与不好则无所谓(如果确实关心试验药是否更好,可按优效性实验设计)。因此,用阳性对照的临床试验最好统一归属为非劣效性试验。当然,若按等效性实验设计也未尝不可。2. 统计学推断的选择 等效性或非劣效性的统计学推断更倾向于使用可信区间法。等效性推断采用双侧可信区间,当可信区间完全落在等效性界值内,则推断为非劣效。若使用假设检验方法时,等效性试验采用双向单侧检验,实际上是进行两侧单侧检验,而非劣效性试验(和优效性试验)则采用单侧检验一次完成推断。3. 非劣效性、优效性的转换 实际工作中如果非劣效性证据很强,则可预先在临床研究方案和统计分析计划中作出规定,即当非劣效性试验的无效假设被拒绝,可以推断试验药比对照药具非劣效性时,还可进一步检验试验药是否还优效于阳性对照药。4. 疗效确认的条件 这是一个必须重视的问题。随机双盲、安慰剂对照的临床试验一直被奉为确认药物疗效的金标准,如果试验药能显示出比安慰剂具有临床优效性(superiority)的足够证据,则可以确认其有效性。然而,如果研究的疾病危重,或已有当前公认有效地药物时,仍实施安慰剂对照临床试验,会面临医学伦理学和依从性的问题。如果选择阳性药物为对照,试验设计最关键的问题是:该试验是用于证明两种药物之间的差异,还是证明两种药物的非劣效性(non-inferiority)或等效性(equivalence)。这种变化同时要求统计设计和分析方法的改进。对非劣效性或等效性疗效的确认则需要满足其他条件。在几种不同目的的临床对照试验中,疗效的确认应具备: 以安慰剂为对照的试验应显示出高于临床认定疗效的界值。从而判断其优效性;属于统计优效还是临床有效?为什么和安慰剂比较?想达到什么效果? 以阳性药为对照的试验如果显示出试验药比对照药高于临床上认定的疗效界值,从而判断其优效性; 以阳性药为对照的试验如果显示出试验药在一定的临床界值下不差于阳性药,同时又有证据反映试验药和阳性药均从临床意义上优于安慰剂,可确认其非劣效性; 以阳性药为对照的试验如果显示出试验药在一定的临床界值下不差于阳性药,且有证据反映试验药和阳性药均从临床意义上优于安慰剂,同时试验药在一定的临床界值下又不优于阳性药,可确认其等效性。可见,对于没有同期设立安慰剂对照的阳性对照试验,不仅无法直接确认阳性对照药物在当前试验条件下的有效性,也无法直接确认试验药物的疗效。实际问题研究中之所以采纳两组平行阳性对照实验设计,是因为通常隐含的假定是在现有的试验条件下,阳性对照的治疗效应时客观存在的。? 但事实上,因为非同期研究中的患者样本可能代表不同的患者群体,阳性对照效应在目前的人群也许不存在,虽然有一定效应也可能与原来的效应不同。也就是说,即使非劣效性试验得出试验药非劣效于阳性对照的结论,理论上仍有肯会出现试验药疗效比安慰剂还差的极端结果。所以,阳性对照试验仍存在一些难以直接通过试验本身进行验证的问题。当然,如果现在的阳性对照试验在设计、患者群体特征和治疗环境等方面尽可能地同以往的研究相似,且质量控制好,则可以保持阳性对照检测的灵敏性,该设计仍被认为时合理的,可以用来简接地确认试验药物的疗效。如果没有足够的证据表明满足上述条件,则不能采用阳性对照实验设计。一种最佳的实验设计,也许应该再同时设立一个安慰剂对照组(称为三手试验)?。无疑,伦理问题、试验成本增加等因素又限制了这种试验的实施。-