《真实性与偏倚 .ppt》由会员分享,可在线阅读,更多相关《真实性与偏倚 .ppt(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 研究结果的真实性与偏倚 主要内容主要内容研究结果的变异性研究结果的变异性研究的偏倚研究的偏倚研究的真实性研究的真实性引言研究结果的解说涉及到研究的真实性与因果推断的问题。研究结果的真实性直接关系到是否获得正确的结论,而真实性需要通过变异性估计来确定对于因果关系的研究,从研究结果如何做出正确的因果推断,也是非常重要的研究结果的变异性表表1 变异性的水平变异性的水平变异性 描述性和分析性数据(指标)的变动或波动 一 个体水平的变异性 定义 某个体特征测得值的变化,可以是个体真值随时间的改变,也可以是由于测量误差引起的变化来源 个体状态 测量误差表表2 个体水平的变异来源个体水平的变异来源 二 群
2、体水平的变异性来源 个体间遗传变异 环境变异 测量误差 特点 变异程度常常大于个体的变异 也受到测量误差的影响 可确定“正常值”范围三 样本水平的变异性定义 不同样本的研究所得结果的差异性来源 抽样方式 样本大小 测量误差分类 描述性结果的样本变异性(图1)分析性结果的样本变异性(图2)通过不同样本研究所得结果的差异性 为什么高水平的血清总胆固醇是不利的或不健康的?这可以在关于血清总胆固醇与心血管死亡风险呈正相关的研究中找到答案。如Framingham心脏研究。样本水平的变异性样本水平的变异性180,174,215,305233,276,146,195205,188,190,295170,16
3、4,248,162220,219,228,250295,146,220,162,228219,164,190,188,233305,276,195,215,170源群体 样本A 样本B 样本C 高胆固醇率=40%=20%=0%高胆固醇率=25%(240mg/dL)图1 源群体与样本高胆固醇率的样本变异性示例 源群体高胆固醇率为25%,样本A为40%,样本B为20%,样本C为0%。如果增大样本含量,样本的变异性会减少,样本的高胆固醇率对群体的代表性会增大 图图2 2 膳食与药物预防心机梗死的样本变异性示例膳食与药物预防心机梗死的样本变异性示例n图2,研究A和研究B中膳食改良组五年内发生心梗死的风
4、险为9%,降胆固醇药物组为6%nA样本较小(200人),两组效应指标(心肌梗死风险)的95%可信限较大,从而发生重叠,统计检验无显著性差异n研究B样本较大(2000人),两组效应指标的95%可信限较小,从而未发生重叠,统计检验有显著性差异n一般而言,研究样本越大,效应估计值的抽样误差越小(95%可信限越小),统计检验能发现的两组间效应差值越小 误差定义 指对事物某一特征的度量值偏离真实值的部分,即测定值与真实值之差分类 随机误差 系统误差(偏倚)n举例:用动脉血压计测量某人血压(实际值为80mmHg),各次读数的均值为100mmHg,系统误差和随机误差可用以下图示随机误差随机误差80100舒张
5、压舒张压(mmHg)系统误差系统误差发发生生频频次次图图3 血压计法测量舒张压值的分布血压计法测量舒张压值的分布随机误差广义 因机遇不同估计总体参数时所产生的误差,如选择的机遇、时间的机遇狭义 随机抽样所得均值对总体均值的误差特点 没有固定方向和固定大小 一般呈正态分布误差误差随机误差2系统误差2 1946年,Berkson做最著名的偏倚研究并给予证实,又称为Berkson偏倚。1976年,Miettinen详细讨论了偏倚的定义,并给出分类框架,分三类 选择偏倚 信息偏倚 混杂偏倚 偏倚 定义 属于系统误差,在研究或推论过程中所获得的结果系统地偏离其真实值特点 具有单方向性 可高于真值,也可低
6、于真值分类 选择偏倚、信息偏倚、混杂偏倚一一 选择偏倚 (selection bias)研究者在挑选研究人群时由于选择条件受限制或设计失误所致的系统误差常见种类控制方法 描述性研究的选择偏倚 主要体现主要体现在样本对总体的代表性上 如不是采用随机抽样而是使用方便样本,或某些特定群体(志愿者、因特网利用者等)造成的外部效度(外推)受限问题。控制方法控制方法 尽量采用随机抽样,避免样本选取的偏向对特定群体的结果在外推上要谨慎等 分析性研究的选择偏倚 主主要要体体现现 研究对象进入、排除、不参与或失访等与研究暴露或处理因素存在关联,由此增大或减少暴露与疾病、处理与效应的关联,导致效应估计的偏倚。控制
7、方法控制方法分析研究对象的选取是否同暴露或处理因素有关常见选择偏倚 入院偏倚 失访偏倚 志愿者偏倚 确定有无选择偏倚的关键 把握选取环节或已入选对象,是否存在人为增大或减少研究因素与结局的关联程度 控制方法 严密掌握对象选取的各个环节,注意选取对象的代表性,增加应答和减少失访等选择偏倚的控制随机选择研究对象;选择多种对照;明确规定纳入和排除标准;选择依从性高的对象,掌握调查技巧;延长收集病例的时间;尽量采用敏感的疾病早期检查技术,或者开展观察期较长的纵向调查;二 信息偏倚(information bias)在收集和整理有关暴露或疾病资料时所出现的系统误差,主要发生在观察、收集资料及测量等实施阶
8、段。信息偏倚同样影响描述性研究和分析性研究的结果。无差异性错误分类和差异性错误分类表无差异性错误分类无差异性错误分类差异性错误分类差异性错误分类错误分类数据错误分类数据错误分类数据错误分类数据研究真实数据研究真实数据研究真实数据研究真实数据信息偏倚常见的种类信息偏倚常见的种类n不应答偏倚不应答偏倚n回忆偏倚回忆偏倚n报告偏倚报告偏倚(说谎偏倚说谎偏倚)n社会期望偏倚社会期望偏倚n诊断怀疑偏倚诊断怀疑偏倚n暴露怀疑偏倚暴露怀疑偏倚n测量偏倚测量偏倚来自于被调查者来自于调查者来自于测量仪器差异性信息偏倚的常见类型 控制方法v明确资料收集方法和严格质量控制v尽可能采用盲法v采用客观指标的信息v采用调
9、查技巧避免回忆偏倚v资料校正三 混杂偏倚 暴露因素与疾病发生的相关(关联)程度受到其他因素的歪曲或干扰 判定方法 v专业知识v分层分析进行定量判别 继发关联(secondary association)定义 是一种纯粹由混杂偏倚产生的关联 即怀疑的病因(暴露)E与疾病D并不存在因果关系,而是由于两者(E,D)有共同的原因C,E,D同C存在关联,从而继发产生E与D的关联。C?DE例如 高血清胆固醇是冠心病的危险因素,高血清胆固醇可产生沉积于眼睑的黄色瘤,从而导致黄色瘤与冠心病的继发关联。另外,E与C也可以由于相关(因果方向不明)而产生继发关联。例如 吸烟是胰腺癌的危险因素,吸烟又与喝咖啡存在相关
10、(没有确定的时间先后),从而造成喝咖啡与胰腺癌的继发关联。直接因果关联的歪曲 如果怀疑病因E与疾病D既存在直接关联,又存在间接关联(图A)或与其他危险(保护)因素F存在相关(图B),暴露E与疾病D的直接因果关联程度或方向将可能受到混杂干扰,即得到歪曲的关联估计值。F FD DEF FD DE?图A图B 例如 静脉吸毒E与性乱F都是HIV感染D的危险因素,吸毒者易发生多性伴行为,即吸毒同HIV感染既存在直接关联(ED)又存在间接关联(EFD),吸毒与多性伴没有确定的时间先后而呈双向相关,多性伴F将对吸毒E与HIV感染D的直接因果关联起混杂或歪曲作用。混杂偏倚混杂偏倚混杂偏倚混杂偏倚 调控方法v分
11、层分析分层分析v多变量分析多变量分析v配比配比v随机化分配随机化分配v限制进入限制进入真实性(validity)定义 研究收集的数据、分析结果和所得结论与客观实际的符合程度两个方面 内部真实性 外部真实性 真实性的反面(研究误差)概念 研究结果与客观实际存在不符合的地方分类 系统误差 随机误差一一 内部真实性(内部真实性(internal validityinternal validity)v定义 研究结果与实际研究对象真实情况的符合程度,回答一个研究本身是否真实或有效v改善措施 限制研究对象类型 限定研究的环境条件 限定干预措施二 外部真实性(external validity)研究结果与推论对象真实情况的符合程度,又称普遍性,回答一个研究能否推广应用到研究对象以外的人群推论代表性不好,内部真实性可能好,而外部真实性差增加研究对象的同质性(如限制类型如年龄、职业、体质特征或疾病分型等),可改善内部真实性增加研究对象的异质性,可改善外部真实性内部真实性与外部真实性的联系内部真实性与外部真实性的联系 在实际研究时,需要综合平衡考虑在实际研究时,需要综合平衡考虑 研究对象的同质性和异质性问题研究对象的同质性和异质性问题
限制150内