《医学统计课程理论复习.ppt》由会员分享,可在线阅读,更多相关《医学统计课程理论复习.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学统计课程理论复习 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望 一 基本概念 统计学是研究怎样去有效地收集,整理和分析带有随机性的数据,以对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议的科学。(P1,L1)医学统计学的主要内容有统计研究设计,统计描述,统计推断,因素间的关系、分类和检测等研究。(P1,L10)统计研究设计主要有两类:调查研究设计和实验研究设计。(P1,L14)调查研究又称观察性研究,只能就研究对象作被动观察,而不能对观
2、察对象添加干预。实验研究是将实验对象随机分配到两种或多种处理组,观察比较不同处理的结果,它能人为设置处理因素或水平,受试对象接受何种处理因素或水平是由随机分配而定的。统计描述指用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述,不涉及由样本推断总体问题。(P1,-L1)统计推断指用样本推断总体。(P2,L3)一个统计问题所研究的对象的全体称为总体。按随机的方式从总体中抽取若干个体构成一个样本。用于描述总体分布的数字特征的量称为参数,例如总体均数、总体标准差、总体率、总体回归系数、总体相关系数等都是总体的参数,总体参数一般是未知的。(P2,L7)不包含总体中任何未知参数
3、的样本指标和样本数据的函数称为统计量,例如样本均数、样本标准差S、样本率P、样本回归系数b、样本相关系数r等都是统计量。统计推断可以分为二个部分:参数估计和假设检验。(P2,L12)参数估计就是根据总体中所抽得的样本,由样本统计量估计总体分布中的未知参数。可分为点估计和区间估计。选择一个适当的样本统计量作为总体参数的估计值称为点估计。根据一定的正确度和精确度要求确定一个概率水平,由样本统计量计算出一个适当的区间作为未知总体参数真值所在的范围,称为区间估计。称此概率水平为可信度或置信度,也可称为可信水平,或置信水平。所估计的区间称为可信区间或置信区间,区间的端点称为可信限。(P2,L16)可信区
4、间的大小与样本含量及可信度的大小有关,一般地说,随着可信度的加大,可信区间也加大,随着样本含量的加大,可信区间缩小。(P2,-L7)假设检验又称显著性检验,先对总体的参数或分布作出某种假设,假设有两种(1)检验假设用H0表示,(2)对立假设或备择假设用H1表示,H0与H1是相互联系、相互对立的假设。然后选择适当的样本统计量,进行统计推断,究竟是拒绝H0,还是不拒绝H0。其基本步骤为:(1)建立H0,H1。(2)选择合适的统计检验方法,计算统计量。(3)根据检验统计量的分布,计算概率P值,或者根据其临界值表,决定P的大小。(P2,L4)P值是H0成立的情况下,由于抽样误差得到的样本之差异大于等于
5、计算出的统计量的概率。如果P0.05,结论为差异无统计学意义;如果P0.05,结论为差异在=0.05水平上有统计学意义。如果P0.01,结论为差异在=0.01水平上有统计学意义。单侧检验和双侧检验与假设检验的目的有关。当H0:1=2,H1:12时,就是双侧检验;当H0:1=2,H1:12或H1:12时,就是单侧检验。(P4,L19)其主要区别在备择假设H1上面。如果H1:12时就用到二侧(即12,或21);如果12就只用到一侧。如t值表中由于 t分布左右对称,双侧的概率P就是单侧概率P之二倍,单侧概率P较小,故易于产生拒绝H0之统计推断。因而单侧检验如果误认为是双侧的,就不易拒绝H0;而双侧检
6、验如误用单侧就较易拒绝H0了。必须根据实际问题本身决定使用单侧还是双侧,决不能因为单侧易于拒绝H0就盲目选用。通常进行的都为双侧检验;进行单侧检验时必须特别说明,要有充分的理由,并且在实验设计阶段就要预先规定好。(P4,-L5)由假设检验作出统计推断时,不论是拒绝H0,还是不拒绝H0,都有可能发生误差(或称错误),根据所犯误差的性质,可以区分为第一类误差(用表示)和第二类误差(用表示)。(P4,-L1)当拒绝了实际上成立的H0时,称为犯第一类误差,不拒绝实际上不成立的H0时,称为犯第二类误差。用假设检验作统计推断时,第一类误差常是已知的,常常未知,1-又称为检验的效能,即当H0实际上不成立时假
7、设检验拒绝H0的概率。当1-很大时,表明该统计检验效能很高。实际应用中需根据专业知识、检验的目的和犯二类误差的代价大小决定,之取值。例如用某方法进行疾病普查时,为确保少漏掉病人,故应很小。在资料一经确定后,缩小的代价必将扩大,反之亦然,要同时降低,值的唯一办法是加大样本。(P4,L9)资料一般可分成三大类,即计量资料、计数资料和等级资料。(P3,L22)(1)计量资料又称测量资料,它是测量每个观察单位某项指标值的大小所得的资料。(2)计数资料,将观察单位按某种属性或类别分组计数,得到各类别观察单位计数的资料,称为计数资料。(3)等级资料又称为半定量资料,它是将观察单位按某种属性的不同程度分组计
8、算所得出的各个不同程度的观察单位计数的资料。不同的资料类型,其统计指标、统计检验的方法是不相同的。(P4,L1)计量资料的统计指标为均数,标准差等,统计检验方法为t检验,方差分析等;当不符合条件时用为非参数统计分析法。计数资料的统计指标为率,构成比等,统计检验方法为2检验;等级资料的统计指标也为率,构成比等,统计检验方法为非参数统计分析法。二二.计量资料的统计指标计量资料的统计指标 正态分布资料的平均水平和离散程度常用均数和标准差表示。非正态分布资料的平均水平和离散程度常用中位数和四分位数间距表示。(P43,L2)几何均数适用于成倍数关系的资料,如抗体滴度、效价等,也用于对数正态分布的资料如某
9、些传染病的潜伏期等。(P39,L19)百分位数主要用于描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25,P50,P75,P95,可以描述总体或样本的分布特征,如集中位置、变异度等。百分位数还可用以确定医学正常值范围。(P41,L4)变异系数无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。(P42,L16)统计量的标准误描述样本统计量抽样误差,标准误小,表示抽样误差小,统计量较稳定,与参数较接近。(P49,L6)三三.t.t检验检验要检验总体均数是否为某值:用样本均数与总体均数比较的t检验。配对资料的两组比较
10、,或处理前后的比较:用配对t检验。按完全随机化设计的两个样本均数的比较:用团体t检验。t t检验条件检验条件 样本均数与总体均数比较的t检验要求样本来自正态分布的总体。配对t检验要求差值d来自正态分布的总体。团体t检验要求两个样本都来自正态分布并具有相同的方差。如不符合要求可作变量置换或用非参数统计分析方法。小样本团体t检验如方差不齐时可用t检验。四四.方差分析方差分析 方差分析主要用于检验计量资料中两个或两个以上均数间差别显著性的方法。要求各样本都来自正态总体,且有一个相同的方差2,仅仅均数可以不相同;还需假定每一个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特
11、定的含义,称之谓效应的可加性。(P60,L4)方差分析法的基本思想为:根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分为相应的各个部分,各部分的离均差平方和除以相应自由度得出各个均方,然后列出方差分析表算出F值,作出统计推断。分解越细致,各部分含义就越明确。效率也越高。(P60,L9)若发现方差不齐性时,先从实验本身检查,能否找到可能的解释,如果找不到适当的理由,可考虑作变量置换。(P61,-L9)对于服从对数正态分布的资料可用对数变换,即将主要变量取对数值后再作方差分析;对于服从泊松分布的资料可用平方根变换;对于表达成百分数的资料可用平方根反正
12、弦变换。如果变量置换也无法克服方差不齐性,或者变量置换方法在实验中无法得到合理的解释时,可使用非参数统计分析方法。单因素方差分析用于按完全随机化设计资料的样本均数的比较。随机单位组设计方差分析用于比较某因素各水平的样本均数,同时控制另一个分类因素的作用。拉丁方设计方差分析用于比较某因素各水平的样本均数,同时控制另二个分类因素的作用。析因设计方差分析是一种多因素的设计;能检验每个因素各水平均数间的差异,也能检验因素间的交互影响。协方差分析是将方差分析和回归分析结合起来的一种统计分析方法,它利用回归分析方法扣除协变量的影响,再对修正的Y均值作方差分析。用于校正计量指标的方差分析。(P96,L6)该
13、方法需满足下述假定:(1)各样本来自具有相同方差2的正态分布总体,即要求各组方差齐性。(2)协变量与主要变量Y间的总体回归系数不等于0。(3)各组的回归线平行,即回归系数 1=2=。五五.直线相关与回归直线相关与回归 在医学研究中常常要分析两个变量间的关系,两变量间如果存在一定的因果关系,则常可将一个变量看作自变量,而另一个变量则看作为应变量,然后以一个直线方程将两者联系起来,利用这方程可以由自变量的值来估计应变量的值,这种方程称为直线回归方程,研究这类问题的方法称为回归分析。如果两变量间虽有一定的关系存在,但不是因果关系,此时就只能进行相关分析,这种关系就称为相关。(P107,L1)相关分析
14、只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。(P109,L13)两变量间如果存在回归关系,则它们之间也必然是相关的。H0:=0,H1:0,与 H0:=0,H1:0,是完全一致的。所以通常作直线回归分析时,只须利用计算器直接求得b,a和r后,再查r界值表判定r的显著性后,即可得知回归方程是否有显著意义,不必另行检验。(P112,L7)六六.多元回归及相关多元回归及相关 偏回归系数bi的意义是指当其他的作用都被固定时,Xi改变一个单位时Y平均改变的bi个单位。(P124,L
15、5)标准偏回归系数可用于比较各自变量对Y的作用大小。(P128,L7)复相关系数,用R表示,它是Y与Y的估计值之间的简单相关系数,也可理解为Y与自变量组合之间的相关系数。(P129,-L3)R2称为多元回归方程的决定系数,表示Y的变异中可由方程中的自变量组合所决定的部分占多少;R2越接近1,说明回归方程的效果越好,即Y的变异中可由方程中的自变量组合所决定的部分越多;R2越接近0,说明回归方程的效果越差,即Y的变异中只有很少一部分能由方程中的自变量组合所决定,即使该方程有显著意义,也不能认为该方程的效果可以令人满意,启示我们还应进一步寻找其他对Y可能有显著作用的变量或变量组合。(P129,-L2
16、)七七.逐步回归及最优子集回归逐步回归及最优子集回归 逐步回归得到的“最优”回归方程仅保证方程内自变量都显著而方程外自变量都不显著;并不能保证得到校正R2最大,或CP统计量最小,或剩余标准差最小的回归方程。(P139,L2)最优子集回归中常用的最优准则有以下三种:1.相关指数R2最大。本法不宜用于不同自变量数的方程之间的比较,常用于比较相同自变量数的方程之间哪个为最优。2.校正R2最大 3.CP统计量最小 校正R2和CP统计量使用方程内的自变量数进行了校正,因此可用于不同自变量数方程之间比较。(P141,L9)最优子集回归不能保证方程内自变量都显著而方程外自变量都不显著。考察两指标间有无关系1
17、.两指标均为正态计量指标用相关系数。2.两指标为非正态计量指标用秩相关系数。3.两指标均为等级指标用秩相关系数。4.两指标为计数指标用列联系数,卡方检验。5.一个为等级指标,另一个为计量指标用秩相关系数,或者用方差分析。6.一个为计数指标,另一个为计量指标用 t 检验或者方差分析。八八.计数资料的统计分析计数资料的统计分析 计数资料的描述性统计指标主要是:率和构成比。(P177,L11)率说明某种现象发生的频率或强度。(P177,L17)构成比表示事物或现象内部各构成部分的比重,通常以100作为比例基数,故常称为百分比。(P178,L2)构成比和率是两个不同的相对数,不能混淆。四格表和2K表卡
18、方检验用于两个或多个率差异的比较。行列表卡方检验用于两个或多个构成比差异的显著性检验以及两种属性间独立性检验。四格表卡方检验四格表卡方检验 当总例数大于等于40,各理论频数大于等于5,不须校正。当总例数大于等于40,有一格理论频数小于5,但大于等于1,用卡方校正公式。当总例数小于40,或有一格理论频数小于1,不能用卡方检验,必须用确切概率计算。常用Fishers确切概率计算。(P184,L12)行行列表卡方检验列表卡方检验 如果1/5以上格子的理论频数小于5,或有1格理论频数小于1,则卡方检验不是一个有效的检验。解决方法:(1)增加例数。(2)合并相邻的行或列(合并要合理)。(3)用确切概率计
19、算。九九.非参数统计非参数统计 (1)用于不满足参数检验方法的计量资料。(2)等级资料。(3)不能测量具体数值,其观测结果往往只有程度上的区别,如颜色深浅,凝集反应的强弱等。(4)有不能测量的很大或很小的值。(P208)符号秩和检验用于配对资料,相当于配对t检验。Willcoxon秩和检验,适用于未配对两样本检验。相当于团体t检验。Kruskal Wallis 检验(K-W检验)。适用于多样本检验。相当于单因素方差分析。秩相关(rank correlation)又称等级相关,它是一种分析x,y两个变量的等级间是否相关的方法。适用于某些不能准确地测量指标值而只能以严重程度,名次先后,反应大小等定
20、出等级的资料,也适用于某些不呈正态分布或难于判断分布类型的资料。九九.正常值范围正常值范围 正常值范围的主要用途:(1)划分正常与异常的界限,用作为诊断指标(2)反映某人群的某项指标的动态变化。(P249,L7)保证研究对象同质性的常用方法:(1)分组。如按地区、民族、性别、年龄等分组。(2)严格体检。按具体要求排除特殊对象,如:妊娠 、短期内曾服某药,有某病或其它病史者。(3)调查不同季节、不同时间的正常人,确定常年 适用的正常值范围。(4)限定试验条件,如规定晨起空腹等。(5)使用合适的统计方法校正某相关因素的影响。正常值范围并非指所有正常人都在这个范围内,而是指绝大多数正常人的观察值都在
21、此范围内,有80%、90%、95%、99%等,其中最常用的是95%。为了鉴别诊断或选定科研病例,其主要目的是减少误诊,可取95%或99%,普查时,其主要目的是减少漏诊,可取80%或90%。估计正常值范围的统计方法:估计正常值范围的统计方法:正态分布法用于服从正态分布资料。对数正态分布法用于对数正态分布资料。当测定的例数较多,不论总体如何,都可用百分位数法估计正常值范围。当非正态分布时,必须用百分位数法估计正常值范围。用百分位数法估计正常值范围时,要求例数较多,起码100例以上。十.危险度分析和危险度分析和LogisticLogistic回归回归 相对危险度是人群中暴露于某因素者的发病率P1与不
22、暴露于某因素者的发病率P0之比值。(P315,L3)RR1时,表示该因素为危险因素,使发病危险度增大;RR0表示该协变量是危险因素,越大使生存时间越短 I 0表示该协变量是保护因素,越大使生存时间越长 h0(t)为基础风险函数,它是全部协变量X1,X2,Xm都为0或标准状态下的风险函数,一般是未知的。h(t,x)表示当各协变量值X固定时的风险函数,它和h0(t)成比例,所以该模型又称为比例风险模型。COX回归的应用:(和LOGISTIC回归相似)(1)因素分析(偏回归系数显著性检验)(2)求各因素在排除其它因素的影响后,对于 死亡的相对危险度(或比数比)(3)比较各因素对于生存期长短的相对重要
23、性 (比较各标准化偏回归系数)(4)考察因素之间的交互作用-指标 偏回归系数 P值 标准偏回归系数-X1 -0.7169 0.0469 0.488 X2 -1.0077 0.0068 0.365 X3 0.3585 0.0007 1.431 X4 0.1603 0.0003 1.174 X5 0.7019 0.0385 2.018 X6 0.2703 0.0001 1.310-求各因素的相对危险度(或比数比)比较各因素对于生存期长短的相对重要性 写出COX回归方程为:h(t,x)=h0(t)exp(-0.7169X3b -1.0077X3c+0.3585X4+0.1603X5+0.7019X8c +0.2703X9)上机实习主要内容:1.输入数据或读入数据建立SAS数据集。2.数据输入的格式和正确性(要校对)。2.描述性统计和正态性检验。3.t检验(配对和团体)。4.方差分析(单因素,协方差分析)。5.相关和回归。6.卡方检验(四格表,多个率的检验,构成比的检验,两个分类指标间有无关系的检验)。7.非参数检验(符号秩和,WILCOXON,K-W,两组和两组以上等级分组资料的检验)
限制150内