医学统计学总复习资料.pptx
本资料来源考试题型及分值l一一.名词解释名词解释5个个(每题3分,共15分)l二二.选择题选择题30个个(每题1.5分,共45分)l三三.简答题简答题3个个(共15分)l四四.案例辨析题案例辨析题2个个(共15分)l五五.综合分析题综合分析题1个(共个(共10分)分)医学统计学总复习张俊辉2010.12.27统计工作的步骤l设计:统计工作的第一步和最关键的一步l搜集l整理l分析统计分析l统计描述统计描述:运用一些统计指标:运用一些统计指标(均数、标均数、标准差、率准差、率)、统计表和统计图等,对数据、统计表和统计图等,对数据的数量特征及其分布规律进行客观地描的数量特征及其分布规律进行客观地描述和表达,述和表达,不涉及样本推断总体的问题不涉及样本推断总体的问题。l统计推断统计推断:在一定的置信度和概率保证:在一定的置信度和概率保证下,根据样本信息去推断总体特征。包下,根据样本信息去推断总体特征。包括括参数估计和假设检验参数估计和假设检验两个内容。两个内容。几个基本概念统计资料的三种类型并举例说明统计资料的三种类型并举例说明总体和样本总体和样本参数和统计量参数和统计量抽样误差抽样误差小概率事件小概率事件三种三种研究设计类型研究设计类型l成组设计(完全随机设计)l配对设计l随机区组设计定量资料的统计描述 l集中趋势的统计描述l定量资料的频数表 l离散程度的统计描述 描述集中趋势的定量资料的指标平均数l均数均数l几何均数几何均数l中位数中位数它们各自的适用条件和注意事项它们各自的适用条件和注意事项离散程度的指标l全距l四分位数l标准差 、方差l变异系数描述正态分布的集中位置和离散程度的描述正态分布的集中位置和离散程度的指标:指标:均数和标准差均数和标准差描述偏态分布资料的集中位置和离散程描述偏态分布资料的集中位置和离散程度的指标度的指标 中位数和四分位数间距中位数和四分位数间距正态分布l概念:正态分布是高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的钟型光滑曲线,也叫高斯分布。l正态分布的图形:l正态分布的特征 l标准正态分布用N(0,1)表示常用的三个区间l 1.645区间面积占总面积(或总观察例数)的90%。l 1.96区间面积占总面积(或总观察例数)的95%。l 2.58区间面积占总面积(或总观察例数)的99%。计算医学参考值范围常用的方法l正态分布法正态分布法:适用于正态或近似正态分布资料。适用于正态或近似正态分布资料。双侧界值:双侧界值:单侧上界:单侧上界:;单侧下界:;单侧下界:l对数正态分布法对数正态分布法:适用于适用于对数正态分布对数正态分布资料资料双侧界值:双侧界值:l百分位数法百分位数法:常用于偏态分布资料常用于偏态分布资料双侧界值:双侧界值:P2.5和和P97.5;单侧上界:;单侧上界:P95;或单侧下;或单侧下界:界:P52.3 总体均数的估计l均数的抽样误差 lt分布 l总体均数的估计 均数的抽样误差概念:抽样引起的样本统计量与总体参数之概念:抽样引起的样本统计量与总体参数之间的差异称为间的差异称为抽样误差抽样误差(samplingerror)。l均数的抽样误差均数的抽样误差:抽样引起的样本均数与:抽样引起的样本均数与总体均数的差异称为均数的抽样误差。总体均数的差异称为均数的抽样误差。标准误(standard error)l样本均数的标准差称样本均数的标准差称标准误标准误,是说明均数抽样误是说明均数抽样误差大小的指标,差大小的指标,大,抽样误差大;反之,大,抽样误差大;反之,小,抽样误差小小,抽样误差小。l标准误标准误的计算:的计算:l标准误标准误的估计值的估计值:影响标准误大小的因素l 的大小与成正比l 与样本含量n的平方根成反比 标准差和标准误的区别与联系标准差和标准误的区别与联系t分布lt分布与标准正态分布相比有什么特点?总体均数的估计 l参数估计参数估计是指用样本统计量来估计总体参数,是指用样本统计量来估计总体参数,有点估计和区间估计两种方法。有点估计和区间估计两种方法。l点估计点估计是用样本统计量直接作为总体参数的估是用样本统计量直接作为总体参数的估计值;计值;l区间估计区间估计是指按一定的概率是指按一定的概率,估计总体估计总体参数的所在范围参数的所在范围,这个范围称为参数的置信区,这个范围称为参数的置信区间间 区分参考值范围与总体均数的置信区间区分参考值范围与总体均数的置信区间l是否99%的置信区间优于95%置信区间?假设检验的基本步骤 l建立检验假设,确定检验水准 l 选定检验方法,计算检验统计量 l 确定P值,作出统计推断 t检验lt检验的应用条件为:检验的应用条件为:l在单样本检验中,总体标准差未知且样本含量较在单样本检验中,总体标准差未知且样本含量较小小(n50)时,要求样本来自正态分布总体;时,要求样本来自正态分布总体;l成组检验要求两组资料相应的总体分别服从正态成组检验要求两组资料相应的总体分别服从正态分布且方差齐。分布且方差齐。当不满足这些条件时可使用变量变换将数据转换成当不满足这些条件时可使用变量变换将数据转换成正态或者近似正态分布,或使用秩和检验。正态或者近似正态分布,或使用秩和检验。两小样本均数比较时,若两总体方差不相等,还可两小样本均数比较时,若两总体方差不相等,还可使用使用t检验。检验。常用的几种t检验方法l样本均数与已知总体均数比较l配对比较的t检验l成组比较的t检验配对t检验l配对设计资料主要有以下三种情况:l配对的两个受试对象分别接受两种不同处理之后的数据,如把同性别、年龄相近且相同病情的病人配成一对;l同一样品用两种方法(或仪器)检验出的结果;l同一受试对象两个部位的测定数据。l配对检验其目的是推断两种处理(或方法)的结果有无差别。2.6 I 型错误与II 型错误l拒绝了实际上成立的H0,这类“弃真”的错误为I 型错误(type I error),概率为 ;l不拒绝实际上不成立的H0,这类“存伪”的错误为II 型错误(type II error),概率为 。l当样本量确定时,越小,越大;反之,越大,越小。客观实际客观实际拒绝拒绝H0不拒绝不拒绝H0H0成立成立I型错误型错误()推断正确推断正确(1-)H0不成立不成立推断正确推断正确(1-)II型错误型错误()检验效能l如果两个总体参数间确实存在差异,使用假如果两个总体参数间确实存在差异,使用假设检验方法能够发现这种差异设检验方法能够发现这种差异(即拒绝即拒绝)的能力的能力被称为检验效能被称为检验效能(poweroftest),记为,记为。一般情况下要求检验效能应在一般情况下要求检验效能应在0.8以上。以上。假设检验中的注意事项l要保证组间的可比性要保证组间的可比性l要根据研究目的、设计类型和资料类型要根据研究目的、设计类型和资料类型选用适当的检验方法选用适当的检验方法l正确理解假设检验中正确理解假设检验中概率概率P值值的含义的含义l结论不能绝对化结论不能绝对化l单、双侧检验应事先确定单、双侧检验应事先确定方差分析目的(ANOVA)(analysis of variance)通过分析处理组均数之间的变异,推导k个总体均数间是否相等,或k个处理之间的差别是否有统计学意义。方差分析的基本思想 把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。方差分析的应用条件 l1.各样本是相互独立的随机样本,均服各样本是相互独立的随机样本,均服从正态分布从正态分布l2.各样本的总体方差相等,即方差齐性各样本的总体方差相等,即方差齐性 独立、正态、方差齐性独立、正态、方差齐性如果方差不齐时,可采用如果方差不齐时,可采用F检验或秩和检验或秩和检验。检验。几种常用的方差分析l完全随机设计的方差分析完全随机设计的方差分析(单因素单因素)l随机区组的方差分析随机区组的方差分析l交叉设计的方差分析交叉设计的方差分析l析因设计的方差分析析因设计的方差分析比较各种方差分析的变异分解比较各种方差分析的变异分解l多个样本均数经方差分析后,若有统计学意义,多个样本均数经方差分析后,若有统计学意义,需用多重比较的方法进一步了解哪些均数间差需用多重比较的方法进一步了解哪些均数间差别有统计学意义。别有统计学意义。l常用常用SNK法法(q检验检验)和和Dunnett-t检验,前者为两检验,前者为两两间均作比较,后者为实验组和对照组比较。两间均作比较,后者为实验组和对照组比较。l方差分析用于两个均数的比较时,同一资料所方差分析用于两个均数的比较时,同一资料所得结果与得结果与t检验等价,即有检验等价,即有。直线回归目的直线回归目的 研研究究变变量量之之间间的的数数量量依依存存关关系系(Y随随着着X变变化化而而变变化化),找找出出一一条条最最能能代表这种数据关系的直线。代表这种数据关系的直线。直线回归方程直线回归方程直线回归方程直线回归方程:x x为自变量的取值为自变量的取值为自变量的取值为自变量的取值为当为当为当为当 x x取某一值时应变量取某一值时应变量取某一值时应变量取某一值时应变量y y的的的的平均估计值平均估计值平均估计值平均估计值 a a为截距为截距为截距为截距(intercept)(intercept),即当,即当,即当,即当 x x=0=0时时时时y y的的的的平均估计值平均估计值平均估计值平均估计值b b为回归系数为回归系数为回归系数为回归系数(regressioncoefficient)(regressioncoefficient),表示,表示,表示,表示x x改变一个改变一个改变一个改变一个单位时单位时单位时单位时y y的的的的平均改变量平均改变量平均改变量平均改变量。采用最小二乘法(采用最小二乘法(Leastsquaremethod)计算回归系数)计算回归系数a与截距与截距b最小二乘法原理最小二乘法原理:实测点到直线的:实测点到直线的纵向距离平方之和纵向距离平方之和达到最小达到最小直线回归反映自变量对应变量数量上影响大小的反映自变量对应变量数量上影响大小的统计量是统计量是回归系数回归系数,而非,而非P值。值。P值越小只能说明越有理由认为变量间的直线值越小只能说明越有理由认为变量间的直线关系存在,而不能说明影响越大或关系越强。关系存在,而不能说明影响越大或关系越强。直线相关的目的 研究两个随机变量X与Y之间的相互关系及其密切程度。直线相关系数r的意义 r是表示两个随机变量之间呈直线相关的强度和方向的统计量。相关系数的性质相关系数的性质1、相相关关系系数数没没有有单单位位,其其值值为为-1r1,其其正正负表示两变量间负表示两变量间直线相关的方向直线相关的方向;正相关:正相关:0r1完全正相关完全正相关:r+1负相关:负相关:-1r0完全负相关完全负相关:r-1零相关:零相关:r0 2、r的的绝绝对对值值大大小小表表示示两两变变量量之之间间直直线线相相关关的的密密切切程程度度。r的的绝绝对对值值越越接接近近于于1,说说明明相相关关密密切切程程度度越越高高;绝绝对对值值越越接接近近0,说说明明相相关关密密切切程度越低。程度越低。秩相关的适用条件秩相关的适用条件不服从双变量正态分布不服从双变量正态分布用等级资料表示的原始资料用等级资料表示的原始资料总体分布未知或总体分布未知或边界不确定的资料边界不确定的资料直线回归与直线相关的联系对同一资料计算r与b,它们的符号一致r与b的假设检验等价,即对同一样本有r与b可以互相换算:反映回归效果好坏采用什么指标?参数统计与非参数统计的区别秩和检验l应用条件和范围l配对秩和检验l成组设计l多个样本比较l两两比较分类资料的描述 l率的计算与应用l构成比的计算与应用l相对比的计算与应用 率概念:说明某现象出现的强度或频度。计算公式为:式中k为100、1000、10000/万和100000/10万等。构成比概念:说明某一事物内部各组成部分所占比重或分布,常用百分数表示,计算公式为:特点:总体内各组构成比的总和应为100%。比(ratio):概念:亦称相对比,是A、B两有关指标之比,说明A是B的若干倍或几分之几,通常用倍数或分数表示。计算公式为:注意:两个比较指标可以性质相同或不同,如,相对危险度(RR)、变异系数(CV)等。注意常用相对数指标l发病率l患病率l死亡率l病死率l有效率l治愈率应用相对数应注意的问题l1、计算相对数应有足够的观察单位数、计算相对数应有足够的观察单位数l2、分析时不能以构成比代替率分析时不能以构成比代替率l3、应分别将分子和分母合计求合计率、应分别将分子和分母合计求合计率l4、相对数的比较应注意其可比性、相对数的比较应注意其可比性标准化法 在对合计率进行比较时,如果各组观察对象内部构成不同,应考虑对合计率(平均率)进行标准化。标准化法就是采用统一的标准构成,消除因混杂因素构成不同对总指标的影响。二项分布与Poisson分布l二项分布的性质lPoisson分布的性质l率的抽样误差l率的标准误的计算公式卡方检验l卡方检验的用途?卡方检验的基本公式值反映了实际频数与理论频数吻合的程度两独立样本(成组设计)四格表基本格式四格表专用公式 配对设计资料的 检验配对四格表的2l两个率是否有差异 配对四格表的专用公式11.9l两个率的相关分析 成组四格表的专用公式11.5四格表 值的校正行列表资料的2检验列联表用途l分析行变量和列变量之间的关系学过的 检验l两样本率比较l配对四格表资料l多个样本率比较l两个或多个样本构成的比较l两分类指标的相关分析2检验的基本步骤l建立检验假设,确定检验水准建立检验假设,确定检验水准l计算检验统计量计算检验统计量(首先考察最小理论频数首先考察最小理论频数)l确定确定P值,作出统计推断值,作出统计推断卡方检验的注意事项l 结果为有序多分类变量的列联表结果为有序多分类变量的列联表(单向有序列单向有序列联表联表),卡方检验只能比较各处理组的效应,卡方检验只能比较各处理组的效应构成构成比是否有差别比是否有差别。l若要比较各处理组的平均效应大小是否有差别,若要比较各处理组的平均效应大小是否有差别,应该用应该用秩和检验秩和检验。l多个样本率多个样本率(或构成比或构成比)的两两比较的两两比较,可以借鉴,可以借鉴均数多重比较的原理均数多重比较的原理。1.成组设计成组设计l成组设计:可以是实验性研究中的随机分组,也可以是观察性研究中的不同人群随机抽样。l在实验性研究中,将受试对象随机分成两组或更多组,每个受试对象均有相同机会进入其中的任何一组。受试对象受试对象实验组实验组对照组对照组随机分组随机分组A.完全随机分组得到两独立样本完全随机分组得到两独立样本总体总体1总体总体2样本样本2样本样本1B从两总体中随机抽样得到两独立样本从两总体中随机抽样得到两独立样本总体总体 1样本样本样本样本1样本样本2C.按某一分组的属性分组得到两独立样本按某一分组的属性分组得到两独立样本1.成组设计l在观察性研究中,按不同人群进行随机在观察性研究中,按不同人群进行随机抽样,得到两个或两个以上的独立样本。抽样,得到两个或两个以上的独立样本。l完全随机分组和按不同人群抽样所得到完全随机分组和按不同人群抽样所得到的样本均为独立样本资料。的样本均为独立样本资料。2.配对设计l主要有以下4种情形:l1.将两个条件相同或相近的受试对象配成对子,通过随机化,使对子内两个体分别接受两种不同的处理。l配对的因素应为可能影响实验结果的主要混杂因素。l如在动物实验中,常将窝别、性别、体重等作为配对因素;在临床试验中,常将性别、年龄、病情等作为配对因素。图3.2为配对设计示意图纳入标准排除标准研究总体按配对条件受试对象对照组随机分组实验组对子1对照组随机分组实验组对子b对照组随机分组实验组对子2l2.同一受试对象(人或标本)的两个部分配成对子,分别随机地接受两种不同的处理。l3.同一受试对象接受两种不同的处理。例如,对一批血样,用两种方法检测其中的血铅含量。配对设计主要有以下情形:l(4)自身前后配对,即将同一受试对象,接受某种处理之前和接受该处理之后视为配对。若仅观察一组,则要求在处理因素施加前后,重要的非处理因素(如饮食、心理状态等)尽量相同,但常常难于做到,故自身前后配对设计存在一定缺陷,不提倡单独使用。实际研究工作中,在应用自身前后配对的同时,常常需要设立一个平行的对照组。配对设计主要有以下情形:3.随机区组设计随机区组设计 l 随机区组设计随机区组设计(randomizedblockdesign)又称又称配伍组设计。配伍组设计。l通常做法是将受试对象按性质通常做法是将受试对象按性质(如动物的性别、如动物的性别、体重,患者的性别、年龄、病情等非处理因素体重,患者的性别、年龄、病情等非处理因素)相同或相近分为相同或相近分为b个区组个区组(或称配伍组或称配伍组),然后将,然后将每个区组中的每个区组中的k个受试对象随机分配到个受试对象随机分配到k个处理个处理组。组。l可见,它实际上是配对设计的扩展,配对设计可见,它实际上是配对设计的扩展,配对设计中每对是两个受试对象,而随机区组设计中每中每对是两个受试对象,而随机区组设计中每个区组是两个以上的受试对象。个区组是两个以上的受试对象。图3.3为随机区组设计的示意图k个水平k个水平k个水平随机分组区组b纳入标准排除标准研究总体按匹配条件受试对象随机分组区组1随机分组区组2判断资料(变量)类型l定量资料还是定性资料?或等级资料定量资料的差异性检验方法小结定量资料的差异性检验方法小结l l 正态分布资料 t 检验、方差分析l l 非正态分布资料 l l资料是否服从正态分布?资料是否服从正态分布?l l设计类型?设计类型?(成组、配对或随机区组成组、配对或随机区组)l l两组两组or多组?单侧多组?单侧or双侧?双侧?转化转化转化转化秩和检验定量资料的分析定性资料的差异性检验方法小结定性资料的差异性检验方法小结l ln是否大于是否大于40?l l最小理论频数是否大于最小理论频数是否大于5或大于或大于1?l l设计类型?设计类型?(成组或配对成组或配对)l l两组两组or多组?单侧多组?单侧or双侧?双侧?l l是否单向有序列联表?是否单向有序列联表?定性资料的分析生存分析生存分析(survival analysis)l 生存分析(survival analysis)是将研究对象的结局和随访时间两个因素同时结合的一种适用范围很广的统计分析方法,生存分析中的几个基本概念生存分析中的几个基本概念l“死亡死亡”事件事件失败事件失败事件(failureevent)l生存时间生存时间(survivaltime):完全数据、截尾数据、:完全数据、截尾数据、截尾截尾l死亡概率死亡概率(mortalityprobability)生存概率生存概率(survivalprobability)l生存率生存率(survivalrate)l中位生存时间中位生存时间(mediansurvivaltime)生存时间的两种类型完全数据完全数据(completedata):指从指从观察起点观察起点到到发生死亡事件发生死亡事件所经历的时间,如表所经历的时间,如表15.1中中2和和6号患者对应的生存天数号患者对应的生存天数89天和天和85天。天。截尾数据截尾数据(censoreddata):简称截尾值简称截尾值(censoredvalue),又称删失值或终检值。习惯上,又称删失值或终检值。习惯上在生存时间右上标注在生存时间右上标注“”表示。表示。生存时间观察过程的截止不是由于死亡事件,而是由于其他生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾原因引起的,称为截尾(censored)。截尾的原因包括失访、退。截尾的原因包括失访、退出和终止。出和终止。截尾数据截尾数据指从指从观察起点观察起点到到截尾截尾所经历的时间。所经历的时间。截尾的主要原因截尾的主要原因l失访失访(withdrawal):指失去联系,如信访无回:指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、音、电话采访不应答、上门采访找不到人、搬迁没留地址等;搬迁没留地址等;l退出退出:指死于非研究因素或非处理因素而退:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它出研究,如死于车祸等意外事件、死于其它疾病等;疾病等;l终止终止:指设计时规定的研究时限已到而终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。观察,但研究对象仍然存活。生存分析的基本方法生存分析的基本方法l未分组资料的生存分析未分组资料的生存分析(Kaplan-Meier法法)l分组资料的生存分析分组资料的生存分析(寿命表法寿命表法)