医学统计学(共8页).doc
精选优质文档-倾情为你奉上第一单元 概述1.研究设计应包括那几方面内容?答:包括:专业设计和统计设计。专业设计是针对专业问题进行的研究设计,如选题、形成假说等。统计设计是针对统计数据收集和分析进行的设计,如样本来源、样本量等。统计设计是统计分析的基础。任何设计上的缺陷,都不能在统计分析阶段弥补和纠正。第二单元 资料描述性统计1.描述计量资料的集中趋势和离散趋势的指标有哪些?各指标的适用范围如何?答:集中趋势的指标有:算术均数、几何均数、中位数。算术均数适用于描述对称分布资料的集中位置,尤其是正态分布资料;几何均数用来描述等比资料和对数正态分布资料的集中位置;中位数可用于任何资料。描述离散趋势有:极差、四分位数间距、方差、标准差和变异系数。极差和四分位数间距可用于任何分布,但两个指标都不能反映变异程度;方差和标准差常用于资料为近似正态分布;变异系数可用于多组资料间量纲不同或均数相差较大时变异程度间的比较。2.变异系数和标准差有何区别和联系?答:区别:1.计算公式不同:CV=S/X*100%,标准差是方差的平方根。2.单位不同:变异系数无量纲,标准差量纲和原指标一致。3.用途不同。联系:都是适用于对称分布的资料,尤其是正态分布的资料,并且由公式所知,在均数一定时,CV与s呈正比。3.频数表的用途有哪些?答:1.描述资料的频数分布的特征;2.便于发现一些特大或特小的可疑值;3.将频数表作为陈述资料的形式,便于进一步的统计分析和处理;4.当样本量足够大时,可以以频数表作为概率的估计值。4.用相对数时应注意哪些问题?答:1.在实践工作中,应注意各相对数的含义,避免以比代率的错误现象。2.计算相对数时分母应该有足够的数量,如资料的总数过少,直接报告原数据更为可取。3.正确计算频数指标的合并值。4.相对数的比较具有可比性。5.在随机抽样的情况下,从样本估计值推断总体相对数应该考虑抽样误差,因此需要对相对数指标进行参数估计和假设检验。第三单元 医学统计推断基础1.正态分布和标准正态分布的联系和区别?答:联系:均为连续型随机变量分布。区别:标准正态分布是一种特殊的正态分布(均数为0,标准差为1)。一般正态分布变量经标准化转换后的新变量服从标准正态分布。4.简述二项的应用条件?答:条件为:1.每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和为1;2.每次试验产生某种结果固定不变;3.重复试验是相互杜立的,即任何一次试验结果的出现不会影响其他试验结果的概率。5.简述Q-Q图法的基本原理?答:u变换可以把一个一般正态分布变量变换为标准正态分布变量,反之,u变换的逆变换也可以把一个标准正态分布变量变换为一个正态变量。Q-Q图法实际上就是首先求的小于某个x的积累频率,再通过该积累频率求得相应的u值,如果该变量服从正态分布,则点(u,x)应近似在一条直线上(u变换直线),否则(u,x)不会近似在一条直线上。QQ图法正是根据(u,x)是否近似在一条直线上来判断是否为正态分布。第四单元 参数估计与参考值范围的估计1.均数的标准差和标准误的区别和联系?答:区别和联系:标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制;而标准误则是指样本统计量的标准差,均数的标准误实质上是样本均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,间接反映了均数的抽样误差大小。2.简述t分布和标准正态分布间的区别与联系?答:t分布是进行小样本总体参数区间估计和假设检验的理论基础,t分布比标准正态分布的峰值低,且尾部翘的要高。此外随着自由度的增大,t分布逐渐趋近于标准正态分布,即为自由度趋于无穷时,t分布就是标准正态分布。3.简述医学中参考值范围的含义和制定参考值范围的一般步骤?答:含义:医学中把绝大多数正常人的某指标范围称为该指标的参考值范围,也叫正常值范围。步骤:1.定义“正常人”,不同的指标“正常人”的定义也不同;2.选定足够数量的正常人作为研究对象;3.用统一和准确的方法测定相应的指标;4.根据不同的用途选定适当的百分界限,常用95%和99%;5.根据此指标的实际意义,决定用单侧范围还是双侧范围;6.根据此指标的分布决定计算方法,常用的计算方法有正态分布法、百分位数法。第五单元 t检验与单因素方差分析1.I型错误和II型错误有何区别与联系,这两种错位有何实际意义?答:I型错误是指实际上成立的H0所犯的“弃真”错误,其概率大小用表示。II型错误则是指“接受”了实际上不成立的H0所犯的“取伪”错误,其概率大小用表示。当样本含量n确定时,愈小,愈大,反之亦然。意义:若在应用中要重点减少,则取0.01;若在应用中要重点减少,则取0.05,0.10,0.20甚至更高。2.假设检验和区间估计有何联系?答:联系在于可信区间亦可以回答假设检验的问题,在判断两个或多个总体参数是否相等时,假设检验和可信区间是完全等价的。3.为什么假设检验的结论不能绝对化?答:因为通过假设检验的结论具有概率性,其结论不可能完全正确,有可能发生两类错误。拒绝H0是可能犯I型错误;接受H0时可能犯II型错误。因此不能在结论中使用绝对化字词如“肯定”等。5.如何正确选取单侧或双侧检验?答:单双侧检验首先应根据专业知识来确定,同时也应该考虑所要解决问题的目的。1.若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;2.在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验;3.若研究者对低于或高于两种结果都关系,用双侧检验;若只关系其中一种可能,用单侧检验。一般认为双侧检验较保守和稳妥;单侧检验由于充分利用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。6.两样本t检验的应用条件?答:条件为:两样本相互独立的;所来自的总体为正态总体;两总体方差相等。7.方差分析的应用条件?答:条件是:1.各样本是相互独立的随机样本,均服从正态分布;2.相互比较的各样本的总体方差相等,即具有方差齐性。第六单元 列联表分析1.R*C表的卡方检验中,对于理论频数太小的情况应如何处理?答:处理方法:1.增加样本含量,以达到增大理论频数的目的,该方法为首先;2.根据专业知识,删除理论频数太小的格子所对应的行或列,可能损失样本信息或随机性,慎用;3.根据专业知识,将理论频数太小的格子所对应的行或列与性质相近的或邻列合并,使重新计算的理论频数变大,但要合并的合理;4.改用双向无序的R*C表的Fisher确切概率法,该方法计算复杂,需要SAS软件实现。第七单元 非参数统计分析方法1.简述非参数检验的应用条件?答:条件:1.资料不符合参数统计法的应用条件或总体分布类型未知;2.等级资料;3.个别数值偏大或某一端为不确定数如<0.01;4.在资料满足参数统计的要求时,应首选参数法,以免降低检验效能。4.对同一资料,又出自同一研究目的,用参数统计和非参数统计所得结果不一致时,应以何种结果为准?答:两种方法各有适用的条件。如果资料符合参数统计的要求,如满足正态、方差齐性等条件,以参数统计的结果为准;如果资料不符合参数统计的应用条件,如总体为非正态或分布类型不明确等,以非参数统计的结果为准。第八单元 回归与相关1. 试总结从样本数据判断总体回归关系是否成立的统计方法有哪些?答:用tb、tr作t检验,用F对b作方差分析,直接查r界值表。2. 直线相关与秩相关的区别与联系:答:二者的联系(1):两者嗦解决的应用问题相同,都可用来表示两个数值变量间关系的方向和密切程度;(2):两个相关系数都没有单位,取值在【-1,1】之间;(3):计算上用秩次作直线相关得到的就是秩相关系数数。二者的区别:(1):资料要求不同,直线相关系数要求x、y从正态分布,秩相关可以是任意分布;(2):对于资料要求不同,二者分属于参数和非参数统计方法,所以符合分布条件时,直线相关的效率高于秩相关;(3):二者假设检验方法不同。3. 简述直线回归和直线相关的区别与联系答:区别:(1)资料要求不同,直线回归要求Y服从正态分布,进行回归分析时成为2型回归,直线相关要求XY都服从正态分布,进行回归分析时成为2型回归;(2):应用目的不同,说明两变量的数量关系用回归分析,说明其关联用相关分析;(3):意义不同;(4):计算方法不同;(5):取值范围不同;(6):单位不同;二者联系:(1):方向一致;(2):假设检验等价;(3):用回归解释相关,回归平方和越接近总平方和,r2越接近1,说明相关性越好。4. 经检验认为回归方程有意义,是否表明两变量间存在因果关系?答:两变量间不一定存在因果关系,直线回归定量考察应变量与自变量间的线性关系,统计学检验表明回归方程有意义,只是说明二者数量上的线性关系存在,至于内在联系的性质尚需借助医学专业知识确定。5. 秩相关特别适用于哪些资料?答:(1):不服从双变量正态分布而不宜作直线相关分析的资料;(2):总体分布类型未知的资料;(3):用等级表示的资料;(4):分布端点无确定数值的资料;(5):用相对数表示的资料。第九章 实验设计与调查设计1.简述试验中对照设立的形式答:(1):空白对照是在不施加任何处理的“空白”条件下进行观察的对照;(2):实验对照是在某种与处理因素有关的实验条件下进行观察的对照;(3):标准对照是以标准值或正常值作为对照,或对照组采用的处理方法为现有标准方法或常规方法;(4):潜在对照是不专门设立对照组,而是已过去的间就结果作为对照;(5):相互对照是不专门设立对照组,各实验组之间互为对照;(6):安慰剂对照是指对照组采用一种无药理作用的物质,但其剂量或处置上不能为受试者识别,这种物质成为安慰剂。2.什么是随机化?随机化作用是什么?在整个实验设计和实验过程中如何实验随机化?答:随机化是使各种对比组间在大量不可控制的非研究因素的分布方面尽量保持均衡一致的重要措施,随机化保证了各对比组间的均衡可比性,也是资料统计分析时进行统计推断的前提。随机化既机会均等,应贯穿实验设计和实施的全过程,具体体现在三方面(1)抽样随机,(2)分组随机;(3)实验顺序随机。3.常用的抽样方法有那些?答:(1)单纯随机抽样又称简单随机抽样,其抽样原则是使调查总体中每个观察单位被选入的概率完全相同;(2)系统抽样又称机械抽样或等距抽样,即先将调查总体中得所有观察单位排序后按样本例数分段,并从第一段随机抽取一个单位作为起始点,然后以相同间隔机械的从其他段中各抽取一个观察单位构成样本;(3)分层抽样又称类型抽样或分类抽样,即先将总体中所有观察单位按某项特征或标志划分为若干类型或组别,然后再按随机原则从每一层中抽取若干观察单位组成样本;(4)整群抽样是将总体中所有观察单位按某种属性分成若干群体,然后以“群”为初级抽样单位,从所有群体中随机抽取若干群体,由这些群体中的观察单位构成样本。第十二单元 多元线性回顾与相关分析1.多元回归中截距和偏回归系数的意义分别是什么?答:截距b0是多元回归方程的常数项,其意义为当X1,X2,.Xk为0时,应变量Y的平均值。偏回归系数bj表示在其他自变量固定不变的情况下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量。2.标准化偏回归系数与偏回归系数有何不同?答:若先对应变量和自变量均实施标准正态离差交换,然后再建立回归方程,则所得回归方程中的偏回归系数b1,b2,.bk既为标准化偏回归系数。标准化偏回归系数bj与其自变量Xj的计量单位无关,可利用bj绝对值的大小来直接评价Xj对应变量Y的贡献强度,即bj的绝对值越大,表明Xj对应变量Y的贡献越大。而偏回归系数bj与其变量Xj的统计单位有关,不能直接用来评价Xj对应变量Y的贡献大小,bj表示在其他自变量固定不变的情况下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量。偏回归系数bj与标准化偏回归系数bj间的关系为bj=bjSj/SY。这里Sj和SY分别为自变量Xj和Y的标准差。3.多元线性回归分析中,自变量筛选的方法有哪些?你认为哪种更好些?答:方法有全局择优法、向前选择法、后向选择法、逐步选择法。从理论上讲,全局择优法最好,但由于实际中自变量的数目往往较大,采用全局择优法的计算量非常大,这种情况用逐步选择法较为合适。4.自变量筛选的检验水准如何把握?答:对选入和剔除自变量的F检验,可以设置相同和不同的检验水准,一般对于小样本可把a值定为0.10或0.15,对大样本把a值定为0.05.a值定的越小,表示选取自变量的标准越严格,被选入的自变量个数相对越少;反之,a值定的越大,表示选取的标准越宽,被选入的自变量个数越多。5.多元线性回归分析的前提条件有哪些?答:1.应变量Y为连续型随机变量;2.自变量之间不存在多重共线性,即自变量之间相对独立;3.自变量与残差是独立的;4.残差服从均数为0,方差为1的正态分布,且各观察值的残差之间的相互独立的。6.什么是多重共线性?多重共线性对多元线性回归分析的影响是什么?消除多重共线性的方法有哪些?答:在多元回归分析中,当一个或几个自变量可以有另外的自变量线性表达时,称为该自变量与另外的自变量间存在有多重共线性。如果自变量之间共线性呈高度很高(相关系数接近于1),使用最小二乘法建立的回归方程可能失效,偏回归系数的估计容易失真且稳定性差。消除的方法有:1.剔除造成共线性的某个自变量;2.将具有多重共线性的变量合并成一个新的变量;3.逐步回归法。7.多元线性回归可以使用哪些类型的变量?答:典型的多元线性回归使用的自变量应该是连续的,但是如果自变量中含有分类变量,经过适当的处理后仍然适合作为多元回归分析。1.二分类变量可以直接使用。2.如果自变量是一个有序分类变量,则可以根据不同级别赋予不同分数后按连续变量处理,也可以按名义分类变量的方式处理。3.如果自变量是一个名义分类变量可将其转化为若干个二分类变量后进行处理。8.如何评价所建立的多元线性回归方程的优劣?残差分析有何作用?答:一般情况下,可采用方差分析法和求决定系数R2法,方差分析的F检验是把所有的自变量作为一个整体,检验他们对应变量Y的影响是否有统计学意义,F值越大,则P值越小,表示越有理由拒绝自变量与应变量没有线性关系的无效假设。决定系数R2表示方程中的自变量能够解释应变量Y变化的百分比,其值越接近1,说明模型对数据的拟合程度越好。R2虽然可以直接度量回归方程的合适程度,但也有局限,即便增加一些无统计学意义的变量,其数值也会增加,为此可以选择校正决定系数。残差分析是检查资料是否符合回归模型条件的一种简单方法。通过残差分析,常可以检查出数据模型的错误,如应变量Y与自变量的非线性关系、异方差结构、离群值等。第十四单元 多因素方差分析 1.简述析因设计与正交设计的联系与区别? 答:联系:两者都是多因素设计,即实验至少有两个处理因素,每个处理因素至少有两个水平。区别:析因设计是全面实验,g个处理组是各因素各水平的全面组合;正交设计则是非全面实验,g个处理组是各因素各水平的部分组合。当实验因素较多时,采用正交设计可成倍的减少试验次数。要注意,正交设计之所以能成倍的减少试验次数,是以牺牲分析各处理因素的部分或大部分交互作用为代价的。2.重复测量数据的主要特征是什么?答:特征是:1.重复测量设计中“处理”是在区组间随机分配,区组内的各时间点固定的,不能随机分配。2.重复测量设计区组内试验单位彼此不独立。3.前后测量设计、设立对照的前后测量设计为什么不等同于配对设计和随机区组设计?答:1.前后测量设计不能同期观察实验结果,虽然可以在前后测量之间安排处理,但本质上比较的是前后差别,推论处理是否有效是有条件的。配对设计中同一对子的两个实验单位可以随机分配处理,两个试验单位同期观察结果,可以比较处理组间差别。2.前后测量设计前后两次观察结果通常与差值不独立,大多数情况第一次观察结果与差值存在负相关的关系。配对t检验和随机区组设计要求同一区组的试验单位的观察结果相互独立的。4.重复测量设计、随机区组设计、两因素析因试验有何联系与区别?答:联系:在数据处理时,三者都采取两因素方差分析。区别:实验设计与处理的分配方式不同。重复测量设计在区组间随机分配处理,随机区组设计在去组内随机分配处理,两因素析因设计有两个干预因素,每个试验单位只接受一种处理。5.重复测量资料方差分析时的前提条件有哪些?答:进行重复测量方差分析时,除需满足一半方差分析的前提条件即正态性与方差齐姓的要求外,还需满足协方差阵的求对称性或复合对称。判断求对称性通常采用统计软件进行Mauchly检验来完成。6.简述裂区设计与析因设计的联系与区别?答:联系:两者都是多因素试验,即试验至少有两个处理因素,每个处理因素至少有两个水平。区别:析因设计的g个处理全部作用于同一级别的试验单位,如完全随即设计全部作用于一级试验单位,随机区组设计全部作用于二级实验单元;但裂区设计A因素的I个水平只作用于一级试验单位,只有B因素的J个水平作用于二级试验单位。7.简述嵌套设计与析因设计的联系与区别?答:联系:两者都是多因素试验。区别:嵌套设计的处理不是各因素各水平的全面组合,而是各因素按其隶属关系系统分组,各因素水平不存在交叉组合。8.二阶段交叉设计为何要安排清洗期?答:由于交叉试验处理间的差别是在受试者内进行比较,允许受试者内有较大的个体差异,特别适用于不易控制个体差异的临床试验。一个较为严格的限制条件是前一个试验阶段的处理效应不能传递到下一个试验阶段,即各处理终止后没有残留效应消失,通常称此为清洗期。第十五单元 协方差分析1.协方差的基本思想是什么?它与方差分析有何区别与联系?答:是将回归分析与方差分析结合起来使用的一种分析方法。基本思想是将未加控制或难以控制的定量变量的影响看作协变量,建立观察变量随协变量变化的回归方程,并利用种回归关系将协变量化为相等后再进行各组观察变量的修正均数间差别假设检验。区别:协方差分析是一种将回归分析和方差分析结合起来的统计分析方法,按方差分析的不同设计类型有相应的协方差分析方法,协变量也可以是一个或多个;联系:其分析原理相近,只是分解变异时多分解出相应的其他因素项。2.协方差分析时应注意哪些应用条件与问题?答:条件:1.与方差分析一样要观察变量满足正态性、方差齐性和独立性;2.要求各种样本回归系数本身有统计学意义而且各样本回归系数间差别无统计学意义;3.协变量应是定量变量,且不能是影响处理的变量,也不能受到处理的影响。问题:协方差分析中比较的是修正均数,而修正均数间的差别与实际均数间的差别并不是一回事,采用协方差分析只是作合理的比较。3.当各比较组协变量之间有明显差别时,能否作协方差分析?答:不宜作协方差分析。因为修正均数是假设检验变量取值固定在其总均数时的观察变量的均数,当各比较组的协变量均数相差悬殊时,协变量的总均数可能不落在各比较组协变量的实测范围内,这时的修正均数实际上只是对回归线的一种外推,但这种外推是否仍满足线性和平行的条件无人可知,因此可能导致修正均数间的差别不真实,且难以给出较恰当、合理的解释。4.修正均数在协方差分析中有何意义?答:协方差分析就是利用协变量X与观察变量Y之间存在的线性回归关系扣除X对Y的影响。所谓修正系数就是就是将各对比组的X化为相等时的Y的均数,以作更合理的比较。5.避免和扣除协方差变量影响的方法有哪些?答:方法:1.严格的试验设计,除了所施加的处理因素不同外,要尽可能均衡或控制好其他因素对观察指标的影响;2.可考虑采用协方差分析;3.可采用多元回归分析。第十六单元 Logistic回归分析1. Logistic回归分析适用于应变量为(A分类值的资料)。2.在500名病例与500,可以计算出优势比OR为(A无法计算)。3. Logistic回归按照反应变量的类型可以分为(D以上都包括)。4. Logistic回归按照研究设计的类型可以分为(E包括ABC)。5. Logistic模型参数估计方法(B最大似然函数法)。1. Logistic回归的参数估计用最大似然函数法,似然函数法基本思路是什么?答:基本思路是:先建立似然函数或对数似然函数,然后求得似然函数或对数似然函数达到极大值时参数的取值,称为参数的最大似然函数估计值。 2. Logistic回归模型中偏回归系数Bj的解释意义是什么?答:意义是在其他自变量固定不变的情况下,自变量Xj的暴露水平每改变一个测量单位时所引起的优势比的似然对数。当Bj>0时,随着Xj的增加,OR值也增加,Xj是危险因素;当Bj<0时,随着Xj的增加,OR值减少,Xj是保护因素。3. Logistic回归与多元回归有何不同两种方法各有何特点?答:不同:Logistic回归属于概率型非线性回归,应变量Y是一个二值变量或多分类变量(服从二项分布);而多元线性回归的应变量一般为连续变量(服从正态分布)。特点:多元线性回归分析既适合大样本资料又可用于小样本资料,但要求对自变量的不同取值,应变量Y服从正态分布和等方差;Logistic回归除要求应变量为分类变量外,对资料几乎没有什么限制,而且参数具有明确的实际意义,但要求有较大的样本含量。4. Logistic回归分析可使用哪些类型的自变量?答:可使用可使用连续型变量、名义变量和有序分类变量。当Logistic回归模型中自变量含有分类变量,需要将分类变量转换为哑变量;若变量既有连续变量又有分类变量,最好将连续变量转化为分类变量去处理,以便解释。5. Logistic回归主要用于哪种类型的资料?答:主要用于配对资料的分析。最常用的是每一个匹配组中有一个病例和一个对照,即1:1配对研究。6.用逐步回归法得到的方程是否最优?为什么?答:不一定,逐步回归法是一种有进有出的双向筛选方法,虽然能够保证进入方程的每一个自变量具有统计学意义,并可以将一些退化为“不显著”的自变量从方程中剔除,但是没有全面考虑不同自变量间的组合作用,得到的只是一个局部最优的回归方程。第十七单元:生存分析1.生存分析中出现截尾数据常见的原因有哪些? 答:原因有:1.失访;2.退出;3.终止。2.生存率和生存概率的区别和联系:答:区别:生存概率,记为p,表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小;生存率,记为S(k),是指观察对象活过tk时刻的概率,实质上是累积生存概率。联系:生存概率是单个时段的概率,生存率是从0到tk多个时段的积累结果。3.为什么两个样本比较的生存时间资料不适宜采用t检验或卡方检验进行分?答:因为随访资料具有特殊性,观察对象既有随访结果又有随访时间,随访期间可能有失访等情况出现,生存时间时间不完整,分布类型复杂,因而不能简单的套用t检验或卡方检验进行分析。4.一个完整的生存分析资料应包括哪些内容?基本要求是什么?答:包括的内容有:1.每个观察对象的开始随访时间,如入院时间、确诊时间等。2.随访结局以及终止随访时间,如以死亡为终点事件,随访结局可能有以下几种:死亡、失访、死于其他原因、随访结束时观察对象仍然存活。3.可能影响生存的有关因素,如患者的年龄、性别、病程、病情,癌症分期等。5.Cox回归与Logisitic回归都可用于临床研究中的预后分析,二者的主要区别是?答:Logisitic回归模型可以用于多因素预后分析,控制混杂因素效应,并可进行优势比OR估计,但不能处理随访中常见的删失数据。另外Logisitic回归模型仅考虑随访结局,而未考虑出现该结局的时间长短。Cox比例风险回归模型的应变量是观察结局和有关时间,它不仅从结局的好坏,而且可以从出现改结局的时间长短进行分析比较,并可进行相对危险度RR的估计,因而Cox回归具有Logisitic回归模型的所有优点,并可处理删失数据,特别适用于长期随访资料的分析,如肿瘤及慢性病的预后分析。但当数据删失较少或终点事件较少时,宜用Logisitic回归。6.生存分析的主要用途及其统计学方法有哪些?答:意义:1.估计,根据样本生存资料估计总体生存率及其他生存指标,估计生存率常用乘积限法和寿命表法。2.比较,Logrank检验可用于两组或多组生存率的整体比较。3.影响因素分析,目的是为了探索和了解影响生存时间长短和生存率的因素。Cox回归模型是目前多因素生存分析的最主要方法。4.预测,具有不同因素水平的个体生存预测。借助Cox回归模型。专心-专注-专业