医学统计方法选择流程.doc
医学统计方法选择流程医学统计方法选择流程图(含第9-14讲内容)资料定性资料定量资料两水平单水平多水平RXC表四格表配对设计2X2列联表当n40或T1;Pn40但有1T5n40且所有的T51。独立;2.正态;3.方差不齐1.独立;2.非正态;1。独立;2.正态;3。方差齐1.独立2。非正态1。独立2。正态一致性检验总体率差异性检验Fisher精确概率法连续性校正c2检验c2检验Kruskal-Wallis H检验Welch方差分析方差分析McNemar检验两两比较:MannWhitney U检验、Dunn法、Nemenyi法两两比较的方法LSD法、Bonferroni法、Sidak法、Scheffé法、Tukey法、Duncan法、SNK法、Dunnett t法u检验(n>60或总体标准差已知)秩和检验t检验Kappa检验队列研究计算RRMH c2检验横断面研究无后续检验病例对照研究计算ORMH c2检验成组设计配对设计双向有序属性相同Kappa检验双向有序属性不同结果变量有序双向无序秩和检验Ridit分析有序变量的Logistic回归分析。 c2检验Fisher精确概率:有1/5以上格子的理论频数小于5。1.独立;2.两组数据不服从正态分布;1.独立;2。两组数据服从正态分布;3.两组数据的总体方差不相等;1.独立;2。两组数据服从正态分布;3.两组数据的总体方差相等;1.独立2。每对数据差值不服从正态分布。1.独立2。每对数据差值服从正态分布频数分布是否相同按双向无序处理结果变量之间差别按单向有序处理配对设计符号秩检验配对设计t检验Wilcoxon秩和检验原因与结果变量关系Spearman秩相关u检验(两组n都大于60或总体标准差已知)成组设计t检验(Cochran法、Satterthwaite法和Welch法)两变量相关关系线性趋势检验成组设计t检验 实验设计三要素实验因素:就是在试验研究中,研究者特别关心的试验条件,并且性质相同的试验条件必须具备两种或两种以上状态时,这种试验条件才能被称为试验因素,注意:选择实验因素时,要尽量排除非实验因素的干扰。实验对象:根据试验研究的目的和具体情况,应结合专业知识选择合适的受试对象原则:敏感性、特异性、稳定性、同质性、依从性、经济性实验效应:试验效应是试验因素作用于受试对象的反应和结局,它通过观察指标来体现。原则:客观性、精确性、灵敏性、稳定性、特异性、关联性四原则对照:对照原则是指试验设计中通常要设立对照组种类:安慰剂对照、空白对照、试验对照、自身对照、标准对照随机:随机原则是指采用随机的方式来选取和分配样本方法:抽签法、查表法、计算机伪随机数法重复:重复原则指的是在相同试验条件下进行多次独立重复试验,它与样本含量关系密切。均衡:确保试验因素各水平组间不受其他试验因素或重要的非试验因素的不平衡的干扰和影响,以便使所考察的试验因素取不同水平条件下对观测结果的影响真实地显露出来。 设计类型单组配对成组单因素多水平当我们看到一个题目时,首先应该想到老师打算考我们什么,比如是实验设计还是假设检验或者统计描述等然后在相应的章节选择答案。 当考假设检验或者相关分析时,一定要先看数据类型,是定性资料还是定量资料,而后看设计方式,比如是定量资料的配对设计中,不服从正太性时,我们只能使用Wilcoxon符号秩检验,假如是定性资料的四格表我们只能使用卡方检验或是确切概率法。对应的资料和设计方式,最后看分析目的(这点较难),而后选择合适的统计学方法。 在统计描述中我们习惯用均数加减标准差表示,这是针对近似符合正态性的数据进行表示,假如不符合,我们只能使用中位数和四分位数间距一起表示.而且前者优先。 在假设检验中,能使用参数检验(如t检验,F检验)优先选择,否则,才选用非参数检验(如秩和检验)。平均指标算术平均值 :n个性质相同的定量数据之和除以n所得的结果选择原则:算术平均值适用于一组性质相同且近似服从对称分布(最好服从正态分布)的定量资料几何平均值 :n个性质相同的定量数据取对数变换后,按算术平均值计算,然后再求其反对数所得的结果选择原则:几何平均值适用于一组性质相同且服从正偏态分布(最好服从对数正态分布,即数据取对数变换后服从正态分布)的定量资料调和平均值 :n个性质相同的定量数据取倒数变换后,按算术平均值计算,然后再求其倒数所得的结果选择原则:调和平均值可应用于表达一组性质相同呈极严重正偏态分布(即高峰出现在全部数据取值范围的中心点左边)的定量资料的平均水平中位数 :n个性质相同的定量数据按由小到大的顺序排列后,居中的数据选择原则:中位数可以应用于任何定量资料,尤其适用于包含不完全信息的资料中。众数 :由众数的定义可知,只需找出一组原始数据中重复出现次数最多的那个数据,它就是这组定量资料的众数若定量资料是以原始数据形式呈现的,则众数可应用于包含两个或多个相同数据的定量资料中;若定量资料是用频数分布表呈现的,则只要各组中的频数不全是1,就可应用众数。统计图:统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置条图:用若干个细长的矩形条的高度来表达各组数量大小的图形选择原则:适合用来表达定性变量各水平组中的数量大小。这种定性变量通常是名义变量,即对各组在横轴上被放置的前后顺序没有严格要求百分条图:将一个长条的总长度视为100%,根据整体中各部分所占的百分比,将它们依次在长条上表示出来,称为百分条图选择原则:百分条图通常反映局部与整体之间的关系,要求各项之间彼此是有联系的,且各项百分数之和为100%圆图:是百分条图的另一种表现形式,是用圆的各扇面的面积(严格地说,是依据圆心角的大小)来表示各组数量的大小选择原则:通常用于反映局部与整体之间的数量关系,因此,通常用相对数作为统计指标来绘制圆图,而且,要求各组之合计必须为100%.绘图时,所用的观测指标必须是相对数箱式图或盒须图选择原则:适于粗略表达一组定量资料的分布情况,特别是多组数据分布的比较直方图选择原则:适用于表达一组定量资料的频数分布情况;把用频数分布表表达的资料用图形方式显示出来,使各组段上的频数分布情况一目了然散点图选择原则:适用于表达两个在专业上有联系的定量指标同时变化的趋势线图:设(ti,yi)代表某种事物或现象在时刻ti的取值为yi,则将各点按时间先后顺序依次用线段连接起来,所形成的折线就称为线图选择原则:适于表达某种事物或现象随时间推移的变化幅度(普通线图)和速度(半对数线图)统计表表达统计分析结果的表格称为统计表。凡是由“文字、数字、线条"等组合而成的信息集合,选择原则;展示统计数据的结构、分布和主要特征。它可以避免冗长的文字叙述,使要表达的内容中心突出、简单明了,便于直观分析和比较定量资料的统计分析单组单样本t检验:检验样本与总体均数之间是否有差别选择原则:独立性、正态性。N小于60u检验:检验样本与总体均数之间是否有差别选择原则:独立性、正态性。N大于60符号秩和检验:检验样本与总体均数之间是否有差别选择原则:一切分布的定量和定性资料配对配对样本t检验:检验两样本所来自的总体均数差异是否有统计学意义选择原则:独立性、正态性(每对数据的差值要服从正态分布)Wilcoxon符号秩检验:检验两样本所来自的总体分布差异是否有统计学意义选择原则:一切分布的定量和定性资料成组两样本t检验:检验两样本所来自的总体均数差异是否有统计学意义选择原则:独立性、正态性、方差齐性,n小于60t检验:检验两样本所来自的总体均数差异是否有统计学意义选择原则:独立性、正态性u检验:检验两样本所来自的总体均数差异是否有统计学意义选择原则:独立性、正态性、方差齐性,n大于60F检验:在成组设计时,F=t的平方,既F检验等价于t检验选择原则:独立性、正态性、方差齐性Wilcoxon秩和检验:检验两样本所来自的总体分布是否有统计学意义选择原则:一切分布的定量和定性资料单因素多水平F检验:检验各组样本所来自的总体均数差别是否有统计学意义注意:拒绝H0,只能认为各组不完全相等。选择原则:独立性、正态性、方差齐性Kruskal-Wallis H检验:检验各组样本所来自的总体分布差别是否有统计学意义.注意:拒绝H0,只能认为各组分布不完全相同选择原则:一切分布的定量和定性资料单因素多水平两两比较LSD法:也称最小显著差异法,适用于一对或几对在专业上有特殊意义的总体均数间的比较 适用于任意两组的比较Bonferroni法适用于任意两组的比较注意:此时a的显著水平要校正,即a=a/(k*(k-1))Tukey法:也称为Tukey-Kramer法或诚实显著性差异(HSD)检验适用于任意两组的比较SNK法适用于任意组均数间的两两比较Dunnett t检验法适用于各小组与对应的某个对照组进行比较一般四格表来自横断面研究设计的2×2表资料 检验目的:检验两组分布差异是否有统计学意义(1)当n40且所有的T5时,用c2检验的基本公式或四格表资料c2检验的专用公式; 当P时改用Fisher精确概率法(2)当n40但有1T5时,用连续性校正公式;(3)当n40 ,或T1时,用Fisher精确概率法;来自队列研究设计的2×2表资料检验目的:1假如只检验两组分布差异是否有统计学意义(1)当n40且所有的T5时,用c2检验的基本公式或四格表资料c2检验的专用公式; 当P时改用Fisher精确概率法(2)当n40但有1T5时,用连续性校正公式;(3)当n40 ,或T1时,用Fisher精确概率法;检验目的:在1的基础上检验RR值与1的差别是否有统计学意义运用MH卡方检验公式计算来自病例对照研究设计的2×2表资料检验目的:1假如只检验两组分布差异是否有统计学意义(1)当n40且所有的T5时,用c2检验的基本公式或四格表资料c2检验的专用公式; 当P时改用Fisher精确概率法(2)当n40但有1T5时,用连续性校正公式;(3)当n40 ,或T1时,用Fisher精确概率法;检验目的:在1的基础上检验OR值与1的差别是否有统计学意义运用MH卡方检验公式计算配对四格表检验目的:检验二者一致性Kappa检验检验目的:检验二者不同部分差别是否有统计学意义McNemar卡方检验双向无序R×C表1、当小于5的理论频数的个数未超过总格子数的1/5时,用一般卡方检验 卡方检验当1不成立时Fisher确切概率法单向有序R×C表原因变量为多值有序变量,结果变量为多值名义变量的R´C表直接当成双向无序RXC表进行处理原因变量为二值变量Wilcoxon秩和检验结果变量多值有序Kruskal-Wallis H检验双向有序且属性不同R×C表目的一:关心试验分组之间的差别,按单向有序的R×C表列联表处理. 目的二:是否有相关性,用Spearman秩相关分析或典型相关分析目的三:是否呈直线变化,用线性回归检验目的四:考察各行上的频数分布是否相同,此时,将此资料视为双向无序的RC列联表资料双向有序且属性相同R×C表一致性检验(Kappa检验) 相关与回归直线(简单)相关分析Pearson直线相关 要求:1、两组数据都服从正态分布,2、二者在散点图中有线性关系相关系数的统计学意义检验:1、直接查表法:求得 r 后,按df= n-2查r界值表,2、t 检验Spearman秩相关 要求:(1)不服从双变量正态分布.(2)总体分布类型未知.3)原始数据用等级表示Spearman秩相关系数的假设检验:对总体相关系数的假设检验的方法有两种:1.查表法:当n50时,查“rs界值表”进行假设检验。2.计算法“当n50时,按下式计算检验统计量u:Kendall等级相关要求;当两个变量都用等级来表示时,用一个统计量来衡量它们的等级不一致的情况.备注;二者相关系数有统计学意义,只能说明二者有相关关系,并不能讲一定二者存在联系或者说因果关系.简单线性回归资料要求:L线性,I独立(各观测值取值相互独立),N正态(针对特定的x值,y的取值服从正态),E方差齐性;回归系数:当x变化一个单位时,对因变量y均值的影响备注:一般要求符和LI即可,只有定量资料才进行简单线性回归,定性资料没有学,也没有听说过,有线性关系也只能说在x的取值内有线性关系,不能随意扩大x的范围多重线性回归资料要求:L线性,I独立(各观测值取值相互独立),N正态(针对特定的x值,y'的取值服从正态),E方差齐性;解释偏回归系数:反映的是当模型中的其他自变量不变时,其中一个自变量对因变量Y 的均值的影响。使用软件时要进行变量筛选logistic回归 因变量为二值变量时回归系数j表示自变量Xj改变一个单位时logitP的改变量直线相关分析的一般步骤:1。 绘制散点图,观察两变量的变化趋势;2. 若散点图呈直线趋势,计算相关系数;3。 对相关系数进行假设检验;4. 必要时对总体相关系数进行区间估计.直线相关分析的注意事项:1. 直线相关分析要求两个变量均为服从正态分布的随机变量,实际数据要满足这一前提。2。 分析前必须先作散点图,变化不呈直线趋势时不宜作直线相关。3. 要注意相关的有效范围。相关系数的意义仅限于原资料中两个变量值的实测范围,超出这一范围就不一定保持现有的直线关系了.4。 作相关分析时,必须考虑异常点的影响.5. 相关分析要有实际意义,两变量相关并不代表两变量间一定存在内在联系,相关关系不一定是因果关系。有时两个变量虽然存在直线关系,但可能是同时受另外一个因素的影响,二者均随另一个因素的变化而变化,它们本身却不一定存在因果关系。 6。 分层资料不宜盲目合并进行相关分析。只有确定各层研究对象具有同质基础才能合并.7。 不要把假设检验中相关显著性大小理解为相关程度的大小。若经假设检验推断r ¹0,说明两变量间存在一定的直线关系。相关的密切程度可参照下面标准判断:r|<0。4为低度相关,0。4|r0。7为中度相关,r>0.7为高度相关。直线回归分析的一般步骤:1.绘制散点图,若呈直线趋势,则可拟合直线回归方程;2。求回归方程的待定系数:a 和b ;3.写出回归方程 4。对回归方程进行假设检验;5。绘制回归直线;6. 总体回归系数的区间估计。直线回归分析时的注意事项:1. 做回归分析要有实际意义。另外,即使两个变量间存在线性关系,也不一定是因果关系,必须结合专业知识做出合理的解释和结论。2. 直线回归分析的资料,一般要求应变量Y是来自 正态总体的随机变量,自变量X 可以是正态随机变量,也可以是精确测量和严密控制的值。3. 应注意自变量或因变量的选取,特别是存在因果联系的变量,避免因果颠倒.4。 进行直线回归分析时,应先绘制散点图,判断有无直线趋势。 5. 绘制散点图后,若出现一些特大或特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。6. 应注意回归方程的适用范围,回归直线不宜外延。直线回归的适用范围一般以自变量取值范围为限,在此范围内计算称为内插interpolation);超过自变量取值范围计算称为外延(extrapolation).若无充足理由证明,超出自变量取值范围后该直线关系仍然成立,应该避免随意外延。 直线相关与回归的区别与联系:1。 区别(1) 资料要求不同:相关要求两个变量呈双变量正态分布;回归要求应变量Y服从正态分布,而自变量X是能精确测量和严格控制的变量。(2) 统计意义不同:相关反映两变量间的伴随关系,这种关系是相互的、对等的,不一定有因果关系;回归则反映两变量间的依存关系,有自变量与应变量之分,一般将“因”或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或从属关系。(3) 分析目的不同:相关分析的目的是描述两变量间的相互关系,并用一个定量的指标来反映这种关系的方向和密切程度;回归分析的目的则是描述应变量与自变量间的数量依存关系,从而可以进行统计预测和统计控制。2. 联系(1) 变量间关系的方向一致:对同一资料, r与b的符号一致。 (2) 假设检验等价:对同一样本, tr = tb ,实际应用中同一组资料进行相关和回归分析时,只检验其中之一即可.(3) r与b可互相转换(4) 相关与回归可以相互解释。相关系数的平方r2 等于回归平方和占总平方和的比例,即反映应变量Y的总变异中归因于X的部分。