书签分享收藏举报版权申诉 / 72

立即下载

当前位置：首页 > 应用文书 > PPT文档 > 统计分析方法的选择.pptx

统计分析方法的选择.pptx

上传人：莉***

文档编号：87479943

上传时间：2023-04-16

格式：PPTX

页数：72

大小：2.66MB

( 4.5 )

《统计分析方法的选择.pptx》由会员分享，可在线阅读，更多相关《统计分析方法的选择.pptx（72页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、数理统计问题的重要性v在科学研究中，经常会涉及到对随机变量大小、离散及分布特征的描述以及对2 2个或多个随机变量之间的关系描述问题。v对随机变量及随机变量之间的关系进行定量描述的数学工具就是数理统计学。v在科学研究中，能否正确使用各种数理统计方法关系到所得出结论的客观性和可信性。v目前，国内科技期刊对稿件中数理统计方法问题的重视程度存在差异。第1页/共72页1 1 统计软件的选择 v统计分析通常涉及大量的数据，需要较大的计算工作量。v在进行统计分析时，尽管作者可以自行编写计算程序，但在统计软件很普及的今天，这样做是毫无必要的。v出于对工作效率以及对算法的通用性、可比性的考虑，一些学术期刊要求作

2、者采用专门的数理统计软件进行统计分析。第2页/共72页1 1 统计软件的选择问题：作者未使用专门的数理统计软件，而采用ExcelExcel这样的电子表格软件进行数据统计分析。v由于电子表格软件提供的统计分析功能十分有限，只能借助它进行较为简单的统计分析，故我们不主张作者采用这样的软件进行统计分析。第3页/共72页1 1 统计软件的选择v目前，国际上已开发出的专门用于统计分析的商业软件很多，比较著名有SPSS(Statistical Package for SPSS(Statistical Package for Social Sciences)Social Sciences)和SAS(Stat

3、istical Analysis SAS(Statistical Analysis System)System)。此外，还有STATASTATA和BMDPBMDP等。vSPSSSPSS是专门为社会科学领域的研究者设计的，但此软件在自然科学领域也得到广泛应用。StataStata和SASSAS、SPSSSPSS一起被并称为新的三大权威统计软件，WHOWHO的研究人员也把StataStata作为最主要的统计分析工作软件第4页/共72页2.1 2.1 均值的计算：理论问题v1 1）均值（准确的称呼应为“样本均值”）的统计学意义：反映随机变量样本的大小特征。v2 2）均值对应于随机变量总体的数学期望

4、总体的数学期望客观上决定着样本的均值，反过来，通过计算样本的均值可以描述总体的数学期望。第5页/共72页2.1 2.1 均值计算：理论问题（续）v3 3）在处理实验数据或采样数据时，经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。v4 4）为找到代表这些观测值总体大小特征的代表值（统计量，该统计量根据样本数据算出），多数作者会不假思索地直接给出算术平均值和标准差。显然，这种做法是不严谨的不一定总是正确的第6页/共72页2.2 2.2 均值计算：技术问题v在数理统计学中，作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。v何时用算

5、术平均值？何时用几何平均值？以及何时用中位数？这不能由研究者根据主观意愿随意确定，而要根据随机变量的分布特征确定。第7页/共72页2.2 2.2 均值计算：技术问题（续）v反映随机变量总体大小特征的统计量是数学期望，而在随机变量的分布服从正态分布时，其数学期望就可以用样本的算术平均值描述。此时，可用样本的算术平均值描述随机变量的大小特征。v如果所研究的随机变量不服从正态分布，则算术平均值不能准确反映该变量的大小特征。在这种情况下，可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布，则几何平均值就是数学期望的值。此时，就可以计算变量的几何平均值。v如果随机变量既不服从正态分布

6、也不服从对数正态分布，校正无效，则应该采用非参数检验。第8页/共72页2.32.3参数统计和非参数统计优缺点参数统计优点：对资料的分析利用充分统计分析的效率高缺点：对资料的要求高适用范围有限非参数统计优点：对资料的没有特殊要求不受分布的影响（偏态、分布不明的资料）不受方差齐性的限制不受变量类型的影响不受样本量的影响缺点：检验效率低（易犯型错误）对信息的利用不充分。第9页/共72页3 3相关分析v在相关分析的前提是需要作出散点图。v常犯的错误是：简单地计算Pearson Pearson 积矩相关系数，而且既不给出正态分布检验结果，也往往不明确指出所计算的相关系数就是Pearson Pe

7、arson 积矩相关系数。v在数理统计学中，除有针对数值变量设计的Pearson Pearson 积矩相关系数（对应于“参数方法”）外，还有针对顺序变量（即“秩变量”）设计的SpearmanSpearman秩相关系数和KendallKendall秩相关系数（对应于“非参数方法”）等。vPearson Pearson 积矩相关系数可用于描述2 2个随机变量的线性相关程度，SpearmanSpearman或KendallKendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。第10页/共72页3 3 相关分析：相关系数的选择在相关分析中，计算各种相关系数是有前提条件的。

8、在相关分析中，对于秩变量，一般别无选择，只能计算SpearmanSpearman或KendallKendall秩相关系数。对于数值变量，只要条件许可，应尽量使用检验功效最高的参数方法，即计算用Pearson Pearson 积矩相关系数。只有计算Pearson Pearson 积矩相关系数的前提不存在时，才考虑退而求其次，计算专门为秩变量设计的SpearmanSpearman或KendallKendall秩相关系数（尽管这样做会导致检验功效的降低）。第11页/共72页4 4 相关分析与回归分析的区别1 1）最常见的错误是:用回归分析的结果解释相关性问题。例如，作者将“回归直线（曲线）图”称为“

9、相关性图”或“相关关系图”；将回归直线的R R2 2(拟合度，或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”；根据回归分析的结果宣称2 2个变量之间存在正的或负的相关关系。第12页/共72页4 4 相关分析与回归分析的区别相关分析与回归分析均为研究2 2个或多个变量间关联性的方法，但2 2种数理统计方法存在本质的差别，即它们用于不同的研究目的。相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预测因变量的值。第13页/共72页4 4 相关分析与回归分析的区别如果自变量是普通变量，即模型回归分析，采用的回归方法就是最为常用的最小二乘

10、法。如果自变量是随机变量，即模型回归分析，所采用的回归方法与计算者的目的有关。在以预测为目的的情况下，仍采用“最小二乘法”（但精度下降最小二乘法是专为模型设计的，未考虑自变量的随机误差）；在以估值为目的（如计算可决系数、回归系数等）的情况下，应使用相对严谨的方法（如“主轴法”、“约化主轴法”或“BartlettBartlett法”）。第14页/共72页4 4 相关分析与回归分析的区别显然，对于回归分析，如果是模型回归分析，鉴于两个随机变量客观上存在“相关性”问题，只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因此，若以预测为目的，最好不提“相关性”问题；若以

11、探索两者的“共变趋势”为目的，应该改用相关分析。如果是模型回归分析，就根本不可能回答变量的“相关性”问题，因为普通变量与随机变量之间不存在“相关性”这一概念（问题在于，大多数的回归分析都是模型回归分析！）。此时，即使作者想描述2 2个变量间的“共变趋势”而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。第15页/共72页4 4 相关分析与回归分析的区别需要特别指出的是，回归分析中的R R2 2在数学上恰好是PearsonPearson积矩相关系数r r的平方。因此，这极易使作者们错误地理解R R2 2的含义，认为R R2 2就是“相关系数”或“相关系数的平方”。问题在于，对于自变

12、量是普通变量（即其取值有确定性的变量）、因变量为随机变量的模型回归分析，2 2个变量之间的“相关性”概念根本不存在，又何谈“相关系数”呢？更值得注意的是，一些早期的教科书作者不是用R R2 2来描述回归效果（拟合程度，拟合度）的，而是用PearsonPearson积矩相关系数来描述。这就更容易误导读者。第16页/共72页5 5 重要的数理统计学常识5.1 5.1 假设检验基本思想v统计推断：是根据样本数据推断总体特征的一种方法。v假设检验：是进行统计推断的途径之一（另一种途径是参数估计，如点估计和区间估计）。v假设检验中的关键问题：1 1）在原假设成立的情况下，如何计算样本值或某一极端值发生的

13、概率？2 2）如何界定小概率事件？第17页/共72页5.1 5.1 假设检验基本思路首先，对总体参数值提出假设（原假设）；然后，利用样本数据提供的信息来验证所提出的假设是否成立（统计推断）如果样本数据提供的信息不能证明上述假设成立，则应拒绝该假设；如果样本数据提供的信息不能证明上述假设不成立，则不应拒绝该假设。接受或拒绝原假设的依据小概率事件不可能发生。显然，这样做是有风险的（小概率事件真的发生了）。第18页/共72页5.1 5.1 假设检验基本步骤1 1）提出原假设（或称“零假设”，H H0 0）；2 2）选择检验统计量；3 3）根据样本数据计算检验统计量观测值的发生概率（相伴概率，p p

14、）；4 4）根据给定的小概率事件界定标准（显著性水平，如0.050.05，0.010.01）做出统计推断。第19页/共72页5.1 5.1 假设检验基本步骤：为什么要设计并计算检验统计量？v在假设检验中，样本值（或更极端的取值）发生的概率不能直接通过样本数据计算，而是通过计算检验统计量观测值的发生概率而间接得到的。v所设计的检验统计量一般服从或近似服从某种已知的理论分布（如t-t-分布、F-F-分布、卡方分布），易于估算其取值概率。v对于不同的假设检验和不同的总体，会有不同的选择检验统计量的理论和方法。第20页/共72页5.1 5.1 假设检验基本步骤：计算检验统计量观测值的发生概率在假定

15、原假设成立的前提下，利用样本数据计算检验统计量观测值发生的概率（即p p值，又称“相伴概率”指该检验统计量在某个特定的极端区域在原假设成立时的概率）。该概率值间接地给出了在原假设成立的条件下样本值（或更极端值）发生的概率。第21页/共72页5.1 5.1 假设检验进行统计推断依据预先确定的“显著性水平”（即值），如0.010.01或0.050.05，决定是否拒绝原假设。如果p p值小于值，即认为原假设成立时检验统计量观测值的发生是小概率事件，则拒绝原假设。否则，就接受原假设。第22页/共72页5.2 5.2 显著性水平：概念与意义v在假设检验中，显著性水平（Significant Signif

16、icant levellevel，用表示）的确定是假设检验中至关重要的问题。v显著性水平是在原假设成立时检验统计量的制落在某个极端区域的概率值。因此，如果取=0.050.05，如果计算出的p p值小于，则可认为原假设是一个不可能发生的小概率事件。当然，如果真的发生了，则犯错误的可能性为5%5%。显然，显著性水平反映了拒绝某一原假设时所犯错误的可能性，或者说，是指拒绝了事实上正确的原假设的概率。第23页/共72页5.2 5.2 显著性水平：通常的取值v值一般在进行假设检验前由研究者根据实际的需要确定。v常用的取值是0.050.05或0.010.01。对于前者，相当于在原假设事实上正确的情况下，

17、研究者接受这一假设的可能性为95%95%；对于后者，则研究者接受事实上正确的原假设的可能性为99%99%。v显然，降低值可以减少拒绝原假设的可能性。因此，在报告统计分析结果时，必须给出值。第24页/共72页5.2 5.2 显著性水平：进行统计推断v在进行假设检验时，各种统计软件均会给出检验统计量观测值以及原假设成立时该检验统计量取值的相伴概率（即检验统计量某特定取值及更极端可能值出现的概率，用p p表示）。vp p值是否小于事先确定的值，是接受或拒绝原假设的依据。v如果p p值小于事先已确定的值，就意味着检验统计量取值的可能性很小，进而可推断原假设成立的可能性很小，因而可以拒绝原假设。相反，如

18、果p p值大于事先已确定的值，就不能拒绝原假设。第25页/共72页5.3 5.3 统计推断：过去的回忆1 1）在计算机技术十分发达，以及专业统计软件功能十分强大的今天，计算检验统计量及其相伴概率是一件十分容易的事情。2 2）然而，在2020世纪9090年代以前，只有服从标准正态分布的检验统计量，人们可以直接查阅事先准备好的标准正态分布函数表，从中获得特定计算结果的相伴概率。而对于的服从t-t-分布、F-F-分布、卡方分布或其它特殊的理论分布的检验统计量（大多数的假设检验是这样），人们无法直接计算相伴概率。人们通常查阅各类假设检验的临界值表进行统计推断。这些表格以自由度和很少的几个相伴概率（通常

19、为0.10.1、0.050.05和0.010.01）为自变量，以检验统计量的临界值为函数排列。第26页/共72页5.3 5.3 统计推断：过去的回忆3 3）在进行统计推断时，人们使用上述临界值表根据事先确定的显著性水平，查阅对应于某一自由度和特定相伴概率的检验统计量的临界值，然后将所计算出的检验统计量与该临界值相比较。如果检验统计量的计算值大于临界值，即实际的相伴概率小于事先规定的显著性水平，便可拒绝原假设。否则，可接受原假设。第27页/共72页5.4 5.4 显著性水平：举例v在根据显著性水平进行统计推断时，应注意原假设的性质。v以二元相关分析为例，相关分析中的原假设是“相关系数为零”（即2

20、 2个随机变量间不存在显著的相关关系）。如果计算出的检验统计量的相伴概率（p p值）低于事先给定值（如0.050.05），就可以认为“相关系数为零”的可能性很低，既2 2个随机变量之间存在显著的相关关系。v在正态分布检验时，原假设是“样本数据来自服从正态分布的总体”。此时，如果计算出的检验统计量的相伴概率（p p值）低于事先给定值（如0.050.05），则表明数据不服从正态分布。只有p p值高于值时，数据才服从正态分布。这与相关分析的假设检验不同。第28页/共72页5.4 5.4 显著性水平：举例v作者在描述相关分析结果时常有的失误是：仅给出相关系数的值，而不给出显著性水平。这就无法判断2 2

21、个随机变量间的相关性是否显著。v有时作者不是根据显著性水平判断相关关系是否显著，而是根据相关系数的大小来推断（相关系数越近1 1，则相关关系越显著）。问题是，相关系数本身是一个基于样本数据计算出的观测值，其本身的可靠性尚需检验。v此外，作者在论文中常常用“显著相关”和“极显著相关”来描述相关分析结果，即认为p p值小于0.050.05就是显著相关关系（或显著相关），小于0.010.01就是极显著相关关系（或极显著相关）。第29页/共72页5.5 5.5 统计推断的注意事项在假设检验中，只有“显著”和“不显著”，没有“极显著”这样的断语。只要计算出的检验统计量的相伴概率（p p值）低于事先确定的

22、值，就可以认为检验结果“显著”（相关分析的原假设是“相关系数为零”，故此处的“显著”实际意味着“相关系数不为零”，或说“2 2个随机变量间有显著的相关关系”）；同样，只要计算出的检验统计量的相伴概率（p p值）高于事先确定的值，就可以认为检验结果“不显著”。第30页/共72页5.5 5.5 统计推断的注意事项在进行相关分析时，不能同时使用0.050.05和0.010.01这2 2个显著性水平来决定是否拒绝原假设，只能使用其中的1 1个。第31页/共72页有关相关分析的断语1 1）显著和不显著：描述相关关系是否存在。2 2）相关性强或不强：在存在相关关系的前提下，这种相关关系的强或弱。可以认为，

23、相关系数越接近1 1，则相关性越强。声明：第1 1）条是公认的数理统计常识，但第2 2）条是个人理解，仅供参考。本文不对第2 2）条承担责任。第32页/共72页6 6重要的数理统计学常识1 1）假设检验统计推断：单侧检验与双侧检验对于假设检验，其检验统计量的异常取值有2 2个方向，即概率分布曲线的左侧（对应于过小的值）和右侧（对应于过大的值）。第33页/共72页检验统计量的极端取值检验统计量在左侧和右侧均有可能取值检验统计量的取值空间检验统计量的取值空间第34页/共72页单侧检验与双侧检验v一般情况下，概率分布函数曲线两侧尾端的小概率事件都要考虑（即双侧检验）。如果事先有把握确定其中的一侧不可

24、能取值，则仅需对另一侧的小概率事件进行检验即可（单侧检验）。v在用“查表法”进行统计推断时，基于单侧小概率事件检验的临界值表称“单尾表”，基于双侧小概率事件检验的临界值表称“双尾表”。除t-t-分布临界值表是双尾表外，大多数的检验临界值表均为单尾表。第35页/共72页单侧检验与双测检验v在显著性水平一定的情况下（例如=0.05=0.05），对于单尾表，单侧检验时仍使用进行统计推断，双侧检验则用/2/2进行统计推断；对于双尾表，单侧检验时改用2 2进行统计推断，双侧检验则用进行统计推断。v在统计软件（如SPSSSPSS或SASSAS统计软件）给出的计算结果中，已标注出所计算的相伴概率是单侧还是

25、双侧，对应于上述的单尾表和双尾表。第36页/共72页单侧检验与双侧检验以下是SPSS SPSS 中的单样本t t检验输出结果：vOne-Sample TestOne-Sample Test（原假设：储户1 1次平均存取的现金与20002000元无显著差异）vTest Value=2000Test Value=2000（均值比较的参比值）vt=1.240(t=1.240(检验统计量的观测值)vdf=312(df=312(自由度，样本量N=313)N=313)vSig.(2-tailed)=0.216Sig.(2-tailed)=0.216（双侧相伴概率p p ）vMean Difference=

26、473.78Mean Difference=473.78（均值的标准误差）v95%Confidence Interval of the Difference95%Confidence Interval of the Difference（总体均值与原假设值之差的95%95%的置信区间）:-:-278.131225.69278.131225.69（有95%95%的把握可认为：储户1 1次平均存取的金额为1721.873225.691721.873225.69元）第37页/共72页单侧检验与双侧检验上述检验属“均值比较”，是双侧检验（大于或小于20002000元都算拒绝原假设），计算的相伴概率也是

27、双侧的。因此，可直接用p p与比较。取=0.05,0.05,则因p p大于，故不能拒绝原假设（不是小概率事件）。统计推断结果：根据313313个储户调查数据，每个储户一次平均存取金额大体为20002000元。第38页/共72页单侧检验与双侧检验在统计软件中，可通过选择Test of SignificanceTest of Significance选项来控制所输出的相伴概率是单尾（1 tailed1 tailed）概率还是双尾（2 tailed 2 tailed）概率。第39页/共72页6 6重要的数理统计学常识2 2）正态分布检验v目的：检验样本是否来自正态分布的总体v原假设：样本来自正态分布

28、的总体v分布检验只能使用非参数方法（只有分布形式已知时才能使用参数方法）。v不同的统计软件给出了不同的检验方法。第40页/共72页正态分布检验v在SASSAS中，提供了Shapiro-Wilk(Shapiro-Wilk(适用于样本量小于5050的情形)检验法。此检验无单尾、双尾之分。v在SPSSSPSS中提供了卡方检验（Chi-Square TestChi-Square Test）和单样本的 Kolmogorov-Kolmogorov-Smirnov(Smirnov(柯尔莫哥洛夫-斯米尔诺夫，简称K-S)K-S)检验。后者比前者精确一些，建议采用。第41页/共72页正态分布检验单样本的 Kol

29、mogorov-Smirnov(Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫，简称K-S)K-S)检验属于双侧检验，计算检验统计量（Z Z）的双尾概率。第42页/共72页6 6 重要的数理统计学常识3)3)均值比较a)a)将样本均值与某一特定值相比：t-t-检验（参数检验）原假设：总体均值与特定值无显著差异前提：样本来自正态分布的总体双侧检验：是否等于。单侧检验：已知不可能大于（或不可能小于），检验是否等于。b)b)比较2 2个独立样本均值：t-t-检验（参数检验）原假设：2 2个样本所代表的2 2个总体的均值无显著差异用于对2 2个来自正态分布总体的样本的大小进行比较，且2

30、 2个样本相互独立（无相关关系）。改检验有单侧和双侧之分。第43页/共72页6 6 重要的数理统计学常识3)3)均值比较c)c)比较2 2个独立总体大小的非参数检验适用于对2 2个顺序变量的大小进行比较或对2 2个不服从正态分布的数值变量的大小进行比较“Mann-Whitney U”Mann-Whitney U”检验:适合样本量较大的样本。“WilcoxonWilcoxon秩和”检验：与“Mann-Whitney U”Mann-Whitney U”检验在本质上完全等价。KolmogorovKolmogorov单侧检验：适用于样本量较小的样本。第44页/共72页6 6 重要的数理统计学常识3)3

31、)均值比较d)d)比较多个来自正态分布总体的样本均值的检验方法：单因子方差分析（single-factor anovasingle-factor anova）。对于将因子作为固定处理（而不是随机变量）的情形，即模型1 1单因子方差分析，实际上可以看作比较2 2个总体均值的t-t-检验的直接推广。该方法属于参数检验。有关假定：多个样本相互独立、样本均服从正态分布、方差同质性（各个样本的方差大小没有显著差异）等。原假设：各样本的均值间无显著差异，即某影响因子的不同取值（等级）对各样本的大小没有影响。第45页/共72页6 6 重要的数理统计学常识3)3)均值比较d)d)比较多个来自非正态分布总体的样

32、本均值的检验方法：Kruskal-WallisKruskal-Wallis检验：该方法基于顺序变量设计，用于检验3 3个以上独立样本是否来自大小相同的总体，是应用最广泛的非参数检验方法。推广的中位数检验：用于检验3 3个以上的独立样本是否来自中位数无显著差异的样本。该方法检验功效低，不推荐采用。原假设：各独立样本所代表的总体的中位数无显著差异。FriedmanFriedman秩方差分析：用于检验3 3个以上相关样本是否来自大小相同的总体。第46页/共72页临床研究中患者脱落或剔除的分析方法47第47页/共72页定量资料统计方法的合理选择48第48页/共72页49第49页/共72页定性资料统计分

33、析方法选择50第50页/共72页51第51页/共72页多元统计分析方法的选择52第52页/共72页误用t检验处理单因素k水平设计53第53页/共72页54本例仅涉及一个实验因素，即阶段，而且是一个重复测量因素不可误认为单因素3水平设计第54页/共72页22析因设计55第55页/共72页本例涉及剂量和给药后时间两个实验因素给药后时间是一个重复测量因素因采用协方差分析，其中第1个时间点数据作为协变量56具有一个重复测量的两因素设计具有一个重复测量的两因素设计第56页/共72页方差分析方差分析方差分析方差分析方差分析基本概念方差分析将多组数据作为一个整体，将总变异分解成各个变异来源的平方和自由度，估

34、计各个变异来源的方差，利用F测验鉴别组间差异的显著性。这是最广为应用的数据统计分析方法。在SPSS中，用于方差分析的过程主要是means 和 univariate 两个过程，前者主要为单向分组资料，后者为两向分组（或多因素）资料。第57页/共72页协方差分析协协方方差差分分析析是是将将回回归归分分析析和和方方差差分分析析相相结结合合的的一一种种统统计计分分析析方方法法，其其主主要要的的功功用用是是对对试试验验误误差差进进行行统统计计控控制制。将将无无法法或或很很难难控控制制的的因因素素作作为为协协变变数数，利利用用线线性性回回归归排排除除协协变变数数的的影影响响，使使目目标变数的分析更精确。标

35、变数的分析更精确。协方差分析的主要功用：协方差分析的主要功用：测验多个回归系数测验多个回归系数b bi i的差异显著性；的差异显著性；矫正处理平均数并测验其差异显著性；矫正处理平均数并测验其差异显著性；作出不同变异来源的相关分析。作出不同变异来源的相关分析。第58页/共72页例：为研究A、B、C三种肥料对于苹果的增产效果，选了24株同龄的苹果树，第一年记下各树的产量（X，公斤），第二年将每种肥料随机施于8株苹果上，再记下其产量（Y，公斤）。得结果于下表，试作分析。肥料肥料观察值（观察值（X，Y）AX4758534649565444Y5466635156666150BX5253645859616

36、366Y5453676262636469CX4448465059575853Y5258546170646866第59页/共72页【Analyze】，【General Linear Model】，【Univariate】Dependent Variable框：施肥产量Fixed Factors框：分组变量Covariates框：初始产量OptionsDescriptive StatisticsDisplay means for框：分组变量Compare Main effectsContinueOK第60页/共72页样本含量与检验效能的估计在实验开始前，应确定需要多少实验对象或观察对象，这就是样本

37、含量的估计。有时我们需要判断在已有样本量条件下，有多大把握(检验效能)可以发现总体间存在的差异。样本含量估计和检验效能是一个问题的两个方面。第61页/共72页Stata用于样本含量和检验效能的估计主要命令是sampsi(即sample size and power)，可用于以下五种情形：(1)两样本均数的比较；(2)单样本均数与已知总体均数的比较；(3)两样本率的比较；(4)单样本率与已知总体率的比较；(5)重复测量设计。命令格式为：Sampsi#1#2,一般选择项重复测量选择项第62页/共72页优劣性临床试验的样本量计算计数指标采用以下公式计算:n=(U+U)22P（1P）/(P1P0)2

38、以抗病毒作用为例：血清HBeAg的自然阴转率为15，阴转率达到30 值：当试验结果呈阳性时，我们下结论犯错误(假阳性错误)的可能性，0.05或0.01值：即检验效能，1020还需估计试验中病人退出的比例，20%第63页/共72页P=(P1+P0)/2100(30+15)2100=22.5n=(1.65+1.28)220225(10.225)(0.30.15)2133加上10的退出病例(约26例)即每组约各需146例第64页/共72页计数指标采用以下公式计算:n=22f（，）/（12）2例：某试验用中药治疗糖尿病，观察对血糖水平的影响。测得空腹血糖水平为9.7mmoll(标准差为2.1)，现采用

39、中药治疗，期望能将血糖水平降至8.3mmol/l。假设0.05，0.1第65页/共72页Company Logo样本估算公式中样本估算公式中f f（,)值值0.05 0.10.20.50.0510.88.66.22.70.02513.010.57.93.80.0115.813.010.05.40.00517.814.911.76.6(Type II error)(Type I error)第66页/共72页查上表后，代入公式得：n2(2.1)210.5(9.78.3)247加上退出与失访10(约10例)则该试验所需样本总例数应为104例(每组各需52例)第67页/共72页等效性临床试验的样本量

40、计算计数资料的样本量计算n=2p（100p）f（，）/d2例如，欲验证某中药治疗慢性乙型肝炎的抗病毒作用与西药干扰素的效应相当，试验以血清HBeAg阴转率作为评价指标。已知干扰素治疗慢性乙型肝炎HBeAg阴转率可达50，预计该中药的阴转效果不低于干扰素的5(95的可信性)，要验证两者的HBeAg阴转效果相当第68页/共72页 p代表标准治疗所预期的疗效(本例为50)d代表试验药物与标准治疗比较可接受的差异(本例为5)取0.05，0.2，则(查表)f(，)为7.9n250（10050）7.9/52 1 580疗效差异越接近，所需样本量将会越大。第69页/共72页计量资料结局样本量计算(双侧检验)

41、的公式如下：n=2S2/2Z(1-)+Z(1-)/22n代表每个治疗组的样本量；s表示均值的标准差；表示对照组均值(R)与试验组均值(T)的差(=|RT|)，也就是研究人员认为可接受的差值范围；常数Z(1-)Z（10.025）1.96，常数Z(1-)/2z（10.2/2）1.28。第70页/共72页例如：试验两种气雾吸人剂缓解哮喘发作的疗效是否相等。采用95可信区间(双侧检验)作为判断等效的允许变异范围。结局测量指标为晨间呼出气流峰值(Lmin)。根据以往的试验估计，15 Lmin为允许的差异范围(即正负值均不超过15为等效)；晨间呼出气流峰值的标准差(s)为40 Lmin。该试验的把握度(1)为80，则每组的样本量根据上述公式计算得：n=2402152(1.96+1.28)2=150第71页/共72页感谢您的观看！第72页/共72页

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计分析方法选择

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：统计分析方法的选择.pptx
链接地址：https://www.taowenge.com/p-87479943.html