统计分析方法的选择.pptx





《统计分析方法的选择.pptx》由会员分享,可在线阅读,更多相关《统计分析方法的选择.pptx(72页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数理统计问题的重要性v在科学研究中,经常会涉及到对随机变量大小、离散及分布特征的描述以及对2 2个或多个随机变量之间的关系描述问题。v对随机变量及随机变量之间的关系进行定量描述的数学工具就是数理统计学。v在科学研究中,能否正确使用各种数理统计方法关系到所得出结论的客观性和可信性。v目前,国内科技期刊对稿件中数理统计方法问题的重视程度存在差异。第1页/共72页1 1 统计软件的选择 v统计分析通常涉及大量的数据,需要较大的计算工作量。v在进行统计分析时,尽管作者可以自行编写计算程序,但在统计软件很普及的今天,这样做是毫无必要的。v出于对工作效率以及对算法的通用性、可比性的考虑,一些学术期刊要求作
2、者采用专门的数理统计软件进行统计分析。第2页/共72页1 1 统计软件的选择问题:作者未使用专门的数理统计软件,而采用ExcelExcel这样的电子表格软件进行数据统计分析。v由于电子表格软件提供的统计分析功能十分有限,只能借助它进行较为简单的统计分析,故我们不主张作者采用这样的软件进行统计分析。第3页/共72页1 1 统计软件的选择v目前,国际上已开发出的专门用于统计分析的商业软件很多,比较著名有SPSS(Statistical Package for SPSS(Statistical Package for Social Sciences)Social Sciences)和SAS(Stat
3、istical Analysis SAS(Statistical Analysis System)System)。此外,还有STATASTATA和BMDPBMDP等。vSPSSSPSS是专门为社会科学领域的研究者设计的,但此软件在自然科学领域也得到广泛应用。StataStata和SASSAS、SPSSSPSS一起被并称为新的三大权威统计软件,WHOWHO的研究人员也把StataStata作为最主要的统计分析工作软件第4页/共72页2.1 2.1 均值的计算 :理论问题v1 1)均值(准确的称呼应为“样本均值”)的统计学意义:反映随机变量样本的大小特征。v2 2)均值对应于随机变量总体的数学期望
4、总体的数学期望客观上决定着样本的均值,反过来,通过计算样本的均值可以描述总体的数学期望。第5页/共72页2.1 2.1 均值计算:理论问题(续)v3 3)在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。v4 4)为找到代表这些观测值总体大小特征的代表值(统计量,该统计量根据样本数据算出),多数作者会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的不一定总是正确的第6页/共72页2.2 2.2 均值计算:技术问题v在数理统计学中,作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。v何时用算
5、术平均值?何时用几何平均值?以及何时用中位数?这不能由研究者根据主观意愿随意确定,而要根据随机变量的分布特征确定。第7页/共72页2.2 2.2 均值计算:技术问题(续)v反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其数学期望就可以用样本的算术平均值描述。此时,可用样本的算术平均值描述随机变量的大小特征。v如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则几何平均值就是数学期望的值。此时,就可以计算变量的几何平均值。v如果随机变量既不服从正态分布
6、也不服从对数正态分布,校正无效,则应该采用非参数检验。第8页/共72页2.32.3参数统计和非参数统计优缺点参数统计优点:对资料的分析利用充分 统计分析的效率高缺点:对资料的要求高 适用范围有限非参数统计优点:对资料的没有特殊要求 不受分布的影响(偏态、分布不明的资料)不受方差齐性的限制 不受变量类型的影响 不受样本量的影响缺点:检验效率低(易犯型错误)对信息的利用不充分。第9页/共72页3 3相关分析v在相关分析的前提是需要作出散点图。v常犯的错误是:简单地计算Pearson Pearson 积矩相关系数,而且既不给出正态分布检验结果,也往往不明确指出所计算的相关系数就是Pearson Pe
7、arson 积矩相关系数。v在数理统计学中,除有针对数值变量设计的Pearson Pearson 积矩相关系数(对应于“参数方法”)外,还有针对顺序变量(即“秩变量”)设计的SpearmanSpearman秩相关系数和KendallKendall秩相关系数(对应于“非参数方法”)等。vPearson Pearson 积矩相关系数可用于描述2 2个随机变量的线性相关程度,SpearmanSpearman或KendallKendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。第10页/共72页3 3 相关分析:相关系数的选择在相关分析中,计算各种相关系数是有前提条件的。
8、在相关分析中,对于秩变量,一般别无选择,只能计算SpearmanSpearman或KendallKendall秩相关系数。对于数值变量,只要条件许可,应尽量使用检验功效最高的参数方法,即计算用Pearson Pearson 积矩相关系数。只有计算Pearson Pearson 积矩相关系数的前提不存在时,才考虑退而求其次,计算专门为秩变量设计的SpearmanSpearman或KendallKendall秩相关系数(尽管这样做会导致检验功效的降低)。第11页/共72页4 4 相关分析与回归分析的区别1 1)最常见的错误是:用回归分析的结果解释相关性问题。例如,作者将“回归直线(曲线)图”称为“
9、相关性图”或“相关关系图”;将回归直线的R R2 2(拟合度,或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”;根据回归分析的结果宣称2 2个变量之间存在正的或负的相关关系。第12页/共72页4 4 相关分析与回归分析的区别相关分析与回归分析均为研究2 2个或多个变量间关联性的方法,但2 2种数理统计方法存在本质的差别,即它们用于不同的研究目的。相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。第13页/共72页4 4 相关分析与回归分析的区别如果自变量是普通变量,即模型回归分析,采用的回归方法就是最为常用的最小二乘
10、法。如果自变量是随机变量,即模型回归分析,所采用的回归方法与计算者的目的有关。在以预测为目的的情况下,仍采用“最小二乘法”(但精度下降最小二乘法是专为模型 设计的,未考虑自变量的随机误差);在以估值为目的(如计算可决系数、回归系数等)的情况下,应使用相对严谨的方法(如“主轴法”、“约化主轴法”或“BartlettBartlett法”)。第14页/共72页4 4 相关分析与回归分析的区别显然,对于回归分析,如果是模型回归分析,鉴于两个随机变量客观上存在“相关性”问题,只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段,因此,若以预测为目的,最好不提“相关性”问题;若以
11、探索两者的“共变趋势”为目的,应该改用相关分析。如果是模型回归分析,就根本不可能回答变量的“相关性”问题,因为普通变量与随机变量之间不存在“相关性”这一概念(问题在于,大多数的回归分析都是模型回归分析!)。此时,即使作者想描述2 2个变量间的“共变趋势”而改用相关分析,也会因相关分析的前提不存在而使分析结果毫无意义。第15页/共72页4 4 相关分析与回归分析的区别需要特别指出的是,回归分析中的R R2 2在数学上恰好是PearsonPearson积矩相关系数r r的平方。因此,这极易使作者们错误地理解R R2 2的含义,认为R R2 2就是“相关系数”或“相关系数的平方”。问题在于,对于自变
12、量是普通变量(即其取值有确定性的变量)、因变量为随机变量的模型回归分析,2 2个变量之间的“相关性”概念根本不存在,又何谈“相关系数”呢?更值得注意的是,一些早期的教科书作者不是用R R2 2来描述回归效果(拟合程度,拟合度)的,而是用PearsonPearson积矩相关系数来描述。这就更容易误导读者。第16页/共72页5 5 重要的数理统计学常识5.1 5.1 假设检验基本思想v统计推断:是根据样本数据推断总体特征的一种方法。v假设检验:是进行统计推断的途径之一(另一种途径是参数估计,如点估计和区间估计)。v假设检验中的关键问题:1 1)在原假设成立的情况下,如何计算样本值或某一极端值发生的
13、概率?2 2)如何界定小概率事件?第17页/共72页5.1 5.1 假设检验基本思路首先,对总体参数值提出假设(原假设);然后,利用样本数据提供的信息来验证所提出的假设是否成立(统计推断)如果样本数据提供的信息不能证明上述假设成立,则应拒绝该假设;如果样本数据提供的信息不能证明上述假设不成立,则不应拒绝该假设。接受或拒绝原假设的依据 小概率事件不可能发生。显然,这样做是有风险的(小概率事件真的发生了)。第18页/共72页5.1 5.1 假设检验基本步骤1 1)提出原假设(或称“零假设”,H H0 0);2 2)选择检验统计量;3 3)根据样本数据计算检验统计量观测值的发生概率(相伴概率,p p
14、);4 4)根据给定的小概率事件界定标准(显著性水平,如0.050.05,0.010.01)做出统计推断。第19页/共72页5.1 5.1 假设检验 基本步骤:为什么要设计并计算检验统计量?v在假设检验中,样本值(或更极端的取值)发生的概率不能直接通过样本数据计算,而是通过计算检验统计量观测值的发生概率而间接得到的。v所设计的检验统计量一般服从或近似服从某种已知的理论分布(如t-t-分布、F-F-分布、卡方分布),易于估算其取值概率。v对于不同的假设检验和不同的总体,会有不同的选择检验统计量的理论和方法。第20页/共72页5.1 5.1 假设检验基本步骤:计算检验统计量观测值的发生概率 在假定
15、原假设成立的前提下,利用样本数据计算检验统计量观测值发生的概率(即p p值,又称“相伴概率”指该检验统计量在某个特定的极端区域在原假设成立时的概率)。该概率值间接地给出了在原假设成立的条件下样本值(或更极端值)发生的概率。第21页/共72页5.1 5.1 假设检验进行统计推断依据预先确定的“显著性水平”(即值),如0.010.01或0.050.05,决定是否拒绝原假设。如果p p值小于值,即认为原假设成立时检验统计量观测值的发生是小概率事件,则拒绝原假设。否则,就接受原假设。第22页/共72页5.2 5.2 显著性水平:概念与意义v在假设检验中,显著性水平(Significant Signif
16、icant levellevel,用表示)的确定是假设检验中至关重要的问题。v显著性水平是在原假设成立时检验统计量的制落在某个极端区域的概率值。因此,如果取=0.050.05,如果计算出的p p值小于 ,则可认为原假设是一个不可能发生的小概率事件。当然,如果真的发生了,则犯错误的可能性为5%5%。显然,显著性水平反映了拒绝某一原假设时所犯错误的可能性,或者说,是指拒绝了事实上正确的原假设的概率。第23页/共72页5.2 5.2 显著性水平:通常的取值v值一般在进行假设检验前由研究者根据实际的需要确定。v常用的取值是0.050.05或0.010.01。对于前者,相当于在原假设事实上正确的情况下,
17、研究者接受这一假设的可能性为95%95%;对于后者,则研究者接受事实上正确的原假设的可能性为99%99%。v显然,降低值可以减少拒绝原假设的可能性。因此,在报告统计分析结果时,必须给出值。第24页/共72页5.2 5.2 显著性水平:进行统计推断v在进行假设检验时,各种统计软件均会给出检验统计量观测值以及原假设成立时该检验统计量取值的相伴概率(即检验统计量某特定取值及更极端可能值出现的概率,用p p表示)。vp p值是否小于事先确定的值,是接受或拒绝原假设的依据。v如果p p值小于事先已确定的值,就意味着检验统计量取值的可能性很小,进而可推断原假设成立的可能性很小,因而可以拒绝原假设。相反,如
18、果p p值大于事先已确定的值,就不能拒绝原假设。第25页/共72页5.3 5.3 统计推断:过去的回忆1 1)在计算机技术十分发达,以及专业统计软件功能十分强大的今天,计算检验统计量及其相伴概率是一件十分容易的事情。2 2)然而,在2020世纪9090年代以前,只有服从标准正态分布的检验统计量,人们可以直接查阅事先准备好的标准正态分布函数表,从中获得特定计算结果的相伴概率。而对于的服从t-t-分布、F-F-分布、卡方分布或其它特殊的理论分布的检验统计量(大多数的假设检验是这样),人们无法直接计算相伴概率。人们通常查阅各类假设检验的临界值表进行统计推断。这些表格以自由度和很少的几个相伴概率(通常
19、为0.10.1、0.050.05和0.010.01)为自变量,以检验统计量的临界值为函数排列。第26页/共72页5.3 5.3 统计推断:过去的回忆3 3)在进行统计推断时,人们使用上述临界值表根据事先确定的显著性水平,查阅对应于某一自由度和特定相伴概率的检验统计量的临界值,然后将所计算出的检验统计量与该临界值相比较。如果检验统计量的计算值大于临界值,即实际的相伴概率小于事先规定的显著性水平,便可拒绝原假设。否则,可接受原假设。第27页/共72页5.4 5.4 显著性水平:举例v在根据显著性水平进行统计推断时,应注意原假设的性质。v以二元相关分析为例,相关分析中的原假设是“相关系数为零”(即2
20、 2个随机变量间不存在显著的相关关系)。如果计算出的检验统计量的相伴概率(p p值)低于事先给定值(如0.050.05),就可以认为“相关系数为零”的可能性很低,既2 2个随机变量之间存在显著的相关关系。v在正态分布检验时,原假设是“样本数据来自服从正态分布的总体”。此时,如果计算出的检验统计量的相伴概率(p p值)低于事先给定值(如0.050.05),则表明数据不服从正态分布。只有p p值高于值时,数据才服从正态分布。这与相关分析的假设检验不同。第28页/共72页5.4 5.4 显著性水平:举例v作者在描述相关分析结果时常有的失误是:仅给出相关系数的值,而不给出显著性水平。这就无法判断2 2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计分析 方法 选择

限制150内