现代统计分析方法概述.ppt
知知知知识识管理与数据分析管理与数据分析管理与数据分析管理与数据分析实验实验室室室室数据挖掘技数据挖掘技数据挖掘技数据挖掘技术专题术专题现代统计分析方法概述现代统计分析方法概述 2022/12/141知识管理与数据分析实验室知识管理与数据分析实验室主要内容2022/12/14知识管理与数据分析实验室知识管理与数据分析实验室2现代统计分析方法介绍常用统计分析方法举例 现代统计分析方法介绍 从高斯(C.F.Gauss)描述天文观测的误差而引进正态分布,并使用最小二乘法作为一种估计方法至今,现代统计的发展已有200多年的历史。统计学在分析数据、探索数据规律性、研究现实问题中已形成许多各具特点的思想方法。从研究问题的角度,可将现代统计分析方法分为四大类:分类分析方法、结构简化方法、相关分析方法、预测决策方法。统计分析方法应用的步骤及其流程 对统计分析方法的应用应从实际问题出发,明确具体问题和目标,然后确定理论以及相应的指标,在收集和整理数据的基础上构造满足需求的模型并进行统计计算,在对模型进行检验的基础上,对模型加以推广应用。常用统计分析方法举例正态分布区间估计和假设检验 回归分析方差分析正态分布 正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。因其曲线呈钟形,因此人们又经常称之为钟形曲线。其数学定义如下:若随机变量X的密度函数为则称X服从正态分布,称X为正态变量,记作。正态分布的分布函数为正态分布的历史正态分布最早是棣莫佛在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的分析概率论(Theorie Analytique des Probabilites)中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛拉普拉斯定理。拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。正态分布的应用 正态分布是很多统计方法的理论基础,正态分布在现实中的应用也是最为广泛的,包含自动控制、质量管理、医学管理、经济分析及评价、风险评估等多个方面。正态分布在自动控制、优化设计、包装或加工零件的精度等方面有着广泛的应用。正态分布的均值就是自动控制的设定值,方差就是自动控制的精度;方差越小,精度越高,系统的性能越好 质量控制方面,为了控制实验中的测量(或实验)误差,常以3作为上、下警戒值,以3作为上、下控制值。这样做可以保证正常情况下测量(或实验)误差服从正态分布 医学应用方面,某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理 经济分析及风险评估方面,正态分布在投入产出、经济分析、风险收益、风险价值度量等诸多方面的应用越来越广泛,为经济分析、经济评价以及风险评估提供了多样的方法选择,使评估结果更加科学 区间估计和假设检验 参数的区间估计和假设检验是两种最重要的统计推断形式,掌握这两种方法对做出正确的统计推断至关重要 区间估计区间估计 设是总体的一个参数,是样本,所谓区间估计就是要找两个统计量和,使得,在得到样本观测值之后,就把估计在区间内 假设检验假设检验 假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断 区间估计置信区间:置信区间:设是总体的一个参数,其参数空间为,是来自该总体的样本,若有两个统计量和若对任意的,有,则称随机区间为 的置信水平的置信区间 对给定的一个为置信水平置信水平的频率解释:的频率解释:在大量重复使用的置信区间时,每次得到的样本观测值是不同的,从而每次得到的区间估计值也是不一样的,对一次具体的观测值而言,可能在 内,也可能不在。平均而言,在这大量的区间估计观测值中,至少有 包含假设检验 假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P0.01或P0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立 假设检验的一般步骤:假设检验的一般步骤:应注意的问题应注意的问题 1、做假设检验之前,应注意资料本身是否有可比性。2、当差别有统计学意义时应注意这样的差别在实际应用中有无意义。3、根据资料类型和特点选用正确的假设检验方法。4、根据专业及经验确定是选用单侧检验还是双侧检验。5、当检验结果为拒绝无效假设时,应注意有发生I类错误的可能性,即错误地拒绝了本身成立的H0,发生这种错误的可能性预先是知道的,即检验水准那么大;当检验结果为不拒绝无效假设时,应注意有发生II类错误的可能性,即仍有可能错误地接受了本身就不成立的H0,发生这种错误的可能性预先是不知道的,但与样本含量和I类错误的大小有关系。6、判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性。7、报告结论时是应注意说明所用的统计量,检验的单双侧及P值的确切范围。参数的区间估计与假设检验的关系 参数的区间估计与假设检验的关系参数的区间估计与参数的假设检验虽然提法不同,但解决问题的途径是相通的,统计推断的思想方法是一样的,都是基于样本信息来推断总体的性质,即用部分来推断总体。它们都是选取一个统计量,然后使这个统计量落在某个已知区间上的概率很小由此得到的结果 1、参数估计解决的是多少(或范围)问题,假设检验则判断结论是否成立。前者解决的是定量问题,后者解决的是定性问题。2、两者的要求各不相同。区间估计确定在一定概率保证程度下给出未知参数的范围。而假设检验确定在一定的置信水平下,未知参数能否接受已给定的值。3、两者对问题的了解程度各不相同。进行区间估计之前不了解未知参数的有关信息,而假设检验对未知参数的信息有所了解,但做出某种判断无确切把握。因而在实际应用中,究竟选择哪种方法进行统计推断,需要根据实际问题的情况确定相应的处理方法 二者之间的联系二者之间的区别回归分析 回归分析的概念及分类回归分析的概念及分类 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析 回归分析提出的背景回归分析提出的背景 早在19世纪,英国生物学家兼统计学家高尔顿在研究父与子身高的遗传问题时,观察了1078对父与子,用x表示父亲身高,y表示成年儿子的身高,发现将(x,y)点在直角坐标系中,这1078个点基本在一条直线附近,并求出了该直线的方程,这便是子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到数理统计的其他分支中。随着计算机的发展,各种统计软件的出现,回归分析的应用越来越广泛 回归分析的主要内容:回归分析的主要内容:从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。对这些关系式的可信程度进行检验。在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便 回归分析的应用:回归分析的应用:应用回归分析模型可以探求出两个变量之间的影响关系,最初时在身高遗传问题上应用一元线性回归分析模型,随着社会的不断发展,系统的复杂性不断增加,应用一元线性回归分析已经不能满足需求,于是出现了多元线性回归分析以及多元非线性回归分析模型。这些分析模型在分析复杂系统下一种现象的影响因素方面有很好的应用性,目前研究的方面包括临床统计数据分析、多因素影响下的回归分析、经济增长下的多因素影响分析等,涉及到经济社会发展的多个方面 一元线性回归分析模型一元线性回归分析模型 所谓一元线性回归分析,就是研究具有线性关系的两个变量相关关系的方法。在实际预测时,选取与预测量(Y)关系最紧密的一个影响因素作为自变量(X),建立回归方程拟合回归曲线,对参数进行统计检验,对预测值进行精度检验和置信区间的估计。在预测量(Y)的众多影响因素中选取一个关系最密切的因素作为自变量(X)。得到回归方程常见回归分析模型其中,和 为待估参数,称为随机误差(指除X对Y的线性影响外的其他各因素对Y的影响)。如果随机误差总体服从正态分布 我们可在X与Y的观测样本下以最小二乘法拟合回归曲线。这样的回归曲线且相互独立,满足残差平方和,方差分析 方差分析(Analysis of variance,简称ANOVA)是将总变异分裂为各个因素的相应变异,做出其数量估计,从而发现各个因素在变异中所占的重要程度,而且除了可控制因素所引起的变异后,其剩余变异又可提供试验误差的准确而无偏的估计,作为统计假设测验的依据 方差分析是判断多组数据(K3)之间平均数差异是否显著的一种假设测验方法。2个样本平均数可用 t 或U测验的方法来评定其差数的显著性。如果有K个平均数,且K3,若仍然用两两比较的方法来测验,则需要作K(K-1)/2次测验,如果K10,则需要45次测验,不但测验程序繁琐,而且在理论上,其显著水平已经扩大了。因此,对于多样本平均数的假设测验,需采用一种更为合适的统计方法,即方差分析法(Fisher,1923)方差分析的分类 方差分析主要有单因素方差分析、多因素方差分析以及协方差分析三种 单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析 单因素方差分析在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的 单因素方差分析原理:单因素方差分析基本步骤:1、提出原假设:H0无差异;H1有显著差异 2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。4、给定显著性水平,并做出决策 单因素方差分析的进一步分析:在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。方差齐性检验是对控制变量不同水平下各观测变量总体方差是否相等进行检验。SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。多因素方差分析 基本思想:多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合 分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。例子:在SPSS中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对多重比较检验和对比检验比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法,它将控制变量不同水平下的观测变量值看作来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异 多因素方差分析的其他功能:协方差分析 基本思想:不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响 原理:协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价