《2022年多元统计分析方法 .pdf》由会员分享,可在线阅读,更多相关《2022年多元统计分析方法 .pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析概述目录一、引言 , 3 二、多元统计分析方法的研究对象和主要内容,31.多元统计分析方法的研究对象, 32.多元统计分析方法的主要内容, 3三、各种多元统计分析方法, 3 1.回归分析 , 3 2.判别分析, 6 3.聚类分析, 8 4.主成分分析 , 105.因子分析, 106. 对应分析方法, 117. 典型相关分析, 11 四、多元统计分析方法的一般步骤, 12 五、多元统计分析方法在各个自然领域中的应用, 12 六、总结 , 13参考文献 , 14 谢辞, 15 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - -
2、- 名师精心整理 - - - - - - - 第 1 页,共 14 页 - - - - - - - - - 1 一、引言统计分布 是用来刻画 随机变量特征及规律 的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布 基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中, 我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。二、 多元统计分析方法的研究对象和主要内容(一)多元统计分析方法的研究对象由于大量实际问题都涉及到多个变量,这些变量又是随机变量, 所以要讨论多个随机
3、变量的统计规律性。 多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多, 分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。
4、通过对多个随即便量观测数据的分析, 来研究随机变量总的特征、 规律以及随机变量之间的相互关系。所以,多元统计分析是研究多个随机变量之间相互依赖关系及内在统计规律的一门统计学科。(二)多元统计分析方法的主要内容近年来,随着统计理论研究的不断深入, 多元统计分析方法的内容一直在丰富。其中,主要内容包括多元正态总体参数估计、假设检验和常用的多元统计方法。多元正态总体参数估计、 假设检验是多元统计推断的核心和基础,而常用的多元统计分析方法则是具体应用。从形式上,常用多元统计分析方法可划分为两类:一类属于单变量常用的统计方法在多元随机变量情况下的推广和应用,如多元回归分析,典型相关分析等;另一类是对多元
5、变量本身进行研究所形成的一些特殊方法。如主成分分析,因子分析,聚类分析,判别分析,对应分析等。三、各种多元统计分析方法具体来说,常用的多元统计分析方法主要包括:多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。下面我们对各种多元统计分析方法就行分别描述,(一) 回归分析回归分析是最灵活最常用的统计分析方法之一,它用于分析一个因变量与一个或多个自变量之间的关系。特别是用于:(1)定量的描述和解释相互关系;(2)估测或预测因变量的值。回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变名师资料总结 - - -精品资料欢迎下载 - - - - - - -
6、 - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 14 页 - - - - - - - - - 2 量与其余变量的依赖关系。 如果只要考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题。 若要同时考察多个因变量与多个自变量之间的相互依赖关系,我们称为多因变量的多元回归问题。多元回归分析是研究因变量Y 与 m 个自变量12 mxx, x的相关关系,而且总是假设因变量Y 为随机变量,而12 mxx, x为一般变量。下面我们来看一下多元线性回归模型的建立。假 定 因 变 量Y与12 mxx, x线 性 相 关 。 收 集 到 的n
7、组 数 据(12,ttttmy xxx,) (t=1,2, n)满足以下回归模型:11022 +(1,2, )() 0,(),(,) 0()(0,),ttm tmtttijtyxxtnEVarCovijN或相互独立 (t=1,2,n).记C=11111(1)1mnnnmxxXxx,011212,nmnyyyY则所建回归模型的矩阵形式为2()(),0 ,nnYCEDI或2,(0,),nnY CNI并称它们为经典多元回归模型, 其中 Y 是可观测的随机向量,是不可观测的随机向量, C 是已知矩阵,2,是未知参数,并设nm,且 rank(C)=m+1。在经典回归分析中, 我们讨论模型中参数01(,)
8、m和2的估计和检验问题。近代回归分析中讨论变量筛选、估计的改进, 以及对模型中的一些假设进行诊断等问题。我国国内生产总值与基本建设投资额的大小有密切关系,研究发现两变量之间存在线性关系。 根据甘肃省 1990-2003年的国内生产总值与基本建设投资额数名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 14 页 - - - - - - - - - 3 据,研究它们的数量规律性, 探讨甘肃省基本建设投资额与国内生产总值的数量关系,原始数据见下表。年份GDP(亿元)基本建设投资
9、(亿元 )1990242.829.041991271.3933.961992317.7939.221993372.2442.891994451.6658.191995553.3562.621996714.18101.421997781.34121.741998869.75157.141999931.98187.492000983.36208.2820011072.51228.6320021161.43263.0620031304.6307.3利用 excel 进行分析,具体输出以下数据,平方和自由度方 差F 检验值回归1553189.711553189.7残差59475.667124956.3
10、056313.3765001离差1612665.413复 相 关 系 数R =.981386594345333剩 余 标 准 差SY =70.4010340269248回归方差与剩余方差之比F =313.376500123223各个自变量的t 检验值17.70244334t 检验的自由度N-P-1 =12F 检验的自由度第一自由度 =1,第二自由度 =12各个自变量的偏回归平方和1553189.7各个自变量的偏相关系数0.981386594由输出结果,得以下结论:回归方程为y=232.70+3.681x其中,负相关系数为2R 0.9814,说明回归方程拟合优度较高。而回归系数的名师资料总结 -
11、 - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 14 页 - - - - - - - - - 4 t=17.7024,查 t 分布表0.025(12)2.1788t,小于 t 值,因此回归系数显著。查F 分布表,0.05(1,12)F4.75,由下表知, F=313.37654.75 ,因此回归方程也显著。平方和自由度方 差F 检验值回归1553189.711553189.7313.3765001残差59475.667124956.3056离差1612665.413(二)判别分析判别分析
12、是多元统计分析中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成与若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。判别方法处理问题时, 通常通常要给出用来衡量新样品与各已知组别的接近程度的指数,即判别函数,同时也指定一种判别准则,借以判别新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、 Fisher 准则、贝叶斯准则等。距离判别的基本思想是:样品和那个总体距离最近,就判断它属于哪个总体。距离判别也称直观判别。已知有两个类1G 和2G,比如1G是设备 A 生产的产品,2G是设备 B 生产的同类产品。设
13、备 A 的产品质量高(如考察指标为耐磨度X) , 其平均耐磨度(1)=80,反映设备精度的方差21=0.25;设备 B 的产品质量稍差,其平均耐磨度2=75,反映设备精度的方差22=4。今有一产品0X,测得耐磨度0 x=78,试判断该产品是哪一台设备生产的?下面考虑一种相对于分散性的距离。记0X与1G或2G的相对平均距离为210()dx或220()dx,则有:210()dx=(1)22021()(7880)0.25x=16,220()dx=(2)22022()(7875)4.00 x=2.25。因为20()dx=1.54=10()dx,按这种距离准则应判0X为设备 B 生产的。一般的,我们假设
14、总体1G的分布为(1)21(,)N, 总体2G的分布为(2)22(,)N,则利用相对距离的定义,可以找出分界点和(不妨设(2)(1),10,则(1)1X1G( 第 一 类 ) 。又 如 , 第一 类 的 第 11 个 样 品(1)11X=(1.00,4.50,12.00)T,(1)11()X=-0.30830,故(1)11X2G(第二类)。将()X投入使用,可判别小麦品种的分蘖类型,如测得某小麦品种11x,23.43x,316.25x,则由()X=-2.91280 判别该品种为分蘖型。(三) 聚类分析聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。聚类分析时,用来描
15、述样品或变量的亲疏程度通常有来两个途径,一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定一点与点,类和类之间的距离, 用点与点间距离来描述样品或变量之间的亲疏程度:另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲属程度。聚类分析是实用多元统计分析的一个新的分支,聚类分析的功能是建立一种分类方法,他将一批样品或变量, 按照它们在性质上的亲疏、 相似程度进行分类。聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:(1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度。这一过程可用一张谱系聚类图描述。(2
16、)调优法(动态聚类法) :首先对 n 个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止。(3)最优分割法(有序样品聚类法) :开始将所有样品看做一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的K 类为止。这种方法适用于有序样品的分类问题,也称为有序样品的聚类法。(4)模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征两态数据或多态数据具有明显的分类效果。(5)图论聚类法:利用图论中最小支撑树的理论来处理分类问题,创造了独具风格的方法。(6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可以用来做预报的方法很多, 如
17、回归分析和判别分析。 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,只是一个值得重视的方法。聚类分析根据对象的不同又分为R 型和 Q 型两大类, R 型是对变量(指标)进行分类, Q 型是对样品进行分类。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 14 页 - - - - - - - - - 7 R 型聚类分析的目的有以下几方面:(1)可以了解变量间及变量组合间的亲疏关系;(2)对变量进行分类;(3
18、)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或Q 型聚类分析等。Q 型聚类分析的目的主要是对样品进行分类。分类的结果是直观的,且比传统的分类方法更细致、 全面、合理。当然使用不同的分类方法通常有不同的分类结果。对任何观测数据都没有唯一“正确”的分类方法。实际应用中,常采用不同的分类方法, 对数据进行分析计算, 一边对分类提供具体意见, 并由实际工作者决定所需要的分类数及分类情况。下面是聚类分析的一个简单例子。有五个样品,每个只测量了一个指标,分别为 1,2,6,8,11,我们用最短距离法将它们分类。(1)计算五个
19、样品两两间的距离,得初始类间的距离矩阵(0)D,1G2G3G4G5G1G0 2G1 0 3G5 4 0 4G7 6 2 0 5G10 9 5 3 0 (2)由(0)D知类间最小距离为1,于是将1G和2G合并成6G,并计算6G和其他类之间的距离,的新的距离阵(1)D6G3G4G5G6G0 3G4 0 4G6 2 0 5G9 5 3 0 (3)由(1)D知,类间最小距离为2,合并3G和4G为7G,计算7G与其他类间的名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 14 页 -
20、 - - - - - - - - 8 距离得矩阵(2)D,6G7G5G6G0 7G4 0 5G9 3 0 (4)由(2)D知, 类间的最小距离为3, 将5G和7G合并为8G, 得新的距离矩阵(3)D,6G8G6G0 8G4 0 (5)最后将6G和8G合并为9G,这时五个样品聚为一类。(四) 主成分分析主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量, 是这些综合变量尽可能的代表原来变量的信息,而且彼此之间互不相关。这种把多个变化量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为
21、一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F,自然希望它尽可能多的反映原来变量信息,这里信息用方差来测量,即希望1()Var F越大, 表示1F包含信息越多。因此在所有线性组合中所选取的1F应该是方差最大的, 故称1F为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F即第二个线性组合,为了有效地反映原来信息,1F已有的信息就不需要再出现在2F中,用数学语言表达就是要求12(,)Cov F F=0,
22、称2F为第二主成分,以此类推可以构造出第三、四, 第p 个主成分。(五)因子分析因子分析是主成分分析的推广和发展,它是由研究原始数据相关矩阵的内部依赖关系出发, 把一些具有错综复杂关系多个变量(或样品) 综合为少数几个因子,并给出原始变量与综合因子之间相关关系的一种多元统计分析方法。它也属名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 14 页 - - - - - - - - - 9 于多元分析中数据降维的一种统计方法。因子分析是通过变量 (或样品) 的相关系数矩阵内部结
23、构的研究,找出存在于所有变量(或样品)中具有共性的因素,并综合为少数几个新变量,把原始变量表示成少数几个综合变量的线性组合,以再现原始变量与综合变量之间的相关关系。其中,这里的少数几个综合变量一般是不可观测指标,通常称为公公因子。因子分析常用的两种类型:一种是R 型因子分析,即对变量进行因子分析:另一种叫做 Q 型因子分析,即对样品进行的因子分析。(六)对应分析方法对应分析又称为相应分析,是一种目的在于揭示和样品之间或者定性量资料中变量与其类别之间的相互关系的多元统计分析方法。对应分析的关键是利用一种数据变换, 使含有 p个变量 n个样品的原始数据矩阵,变换成为一个过渡矩阵Z,并通过矩阵 Z
24、将 R 型因子分析和 Q 型因子分析有机的结合起来。具体地说,首先给出进行 R 型因子分析时变量点的协差阵A= Z Z 和进行 Q 型因子分析时样品点的协差阵B= ZZ , 由于 Z Z 和 ZZ 有相同的非零特征根,记为12,0min(, )mmp n依据证明,如果 A 的特征根i对应的特征向量为iU,则 B 的特征根i对应的特征向量就是iiZUV, 根据这个结论就可以很方便的借助R 型因子分析而得到Q 型因子分析的结果。因为求出A 的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵,记为F。则F=11112211211222211122mmpppmmuuuuuuuuu这样,利用
25、关系式iiZUV也很容易地写出样品点协差阵B 对应的因子载荷阵,记为 G。则G=11112211211222211122mmnnnmmvvvvvvvvv从结果的展示上,由于A 和 B 具有相同的非零特征根,而这些特征根正是公共因子的方差, 因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便显示出变量点和样品点之间的相互关系,并且可以一并考虑进行分类分析。(七) 典型相关分析在经济问题中, 不仅经常需要考察两个变量之间的相关程度,而且还经常需名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - -
26、 - - - 名师精心整理 - - - - - - - 第 10 页,共 14 页 - - - - - - - - - 10 要考察多个变量与多个变量之间即两组变量之间的相关系。典型相关分析就是研究两组变量之间相关程度的一种多元统计分析方法。典型相关分析是研究两组变量之间相关关系的一种统计分析方法。为了研究两组变量12,pXXX和12,qY YY之间的相关关系, 采用类似于主成分分析的方法,在两组变量中, 分别选取若干有代表性的变量组成有代表性的综合指数,通过研究这两组变量之间的相关关系,来代替这两组变量之间的相关关系,这些综合指数称为典型变量。此外,多元统计分析方法还有方差分析、偏最小二乘回
27、归分析、逻辑分析、联合分析等,我们就不做一一介绍了。四、多元统计分析方法的一般步骤与一般统计分析方法一样, 多元统计分析方法也要经过建立模型、进行参数估计、假设检验以及预测控制等步骤。以经济统计为例,具体步骤是:1、根据经济理论进行定性分析,设计理论模型;2、对实际经济活动的现象抽取样本,并取得样本统计资料;3、对描述样本的指标利用多元统计分析方法进行统计分析,选择最佳的统计指标;4 根据最佳指标的样本数据,估计参数,建立数量模型模型;五、多元统计分析方法在各个自然领域中的应用多元统计分析是解决实际问题的有效的数据处理方法,其应用范围非常广泛。多元统计分析方法可以应用于地质科学、气象科学、医疗
28、卫生、体育、语言学、考古学、教育学、心理学以及经济学、管理学等各个方面。下面我们以经济学和管理学为例,了解一下多元分析方法在其中的作用和应用的场合与领域:1、简化数据结构。对多个变量进行降维处理, 选择数目较小的变量子集合。在商业经济中, 为了能够全面刻画所研究对象的数量特征,往往要调查多方面的统计数据。 数据维数越多,反映问题越全面, 但同时也给数据分析带来困难。这是句要用降维的方法将很复杂的数据综合成商业指数形式,处理方法主要有主成分分析、因子分析和对应分析等。2、对研究对象进行分类与判别。比如根据各地区的经济发展水平、 经济发展特征对我国各地区的经济发展类型进行划分,需要通过反映各地区经
29、济情况的多项数据测算各地区经济发展的相似度,并以对各地经济类型此进行划分和归类。用来处理这一问题的多元统计方法主要是聚类分析、判别分析等。3、建立经济模型。经济模型一般是指把经济变量之间的依存关系通过通过数学表达形式加以模拟。例如根据我国几十年来财政收入与国民收入、工农业总值、人口、就业人口、固定投资等相关因素, 利用回归方法建立预测模型,对今后的财政收入进行预测。4、研究经济现象之间的相互关系。当我们研究两组变量之间的相关程度时,只用简单直线相关系数是不够的,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - -
30、 - - - - - 第 11 页,共 14 页 - - - - - - - - - 11 在多元统计分析中, 用典型相关分析可以处理两组变量之间的相关程度的分析和测算。有一点需要特殊说明,由于现实问题的复杂性和每种多元分析方法特殊的应用场合和自身的局限性,所以在处理问题时有必要将各种多元分析方法结合运用。六、总结经过 20 世纪的空前发展,数学的基本理论更加深入和完善,而计算机技术的发展使得数学的应用更加广泛和直接,多元统计分析方法已经广泛的应用到社会科学和自然科学的许多领域, 尤其在经济方面根是发挥了巨大的作用。通过本文的描述可以使大家简单了解多元统计分析方法,从而更好的掌握和运用多元分析
31、方法。任何定量分析方法在研究现实问题时只是揭示了这种问题表面的数量规律,所以在应用多元统计分析时,我们必须注意定量分析与定性分析相结合。只有两者的有机结合才能得出深刻的符合实际的结论。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 14 页 - - - - - - - - - 12 参考文献张尧庭,方开泰等著多元统计分析引论北京:科学出版社,1982 高惠璇应用多元统计分析北京:北京大学出版社,20051 周光亚等多元统计方法长春:吉林大学出版社,1988.12 于秀林
32、等编著多元统计分析北京:中国统计出版社,1999 王学仁,王松桂编译实用多元统计分析 上海:上海科学技术出版社, 1990 Richard A Johnson, Dean W Wichern Applied MultiVariate Statistical Analysis4th EditionEnglewood Cliffs,N J:PrenticeHall,Inc,1998 何晓群,现代统计分析方法与应用M. 北京:中国人民大学出版社,1998 王学民编著应用多元统计分析第二版上海上海财经大学出版社,1999 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - -
33、 - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 14 页 - - - - - - - - - 13 谢辞在此论文完成之际我首先要衷心感谢我的导师齐海涛老师。本学位论文是在齐老师的精心指导下完成的。齐老师时刻关心我找我知识的情况及论文的进展,帮助我开阔思路、精心点拨、热忱鼓励。每当我遇到问题、毫无头绪时,与考试的讨论总能让我豁然开朗:老师思考问题的方法、 观察问题的角度, 给了我很大启发。齐老师渊博的知识理论、深邃的思维方式都给我留下了深刻的印象,永远是我学习的榜样。其次还要感谢大学四年中的每一位老师对我的指导和帮助。向各位老师表示我衷心的感谢和敬意。同时还要感谢大学中和我一起走过来的同学和朋友们,是你们的支持使我获得了许许多多的快乐和温馨。 在感谢你们的同时祝愿你们在以后的生活学习工作中过得幸福快乐。最后, 我要感谢我的父母, 感谢他们二十多年来的养育之恩。在我的大学生活即将结束之际,我真心的祝福他们健康长寿,事事顺心。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页,共 14 页 - - - - - - - - -
限制150内