应用多元统计分析讲稿(朱建平)45406.docx
《应用多元统计分析讲稿(朱建平)45406.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析讲稿(朱建平)45406.docx(78页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章 多元分析概述第一节 引言多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。然而,随着Internet的日益普及,各行各业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。显然,大量量信息在在给人们们带来方方便的同同时也带带来一系系列问题题。比如如:信息
2、息量过大大,超过过了人们们掌握、消消化的能能力;一一些信息息真伪难难辩,从从而给信信息的正正确应用用带来困困难;信信息组织织形式的的不一致致性导致致难以对对信息进进行有效效统一处处理等等等,这种种变化使使传统的的数据库库技术和和数据处处理手段段已经不不能满足足要求.Intternnet的的迅猛发发展也使使得网络络上的各各种资源源信息异异常丰富富,在其其中进行行信息的的查找真真如大海海捞针。这这样又给给多元统统计分析析理论的的发展和和方法的的应用提提出了新新的挑战战。多元统计分分析起源源于上世世纪初,1928年Wishart发表论文多元正态总体样本协差阵的精确分布,可以说是多元分析的开端。20世
3、纪30年代R.A. Fisher 、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得发展。20世纪40年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已
4、达到国际水平,并已形成一支科技队伍,活跃在各条战线上。 在20世纪纪末与本本世纪初初,人们们获得的的数据正正以前所所未有的的速度急急剧增加加,产生生了很多多超大型型数据库库,遍及及超级市市场销售售、银行行存款、天天文学、粒粒子物理理、化学学、医学学以及政政府统计计等领域域,多元元统计与与人工智智能和数数据库技技术相结结合,已已在经济济、商业业、金融融、天文文等行业业得到了了成功的的应用。为了让人们们更好的的较为系系统地掌掌握多元元统计分分析的理理论与方方法,本本书重点点介绍多多元正态态总体的的参数估估计和假假设检验验以及常常用的统统计方法法。这些些方法包包括判别别分析、聚聚类分析析、主成成分分
5、析析、因子子分析、对对应分析析、典型型相关分分析、多多维标度度法以及及多变量量的可视视化分析析等。与与此同时时,我们们将利用用在我国国广泛流流行的SSPSSS统计软软件来实实现实证证分析,做做到在理理论的学学习中体体会应用用,在应应用的分分析中加加深理论论。第二节 应用背背景二、多元统统计分析析方法的的应用 这里我们要要通过一一些实际际的问题题,解释释选择统统计方法法和研究究目的之之间的关关系,这这些问题题以及本本书中的的大量案案例能够够使得读读者对多多元统计计分析方方法在各各个领域域中的广广泛应用用有一定定的了解解。多元元分析方方法从研研究问题题的角度度可以分分为不同同的类,相相应有具具体解
6、决决问题的的方法,参参看表11.1。多元统计分分析方法法在经济济管理、农农业、医医学、教教育学、体体育科学学、生态态学、地地质学、社社会学、考考古学、环环境保护护、军事事科学、文文学等方方面都有有广泛的的应用,这这里我们们例举一一些实际际问题,进进一步了了解多元元统计分分析的应应用领域域,让读读者从感感性上加加深对多多元统计计分析的的认识。问题 内容 方法 数据或结构构性化简简 尽可能简单单地表示示所研究究的现象象,但不不损失很很多有用用的信息息,并希希望这种种表示能能够很容容易的解解释。 多元回归分分析、聚聚类分析析、主成成分分析析、因子子分析、相相应分析析、多维维标度法法、可视视化分析析
7、分类和组合合 基于所测量量到的一一些特征征,给出出好的分分组方法法,对相相似的对对象或变变量分组组。 判别分析、聚聚类分析析、主成成分分析析、可视视化分析析 变量之间的的相关关关系 变量之间是是否存在在相关关关系,相相关关系系又是怎怎样体现现。 多元回归、典典型相关关、主成成分分析析、因子子分析、相相应分析析、多维维标度法法、可视视化分析析 预测与决策策 通过统计模模型或最最优准则则,对未未来进行行预见或或判断。 多元回归、判判别分析析、聚类类分析、可可视化分分析 假设的提出出及检验验检验由多元元总体参参数表示示的某种种统计假假设,能能够证实实某种假假设条件件的合理理性。 多元总体参参数估计计
8、、假设设检验 1、城镇居居民消费费水平通通常用八八项指标标来描述述,如人人均粮食食支出、人人均副食食支出、人人均烟酒酒茶支出出、人均均衣着商商品支出出、人均均日用品品支出、人人均燃料料支出、人人均非商商品支出出。这八八项指标标存在一一定的线线性关系系。为了了研究城城镇居民民的消费费结构,需需要将相相关强的的指标归归并到一一起,这这实际就就是对指指标进行行聚类分分析。2、在企业业经济效效益的评评价中,涉涉及到的的指标往往往很多多,如百百元固定定资产原原值实现现产值、百百元固定定资产原原值实现现利税、百百元资金金实现利利税、百百元工业业总产值值实现利利税、百百元销售售收入实实现利税税、每吨吨标准煤
9、煤实现工工业产值值、每千千瓦时电电力实现现工业产产值、全全员劳动动生产率率、百元元流动资资金实现现产值。如如何将这这些具有有错综复复杂关系系的指标标综合成成几个较较少的因因子,既既有利于于对问题题进行分分析和解解释,又又能便于于抓住主主要矛盾盾做出科科学的评评价。可可用主成成分分析析和因子子分析法法。3、某一产产品是用用两种不不同原料料生产的的,试问问此两种种原料生生产的产产品寿命命有无显显著差异异?又比比如,若若考察某某商业行行业今年年和去年年的经营营状况,这这时需要要看这两两年经营营指标的的平均水水平是否否有显著著差异以以及经营营指标之之间的波波动是否否有显著著差异。可可用多元元正态总总体
10、均值值向量和和协差阵阵的假设设检验。4、按现行行统计报报表制度度,农村村家庭纯纯收入是是指农村村常住居居民家庭庭总收入入中扣除除从事生生产和非非生产经经营用支支出、税税款和上上交承包包集体任任务金额额以后剩剩余的、可可直接用用于进行行生产的的、非生生产性建建设投资资、生产产性消费费的那一一部分收收入。如如果我们们收集某某年各个个省、自自治区、直直辖市农农民家庭庭人均纯纯收入的的数据,可可以用相相应分析析,揭示示全国农农民人均均纯收入入的特征征以及各各省、自自治区、直直辖市与与各收入入指标的的关系。5、某医院院已有1100个个分别患患有胃炎炎、肝炎炎、冠心心病、糖糖尿病等等的病人人资料,记记录了
11、他他们每个个人若干干项症状状指标数数据。如如果对于于一个新新的病人人,当也也测得这这若干项项症状指指标时,可可以利用用判别分分析方法法判定他他患的是是哪种病病。6、有1000种酒酒,品尝尝家可以以对每两两种酒进进行品尝尝对比,给给出一种种相近程程度的得得分(越越相近得得分越高高,相差差越远得得分越低低),希希望用这这些得分分数据来来了解这这1000种酒之之间的结结构关系系。这样样的问题题就可以以用多维维标度法法来解决决。7、在地质质学中,常常常要研研究矿石石中所含含化学成成分之间间的关系系。设在在某矿体体中采集集了600个标本本,对每每个标本本测得220个化化学成分分的含量量。我们们希望通通过
12、对这这20个化化学成分分的分析析,了解解矿体的的性质和和矿体形形成的主主要原因因。8、对10000个个类似的的鱼类样样本,如如何根据据测量的的特征如如体重、身身长、鳍鳍数、鳍鳍长、头头宽等,我我们可以以利用聚聚类分析析方法将将这类鱼鱼分成几几个不同同品种。9、考古学学家对挖挖掘出来来的人头头盖骨的的高、宽宽等特征征来判断断是男或或女,根根据挖掘掘出的动动物牙齿齿的有关关测试指指标,判判别它是是属于哪哪一类动动物牙齿齿、是哪哪一个时时代的。10、在高高考招生生工作中中,我们们知道每每个考生生的基本本情况,通通过分析析我们不不仅可以以了解到到学生喜喜欢学习习的科目目,还可可以进一一步从考考生每门门
13、课程的的成绩,分分析出学学生的逻逻辑思维维能力、形形象思维维能力和和记忆力力等等对对学习成成绩的影影响。第二章 多多元正态态分布的的参数估估计第一节 引言 多元统计分分析涉及及到的都都是随机机向量或或多个随随机向量量放在一一起组成成的随机机矩阵。例例如在研研究公司司的运营营情况时时,要考考虑公司司的获利利能力、资资金周转转能力、竞竞争能力力以及偿偿债能力力等财务务指标;又如在在研究国国家财政政收入时时,税收收收入、企企业收入入、债务务收入、国国家能源源交通重重点建设设基金收收入、基基本建设设贷款归归还收入入、国家家预算调调节基金金收入、其其他收入入等都是是需要同同时考察察的指标标。显然然,如果
14、果我们只只研究一一个指标标或是将将这些指指标割裂裂开分别别研究,是是不能从从整体上上把握研研究问题题的实质质的,解解决这些些问题就就需要多多元统计计分析方方法。为为了更好好的探讨讨这些问问题,本本章我们们首先论论述有关关随机向向量的基基本概念念和性质质。在实用中遇遇到的随随机向量量常常是是服从正正态分布布或近似似正态分分布,或或虽本身身不是正正态分布布,但它它的样本本均值近近似于正正态分布布。因此此现实世世界中许许多实际际问题的的解决办办法都是是以总体体服从正正态分布布或近似似正态分分布为前前提的。在在多元统统计分析析中, 多元正正态分布布占有很很重要地地位,本本书所介介绍的方方法大都都假定数
15、数据来之之多元正正态分布布。为此此,本章章将要介介绍多元元正态分分布的定定义和有有关性质质。然而在实际际问题中中,多元元正态分分布中均均值向量量和协差差阵通常常是未知知的,一一般的做做法是由由样本来来估计。这这是本章章讨论的的重要内内容之一一,在此此我们介介绍最常常见的最最大似然然估计法法对参数数进行估估计,并并讨论其其有关的的性质。第二节 基本概概念一、随机向向量我们所讨论论的是多多个变量量的总体体,所研研究的数数据是同同时p个指标标(变量量),又又进行了了n次观测测得到的的,我们们把这个个p指标表表示为XX1 ,X2,L,Xp,常用用向量XX = (X11 , X2 , L , XP) 表
16、示对对同一个个体观测测的p个变量量。这里里我们应应该强调调,在多多元统计计分析中中,仍然然将所研研究对象象的全体体称为总总体,它它是由许许多(有有限和无无限)的的个体构构成的集集合,如如果构成成总体的的个体是是具有pp个需要要观测指指标的个个体,我我们称这这样的总总体为pp维总体体(或pp元总体体)。上上面的表表示便于于人们用用数学方方法去研研究p维总体体的特性性。这里里“维”(或“元”)的概概念,表表示共有有几个分分量。若若观测了了n个个体体,则可可得到如如表2.1的数数据,称称每一个个个体的的p个变量量为一个个样品,而而全体nn个样品品组成一一个样本本。表2.1 数据据变量 序号12在这里
17、横看看表2.1,记记为 , 表示第个样样品的观观测值。竖竖看表22.1,第第列的元元素 , 表示对第个个变量的的次观测测数值。因此,表22.1所所反映出出的样本本资料可可用矩阵阵表示为为 (22.1)简记为X。定义2.11 将将个随机机变量的的整体称称为维随随机向量量,记为为。在对随机向向量的研研究仍然然限于讨讨论离散散型和连连续型两两类随机机向量。二、多元分分布先回顾一下下一元统统计中分分布函数数和密度度函数的的定义。设是一个随随机变量量,称为为的概率率分布函函数或简简称为分分布函数数,记为为。若随机变量量在有限限或可列列个值上上取值,记记,且,则称称为离散散型随机机变量,称称,为的概率率分
18、布。设,若存在在一个非非负函数数,使得得一切实实数有:,则称称为的分布布密度函函数,简简称为密密度函数数。一个个函数能能作为某某个随机机变量的的分布密密度函数数的重要要条件是是:(1),对对一切实实数;(2)。定义2.22 设设是维随机机向量,它它的多元元分布函函数定义义为 (2.2)记为,其中中,表示维欧欧氏空间间。多维随机向向量的统统计特性性可用它它的分布布函数来来完整地地描述。定义2.33 设设是维随机机向量,若若存在有有限个或或可列个个维数向向量,记记,且满足足,则称称为离散散型随机机向量,称称,为的概率率分布。设,若存在在一个非非负函数数,使得得对一切切有(2.3)则称为连续续型随机
19、机变量,称称为分布布密度函函数,简简称为密密度函数数或分布布密度。一个元函数数能作为为中某个个随机向向量的密密度函数数的主要要条件是是:(1),;(2)离散型随机机向量的的统计性性质可由由它的概概率分布布完全确确定,连连续型随随机向量量的统计计性质可可由它的的分布密密度完全全确定。【例2.11】 试证函函数 为随机向量量密度函函数。证:只要验验证满足足密度函函数两个个条件即即可 (11)显然然,当时时有 (22)定义2.44 设设是维随机机向量,称称由它的的个分量量组成的的子向量量的分布布为的边边缘(或或边际)分分布,相相对地把把的分布布称为联联合分布布。通过过变换中中各分量量的次序序,总可可
20、假定正正好是的的前个分分量,其其余个分分量为,则则,相应应的取值值也可分分为两部部分。当的分布函函数是时时,的分分布函数数即边缘缘分布函函数为: 当有分布密密度时(亦亦称联合合分布密密度函数数),则则也有分分布密度度,即边边缘密度度函数为为:【例2.22】对例例2.11中的求求边缘密密度函数数。解: 同同理定义2.55 若若个随机机变量的的联合分分布等于于各自的的边缘分分布的乘乘积,则则称是相相互独立立的。【例2.33】 问例22.2中中的与是否相相互独立立? 解: 由于,故与与相互独独立。这里我们应应该注意意,由相相互独立立,可推推知任何何与独立,但但反之不不真。定义2.66 设,若若存在且
21、且有限,则则称为的均值值(向量量)或数数学期望望,有时时也把和和分别记记为和,即,容容易推得得均值(向向量)具具有以下下性质:(1)(2)(3)其中,、为为随机向向量,、为大小小适合运运算的常常数矩阵阵。定义2.77 设,称(2.4)为的方差或或协差阵阵,有时时把简记记为,简记为为,从而而有;称称随机向向量和的协差差阵为(2.5)当时,即为为。若,则称和和不相关关,由和和相互独独立易推推得,即即和不相关关;但反反过来,当当和不相关关时,一一般不能能推知它它们独立立。当、为常数数矩阵时时,由定定义可以以推出协协方差阵阵有如下下性质:(1)对于于常数向向量,有有(2)(3)(4)设为为维随机机向量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 讲稿 建平 45406
限制150内