应用多元统计分析讲稿(朱建平)45237.docx
《应用多元统计分析讲稿(朱建平)45237.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析讲稿(朱建平)45237.docx(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章 多元分析概述第一节 引言多元统计分分析是运用用数理统计计方法来研研究解决多多指标问题题的理论和和方法。近近30年来,随随着计算机机应用技术术的发展和和科研生产产的迫切需需要,多元元统计分析析技术被广广泛地应用用于地质、气气象、水文文、医学、工工业、农业业和经济等等许多领域域,已经成成为解决实实际问题的的有效方法法。然而,随随着Intterneet的日益益普及,各各行各业都都开始采用用计算机及及相应的信信息技术进进行管理和和决策,这这使得各企企事业单位位生成、收收集、存储储和处理数数据的能力力大大提高高,数据量量与日俱增增,大量复复杂信息层层出不穷。在在信息爆炸炸的今天,人人们已经意意识
2、到数据据最值钱的的时代已经经到来。显然,大量量信息在给给人们带来来方便的同同时也带来来一系列问问题。比如如:信息量量过大,超超过了人们们掌握、消消化的能力力;一些信信息真伪难难辩,从而而给信息的的正确应用用带来困难难;信息组组织形式的的不一致性性导致难以以对信息进进行有效统统一处理等等等,这种种变化使传传统的数据据库技术和和数据处理理手段已经经不能满足足要求.IInterrnet的的迅猛发展展也使得网网络上的各各种资源信信息异常丰丰富,在其其中进行信信息的查找找真如大海海捞针。这这样又给多多元统计分分析理论的的发展和方方法的应用用提出了新新的挑战。多元统计分分析起源于于上世纪初初,19228年
3、Wishhart发发表论文多多元正态总总体样本协协差阵的精精确分布,可可以说是多多元分析的的开端。220世纪30年代R.AA. Fiisherr 、H.Hootellling、S.N.Roy、许许宝騄等人人作了一系系列得奠基基性工作,使使多元分析析在理论上上得到了迅迅速得发展展。20世纪40年代在在心理、教教育、生物物等方面有有不少得应应用,但由由于计算量量大,使其其发展受到到影响,甚甚至停滞了了相当长得得时间。220世纪50年代中中期,随着着电子计算算机得出现现和发展,使使多元分析析方法在地地质、气象象、医学、社社会学等方方面得到广广泛得应用用。20世纪60年代通通过应用和和实践又完完善和发
4、展展了理论,由由于新的理理论、新的的方法不断断涌现又促促使它的应应用范围更更加扩大。20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。 在20世纪纪末与本世世纪初,人人们获得的的数据正以以前所未有有的速度急急剧增加,产产生了很多多超大型数数据库,遍遍及超级市市场销售、银银行存款、天天文学、粒粒子物理、化化学、医学学以及政府府统计等领领域,多元元统计与人人工智能和和数据库技技术相结合合,已在经经济、商业业、金融、天天文等行业业得到了成成功的应用用。为了让人们们更好的较较为
5、系统地地掌握多元元统计分析析的理论与与方法,本本书重点介介绍多元正正态总体的的参数估计计和假设检检验以及常常用的统计计方法。这这些方法包包括判别分分析、聚类类分析、主主成分分析析、因子分分析、对应应分析、典典型相关分分析、多维维标度法以以及多变量量的可视化化分析等。与与此同时,我我们将利用用在我国广广泛流行的的SPSSS统计软件件来实现实实证分析,做做到在理论论的学习中中体会应用用,在应用用的分析中中加深理论论。第二节 应用背景景二、多元统统计分析方方法的应用用 这里我们要要通过一些些实际的问问题,解释释选择统计计方法和研研究目的之之间的关系系,这些问问题以及本本书中的大大量案例能能够使得读读
6、者对多元元统计分析析方法在各各个领域中中的广泛应应用有一定定的了解。多多元分析方方法从研究究问题的角角度可以分分为不同的的类,相应应有具体解解决问题的的方法,参参看表1.1。多元统计分分析方法在在经济管理理、农业、医医学、教育育学、体育育科学、生生态学、地地质学、社社会学、考考古学、环环境保护、军军事科学、文文学等方面面都有广泛泛的应用,这这里我们例例举一些实实际问题,进进一步了解解多元统计计分析的应应用领域,让让读者从感感性上加深深对多元统统计分析的的认识。问题 内容 方法 数据或结构构性化简 尽可能简单单地表示所所研究的现现象,但不不损失很多多有用的信信息,并希希望这种表表示能够很很容易的
7、解解释。 多元回归分分析、聚类类分析、主主成分分析析、因子分分析、相应应分析、多多维标度法法、可视化化分析 分类和组合合 基于所测量量到的一些些特征,给给出好的分分组方法,对对相似的对对象或变量量分组。 判别分析、聚聚类分析、主主成分分析析、可视化化分析 变量之间的的相关关系系 变量之间是是否存在相相关关系,相相关关系又又是怎样体体现。 多元回归、典典型相关、主主成分分析析、因子分分析、相应应分析、多多维标度法法、可视化化分析 预测与决策策 通过统计模模型或最优优准则,对对未来进行行预见或判判断。 多元回归、判判别分析、聚聚类分析、可可视化分析析 假设的提出出及检验检验由多元元总体参数数表示的
8、某某种统计假假设,能够够证实某种种假设条件件的合理性性。 多元总体参参数估计、假假设检验 1、城镇居居民消费水水平通常用用八项指标标来描述,如如人均粮食食支出、人人均副食支支出、人均均烟酒茶支支出、人均均衣着商品品支出、人人均日用品品支出、人人均燃料支支出、人均均非商品支支出。这八八项指标存存在一定的的线性关系系。为了研研究城镇居居民的消费费结构,需需要将相关关强的指标标归并到一一起,这实实际就是对对指标进行行聚类分析析。2、在企业业经济效益益的评价中中,涉及到到的指标往往往很多,如如百元固定定资产原值值实现产值值、百元固固定资产原原值实现利利税、百元元资金实现现利税、百百元工业总总产值实现现
9、利税、百百元销售收收入实现利利税、每吨吨标准煤实实现工业产产值、每千千瓦时电力力实现工业业产值、全全员劳动生生产率、百百元流动资资金实现产产值。如何何将这些具具有错综复复杂关系的的指标综合合成几个较较少的因子子,既有利利于对问题题进行分析析和解释,又又能便于抓抓住主要矛矛盾做出科科学的评价价。可用主主成分分析析和因子分分析法。3、某一产产品是用两两种不同原原料生产的的,试问此此两种原料料生产的产产品寿命有有无显著差差异?又比比如,若考考察某商业业行业今年年和去年的的经营状况况,这时需需要看这两两年经营指指标的平均均水平是否否有显著差差异以及经经营指标之之间的波动动是否有显显著差异。可可用多元正
10、正态总体均均值向量和和协差阵的的假设检验验。4、按现行行统计报表表制度,农农村家庭纯纯收入是指指农村常住住居民家庭庭总收入中中扣除从事事生产和非非生产经营营用支出、税税款和上交交承包集体体任务金额额以后剩余余的、可直直接用于进进行生产的的、非生产产性建设投投资、生产产性消费的的那一部分分收入。如如果我们收收集某年各各个省、自自治区、直直辖市农民民家庭人均均纯收入的的数据,可可以用相应应分析,揭揭示全国农农民人均纯纯收入的特特征以及各各省、自治治区、直辖辖市与各收收入指标的的关系。5、某医院院已有1000个分别别患有胃炎炎、肝炎、冠冠心病、糖糖尿病等的的病人资料料,记录了了他们每个个人若干项项症
11、状指标标数据。如如果对于一一个新的病病人,当也也测得这若若干项症状状指标时,可可以利用判判别分析方方法判定他他患的是哪哪种病。6、有1000种酒,品品尝家可以以对每两种种酒进行品品尝对比,给给出一种相相近程度的的得分(越越相近得分分越高,相相差越远得得分越低),希希望用这些些得分数据据来了解这这100种酒酒之间的结结构关系。这这样的问题题就可以用用多维标度度法来解决决。7、在地质质学中,常常常要研究究矿石中所所含化学成成分之间的的关系。设设在某矿体体中采集了了60个标本本,对每个个标本测得得20个化学学成分的含含量。我们们希望通过过对这200个化学成成分的分析析,了解矿矿体的性质质和矿体形形成
12、的主要要原因。8、对10000个类类似的鱼类类样本,如如何根据测测量的特征征如体重、身身长、鳍数数、鳍长、头头宽等,我我们可以利利用聚类分分析方法将将这类鱼分分成几个不不同品种。9、考古学学家对挖掘掘出来的人人头盖骨的的高、宽等等特征来判判断是男或或女,根据据挖掘出的的动物牙齿齿的有关测测试指标,判判别它是属属于哪一类类动物牙齿齿、是哪一一个时代的的。10、在高高考招生工工作中,我我们知道每每个考生的的基本情况况,通过分分析我们不不仅可以了了解到学生生喜欢学习习的科目,还还可以进一一步从考生生每门课程程的成绩,分分析出学生生的逻辑思思维能力、形形象思维能能力和记忆忆力等等对对学习成绩绩的影响。
13、第二章 多多元正态分分布的参数数估计第一节 引言 多元统计分分析涉及到到的都是随随机向量或或多个随机机向量放在在一起组成成的随机矩矩阵。例如如在研究公公司的运营营情况时,要要考虑公司司的获利能能力、资金金周转能力力、竞争能能力以及偿偿债能力等等财务指标标;又如在在研究国家家财政收入入时,税收收收入、企企业收入、债债务收入、国国家能源交交通重点建建设基金收收入、基本本建设贷款款归还收入入、国家预预算调节基基金收入、其其他收入等等都是需要要同时考察察的指标。显显然,如果果我们只研研究一个指指标或是将将这些指标标割裂开分分别研究,是是不能从整整体上把握握研究问题题的实质的的,解决这这些问题就就需要多
14、元元统计分析析方法。为为了更好的的探讨这些些问题,本本章我们首首先论述有有关随机向向量的基本本概念和性性质。在实用中遇遇到的随机机向量常常常是服从正正态分布或或近似正态态分布,或或虽本身不不是正态分分布,但它它的样本均均值近似于于正态分布布。因此现现实世界中中许多实际际问题的解解决办法都都是以总体体服从正态态分布或近近似正态分分布为前提提的。在多多元统计分分析中, 多元正态态分布占有有很重要地地位,本书书所介绍的的方法大都都假定数据据来之多元元正态分布布。为此,本本章将要介介绍多元正正态分布的的定义和有有关性质。然而在实际际问题中,多多元正态分分布中均值值向量和协协差阵通常常是未知的的,一般的
15、的做法是由由样本来估估计。这是是本章讨论论的重要内内容之一,在在此我们介介绍最常见见的最大似似然估计法法对参数进进行估计,并并讨论其有有关的性质质。第二节 基本概念念一、随机向向量我们所讨论论的是多个个变量的总总体,所研研究的数据据是同时pp个指标(变变量),又又进行了nn次观测得得到的,我我们把这个个p指标表示示为X1 ,X2,L,Xp,常用向向量X = (X1 , X2 , L , XP) 表示对同同一个体观观测的p个变量。这这里我们应应该强调,在在多元统计计分析中,仍仍然将所研研究对象的的全体称为为总体,它它是由许多多(有限和和无限)的的个体构成成的集合,如如果构成总总体的个体体是具有p
16、p个需要观观测指标的的个体,我我们称这样样的总体为为p维总体(或或p元总体)。上上面的表示示便于人们们用数学方方法去研究究p维总体的的特性。这这里“维”(或“元”)的概念念,表示共共有几个分分量。若观观测了n个个体,则则可得到如如表2.11的数据,称称每一个个个体的p个变量为为一个样品品,而全体体n个样品组组成一个样样本。表2.1 数据变量 序号12在这里横看看表2.11,记为 , 表示第个样样品的观测测值。竖看看表2.11,第列的的元素 , 表示对第个个变量的次观测数数值。因此,表22.1所反反映出的样样本资料可可用矩阵表表示为 (22.1)简记为X。定义2.11 将个个随机变量量的整体称称
17、为维随机机向量,记记为。在对随机向向量的研究究仍然限于于讨论离散散型和连续续型两类随随机向量。二、多元分分布先回顾一下下一元统计计中分布函函数和密度度函数的定定义。设是一个随随机变量,称称为的概率分分布函数或或简称为分分布函数,记记为。若随机变量量在有限或或可列个值值上取值,记记,且,则称为离离散型随机机变量,称称,为的概率分分布。设,若存在在一个非负负函数,使使得一切实实数有:,则称称为的分布密密度函数,简简称为密度度函数。一一个函数能能作为某个个随机变量量的分布密密度函数的的重要条件件是:(1),对对一切实数数;(2)。定义2.22 设是是维随机向向量,它的的多元分布布函数定义义为 (2.
18、2)记为,其中中,表示维欧氏氏空间。多维随机向向量的统计计特性可用用它的分布布函数来完完整地描述述。定义2.33 设是是维随机向向量,若存存在有限个个或可列个个维数向量量,记,且满足,则则称为离散散型随机向向量,称,为的概率分分布。设,若存在在一个非负负函数,使使得对一切切有(2.33)则称为连续续型随机变变量,称为为分布密度度函数,简简称为密度度函数或分分布密度。一个元函数数能作为中某某个随机向向量的密度度函数的主主要条件是是:(1),;(2)离散型随机机向量的统统计性质可可由它的概概率分布完完全确定,连连续型随机机向量的统统计性质可可由它的分分布密度完完全确定。【例2.11】 试试证函数
19、为随机向量量密度函数数。证:只要验验证满足密密度函数两两个条件即即可 (11)显然,当当时有 (22)定义2.44 设是是维随机向向量,称由由它的个分分量组成的的子向量的的分布为的的边缘(或或边际)分分布,相对对地把的分分布称为联联合分布。通通过变换中中各分量的的次序,总总可假定正正好是的前前个分量,其其余个分量量为,则,相应应的取值也也可分为两两部分。当的分布函函数是时,的分布布函数即边边缘分布函函数为: 当有分布密密度时(亦亦称联合分分布密度函函数),则则也有分布布密度,即即边缘密度度函数为:【例2.22】对例22.1中的的求边缘密密度函数。解: 同同理定义2.55 若个个随机变量量的联合
20、分分布等于各各自的边缘缘分布的乘乘积,则称称是相互独独立的。【例2.33】 问问例2.22中的与是否相互互独立? 解: 由于,故与与相互独立立。这里我们应应该注意,由由相互独立立,可推知知任何与独立,但但反之不真真。定义2.66 设,若若存在且有有限,则称称为的均值(向向量)或数数学期望,有有时也把和和分别记为为和,即,容易易推得均值值(向量)具具有以下性性质:(1)(2)(3)其中,、为为随机向量量,、为大小适适合运算的的常数矩阵阵。定义2.77 设设,称(2.4)为的方差或或协差阵,有有时把简记记为,简记为,从从而有;称称随机向量量和的协差阵阵为(2.5)当时,即为为。若,则称和和不相关,
21、由由和相互独立立易推得,即即和不相关;但反过来来,当和不相关时时,一般不不能推知它它们独立。当、为常数数矩阵时,由由定义可以以推出协方方差阵有如如下性质:(1)对于于常数向量量,有(2)(3)(4)设为为维随机向向量,期望望和协方差差存在,记记,为常数阵,则则 这里我们应应该注意到到,对于任任何的随机机向量来说说,其协差差阵都是对对称阵,同同时总是非非负定(半半正定)的的。大多数数情况是正正定的。若的协差阵阵存在,且且每个分量量的方差大大于零,则则称随机向向量的相关关阵为,其其中 (22.6)为与的相关关系数。在数据处理理时,为了了克服由于于指标的量量纲不同对对统计分析析结果带来来的影响,往往
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 讲稿 建平 45237
限制150内