应用多元统计分析讲稿(朱建平)45237.docx
-
资源ID:63087804
资源大小:1.99MB
全文页数:65页
- 资源格式: DOCX
下载积分:30金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
应用多元统计分析讲稿(朱建平)45237.docx
第一章 多元分析概述第一节 引言多元统计分分析是运用用数理统计计方法来研研究解决多多指标问题题的理论和和方法。近近30年来,随随着计算机机应用技术术的发展和和科研生产产的迫切需需要,多元元统计分析析技术被广广泛地应用用于地质、气气象、水文文、医学、工工业、农业业和经济等等许多领域域,已经成成为解决实实际问题的的有效方法法。然而,随随着Intterneet的日益益普及,各各行各业都都开始采用用计算机及及相应的信信息技术进进行管理和和决策,这这使得各企企事业单位位生成、收收集、存储储和处理数数据的能力力大大提高高,数据量量与日俱增增,大量复复杂信息层层出不穷。在在信息爆炸炸的今天,人人们已经意意识到数据据最值钱的的时代已经经到来。显然,大量量信息在给给人们带来来方便的同同时也带来来一系列问问题。比如如:信息量量过大,超超过了人们们掌握、消消化的能力力;一些信信息真伪难难辩,从而而给信息的的正确应用用带来困难难;信息组组织形式的的不一致性性导致难以以对信息进进行有效统统一处理等等等,这种种变化使传传统的数据据库技术和和数据处理理手段已经经不能满足足要求.IInterrnet的的迅猛发展展也使得网网络上的各各种资源信信息异常丰丰富,在其其中进行信信息的查找找真如大海海捞针。这这样又给多多元统计分分析理论的的发展和方方法的应用用提出了新新的挑战。多元统计分分析起源于于上世纪初初,19228年Wishhart发发表论文多多元正态总总体样本协协差阵的精精确分布,可可以说是多多元分析的的开端。220世纪30年代R.AA. Fiisherr 、H.Hootellling、S.N.Roy、许许宝騄等人人作了一系系列得奠基基性工作,使使多元分析析在理论上上得到了迅迅速得发展展。20世纪40年代在在心理、教教育、生物物等方面有有不少得应应用,但由由于计算量量大,使其其发展受到到影响,甚甚至停滞了了相当长得得时间。220世纪50年代中中期,随着着电子计算算机得出现现和发展,使使多元分析析方法在地地质、气象象、医学、社社会学等方方面得到广广泛得应用用。20世纪60年代通通过应用和和实践又完完善和发展展了理论,由由于新的理理论、新的的方法不断断涌现又促促使它的应应用范围更更加扩大。20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。 在20世纪纪末与本世世纪初,人人们获得的的数据正以以前所未有有的速度急急剧增加,产产生了很多多超大型数数据库,遍遍及超级市市场销售、银银行存款、天天文学、粒粒子物理、化化学、医学学以及政府府统计等领领域,多元元统计与人人工智能和和数据库技技术相结合合,已在经经济、商业业、金融、天天文等行业业得到了成成功的应用用。为了让人们们更好的较较为系统地地掌握多元元统计分析析的理论与与方法,本本书重点介介绍多元正正态总体的的参数估计计和假设检检验以及常常用的统计计方法。这这些方法包包括判别分分析、聚类类分析、主主成分分析析、因子分分析、对应应分析、典典型相关分分析、多维维标度法以以及多变量量的可视化化分析等。与与此同时,我我们将利用用在我国广广泛流行的的SPSSS统计软件件来实现实实证分析,做做到在理论论的学习中中体会应用用,在应用用的分析中中加深理论论。第二节 应用背景景二、多元统统计分析方方法的应用用 这里我们要要通过一些些实际的问问题,解释释选择统计计方法和研研究目的之之间的关系系,这些问问题以及本本书中的大大量案例能能够使得读读者对多元元统计分析析方法在各各个领域中中的广泛应应用有一定定的了解。多多元分析方方法从研究究问题的角角度可以分分为不同的的类,相应应有具体解解决问题的的方法,参参看表1.1。多元统计分分析方法在在经济管理理、农业、医医学、教育育学、体育育科学、生生态学、地地质学、社社会学、考考古学、环环境保护、军军事科学、文文学等方面面都有广泛泛的应用,这这里我们例例举一些实实际问题,进进一步了解解多元统计计分析的应应用领域,让让读者从感感性上加深深对多元统统计分析的的认识。问题 内容 方法 数据或结构构性化简 尽可能简单单地表示所所研究的现现象,但不不损失很多多有用的信信息,并希希望这种表表示能够很很容易的解解释。 多元回归分分析、聚类类分析、主主成分分析析、因子分分析、相应应分析、多多维标度法法、可视化化分析 分类和组合合 基于所测量量到的一些些特征,给给出好的分分组方法,对对相似的对对象或变量量分组。 判别分析、聚聚类分析、主主成分分析析、可视化化分析 变量之间的的相关关系系 变量之间是是否存在相相关关系,相相关关系又又是怎样体体现。 多元回归、典典型相关、主主成分分析析、因子分分析、相应应分析、多多维标度法法、可视化化分析 预测与决策策 通过统计模模型或最优优准则,对对未来进行行预见或判判断。 多元回归、判判别分析、聚聚类分析、可可视化分析析 假设的提出出及检验检验由多元元总体参数数表示的某某种统计假假设,能够够证实某种种假设条件件的合理性性。 多元总体参参数估计、假假设检验 1、城镇居居民消费水水平通常用用八项指标标来描述,如如人均粮食食支出、人人均副食支支出、人均均烟酒茶支支出、人均均衣着商品品支出、人人均日用品品支出、人人均燃料支支出、人均均非商品支支出。这八八项指标存存在一定的的线性关系系。为了研研究城镇居居民的消费费结构,需需要将相关关强的指标标归并到一一起,这实实际就是对对指标进行行聚类分析析。2、在企业业经济效益益的评价中中,涉及到到的指标往往往很多,如如百元固定定资产原值值实现产值值、百元固固定资产原原值实现利利税、百元元资金实现现利税、百百元工业总总产值实现现利税、百百元销售收收入实现利利税、每吨吨标准煤实实现工业产产值、每千千瓦时电力力实现工业业产值、全全员劳动生生产率、百百元流动资资金实现产产值。如何何将这些具具有错综复复杂关系的的指标综合合成几个较较少的因子子,既有利利于对问题题进行分析析和解释,又又能便于抓抓住主要矛矛盾做出科科学的评价价。可用主主成分分析析和因子分分析法。3、某一产产品是用两两种不同原原料生产的的,试问此此两种原料料生产的产产品寿命有有无显著差差异?又比比如,若考考察某商业业行业今年年和去年的的经营状况况,这时需需要看这两两年经营指指标的平均均水平是否否有显著差差异以及经经营指标之之间的波动动是否有显显著差异。可可用多元正正态总体均均值向量和和协差阵的的假设检验验。4、按现行行统计报表表制度,农农村家庭纯纯收入是指指农村常住住居民家庭庭总收入中中扣除从事事生产和非非生产经营营用支出、税税款和上交交承包集体体任务金额额以后剩余余的、可直直接用于进进行生产的的、非生产产性建设投投资、生产产性消费的的那一部分分收入。如如果我们收收集某年各各个省、自自治区、直直辖市农民民家庭人均均纯收入的的数据,可可以用相应应分析,揭揭示全国农农民人均纯纯收入的特特征以及各各省、自治治区、直辖辖市与各收收入指标的的关系。5、某医院院已有1000个分别别患有胃炎炎、肝炎、冠冠心病、糖糖尿病等的的病人资料料,记录了了他们每个个人若干项项症状指标标数据。如如果对于一一个新的病病人,当也也测得这若若干项症状状指标时,可可以利用判判别分析方方法判定他他患的是哪哪种病。6、有1000种酒,品品尝家可以以对每两种种酒进行品品尝对比,给给出一种相相近程度的的得分(越越相近得分分越高,相相差越远得得分越低),希希望用这些些得分数据据来了解这这100种酒酒之间的结结构关系。这这样的问题题就可以用用多维标度度法来解决决。7、在地质质学中,常常常要研究究矿石中所所含化学成成分之间的的关系。设设在某矿体体中采集了了60个标本本,对每个个标本测得得20个化学学成分的含含量。我们们希望通过过对这200个化学成成分的分析析,了解矿矿体的性质质和矿体形形成的主要要原因。8、对10000个类类似的鱼类类样本,如如何根据测测量的特征征如体重、身身长、鳍数数、鳍长、头头宽等,我我们可以利利用聚类分分析方法将将这类鱼分分成几个不不同品种。9、考古学学家对挖掘掘出来的人人头盖骨的的高、宽等等特征来判判断是男或或女,根据据挖掘出的的动物牙齿齿的有关测测试指标,判判别它是属属于哪一类类动物牙齿齿、是哪一一个时代的的。10、在高高考招生工工作中,我我们知道每每个考生的的基本情况况,通过分分析我们不不仅可以了了解到学生生喜欢学习习的科目,还还可以进一一步从考生生每门课程程的成绩,分分析出学生生的逻辑思思维能力、形形象思维能能力和记忆忆力等等对对学习成绩绩的影响。第二章 多多元正态分分布的参数数估计第一节 引言 多元统计分分析涉及到到的都是随随机向量或或多个随机机向量放在在一起组成成的随机矩矩阵。例如如在研究公公司的运营营情况时,要要考虑公司司的获利能能力、资金金周转能力力、竞争能能力以及偿偿债能力等等财务指标标;又如在在研究国家家财政收入入时,税收收收入、企企业收入、债债务收入、国国家能源交交通重点建建设基金收收入、基本本建设贷款款归还收入入、国家预预算调节基基金收入、其其他收入等等都是需要要同时考察察的指标。显显然,如果果我们只研研究一个指指标或是将将这些指标标割裂开分分别研究,是是不能从整整体上把握握研究问题题的实质的的,解决这这些问题就就需要多元元统计分析析方法。为为了更好的的探讨这些些问题,本本章我们首首先论述有有关随机向向量的基本本概念和性性质。在实用中遇遇到的随机机向量常常常是服从正正态分布或或近似正态态分布,或或虽本身不不是正态分分布,但它它的样本均均值近似于于正态分布布。因此现现实世界中中许多实际际问题的解解决办法都都是以总体体服从正态态分布或近近似正态分分布为前提提的。在多多元统计分分析中, 多元正态态分布占有有很重要地地位,本书书所介绍的的方法大都都假定数据据来之多元元正态分布布。为此,本本章将要介介绍多元正正态分布的的定义和有有关性质。然而在实际际问题中,多多元正态分分布中均值值向量和协协差阵通常常是未知的的,一般的的做法是由由样本来估估计。这是是本章讨论论的重要内内容之一,在在此我们介介绍最常见见的最大似似然估计法法对参数进进行估计,并并讨论其有有关的性质质。第二节 基本概念念一、随机向向量我们所讨论论的是多个个变量的总总体,所研研究的数据据是同时pp个指标(变变量),又又进行了nn次观测得得到的,我我们把这个个p指标表示示为X1 ,X2,L,Xp,常用向向量X = (X1 , X2 , L , XP)' 表示对同同一个体观观测的p个变量。这这里我们应应该强调,在在多元统计计分析中,仍仍然将所研研究对象的的全体称为为总体,它它是由许多多(有限和和无限)的的个体构成成的集合,如如果构成总总体的个体体是具有pp个需要观观测指标的的个体,我我们称这样样的总体为为p维总体(或或p元总体)。上上面的表示示便于人们们用数学方方法去研究究p维总体的的特性。这这里“维”(或“元”)的概念念,表示共共有几个分分量。若观观测了n个个体,则则可得到如如表2.11的数据,称称每一个个个体的p个变量为为一个样品品,而全体体n个样品组组成一个样样本。表2.1 数据变量 序号12在这里横看看表2.11,记为 , 表示第个样样品的观测测值。竖看看表2.11,第列的的元素 , 表示对第个个变量的次观测数数值。因此,表22.1所反反映出的样样本资料可可用矩阵表表示为 (22.1)简记为X。定义2.11 将个个随机变量量的整体称称为维随机机向量,记记为。在对随机向向量的研究究仍然限于于讨论离散散型和连续续型两类随随机向量。二、多元分分布先回顾一下下一元统计计中分布函函数和密度度函数的定定义。设是一个随随机变量,称称为的概率分分布函数或或简称为分分布函数,记记为。若随机变量量在有限或或可列个值值上取值,记记,且,则称为离离散型随机机变量,称称,为的概率分分布。设,若存在在一个非负负函数,使使得一切实实数有:,则称称为的分布密密度函数,简简称为密度度函数。一一个函数能能作为某个个随机变量量的分布密密度函数的的重要条件件是:(1),对对一切实数数;(2)。定义2.22 设是是维随机向向量,它的的多元分布布函数定义义为 (2.2)记为,其中中,表示维欧氏氏空间。多维随机向向量的统计计特性可用用它的分布布函数来完完整地描述述。定义2.33 设是是维随机向向量,若存存在有限个个或可列个个维数向量量,记,且满足,则则称为离散散型随机向向量,称,为的概率分分布。设,若存在在一个非负负函数,使使得对一切切有(2.33)则称为连续续型随机变变量,称为为分布密度度函数,简简称为密度度函数或分分布密度。一个元函数数能作为中某某个随机向向量的密度度函数的主主要条件是是:(1),;(2)离散型随机机向量的统统计性质可可由它的概概率分布完完全确定,连连续型随机机向量的统统计性质可可由它的分分布密度完完全确定。【例2.11】 试试证函数 为随机向量量密度函数数。证:只要验验证满足密密度函数两两个条件即即可 (11)显然,当当时有 (22)定义2.44 设是是维随机向向量,称由由它的个分分量组成的的子向量的的分布为的的边缘(或或边际)分分布,相对对地把的分分布称为联联合分布。通通过变换中中各分量的的次序,总总可假定正正好是的前前个分量,其其余个分量量为,则,相应应的取值也也可分为两两部分。当的分布函函数是时,的分布布函数即边边缘分布函函数为: 当有分布密密度时(亦亦称联合分分布密度函函数),则则也有分布布密度,即即边缘密度度函数为:【例2.22】对例22.1中的的求边缘密密度函数。解: 同同理定义2.55 若个个随机变量量的联合分分布等于各各自的边缘缘分布的乘乘积,则称称是相互独独立的。【例2.33】 问问例2.22中的与是否相互互独立? 解: 由于,故与与相互独立立。这里我们应应该注意,由由相互独立立,可推知知任何与独立,但但反之不真真。定义2.66 设,若若存在且有有限,则称称为的均值(向向量)或数数学期望,有有时也把和和分别记为为和,即,容易易推得均值值(向量)具具有以下性性质:(1)(2)(3)其中,、为为随机向量量,、为大小适适合运算的的常数矩阵阵。定义2.77 设设,称(2.4)为的方差或或协差阵,有有时把简记记为,简记为,从从而有;称称随机向量量和的协差阵阵为(2.5)当时,即为为。若,则称和和不相关,由由和相互独立立易推得,即即和不相关;但反过来来,当和不相关时时,一般不不能推知它它们独立。当、为常数数矩阵时,由由定义可以以推出协方方差阵有如如下性质:(1)对于于常数向量量,有(2)(3)(4)设为为维随机向向量,期望望和协方差差存在,记记,为常数阵,则则 这里我们应应该注意到到,对于任任何的随机机向量来说说,其协差差阵都是对对称阵,同同时总是非非负定(半半正定)的的。大多数数情况是正正定的。若的协差阵阵存在,且且每个分量量的方差大大于零,则则称随机向向量的相关关阵为,其其中 (22.6)为与的相关关系数。在数据处理理时,为了了克服由于于指标的量量纲不同对对统计分析析结果带来来的影响,往往往在使用用各种统计计分析之前前,常需要要将每个指指标“标准化”,即进行行如下变换换, (22.7)那么由(22.7)构构成的随机机向量。令令,有:那么,标准准化后的随随机向量均均值和协差差阵分别为为 即标准化数数据的协差差阵正好是是原指标的的相关阵。第三节 多元正正态分布一、多元正正态分布的的定义我们先来回回顾一元正正态分布的的密度函数数,即为上式可以改改写为(22.8)由于(2.8)式中中的,均为一维维的数字,可可以用代表表的转置。根根据上面的的表述形式式,我们可可以将其推推广,给出出多元正态态分布的定定义。定义2.88 若若维随机向向量的密度度函数为: (2.9)其中,是维维随机向量量,是阶正定阵阵,则称服服从元正态态分布,也也称为维正态随随机向量,简简记为,显显然当时,即即为一元正正态分布密密度函数。可以证明为为的均值(向向量),为为的协差阵阵。这里我们应应该提及的的是,当时时,不存在在,也就不不存在通常常意义下的的密度函数数,然而可可以形式的的给出一个个表达式,是是的有些问问题可以利利用这一形形式对及的情况给给出一个统统一的处理理。当时,设服服从二元正正态分布,则则,这里,分别别是与的方差,是是与的相关系系数。即有有故与的密度度函数为对于,那么么与是相互独独立的;若若,则与趋于正相相关;若,则则与趋于负相相关。定理2.11 设,则则有,。关于这个定定理的证明明可以参考考文献11,该定定理将多元元正态分布布的参数和和赋予了明明确的统计计意义。这里我们需需要明确的的是,多元元正态分布布的定义不不止是一种种,更广泛泛的可以采采用特征函函数来定义义,也可以以用一切线线性组合均均为正态的的性质来定定义。二、多元正正态分布的的性质 在讨论多元元统计分析析的理论和和方法时,经经常用到多多元正态变变量的某些些性质,利利用这些性性质可使得得正态分布布的处理变变得容易一一些。1若,是是对角阵,则则相互独立立。2若,为为阶常数阵阵,为维常数向向量,则 即正态随机机向量的线线性函数还还是正态的的。3若,将将,作如下剖剖分 则,。这里需要指指出的是:第一,多多元正态分分布的任何何边缘分布布为正态分分布,但反反之不真。第第二,由于于,故表示和不相关,因因此可知,对对于多元正正态变量而而言,和的不相关关与独立是是等价的。【例2.44】 若其中, 设 ,则(1) 其中 (2) 其中 (3) 记 则 其中 在此我们应应该注意到到,如果服服从元正态态分布,则则它的每个个分量必服服从一元正正态分布,因因此把某个个分量的个个样品值作作成直方图图,如果断断定不呈正正态分布,则则就可以断断定随机向向量也不可可能服从元元正态分布布。第四节 多元正正态分布的的参数估计计 一、多元样样本的数字字特征 设样本资料料可用矩阵阵表示为在这里我们们给出样本本均值向量量、样本离离差阵、样样本协差阵阵以及样本本相关阵的的定义。定义2.99 设为为来自元总总体的样本本,其中,。(1) 样本均值向向量定义为为其中(2)样本本离差阵定定义为 (2.11)这里, (3)样本本协差阵定定义为 (22.12)这里,(4)样本本相关阵定定义为 (22.13) 其中在此,我们们应该提及及的是,样样本均值向向量和离差差阵也可用用样本资料料阵直接表表示如下: 其中 由于 那么,(22.11)式式可以表示示为: (22.14)其中 二、均值向向量与协差差阵的最大大似然估计计 多元正态分分布有两组组参数,均均值和协差差阵,在许许多问题中中它们是未未知的,需需要通过样样本来估计计。那么,通通过样本来来估计总体体的参数叫叫做参数估估计,参数数估计的原原则和方法法是很多的的,这里用用最常见的的且具有很很多优良性性质的最大大似然法给给出和的估计量量。设来自正态态总体容量量为的样本本,每个样样品,样本资资料阵为(22.1)式式表示,即即 则可由最大大似然法求求出和的估计量量,即有 , (2.115)实际上,最最大似然法法求估计量量可以这样样得到。针针对来自正正态总体容容量为的样样本,构造造似然函数数,即 (2.16)为了求出使使(2.116)式取取极值的和和的值,将将(2.116)两边边取对数,即即 (22.17)因为对数函函数是一个个严格单调调增函数,所所以可以通通过对的极极大值而得得到和的估计量量。这里我们要要注意到,根根据矩阵代代数理论,对对于实对称称矩阵,有有,。那么,针对对对数似然然函数(22.17)分分别对和求偏导数数,则有(2.188)由(22.18)式式可以得到到极大似然然估计量分分别为由此可见,多多元正态总总体的均值值向量的极极大似然估估计量就是是样本均值值向量,其其协差阵的的极大似然然估计就是是样本协差差阵。和的估计量量有如下基基本性质:1,即是是的无偏估估计; ,即即不是的无偏偏估计,而而,即是的无偏估估计;2,分别别是,的有效估估计;3,(或或)分别是是,的一致估估计(相合合估计)。样本均值向向量和样本本离差阵在在多元统计计推断中具具有十分重重要的作用用,并有如如下结论:定理2.22 设和和分别是正正态总体的的样本均值值向量和离离差阵,则则1;2离差阵阵可以写为为 其中,独立立同分布于于;3和相互互独立;4为正定定阵的充要要条件是。三、Wisshartt分布在实际应用用中,常采采用和来估计和,前面已已指出,均均值向量的的分布仍为为正态分布布,而离差差阵的分布布又是什么么呢?为此此给出维希希特(Wiisharrt)分布布,并指出出它是一元元分布的推推广,也是是构成其它它重要分布布的基础。Wishaart分布布是Wisshartt在19228年推导导出来的,而而该分布的的名称也即即由此得来来。定义2.110 设设,且相互独独立,则由由组成的随随机矩阵: (2.19)的的分布称为为非中心WWishaart分布布,记为。其中,称为为非中心参参数;当时时称为中心心Wishhart分分布,记为为,当,有密度存存在,其表表达式为: (2.220)显然,当,时,就是的分布布密度,此此时(2.19)式式为,有。因此此,Wisshartt分布是分分布在维正正态情况下下的推广。下面给出WWishaart分布布的基本性性质:若,且且相互独立立,则样本本离差阵,其中。2若,且且相互独立立,则。3若,为为非奇异阵阵,则。这里我们有有必要说明明一下什么么是随机矩矩阵的分布布。随机矩矩阵的分布布有不同的的定义,此此处是利用用已知向量量分布的定定义给出矩矩阵分布的的定义。这里我们有有必要说明明一下什么么是随机矩矩阵的分布布。随机矩矩阵的分布布有不同的的定义,此此处是利用用已知向量量分布的定定义给出矩矩阵分布的的定义。设随机矩阵阵 将该矩阵的的列向量(或或行向量)一一个接一个个地连接起起来,组成成一个长的的向量,即即拉直向量量:的分布定义义为该阵的的分布。若若为对称阵阵时,由于于,故只取取其下三角角部分组成成的拉直向向量,即。第三章 多元元正态分布布均值向量量和协差阵阵的检验第一节 引言 在单一变量量的统计分分析中,已已经给出了了正态总体体N( m, s2) 的均值m和方差s2的各种检检验。对于于多变量的的正态总体体Np( m, ) ,各种实实际问题同同样要求对对m和进行统计计推断。例如,我们们要考察全全国各省、自自治区和直直辖市的社社会经济发发展状况,与与全国平均均水平相比比较有无显显著性差异异等,就涉涉及到多元元正态总体体均值向量量的检验问问题等。本章类似单单一变量统统计分析中中的各种均均值和方差差的检验,相相应地给出出多元统计计分析中的的各种均值值向量和协协差阵的检检验。 其基本思想想和步骤均均可归纳为为: 第第一,提出出待检验的的假设H0和H1;第二,给给出检验的的统计量及及其服从的的分布;第三,给给定检验水水平,查统统计量的分分布表,确确定相应的的临界值,从从而得到否否定域;第四,根根据样本观观测值计算算出统计量量的值,看看是否落入入否定域中中,以便对对待判假设设做出决策策(拒绝或或接受)。在检验的过过程中,关关键在于对对不同的检检验给出不不同的统计计量,而有有关统计量量的给出大大多用似然然比方法得得到。由于于多变量问问题的复杂杂性,本章章只侧重于于解释选取取统计量的的合理性,而而不给出推推导过程,最最后给出几几个实例。为了更好的的说明检验验过程中统统计量的分分布,本章章还要介绍绍HoteellinngT2分布和Wiilks分分布的定义义。第二节 均值向向量的检验验 一、单一变变量检验的的回顾及HHotelllinggT2分布为了对多元元正态总体体均值向量量作检验,首首先需要给给出HottelliingT2分布的定定义。在单一变量量的检验问问题中,设设来自总体体的样本,我我们要检验验假设当已知时,用用统计量 (3.11)其中,为样样本均值。当当假设成立立时,统计计量服从正正态分布,从从而否定域域为,为的上分位点点。当未知时,用用 (3.22)作为的估计计量,用统统计量: (33.3)来做检验。当当假设成立立时,统计计量服从自自由度为的的分布,从从而否定域域为,为自由度度为的分布上的的分位点。 这里我们应应该注意到到,(3.3)式可可以表示为为 (33.4)对于多元变变量而言,可可以将分布布推广为下下面将要介介绍的Hootellling分分布。定义3.11 设,且与相互独立立,则称称统计量的的分布为非非中心HootelllingTT2分布,记记为。当时,称称服从(中中心)Hootellling分分布。记为为。由于这一统统计量的分分布首先由由Haroold HHotelllingg 提出来来的,故称称为Hottelliing分布布,值得指指出的是,我我国著名统统计学家许许宝禄先生生在19338年用不不同方法也也导出分布布的密度函函数,因表表达式很复复杂,故略略去。在单一变量量统计分析析中,若统统计量分布布,则分布布,即把分分布的统计计量转化为为统计量来来处理,在在多元统计计分析中统统计量也具具有类似的的性质。定理3.11 若若,且与相互独立立,令,则则 (3.55)在我们后面面所介绍的的检验问题题中,经常常会用到这这一性质。设是来自维维正态总体体的样本,且且,。(一) 协差阵已知知时均值向向量的检验验(为已知向向量)假设成立,检检验统计量量为 (3.66)给定检验水水平,查分布表表使,可确确定出临界界值,再用用样本值计计算出,若若,则否定定,否则接接受。这里要对统统计量的选选取做一些些解释,为为什么该统统计量服从从分布。根根据二次型型分布定理理知道,若若,则。显然然,其中,因因此,(二)协差差阵未知时时均值向量量的检验(为已知向向量)假设成立,检检验统计量量为 (3.77)其中,给定检验水水平,查分布表表,使,可可确定出临临界值,再再用样本值值计算出,若若,则否定定,否则接接受。这里需要解解释的是,当当未知时,自自然想到要要用样本协协差阵取代代替,因是的无偏估估计量,而而样本离差差阵 由定义3.1知 再根据Hootellling 分布的性性质,所以以 在处理实际际问题时,单单一变量的的检验和多多变量检验验可以联合合使用,多多元的检验验具有概括括和全面考考察的特点点,而一元元的检验容容易发现各各变量之间间的关系和和差异,能能给人们提提供更多的的统计分析析信息。三、两个正正态总体均均值向量的的检验(一)当协协差阵相等等时,两个个正态总体体均值向量量的检验设,为来来自维正态态总体的容容量为的样样本;,为来自自维正态总总体的容量量为的样本本。两组样样本相互独独立,且且,。1针对有有共同已知知协差阵的的情形对假设 进行检检验。对此问题,假假设成立时时,所构造造的检验统统计量为 (33.8)给出检验水水平,查分布表表使,可确确定出临界界值,再用用样本值计计算出,若若,则否定定,否则接接受。这里,我们们应该注意意到,在单单一变量统统计中进行行均值相等等检验所给给出的统计计量为 显然此式恰为上上边统计量量当时的情情况,不难难看出这里里给出的检检验统计量量是单一变变量检验情情况的推广广。2针对有有共同的未未知协差阵阵的情形对假设 进进行检验。对此问题,假假设成立时时,所构造造的检验统统计量为 (3.99)其中, , , 给定检验水水平,查分布表表,使,可可确定出临临界值,再再用样本值值计算出,若若,则否定定,否则接接受。这里我们需需要解释的的是,当两两个总体的的协差阵未未知时,自自然想到用用每个总体体的样本协协差阵和去代替,而而 从而。又由由于 所以 下述假设检检验统计量量的选取和和前边统计计量的选取取思路是一一样的,以以下只提出出待检验的的假设,然然后给出统统计量及其其分布,为为节省篇幅幅,不做重重复解释。(二)协差差阵不等时时,两个正正态总体均均值向量的的检验设从两个总总体和中,分别别抽取两个个样本,即即,;,其容量量分别为和和,且两组组样本相互互独立,。对假设 进进行检验。1针对的的情形令 假设成立时时,构造检检验统计量量为 (3.110) 2针对的的情形 在此,我我们不妨假假设,令 假设成立时时,构造检检验统计量量为 四、多个正正态总体均均值向量的的检验解决多个正正态总体均均值向量的的检验问题题,实际上上应用到多多元方差分分析的知识识。多元方方差分析是是单因素方方差分析直直接的推广广。为了容容易理解多多元方差分分析方法,我我们有必要要先回顾单单因素方差差分析方法法。(一)单因因素方差分分析的基本本思想及WWilkss分布设个正态总总体分别为为,从个总体体取个独立立样本如下下: 假设成立时时,构造检检验统计量量为 (3.111) 这里称为组组间平方和和; 称称为组内平平方和;称称为总平方方和。其中中 给定检验水水平,查分布表表,使,可可确定出临临界值,再再用样本值值计算出值值,若,则则否定,否否则接受。定义3.22 若,则则称协差阵阵的行列式式为的广义方方差。称为为样本广义义方差。其其中。定义3.33 若,且和相互独立立,则称 为Wilkks统计量量,的分布布称为Wiilks分分布,简记记为,其中中为自由度度。这里我们需需要说明的的是,在实实际应用中中经常把统统计量化为为统计量进进而化为统统计量,利利用统计量量来解决多多元统计分分析中有关关检验问题题。表3.1列举常常见的一些些情形。表3.1 与统计量的的关系统计量及分分别任意任意1任意任意21任意任意2任意任意以上几个关关系式说明明对一些特特殊的统计计量可以化化为统计量量,而当,时,可用用统计量或或统计量来来近似表示示,后面给给出。(二)多元元方差分析析法设有个维正正态总体,从每个个总体抽取取独立样本本个数分别别为,每个样样品观测个个指标得观观测数据如如下: 第一一个总体: ,第二个总体体: , 第个个总体: ,全部样品的的总均值向向量: 各总体样品品的均值向向量: ,此处 类似一元方方差分析办办法,将诸诸平方和变变成了离差差阵即: 这里,我们们称为组间间离差阵;为组内离离差阵;为为总离差阵阵。很显然然有 。我们的问题题是检验假假设 用似然比原原则构成的的检验统计计量为 (33.13)给定检验水水平,查WWilkss分布表,确确定临界值值,然后作作出统计判判断。在这这里我们特特别要注意意,Willks分布布表可用分分布或分布布来近似。巴特莱特(BBartllett)提提出了用分分布来近似似。设,令令 (3.14)则近似服从从分布。其其中,。Rao后来来又研究用用分布来近近似。设,令令 (3.15)则近似服从从,这里不一一定为整数数,可用与与它最近的的整数来作作为的自由由度,且。其其中, 第三节 协差阵阵的检验 一、一个正正态总体协协差阵的检检验设来自维正正态总体的的样本,未未知,且。首先,我们们考虑检验验假设 所构造的检检验统计量量为 (3.16)其中 然后,我们们考虑检验验假设 因为,所以以存在(),使得得。令 则 因此,检验验等价于检检验此时构造检检验统计量量为