第2章 多元正态分布及参数的估计优秀PPT.ppt
第2章 多元正态分布及参数的估计现在学习的是第1页,共54页主要内容主要内容1 随机向量随机向量2多元正态分布的定义与基本性质多元正态分布的定义与基本性质34条件分布和独立性条件分布和独立性随机阵的正态分布随机阵的正态分布5多元正态分布的参数估计多元正态分布的参数估计现在学习的是第2页,共54页 2.1 随机向量随机向量把把 p 个随机变量放在一起得个随机变量放在一起得 X=(X1,X2,Xp)为为一一个个p维维随机向量随机向量,如果同如果同时对时对p个个变变量作一次量作一次观观察察,得得观观测值测值:,它是一个它是一个样样品品.观测观测 n 次得次得 n 个个样样品品:,而而 n 个个样样品就构成一个品就构成一个样样本本.现在学习的是第3页,共54页常把常把n个样品排成一个个样品排成一个np矩阵矩阵,称为称为样本数据阵样本数据阵样本数据阵样本数据阵(或或样本资源样本资源样本资源样本资源阵阵阵阵),记为记为:矩阵矩阵 X 的第的第 i 行行:表示对第表示对第 i 样品的观测值样品的观测值,在具体观测之前在具体观测之前,它是一个它是一个p维的随机向量维的随机向量.矩阵矩阵X的第的第 j 列列或或 def(X1,X2,Xp)现在学习的是第4页,共54页表示对第表示对第 j 个变量的个变量的 n 次观测次观测,在具体观测之前在具体观测之前,它是一个它是一个 n 维随机向量维随机向量;而而样本数据阵样本数据阵 X 是一个随机阵是一个随机阵.在多元统计分析中涉及到的都是随机向量在多元统计分析中涉及到的都是随机向量,或是多个随或是多个随机向量放在一起组成的随机阵机向量放在一起组成的随机阵.X现在学习的是第5页,共54页一、随机向量的联合分布一、随机向量的联合分布,边缘分布边缘分布,条件分布条件分布1.联合分布联合分布设设X=(X1,X2,Xp)是是 p 维随机向量维随机向量,称称 p 元函数元函数为为X的的联合分布函数联合分布函数联合分布函数联合分布函数.若存在非负函数若存在非负函数 f(x1,x2,xp),使得随机向量使得随机向量X的联合分布函的联合分布函数对一切数对一切(x1,x2,xp)均可表示为均可表示为则称则称X为为连续型随机向量连续型随机向量,称称f(x1,x2,xp),为为X的的联合概率密联合概率密度函数度函数,简称为简称为多元密度函数多元密度函数或或密度函数密度函数.现在学习的是第6页,共54页多元密度函数多元密度函数f(x1,x2,xp),满足以下两条性质满足以下两条性质:2.边缘分布边缘分布称随机向量称随机向量X的部分分量的部分分量 的分布为的分布为 边缘分布边缘分布边缘分布边缘分布.设设X(1)为为 r 维随机向量维随机向量,X(2)为为 p-r 维随机向量维随机向量.若若 p 维随机向维随机向量量,则则X(1)的边缘分布的边缘分布为为则则X(2)的边缘分布为的边缘分布为现在学习的是第7页,共54页例例2.1.1 设二维随机向量设二维随机向量 的联合密度函数为的联合密度函数为试求试求 X1 和和 X2 关于随机向量关于随机向量 X 的边缘密度的边缘密度.解解解解:首先可验证首先可验证 f(x1,x2)满足联合密度函数的两条性质满足联合密度函数的两条性质.在利用边缘在利用边缘密度的计算公式密度的计算公式,有有类似可得出类似可得出12现在学习的是第8页,共54页3.条件分布条件分布设设X(1)为为 r 维随机向量维随机向量,X(2)为为 p-r 维随机向量维随机向量.若若 p 维随机向维随机向量量,则给定则给定X(2)时时,称称X(1)的分布为的分布为条件分布条件分布.当当X的密的密度度函数为函数为 f(x(1),x(2)时时,给定给定X(2)时时,X(1)的条件密度为的条件密度为其中其中 f2(x(2)是是 X(2)的密度函数的密度函数.现在学习的是第9页,共54页4.独立性独立性设设是是 p 个随机变量个随机变量,Xi的分布函数记为的分布函数记为 Fi(xi)(i=1,2,p);是是 的联合分的联合分布布函数函数.若对一切实数若对一切实数 ,均成立均成立,则称则称 相互独立相互独立.在连续型随机变量的情在连续型随机变量的情况下况下,相互独立相互独立,当且仅当当且仅当 的的 联合密度函数联合密度函数 f(x1,x2,xp),满足满足对一切实数对一切实数 均成立均成立,其中其中 fi(xi)是是 Xi 的密度函的密度函数数(i=1,2,p).在例在例2.1.1 中随机向量中随机向量 X 的两个分量的两个分量 X1,X2 互相不独立互相不独立.1现在学习的是第10页,共54页二、随机向量的数字特征二、随机向量的数字特征设设 是两个随机向量是两个随机向量1.随机向量随机向量 X 的均值向量的均值向量若若 存在存在,则称则称为随机向量为随机向量 X 的的均值向量均值向量.现在学习的是第11页,共54页2.随机向量随机向量 X 的协方差阵的协方差阵若若 Xi 和和 Xj 的协方差的协方差 Cov(Xi,Xj)存在存在(i,j=1,p),则称则称为随机向量为随机向量 X 的的协方差阵协方差阵.现在学习的是第12页,共54页3.随机向量随机向量 X 和和Y 的协方差阵的协方差阵若若 Xi 和和 Yj 的协方差的协方差 Cov(Xi,Yj)存在存在(i=1,p,j=1,q),则称则称为随机向量为随机向量 X 和和 Y 的的协方差阵协方差阵.(其中其中 O 表示零矩阵表示零矩阵)则称则称X 与与 Y 不相关不相关.若若现在学习的是第13页,共54页4.随机向量随机向量 X 的相关阵的相关阵 若若 Xi 和和 Xj 的协方差的协方差 Cov(Xi,Xj)存在存在(i,j=1,p),称称为为X 的的相关阵相关阵.其中其中这里这里为随机变量为随机变量Xi的的方差方差方差方差,而而 为为Xi的的标准差标准差标准差标准差(i=1,p),.若记若记 为为标准差矩阵标准差矩阵,则则或或现在学习的是第14页,共54页三、均值向量和协方差阵的性质三、均值向量和协方差阵的性质性质性质1 设设X,Y 是随机向量,是随机向量,A,B 是常数矩阵,则是常数矩阵,则性质性质2 若若X,Y 相互独立,则相互独立,则 ;反之不一定成立。;反之不一定成立。性质性质3 随机向量随机向量 的协方差阵的协方差阵 是对称是对称非负定矩阵。非负定矩阵。性质性质4 L2,其中,其中L为非负定矩阵。为非负定矩阵。当矩阵当矩阵 0(正定正定)时时,矩阵矩阵L也称为也称为 的的平方根矩阵平方根矩阵,记为记为1/2。若令若令 ,则协方差阵则协方差阵 还有如下分解:还有如下分解:(A为非退化方阵)。为非退化方阵)。现在学习的是第15页,共54页 2.2 多元正态分布的定义与基本性质多元正态分布的定义与基本性质定义定义2.2.1 设设 为随机向量,为随机向量,U1,Uq相互独立且相互独立且同同N(0,1)分布;分布;设设 为为p维常数向量,维常数向量,A为为pq常数矩阵,则称常数矩阵,则称X=AU+的分布为的分布为p元正态分布元正态分布,或称,或称X为为p维正态随机向量维正态随机向量,记为记为XNp(,AA).简单的说,由简单的说,由 q 个相互独立的标准正态随机变量的一些线性组合所构成的个相互独立的标准正态随机变量的一些线性组合所构成的随机向量的分布,称其为随机向量的分布,称其为多元正态分布多元正态分布。在一元统计中,若在一元统计中,若 ,则,则 X 的特征函数为的特征函数为将其推广到多维正态随机向量的情况有如下性质。将其推广到多维正态随机向量的情况有如下性质。现在学习的是第16页,共54页性质性质1 设设 为随机向量,为随机向量,U1,,Uq相互独立且同相互独立且同N(0,1)分布,令分布,令X=AU+,则则 X 的特征函数为的特征函数为定义定义2.2.2 若若 p 维随机向量维随机向量 X 的特征函数为的特征函数为则称则称 X 服从服从 p 元正态分布,记为元正态分布,记为XNp(,)。性质性质2 设设XNp(,),B为为sp常数矩阵,常数矩阵,d 为为 s 维常向量,令维常向量,令Z=BX+d,则,则 ZNs(B+d,BB).注注 性质性质2指出正态随机向量的任意线性组合仍服从指出正态随机向量的任意线性组合仍服从 正态分布。正态分布。现在学习的是第17页,共54页推论推论 设设 ,将,将 ,剖分为剖分为则则 X(1)Nr(1),11),X(2)Np-r(2),22).【注】【注】此推论指出,多元正态分布的边缘分布仍为正态此推论指出,多元正态分布的边缘分布仍为正态分布。但反之,若随机向量的任何边缘分布均为正态分布,分布。但反之,若随机向量的任何边缘分布均为正态分布,也不一定能导出该随机向量服从多元正态分布。(见例也不一定能导出该随机向量服从多元正态分布。(见例2.1.1)2现在学习的是第18页,共54页性质性质3 若若XNp(,),则,则 E(X)=,D(X)=.性质性质4 设设 为为 p 维随机向量,则维随机向量,则 X 服从服从 p 元正态分布元正态分布 对任一对任一 p 维实向量维实向量 a,是一维正态随机变量。是一维正态随机变量。定义定义2.2.3 若若 p 维随机向量维随机向量 X 的任意线性组合均服从一元正态分布,则称的任意线性组合均服从一元正态分布,则称 X 为为 p 维正态随机向量维正态随机向量。性质性质5 设设XNp(,),且,且 0(正定),则(正定),则 X 的联合密度的联合密度函数为函数为现在学习的是第19页,共54页定义定义2.2.4 若若 p 维随机向量维随机向量 的联合密度函数为的联合密度函数为 其中其中 是是 p 维实向量维实向量,是是 p 阶正定矩阵阶正定矩阵,则称则称服从服从(非退化的非退化的)p 元正态分布;也称元正态分布;也称 X 为为 p 维正态随机向量维正态随机向量,简记,简记 XNp(,)。现在学习的是第20页,共54页例例2.2.1(二元正态分布二元正态分布)设设 ,记,记(1)试写出)试写出 X 的联合密度函数和边缘密度函数;的联合密度函数和边缘密度函数;(2)试说明)试说明 的统计意义。的统计意义。现在学习的是第21页,共54页 2.3 条件分布和独立性条件分布和独立性一、独立性一、独立性定理定理2.3.1 设设 p 维随机向量维随机向量 X Np(,),则则X(1)与与X(2)相互独立相互独立 12O(即(即X(1)于于X(2)互不相关)互不相关)现在学习的是第22页,共54页推论推论1 设设 ,且,且 ,有,有则则X(1),,X(k)相互独立相互独立 ijO(一切(一切ij)。)。推论推论2 设设 ,若,若为对角矩阵,则为对角矩阵,则相互独立。相互独立。现在学习的是第23页,共54页二、条件分布二、条件分布定理定理2.3.2 设设 ,则当,则当 X(2)给定时,给定时,X(1)的条件分布为的条件分布为其中其中现在学习的是第24页,共54页推论推论 在定理在定理2.3.2条件下可得:条件下可得:现在学习的是第25页,共54页三、几个概念三、几个概念1.条件期望,回归系数,偏相关系数条件期望,回归系数,偏相关系数又已知又已知 X(2)给定时给定时 X(1)的条件分布为的条件分布为E(X(1)|X(2);并称并称 为为X(1)对对X(2)的的回归回归,称,称则称则称 为为条件期望条件期望,记为,记为为为回归系数回归系数。设设;,22211211)2()1()2()1(SSSS-=mmpNrprXXX现在学习的是第26页,共54页记记称称为当为当 给定时,给定时,Xi与与Xj(i,j=1,2,r)的)的偏相关系数偏相关系数。现在学习的是第27页,共54页2.全相关系数全相关系数设设则称则称为为 Y 与与 的的全相关系数全相关系数。现在学习的是第28页,共54页3.最佳预测最佳预测在定理在定理2.3.2条件下,我们考虑条件下,我们考虑 r=1,记记 X(1)=Y,则对任意函数则对任意函数 ,可以证明,可以证明(见习题二的第(见习题二的第2-16题)题):即在均方差最小的准则下,条件期望即在均方差最小的准则下,条件期望g(x(2)是对是对Y的最佳预测函数的最佳预测函数.现在学习的是第29页,共54页 2.4 随机阵的正态分布随机阵的正态分布把来自把来自 p 元总体的容量为元总体的容量为 n 的随机样本排成一矩阵的随机样本排成一矩阵 X:其中其中X(i)(i=1,n)是来自是来自p元总体的一个样本,则样本数据元总体的一个样本,则样本数据阵阵X就是一个随机阵。讨论随机阵就是一个随机阵。讨论随机阵 X 的分布时,可考虑把的分布时,可考虑把 X 的的行向量(即样品)一个接一个连接起来构成一个行向量(即样品)一个接一个连接起来构成一个 np 维长向量,维长向量,然后讨论这个长向量的分布。然后讨论这个长向量的分布。(X1,X2,Xp)现在学习的是第30页,共54页一、拉直运算和克罗内克一、拉直运算和克罗内克(Kronecker)积积1.拉直运算拉直运算 所谓拉直运算,就是将矩阵拉成一个长向量,通过它来建立所谓拉直运算,就是将矩阵拉成一个长向量,通过它来建立矩阵和向量之间的联系。设随机矩阵矩阵和向量之间的联系。设随机矩阵 X 是一个是一个np矩阵,用矩阵,用X 的的列向量列向量 X X1,X X2,X Xp 组成一个组成一个np维向量,记为维向量,记为符号符号“Vec”称为称为拉直运算拉直运算。如果将矩阵。如果将矩阵 X 的行向量(样品)拉直的行向量(样品)拉直为一个为一个np维向量,用拉直运算的符号可记为维向量,用拉直运算的符号可记为现在学习的是第31页,共54页 在多元统计分析中,经常需要考虑对称矩阵的拉直运算。设在多元统计分析中,经常需要考虑对称矩阵的拉直运算。设 S 是是 p 阶对称矩阵,在阶对称矩阵,在 S 矩阵中包含矩阵中包含 p(p+1)/2 个不同的随机变量,故将个不同的随机变量,故将其拉直为其拉直为 p2 维向量是不合适的,应拉成维向量是不合适的,应拉成p(p+1)/2 维向量。设维向量。设 S=(Sij)pp 为为 p 阶阶对称矩阵,令对称矩阵,令为为 p(p+1)/2 维向量。符号维向量。符号“Svec”称为称为对称矩阵的拉直运算对称矩阵的拉直运算。现在学习的是第32页,共54页2.克罗内克积克罗内克积 设设 A=(aij)和和 B 分别为分别为 np 和和 mq 的矩阵,的矩阵,A 和和 B 的克的克罗内克积罗内克积 A B定义为定义为它是它是 mnpq 矩阵。在多元统计分析中克罗内克积又称矩阵。在多元统计分析中克罗内克积又称矩阵的直积矩阵的直积,是一个有用的工具。在下面的讨论中将用到矩阵的直积的一是一个有用的工具。在下面的讨论中将用到矩阵的直积的一些性质(见参考文献些性质(见参考文献1)。)。现在学习的是第33页,共54页二、随机阵的正态分布二、随机阵的正态分布设设 为来自为来自 p 元正态总体元正态总体的随机样本(独立同分布),记随机阵的随机样本(独立同分布),记随机阵 X=(xij)np,利用拉直,利用拉直运算及矩阵的直积的定义和性质,可知运算及矩阵的直积的定义和性质,可知事实上,事实上,np 维长向量维长向量 的联合密度函数为的联合密度函数为现在学习的是第34页,共54页现在学习的是第35页,共54页由矩阵的直积的定义,由矩阵的直积的定义,np 维随机向量维随机向量 的均值向量和的均值向量和协方差阵分别为协方差阵分别为现在学习的是第36页,共54页当随机阵当随机阵 X 按行拉直后,如果有按行拉直后,如果有则称则称 X 服从服从矩阵正态分布矩阵正态分布,记作,记作其中其中即即其中其中现在学习的是第37页,共54页随机矩阵正态分布有如下有用的随机矩阵正态分布有如下有用的性质性质性质性质:设设 ,A为为 kn 常数矩阵,常数矩阵,B 为为 qp 常数矩阵,常数矩阵,D 为为 kq 常数矩阵,令常数矩阵,令 ,则,则现在学习的是第38页,共54页 2.5 多元正态分布的参数估计多元正态分布的参数估计考虑考虑 p 元正态总体元正态总体XNp(,),设设(i=1,p)为为 p 元正态总体元正态总体 X 的简单随机样本,此时观测数据的简单随机样本,此时观测数据阵阵是一个随机阵。是一个随机阵。本节讨论参数本节讨论参数 和和 的最大似然估计及其性质。的最大似然估计及其性质。现在学习的是第39页,共54页一、多元正态总体样本的数字特征一、多元正态总体样本的数字特征对于多元统计分析,我们引入以下多元正态总体样本的相关量。对于多元统计分析,我们引入以下多元正态总体样本的相关量。(1)样本均值向量)样本均值向量 :其中其中(2)样本离差阵(又称交叉乘积阵)样本离差阵(又称交叉乘积阵)A:其中其中现在学习的是第40页,共54页(3)样本协方差阵)样本协方差阵 S:其中其中称为变量称为变量 Xi 的的样本方差样本方差;样本方差的平方根;样本方差的平方根 称为变量称为变量Xi 的的样本标准差样本标准差。(4)样本相关阵)样本相关阵 R:其中其中现在学习的是第41页,共54页二、二、,的最大似然估计的最大似然估计设设 X(i)(i=1,n)为为 p 元正态总体元正态总体 N(,)的随机样本,的随机样本,以下以下用最大似然估计来求参数用最大似然估计来求参数,的最大似然估计。的最大似然估计。1.似然函数似然函数 L(,)把随机矩阵把随机矩阵 X 按行拉直后形成的按行拉直后形成的 np 维长向量维长向量 的联合的联合密度函数看成未知参数密度函数看成未知参数 ,的函数,并称为的函数,并称为样本样本X(i)(i=1,n)的似然函数的似然函数,记为,记为 L(,):现在学习的是第42页,共54页现在学习的是第43页,共54页其中其中 由于由于 lnx 是是 x 的单调函数,的单调函数,L(,)与与 lnL(,)有相同的最有相同的最大值点,以下只需讨论大值点,以下只需讨论 lnL(,)的最大值问题。的最大值问题。现在学习的是第44页,共54页2.迹的有关性质迹的有关性质引理引理2.5.1 设设 B 为为 p 阶正定矩阵,则阶正定矩阵,则 ,且等号成立的充分必要条件是且等号成立的充分必要条件是 B=Ip.3.讨论讨论L(,)的最大值点的最大值点定理定理2.5.1 设设X(i)(i=1,n)是多元正态总体是多元正态总体Np(,)的的随机随机 样本样本,np,则,则,的最大似然估计为的最大似然估计为 ,如果如果 怎么办?为此可以证明怎么办?为此可以证明 ,最大似然估计不存在。但最大似然估计不存在。但|A|0的情况几乎不存在,因为可以的情况几乎不存在,因为可以证明,当证明,当 np 时,时,PA0=1(见定理(见定理2.5.2)。)。现在学习的是第45页,共54页三、三、最大似然估计量的性质最大似然估计量的性质设设 独立同独立同 Np(,)分布,且分布,且0,记记定理定理2.5.2 设设 和和 A 分别为分别为 p 元正态总体元正态总体 Np(,)的样本均的样本均值向量和样本离差阵,则值向量和样本离差阵,则现在学习的是第46页,共54页以下是以下是以下是以下是 和和和和 的最大似然估计所具有的一些性质:的最大似然估计所具有的一些性质:的最大似然估计所具有的一些性质:的最大似然估计所具有的一些性质:1.无偏性无偏性可以证明可以证明故故 是是 的无偏估计量。的无偏估计量。现在学习的是第47页,共54页又又因而因而 的最大似然估计的最大似然估计 不是无偏估计。为了得到不是无偏估计。为了得到无偏估计量,常作如下修正:无偏估计量,常作如下修正:令令 ,则,则 S 是是的无偏估计。常称的无偏估计。常称为为样本均值样本均值;为为样本协方差阵样本协方差阵。现在学习的是第48页,共54页2.有效性有效性可以证明可以证明 ,S 是是 ,的的“最小方差最小方差”无偏估计量,即无偏估计量,即 ,S是是 ,的有效估计量(见参考文献的有效估计量(见参考文献2)。)。3.相合性相合性可以证明当可以证明当 时,时,是是 ,的强相合估计。的强相合估计。4.其他其他还可以证明还可以证明 是是 ,的充分估计量;的充分估计量;是是 的极小极大的极小极大估计量(最大风险达最小);且估计量具有渐近正态性。估计量(最大风险达最小);且估计量具有渐近正态性。现在学习的是第49页,共54页现在学习的是第50页,共54页现在学习的是第51页,共54页四、参数函数的四、参数函数的最大似然估计最大似然估计 为了从参数为了从参数 ,的最大似然估计来导出参数函数的最大似然估计来导出参数函数的最大似然估计,我们首先介绍有关的概念与性质。的最大似然估计,我们首先介绍有关的概念与性质。设参数向量设参数向量的变化范围是的变化范围是R Rk k。L L()是似然函数。设是似然函数。设是似然函数。设是似然函数。设g()是是到到*上的博雷尔上的博雷尔(Borel)可测映射,这里可测映射,这里*是是R Rk k的子集。对于任何的子集。对于任何 *,令,令定义定义2.5.1 称称M()为函数为函数g()诱导出的诱导出的似然函数似然函数。定义定义2.5.2 若若 满足满足 ,称,称 是是g()的的最大似最大似然估计然估计。定理定理2.5.3 若若 是是的最大似然估计,则的最大似然估计,则 是是g()的的最大似然估计。最大似然估计。现在学习的是第52页,共54页 既然多元正态分布既然多元正态分布Np(,)的参数的参数 和和有最大似然估计有最大似然估计量量从定理从定理2.5.3知,函数知,函数g(,)的最大似然估的最大似然估计计为为例例2.5.1 设设 p 维正态随机向量维正态随机向量 ,Xi,Xj的相关系的相关系数为数为其中其中 是协方差阵是协方差阵的第的第 i 行第行第 j 列的元素。试求列的元素。试求ij的最大的最大似然估计量似然估计量 rij。现在学习的是第53页,共54页例例2.5.2 设设试求试求 X(1)对对 X(2)的回归系数阵及的回归系数阵及X(2)给定时给定时X(1)的的条件协方差阵的最大似然估计量。条件协方差阵的最大似然估计量。现在学习的是第54页,共54页