《多元统计与分布普》PPT课件.ppt
《《多元统计与分布普》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《多元统计与分布普》PPT课件.ppt(103页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 引言引言多多元元统统计计分分析析是是研研究究多多个个随随机机变变量量之之间间相相互互依依赖赖关关系系以以及及内内在在统统计计规规律律性性的的一一门门统统计计学学科科;是是讨讨论论多多元元随随机机变变量的理论和方法的总称。量的理论和方法的总称。一一.发展发展19281928年年,Wishart,Wishart Fisher,Hotelling,Roy,Fisher,Hotelling,Roy,许宝禄等许宝禄等7070年代初年代初,在我国开始发展在我国开始发展多元统计分析多元统计分析(Multivariate Statistical Analysis)一、一、多元随机变量多元随机变量二、内容(
2、研究目标)二、内容(研究目标)(1 1)多元正态总体的统计推断)多元正态总体的统计推断 参数估计;假设检验参数估计;假设检验 非参数统计推断的发展?非参数统计推断的发展?(2 2)简化数据结构)简化数据结构 主成分分析;因子分析;对应分析主成分分析;因子分析;对应分析(3 3)分类与分组)分类与分组 聚类分析;判别分析聚类分析;判别分析(4 4)变量间的相互关系)变量间的相互关系 回归分析;典型相关分析回归分析;典型相关分析三三.应用应用教教育育学学、医医学学、气气象象学学、环环境境科科学学、地地质质学学、考考古古学学、服服装装工工业业、经经济济学学、农农业业、社社会会科科学学、文文学学等等各
3、各个个自自然然科科学学和和社会科学社会科学领域。领域。二、雷达图二、雷达图物理政治语文外语数学1122多元随机变量的分布多元随机变量的分布1。多元正态分布。多元正态分布 2。Wishart分布分布3。Hotelling T平方分布平方分布其中元素为第i个样本中第j个分量的取值。多元随机变量多元随机变量1、概率分布律、密度函数与分布函数、概率分布律、密度函数与分布函数(1)离散型随机向量在所有可能向量值上的概率为:其中 时,的分布遵从随机变量的二项分布。2多元随机变量的分布多元随机变量的分布(2)连续型随机向量的概率分布连续型随机向量的概率分布 均匀分布均匀分布设维随机向量的密度函数在某连续区域
4、内为一常数,在该区域外为零值,则称遵从均匀分布,以,连续区域为长方形为例,密度函数为:()可以得出:均匀分布的密度常数为连续区域体积的倒数。2多元随机变量的分布多元随机变量的分布对于维的离散型,或连续型随机向量,均可定义它的联合分布函数(或称维分布函数、累计概率函数)如下:可由联合分布函数计算概率,例如在时,有a=0;例如在时,有可以证明联合分布函数具有这样一些性质:对于每个单元单调上升;对于每个变元左连续;有2多元随机变量的分布多元随机变量的分布二、连续型的维随机向量的联合分布函数二、连续型的维随机向量的联合分布函数 边沿分布与条件分布P维随机向量的联合分布函数为,当它的部分变元(不妨设为后
5、个)于无穷,且有,则其极限函数 2多元随机变量的分布多元随机变量的分布三、三、随机向量的独立性随机向量的独立性返 回对于连续型随机变量上(对于连续型随机变量上(3)式则等价于)式则等价于:对于离散型随机变量上(3)式等价于可用,的联合分布函数及它们各自的(边沿)分布函数表为:设随机变量设随机变量 、,对任意的,对任意的 和和 有有 (3)则称随机变量和相互独立。则称随机变量和相互独立。(4)四、随机向量的数字特征四、随机向量的数字特征随机向量的数字特征主要有数学期望和协方差矩阵。设维随机向量,它的各随机分量的数学期望存在,即有,则的数学期望存在,它为:可见它也是维向量,常称之为均向量,向量方差
6、:(4)又若各随机分量对之间的协方差 存在,则的协方差矩阵存在,它为:显见其对角线元素 为的方差 而非对角线元素 为 之间的协方差 对它标准化,得到 的相关系数:均匀分布的数字特征 均值向量和协方差阵的性质均值向量和协方差阵的性质随机向量的数学期望和协方差矩阵性质讲解 这里的 是 各分量的线性组合(1),(2)(3)(4)(5)(6)(7)五、多元正态分布的密度函数和数字特征 回忆一元正态分布,其密度函数为:它还可写成如下形式:并可推导随机变量X数学期望为,方差为 对此进行推广,设随机向量 P元正态分布,则其密度函数为:多元正态分布的定义与基本性质多元正态分布的定义与基本性质多元正态分布的定义
7、与基本性质多元正态分布的定义与基本性质二元正态分布,其密度函数为:二元正态分布,其密度函数为:取例子例子例例2.2(二元正态密度曲线和等高线)二元正态密度曲线和等高线)title2 相关系数相关系数r=0,a1=a2=1;data normal1;a=1;b=1;r=0;a2=sqrt(a);b2=sqrt(b);p2=2*3.1415926;d=1-r*r;d2=sqrt(d)*a2*b2;do x=-3 to 3 by 0.1;do y=-3 to 3 by 0.1;z1=exp(-x*x/a-y*y/b+2*r*x*y/(a2*b2)/d);z=z1/(p2*d2);output;end
8、;end;keep x y z;run;proc g3d data=normal1;plot y*x=z/name=GB0309 rotate=-30/*ctop=black cbottom=black*/xticknum=7 yticknum=7;run;proc gcontour data=normal1;plot y*x=z;run;其中 为常数向量 为一对称正定矩阵,可以证明 为随机向量 的数学期望(均向量),为它的协方差矩阵。,;,协方差矩阵相关矩阵定义定义1:若独立且服从维中心化正态分布,则随机矩阵所服从的分布称为自由度为的维中心Wishart分布,记为,其中,中心中心Wishar
9、t分布分布定理定理1:设 ,记,则 (1)与 相互独立(2)定义定义2:设,若,与独立,则称随机变量服从第一自由度为P 第二自由度为n的中心分布,记为 分布首先是Hotelling由一元统计推广而来,故 分布又称Hotelling分布。Hotelling分布推论推论1:设 ,当 已知时,推论推论2:设 ,当 未知,记 ,则 事实上,因 根据定义3,取,则,Hotelling分布可以证明:上公式等价于:上两公式给出了F分布统计量与 的关系。对于给定的检验水平 Hotelling分布与F分布的关系3随机向量的估计与检验1。参数简单估计。参数简单估计 2。均值的。均值的Hotelling检验检验3。
10、多元方差分析。多元方差分析 一、用样本统计量对期望与方差作简单估计一、用样本统计量对期望与方差作简单估计 例例1 用用益益寿寿宁宁治治疗疗五五名名高高血血脂脂病病人人,治治疗疗结结果果列列于于表表1,试试估估计计算算多元统计量。多元统计量。二、用样本对协方差矩阵作估计 三、用样本对相关矩阵作估计简单估计在科研问题中,常常可以设定其对象遵从多元正态分布。多元正态分布可由其均向量和协方差矩阵完全确定,但实际工作中,这两个参数往往是未知的,需要通过样本来估计。3 3 两个均数向量的比较两个均数向量的比较 Hotelling THotelling T2 2检验检验由推论由推论1 知 1、当 已知时的均
11、值检验,检验统计量对于给定的检验水平其否定域为由推论由推论2 知 2、当 未知时的均值检验,检验统计量对于给定的检验水平其否定域为 范例范例试讨论益寿宁有否降血脂效果?试讨论益寿宁有否降血脂效果?分析:若无效,意味着分析:若无效,意味着u=0,故假设故假设即,益寿宁有降血脂效果DATA HOTE;INPUT X1 X2;C=1;【单一组指标】【单一组指标】CARDS;16-4 21 46 57-40-20 107 17 86;PROC GLM;CLASS C;MODEL X1 X2=C/NOUNI;MANOVA H=INTERCEPT;LSMEANS C/STDERR PDIFF;PROC C
12、ORR COV OUTP=A;VAR X1 X2;PROC PRINT;RUN;C X1 Std Err Pr|T|LSMEAN LSMEAN H0:LSMEAN=0 C X2 Std Err Pr|T|LSMEAN LSMEAN H0:LSMEAN=0结果结果3(常用多元统计量):(常用多元统计量):OBS _TYPE_ _NAME_ X1 X2DATA HOTE;INPUT X1 X2;X1=x1-20;x2=x2-40;C=1;CARDS;16-4 21 46 57-40-20 107 17 86;PROC GLM;CLASS C;MODEL X1 X2=C/NOUNI;MANOVA H
13、=INTERCEPT;LSMEANS C/STDERR PDIFF;PROC CORR COV OUTP=A;VAR X1 X2;PROC PRINT;RUN 单向试验单向试验 The GLM Procedure Multivariate Analysis of Variance Characteristic Roots and Vectors of:E Inverse*H,where H=Type III SSCP Matrix for Intercept E=Error SSCP Matrix Characteristic Characteristic Vector VEV=1 Root
14、Percent X1 X2 MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall Intercept Effect H=Type III SSCP Matrix for Intercept E=Error SSCP Matrix Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.97353718 0.04 2 3 Pillais Hotelling-Lawley 一一 单向试验单向试验 The GLM Procedure Leas
15、t Squares Means Standard C X1 LSMEAN Error Pr|t|Standard C X2 LSMEAN Error Pr|t|一一 单向试验单向试验计算分析过程计算分析过程DATA HOTE;INPUT X1 X2 X3;x1=x1-90;x2=x2-58;x3=x3-16;C=1;CARDS;78 60.6 16.5 76 58.1 12.5 92 63.2 14.5;PROC GLM;CLASS C;MODEL X1 X2 x3=C/NOUNI;MANOVA H=INTERCEPT;LSMEANS C/STDERR PDIFF;PROC CORR COV
16、OUTP=A;VAR X1 X2 x3;run;SAS程序:程序:The GLM Procedure Class Level Information Class Levels Values C 1 1 Number of observations 6 The SAS System 15:53 Thursday,November 4,2004 2 The GLM Procedure Multivariate Analysis of Variance Characteristic Roots and Vectors of:E Inverse*H,where H=Type III SSCP Matr
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计与分布普 多元 统计 分布 PPT 课件
限制150内