哈尔滨工业大学-多元统计分析-数学建模必备-葛虹ppt课件.ppt
《哈尔滨工业大学-多元统计分析-数学建模必备-葛虹ppt课件.ppt》由会员分享,可在线阅读,更多相关《哈尔滨工业大学-多元统计分析-数学建模必备-葛虹ppt课件.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多多 元元 统统 计计 分分 析析哈尔滨工业大学数学系 葛 虹多元统计分析内容简介n第一章 多元统计的基本概念n第二章 主成分分析n第三章 聚类分析n第四章 多元正态分布n第五章 多元回归分析第一章 多元统计的基本概念 第一节 随机向量 及其数字特征随机向量极其分布P维随机向量: 联合分布函数: 联合密度函数:),(21pXXX),(),(221121pppxXxXxXPxxxF 12212121212121),(),() 3 (1),() 2(0),() 1 (x xxpppppppdxdxdxxxxfxxxFdxdxdxxxxfxxxf特征函数一元随机变量 :二元随机向量 : :P元随机向
2、量例例1 1其它0, 0; 0;),(21)(2121xxcexxfxx)()(itXeEt X),(21XX)()(),(221121Xt iXitXiteEeEtt)()(),(221121Xt iXitXitXitpeEeEtttpp),(21pXXX条件分布与独立性两随机向量间的条件分布 的D.F: ; d.f ; c.f 的D.F: ; d.f ;c.f 的D.F: ; d.f ;c.f 给定 , 的条件密度函数:)2() 1 (),(1)1(qXX ),(1)2(pqXX),(1pxxF),(1pxxf),(1ptt )1()2(),(11qxxF),(12pqxxF),(11qx
3、xf),(12pqxxf),(11qtt ),(12pqtt),(),()(121)2()1(1pqpxxfxxfxxf)2()1()1(两随机向量独立的充分必要条件 与 相互独立)1()2(21FFF21fff21)()() 1 (1)2() 1 (1xfxxf随机向量的数字特征随机向量的数学期望随机向量的方差阵 ) )(,),(),()(21pXEXEXEE),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov()()(212221212111ppppppXXXXXXXXXXXXXXXXXXEEED两随机向量间的协方差阵随机向量的相关系数
4、阵),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov()(),(212221212111ppppppYXYXYXYXYXYXYXYXYXEYYEXXEYXCOV11121212121,XXXXXXXXXXXXppppR)()(),cov(,jijiXXXDXDXXji随机向量的数字特征的计算性质 对称,非负定; CBAECBAE)()()()()(YBEXAEBYAXE)(),(DCOVBYXACOVBYAXCOV),(),(AXADAXDBAXD)()()(, )()()()( ,)COV X YE XYEXEYCOV Y X例2求:其
5、它01,01),(2121xxxxf),() 1 (21xxF)(),() 2(2211xFxF)(),() 3(2211xfxf是否独立?与21)4(XX)()5(21xxf第二节 随机向量的样本 及其数字特征P维随机样本 P维随机向量 的一个容量为n的样本:),(21pXXXpnnnppxxxxxxxxx212221212111, 的样本1X 的样本 的样本2XpX样本均值pnnnppxxxxxxxxx212221212111,nipiniiniipxnxnxnXXX1121121111样本离差阵与样本方差阵nippiniippiniippinippiiniiniiinippiiniiin
6、iiXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxS12122111122122211122111122111211)()()()()()()()()(SnV1样本离差阵样本方差阵样本相关系数阵1)()()()()()()()()(1)()()()()()()()()(122222221121122222221122211222211112222112211XxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxRippiippiippiippippiippiiiiiippiippiiiiii与 的样本相关系数1XpX作 业 一1 令 (1
7、)求c;(2)求 ;(3)证明: ;(4) 是否相互独立? 其它0;),(222kyxcyxfDXEXEX,20)(XYEYX,2 设三个随机变量x,y,z的联合密度函数为:(1)求常数k;(2)x,y,z是否相互独立?(3)试求在给定y=1/2 ,z=1的条件下x的分布。其它030 ; 1,0),(2zyxkxyzzyxf3 设随机向量 的协方差阵为:(1)求相关系数阵;(2)令 , ,求 的协方差阵。),(321XXXX9232443416321132XXXY321242XXXY313XXY),(321YYYY实验报告一实验报告一选择一组多维有意义的数据编写SAS数据文件利用SAS作单变量
8、的置方图,计算基本统计特征(均值、方差或标准差)并由此分析单变量的基本分布情况利用SAS计算多维随机变量的样本协方差阵、样本相关系数阵并由此分析变量之间的相关性要求打印 SAS数据文件 置方图 计算结果 分析结果第二章 主成分分析第一节 为什么要进行主成分分析消除自变量间的相关性与多维变量降维 满足(1) (2)pppppppppppXuXuXuXuXuXuXuXuXuYYYXXX2211222212112121112121)()()(21pYDYDYD0),(jiYYCOVpji, 2 , 1,第二节 数学模型与理论主成分前提条件: 目标:寻找正交矩阵 使 (1) (2) 且结论: 是 的特
9、征值; 的行向量分别为相应的特征向量;)(XE)(XDUUXY pYD21)(p21p,21U理论主成分的计算过程求非负定阵 的特征值:求 所对应的单位特征向量:写出主成分:)(XDp21p,21pppppppuuuuuuuuuuuu21222212112111,ppuYuYuY,2211第三节 样本主成分的计算过程首先将原始数据标准化得到标准化数据(消除量纲影响);求标准化数据的样本协方差阵 (该矩阵是原样本数据的样本相关系数阵) ;求 的特征值 和所对应的单位特征向量:RRp21puuu,21写出p个主成分的表达式: 是样本均值, 是样本标准差ppppsxxusxxusxxuy122212
10、111111ppppsxxusxxusxxuy222222111212ppppppppsxxusxxusxxuy22221111pxxx,21psss,21选择主成分的方法贡献率:第i 个主成分的贡献率为累积贡献率:前m 个主成分的累积贡献率为选择法则: 保留m 个主成分pjjiir1mmrrr21%90%80m第四节 主成分的应用利用第一主成分进行综合评价 若第一主成分满足:(1) 其中(2)第一主成分的贡献率 ,则 可以作为一个综合评价指标ppppsxxusxxusxxuy1222121111110,11211puuu%801rppxaxaxacy22111利用第一、二个主成分进行分类若第
11、一、二个主成分的累积贡献率 ,则由第一、二个主成分在平面上的散点图,可以对样品进行分类。%802ppxaxaxacy121211111ppxaxaxacy222212122实验二 主成分分析选取一组有意义的P维数据利用SAS的“交互数据分析”对P维变量进行主成分分析,并选择主成分进行排序与分类。要求说明:1)主成分选择原理 2)所选择主成分的表达式 3)最后的排序与分类结果。第三章 聚类分析第一节 p维空间中的距离欧氏距离马氏距离B模距离 明氏距离)()(),(2jijijiXXXXXXd)()(),(12jijijiXXSXXXXd)()(),(12jijijiXXBXXXXdqqpkkjk
12、iijxxqd11)()()()(),(12XXSXXGXd一点到总体的马氏距离第二节 聚类方法简介问题:将n个p维样本分成m个类系统聚类法与聚类步骤流程图动态聚类法与聚类步骤流程图系统聚类法与聚类步骤流程图初始分类: ;,2211nnxGxGxGnk 若 与 距离最小,合并为一类iGjG1 nkmk no输出分类结果yes动态聚类法与聚类步骤流程图寻找m个凝聚点:imiixxx,21若 则 ;得),(min),(1ijlmjiklxxdxxd0klGx 00201,mGGG计算各类的重心:mxxx,21若 则 ;得),(min),(1jlmjklxxdxxdklGx mGGG,21计算各类的
13、重心:mxxx,21重心改变输出分类结果yesno第三节 五种系统聚类(cluster)方法最短距离法(method=single)最长距离法(method=complete)重心法(method=centroid)),(min),(,jiGXGXqpXXdGGdqjpi),(max),(,jiGXGXqpXXdGGdqjpi),(),(qpqpXXdGGd类平均法(method=average)离差平方和法(method=ward) piqjGXGXjiqpqpXXdnnGGd),(1),(22qpqpqpSSSGGd),(2pnipippippXXXXS1)()(qniqiqqiqqXXX
14、XS1)()(qpnniqpqipqpqipqpXXXXS1)()(可以证明:半偏)()(),(2qpqpqpqpqpqpqpXXXXnnnnSSSGGd2RTotalqpqpSSSSR2niiiTotalXXXXS1)()(第四节 系统聚类在SAS中的实现proc cluster data=city method=ward outtree=DD;Var x1-x8;id region;proc tree data=DD horizontal graphics;id region;title tree of cluster;run;实验三 聚类分析选取一组有实际意义的数据利用SAS的五种系统聚
15、类方法将n个样本进行分类,要求:1)说明每一种方法的分类结果2)利用主成分分析说明哪一种分类结果更合理),(21piiixxxni, 2 , 1第四章 多元正态分布第一节 多元正态分布第二节 多元正态分布的函数-卡方分布第三节 多元正态分布的参数估计第四节 WISHART分布第五节 正态分布均值向量的假设检验一元正态分布一元正态分布密度函数形式特征函数形式一般正态与标准正态之间的关系多个正态变量的线性组合仍为正态变量第一节 多元正态分布定义1 q维标准正态分布 设 独立同分布于 ,则称随机向量 服从q 维正态分布,记 密度函数: 特征函数: qYYY,21) 1 , 0(N),(21qYYYY
16、),(qqNY)21exp()2(1)(21exp)2(1),(222221221yyyyyyyyfqqqqY)21exp()(21exp),(2222121t tttttttqqY定义2 p 维一般正态分布 设 ,B为 实数矩阵, 为 维实数向量,则 是 维随机正态分布,记为: 其中 为非负定阵。),(qqNYqpp11qqppYBXp),(ppNXBB 定理1 若 服从 ,则 (1) , (2)X),(pNEXDX)21exp()(ttt itp 定理2 若 服从 (1)令 , 为 , 为 则 服从 (利用特征函数证明) (2) 服从X),(pNbAXZZ),(AAbANrAprb1rcX
17、),(2ccNp定理3 若 服从 ,(1) 服从 , 服从 ;(2) 与 相互独立 (简化成 服从 , 服从 的情形,通过特征函数证明)推论:若 不服从正态分布,则 不服从正态分)2() 1 (XXX),(22211211)2()1(pN)1(X),(11) 1 (qN)2(X),(22) 2(qpN)1(X)2(X12)1(X),(11qN)2(X),(22qpN)1(X)2() 1 (XXX用于验证定理4 服从 为一元正态随机变量定理5 若 为正定矩阵,则 服从 具有密度函数(证明要点: , )X),(pNpRLXLX),(pNX )()(21exp)2(1),;(1212xxxfp用于验
18、证)()(2121YX)(21多元正态分布的四个等价定义 其中 为一元正态随机变量 特征函数 密度函数),(ppNX11qqppYBX),(qqNYpRLXL)21exp()(ttt itp)()(21exp)2(1),;(1212xxxfp0多用于验证多用于证明第二节 多元正态分布的函数-卡方分布定义1 中心 分布与矩阵表达设 独立同分布于 ,则若记 ,且 则2pXXX,21) 1 , 0(N212ppiiX),(21pXXXX),(ppNX2pXX定义2 非中心 分布与矩阵表达设 ,且 ,则 服从自由度为p,非中心参数为的卡方分布,并记为:2),(21pXXXX),(ppNX22pXXXX
19、2定理1 若 服从 ,且 正定,则 (1) 服从 ,其中 (2) 服从X),(pNXX1 22p12 )()(1XX2p用于构造检验统计量并检验异常点定理2 设 服从 , 服从 且相互独立,则 服从 定理3 设 服从 , 为 阶实对称阵且 ,则 服从 其中(对称幂等阵的性质:1. I-A是对称幂等的;2.A的特征值是1或0;3. R(A)=tr(A)1Z2Z2121p2222p21ZZ 2221221ppX),(ppINApprArank)(AXX22rAA 2A 2证明要点: 若A是对称幂等的,则存在正交矩阵Q 使 若 服从 A是非负定阵 存在一个矩阵 ,R(B)=r,且QIQArAXX 2
20、2rprBBBA定理4 (Cochran定理)已知 (1) 服从 (2) 为 阶实对称阵;且 (3) 则 服从 与 服从 且相互独立 (要点: )X),(ppINXAXXAXXX2121, AApp11)(rArank22)(rArankXAX1XAX22121r2222rprr21)()()()()(212121ARARpAtrAtrItrAAIpp定理5 设(1)(2) , (3) 非负定则 且与 相互独立1Z2Z21ZZZZ21p2p2Z21pp1Z作业二(1)若 服从(1)求 的分布,其中:(2)X中有无相互独立的分量?(3) 的分布是什么?若 服从 ,A与B分别是 和 阶实矩阵,证明
21、:AX与BX相互独立 X),(ppINpqprBAY), 0(22INBYX 111001B) 32, 1, 2(31132XXXXX一元正态样本及其性质设 是来自 的一个样本样本均值是总体均值的无偏估计,即 ;样本方差是总体方差的无偏估计,即 ;nXXX,21),(2NniiXnX11)(XEniiXXns122)(1122)(sE 与 分别是 和 的极大似然估计其中 与 相互独立XniiMXXns122)(122Ms)1,(2nNX 11221222122)(11niiniinYXXsnsnX2s) 1 , 0(NYi第三节 多元正态分布的参数估计定理1 若 为正定矩阵且 ,则 为 的极大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 哈尔滨工业大学 多元 统计分析 数学 建模 必备 葛虹 ppt 课件
限制150内