多元统计分析讲义.pdf
《多元统计分析讲义.pdf》由会员分享,可在线阅读,更多相关《多元统计分析讲义.pdf(246页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用多元统计分析应用多元统计分析与与SASSAS编程编程数学与统计学院数学与统计学院 概率统计系概率统计系叶鹰叶鹰1概述1.1 1.1 学科定位学科定位数理统计的一个分支(统计分布、统计推断)研究多指标总体(应用矩阵工具)1928年Wishart分布的发表标志着独立分支诞生应用广泛(农林、医学、地质、管理)计算量大(应用统计软件:SAS,SPSS,S-plus)1.2 1.2 基本内容基本内容理论方面:理论方面:研究多元总体的分布研究多元总体的分布如:随机矩阵特征值(向量)的(渐近)分布 对分布的性态进行估计和检验对分布的性态进行估计和检验如:检验均值的齐性、协方差的球性、独立性等应用方面:应
2、用方面:多元回归分析多元回归分析主成分分析主成分分析典型相关分析典型相关分析判别分析判别分析因子分析因子分析聚类分析聚类分析1概述1.3 1.3 应用性研究目标应用性研究目标1.3.1 1.3.1 简化、压缩数据简化、压缩数据 医学医学 对癌症患者进行放射疗法的反应x1 症状次数x2 活动量x3 睡眠时间x4 食物摄取x5 食欲x6 皮肤反应疗效?经济学经济学 物价指数、消费指数、经济景气度 社会学社会学 评价、评选优秀人物 农林学农林学 豆类植物品种的改良x1 产量;x2 耐旱性;x3 蛋白质含量选种指标y1概述1.3 1.3 应用性研究目标应用性研究目标1.3.2 1.3.2 假设检验假设
3、检验 环境学环境学 大城市的空气污染程度,在一周内大致保持不变工作日与周末有明显不同 社会学社会学 通过25个变量的583组数据研究美国职业结构经济指标决定论3R决定论需求 requirement 日常 routines报酬 rewords1概述1.3 1.3 应用性研究目标应用性研究目标1.3.3 1.3.3 分类和分组分类和分组 生理学生理学 由多个生理指标产生科学的鉴别方法酗酒者非酗酒者 金融学金融学 利用会计财务数据为银行建立判别方法有尝付能力有财政危机1概述1.3 1.3 应用性研究目标应用性研究目标1.3.4 1.3.4 变量的依赖性变量的依赖性 运动学运动学 十项全能的成绩依赖的
4、基本体能因子:短跑速度;臂力;长跑耐力;腿力 心理学心理学 企业经理的冒险倾向与个人业绩之间的关系1概述1.3 1.3 应用性研究目标应用性研究目标1.3.5 1.3.5 预测预测 地质学地质学 由人工地震波分析地质构造,含矿量。教育学教育学 由中学成绩预测大学成绩。1概述1.4 1.4 参考书参考书1 Anderson.T.W(1958,1984)Introduction to Multivariate Statistical AnalysisIntroduction to Multivariate Statistical Analysis2 Richard.A.J&Dean.W.WAppl
5、ied Multivariate Statistical Analysis Applied Multivariate Statistical Analysis 3 张尧庭 方开泰,科学出版社(1982,1997)多元统计分析引论多元统计分析引论多元统计分析引论多元统计分析引论 4 朱道元 吴诚鸥 秦伟良,东南大学出版社(1999)多元统计分析与软件多元统计分析与软件多元统计分析与软件多元统计分析与软件SAS SAS 1概述(1982,1988,1992,1998,2002.)5 何晓群,中国人民大学出版社(2004,2008)多元统计分析多元统计分析多元统计分析多元统计分析 1概述1.1.5
6、5 数据的初加工(预处理)数据的初加工(预处理)1.1.5.1 5.1 样本资料矩阵样本资料矩阵 Array Array x11 x12.x1px21 x22.x2p.xn1 xn2.xnpX=n px1 x2 xn.=p个变量n次观察1.1.5.2 5.2 描述性统计量描述性统计量nkkn11x()=1x2xpx.,11nkkiixnxi=1,2,.,px样本均值Sample means1111Xn1 11.1.5 5 数据的初加工(预处理)数据的初加工(预处理)1.1.5.2 5.2 描述性统计量描述性统计量nkkkn1)(1xxxxnkjkjikiijxxxxns1)(1i,j=1,2,
7、.,p样本协方差阵Sample varianceand covarianceppppssss1111Sn=)1-(1XIX1111nn1111pprrR样本相关阵Sample corrationjjiiijijsssr i,j=1,2,.,p)1,1(1121ppssdiagD2121DSDn1概述【r的基本性质】1标准化:1 1r r1 1与量纲无关2rij 0:x xki ki x xi i x xkj kj x xj j正相关rij )=00.250.50.751=minxn*,+=1.5()=maxx1*,=1.5()1.5 1.5 1.5 1.5 数据的预处理数据的预处理数据的预处理
8、数据的预处理1.5.3 1.5.3 1.5.3 1.5.3 数据的可视化数据的可视化数据的可视化数据的可视化例5 星形图例5 星形图1.5 1.5 1.5 1.5 数据的预处理数据的预处理数据的预处理数据的预处理1.5.3 1.5.3 1.5.3 1.5.3 数据的可视化数据的可视化数据的可视化数据的可视化例6 脸谱图例6 脸谱图习题一习题一习题一习题一1.1下表为一种进口轿车二手交易数据:车龄x1(年)355777891011销价x2(万元)2.301.901.000.700.301.001.050.450.700.30(1)作数据的散布图和边缘点图。(2)根据散布图推断样本协方差的正负号。
9、(3)计算样本均值向量、样本协方差矩阵 S 和样本相关 矩阵R。解释这些参数。x习题一习题一习题一习题一1.2求下面三维样本资料阵的样本均值向量、样本协方 差矩阵 S 和样本相关矩阵 R。x12043104681285629X习题一习题一习题一习题一1.31990年的 财富杂志公布了美 国10家最大工业公司 的数据(单位:百万美 圆):试画出该三维数据 的多重散布图和盒状 图,并加以解释。公司销售量x1利润x2资产x3通用汽车126 9744 224173 297福特96 9333 835160 893埃克森86 6563 51083 219IBM63 4383 75877 734通用电气55
10、 2643 939128 344美孚50 9761 80939 080菲利浦.莫利斯39 0692 94638 528克莱斯勒36 15635951 038杜邦35 2092 48034 715德士古32 4162 41325 636应用多元统计分析应用多元统计分析数学与统计学院数学与统计学院 概率统计系概率统计系叶鹰叶鹰与与SASSAS编程编程2矩阵代数和随机向量2.12.1正定矩阵正定矩阵1.对称矩阵symmetric matrices A=(aij)nn A=A 即 aij=aji,i,j=1,2,n2.1.1 2.1.1 2.1.1 2.1.1 有关概念有关概念有关概念有关概念2.二次
11、型quadratic forms f(x1,x2,xn)=xAxnjijiijxxa1,nnnnnnxxaaaaxx1111113.正定矩阵positive definite matrices x 0,f(x)=xAx 0,记A04.非负定矩阵nonnegative definite matrices x,xAx 0,记A02.12.1正定矩阵正定矩阵5.特征值与特征向量eigenvalues and eigenvectors Aui=i ui,i=1,2,n2.1.1 2.1.1 2.1.1 2.1.1 有关概念有关概念有关概念有关概念A(u1,un)=(Au1,Aun)nn11,uu,记=
12、diag(1,n)6.谱分解Spectral decomposition A=P PAP=(1 u1,n un)A=A 存在(u1,un)=P 使得PP=PP=I=P niiii1uu2.1.2.1.2.1.2.1.2 2 2 2 基本性质基本性质基本性质基本性质(1)A 0A的所有特征值为正数正 数非负数(2)A 0存在行满秩阵B,使A=BB行满秩阵矩阵(3)A 0对任何行满秩阵B,有BAB 0行满秩阵矩阵(4)A 0A1 0对任何正数c,cA0(5)A 0,B 0,A B 0B1 A1 0且 A B 2.12.1正定矩阵正定矩阵2.1.2.1.2.1.2.1.3 3 3 3 平方根矩阵平方
13、根矩阵平方根矩阵平方根矩阵2.12.1正定矩阵正定矩阵A 0,A=P P,n1i 0,i=1,2,n记21=ding()n,1则PPA2121PPPP21212121AA即一般,对任何实数a,定义 Aa=P aP,PPA2121显然有2121)(AAAAA212121211121)()(AAA其中 a=diag(a,.,na)2.2.2.2.2.1 Cauchy2.1 Cauchy2.1 Cauchy2.1 Cauchy-SchwarzSchwarzSchwarzSchwarz不等式不等式不等式不等式2.2.2 2 矩阵不等式和极值问题矩阵不等式和极值问题对任何向量 x=(x1,.,xp)和
14、y=(y1,.,yp),有即)()(121221piipiipiiiyxyx(x x y y)2 2 (x x x x)()(y y y y)证明证明且等号成立 存在 c 使 x=cy设二维随机向量(X,Y)的概率分布为P(X=xi,Y=yi)=1p,i=1,2,p则边缘分布为P(X=xi)=P(Y=yi)=1p,i=1,2,ppiixpXE1221)(piiypYE1221)(piiiyxpXYE11)(由 E2(XY)E(X2)E(Y2),即得(xy)2 (xx)(yy)2.2.2.2.2.1 Cauchy2.1 Cauchy2.1 Cauchy2.1 Cauchy-SchwarzSchw
15、arzSchwarzSchwarz不等式不等式不等式不等式2.2.2 2 矩阵不等式和极值问题矩阵不等式和极值问题推广:B 0(x x y y)2 2 (x x B Bx x)()(y y B B 1 1y y),证明且等号成立 c x=cB B 1 1y 或 y=cB Bx。2.2.2.2.2.2 2.2 2.2 2.2 二次型的极值二次型的极值二次型的极值二次型的极值2.2.2 2 矩阵不等式和极值问题矩阵不等式和极值问题引理:引理:aBaBxxax0 x12)(max11|maxmaxxBxxxBxxx0 x2.2.2.2.2.2 2.2 2.2 2.2 二次型的极值二次型的极值二次型的
16、极值二次型的极值2.2.2 2 矩阵不等式和极值问题矩阵不等式和极值问题定理:定理:pxBxxxBxxx0 xminmin1|2.2.2.2.3.1 3.1 3.1 3.1 概念概念概念概念2.2.3 3 随机向量及其数字特征随机向量及其数字特征随机矩阵random matrices数学期望(矩阵)expect matrices性质2.2.2.2.3.1 3.1 3.1 3.1 概念概念概念概念2.2.3 3 随机向量及其数字特征随机向量及其数字特征总体期望向量mean vector总体协方差矩阵covariance matrix总体相关矩阵correlation matrix标准差矩阵sta
17、ndard deviation matrix2.2.3 3 随机向量及其数字特征随机向量及其数字特征例例2.1 已知(X1,X2)的联合分布:X1X2011 0 1 0.16 0.400.06 0.14 0.00 求其期望向量、协方差矩阵 和相关矩阵。习题二习题二习题二习题二2.1证明正定矩阵A A的每个特征值都是正的。2.2设X有协方差矩阵9141424225试确定 和V1/2,并验证V1/2 V1/2=。应用多元统计分析应用多元统计分析与与SASSAS编程编程数学与统计学院数学与统计学院 概率统计系概率统计系叶鹰叶鹰2矩阵代数和随机向量2.32.3随机向量及其数字特征随机向量及其数字特征性
18、质1 性质1 设 EX=,ARmp,bRm,则E(AX+b)=A+bE(AX+b)=A+b2.3.2 2.3.2 2.3.2 2.3.2 基本性质基本性质基本性质基本性质性质2 性质2 设 Cov(X)=,ARmp,则Cov(AX)=AACov(AX)=AA证明证明 Cov(AX)=EAX E(AX)AX E(AX)=EAX E(X)X E(X)A 设 X=(x1,x2,xp)为p维随机向量.=A EX E(X)X E(X)A2.32.3随机向量及其数字特征随机向量及其数字特征性质1 性质1 设 EX=,ARmp,bRm,则 E(AX+b)=A+bE(AX+b)=A+b2.3.2 2.3.2
19、2.3.2 2.3.2 基本性质基本性质基本性质基本性质性质2 性质2 设 Cov(X)=,ARmp,则 Cov(AX)=AACov(AX)=AA证明证明 对任何 aRp,a a=Cov(aX)=D(aX)设 X=(x1,x2,xp)为p维随机向量.性质3 性质3 X X 的协方差矩阵非负定,即 Cov(X)=0Cov(X)=00性质4 性质4 设 EX=,Cov(X)=,令,则)(21*XXE(X*)E(X*)=(X )=0=0Cov(X*)Cov(X*)=(CovX)=I=I注注:X X*称为标准化随机向量。一般,0时也有A A使A(X )=0,CovA(X )=I2.32.3随机向量及其
20、数字特征随机向量及其数字特征2.3.2 2.3.2 2.3.2 2.3.2 基本性质基本性质基本性质基本性质例2.2 例2.2 设二维 随机向量有x1x212E=x1x2,Cov=11 1221 22,令 Z=,求 EZ 和 CovZ。解解212121xxxxzz,111121xxZ211111ZE.21211111111122211211ZCov.2222121122112211221211注注:若11=22,则 Cov(z1,z2)=0。2.4 2.4 2.4 2.4 随机样本及其性质随机样本及其性质随机样本及其性质随机样本及其性质2.4.1 2.4.1 2.4.1 2.4.1 样本资料矩
21、阵及其分布样本资料矩阵及其分布样本资料矩阵及其分布样本资料矩阵及其分布pnpnxxxx1111X=pn=(X1,Xn)其中 X1,Xn F(x)iid F(x1)F(xn)2.4.2 2.4.2 2.4.2 2.4.2 样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值niin11XX=X11 n1=(1,1)样本协方差矩阵niiinn1)(1XXXXS=X(I 11)X1 n1 n2.4.2 2.4.2 2.4.2 2.4.2 样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协
22、方差矩阵及其性质样本均值和样本协方差矩阵及其性质统计性质统计性质统计性质统计性质定理 定理 设p维总体有 EX=,CovX=,则对样本均值 X和样本方差 Sn 有,X E,X E,1XnCov,1XnCov.1SnnEn.1SnnEn证明证明niinEE11XXniiEn1)(1X)(1nnnjjniinn1111XXXXninjjin112)(1XXninjjiEnCov112)(1XXXninjjiCovn112),(1XXniiCovn12)(1XjiCovji,0),(XXn1,X E,X E,1XnCov,1XnCov2.4.2 2.4.2 2.4.2 2.4.2 样本均值和样本协方
23、差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质统计性质统计性质统计性质统计性质定理 定理 设p维总体有 EX=,CovX=,则对样本均值 X和样本方差 Sn 有.1SnnEn.1SnnEn证明证明,X E,X E,1XnCov,1XnCovnSn=niii1XXXXXXXXXXniiinii11XXXXnniii1注意到 E(Xi Xi)=+(作为练习),于是niiinnnEEnnEnE1)()(11XXXXSS)1(1nnnnnn 1.1SnnEn.1SnnEn2.4.2.4.2.4.2.4.3 3 3 3 样本均值和样本协方差
24、矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质几何解释几何解释几何解释几何解释例2.3 例2.3 对下面样本资料矩阵作二维和三维图形并作统计解释。531314X=(x1,x2,x3)32xx1x2x3x考虑 yi 在等角向量 1=(1,1,1)上的投影21yy123y1y21yi)31(1)31(1=13(xi1+xi2+xi3)1=xi 1i=1,2x1x22.4.2.4.2.4.2.4.3 3 3 3 样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质
25、几何解释几何解释几何解释几何解释例2.3 例2.3 对下面样本资料矩阵作二维和三维图形并作统计解释。531314X=(x1,x2,x3)x1x2x3x偏差 ei=yi xi 121yy123y1y21x1x2iiiiiixxxxxx321i=1,2e1e2)()(11iiiixxyy312)(kiikxx=3siii=1,2ei ei=e1 e2=312211)(kkkxxxx=3s12=|ei|2,=|e1|e2|cos12,2.4.2.4.2.4.2.4.3 3 3 3 样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵及其性质样本均值和样本协方差矩阵
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 讲义
限制150内