应用多元统计分析课后答案.doc
YOUR LOGO原 创 文 档 请 勿 盗 版精品学习资料精品学习资料应用多元统计分析课后答案第二章2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X( X1, X 2 ,X p )的联合分布密度函数是一个p 维的函数,而边际分布讨论是X( X1 , X 2 ,X p ) 的子向量的概率分布,其概率密度函数的维数小于p。( X1X2 )2.2 设二维随机向量服从二元正态分布,写出其联合分布。211222解:设( X1X 2 )的均值向量为,则其联,协方差矩阵为1221合分布密度函数为1/2122121121 (x212221222f ( x)exp)( x)。2121( X1X 2 ) 的联合密度函数为2.3 已知随机向量2(dc)( x1a)(b(ba)( x2a)2 (dc)c)22( x1a)( x2c)f (x , x )12其中ax1b ,cx2d 。求( 1)随机变量X1 和X 2 的边缘密度函数、均值和方差;( 2)随机变量X1 和X 2 的协方差和相关系数;( 3)判断X1 和 X 2 是否相互独立。欢迎下载第 1 页,共 68 页精品学习资料精品学习资料( 1)解:随机变量X1 和X 2 的边缘密度函数、均值和方差;2(dc)( x1a)(b(ba)( x2a) ( dc)c)2( x1a)( x2c)df x ( x1 )1dx22cd2( d(bc)( x1a) (da) x22(ba)( x2(bc)2( x1a)( x22c)ddx2222cc)a) (dc)cd2(d(bc)( x1a) 2 ( da) x2c) 2c 2( b(ba)t2( x1a)tddta)2 (dc) 20cdd c222(d(bc)( x1a) ( da) x2( ba)t(b2( x1a)t21222c)a) ( dc)bac0所以2ba12ba ,方差为X1 服从均匀分布,则均值为由于。21xc, ddc21同理,由于X2 服从均匀分布f( x2 ),则均值为,d0cx2其它2dc方差为。12( 2)解:随机变量X1 和X 2 的协方差和相关系数;cov(x1 , x2 )abdc2( dc)( x1a)(ba)( x2c)c) 22( x1a)( x2c)dbx1x2dx1dx2(ba)2 ( dca22(cd )(b36a)cov( x1, x2 )13xx12( 3)解:判断X1 和 X 2 是否相互独立。欢迎下载第 2 页,共 68 页精品学习资料精品学习资料X1 和 X 2 由于 f ( x , x )f( x ) f(x ) ,所以不独立。12x11x222.4 设 X( X1 , X 2 ,X p ) 服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相互独立的随机变量。解:因为X( X1, X 2 ,X p ) 的密度函数为p12121/21f (x1,., xp )exp(x) ( x)2122又由于2p21222p121122112p则f ( x1 ,., xp )121122p12121/221222p1(x) (x)exp12pp2221 ( xp2p )121 (x)1 ( x)11123exp.12p21222p222p1( xii )expf ( x1 ). f ( xp )2i22i 1i欢迎下载第 3 页,共 68 页精品学习资料精品学习资料则其分量是相互独立。由于 多 元正 态 分 布 的 数 学 期望 向 量 和 均 方差 矩 阵 的 极 大似然分别为2.5n?XX ini 1n?(X iX )( X iX )ni 135650.0012.3317325.00152.50?X201588000.0038900.0013.06716710.00-35.80083722500.0016710.0036573750.00-199875.00-736800.00-35.80-199875.0016695.1038900.0083722500.00-736800.00?101n1n注:利用X(I1n1n ) XIXX 1n ,其中Snp 1n01在SPSS中求样本均值向量的操作步骤如下:1.选择菜单项Analyze Descriptive Statistics Descriptives,打开 Descriptives对话框。将待估计的四个变量移入右边的Variables 列表框中,如图2.1。图2.1Descriptives对话框单击 Options 按钮, 打开Options 子对话框。 在对话2.框中选择Mean 复选框,即计算样本均值向量,如图2.2 所示。单击Continue 按钮返回主对话框。欢迎下载第 4 页,共 68 页精品学习资料精品学习资料图 2.2 Options 子对话框单击 OK 按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即3.样本均值向量为(35.3333, 12.3333 , 17.1667, 1.5250E2)。表 2.1样本均值向量SPSS 中计算样本协差阵的步骤如下:选择菜单项在1.Analyze Correlate Bivariate ,打开BivariateCorrelations 对话框。将三个变量移入右边的2.3。Variables 列表框中,如图图 2.3 Bivariate Correlations对话框单击 Options 按钮,打开Options 子对话框。选择2.Cross-product deviations and covariances 复选框,即计算样本离差阵和样本协差阵,如图2.4。单击 Continue 按钮,返回主对话框。欢迎下载第 5 页,共 68 页精品学习资料精品学习资料图 2.4 Options 子对话框单击OK按钮,执行操作。则在结果输出窗口中给3.出相关分析表,见表2.2。表中Covariance给出样本协差阵。(另外, PearsonCorrelation 为皮尔逊相关系数矩阵,差阵。)Sum of Squares and Cross-products 为样本离2.6 渐近无偏性、有效性和一致性;X Np (, ) ,有样本X1, X 2 ,., X n 。由于 X 是相互独立的正2.7 设总体服从正态分布,态分布随机向量之和,所以X也服从正态分布。又nnnE(X )EX inEX in ni 1i 1i1nnn11nD(X )DXnDXii22ni 1ni 1i 1X Np (, ) 。所以欢迎下载第 6 页,共 68 页精品学习资料精品学习资料n1?( X iX )( X iX )方法 1:2.8n1i 1n1X i X inXXn1i 1n1E(? )X XnXXE()iin1i 1n1n1EX i X inEXXi1n11n( n1)。nn1n1i 1n方法 2: S(X i - X)(X- X )ii 1nX i - )- (X)(XX ii 1nn(X i - )( X i - )( X i - )( X - )n(X)(X X )2i1i 1n( X i - )( X i - )2n(X)(X)n(X)(X)i 1n( X i - )( X i - )n( X)(X)i 1nS1n1E() 1E( X i - )( X i - )n(X)(X)ni 1n1E(X- ) X(- ) nE X()(X)。iin1i 1S为 的无偏估计。故n1X (1) ,X,.,XX Np (, )试求 S2.9.设是从多元正态分布抽出的一个简单随机样本,(2)(n )的分布。证明:设欢迎下载第 7 页,共 68 页精品学习资料精品学习资料* 1n* 1n* 1n) 为一正交矩阵,即I(。ij令= ( 12n ) =X 1X 2Xn ,由于 X i (i1,2,3,4,n)独立同正态分布 , 且为正交矩阵所以(n ) 独立同正态分布 。且有12nn1n1nniE(n )E (i )n, Var(Z n )。,i 1i 1nE(a )E(raj j )( a1,2,3, n1)j 1n1nnrajj 1nni 1rajrnj0nVar( a )Var(raj j )j1nn22rajVarjj 1rajj 1所以12nN (0, ) 分布。1 独立同n又因为S(XX )( XX )jji1nXj X jnXXj 1nn11因为nXXnnX inX iZ n Z nn i 1n i 1欢迎下载第 8 页,共 68 页精品学习资料精品学习资料X 1X 2n又因为X j XX 1X 2X njj 1X nX 1X 2X nX 1X 2X nZ 1Z 2Z 1Z 2Z nZ nnn所以原式X j XZ n Z nZ j Z jZ nZ njj 1j 1Z 1Z 1Z 2Z 2.Z nZ n- n nn1Np (0, ) ,所以故 S,由于 Z1, Z2 , Zn1 独立同正态分布jjj1n1SWp (n1,)jjj1Xi ( nip) 是来自Np (i , i ) 的简单随机样本,i1,2,3, k ,2.10. 设( 1)已知.,求 和 的估计。12k且 12k( 2)已知12.k求 1 , 2 ,., k 和的估计。nak1a解:(1) ?xxi,n1n2.nk a 1i 1nakaaxixxix?a 1 i 1n1n2.nk(2)ln L(1 ,k , )nk12an 2pa-1aln(2)exp(xi- a ) (xi - a )a 1i 1欢迎下载第 9 页,共 68 页精品学习资料精品学习资料nk12n212aa-1aln L(, )pnln(2)ln(xi- a ) (xi - a )a1i1nkln L(, )n212a21aa1( X ia )( X ia )0a1i 1n jln L (j , )j1(X ij)0( j1,2,., k)ji 1解之,得njkxijx jxijx jnj1n j?j 1 i 1n1?xx,jjijn2.nki 1第三章试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。3.1其基本思想和步骤均可归纳为:答:第一,提出待检验的假设和 H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域;第四, 根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。均值向量的检验:统计量拒绝域均值向量的检验:在单一变量中( X0 )2已知当zn| z |z/ 2( X0 )2未知当tn| t |t(n1)/ 2Sn12的估计量)S2X )2(作为( Xin1i1一个正态总体H 0:021222协差阵 已知0 ) ( X0 ) T0n( X( p)T0n( n1)(np1) p12TpT 2协差阵 未知 F ( p,np)F(n1) p欢迎下载第 10 页,共 68 页精品学习资料精品学习资料21n(X0 ) Sn(X0 ) )( T(n1)两个正态总体H 0:12nn (nmm21 X(2 p (T 22) 有共同已知协差阵T(XYY)00m2 )mp12T有共同未知协差阵FF(p,nmp 1 )FF(n2 ) pnnmmnnm( XY )m2T1( 其中(nm2)(XY )S)( np)nZp-1协差阵不等nmFFFS Z F ( p,np)(np)n Z S-1Zp协差阵不等nmFFF F ( p, np)H 0:多个正态总体12kSSA ( kSSE ( n1)k)单因素方差F F ( k1,nk )FFETE多因素方差( p, nk, k1)AE协差阵的检验检验0np/ 212enn/ 2H 0:I pexptr SSnp / 212knp / 2enn / 2*H 0: 0exptr SSIp检验12k H 0:12kkni / 2n / 2pni / 2统计量nSiSniki 1i 13.2试述多元统计中霍特林分布和威尔克斯分布分别与一元统计中t 分布和 F 分布的关系。答:(!)霍特林分布是t 分布对于多元变量的推广。2n( XS)221 N p (, ) ,S Wp (n, )Stn( X) (S )( X) 而若设 XX且与2欢迎下载第 11 页,共 68 页精品学习资料精品学习资料T2 分布。相互独立,np ,则称统计量的分布为非中心霍特林21若X N p (0, )S Wp (n, )与 S 相 互 独 立 , 令 TnXSX, 则,且 Xnpnp12T F (p n,p1 )。2T统计量进而化为( 2)威尔克斯分布在实际应用中经常把统计量化为F统计量,利用 F统计量来解决多元统计分析中有关检验问题。与 F统计量的关系n1n2pF统计量及分别n1pp11( p, n1 ,1)( p, n1 ,1) F ( p, np1)任意任意111( p,n1, 2)( p, n1, 2)n1p F (2 p, 2( n1p)任意任意2pn1n21(1,n1, n2 )(1,n1 , n2 ) F (n , n )任意任意1211(2, n1 , n2 )(2, n1 , n2 )n1n21 F (2 n2 , 2(n11)任意任意23.3试述威尔克斯统计量在多元方差分析中的重要意义。答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。H 0:12kH 1:至少存在 ij使 ijETE用似然比原则构成的检验统计量为(p ,nk , k1 )给定检验水AE平,查 Wilks 分布表,确定临界值,然后作出统计判断。欢迎下载第 12 页,共 68 页精品学习资料精品学习资料第四章4.1简述欧几里得距离与马氏距离的区别和联系。答: 设 p 维欧几里得空间中的两点 X=和 Y=。则欧几里得距离为。欧几里得距离的局限有在多元数据分析中,其度量不合理。 会受到实际问题中量纲的影响。设X,Y是来自均值向量为,协方差为的总体G 中的p 维样本。则马氏距离为。当即单位阵时,D(X,Y)=即欧几里得距离。D(X,Y)=因此, 在一定程度上, 欧几里得距离是马氏距离的特殊情况,的推广。马氏距离是欧几里得距离4.2试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1, R2, Rk 是 p 维空间 R p 的 k 个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。4.3简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离)两个总体的距离判别问题,将距离近的判别为一类。设有协方差矩阵 相等的两个总体要判断它来自哪个总体。计算新样品 则G1 和 G2, 其均值分别是1 和2,对于一个新的样品X,22D( X,G1) 和D( X,G2),X 到两个总体的马氏距离22, D(X, G1)D( X, G2)X22, D(X,G1) > D(X, G2,X具体分析,D ( X ,G1 )22D(X , G2 )欢迎下载第 13 页,共 68 页精品学习资料精品学习资料111 ) (X1 )( X2 ) (X2 )( X111111X X2X 11 1(X X2 X 22 2 )1112 X (22X (21)1 )221 12 211(12 ) (12 )112X (12 )2(X) 记 W (X )(X2( X)则判别规则为, W(X)X, W(X)<0X多个总体的判别问题。设有 k 个总体G1 ,G2 ,Gk ,其均值和协方差矩阵分别是1 ,2 , k1 , 2 , k ,和12k。计算样本到每个总体的马氏距离,且到哪个总体的距离最小就属于哪个总体。D 2 (X, G ) 1 (X)( X )具体分析,111X XX 1X2 X 2(IXC )1 12 1取, C1,2, kI,。可以取线性判别函数为W ( X )IXC1,2, k,Gi相应的判别规则为X若Wi (X )max(IXC )1k4.4简述贝叶斯判别法的基本思想和方法。基本思想:设k 个总体G1, G2 ,G k ,其各自的分布密度函数kf1 (x), f 2 (x), f k (x) ,假设k个总体各自出现的概率分别为q1 ,q2 ,qk , qi0 ,Gi 总体的样品qi1 。设将本来属于i 1, k 。(R1 , R2 ,错判到总体设 k 个总体时造成的损失为C( j | i ) , i , j1,2,G jG1, G2 ,G k 相应的p 维样本空间为R, Rk ) 。在规则 R 下,将属于Gi 的样品错判为G j 的概率为P( j | i , R)f (x)dxi , j1,2, kijiR j则这种判别规则下样品错判后所造成的平均损失为kr (i | R)C( j | i )P( j | i, R)i1,2, kj 1欢迎下载第 14 页,共 68 页精品学习资料精品学习资料则用规则 R 来进行判别所造成的总平均损失为kg(R)qi r (i , R)i 1kkqiC( j | i ) P( j | i , R)i 1j 1贝叶斯判别法则,就是要选择一种划分R1, R2 , Rk , 使总平均损失g ( R) 达到极小。kk基本方法:g( R)qiC( j | i )P( j | i , R)i 1j 1kkqiC( j | i)f i (x)dxRji 1j 1kk(q C( j | i) f (x)dxiiRjj 1i1kkg( R)h ( x)dx令qi C( j | i ) fi (x)hj (x) , 则jRjj 1i 1k*g(R )h j (x)dx若有另一划分( R1 , R2 , Rk ) ,R*R jj 1则在两种划分下的总平均损失之差为kk*g( R)g( R ) h ( x)h (x)dx*ijRiRji 1j 1j因为在Ri 上 hi (x)hj (x) 对一切成立,故上式小于或等于零,是贝叶斯判别的解。Ri x | hi (x )min hj (x)R(R1 , R2 , Rk ) 为i1,2, k1 j k从而得到的划分4.5简述费希尔判别法的基本思想和方法。答:基本思想:从k 个总体中抽取具有 造一个线性判别函数p个指标的样品观测数据,借助方差分析的思想构U (X )u1 X 1u2 X2, up )u p X pu X(u1 , u2 ,系数u可使得总体之间区别最大,而使每个总体内部的离差最小。将新样pU ( X )品的个指标值代入线性判别函数式中求出别新的样品属于哪个总体。值,然后根据判别一定的规则,就可以判4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 当 k=2 时,若则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。 当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。欢迎下载第 15 页,共 68 页精品学习资料精品学习资料距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是,XW(X), W(X)<lndX距离判别的判别规则是, W(X)X, W(X)<0Xd1 ,二者的区别在于阈值点。当q1q2 , C(1 | 2)ln d0。二者完全C(2 | 1) 时,相同。4.7设 有 两个 二 元 总 体和,从中 分 别 抽 取样 本 计 算 得到假设,试用距离判别法建立判别函数和判,别规则。样品X=( 6, 0)应属于哪个总体?解:=,=即样品 X 属于总体4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。欢迎下载第 16 页,共 68 页精品学习资料精品学习资料销售情况产品序号12345678910销售价格2.22.53.03.22.83.54.81.72.22.7口味评分5638789344信任度评分8796678423畅销平销滞销 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增加group 变量,令畅销、平销、滞销分别为group1、 2、 3;销售价格为X1,口味评分为X2,信任度评分为X3,用 spss 解题的步骤如下:1.在 SPSS窗口中选择将左边的变量列表中的“Analyze Classify Discriminate,调出判别分析主界面,group ”变量选入分组变量中,将X1、X2、X3 变量选入自即使用所有自变量进行判变量中, 并选择 Enter independents together单选按钮,别分析。2.点击 Define Range按钮, 定义分组变量的取值范围。本例中分类变量的范围为Continue 按钮, 返回主界1 到 3,所以在最小值和最大值中分别输入1 和 3。单击面。如图4.1图 4.1判别分析主界面Statistics 按钮,指定输出的描述统计量和判别函数系数。选中3.单击FunctionCoefficients栏中的Fishers:给出Bayes 判别函数的系数。 (注意:这个选项不是要给出 Fisher 判别函数的系数。这个复选框的名字之所以为Fishers,是因为按判别函数值最大的一组进行归类这种思想是由Fisher 提出来的。这里极易混淆,请读者注意辨别。 )如图 4.2。单击 Continue 按钮,返回主界面。图 4.2statistics 子对话框欢迎下载第 17 页,共 68 页精品学习资料精品学习资料4.单击Classify 按钮,弹出classification 子对话框,选中Display 选项栏中的Summary table 复选框, 即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。图 4.3 classification 对话框5.返回判别分析主界面,单击OK 按钮,运行判别分析过程。根据判别分析的结果建立Bayes判别函数:1)Bayes判别函数的系数见表此可建立判别函数如下:4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由Group1 :Group2 :Group3 :Y1Y 2Y 381.84394.53611.689 X 110 .707 X 112 .297 X 213.361 X 24.9 6 0X 216. 761X 317.086 X 36 .4 4 7X 317.4 4 9 2 .1 9 4X 1将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fisher's linear discriminant functions表4.1Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75% 。在 3种平销饮料中,有2种被正确判定,有 1种被错误地判定为畅销饮料,正确率为体的正确率为 80.0%。66.7%。 3种滞销饮料均正确判定。整aClassification ResultsPredicted Group Membershipgroup123TotalOriginalCount1310421203欢迎下载第 18 页,共 68 页精品学习资料精品学习资料30033%175.025.0.0