应用多元统计分析课后答案2.pdf
第二章2.1试述多元联合分布和边缘分布之间的关系。设X=(X 1,X 2,X p)是p维随机向量,称由它的q(p)个分量组成的子向量X(i)=(X ii,X i2,X iq)的分布为X的边缘分布,相对地把X的分布称为联合分布。当X的分布函数为F(X1,X 2,Xp)时,X的分布函数即边缘分布函数为 F(X1,X2,-XP)=P(X1 X ,X q X q,X q+i 8,X p 00)=F(X1,X2,X q,8,8)当X有分布密度f(X,X 2,-X p)则X也有分布密度,即边缘密度函数为:f(X i,X 2,X q)=/:f(X,X 2,X p)d X q+i d X p2.2设随机向量X=(X,X 2)服从二元正态分布,写出其联合分布密度函数和X,X 2各自的边缘密度函数。联合分布密度函数_ _ _ _1_ _ _ _ _ _ _ r -(X i-H i)2 _ 2P(X 1-U 1)(X 2-H 2)4如 O lO 2(l-p 2)l/2 P I 2(l-p2)f(X i,X2)=0,x2 0(x i-H i)22P(X 1-U 1)(X 2-|12)ala2P(X1-以 1)_ (X2-H2)J2 _|_ (1 _ f(x。=O f(x1,x2)dx2=1ex p-/曹 ex p(一12春(xM)会 expe 2说(x i-R i)2,2常 2-,0f(Xi)=0f(x2)=Y0其他2.3已知随机向量X=(X,X2)的联合分布密度函数为f(X,X2)=2(d-c)(x1-a)+(b-a)(x2-c)-2(x1-a)(x2-c)(b-a)2(d-c)2,其中,a Xi b,c x2 (%)=(_;)(2)随机变量的协方差和相关系数。E(x i)=x J(Xi)dx i=X iWd xi=E N)=x2f(x2)dx2=d x2-i-dx2=E(x J)=C x/f(Xi)dx i=C x j 台 dXi=|(b2+ab+a2)E(X22)=Jcdx22f(x2)dx2=Jx22 d x2=|(d2+dc+c2)D(x i)=E(x/)E(X)2=*(b a)2D(X2)=E(X22)-E(X2)2=*(d C)2C o v(xnX2)=E(X1 X2)-E(XX)E(X2)E(x”2)=dx i C x i X2 f(X1,X2)dx 2 =(2 b+a)(d+c)+:(2 d+c)(b+a)|(2 b+a)(2 d 4-c)C o v(x1,x2),=(a-b)(d-c)._ Cov(Xi,X2)表(a-b)(d-c)_ 1P -/D 0)D(x2)-A(b_a)(d-c)-_ 3(3)判断是否独立。1 1 f(x j f(x2)=-H f(xnx2)(b-a)(d-c):,X X2不相互独立。2.4设随机向量X=(Xi,X2,Xp)服从正态分布,已知其协差阵为对角阵,证明的分量是相互独立的随机变量。1122Nppn 口 SumrDisperslon-:|Std.deviationl、|MiQirnvan匚 Variance Maximum Range 口 S.mean|l rDistribution-Kurtosis O SkewnessrDisplay Order-Variable listC AlphabeticAsaending meansC(descending means|Continue j Cancel Help图 2.2 Options子对话框3.单 击 OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如 表 2.1,即样本均值向量为(35.3333,12.3333,17.1667,1.5250E2)。描述统计里N均值X 1635650.0000 x2612.3333x3617325.0000 x46152.5000有效的N(列表状态)6表 2.1 样本均值向量在 SPSS中计算样本协差阵的步骤如下:1.选择菜单项 AnalyzeCorrelatef B ivariate,打开 Bivariate Correlations 对话框。将三个变量移入右边的Variables列表框中,如图2.3。图 2.3 Bivariate Correlations 对话框2.单击 Options 按钮,打开 Options 子对话框。选择 Cross-product deviations andcovariances复选框,即计算样本离差阵和样本协差阵,如 图2.4。单 击 Continue按钮,返回主对话框。图2.4 Options子对话框3.单击OK按钮,执行操作。则在结果输出窗口中给出相关分析表,见表2.2。表中Covariance给出样本协差阵。(另外,Pearson Correlation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products 为样本离差阵。)相关性X 1X2X3x4x1 Pearson相关性1.758.975“-.402显著性(双侧).081.001,430平方与叉租的和1.008E9194500.0004.186E8-3684000.000协方差2.016E838900.0008.372E7-736800.000N6666x2 Pearson相关性.7581.764-.077显著性(双侧).081.077.885平方与叉租的和194500.00065.33383550.000-179.000协方差3890000013.06716710.000-35.800N6666x3 Pearson相关性.975.7641-.256显著性(双侧).001.077,625平方与叉程的和4.186E883550.0001.829E8-999375.000协方差8.372E716710.0003.657E7-199875.000N6666x4 Pearson相关性-.402-.077-.2561显著性(双侧).430.885.625平方与叉程的和-3684000.000-179.000999375.00083475.500协方差-736800.000-35.800-199875.00016695.100N66662.6 均值向量和协差阵的最大似然估计量具有哪些优良性质?1.E(又)=,即又是的无偏估计;=即不是N的无偏估计,n n n而(一 一 S)=N,即是2 的无偏估计;n-i n-12.X,占5 分 别 是 ,N 的有效估计;3.X,-S(或 一S)分 别 是 ,N 的一致估计(相合估计)。n n-/一、1 1E(X)=u lim E(S)=lim E(-S)=Nn-oo n n-oo n 12.7 试证多元正态总体的样本均值向量证明:E(X)=E(X (a)=1E(SX(a)=HD(又)=D&X )=*D(X )=*n =g_ .XN p Q,-)n2.8 试证多元正态总体Np(禺)的样本协差阵 为的无偏估计。证明:E()=:E匕(*-加(方-到=ESili(Xi-H)-(x-n)(Xi-n)-(x-H)门=EEb=i(xi 一 模)(Xi-模)-n(x-H)(x-H)=EEH1(V(xi)-nV(x)=i(n n x*)=Zn 白 是工的无偏估计,S=nn-1.,s为 工的无偏估计2.9设X,X(2),X(n)是从多元正态总体Np(n,)中独立抽取的一个随机样本,试求样本协差阵7s的分布。n-1解:a =1,2,,且相互独立,则样本离差阵S =(X“)-双。-对%-1,E),其中及=巧Xa=a=l样本协差阵-js的分布为6(1,)n 1 12.1 0设X i(nj X p)是来自N p(内E)的数据阵,i=l,2,k(1)已知m =|ik =|1且7=K=,求p和 的估计。(2)已知7=,求Hi,Kk和 的估计。这道题我对自己的答案不是很确定。第三章3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。其基本思想和步骤均可归纳为:答:第一,提出待检验的假设Ho和 H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。均值向量的检验:统计量拒绝域均值向量的检验:在单一变量中当 已知当(T2未知2=?而sI z l za/2ttal2(n-l)(S2i “_y(%,.-x)2作 为/的估计量)一1片一个正态总体“0:协 差 阵 N 已知协 差 阵 未知 2=(又 一 0),(又一 )%2(p)(n-l)-p+l 2-.T F(p,n-p)(-l)p裔 片(L=(-1)册(4-N JST 6(又一儿)两个正态总体“:有共同己知协差阵“n-m(X-Y yL-(X-Y)Z2(p)有共同未知协差阵F=-(-n-+-m-2-)-p-+-l T 2 -Fr(zp,n+,m-p-11)、(n+z _ 2)p(其中 T=(n+m-2)n-m -(X-Y)n+m-(X-Y)n+m协 差 阵 不 等n=m(一p)彳 亍F=-Z S Z Fp,n_ p)PF)%协差阵不等H 机(n-p)n、F=-Z S Z F(p,n-p)PFFa多个正态总体”o:A l =2单因素方差F=SSARk-l F(k l,n k)SSEK k)FF.多因素方差|E|E|A=可=即(,-七1)协差阵的检验检 验E=E0。:=ip2 =e x p-同S|IH/2H。:E=12 =e x p j trS检 验2=4=-=Z Ho:2=2 2统 计 量4=心/2ns 邛/同“2 rhmJ 23.2试述多元统计中霍特林T 2分布和威尔克斯A分布分别与一元统计中t分布和F分布的关系。答:(!)霍特林T 2分布是t分布对于多元变量的推广。t2=I,=(3-M)(S 2)T(P -)而若设X N,3,),S 叫(,)且X 与 SS相互独立,n p,则称统计量T 2=n(X-p)S T(X-的分布为非中心霍特林产分布。若 X Np(Q,),S%(,E)且 X 与 S 相 互 独 立,令 丁?=nXSTX,则n-p+1 .、-T F(p,n-p+1)oP(2)威尔克斯A分布在实际应用中经常把A统计量化为尸 统计量进而化为产统计量,利用F统计量来解决多元统计分析中有关检验问题。A与尸统计量的关系P 2F统计量及分别任意任意1 i -p +l 1-A(p,“|,l),八 F(p,%p +1)P A(p,l)任意任意21 j A(p,2)-r-F(2p,2(p)P j A(p,|,2)1任意任意 2 A。,%)2任意任意 1 1 J A(2,2),八、-r-F(22,2(|1)2 J A(2,”2)3.3试述威尔克斯统计量在多元方差分析中的重要意义。答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。Ho:内%入:至 少 存 在 使I1产时用似然比原则构成的检验统计量为AJEI_ lEl|T|A+E|A(p,-A,Z-1)给定检验水平a,查Wi l k s分布表,确定临界值,然后作出统计判断。第四章4.1简述欧几里得距离与马氏距离的区别和联系。答:设 p维欧几里得空间R P 中的两点X=(XX2Xp)和Y=(YI,Y2Y p。则欧几里得距离为l l i(Xi-Yi)2。欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到实际问题中量纲的影响。设 X.Y 是来自均值向量为N,协方差为2的 总 体 G 中 的 p维样本。则马氏距离为D(X,Y)=(X Y)27T(X Y)。当=1 即单位阵时,D(X,Y)=(X-Y),(X-Y)=L(Xi-)2即欧几里得距离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2 试述判别分析的实质。答:判别分析就是希望利用己经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设 R I,R 2,R k 是 p维空间 R p的 k 个子集,如果它们互不相交,且它们的和集为R P,则称RrR2 R p 为R p 的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间R p 构造一个“划分”,这 个“划分”就构成了一个判别规则。4.3简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。两个总体的距离判别问题设有协方差矩阵2相等的两个总体a 和G2,其均值分别是的和m 2)对于一个新的样品X,要判断它来自哪个总体。计算新样品才到两个总体的马氏距离If(X G)和6 (X,&),则X e G 1 ,If(X,G i)If(X,G2,具体分析,O2(X,G)(X G)=(X_”T(X 3_(X _J12)TT(X_112)=X-X-2XTj 内一(X d -2X,E-g2+g2)=2xeT(”一%)+椅上一 口 一 力 -箕=2XT(112内)+(+小)(丹 心 2)=-2(X 归修 2)=2(X R)a=2a(X )记W(X)=a(X-ji)贝 i j 判别规则为X 6 G i,W(X)0X G G2.W(X)2(X,Ga)=(X-Na)ET(X a)=X T-X-2(IX +Ca)取 Ia=E a,C a=-g%E T a,Q=1,2,女。可以取线性判别函数为M(X)=X +Q,a =i,2,-,k相应的判别规则为X e G j若 叱(X)=max(I:X+Ca)a In dX G2,W(X)0X e G2,W(X)0X e G即样品X属于总体G4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况产品序号销售价格口味评分信任度评分12.258畅销22.56733.03943.28652.876平销63.58774.89881.734滞销92.242102.743(1)根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增 加 group变量,令畅销、平销、滞销分别为groupl、2、3;销售价格为X1,口味评分为X2,信任度评分为X 3,用 spss解题的步骤如下:1.在 SPSS窗口中选择AnalyzefQassifyf Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将 X1、X2、X3变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1 到 3,所以在最小值和最大值中分别输入1 和 3。单击Continue按钮,返回主界面。如图4.1图 4.1 判别分析主界面3.单击Statistics.按钮,指定输出的描述统计量和判别函数系数。选 中 FunctionCoefficients栏中的Fishers:给 出 Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher 是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。图 4.2 statistics子对话框4.单 击 Classify.按 钮,弹 出 classification子 对 话 框,选 中 Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。图 4.3 classification 对话框5.返回判别分析主界面,单击0 K 按钮,运行判别分析过程。1)根据判别分析的结果建立Bayes判别函数:Bayes判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:G roupl:Y =-8 1.8 4 3 -1 1.6 8 9 X 1 +1 2.2 9 7 X 2 +1 6.7 6 1 X 3G roup2:Y 2=-9 4.5 3 6-1 0.7 0 7 X1 +1 3.3 6 1 X 2 +1 7.0 8 6 X 3G roup3:7 3 =-1 7.4 4 9 -2.1 9 4 X 1 +4.9 6 0 X 2 +6.4 4 7 X 3将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123X 1-11.689-10.707-2.194x212.29713.3614.960 x316.76117.0866.447(Constant)-81.843-94.536-17.449Fishers linear discriminant functions表4.1 Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4 种畅销饮料中,有3 种被正确地判定,有1 种被错误地判定为平销饮料,正确率为7 5%。在3 种平销饮料中,有2 种被正确判定,有1 种被错误地判定为畅销饮料,正确率为6 6.7%。3 种滞销饮料均正确判定。整体的正确率为8 0.0%。Classification Results3Predicted Group Membershipgroup123TotalOriginal Count 131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a.80.0%of original grouped cases correctly classified.表4.2 错判矩阵2)该新饮料的Xl=3.0,X 2 =8,X 3 =5,将这3 个 自变量代入上一小题得到的Bayes判别函数,丫 2的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification子对话框中同时要求输i 出casew ise results,运行判别过程,得到相同的结果。4.9 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(X Q、受教育程度(X?)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X.)、信用卡债务(X7)、其它债务(X Q 等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.5 8),对其进行信用好坏的判别。目前信用好坏客户序号X?X.XsX,X,4123172316.600.341.71已履行还2341173598.001.812.913422723414.600.94.94贷责任43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行还7291131427.401.461.6583221167523.307.769.72贷责任928223236.400.191.2910261432710.502.47.36解:令已履行还贷责任为groupO,未履行还贷责任为groupl。令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group未知。用spss解题步骤如下:1.在SPSS窗口中选择Analyze-*Classifyf Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X I-X 6变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为。到1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。3.单 击Statistics.按钮,指定输出的描述统计量和判别函数系数。选 中FunctionCoefficients 栏中的 Fishers 和 Unstandardized 单击 Continue 按钮,返回主界面。4.单 击Classify.按钮,定义判别分组参数和选择输出结果。选 择Display栏中的Casewise re su lts,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue 按钮。5.返回判别分析主界面,单击0K按钮,运行判别分析过程。1)用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3。Canonical Discriminant Function CoefficientsFunction1x1x2x3x4x5x6x7x8(Constant)-.0326.687.173-.357.024.710.792-2.383-10794Unstandardized coefficients表4.3未标准化的典型判别函数系数由此表可知,F i s h e r 判别函数为:7=-10.794-0.32X1+6.687X2+0.173X3+0.357X4+0.024X 5+0.710X 6+0.792X7-2.383X8用 y 计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与g r o u p。的重心距离较近则属于g r o u p。,反之亦然。各类重心在空间中的坐标位置如衰4.4 所示。Functions at Group CentroidsFunctiongrou010-2.43712.437Unstandardized canonical discriminant functions evaluated at group means表 4.4 各类重心处的费希尔判别函数值用 b a ye s 判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与b a ye s 判别完全一致。如表4.5 所示,g r o u p 栏中的每一列表示样品判入相应列的B a ye s 判别函数系数。由此可得,各类的B a ye s 判别函数如下:G0=-118,693+0.340X 1 +94.070X 2+1.033X3-4.943X 4+2.969X 5+13.723X6-10.994X 7-37.504X8Gl=-171.296+0.184X1+126.660X2+1.874X3-6.681X4+3.086X5+17.182X6-7.133X7-49.116X8Classification Function Coefficientsgroup01x1.340.184x294.070126.660 x31.0331.874x4-4.943-6.681x52.9693.086x613.72317.182x7-10.994-7.133x8-37.504-49.116(Constant)-118.693-171.296Fishers linear discriminant functions表 4.5 B a ye s 判别函数系数将各样品的自变量值代入上述两个B a ye s 判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。2)在判别结果的C a s e wi s e S t a s t i c s 表中容易查到该客户属于g r o u p。,信用好。4.1 0 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白(XJ、蓝色反应(XJ、尿吧噪乙酸(X,)和中性硫化物(X4),数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。类别病人序号x2X、X,.患,-12 2 81 3 42 01 1o7424736115o4o2281414o75611X125234126261019431225-678910一1112131415胃炎患者萎缩性非胃炎患者解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为gr o u p 、gr o u p 2、gr o u p 3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与ba y e s 判别完全一致。用 s p s s 的解题步骤如下:1 .在S PS S 窗口中选择Anal yzefC l assifyf D iscrim inate,调出判别分析主界面,将左边的变量列表中的“gr o u p”变量选入分组变量中,将 X I、X 2、X 3”4 变量选入自变量中,并选择E nterindependents together单选按钮,即使用所有自变量进行判别分析。2 .点击D efine R ange按钮,定义分组变量的取值范围。本例中分类变量的范围为1 到 3,所以在最小值和最大值中分别输入1 和 3。单击C ontinue按钮,返回主界面。3.单击S tatistics.按钮,指定输出的描述统计量和判别函数系数。选 中 F unction C oefficients栏中的F ishers:给 出 B ayes判别函数的系数。4 .单击C l assify.按钮,弹出cl assification子对话框,选 中 D i s p l a y 选项栏中的S um m ary tabl e复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。5 .返回判别分析主界面,单击O K 按钮,运行判别分析过程。根据判别分析的结果建立Ba y e s 判别函数:Ba y e s 判别函数的系数见表4.6。表中每一列表示样本判入相应类的Ba y e s 判别函数系数。由此可建立判别函数如下:G r o u p l:Y l=-7 9.2 1 2 +0.1 6 4 X 1 +0.7 5 3 X 2 +0.7 7 8 X 3 +0.0 7 3 X 4G r o u p 2:Y 2=-4 6.7 2 1 +0.1 3 0 X 1 +0.5 9 5 X 2 +0.3 1 7 X 3 +0.0 1 2 X 4G r o u p 3:Y 3=-4 9.5 9 8 +0.1 3 0 X 1 +0.6 3 7 X 2 +0.1 0 0 X 3-0.0 5 9 X 4将各样品的自变量值代入匕 述三个Ba y e s 判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123X 1,164.130.130 x2.753.595.637X3.778.317,100 x4.073.012-.059(Constant)-79.212-46.721-49.598Fishers linear discriminant functions表4.6 Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。Classification Results3grounPredicted Group MembershipTotal123OriginalCount 140152041530145%180.0,020.0100.02.080.020.0100.03,020.080.0100.0a.80.0%of original grouped cases correctly classified.表4.7错判矩阵第五章5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得P项 指 标(变量)的数据,已知每个样本属于k个 类 别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.2 试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为(-)闵可夫斯基距离:&=(2|X j&-X jJ)gk=q 取不同值,分为(1)绝对距离(4 =1)B(D=|X,*-x/k=(2)欧氏距离=2)p.19攵 二 1(3)切比雪夫距离(4 二 )4Ji(oo)=max Xik-X.kp J(二)马氏距离 同 一x jP k=l X ik+X jk(三)兰氏距离 d(M)=(X.-X7),E-1(X,.-X7)对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作P维空间的向量,一般用(一)夹角余弦 S x/4COS%=I 巴,XQV k=l k=l(二)相关系数力X*一 兄)(X-j)k=l、忙(XLX茂(X川-凡)2V k=l k=5.4在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?答:设 d i j 表示样品X,与 为之间距离,用 D.表示类G,与 G)之间的距离。(1).最短距离法Z).=min d.J X;eGj,X 产G),JDk1min d;rnin(D D)X,-wGk,X jw G rJ W k p Ukq J(2)最长距离法Dpqmax d*XGp,XjeGq 1%=&器U =m ax%(3)中间距离法盘=J /+g。/+其中 1/4W 0 WO(4)重心法D;(xp-xqy(xp-xg)兄=,+),nn,nn.%n np q片%(5)类平均法%=1Z X力XfG p XjWGj琉 啧N W稣叶吨(6)可变类平均法n n/=Q-0)T 吨+D 4 0 D nr nr其中B是可变的且B1(7)可变法比=?(/+或)+夕。)(8)离差平方和法S,=(X-)(XH-男)/=1其中。是可变的且P1唯=喈=(又P f Sp-Sq,n,+“,n.+“nki%通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。5.5 试述K均值法与系统聚类法的异同。答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。5.6 试 述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K均值法的基本思想是将每个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K一均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X,X,表示个有序的样品,则每一类必须是这样的形式,即X 3,X(,+D,其中且j Gg聚为一类,记为G9(2)用重心法进行聚类分析计算样品间平方距离阵D2 wGIG2G3G4G5G6Gi0G210G3410G4251690G564493690G610081642540易 知D2中最小元素是D 2 2 =D?2 3 =1于是将GG2,G3聚为一类,记为G7计算距离阵D 2 7G4Gs G6 70G41 60G54 990G68 12 54 0注:计算方法D 2 4 7=6 -41+2 +1)产,其他以此类推。D2(1)中最小元素是D 2$6=4于是将G5,G6聚为一类,记为G8计算样本距离阵D 2 (2)7 1M 8-0G4 1 6 0G8 6 4 1 6 0D2(2)中最小元素是D?4 7 =D24 8 =16于是将G4,G7,Gg聚为一类,记为Gg因此,2-03 G4-G5 -G6 1 _ _ _ _ _ _ _ _ _ _ _ _ _ _ 4 侬5.8下表是1 5个上市公司2 0 0 1年的一些主要财务指标,使用系统聚类法和K 均值法分别对这些公司进行聚类,并对结果进行比较分析。公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率11 1.0 90.2 10.0 59 6.9 87 0.5 31.8 6-4 4.0 48 1.9 921 1.9 60.5 90.7 45 1.7 89 0.7 34.9 57.0 21 6.1 1300.0 30.0 31 8 1.9 91 0 0-2.9 81 0 3.3 32 1.1 841 1.5 80.1 30.1 74 6.0 79 2.1 81.1 46.5 5-5 6.3 25-6.19-0.090.0343.382.241.52-1713.53 3 66100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74解:令净资产收益率为X I,每股净利润X 2,总资产周转率为X 3,资产负债率为X 4,流动负债比率为X 5,每股净资产为X 6,净利润增长