欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    应用多元统计分析课后答案_朱建平版.pdf

    • 资源ID:90899701       资源大小:9.14MB        全文页数:68页
    • 资源格式: PDF        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    应用多元统计分析课后答案_朱建平版.pdf

    第二章2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X=(X X 2,X,)的联合分布密度函数是一个P维的函数,而边际分布讨论是X=(X”X2,X/,)的子向量的概率分布,其概率密度函数的维数小于P。2.2 设二维随机向量(X1 X2)服从二元正态分布,写出其联合分布。/2 解:设(X|X 2)的均值向量为p 4 2),协 方 差 矩 阵 为1:,则其联合分布密度函数为/2 -1-(x-g)z 5%(x-ft)L2。2 )2.3已知随机向量(X1 X2)的联合密度函数为f(xvx2)2(J c)(x)a)+(ba)(x2 c)2(Xj a)(x2 c)(b a)2(d其中 c x2d,求(1)随机变量X1和*2的边缘密度函数、均值和方差;(2)随机变量X1和X 2的协方差和相关系数;(3)判断X1和X?是否相互独立。(1)解:随机变量X1和X 2的边缘密度函数、均值和方差;/,()=,2 (1。)(王 一。)+3 )(%2一,)一2(王 一。)(九2一。)工*1 I (h-a)2(d-c)2_ 2(d-c)(x1-a)x2(h-a)d-c)2ri2(,b-a)(x2-c)-2(xt-a)(x2-c)1(b-a)d-c)2 2_ 2(tZ-c)(Xj-d)x2(b-a)2(d-c)2 c+-。2(2 4尸 一2(1 一a)出L-(b-a)d-c)2 _ 2(J-cX%1-a)x1 d(b-a)t2-2(再 一)产一(h-a)d-c)2:(h-a)d-c)2d-c1o b a所以由于X|服从均匀分布,则均值为h+a 他 一,方差为L2121同理,由于X?服从均匀分布fX2(x2)=d-0“苦 匕 可,则均值为5其它2方 差 力 一 姨力 左 为-12(2)解:随机变量X 1和X 2的协方差和相关系数;cov(xpx2)a+b%.-1 2d+c 2(J-c)(X-a)+(b-a)(x2-c)-2(玉-a)(x2-?)2(b-a)d-c)2-dxdx2(c d)(b a)36_ C0V(X,X 2)_ 1P-=一3(JM (Jx2(3)解:判断X 1和X?是否相互独立。X 1和X 2由于/(占,)。人(%)九(工2),所以不独立。2.4设X =(X X 2,X)服从正态分布,已知其协方差矩阵X为对角阵,证明其分量是相互独立的随机变量。解:因为X=(XX 2,X J的密度函数为f(xv.,xp又由于E-(x-p/L_ 1(x-p)国=5%;可1%121则/(芭,1 p|国=1-1/2expBivariate,打开Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图2.3。图 2.3 Bivariate Correlations 对话框2.单 击 Options按钮,打 开 Options子对话框。选择Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差阵,如图2.4。单击Continue按钮,返回主对话框。图2.4 Options子对话框3.单 击 O K 按钮,执行操作。则在结果输出窗口中给出 相 关 分 析 表,见 表2.2o表 中 Covariance给出样本协差阵。(另外,PearsonCorrelation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离差阵。)相关注X1x2x3X 1 Pearson相关性1758975-402显著性(效悟).081001430平方与叉租的和1.008E9194500.0004186E8-3684000.000协方差2.016E838900.0008.372E7-736800.000N6666x2 Pearson相关性7581764077!若 性(毁他)081077885平方与叉税的和194500 00065.33383550000179 000协方差38900.00013.06716710000-35800N6666x3 Pearson相关性.975”7641-256我若性(双偶)001.077625军方与叉税的和4.186E883550.0001 829E8-999375000协方差8.372E716710.0003.657E7-199875 000N6666x4 Pearson相关性-402-.077-2561H 著 性(效例)430885625平方与叉税的和-3684000 000179 000-99937500083475 500办方差-736800.00035.800-199875 00016695100N66662.6 渐近无偏性、有效性和一致性;2.7 设总体服从正态分布,X N,(H,E),有样本X 3X 2,.,X。由于*是相互独立的正态分布随机向量之和,所 以*也服从正态分布。又E(又)=No(、)=d x,所以又 N p 3,E)。2.8 方法 1:=一汽(X,.文)(X;又)n-,=i1一1 x X-欢/=11n _(t)=;E(XX-欣*)n-1,=i1n-iE(X,X;)-E(X X,)=1-H-n=(-1)E=E。/I-11 _ ,-=|n J n-1方法2:s=(X j-(X j-N)/=1r=l=f(X,-|i)(Xj-1!)-2(X,.-M)(X-H),+H(X-|i)(XM-刘)i=l i=l=(X,.-M)(X,.-JI)2 (又-g)(X-H)+n(X-fi)(X-ji)/=!=之(Xf )(X f)-(又 一|1)(X-H)/=1昌*暄(Xi)(x,rj(j(*7i f n _ _=-E(X,-N)(XP)_ E(*_N(*-H)=E。-ME)故一 色 为2的无偏估计。n 12.9.设X(1),X是从多元正态分布X N JN,E)抽出的一个简单随机样本,试求S的分布。证明:设*、*=(%)为一正交矩阵,即r r =i。111yjn S,令 Z=(Zzn)=(x,x2 Xn)r,由于X (i =1,2,3,4,)独 立 同正态分布,月T为正交矩阵所以Z =(Z Z2Z )独 立 同 正 态 分 布。且有Z“=;fx,,七亿)=。&*)=痂,V r(Zn)=L0yjn 三i yjn/=IE(Z)=E(x,)(a =1,2,3,,-1)j=lj=l廊=0/=1VMZ)=”(%XJ)j=l所以Z|Z2 Z,“独立同N(O,E)分布。又因为 s =(X)-x)(xy-xyi=l=X7X;.-n XX,J=1因为双=z z:八 yJn 1=J又因为 EX;XXX.X2 X,)X?7=11X”X、=(x2 xn)rT工Z、,、z;=(ZI Z2 zn):2所以原式 X jX;-Z,Z:=z w z“z:j=l j=l=Z1Z;+Z2Z;+.+ZZ;,-Z Xn-1故S=Z Z/Z;,由于Z”Z2,Z“T独立同正态分布N/O.E),所以j=ln-1S=Z Z jZ;叫,5 T,Z)j=l2.10,设4(%x p)是来自N(出,二)的简单随机样本,i=1,2,3,(1)已知%=.=M=|i且4 =2=2人=E,求p和X的估计。(2)已知=L2=.=&=工求出,.,人和E的估计。1k%解:(。ji=x=-/+%+%.a=/=!-力 一(X:-可 卜:-可 _ a=l i=l_n+%+%(2)InL(内,%,E)=In(24国 广exp-乞 之(x:-七 尔 区3.)a=1=1|n|k 4lnL(g,S)=-p n ln(2%)-l n t-X ),E 区”),乙 0=1 i=l)(X;-K)T)2=。6 乙,/a=/=131nL(p,E)3 .=T(X%)=0(j=l,2,.,Q解之,得i%E E(xij-)(xij-)第三章3.1试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。其基本思想和步骤均可归纳为:答:第一,提出待检验的假设即和H 1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决 策(拒绝或接受)。均值向量的检验:统计量拒绝域均值向量的检验:在单一变量中当。2已知(J1 Z l q/2当G 未知sI f 1%2(一1)(S1 _2=y(X,.-又A 作为c r2的估计量)M-l ,=l一个正态总体0:协差阵N-知协差阵未知 2=(N-)N T(N-4)2 2(P)(一 1)一 p+1 2 /h T Fn p)叶/n-p T2F(D p(T2=(/2-I)V(X-M0)/S-1 V(X-H0)两个正态总体“:内=有共同已知协差阵年=2 L Z L(X-Y/E-1(X-Y)r(/?)窗/n+m有共同未知协差阵r(n+m-2)-p +l 2F=,c T F(p,+m p 1)F Fa(n+m-2)pr_ _/r _(其 中 T2=(n+,n-2)J-(X-Y)S-l -(X-Y)N n+m n +m协差阵不等=加p=(7?-l!L zzS-Z F(p,n-p)FFap协差阵不等 H mF=(二 p)空s-乞 F(p,n p)FFap多个正态总体”0:M =2 =.=单因素方差F=SSA(A=1)F(k-l,n-k)F FaSSE/(n-k)a多因素方差|E|E|A=T=|A +EA(P i I)协差阵的检验检验=”0:E f =e x p|-1r r s j|S|,/2 QH。:E:=E f 4=e x p 卜*检验 2 =2 2 =Z ”0:X =Z =统计量4 =,2口 国 邛 八S2 n%m,/21=1/r=13.2试述多元统计中霍特林炉分布和威尔克斯A分布分别与一元统计中t分布和F分布的关系。答:(!)霍特林炉分布是t分布对于多元变量的推广。t2=(”“)=n(X )(S2)T(%)而若设X ,E),S 叫 5,E)且X 与 SS相互独立,n p,则称统计量如=1)。一|0 2一】。一|1)的分布为非中心霍特林/分布。若 X NJO,E),S%,(,)且 X 与 S 相 互 独 立,令 =nXS-X,则n-p +l 2-T 尸(p,-p +1)onp(2)威尔克斯A分布在实际应用中经常把A统计量化为统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。A与尸统计量的关系P2F统计量及分别任意任意1nx-p +1-A(p,n1,l)4/:、F(P,/p+1)P A(p,|,l)任意任意2p 1 JA(P,”2)-p-F(2p,2(|p)P jA(p,I,2)1任意任意-!上-F(n2,n.)n2 A(l,2)2任意任意“I1 1-JA(2,/,2)八-;-P(2 2,2(|1)%,A(2,|,2)3.3试述威尔克斯统计量在多元方差分析中的重要意义。答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。o:内=,=%1:至 少 存 在iw,使出用似然比原则构成的检验统计量为 A=日=回1 A 5,-女,女-1)给定检验水|T|A+E|平a,查Wilks分布表,确定临界值,然后作出统计判断。第四章4.1 简述欧几里得距离与马氏距离的区别和联系。答:设 P 维欧几里得空间R R 中的两点X=(XVX2,“鼻)和丫=(匕用。则欧几里得距离 为 欧 几 里 得 距 离 的 局 限 有 在 多 元 数 据 分 析 中,其度量不合理。会受到实际问题中量纲的影响。设 X.Y 是来自均值向量为l,协方差为 的 总 体 G中 的 p 维样本。则马氏距离为D(X,Y)=(X-Y)/o 当=7=1 即单位 阵时,D (X,Y)=(X-Y)(X-Y)巨 二 值 -YL)3G P 欧几里得距离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2 试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设 R I,R 2,,R k 是 p 维空间 R p 的 k 个子集,如果它们互不相交,且它们的和集为R P,则称R“区 2”心为1的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间R p构造一个“划分”,这 个“划分”就构成了一个判别规则。4.3简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。两个总体的距离判别问题设有协方差矩阵2 相等的两个总体G和 a其均值分别是4/和 z,对于一个新的样品尤要判断它来自哪个总体。计算新样品才到两个总体的马氏距离g Q X,G)和G(尤&),则-X q G j.,D(X,G)户(X,G2)、X C 同,加(X,G J (X,G2,具体分析,D2(X,Gt)-D X,G2)=(X-fi1),E-,(X-Ml)-(X-n2)X-,(X-H2)=X-X _ 2X/2-nl+HAH-(XTX-2 X )2 +1广出)Max,%-内)+陪 口 一 依 修=2 X I仙-内)+(冉+%)1(内 一小)=-汇 仙 f)=-2(X R)a=-2a(X-ji)记W(X)=a(X-m 则判别规则为X w G j.,W(X)/OX e (,W(X)2(X,Ga)=(X-liJ,L-,(X-M(z)=X,E-X-2JI;L-1X+H;L-JIC=X T X-2(I:X+Ca)取Ot=1,2,-,k o可以取线性判别函数为W(X)=I;X+Ca,a =1,2,A相应的判别规则为X e Gj若iy(X)=ma x(I;X +Ca)4.4简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体,G*,其各自的分布密度函数力(x),%(x),,九(x),假设k个总体各自出现的概率分别为名,%,/,%2 0,=1。设将本来属于G,总体的样品f=l错判到总体G,时造成的损失为C(jl/),i,j=1,2,,女。设k个总体G,G 2,G.相应的p维样本空间为/?=(居,生,,号)。在规则R下,将属于G,的样品错判为G,的概率为产(jli,R)=(x)dx i,j=1,2,k ij则这种判别规则卜样品错判后所造成的平均损失为r(i R)=%C(j I i)P(j i,/?)i =1,2,-Jj=l则用规则R来进行判别所造成的总平均损失为g(R)-g(R*)=Z Z J=1 j=g(H)=Z q/(i,R)/=11=1 六 1贝叶斯判别法则,就 是 要 选 择 种 划 分,/,使总平均损失g(K)达到极小。k k基本方法:g(R)=、,5 C(,l i)P(jl i,R)/=1 j=Zq,Z c(/i i)(力汽如i=l j=l J=Z I i)(x)dxj=l j i=l令Zq,C(,li)/(x)=%(x),则 g(R)=Z (x)dxi=lj=l%若有另一划分 R*=(R:,R;,R;),g(R*)=之(x)dx则在两种划分下的总平均损失之差为CRZ(X)-勺(x)dx因为在凡上4(x)j(x)对一切/成立,故上式小于或等于零,是贝叶斯判别的解。从而得到的划分 八 区 风.,&)/山似正黑明4.5 简述费希尔判别法的基本思想和方法。答:基本思想:从左个总体中抽取具有0个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数U(X)=ulXi+u2X2+-+upXp=uX系数U =(小,%,”p)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的个指标值代入线性判别函数式中求出。(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。当 k=2 时,若&=&=2则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。当 局*国 时,费 希 尔 判 别 用 作 为 共 同 协 差 阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是X SG1,W(X)a:lndX eGz,W(X)lnd距离判别的判别规则是1 X Gt,W(X)2口x e G s ,w(x)(R-I-v-2)=a13y邨 尸 同 备(0靠)=晶。X eG即样品X 属于总体G4.8某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这卜种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况产品序号销售价格口味评分信任度评分12.258畅销22.56733.03943.28652.876平销63.58774.89881.734滞销92.242102.743根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增 加group变量,令畅销、平销、滞销分别为groupl、2、3;销售价格为X1,口味评分为X 2,信任度评分为X3,用s p s s解题的步骤如下:1.在S P S S窗口中选择AnalyzefClassifyf Discrim inate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将 汽、X2、X3变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2.点 击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1图4.1判别分析主界面3.单击Statistics.按钮,指定输出的描述统计量和判别函数系数。选 中FunctionCoefficients栏中的Fishers:给 出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fishers,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。图4.2 statistics子对话框4 .单 击Cl assi fy.按钮,弹 出cl assi fi cati on子 对 话 框,选 中D i sp l ay选项栏中的Summar y tabl e复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。图 4.3 cl assi fi cati on 对话框5.返回判别分析主界面,单击O K按钮,运行判别分析过程。1)根据判别分析的结果建立Bayes判别函数:Bayes判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:G r oup l:Yl=-81.843 -1 1.6 8 9 X 1 +12.297 X 2+16.7 61X3G r oup 2:K 2 =-94.53 6-1 0.7 0 7 X 1 +1 3.3 6 1 X 2+17.086X3G r oup 3:Y 3 =-17.449-2.194 X 1+4.9 6 0 X 2+6.447 X 3将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960 x316.76117.0866.447(Consta nt)-81.843-94.536-17.449Fishers linea r discrimina nt functions表4.1 Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为7 5%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整体的正确率为80.0%。Classification Results3groupPredicted Group MembershipTota l123Origina lCount 13104_21203a.80.0%of origina l grouped ca ses correctly cla ssified.30033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0表4.2错判矩阵2)该新饮料的X I=3.0,X 2=8,X3=5,将这3个自变量代入上一小题得到的Ba yes判别函数,丫2的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在cla ssifica tion子对话框中同时要求输出ca sewise results,运行判别过程,得到相同的结果。4.9银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(X Q、受教育程度(X?)、现在所从事工作的年数(x3)、未变更住址的年数(X4)、收 入(X5)、负债收入比例(X6)、信用卡债务(X,)、其它债务(X Q等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,根据样本资料分别用距离判别法、Ba yes判别法和Fisher判别法建立判别函数和判别规则。某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。目前信用好坏客户序号X?X,X.X、X,4123172316.600.341.71已履行还2341173598.001.812.913422723414.600.94.94贷责任43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行还7291131427.401.461.6583221167523.307.769.72贷贡任928223236.400.191.2910261432710.502.47.36解:令已履行还贷责任为group。,未履行还贷责任为groupl。令(53,1,9,18,50,11.20,2.02,3.58)客户序号为U,group未知。用spss解题步骤如下:1.在SPSS窗口中选择Ana lyzefCla ssifyf Discrimina te,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X I-X 6变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2.点击Define Ra nge按钮,定义分组变量的取值范围。本例中分类变量的范围为0到1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。3.单 击 Statistics.按钮,指定输出的描述统计量和判别函数系数。选 中 FunctionCoefficients 栏中的 Fishers 和 Unstandardized 单击 Continue 按钮,返回主界面。4.单 击 Classify.按钮,定义判别分组参数和选择输出结果。选 择 Display栏中的Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue 按钮。5.返回判别分析主界面,单击0 K 按钮,运行判别分析过程。1)用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3。Canonical Discriminant Function CoefficientsUnsta nda rdized coefficientsFunction1x1x2x3x4x5x6x7x8(Consta nt)-.0326.687.173-.357.024.710.792-2.383-10.794表 4.3 未标准化的典型判别函数系数由此表可知,Fisher判别函数为:丫 =-10.794-0.32X1+6.687X2+0.173X3+().357X4+0.024X5+0.710X6+0.792X7-2.383X8用 丫计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group。的重心距离较近则属于group。,反之亦然。各类重心在空间中的坐标位置如表4.4所示。Functions at Group CentroidsFunctiongrouD10-2.43712.437Unsta nda rdized ca nonica l discrimina nt functions eva lua ted a t group mea ns表 4.4 各类重心处的费希尔判别函数值用 bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下:G0=-118.693+0.340X 1 +94.070X 2+1.033X3-4.943X 4+2.969X5+13.723X 6-10.994X 7-37.504X 8G1=-171.296+0.184X1+126.660X2+1.874X3-6.681X4+3.086X5+17.182X6-7.133X7-49.116X8Classification Function Coefficientsgroup01X 1,340.184x294.070126.660 x31.0331.874X4-4.943-6.681x52.9693.086x613.72317.182x7-10.994-7.133x8-37.504-49.116(Consta nt)-118.693-171.296Fishers linea r discrimina nt functions表4.5 Ba yes判别函数系数将各样品的自变量值代入上述两个Ba yes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。2)在判别结果的Ca sewise Sta stics表中容易查到该客户属于group。,信用好。4.1 0从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白(X)、蓝色反应(X J、尿叫味乙酸(X J和中性硫化物(XJ,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。类别 病人序号 X,X,X,X411胃癌患者胃炎患者萎缩性2870006 01oO52115O23215O4O3 41207207100014 02781462610非胃炎患者15119122473611O756115O2O11731311O21176542111234511111185O57611522411565435O3O1187O11127解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为groupl、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与ba yes判别完全一致。用spss的解题步骤如下:1.在SPSS窗口中选择AnalyzeClassifyf Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将Xi、X2、X344变量选入自变量中,并选择Enterindependents together单选按钮,即使用所有自变量进行判别分析。2.点击Define Ra nge按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。3.单击Sta tistics.按钮,指定输出的描述统计量和判别函数系数。选 中Function Coefficients栏中的Fishers:给 出Ba yes判别函数的系数。4.单击Cla ssify.“按钮,弹出cla ssifica tion子对话框,选 中Displa y选项栏中的Summa ry ta ble复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。5.返回判别分析主界面,单击0K按钮,运行判别分析过程。根据判别分析的结果建立Ba yes判别函数:Ba yes判别函数的系数见表4.6。表中每一列表示样本判入相应类的Ba yes判别函数系数。由此可建立判别函数如下:Groupl:F l =-79.212+0.164X1+0.753X2+0.778X3+0.073X4Group2:K2=-46.721+0.130X1+0.595X2+0.317X3+0.012X4Group3:V3 =-49.598+0.130X1+0.637X 2+0.1 00X 3-0.059X4将各样品的自变量值代入上述三个Ba yes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123X 1.164,130.130 x2.753.595.637x3.778,317.100 x4.073.012-.059(Consta nt)-79.212-46.721-49.598Fishers linea r discrimina nt functions表4.6 Ba yes判别函数系数根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。Classification Results1 3grouoPredicted Group MembershipTota l123Origina l Count140152041530145%180.0.020.0100.02.080.020.0100.03,020.080.0100.0a.80.0%of origina l grouped ca ses correctly cla ssified.表4.7错判矩阵第五章5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得P项 指 标(变量)的数据,已知每个样本属于k个 类 别(或总体)中的某一类,通过找出 个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.2 试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为P(一)闵可夫斯基距离:k=q取不同值,分为(1)绝对距离(4=1)p%(D =E|XLX/%=1(2)欧氏距离=2)P.74式2)=电及7/严k=(3)切比雪夫距离(4=8)4(8)=ma x Xik-XjkJ kp J1 P lx.,-x j(二)马氏距离 7(L)=-Z P k=l X i卜 +X .由(三)兰氏距离 d 1(M)=(X;-X.),L-1(X,.-X.)对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作P维空间的向量,一般用P(一)夹角余弦 E x/,C O S 0.=I ATJP PJ(f x:)(f X/V&=1 k=(-)相关系数X(x,-x,.)(x -xy)r =1 _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _i j l p 二 p -、区(X我 一 月y(Xj凡)2V k=1 k=l5.4在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?答:设 由表示样品X,与为之间距离,用D.表示类0与G,之间的距离。(1).最短距离法D =m i n di;J X;eG;,X 产G j,J(2)最长距离法Dp。=m a x d,P q X g G p,X 产 Gq,JDkr=x m a x =m a x Dk,Dk AjEUf.yA jE Ur r F(3)中间距离法D:=-;+-;+BD2kr 2 kp 2 kq pq其中一1/4客自客。(4)重心法D;q=(Xp-Xq)XXp-Xq)兄=区+)nn 0 凡 o55或%,%Dp2q(5)类平均法D2pq%,%XfG p X 产 G,C 1 S 、X-1 n o -)(6)可变类平均法nar=Q 0)(;,+;DG+0D2其中B是可变的且B 1(7)可变法D i=?(%+/)+BDq 其中p是可变的且P 1(8)离差平方和法E=.(X )(x 工)t=l耳q =皆=(%一 而)3=辱 M Sq9n.+nn?n.+na 9 n.、D =-D:+LD:-D2kr.kp.kq,pq%+%+%+%通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。5.5 试述K 均值法与系统聚类法的异同。答:相同:K 均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而 K 一均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K 均值法确定类数的参考。5.6 试 述 K 均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K 均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而 K均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K 均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用乂(|),X 出,一,乂(“)表示个有序的样品,则

    注意事项

    本文(应用多元统计分析课后答案_朱建平版.pdf)为本站会员(无***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开