欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    应用多元统计分析课后答案.doc

    • 资源ID:63068490       资源大小:28.50KB        全文页数:12页
    • 资源格式: DOC        下载积分:12金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要12金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    应用多元统计分析课后答案.doc

    应用多元统计分析p 课后答案.doc应用多元统计分析p 课后答案第五章 聚类分析p 5.1 判别分析p 和聚类分析p 有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析p 是分析p 如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析p 是在已知有多少类及是什么类的情况下进行分类,而聚类分析p 是在不知道类的情况下进行分类。5.2 试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析p 时, 所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析p 时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为(一)闵可夫斯基距离:1/1pqqij ik jk k d q _ _ =-q 取不同值,分为 (1)绝对距离()(2)欧氏距离()(3)切比雪夫距离()(二)马氏距离(三)兰氏距离1q =1(1)pij ik jk k d _ _ =-2q =21/21(2)pij ik jk k d _ _ =-q =1ma_ ij ik jkk pd _ _ =- 21ij i j i j d M -"=-_ _ _ _ 11p ik jkij k ik jk _ _ d L p _ _ =-=+对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用(一)夹角余弦(二)相关系数5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?答: 设d ij 表示样品_ i 与_ j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1).最短距离法(2)最长距离法(3)中间距离法其中(4)重心法,mini k j rkr ij _ G _ G D d =min,kp kq D D =,ma_i p j qpq ij _ G _ G D d =,ma_i k j rkr ij _ G _ G D d =ma_,kp kq D D =cos pik jkij _ _ =pik i jk j ij _ _ _ _ r -=ij G _ G _ ij d D jj i i =,min22222121pq kq kp kr D D D D +=)(1q q p p rr_ n _ n n _ +=(5)类平均法(6)可变类平均法其中是可变的且 (7)可变法其中是可变的且 通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析p 方法。如在进行聚类分析p 之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析p 前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析p 的结果进行对比分析p ,以2pq p q p q D _ _ _ _ "=-22222p q p q krkpkqpq rrr n n n n D D D D n n n =+-221i p j jpqij_ G _ G p qD d n n =221i k j rkrij_ G _ G k r D dn n =22p q kpkqrrn n D D n n =+222212kr kp kq pq D D D D -=+1tn t it t it t t S _ _ _ _ ="=-2222k p k qk krkpkqpq r k r k r kn n n n n D D D D n n n n n n +=+-+ 2222(1)pq kr kp kq pqrrn n D D D D n n =-+确定最合适的距离测度方法。5.5试述K 均值法与系统聚类法的异同。答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。5.6 试述K 均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K 均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K 均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析p 问题。如果用)21(,n _ _ _ 表示个有序的样品,则每一类必须是这样的形式,即)1(,j i i _ _ _ +,其中,1n i 且n j ,简记为,1,j i i G i +=。在同一类中的样品是次序相邻的。一般的步骤是(1)计算直径D (i,j )。(2)计算最小分类损失函数Lp(l,k)。(3)确定分类个数k 。(4)最优分类。5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析p 。 (1)用最短距离法进行聚类分析p 。 采用绝对值距离,计算样品间距离阵0 1 0 2 1 0 5 4 3 0 8 7 6 3 0 10 9 8 5 2 0n由上表易知中最小元素是于是将,聚为一类,记为计算距离阵3 06 3 08 5 2 0中最小元素是=2 于是将,聚为一类,记为计算样本距离阵3 06 3 0中最小元素是于是将,聚为一类,记为因此,(2)用重心法进行聚类分析p 计算样品间平方距离阵1 04 1 025 16 9 064 49 36 9 0100 81 64 25 4 0易知中最小元素是于是将,聚为一类,记为计算距离阵16 049 9 081 25 4 0注:计算方法,其他以此类推。中最小元素是=4 于是将,聚为一类,记为计算样本距离阵16 064 16 0中最小元素是于是将,聚为一类,记为因此,5.8 下表是15个上市公司20_1年的一些主要财务指标,使用系统聚类法和K均值法分别对这些公司进行聚类,并对结果进行比较分析p 。解:令净资产收益率为_1,每股净利润_2,总资产周转率为_3,资产负债率为_4,流动负债比率为_5,每股净资产为_6,净利润增长率为_7,总资产增长率为_8,用spss对公司聚类分析p 的步骤如下:a)系统聚类法:1.在SPSS窗口中选择AnalyzeClassifyHierachical Cluster,调出系统聚类分析p 主界面,并将变量_8-_1移入Variables框中。在Cluster 栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。图5.1 系统分析p 法主界面2.点击Statistics按钮,设置在结果输出窗口中给出的聚类分析p 统计量。我们选择Agglomeration schedule与Cluster Membership中的Range of solution 2-4,如图5.2所示,点击Continue按钮,返回主界面。(其中,Agglomeration schedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;Pro_imity matri_ 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solution 2-4即将所有个体分为2至4类。)3.点击Plots按钮,设置结果输出窗口中给出的聚类分析p 统计图。选中Dendrogram复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。图5.2 Statistics子对话框图5.3 Plots子对话框4.点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离);单击Continue按钮,返回主界面。图5.4 Method子对话框图5.5 Save子对话框5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。点击Continue,返回主界面。6.点击OK按钮,运行系统聚类过程。聚类结果分析p :下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;若分为3类,则公司8分离出来,自成一类。以此类推。表5.1 各样品所属类别表图5.6 聚类树形图b)K均值法的步骤如下:1.在SPSS窗口中选择AnalyzeClassifyK-Means Cluster,调出K均值聚类分析p 主界面,并将变量_1-_8移入Variables框中。在Method框中选择Iterate classify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classify only,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分为3类。(Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。)图5.7K均值聚类分析p 主界面2.点击Iterate按钮,对迭代参数进行设置。Ma_imum Iterations参数框用于设定K-means算法迭代的最大次数,输入10,Convergence Criterion参数框用于设定算法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。单击Continue,返回主界面。图5.8 Iterate子对话框3.点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。我们将两个复选框都选中,其中Cluster membership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distance from cluster center 选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。单击Continue按钮返回。图5.9Save子对话框4.点击Options按钮,指定要计算的统计量。选中Initial cluster centers和Cluster information for each case复选框。这样,在输出窗口中将给出聚类的初始类中心和每个公司的分类信息,包括分配到哪一类和该公司距所属类中心的距离。单击Continue返回。图5.10Options子对话框5.点击OK按钮,运行K均值聚类分析p 程序。聚类结果分析p :以下三表给出了各公司所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各类的公司数。由以上表格可得公司13与公司8各自成一类,其余的公司为一类。通过比较可知,两种聚类方法得到的聚类结果完全一致。5.9下表是某年我国16个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。试通过统计分析p 软件用不同的方法进行系统聚类分析p ,并比较何种方法与人们观察到的实际情况较接近。解:令食品支出为_1,衣着支出为_2,燃料支出为_3,住房支出为_4,交通和通讯支出为_5,娱乐教育文化支出为_6,用spss对16各地区聚类分析p 的步骤如5.8题,不同的方法在第4个步骤的Method子对话框中选择不同的Cluster method。1.Between-group inkage(组间平均数连接距离)上表给出了把全国16个地区分为2类、3类和4类时,各地区所属的类别,另外从右边的树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。2.Within-group linkage(组内平均连接距离)若用组内平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。3.Nearest neighbor(最短距离法)若用最短距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。4.Furthest neighbor(最远距离法)若用最远距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。5.Centroid cluster(重心法)若用重心法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。6.Median cluster(中位数距离)若用中位数距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。7.Ward method(离差平方和)若用离差平方和法将这些地区分为3类,则9(上海),1(北京)和11(浙江)为一类,2(天津)、6(辽宁)、7(吉林)、10(江苏)、12(安徽)、13(福建)和14(江西)为一类,剩余地区为一类。5.10 根据上题数据通过SPSS 统计分析p 软件进行快速聚类运算,并与系统聚类分析p 结果进行比较。解:快速聚类运算即K 均值法聚类,具体步骤同5.8,聚类结果如下:聚类的结果为9(上海)独自为一类,1(北京)、2(天津)、6(辽宁)、7(吉林)、10(江苏)、11(浙江)、13(福建)和14(江西)为一类,剩余地区为一类。5.11下表是20_3年我国省会城市和计划单列市的主要经济指标:人均GDP (元)、人均工业产值(元)、客运总量(万人)、货运总量(万吨)、地方财政预算内收入(亿元)、固定资产投资总额(亿元)、在岗职工占总人口的比例()、在岗职工人均工资额(元)、城乡居民年底储蓄余额(亿元)。试通过统计分析p 软件进行系统聚类1_ 2_ 3_ 4_ 5_ 6_ 7_ 8_ 9_分析p ,并比较何种方法与人们观察到的实际情况较接近。资料第 12 页 共 12 页

    注意事项

    本文(应用多元统计分析课后答案.doc)为本站会员(Wo****W)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开