欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年SPSS实战之聚类分析 .pdf

    • 资源ID:39707606       资源大小:500.83KB        全文页数:8页
    • 资源格式: PDF        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年SPSS实战之聚类分析 .pdf

    SPSS19.0实战之聚类分析这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了,又不喜欢live writer聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3 种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。分析数据依然采用线性回归所使用的标准化后的能源消费数据。1.1 系统聚类本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。1.1.1 最短距离聚类法最短距离法聚类步骤如下:1.规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成一类。2.选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样品归并成为一类,记为G1。3.计算 G1 与其他样品距离。重复以上过程直到所有样品合并为一类。我们在 SPSS 中实现最短距离分析非常简单。单击“”-“”-“”。将弹出如图1-1 所示的对话框,设置相应的参数即可。图 1-1 最短距离法名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 8 页 -我们的数据已经做过标准化,在“转化值”-“标准化”选项上选无。在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定,得到以下结果。1.表 3-1显示了数据的缺失情况:案例处理汇总a案例有效缺失总计N 百分比N 百分比N 百分比30 100.0 0.0 30 100.0 表 1-1 数据汇总我们的数据经过预处理,所以缺失值个数为0.2.由于相关矩阵过于庞大,无法在文档中贴出,得到的是一个非相似矩阵。表1-2 是样品聚类过程。样品21 和 28 在第一步合并为一类,它们之间的非相关系数最小,为0.211。在下一次合并是第十步。在第五步的时候,样品2、27、14 组成一类,出现群集,样品个数为 3。如上类推,可以解释表格。表 1-2 聚类过程我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示,最短距离法组内距离小,但组间距离也较小。分类特征不够明显,无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同,在其他方法中也显现出来。聚类表阶群集组合系数首次出现阶群集下一阶群集1 群集2 群集 1 群集2 1 21 28.211 0 0 10 2 12 24.465 0 0 6 3 2 27.491 0 0 5 4 13 20.585 0 0 9 5 2 14.645 3 0 6 6 2 12.678 5 2 7 7 2 7.702 6 0 8 8 2 25.773 7 0 9 9 2 13.916 8 4 11 10 21 29 1.085 1 0 12 11 2 18 1.106 9 0 12 12 2 21 1.115 11 10 13 13 2 17 1.360 12 0 14 14 2 26 1.564 13 0 15 15 2 22 1.627 14 0 16 16 2 5 1.649 15 0 17 17 2 8 1.877 16 0 18 18 2 16 3.027 17 0 19 19 2 30 3.543 18 0 20 20 2 11 4.930 19 0 21 21 2 4 5.024 20 0 22 22 2 10 6.445 21 0 24 23 1 9 8.262 0 0 26 24 2 15 10.093 22 0 25 25 2 23 10.096 24 0 26 26 1 2 10.189 23 25 27 27 1 6 11.387 26 0 28 28 1 3 13.153 27 0 29 29 1 19 32.367 28 0 0 名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 8 页 -图 1-2 最短距离法聚类图1.1.2 组间联接聚类组间联接聚类法定义为两类之间的平均平方距离,即。类 CK和 CL 合并为下一步的CM 则 CM 与 CJ距离的递推公式为:。我们依然贴出组间联接法的聚类表和树状图。1.聚类表如表1-3所示,相关解释类似于表1-1 所述。聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集2 名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 8 页 -1 21 28.211 0 0 10 2 12 24.465 0 0 5 3 2 27.491 0 0 6 4 13 20.585 0 0 8 5 7 12.840 0 2 7 6 2 14.937 3 0 7 7 2 7 1.105 6 5 11 8 13 25 1.331 4 0 11 9 17 18 1.360 0 0 14 10 21 29 1.495 1 0 13 11 2 13 1.703 7 8 15 12 8 26 1.877 0 0 15 13 21 22 2.133 10 0 18 14 5 17 2.378 0 9 16 15 2 8 3.715 11 12 16 16 2 5 3.926 15 14 18 17 4 16 5.024 0 0 23 18 2 21 5.526 16 13 21 19 10 11 6.445 0 0 22 20 1 9 8.262 0 0 25 21 2 30 8.744 18 0 23 22 6 10 11.508 0 19 24 23 2 4 14.202 21 17 25 24 6 15 14.288 22 0 27 25 1 2 19.822 20 23 26 26 1 23 23.363 25 0 28 27 3 6 26.516 0 24 28 28 1 3 31.210 26 27 29 29 1 19 69.114 28 0 0 表 1-2 组间联接聚类法2.树状图如图1-3 所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理想。可以看到海南与青海,宁夏自治区,重庆市的能源消耗特点近似,北京、上海两地能源消耗特点也近似。江浙两地亦然。最后广东和各地能源消耗特点都不同。名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 8 页 -1.1.3 Ward法聚类Ward即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。公式:递推公式:我依然贴出ward法聚类表和树状图。1.聚类表如表1-4所示,相关解释类似于表1-1 所述.聚类表阶群集组合系数首次出现阶群集下一阶群集1 群集2 群集 1 群集2 1 21 28.106 0 0 11 2 12 24.338 0 0 5 3 2 27.584 0 0 6 4 13 20.876 0 0 9 5 7 12 1.359 0 2 12 6 2 14 1.902 3 0 8 7 17 18 2.582 0 0 13 8 2 29 3.351 6 0 12 名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 8 页 -9 13 25 4.140 4 0 14 10 8 26 5.079 0 0 16 11 21 22 6.290 1 0 19 12 2 7 7.647 8 5 14 13 5 17 9.006 0 7 21 14 2 13 11.211 12 9 19 15 4 16 13.723 0 0 23 16 8 30 16.642 10 0 21 17 10 11 19.865 0 0 20 18 1 9 23.996 0 0 25 19 2 21 30.556 14 11 24 20 6 10 37.154 0 17 22 21 5 8 43.898 13 16 24 22 6 15 52.159 20 0 26 23 3 4 62.103 0 15 26 24 2 5 73.051 19 21 27 25 1 23 86.143 18 0 27 26 3 6 106.442 23 22 28 27 1 2 139.001 25 24 29 28 3 19 177.895 26 0 29 29 1 3 286.000 27 28 0 表 1-4 Ward法聚类表2.树状图如图1-4 所示,我们可以看到这个结果较以上两种方法都为理想,组内距离都很小,控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗特点。最后在接近10 次迭代,广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类,说明它们之间的相似度也不大。图 1-4 Ward法聚类树状图1.2 K-mean聚类名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 8 页 -K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终K 个分类。K-mean法对离群点敏感容易扭曲数据分布。单击“”-“”-“”将弹出如图1-5所示的对话框,我们根据系统聚类法的经验将K 选择为 5。迭代次数和系统聚类一样选择25 次。图 1-5 K-mean聚类设置下面输出和解释K-mean聚类结果。1.表 1-5是 K-mean的迭代历史记录,非常明了。迭代历史记录a迭代聚类中心内的更改1 2 3 4 5 1 2.796 1.414 1.813.000 2.299 2 1.014.000.990.000.000 3.000.000.000.000.000 a.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代为3。初始中心间的最小距离为5.209。表 1-5 迭代历史记录2.表 1-6是每个聚类样品数表。就是该次K-mean聚类所形成的类它们的样品数量。每个聚类中的案例数聚类1 3.000 2 19.000 3 3.000 4 1.000 5 4.000 有效30.000 缺失.000 名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 8 页 -表 1-6 聚类样品数3.表 1-7是 K-mean聚类的各个类的具体成员。距离代表的是样品自身和种子点的距离。聚类成员案例号地区名称聚类距离1 北京市1 1.489 2 天津市2.596 3 河北省3 2.575 4 山西省3 1.381 5 内蒙古自治区2 1.951 6 辽宁省5 2.299 7 吉林省2.646 8 黑龙江省2 1.785 9 上海市1 2.506 10 江苏省5 1.569 11 浙江省5 2.034 12 安徽省2.850 13 福建省2 1.096 14 江西省2.960 15 山东省5 2.489 16 河南省3 1.980 17 湖北省2 2.096 18 湖南省2 1.211 19 广东省4.000 20 广西壮族自治区2.926 21 海南省2 1.905 22 重庆市2 1.436 23 四川省1 2.954 24 贵州省2.984 25 云南省2 1.080 26 陕西省2 1.007 27 甘肃省2.955 28 青海省2 1.744 29 宁夏回族自治区2 1.414 30 新疆维吾尔自治区2 2.503 表 1-7 聚类成员最后看到分类结果与ward法有所相似,但是组内距离较大。实际效果不如Ward法。而且该方法需要事先设定分类的个数,并不适合没有先验知识的条件下的数据聚类。2.总结本次实习主要通过一批国内的能源消耗和产量数据,来实现回归分析和聚类分析。回归分析得到一个拟合度良好多元线性回归方程:Y=0.008+1.061x1+0.087x2+0.157 x3-0.365x4-0.105 x5-0.017x6。该方程的残差分析也通过了。聚类分析通过比较三种不同的系统聚类方法,同时还比较了K-mean方法与系统聚类法的不同。在处理该批数据的四种聚类方法中,以ward法最为理想。Ward法所做的聚类得到组间距离最大,组内距离最小。名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 8 页 -

    注意事项

    本文(2022年SPSS实战之聚类分析 .pdf)为本站会员(C****o)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开