第九讲聚类分析.ppt

资源ID：49683763 资源大小：2.61MB 全文页数：30页
资源格式： PPT 下载积分：18金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要18金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

第九讲聚类分析.ppt

第九讲聚类分析现在学习的是第1页，共30页方法原理方法原理按照个体（记录）的特征将它们分类，使同一类别内的个体具有尽可能高的同质性，而类别之间则具有尽可能高的异质性。为了得到比较合理的分类，首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。直观的理解为按空间距离的远近来划分类别现在学习的是第2页，共30页方法原理方法原理假定研究对象均用所谓的“点”来表示。在聚类分析中，一般的规则是将“距离”较小的点归为同一类，将“距离”较大的点归为不同的类。常见的是对个体分类，也可以对变量分类此时一般使用相似系数作为“距离”测量指标现在学习的是第3页，共30页方法原理方法原理例：根据年龄将人群分成适当的类，从右图可见，人群被分为两类是比较合适的。现在学习的是第4页，共30页方法原理方法原理在右图中可以看到五个样品应当可能被分为两组或者三组，C/D组x和y的取值均偏低，而另三个所在组x和y的取值均偏高分为两类或三类都是可接受的从图中可以直观的理解“距离”的含义现在学习的是第5页，共30页方法原理方法原理当用于聚类的变量逐渐增多时，分析思路完全相同，只是这样简单、清晰的图示展现类别情况变得逐渐不大可能多维空间中的观察可能的解决方法放弃图示化观察，改用复杂的统计指标缩减维度，使得可以在低维度空间进行呈现现在学习的是第6页，共30页特特点点聚类分析前所有个体所属的类别是未知的，类别个数一般也是未知的，分析的依据就是原始数据，可能事先没有任何有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术，它不像其它多元分析法那样，需要从样本去推断总体。一般都涉及不到有关统计量的分布，也不需要进行显著性检验。聚类分析更像是一种建立假设的方法，而对相关假设的检验还需要借助其它统计方法。现在学习的是第7页，共30页聚类分析与聚类分析与SPSS软件软件现在学习的是第8页，共30页TwoStep Cluster过程过程特点：处理对象：分类变量和连续变量处理对象：分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设：变量间彼此独立分类变量服从多项分布，连续变量服从正态分布模型稳健现在学习的是第9页，共30页TwoStep Cluster过程过程步骤：建立Cluster Features(CF)Tree 确定最佳聚类数分析实例：某汽车制造商为了了解整个汽车市场的形势，希望根据汽车的基本属性和价钱对其进行分类，以有效地提高竞争力。数据：car_sales.savcategorical variable：Vehicle typecontinuous variables：Price in thousands Fuel efficiency现在学习的是第10页，共30页价位低、车型小、省油现在学习的是第11页，共30页在该类中，所有变量均对分类有意义按变量对分类的贡献大小排序Fuel efficiency唯一大于均值现在学习的是第12页，共30页K-means Cluster过程过程k-均值聚类（k-means cluster，也叫快速聚类，quick cluster）要求你先说好要分多少类。假定你说分3类，这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子)；也就是说，把这3个点作为三类中每一类的基石。然后，根据和这三个点的距离远近，把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了)，再重新按照距离分类。如此叠代下去，直到达到停止叠代的要求（比如，各类最后变化不大了，或者叠代次数太多了）。显然，前面的聚类种子的选择并不必太认真，它们很可能最后还会分到同一类中呢。现在学习的是第13页，共30页K-means Cluster过程过程属于非系统聚类法的一种方法原理选择（或人为指定）某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置（均值）用计算出的中心位置重新进行聚类如此反复循环，直到凝聚点位置收敛为止现在学习的是第14页，共30页K-means Cluster过程过程方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量只能使用连续性变量现在学习的是第15页，共30页K-means Cluster过程过程分析实例分析实例一个电信服务提供商希望基于客户使用的服务种类对客户进行细分。如果客户能够按照使用的服务种类进行细分，提供商就可以针对客户的偏好，向其提供不同的服务内容，吸引客户使用更多的服务。关于客户服务使用情况的标准变量包含在数据电信客户.sav中，请使用快速聚类法对客户进行聚类。zlnlong zlnwire、zmultlin zebill注意类别数、分类结果的实际应用。现在学习的是第16页，共30页大客户：购买很多服务中等客户：主要使用“calling”服务小客户：使用很少的服务，或者不购买任何服务现在学习的是第17页，共30页惨了，近一半的客户属于惨了，近一半的客户属于价值非常小的客户。能不价值非常小的客户。能不能从这群人中找到一些相能从这群人中找到一些相对来说价值比较大的客户对来说价值比较大的客户呢？呢？现在学习的是第18页，共30页发现一类具有潜在价值的发现一类具有潜在价值的客户：购买网络服务客户：购买网络服务寻找到寻找到25%的的潜在客户潜在客户！现在学习的是第19页，共30页练习练习在SPSS自带数据文件plastic.sav中根据tear_res、gloss、opacity三个变量的取值将20个样本分为三类方差分析表，剔除无用变量均数描述和均数图，考察变量在各组间的均值变化情况按姿势蝶泳、仰泳、蛙泳、自由泳四类对游泳运动员进行分类。数据swim.sav现在学习的是第20页，共30页Hierarchical Cluster过程过程属于系统聚类法的一种其聚类过程可以用树形结构(treelike structure)来描绘的方法方法原理先将所有n个变量观测看成不同的n类然后将性质最接近（距离最近）的两类合并为一类再从这n-1类中找到最接近的两类加以合并依此类推，直到所有的变量观测被合为一类使用者再根据具体的问题和聚类结果来决定应当分为几类现在学习的是第21页，共30页Hierarchical Cluster过程特点一旦记录/变量被划定类别，其分类结果就不会再进行更改可以对变量或记录进行聚类变量可以为连续或分类变量变量可以为连续或分类变量提供的距离测量方法非常丰富运算速度较慢现在学习的是第22页，共30页Hierarchical Cluster过程过程分析实例：数据car_sales.sav，对售价在10万以上的汽车进行分类。type=0,sales100现在学习的是第23页，共30页Hierarchical Cluster过程过程分析实例：电信服务提供商希望了解客户对于各种服务的使用情况，如果能够对服务进行分类，他们就可以将服务进行打包，推出更有吸引力的服务。服务的使用情况包含在数据电信.sav中，请使用系统聚类法来研究不同类型的服务之间的关系。对变量进行聚类Toll free service Wireless service、Multiple lines Electronic billing冰柱图的解读现在学习的是第24页，共30页需要注意的问题需要注意的问题距离测量方法使用默认值即可变量选择无关变量有时会引起严重的错分应当只引入在不同类间有显著差别的变量尽量只使用相同类型的变量进行分析使用连续变量，将分类变量用于结果解释新的聚类方法可以同时使用这些变量现在学习的是第25页，共30页需要注意的问题需要注意的问题共线性问题对记录聚类结果有较大的影响相当于某个变量在聚类中的权重大于其它变量最好先进行预处理变量的标准化变量量纲变异程度相差非常大时需要进行数理统计算法上要求一律标准化标准化后会削弱有用变量的作用现在学习的是第26页，共30页需要注意的问题需要注意的问题异常值影响较大还没有比较好的解决办法尽力避免分类数从实用角度讲，28类比较合适专业意义一定要结合专业知识进行分析现在学习的是第27页，共30页需要注意的问题需要注意的问题其他方面聚类分析主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解现在学习的是第28页，共30页总结总结内容方法TwoStepK-MeansHierarchical聚类对象记录记录记录、变量变量类型连续变量、分类变量连续变量连续变量、分类变量样本量大样本(1000)大样本(1000)小样本(100)特点自动确定最佳分类数保存每个样本到类中心的距离提供丰富的聚类方法和图形现在学习的是第29页，共30页补充练习补充练习对数据分别使用三种聚类方法，直接对四个分析变量进行聚类。比较各种结果的异同。然后，对四个分析变量进行因子分析，对因子然后，对四个分析变量进行因子分析，对因子进行聚类，然后比较异同。进行聚类，然后比较异同。说明：各种算法的结果大同小异，至于哪种算法更适合，需要结合行业背景和实际问题进行考虑。现在学习的是第30页，共30页

注意事项

本文（第九讲聚类分析.ppt）为本站会员（石***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。