聚类分析 Cluster Analysis.ppt

资源ID：80586653 资源大小：77KB 全文页数：33页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

聚类分析 Cluster Analysis.ppt

毛本清 2010.08.27聚类分析聚类分析Cluster Analysis 毛本清 2010.08.27内容提要内容提要l聚类分析简介l聚类分析有关统计量l分层聚类法步骤lK均值聚类法步骤l两步聚类法步骤l案例分析毛本清 2010.08.27聚类分析的定义l依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。l各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。l各指标之间具有一定的相关关系。l l聚类分析聚类分析聚类分析聚类分析(cluster analysis)(cluster analysis)是一组将研究对象分是一组将研究对象分是一组将研究对象分是一组将研究对象分为相对同质的群组为相对同质的群组为相对同质的群组为相对同质的群组(clusters)(clusters)的统计分析技术。的统计分析技术。的统计分析技术。的统计分析技术。聚类分析也叫分类分析聚类分析也叫分类分析聚类分析也叫分类分析聚类分析也叫分类分析(classification analysis)(classification analysis)或数值分类或数值分类或数值分类或数值分类(numerical taxonomy)(numerical taxonomy)l变量类型：定类变量、定量（离散和连续）变量毛本清 2010.08.27聚类方法聚类方法l层次聚类（Hierarchical Clustering）合并法分解法树状图l非层次聚类K均值聚类法（K-means Clustering）l智能聚类法毛本清 2010.08.27聚类分析的有关统计量l l聚合过程表聚合过程表l l群重心群重心l l群中心群中心l l群间距离群间距离毛本清 2010.08.27分层聚类分析的步骤l l定义问题与选择分类变量定义问题与选择分类变量 l l聚类方法聚类方法l l确定群组数目确定群组数目l l聚类结果评估聚类结果评估l l结果的描述、解释结果的描述、解释毛本清 2010.08.27K-means Cluster(快速样品聚类)过程l属于非层次聚类法的一种 l方法原理选择（或人为指定）某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置（均值）用计算出的中心位置重新进行聚类如此反复循环，直到凝聚点位置收敛为止毛本清 2010.08.27K-means Cluster过程l方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量毛本清 2010.08.27K均值聚类法分析步骤l l定义问题定义问题l l确定群组数目确定群组数目l l结果的描述、解释结果的描述、解释毛本清 2010.08.27TwoStep Cluster过程l特点：处理对象：分类变量和连续变量自动决定最佳分类数快速处理大数据集l前提假设：变量间彼此独立分类变量服从多项分布，连续变量服从正态分布模型稳健l算法原理：第一步：逐个扫描样本，每个样本依据其与已扫描过的样本的距离，被归为以前的类，或生成一个新类第二步，对第一步中各类依据类间距离进行合并，按一定的标准，停止合并毛本清 2010.08.27判别分析判别分析 DiscriminantDiscriminant Analysis Analysis介绍：判别分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法，广泛地应用于自然科学、社会科学、工农业生产的各个领域。毛本清 2010.08.27判别分析判别分析DADAl概述lDA模型lDA有关的统计量l两组DAl案例分析毛本清 2010.08.27判别分析判别分析l判别分析是根据表明事物特点的变量值和它们所属的类，求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。毛本清 2010.08.27l不同：判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值，并且已知各个体的分类。lDA适用于定类变量（因）、任意变量（自）l两类：一个判别函数；l多组：一个以上判别函数判别分析判别分析毛本清 2010.08.27DADA目的目的建立判别函数检查不同组之间在有关预测变量方面是否有显著差异决定哪个预测变量对组间差异的贡献最大根据预测变量对个体进行分类毛本清 2010.08.27二、判别分析模型二、判别分析模型l要先建立判别函数 Y=a1x1+a2x2+.anxn，其中:Y为判别分数(判别值)，x1 x2.xn为反映研究对象特征的变量，a1 a2.an为系数毛本清 2010.08.27三、有关统计量三、有关统计量判别系数判别系数标准化判别系数标准化判别系数结构相关系数结构相关系数毛本清 2010.08.27三、有关统计量三、有关统计量典型相关系数典型相关系数特征值特征值WilksWilks (0,1)=(0,1)=SSw/SStSSw/SSt for X for X组重心组重心分类矩阵分类矩阵毛本清 2010.08.27四、两组判别四、两组判别l定义问题l估计DA函数系数l确定DA函数的显著性l解释结果l评估有效性毛本清 2010.08.27定义问题定义问题l判别分析的第一步判别分析的第一步l第二步就是将样本分为：第二步就是将样本分为：分析样本分析样本验证样本验证样本毛本清 2010.08.27估算判别函数系数估算判别函数系数 l直接法（direct method）就是同时用所有的预测变量估计判别函数，此时每个自变量都包括在内，而不考虑其判别能力。这种方法适用于前期研究或理论模型显示应包括哪些自变量的情况。l逐步判别分析（stepwise discriminant analysis），预测变量依据其对组别的判别能力被逐步引入。毛本清 2010.08.27确定显著性确定显著性l零假设：总体中各组所有判别函数的均值相等。l特征值l典型相关系数l lWilks(0,1)转换成卡方值检验l l见travel.spo 毛本清 2010.08.27解释结果解释结果l l系数的系数的符号符号无关紧要，但能够表示每个变量对判无关紧要，但能够表示每个变量对判别函数值的影响，以及与特定组的联系。别函数值的影响，以及与特定组的联系。l l我们可以通过我们可以通过标准化判别函数系数标准化判别函数系数的绝对值初步的绝对值初步判断变量的相对重要性。判断变量的相对重要性。l l通过考察通过考察结构相关系数结构相关系数，也可以对预测变量的相，也可以对预测变量的相对重要性进行判断。对重要性进行判断。l l组重心组重心毛本清 2010.08.27评估判别分析的有效性评估判别分析的有效性 l根据分析样本估计出的判别权数，乘以保留样本中的预测变量值，就得出保留样本中每个样本的判别分。l可以根据判别分及适当的规则划分为不同的组别。l命中率（hit ratio）或称样本正确分类概率，就是分类矩阵对角线元素之和与总样本数的比例。l比较样本正确分类百分比与随机正确分类百分比。毛本清 2010.08.27因子分析Factor Analysis 毛本清 2010.08.27因子分析因子分析l因子分析模型l因子分析有关统计量l因子分析步骤l案例分析毛本清 2010.08.27一、因子分析模型（一、因子分析模型（FAFA）l基本思想l因子分析模型毛本清 2010.08.27FAFA的基本思想的基本思想l“因子分析”于1931年由Thurstone提出，概念起源于Pearson和Spearmen的统计分析lFA用少数几个因子来描述多个变量之间的关系，相关性较高的变量归于同一个因子；lFA利用潜在变量或本质因子（基本特征）去解释可观测变量毛本清 2010.08.27FAFA模型模型X1=a11F1+a12F2+a1pFp+v1X2=a21F1+a22F2+a2pFp+v2 XAF+VXi=ai1F1+ai2F2+aipFp+viXm=ap1F1+ap2F2+ampFm+vmXi 第i个标准化变量 aip 第i个变量对第p个公因子的标准回归系数F 公因子Vi 特殊因子毛本清 2010.08.27公因子模型公因子模型F1=W11X1+W12X2+W1mXmF2=W21X1+W22X2+W2mXmFi=Wi1X1+Wi2X2+WimXmFp=Wp1X1+Wp2X2+WpmXmWi 权重，因子得分系数 Fi 第i个因子的估计值（因子得分）毛本清 2010.08.27二、有关统计量二、有关统计量lBartlett氏球体检验:各变量之间彼此独立lKMO值：FA合适性l因子负荷：相关系数l因子负荷矩阵l公因子方差（共同度）l特征值l方差百分比（方差贡献率）l累计方差贡献率l因子负荷图l碎石图毛本清 2010.08.27三、三、FAFA步骤步骤l定义问题l检验FA方法的适用性l确定因子分析方法l因子旋转l解释因子l计算因子得分毛本清 2010.08.27注意事项注意事项l样本量不能太小l变量相关性l公因子有实际意义

注意事项

本文（聚类分析 Cluster Analysis.ppt）为本站会员（qwe****56）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。