聚类分析 Cluster Analysis.ppt
《聚类分析 Cluster Analysis.ppt》由会员分享,可在线阅读,更多相关《聚类分析 Cluster Analysis.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 毛本清 2010.08.27聚类分析聚类分析Cluster Analysis 毛本清 2010.08.27内容提要内容提要l聚类分析简介l聚类分析有关统计量l分层聚类法步骤lK均值聚类法步骤l两步聚类法步骤l案例分析 毛本清 2010.08.27聚类分析的定义l依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。l各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。l各指标之间具有一定的相关关系。l l聚类分析聚类分析聚类分析聚类分析(cluster analysis)(cluster analysis)是一组将研究对象分是一组将研究对象分是
2、一组将研究对象分是一组将研究对象分为相对同质的群组为相对同质的群组为相对同质的群组为相对同质的群组(clusters)(clusters)的统计分析技术。的统计分析技术。的统计分析技术。的统计分析技术。聚类分析也叫分类分析聚类分析也叫分类分析聚类分析也叫分类分析聚类分析也叫分类分析(classification analysis)(classification analysis)或数值分类或数值分类或数值分类或数值分类(numerical taxonomy)(numerical taxonomy)l变量类型:定类变量、定量(离散和连续)变量 毛本清 2010.08.27聚类方法聚类方法l层次聚
3、类(Hierarchical Clustering)合并法分解法树状图l非层次聚类K均值聚类法(K-means Clustering)l智能聚类法 毛本清 2010.08.27聚类分析的有关统计量l l聚合过程表聚合过程表l l群重心群重心l l群中心群中心l l群间距离群间距离 毛本清 2010.08.27分层聚类分析的步骤l l定义问题与选择分类变量定义问题与选择分类变量 l l聚类方法聚类方法l l确定群组数目确定群组数目l l聚类结果评估聚类结果评估l l结果的描述、解释结果的描述、解释 毛本清 2010.08.27K-means Cluster(快速样品聚类)过程l属于非层次聚类法的
4、一种 l方法原理选择(或人为指定)某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置(均值)用计算出的中心位置重新进行聚类如此反复循环,直到凝聚点位置收敛为止 毛本清 2010.08.27K-means Cluster过程l方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量 毛本清 2010.08.27K均值聚类法分析步骤l l定义问题定义问题l l确定群组数目确定群组数目l l结果的描述、解释结果的描述、解释 毛本清 2010.08.27TwoStep Cluster过程l特点:处理对象:分类变量和连续变量自动决定最
5、佳分类数快速处理大数据集l前提假设:变量间彼此独立分类变量服从多项分布,连续变量服从正态分布模型稳健l算法原理:第一步:逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成一个新类第二步,对第一步中各类依据类间距离进行合并,按一定的标准,停止合并 毛本清 2010.08.27判别分析判别分析 DiscriminantDiscriminant Analysis Analysis介绍:判别分析 分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。毛本清 2010.08.27判别分析判别分析DADAl
6、概述lDA模型lDA有关的统计量l两组DAl案例分析 毛本清 2010.08.27判别分析判别分析l判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。毛本清 2010.08.27l不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。lDA适用于定类变量(因)、任意变量(自)l两类:一个判别函数;l多组:一个以上判别函数判别分析判别分析 毛本清 2010.08.27DADA目的目的建立判别函数 检查不同组之间在有关预测变量方面是否有显著差异 决定哪
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 Cluster Analysis
限制150内