《第7章聚类分析.课件电子教案教学教程.pptx》由会员分享,可在线阅读,更多相关《第7章聚类分析.课件电子教案教学教程.pptx(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第7章 聚类分析及R使用多元统计分析及建模 王斌会 教授多元统计分析及R语言建模多元统计分析及R语言建模理解理解聚类分析的聚类分析的目的意义及统计思想目的意义及统计思想了解了解变量类型的几种尺度变量类型的几种尺度定义定义熟悉熟悉Q型和型和R型型聚类分析的统计量的定义聚类分析的统计量的定义了解了解六种系统聚类六种系统聚类方法及方法及它们的统一它们的统一公式公式掌握掌握R语言语言中六种方法的中六种方法的具体使用具体使用步骤步骤了解了解R语言语言中快速聚类中快速聚类的基本思想和的基本思想和用法用法多元统计分析及R语言建模聚类分析聚类分析的目的和的目的和意义意义聚类分析聚类分析中所使用的几种尺度的中所
2、使用的几种尺度的定义定义初步掌握选用聚类初步掌握选用聚类方法方法与与相应相应距离距离的的原则原则六种系统聚类方法的定义及其基本性质六种系统聚类方法的定义及其基本性质R语言程序中有关聚类分析的算法语言程序中有关聚类分析的算法基础基础掌握掌握R语言中语言中kmeans聚类的方法和聚类的方法和用法用法7 聚类分析及R使用l基本概念聚类分析法(Cluster Analysis)是研究“物以类聚”的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。l分析方法7 聚类分析及R使用 7 聚类分析及R使用 【例7.1】两个变量、九个样品数据及其散点图7 聚类分析及R使用7 聚类分析及R使用距
3、离矩阵距离矩阵相关矩阵相关矩阵7 聚类分析及R使用相关系数矩阵:相关系数矩阵:cor(X)7 聚类分析及R使用7 聚类分析及R使用 先将个样品分成类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程做成一张系统聚类图。系统聚类法的基本思想7 聚类分析及R使用类类间间距距离离计计算算方方法法(1)最短距离法()最短距离法(single)(2)最长距离法()最长距离法(complete)(3)中间距离法()中间距离法(median)(4)类平均法()类平均法(average)(5)重心法()重心法(centr
4、oid)(6)离差平方和法()离差平方和法(Ward)类间距离计算公式类间距离计算公式7 聚类分析及R使用7 聚类分析及R使用系统聚类法过程(1)计算n个样品两两间的距离(2)构造n个类,每类包含1个样品(3)合并距离最近两类为新类(4)计算新类与各类距离,若类个数为1,转到第5步,否则回到第3步(4)绘制系统聚类图(5)确定类的个数和样品名称例7-1数据的系统聚类最短距离法(采用欧氏距离)例7-1数据的系统聚类最长距离法(采用欧氏距离)例7-1数据的系统聚类7 聚类分析及R使用系统聚类R语言步骤一、计算距离一、计算距离阵阵: dist二二、进行系统、进行系统聚类聚类: hclust三三、绘制
5、聚类、绘制聚类图图: plot四四、画分类、画分类框框: rect.hclust五、确认分类五、确认分类结果结果: cutree【例7.2】续例3.1,研究全国31个省、市、自治区2007年城镇居民生活消费的分布规律,根据调查资料做区域消费类型划分。7 聚类分析及R使用l概念 kmeans法是一种快速聚类法,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中。l 原理 kmeans算法以k为参数,把n个对象分为k个类,使类内具有较高的相似度,类间的相似度较低。7 聚类分析及R使用相似度计算是根据类中对象的均值mean来进行7 聚类分析及R使用【例7.3】kmeans算法的R语言实现及模拟分析:模拟正态随机变量7 聚类分析及R使用7 聚类分析及R使用模拟模拟10个变量个变量2000个样品个样品的正态随机矩阵的正态随机矩阵7 聚类分析及R使用l系统聚类分析的特点l综合性l形象性l客观性l关于kmeans算法 kmeans算法只有在类的均值被定义的情况下才能使用 对于“噪声”和孤立点是敏感的,这种数据对均值影响极大7 聚类分析及R使用l关于变量变换l平移变换l极差变换l标准差变换l主成分变换l对数变换7 聚类分析及R使用
限制150内