数据分析与软件应用第七讲聚类分析.ppt
《数据分析与软件应用第七讲聚类分析.ppt》由会员分享,可在线阅读,更多相关《数据分析与软件应用第七讲聚类分析.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七讲 聚类分析n系统聚类分析(Hierarchical Cluster过程):直观,易懂。n快速聚类(K-means Cluster过程):快速,动态。n有序聚类:保序(时间顺序或大小顺序)。聚类分析方法 例例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行归类。应聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424241 什么是聚类分析什么是聚类分析 我们直观地来看,这个归类是否合理?计算4号和6号得分的离
2、差平方和:(21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可见一般,归类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类。例如对上市公司的经营业绩进行聚类;又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重
3、叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。思考:样本点之间按什么刻画相似程度思考:样本点之间按什么刻画相似程度思考:样本点和小类之间按什么刻画相似程度思考:样本点和小类之间按什么刻画相似程度思考:小类与小类之间按什么来刻画相似程度思考:小类与小类之间按什么来刻画相似程度一、变量测量尺度的类型一、变量测量尺度的类型 变量按照测量它们的尺度不同,可以分为三类。(1)(1)间间隔隔尺尺度度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存
4、在绝对零点,又称比例尺度。2 相似性度量相似性度量(2)(2)顺顺序序尺尺度度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。(3)(3)名名义义尺尺度度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,人口性别的男和女,市场交易中的买和卖等都是此类变量。二、样品间亲疏程度的测度二、样品间亲疏程度的测度R型聚类()基于样品对指标进行分析,常用相似系数
5、来测度。相相似似系系数数:取值(1,-1),性质越接近的变量或样品,相似系数越接近于1或一l,相似的为一类,不相似的为不同类。Q型型聚聚类类:()基于指标对样品进行分析,常用距离来测度样品之间的亲疏程度。距距 离离:是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。1、样品相似性度量:距离、样品相似性度量:距离 距离定义的准则:定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距距离离可可以自己定义,只要满足距离的条件)以自己定义,只要满足距离的条件)2 2、常用距离的算法、常用距离的算法 设 和是第i和 j 个样品的
6、观测值,则二者之间的距离 为:闵氏距离欧氏距离(1)闵可夫斯基距离(明氏距离Minkowski)绝对距离绝对距离 当当q=1时时切比雪夫距离 当q时闵氏距离有以下缺点:明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,闵考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。(2)马氏距离(广义欧氏距离)是印度著名统计学家马哈拉诺比
7、斯(PCMahalanobis)所定义的一种距离,设xi,xj是来自均值向量 总体G中的P维样品,则其计算公式为:马氏距离与前述距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,不再受个指标量纲的影响,将原始数据做线性变换后,马氏距离不变。为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。例如,假设有一个二维正态总体,它的分布为:(
8、3)兰氏距离:兰思和维廉姆斯(Lance&Williams)所给定的一种距离,其计算公式为:这是一个自身标准化的量,由于它对大的奇异值不敏感,特别适合于高度偏倚的数据。虽然这个距离有助于克服闵氏距离的第一个缺点(与各变量单位无关),但它也没有考虑指标之间的相关性。(4)斜交空间距离 由于各变量之间往往存在着不同的相关性,用欧氏距离来显得不太敏感,所以有人建议采用斜交空间距离 当各变量之间不相关时,斜交空间退化为欧氏距离。(除相差一常数)3 3、相似系数(变量相似性度量)、相似系数(变量相似性度量)(1)相似系数设 和是第 和 个样品的观测值,将数据标准化后的夹角余弦,则二者之间的相似测度为:变
9、量间常借助于相似系数来定义距离,如距离越小,相似系数越大(2)夹角余弦 夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量 4 4、距离和相似系数选择的原则、距离和相似系数选择的原则同一批数据采用不同的亲疏测度指标,得到不同的聚类结果。产生原因,主要是由于不同的亲疏测度指标所衡量的亲疏程度的实际意义不同,即,不同的亲疏测度指标代表了不同意义上的亲疏程度。因此在进行聚类分析时,应注意亲疏测度指标的选择。通常,选择亲疏测度指标时,应注意遵循的基本原则主要有:(1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的
10、亲疏程度。(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施的变换方法和将要采用的聚类分析方法。如在标准化变换之下,夹角余弦实际上就是相关系数;又如聚类前已对变量的相关性作了处理,则通常可采用欧氏距离。此外,所选择的亲疏测度指标,还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法,则距离只能选用欧氏距离。(3)适当地考虑计算工作量的大小。如大样本,不宜选择斜交空间距离,计算工作量太大。样品间或变量间亲疏测度指标的选择是一个比较复杂且带主规性的问题,应根据研究对象的特点作具体分析。实践中,在开始进行聚类分析时,不妨试探性地多选择几个亲疏测度指标,分别进行聚类,然后对聚类分析的结果进
11、行对比分析,以确定出合适的亲疏测度指标。3 系统聚类方法系统聚类方法-、分析过程:1、根据样品的特征,每个样品自成一类,计算n个样品两两之间的距离 ,共有 个。把这些距离排列成一表,记为D D(0)表。2、选择D D(0)表中最小的非零数,不妨假设 ,于是将 和 合并为一新类,记为 。Hierarchical Clustering MethodHierarchical Clustering Method是目前国内外使用最多的是目前国内外使用最多的 一种聚类方法一种聚类方法 3、利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的结果,产生D
12、(1)表。若类的个数等于1,转到下一步,否则回到前一步。类推直至所有的样本点归为一类为止。4、画聚类图 5、决定类的个数 由于类与类之间的距离的计算方法不同,形成了不同的系统聚类方法。二、常见的聚类法 1、最短距离(Nearest Neighbor):定义类定义类与类之间的距离为两类最近的样品间的距与类之间的距离为两类最近的样品间的距离。离。x21x12x22x11 最短距离法的递推公式最短距离法的递推公式 假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最短距离法为:设抽取五个样品,每个样品只有一个变量,它们是1,2,3.5,7,9。用最短距离法对5个样品进行聚类。首先采用绝对距离
13、计算距离矩阵:0102.51.50653.50875.520 然后 和 被聚为新类 ,得 :01.5053.5075.52003.505.52003.50各步聚类的结果:(1,2)(3)(4)(5)(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5)2、最长距离法:、最长距离法:(Furthest Neighbor)类与类之间的距离定义为两类最远样品间的距离。x11x21最长距离法的递推公式最长距离法的递推公式 假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最长距离法为:用最长距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:0102.51.50653.50
14、875.520 然后G1,G2被聚为新类,得:0 2.5063.5085.5203、中间距离法、中间距离法最长距离最长距离最短距离最短距离中间距离中间距离法的递推公式中间距离法的递推公式0106.252.250362512.250644930.2540 用中间距离法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵:0 0 4 40 030.2530.2512.2512.250 056.2556.2530.2530.254 40 0 4、重心法、重心法:Centroid clustering(样品的均值样品的均值法法):类与类间的距离定义为两类重心(各类样类与类间的距离定义为两类重心(各类样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 软件 应用 第七 聚类分析
限制150内