聚类分析以及有关系数.ppt
《聚类分析以及有关系数.ppt》由会员分享,可在线阅读,更多相关《聚类分析以及有关系数.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一节 距离和相似系数,在对样本(或变量)进行分类时,样品(或 变量)之间的相似性度量工具距离和相似 系数。前者常用来度量样本之间的相似性,后 者常用来度量变量之间的 相似性。样本之间的 距离和相似系数有着各种不同的定义,而这些 定义与变量的类型有非常密切的关系。,第六章 聚类分析,(1)间隔尺度变量: 变量有连续的量来表示, 如长度,重量,速度,温度等。,(2)有序尺度变量:变量度量时不用明确的 数量表示,而是用等级来表示,如某产品分 为一等品,二等品,三等品等有次序关系。,(3)名义尺度变量:变量用一些类表示,这 些类之间既无等级关系也无数量关系。如性别, 职业,产品的型号等。,通常变量按
2、测量尺度的不同可以分为以下三类:,表6.1.1 数据矩阵,一、距离,设 为第 个样品的第 个指标,数据矩 阵列于表6.1.1,在表6.1.1中,每个样品有 个变量,故 每个样品都可以看成是 中的一个点, 个 样品就是 中的 个点。在 中需定义某 种距离,第 个样品与第 个样品之间的距 离记为 ,在聚类过程中,相距较近的点 倾向于归为一类,相距较远的点应归属不同 的类。,距离 的定义一般满足如下四个条件:,第 个样品与第 个样品间的明考夫斯基距离 (简称明氏距离)定义为 这里 为某一自然数。明氏距离有以下三种特 殊形式:,常用的距离有如下几种:,1.明考夫斯基(Minkowski)距离,其中 为
3、第 个变量的样本均值, 为第 个变量的样本方差。,当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。最常用的标准化处理是,令,当 时, 可以定义第 个样品与第 个样品间的兰氏 距离为,2.兰氏(Lance和Williams)距离,其中 为样本协方差矩阵。使用马氏距离的好处是 考虑到了各变量之间 的 相关性,并且与各 变量的单位无关。但马氏距离有一个很大的 缺陷,就是马氏距离公式中的 难以确定。,3.马氏(Mahalanobis)距离,第 个样品与第 个样品之间的马氏距离为,其中 是变量 与变量 间的相关系数。当 个变
4、量互不相关时, ,即斜 交空间距离退化为欧氏距离(除相差一个常数 倍外)。,4.斜交空间距离,第 个样品与第 个样品间的斜交空间距离定义为,例6.2.1 某高校举办一个培训班,从学员的资 料中得到这样六个变量:性别 ,取值为男 和女;外语语种 ,取值为英,日和俄;专 业 ,取值为统计,会计和金融;职业 , 取值为教师和非教师;居住处 ,取值为校 内和校外;学历 ,取值为本科和本科以下。,现有两名学员:,这两名学员的第二个变量都取值“英”,称为 配合的,第一个变量一个取值为“男”,另一 个取值为“女”,称为不配合的。一般的,若 记配合的变量数为 ,不配合的变量数 为 ,则它们之间的距离可定义为,
5、故按此定义本例中 与 之间的距离为 。,二 相似系数,变量 与 的相似系数用 来表示,它一 般应满足如下三个条件:,最常用的相似系数有如下两种,1.夹角余弦,变量 与 的夹角余弦定义为,它是 中变量 的观察向量 与变量 的观察向量 之间的夹角 的余弦函数,即 。,变量 与 的相关系数为,2.相关系数,常量之间常常借助于相似系数来定义距离, 如令,第二节 系统聚类法,系统聚类法(hierarchical clustering method)的基本思想是:开始将 个样本各自作为一类,并规定样本之间距离和类与类之间的距离,然后将距离最近的合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合
6、并,每次减少一类,直至所有的样品合并为一类。,用 表示第 个样品与第 个样品的距离, 表示类, 表示 与 的距离。 本节介绍的系统聚类方法中,所有的方法一开 始每个样品自成一类,类与类之间的距离与样 本之间的距离相同(除离差平方和法之外), 即 ,所以起初距离矩阵全部相同, 记为,一 最短距离法,类与类之间的距离为两类最近样 本之间的距离,即 称这种系统聚类法为最短距离法(single linkage method)。,(一)定义,(二)最短距离法的聚类步骤如下;,(1)规定样本之间的距离,计算 个样本 距离矩阵 ,它是一个对称矩阵。,(2)选定 中的最小元素,设为 ,则将 和 合并成一个新类
7、,记为 ,即 。,(3)计算新类 与任一类 之间距离的递推公式,在 中, 和 所在的行与列合并成一个新行新列,对应 ,该行列上的 新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记为 。,(4)对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。,如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一类合并或同时合并。,(1)样品间采用绝对值距离(这时它与 其它明氏距离完全相同),计算样品间的距 离矩阵 ,列于表6.2.1。,例6.2.1 设有五个样品,每个只测量了一 个指标,分别是1,2,6,8,11,试用最 短
8、距离法将它们分类。,表 6.2.1,(2) 中最小元素是 ,于是将 和 合并成 ,并利用(6.3.2)式计算 与其他类的距离,列于表6.2.2,表6.2.2,(3) 的最小元素是 ,合并 和 成 , 与其他类之间的距离计算为 表6.2.3,表6.2.3,(4) 中的最小元素是 ,将 和 合并为 ,新的距离矩阵列于表6.2.4,表6.2.4,(5)最后将 和 合并为 ,这时所有五 个样品聚为一类,过程终止。,将上述聚类过程画成一张树形图(或称谱系图,dendrogram),如图6.2.1 所示。,图6.2.1 最短距离法树形图,类与类之间的距离定义为两类最远样品间的距离,即 称这种系统聚类法为最
9、长距离法(complete linkage method)。,二 最长距离法,最长距离法与最短距离法并类步骤完全相同, 只是类间距离的递推公式有所不同。设某步 将类 和 合并成新类 ,则 与任 一类 的距离为,对例6.2.1 采用最长距离法,其树形图如图6.2.2所示,例 6.2.2 对305 名女中学生测量八个体型指标:,相关矩阵列于表6.2.5,我们用相似系数 来度量各变量之间的相似性。,表6.2.5 各变量之间的相关系数,图6.2.3 八个体型变量的最长距离法树形图,类与类之间的距离既不取两类最近样品间 的距离,也不取两类最远距离间的距离,而是 取介于两者之间的距离,称为中间距离法 (m
10、edian method)。,中间距离法,设某一步将 和 合并为 ,对于任一 类 ,考虑由 为边长组成的 三角形(如图6.2.4所示),取 边的中线 作为 ,由初等平面几何可知, 的计算 公式为,中间距离法可推广为更一般的情形,将 (6.2.5)式三项的系数依赖于某个参数 ,即 这里 ,这种方法称为可变法。,其中 和 分别为类 和 的样品个数, 为 中的样品 与 中的样品 之间的距离。,类平均法,类平均法(gverage linkage method)有两种 定义,一种定义方法是类与类之间距离定义 为所有样品对之间的平均距离,即定义 和 之间的距离为,递推公式为:,另一种定义方法是定义类与类之
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 以及 有关 系数
限制150内