多元统计分析 第5章 聚类分析教学文案.ppt
《多元统计分析 第5章 聚类分析教学文案.ppt》由会员分享,可在线阅读,更多相关《多元统计分析 第5章 聚类分析教学文案.ppt(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元多元统计分析分析 第第5 5章章 聚聚类分析分析相似性和相异性相似性和相异性nSimilarity数值测量两个数据对象类似程度数值测量两个数据对象类似程度目标越相似时值越大目标越相似时值越大通常介于通常介于 0,1nDissimilarity(e.g.,距离距离distance)数值测量两个数据对象差异程度数值测量两个数据对象差异程度Lower when objects are more alikeMinimum dissimilarity is often 0Upper limit variesn邻近度邻近度Proximity refers to a similarity or diss
2、imilarity数据矩阵和相异度矩阵数据矩阵和相异度矩阵nData matrixn data points with p dimensionsnDissimilarity matrixn data points,but registers only the distance A triangular matrix例例:数据矩阵和相异度矩阵数据矩阵和相异度矩阵Dissimilarity Matrix(with Euclidean Distance)Data Matrix第二节第二节 相似性的量度相似性的量度 一一 样品相似性的度量样品相似性的度量 二二 变量相似性的度量变量相似性的度量 含含名
3、义名义变量变量样本相似性度量样本相似性度量n例例:学学员资员资料料包含包含六个六个属性属性:性:性别别(男男或或女女);外;外语语语语种种(英、日英、日或或俄俄);专业专业(统计统计、会、会计计或或金融金融);职业职业(教教师师或或非教非教师师);居住;居住处处(校内校内或或校外校外);学;学历历(本科本科或或本科以本科以下下)现现有两名学有两名学员员:X1=(男,英,(男,英,统计统计,非教,非教师师,校外,本科),校外,本科)X2=(女,英,金融,教(女,英,金融,教师师,校外,本科以下),校外,本科以下)对应变对应变量取量取值值相同相同称称为为配合的配合的,否否则则称称为为不配合的不配合
4、的记记配合的配合的变变量数量数为为m1,不配合的,不配合的变变量数量数为为m2,则则样样本本之之间间的的距离可定距离可定义为义为本例中本例中X1 与与X2 之之间间的距离的距离为为2/3二进制属性的邻近度量二进制属性的邻近度量n二进制数据的列联表二进制数据的列联表contingency table n对称二元变量的距离侧度对称二元变量的距离侧度:n不对称二元变量的距离侧度不对称二元变量的距离侧度:nJaccard系数系数(不对称二元变量不对称二元变量的相似性侧度的相似性侧度):nNote:Jaccard coefficient is the same as“coherence”:Object
5、iObject j二进制属性的相异度量二进制属性的相异度量nExample性别是对称属性性别是对称属性The remaining attributes are asymmetric binary令令Y and P 值为值为1,且且N值为值为0有序变量有序变量Ordinal Variablesn一个序变量可以离散的或连续的一个序变量可以离散的或连续的nOrder is important,e.g.,ranknCan be treated like interval-scaled 用他们的序代替用他们的序代替xif映射每一个变量的范围于映射每一个变量的范围于0,1,用如下值代替第,用如下值代替第f
6、-th变量变量的的i-th对象对象混合型属性混合型属性 nA database may contain all attribute typesNominal,symmetric binary,asymmetric binary,numeric,ordinaln可以用加权法计算合并的影响可以用加权法计算合并的影响f is binary or nominal:dij(f)=0 if xif=xjf,or dij(f)=1 otherwisef is numeric:use the normalized distancef is ordinal Compute ranks rif and Treat
7、 zif as interval-scaled规范数值数据规范数值数据nZ-score:X:需标准化的原始数值需标准化的原始数值,:总体均值总体均值,:标准差标准差在标准偏差单位下,原始分数和总体均值之间的距离在标准偏差单位下,原始分数和总体均值之间的距离“-”,“+”n另一种方法另一种方法:Calculate the mean absolute deviation其中其中standardized measure(z-score):n使用平均绝对偏差比使用标准差更稳健使用平均绝对偏差比使用标准差更稳健一、样品相似性的度量一、样品相似性的度量nQ型聚类分析,常用距离来测度样品之间的相似程型聚类分
8、析,常用距离来测度样品之间的相似程度度n每个样品有每个样品有p个指标(变量)从不同方面描述其性质,个指标(变量)从不同方面描述其性质,形成一个形成一个p维的向量。如果把维的向量。如果把n个样品看成个样品看成p维空间维空间中的中的n个点,则两个样品间相似程度就可用个点,则两个样品间相似程度就可用p维空间维空间中的两点距离公式来度量。中的两点距离公式来度量。n令令dij 表示样品表示样品Xi与与Xj的距离,一般应满足:的距离,一般应满足:(i)dij0,对对一切一切i,j;(ii)dij=0,当且,当且仅仅当第当第i个个样样品与第品与第j个个样样品的各品的各变变量量值值相同;相同;(iii)dij
9、=dji,对对一切一切i,j;(iv)dijdik+dkj,对对一切一切i,j,k。1明考夫斯基距离明考夫斯基距离(明氏距离明氏距离)一、样品相似性的度量一、样品相似性的度量Example:Minkowski DistanceDissimilarity MatricesManhattan(L1)Euclidean(L2)Supremum 2马氏距离马氏距离 设设Xi与与Xj是来自均值向量为是来自均值向量为 ,协方差为,协方差为(0)的总体的总体G中的中的p维样品,则两个样品间的马氏距离为维样品,则两个样品间的马氏距离为 n马氏距离又称为广义欧氏距离马氏距离又称为广义欧氏距离马氏距离考虑了观测变
10、量之间的相关性马氏距离考虑了观测变量之间的相关性若各变量之间相互独立,马氏距离退化加权欧氏距离若各变量之间相互独立,马氏距离退化加权欧氏距离马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响的影响一、样品相似性的度量一、样品相似性的度量3兰氏距离兰氏距离 它仅适用于一切它仅适用于一切Xij0的情况的情况可以克服各个指标之间量纲的影响;可以克服各个指标之间量纲的影响;对大的奇异值不敏感,特别适合于高度偏倚的数对大的奇异值不敏感,特别适合于高度偏倚的数据;据;但它没有考虑指标之间的相关性;但它没有考虑指标之间的相关性;一、样品相似性的
11、度量一、样品相似性的度量n不同的距离公式的侧重点和实际意义都有所不同不同的距离公式的侧重点和实际意义都有所不同n同一批数据采用不同的距离公式,可能会得到不同的分类结果同一批数据采用不同的距离公式,可能会得到不同的分类结果n距离公式选择基本原则:距离公式选择基本原则:要考虑所选择的距离公式在实际应用中有明确的意义要考虑所选择的距离公式在实际应用中有明确的意义欧氏距离就有非常明确的空间距离概念欧氏距离就有非常明确的空间距离概念马氏距离有消除量纲影响的作用马氏距离有消除量纲影响的作用要综合考虑对样本观测数据的预处理和将要采用的聚类分要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法析方法如在进
12、行聚类分析之前已经对变量作了标准化处理,则通常可采用欧氏距如在进行聚类分析之前已经对变量作了标准化处理,则通常可采用欧氏距离离要考虑研究对象的特点和计算量的大小要考虑研究对象的特点和计算量的大小n归根到底:归根到底:Application Driven:根据研究对象的特点不同做出根据研究对象的特点不同做出具体分折具体分折Try一、样品相似性的度量一、样品相似性的度量二、变量相似性的度量二、变量相似性的度量n相对于数据的大小,更多地对变量的变化趋势或方相对于数据的大小,更多地对变量的变化趋势或方向感兴趣向感兴趣n变量间的相似性变量间的相似性-方向趋同性或方向趋同性或“相关性相关性”“夹角余弦法夹
13、角余弦法”“相关系数相关系数”余弦相似性余弦相似性 Cosine SimilaritynA document can be represented by thousands of attributes,each recording the frequency of a particular word(such as keywords)or phrase in the document.nOther vector objects:gene features in micro-arrays,nApplications:information retrieval,biologic taxonomy,
14、gene feature mapping,.nCosine measure:If d1 and d2 are two vectors(e.g.,term-frequency vectors),then cos(d1,d2)=(d1 d2)/|d1|d2|,where indicates vector dot product,|d|:the length of vector d Example:Cosine Similarityncos(d1,d2)=(d1 d2)/|d1|d2|,where indicates vector dot product,|d|:the length of vect
15、or dnEx:Find the similarity between documents 1 and 2.d1=(5,0,3,0,2,0,0,2,0,0)d2=(3,0,2,0,1,1,0,1,0,1)d1 d2=5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1=25|d1|=(5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 =6.481|d2|=(3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5 =4.12cos(d1,d2)=0.942相关系数相关系
16、数变量变量Xi与与Xj的相关系数定义为的相关系数定义为 显然有,显然有,rij 1。二、变量相似性的度量二、变量相似性的度量n它们的绝对值都小于它们的绝对值都小于1,统记为,统记为cij当当 cij=1时,说明变量时,说明变量Xi与与Xj完全相似;完全相似;当当 cij 近似于近似于1时,说明变量时,说明变量Xi与与Xj非常密切;非常密切;当当 cij =0时,说明变量时,说明变量Xi与与Xj完全不一样;完全不一样;当当 cij 近似于近似于0时,说明变量时,说明变量Xi与与Xj差别很大。差别很大。n变换为距离度量:变换为距离度量:dij=1 cij 或或 dij2=1 cij2 二、变量相似
17、性的度量二、变量相似性的度量距离度量与相似性度量距离度量与相似性度量n由距离来构造相似系数由距离来构造相似系数总总是可能的:是可能的:n由相似系数构造距离并不由相似系数构造距离并不总总是可行的是可行的nGower证证明,当相似系数矩明,当相似系数矩阵阵(cij)为为非非负负定定时时:则则dij满满足距离定足距离定义义的四个条件的四个条件第三节第三节 系统聚类分析法系统聚类分析法 一一 系统聚类的基本思想系统聚类的基本思想 二二 类间距离与系统聚类法类间距离与系统聚类法 三三 类间距离的统一性类间距离的统一性 一、系统聚类的基本思想一、系统聚类的基本思想n距离相近的样品(或变量)先聚成类,距离相
18、远的距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中总能聚到合适的类中n系统聚类过程:(假设总共有系统聚类过程:(假设总共有n个样品(或变量)个样品(或变量)1.将每个样品(或变量)独自聚成一类,共有将每个样品(或变量)独自聚成一类,共有n类;类;2.根据所确定的样品(或变量)的根据所确定的样品(或变量)的“距离距离”公式,把距离公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成(或变量)仍各自聚为一类,
19、共聚成n 1类;类;3.将将“距离距离”最近的两个类进一步聚成一类,共聚成最近的两个类进一步聚成一类,共聚成n 2类;类;4.循环之循环之5.将所有的样品(或变量)全聚成一类将所有的样品(或变量)全聚成一类n谱系图谱系图描绘聚类过程描绘聚类过程二、类间距离与系统聚类法二、类间距离与系统聚类法n类间距离类间距离-类与类之间的距离类与类之间的距离n定义不同,方法不同,结果不同定义不同,方法不同,结果不同最短距离法最短距离法(Single linkage)最长距离法最长距离法(Complete method)中间距离法中间距离法(Median method)重心法重心法(Centriod metho
20、d)类平均法类平均法(Avarage linkage)可变类平均法可变类平均法(Flexible-beta method)可变法可变法(McQuitty,MCQ)离差平方和法离差平方和法(Ward)ndij表示样品表示样品Xi与与Xj之间距离,用之间距离,用Dij表示类表示类Gi与与Gj之间的距离。之间的距离。1.最短距离法最短距离法定义类间距离为两类最近样品的距离,即为定义类间距离为两类最近样品的距离,即为 合并成一个新类后,则任一类与之的距离为合并成一个新类后,则任一类与之的距离为 二、类间距离与系统聚类法二、类间距离与系统聚类法n最短距离法步骤如下:最短距离法步骤如下:(1)根据选用的距
21、离计算样品的两两距离,得一距离阵)根据选用的距离计算样品的两两距离,得一距离阵记为记为D(0),开始每个样品自成一类,显然这时,开始每个样品自成一类,显然这时Dij=dij(2)找出距离最小元素,设为)找出距离最小元素,设为Dpq,则将,则将Gp和和Gq合并成一合并成一个新类,记为个新类,记为Gr,即,即Gr=Gp,Gq(3)计算新类与其它类的距离)计算新类与其它类的距离 (4)重复()重复(2)、()、(3)两步,直到所有元素。并成一类)两步,直到所有元素。并成一类为止为止如果某一步距离最小的元素不止一个,则对应这些最小元如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并素
22、的类可以同时合并二、类间距离与系统聚类法二、类间距离与系统聚类法n例:设有六个样品,每个只测量一个指标,分别是例:设有六个样品,每个只测量一个指标,分别是1,2,5,7,9,10,试用最短距离法将它们分类。,试用最短距离法将它们分类。(1)样品采用绝对值距离,计算样品间的距离阵)样品采用绝对值距离,计算样品间的距离阵D(0)二、类间距离与系统聚类法二、类间距离与系统聚类法(2)D(0)中最小的元素是中最小的元素是D12D561,于是将,于是将G1和和G2合合并成并成G7,G5和和G6合并成合并成G8,计算新类与其它类的距离,计算新类与其它类的距离D(1)二、类间距离与系统聚类法二、类间距离与系
23、统聚类法(3)在)在D(1)中最小值是中最小值是D34D482,由于,由于G4与与G3合并,合并,又与又与G8合并,因此合并,因此G3、G4、G8合并成一个新类合并成一个新类G9,其与其,其与其它类的距离它类的距离D(2)二、类间距离与系统聚类法二、类间距离与系统聚类法(4)最后将)最后将G7和和G9合并成合并成G10,这时所有的六个样品聚为一,这时所有的六个样品聚为一类,其过程终止。类,其过程终止。n谱系图表示谱系图表示横坐标的刻度表示并类的距离横坐标的刻度表示并类的距离二、类间距离与系统聚类法二、类间距离与系统聚类法二、类间距离与系统聚类法二、类间距离与系统聚类法n再找再找距离最小两类距离
24、最小两类并类,直至所有的样品全归为一类为止并类,直至所有的样品全归为一类为止n最长距离法与最短距离法只有两点不同:最长距离法与最短距离法只有两点不同:一是类与类之间的距离定义不同;一是类与类之间的距离定义不同;一是计算新类与其它类的距离所用的公式不同一是计算新类与其它类的距离所用的公式不同二、类间距离与系统聚类法二、类间距离与系统聚类法3.中间距离法(折中)中间距离法(折中)中间距离将类中间距离将类Gp与与Gq类合并为类类合并为类Gr,则任意的类,则任意的类Gk和和Gr的距的距离公式为离公式为 (14 0)n设设DkqDkp最短距离法,则最短距离法,则Dkr=Dkp;最长距离法,则最长距离法,
25、则Dkr=Dkq。中间距离法:取它们的中间中间距离法:取它们的中间某某一点一点二、类间距离与系统聚类法二、类间距离与系统聚类法n特别当特别当 =14,它表示取,它表示取中间点中间点算距离,公式为算距离,公式为 二、类间距离与系统聚类法二、类间距离与系统聚类法二、类间距离与系统聚类法二、类间距离与系统聚类法4.重心法重心法类间距离为两类重心(各类样品的均值)的距离类间距离为两类重心(各类样品的均值)的距离重心指标对类有很好的代表性,但利用各样本的信息不充分重心指标对类有很好的代表性,但利用各样本的信息不充分n n推导如下:推导如下:二、类间距离与系统聚类法二、类间距离与系统聚类法二、类间距离与系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析 第5章 聚类分析教学文案 多元 统计分析 聚类分析 教学 文案
限制150内