模式识别7.pdf
《模式识别7.pdf》由会员分享,可在线阅读,更多相关《模式识别7.pdf(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第七章 聚类分析第七章 聚类分析分类与聚类的区别分类与聚类的区别分类分类:用已知类别的样本训练集来设计分类器(监督学习)聚类(集群)聚类(集群):事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习)27.1 聚类的基本概念7.2 模式相似性测度7.3 类的定义与类间距离7.4 聚类的算法?简单聚类?分解(分级)聚类法?层次(系统)聚类?动态聚类337.1 聚类的基本概念7.1 聚类的基本概念似圆度似圆度7.1.1 聚类分析的基本思想7.1.1 聚类分析的基本思想据据相似程度相似程度分类分类无监督分类无监督分类(Unsupervised)1x2x4 47.1.2 聚类准则对聚类结
2、果的影响7.1.2 聚类准则对聚类结果的影响羊,狗,猫,鲨鱼羊,狗,猫,鲨鱼蜥蜴,蛇,麻雀,海鸥,金鱼,青蛙蜥蜴,蛇,麻雀,海鸥,金鱼,青蛙(a)繁衍后代的方式(a)繁衍后代的方式金鱼,鲨鱼金鱼,鲨鱼羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙(b)肺的存在(b)肺的存在金鱼,鲨鱼金鱼,鲨鱼羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙青蛙(c)生存环境(c)生存环境金鱼金鱼蜥蜴,蛇,麻雀,海鸥,青蛙蜥蜴,蛇,麻雀,海鸥,青蛙(d)繁衍后代的方式和是否存在肺(d)繁衍后代的方式和是否存在肺鲨鱼羊,狗,猫,鲨鱼羊,狗,猫,7.1 聚类的基
3、本概念7.1 聚类的基本概念57.1.3 距离测度对聚类结果的影响7.1.3 距离测度对聚类结果的影响2.1 聚类的基本概念2.1 聚类的基本概念5数据的粗聚类是两类,细聚类为4类数据的粗聚类是两类,细聚类为4类6 67.2 模式相似性测度7.2 模式相似性测度7.2.1 距 离 测 度7.2.1 距 离 测 度7.2.2 相 似 测 度7.2.3 匹 配 测 度7.2.2 相 似 测 度7.2.3 匹 配 测 度777.2.1 距离测度(差值测度)7.2.1 距离测度(差值测度)Distance(or Dissimilarity)Measure设特征矢量和的距离为则一般应满足如下公理设特征矢
4、量和的距离为则一般应满足如下公理xr(,)0,(,)=0d x yxyd x yxy=r rrrr rrr当且仅当时等号成立,即yr(,)d x yr r(,)d x yr r(,)=(,)d x yd y xr rr r(,)(,)(,)d x yd x zd z y+r rrrrr(1)(2)(3)(triangular inequality)8距离测度(差值测度)欧氏距离测度(差值测度)欧氏(Euclidean)距离距离1212(,)(,)TTnnxx xxyy yy=rrLL设,2 1/21(,)()niiid x yxyxy=r rrr 绝对值距离(街坊距离或 绝对值距离(街坊距离或
5、Manhattan距离)距离)1(,)|niiid x yxy=r r(3)切氏(3)切氏(Chebyshev)距离)距离(,)max|iiid x yxy=r r9距离测度(差值测度)(4)明氏距离测度(差值测度)(4)明氏(Minkowski)距离距离1/1(,)()nmmiiid x yxy=r r(5)(5)Cambera距离距离(Lance距离、距离、Willims距离距离)1|(,)(,0,0)|niiiiiiiiixyd x yx yxyxy=+r r该距离能克服量纲的影响,但不能克服分量间的相关性。该距离能克服量纲的影响,但不能克服分量间的相关性。10距离测度(差值测度)(6)
6、马氏(距离测度(差值测度)(6)马氏(Mahalanobis)距离)距离21(,)()()Tijijijdx xxxVxx=r rrrrr11()()1mTiiiVxxxxm=rrrr11miixxm=rr其中其中(协方差矩阵的无偏估计)(协方差矩阵的无偏估计)(均值向量的估计均值向量的估计)性 质:性 质:对 一 切 非 奇 异 线 性 变 换 都 是 不 变 的。即,具 有 坐 标 系对 一 切 非 奇 异 线 性 变 换 都 是 不 变 的。即,具 有 坐 标 系 比 例、旋 转、平 移 不 变 性,并且从统计意义上尽量去掉了分量间的相关性比 例、旋 转、平 移 不 变 性,并且从统计意
7、义上尽量去掉了分量间的相关性。11马氏距离具有线性变换不变性马氏距离具有线性变换不变性证明:证明:设,有非奇异线性变换:则设,有非奇异线性变换:则yAx=rr111111mmmiiiiiiyyAxAxAxmmm=rrrrr11111()()11 ()()11 ()()11 ()()1mTyiiimTiiimTTiiimTTTiixiVyyyymAxAxAxAxmA xxxxAmAxxxxAAV Am=rrrrrrrrrrrrrrrr12故故2211111111()()()()()()()()()()()(,)(,)TijyijTijyijTTijyijTTTijxijTTTijxijTijxi
8、jyijxijyyVyyAxAxVAxAxxxA VA xxxxAAV AA xxxxA AVA A xxxdy ydxVx xxx=rrrrrrrrrrrrrrrrrrrrrrrr rrr r111()ABB A=Q13马氏距离的一般定义马氏距离的一般定义设、是从期望矢量为、设、是从期望矢量为、协方差矩阵协方差矩阵为的母体G中抽取的两个样本,则它们间的马氏距离定义为当和是分别来自两个数据集中的样本时,设C是它们的为的母体G中抽取的两个样本,则它们间的马氏距离定义为当和是分别来自两个数据集中的样本时,设C是它们的互协方差阵互协方差阵,则它们间的马氏距离定义为,则它们间的马氏距离定义为21(,)
9、()()Tdx yxyxy=r rrrrrxryrrxryr21(,)()()Tdx yxyCxy=r rrrrr?当、V、C为单位矩阵时,马氏距离欧氏距离。当、V、C为单位矩阵时,马氏距离欧氏距离。?对于正态分布,等概率密度点轨迹是到均值矢量的马氏距离为常数的点所构成的超椭球面。对于正态分布,等概率密度点轨迹是到均值矢量的马氏距离为常数的点所构成的超椭球面。147.2.2 相 似 测 度7.2.2 相 似 测 度 重点考虑重点考虑两矢量的方向两矢量的方向是否相近,而忽略矢量长度。是否相近,而忽略矢量长度。(1)角度相似系数(1)角度相似系数(夹角余弦)矢量之间的相似性可用它们的夹角余弦来度量
10、(夹角余弦)矢量之间的相似性可用它们的夹角余弦来度量1/2cos(,)()()TTTTx yx yx yxyx xy y=r rr rr rrrr rr r1/2()()(,)()()()()TTTxxyyr x yxxxxyyyy=rrrrr rrrrrrrrr(2)相关系数(2)相关系数数据中心化后的矢量夹角余弦数据中心化后的矢量夹角余弦性质:性质:相关系数具有坐标系相关系数具有坐标系平移、旋转、比例不变性。平移、旋转、比例不变性。1515221()13(,)exp4niiiixye x yn=r r性质:不受量纲变化的影响。性质:不受量纲变化的影响。(3)指数相关系数(3)指数相关系数这
11、里假设和的维数这里假设和的维数 n 相同、概率分布相同。是第相同、概率分布相同。是第 i 个分量的方差。个分量的方差。xryr2i167.2.3 匹 配 测 度7.2.3 匹 配 测 度若特征只有两个状态:若特征只有两个状态:0=有此特征;有此特征;1=无此特征。称之为二值特征。对于给定的二值特征矢量无此特征。称之为二值特征。对于给定的二值特征矢量x和和y中的某两个相对应的分量中的某两个相对应的分量xi与与yj若若xi=1,yj=1,则称,则称xi与与yj(1-1)匹配;若匹配;若xi=1,yj=0,则称,则称(1-0)匹配;若匹配;若xi=0,yj=1,则称,则称(0-1)匹配;若匹配;若x
12、i=0,yj=0,则称,则称(0-0)匹配。对于二值匹配。对于二值n维特征矢量可定义如下相似性测度:维特征矢量可定义如下相似性测度:17匹 配 测 度匹 配 测 度(1)(1)Tanimoto测度测度(1-1)匹配的特征数目(0-1)匹配的特征数目(1-0)匹配的特征数目(0-0)匹配的特征数目(1-1)匹配的特征数目(0-1)匹配的特征数目(1-0)匹配的特征数目(0-0)匹配的特征数目(1)(1)(1)(1)iiiiiiiiiiiiax ybyxcxyexy=令令(,)TTTTax ys x yabcx xy yx y=+r rr rr rr rr r注意,这里只考虑(1-1)匹配,而不考
13、虑(0-0)匹配。注意,这里只考虑(1-1)匹配,而不考虑(0-0)匹配。18匹 配 测 度匹 配 测 度(2)(2)Rao测度(3)简单匹配系数(4)测度(3)简单匹配系数(4)Dice系数(5)系数(5)Kulzinsky系数系数(,)Tax ys x yabcen=+r rr r(,)aem x yn+=r r(1-1)匹配特征数目与特征总数之比)匹配特征数目与特征总数之比22(,)2TTTax ym x yabcx xy y=+r rr rr rr r(,)2TTTTax ym x ybcx xy yx y=+r rr rr rr rr r(1-1)匹配)匹配+(0-0)匹配)匹配/特
14、征总数只对(特征总数只对(1-1)匹配加权()匹配加权(1-1)匹配)匹配/(1-0)匹配)匹配+(0-1)匹配)匹配1919例 1设(1)设(1)Tanimoto测度(2)测度(2)Rao测度(3)简单匹配测度(4)测度(3)简单匹配测度(4)Dice系数(5)系数(5)Kulzinsky系数系数(,1,0,1,0)(,0,1,0001,1)1TTxy=rr3,3,1TTTx xy yx y=r rr rr r1(,)6Tx ys x yn=r rr r1 11(,)63aem x yn+=r r221(,)333TTTx ym x yx xy y=+r rr rr rr r1(,)24TT
15、TTx ym x yx xy yx y=+r rr rr rr rr r则11(,)33 15TTTTx ys x yx xy yx y=+r rr rr rr rr r207.3 类的定义与类间距离7.3 类的定义与类间距离7.3.1 类的定义7.3.1 类的定义类的划分具有人为规定性,这反映在类的定义选取及参数选择上。分类结果的优劣最后只能根据实际来评价。定义 设集合S中任意元素xi与xj间的距离dij有dijh其中h为给定的阈值,称S对于阈值h组成一类。217.3.2 类间距离测度方法7.3.2 类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法2
16、222(一)最近距离(一)最近距离两个聚类k和l之间的最近距离定义为式中,dij表示 xi k与xjl间的距离。如果l由p和q两类合并而成,则有递推公式,minkliji jDd=min,=klkpkqDDDkpq23(二)最远距离(二)最远距离递推公式,maxkliji jDd=max,=klkpkqDDDkpq24(三)中间距离(三)中间距离递推公式递推公式2222111224klkpkqpqDDDD=+pqkpqkpqDkqDklDkpDl25(四)重心距离(四)重心距离递推公式式中,和分别是递推公式式中,和分别是 i和和 j的重心,的重心,i,j=k,l,p,q。22222()klkp
17、kqpqpqpqpqpqpqnnn nDDDDnnnnnn=+2()()TijijijDxxxx=rrrrixrjxr26(五)平均距离(五)平均距离两类p和q间的距离平方定义为这两类元素两两之间的平均平方距离,即设l=pq,类平均距离的递推公式为22,1=rrpqipjpijxxpqDdn n222=+klkpkqpqpqpqnnDDDnnnn272727(六)离差平方和法(六)离差平方和法设类t 的重心是,t 的类内离差平方和定义为设设 l=p q,则,则sl要变大。把两类合并所增加的离差平方和定义为两类平方距离,即,可以证明要变大。把两类合并所增加的离差平方和定义为两类平方距离,即,可以
18、证明 k与与 l=p q的离差平方和的递推公式的离差平方和的递推公式2222+=+klkpkqpqkpkqkklklklnnnnnDDDDnnnnnnrtx()()itTtititxsxxxx=rrrrr2=pqlpqDsss2()()pqTpqpqpqpqn nDxxxxnn=+rrrr28222222kqkppqkqqkppklDDDDDD+=0离差平方和法离差平方和法0可变法可变法0可变平均法可变平均法00平均距离法平均距离法0重心距离法重心距离法0-1/41/21/2中间距离法中间距离法1/201/21/2最远距离法最远距离法-1/201/21/2最近距离法最近距离法pqqppnnn+
19、qpqnnn+qpqppnnn+qpqnnn+qppnnn+)1(qpqnnn+)1(1121222xzrr=Td2121xr3774 聚类的算法4 聚类的算法-简单聚类方法简单聚类方法 假设已有聚类中心,计算尚未确定类别的模式特征矢量到各聚类中心的距离。如果,则作为新的一类的中心,;否则,如果,则指判。检查是否所有的模式都分划完类别,如果都分划完了则结束;否则返到。假设已有聚类中心,计算尚未确定类别的模式特征矢量到各聚类中心的距离。如果,则作为新的一类的中心,;否则,如果,则指判。检查是否所有的模式都分划完类别,如果都分划完了则结束;否则返到。kzzzrLrr,21ixr),2,1(kjzj
20、Lr=ijdTdij),2,1(kjL=ixr1k+ikxzrr=+1minilijjdd=ilxr387 74 聚类的算法4 聚类的算法-简单聚类方法简单聚类方法?这类算法的突出优点是这类算法的突出优点是算法简单算法简单。但聚类过程中,。但聚类过程中,类的中心一旦确定将不会改变类的中心一旦确定将不会改变,模式一旦指定类后也不再改变模式一旦指定类后也不再改变。?从算法的过程可以看出,该算法结果很大程度上依赖于从算法的过程可以看出,该算法结果很大程度上依赖于距离门限T的选取及模式参与分类的次序距离门限T的选取及模式参与分类的次序。如果能有先验知识指导门限T的选取,通常可获得较合理的效果。也可考虑
21、设置不同的T和选择不同的次序,最后选择较好的结果进行比较。如果能有先验知识指导门限T的选取,通常可获得较合理的效果。也可考虑设置不同的T和选择不同的次序,最后选择较好的结果进行比较。算法特点:算法特点:39X 轴Y 轴Z1T=21234591076811简单聚类图例简单聚类图例7 74 聚类的算法4 聚类的算法-简单聚类方法简单聚类方法40Y 轴X 轴Y 轴例7.4.1:初始条件不同的简单聚类结果例7.4.1:初始条件不同的简单聚类结果初始中心不同初始中心不同样本顺序不同样本顺序不同1 2 3 4 51 2 3 4 51 2 3 4 51 2 3 4 510 9 8 10 9 8 8 7 6
22、8 7 6 11 6 711 6 79 10 119 10 114174 聚类的算法聚类的算法-分解聚类 P244 分解聚类:把全部样本作为一类,然后根据相似性、相邻性分解把全部样本作为一类,然后根据相似性、相邻性分解。目标函数:两类均值方差121212()()TN NENXXXX=N:总样本数,为1类样本数为2类样本数,12,:XX两类均值1N2N42分解聚类框图:初始分类调整分类方案最终结果目标函数达到最优先?NY43用下例说明分解聚类算法例:已知21个样本,每个样本取二个特征,原始资料矩阵如下表:0121343556xi27665442200 xi110987654321样本号-5-3-
23、1-2-1120223-3-1-1001-5-3-3-2-4212019181716151413121144目标函数121212()()0TN NEXXXXN=(0)10.714()1.333X=2(0)0()0X=0,21)0(2)0(1=NN解:第一次分类时计算所有样本,分别划到(即划分为另一类)时的最大E值。1、开始时G2),.,(2121)0(1xxxG=空=G)0(2452、分别计算当依次划入G2时的E值把划入G2时有2121,.,xxx1x(0)(1)(0)11(0)111(1)22210.7 1 40()()0.7 1 40.7 51.3 3 36()(),1.3 3 31.1
24、0(2 11)0()62 010.7 5(1.1 06)2 3.4 02 1xNEXXXX=+=+=+=仅有x1一个样本46然后再把依次划入,计算对应的E值,找出一个最大的E值。通过计算知 把划为的E值最大。2132,.,xxxG2G2x21),.,(2021)1(1xxxG=)(21)1(2xG=10.9(),1.65X=(1)(1)2123(),20,15XNN=E(1)=56.6再继续进行第二、第三次迭代计算出 E(2),E(3),47次数E值1 56.62 79.163 90.904 102.615 120.116 137.157 154.108 176.159 195.2610 21
25、3.0711 212.01G2G1x21x20 x18x14x15x19x11x13x12x17x1648第10次迭代划入时,E最大。于是分成以下两类:G2x17),.,(1610211xxxxG=),(212019181715,141312112xxxxxxxxxxG=每次分类后要重新计算的值。可用以下递推公式:12,XX)1/()()1/()()(2)(2)(2)1(2)(1)(1)(1)1(1+=+=+kikkkkikkkNxxxxNxxxx为二类样品数(k)2N,(k)1N时的两类均值(k)2划到G(k)1从G 把分时1是k1)(k2x,1)(k1x时二类的均值是k(k)2x,(k)1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别
限制150内