模式识别聚类分析精选文档.ppt
《模式识别聚类分析精选文档.ppt》由会员分享,可在线阅读,更多相关《模式识别聚类分析精选文档.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别聚类分析本讲稿第一页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)2目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚类算法聚类算法总结和作业总结和作业本讲稿第二页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)3目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚类算法聚类算法总结和作业总结和作业本讲稿第三页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)4复习复习模式识别的基本过程模式识别的基本过程l l
2、为什么要进行特征提取?为什么要进行特征提取?l l什么是特征?什么是特征?l l如何抽取和表示特征?如何抽取和表示特征?l l识别和训练(两种训练方式)识别和训练(两种训练方式)l l识别系统的性能评价识别系统的性能评价特征矢量的特点:随机性(为什么?)特征矢量的特点:随机性(为什么?)l l随机矢量的数字特征:有哪些?随机矢量的数字特征:有哪些?l l什么是正态分布(高斯分布)?写出一维和二维情况下的具体表达式什么是正态分布(高斯分布)?写出一维和二维情况下的具体表达式和每个符号的具体含义。和每个符号的具体含义。本讲稿第四页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)
3、5复习复习根据模式识别的基本过程,讨论如何区分正常的楼房根据模式识别的基本过程,讨论如何区分正常的楼房维修和爬楼盗窃?维修和爬楼盗窃?l lKey:Key:维修:一般白天;安全工具;工作服;长时停留;有灯光等维修:一般白天;安全工具;工作服;长时停留;有灯光等盗窃:一般夜间;主要徒手;夜行衣;不逗留;无灯光等盗窃:一般夜间;主要徒手;夜行衣;不逗留;无灯光等当然前提是能够检测到移动目标和判定大小当然前提是能够检测到移动目标和判定大小如何区分这两种水果(自动分拣机):梨和桃子?如何区分这两种水果(自动分拣机):梨和桃子?l lKey:Key:梨:青或黄;无沟;粗糙多斑点;尾桔蒂等梨:青或黄;无沟
4、;粗糙多斑点;尾桔蒂等桃:红或青;有沟;光滑少斑点;尾多尖等桃:红或青;有沟;光滑少斑点;尾多尖等本讲稿第五页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)6目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚类算法聚类算法总结和作业总结和作业本讲稿第六页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)7说明说明特征的选取特征的选取l l特征选取要合适特征选取要合适l l特征选取不足有可能将不同类别判为一类特征选取不足有可能将不同类别判为一类l l特征过多可能有害无益特征过多可能有害无益假设根据
5、已有特征已经能够正确分类假设根据已有特征已经能够正确分类新增加的特征与原有特征的关系:新增加的特征与原有特征的关系:独立、不相关或者相关独立、不相关或者相关若独立或者不相关,则分类结果不变,但是增加负担;若独立或者不相关,则分类结果不变,但是增加负担;若相关,增加冗余;则重要特征占若相关,增加冗余;则重要特征占“比重比重”减少;导致误判增加减少;导致误判增加和负担增加和负担增加l l量纲要合适量纲要合适本讲稿第七页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)8目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚类
6、算法聚类算法总结和作业总结和作业本讲稿第八页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)9模式相似性测度模式相似性测度为了能够划分模式的类别,必须首先定义相似性测度,为了能够划分模式的类别,必须首先定义相似性测度,描述各个模式之间特征的相似程度。描述各个模式之间特征的相似程度。距离测度距离测度距离测度距离测度l l描述两个矢量描述两个矢量x x和和y y之间的距离之间的距离d d(x x,y y)应该满足如下公理:应该满足如下公理:d d(x x,y y)0 0,d d(x x,y y)=0 iff=0 iff x x=y y;d d(x x,y y)=)=d d(y
7、y,x x););d d(x x,y y)d d(x x,z z)+)+d d(z z,y y););l l需要说明,某些距离测度不满足公理需要说明,某些距离测度不满足公理3 3,只是在广义上称为,只是在广义上称为距离。距离。本讲稿第九页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)10模式相似性测度模式相似性测度距离测度距离测度距离测度距离测度设设x x=(=(x x1 1,x x2 2,x xn n)T T,y y=(=(y y1 1,y y2 2,y yn n)T Tl l欧式距离(欧式距离(欧式距离(欧式距离(EuclideanEuclidean)d(d(x x,
8、y y)=|)=|x x-y y|=|=i i=1=1 n n(x xi i-y yi i)2 2 1/21/2l l绝对值距离(绝对值距离(绝对值距离(绝对值距离(ManhattanManhattan距离)距离)距离)距离)d(d(x x,y y)=)=i i=1=1 n n|x xi i-y yi i|l l切氏距离(切氏距离(切氏距离(切氏距离(ChebyahevChebyahev)d(d(x x,y y)=max)=maxi i|x xi i-y yi i|l l闵科夫斯基距离(闵科夫斯基距离(闵科夫斯基距离(闵科夫斯基距离(MinkowskiMinkowski)d(d(x x,y y
9、)=)=i i=1=1 n n(x xi i-y yi i)mm 1/m1/m m=2,1,m=2,1,时分别是欧式距离、绝对值距离和切氏距离。时分别是欧式距离、绝对值距离和切氏距离。本讲稿第十页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)11模式相似性测度模式相似性测度距离测度距离测度距离测度距离测度l l马氏距离(马氏距离(马氏距离(马氏距离(MahalanohisMahalanohis)设设n n维矢量维矢量x xi i和和x xj j是矢量集是矢量集 x x1 1,x x2 2,x xn n 中的两个矢量,其马氏距离中的两个矢量,其马氏距离d d是:是:d d2
10、 2(x xi i,x xj j)=()=(x xi i-x xj j)T T V V-1-1(x xi i-x xj j)本讲稿第十一页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)12模式相似性测度模式相似性测度距离测度距离测度距离测度距离测度l lCamberraCamberra距离(距离(距离(距离(LanceLance距离、距离、距离、距离、WillimsWillims距离)距离)距离)距离)能克服量纲引起的问题,但无法克服分量间的相关性。能克服量纲引起的问题,但无法克服分量间的相关性。本讲稿第十二页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所
11、(R)13模式相似性测度模式相似性测度相似测度相似测度相似测度相似测度设设x x=(=(x x1 1,x x2 2,x xn n)T T,y y=(=(y y1 1,y y2 2,y yn n)T Tl l角度相似系数(夹角余弦)角度相似系数(夹角余弦)角度相似系数(夹角余弦)角度相似系数(夹角余弦)对于坐标系的旋转和尺度缩放是不变的,但对于一般的线性对于坐标系的旋转和尺度缩放是不变的,但对于一般的线性变换和坐标系的平移不具有不变性。变换和坐标系的平移不具有不变性。l l指数相似系数指数相似系数指数相似系数指数相似系数不受量纲变化影响。其中不受量纲变化影响。其中 i i2 2为相应分量的方差。
12、为相应分量的方差。本讲稿第十三页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)14匹配测度匹配测度匹配测度匹配测度l l有时特征只有两个状态,即二值特征。有时特征只有两个状态,即二值特征。令令a a=i ix xi iy yi i,b b=I I(1-(1-x xi i)y yi i,c c=I I x xi i(1-(1-y yi i),),e e=I I(1-(1-x xi i)(1-)(1-y yi i)l lTanimotoTanimoto测度测度模式相似性测度模式相似性测度l lRaoRao测度测度本讲稿第十四页,共五十六页2023/4/7济南大学 模式识别与智
13、能系统研究所(R)15拓展思维拓展思维拓展思维拓展思维l l其他的匹配测度?其他的匹配测度?其他的匹配测度?其他的匹配测度?相同特征的比例?即相同特征的比例?即(1-1)(1-1)和和(0-0)(0-0)在所有特征中占有的比例在所有特征中占有的比例相同特征与不同特征的比例?相同特征与不同特征的比例?模式相似性测度模式相似性测度l l一个问题一个问题一个问题一个问题:特征空间中,两个特征矢量分别如下,计算其间:特征空间中,两个特征矢量分别如下,计算其间不同距离:不同距离:x x=(1,1,0,1,0,0)=(1,1,0,1,0,0)T T,y y=(1,0,0,1,0,1)=(1,0,0,1,0
14、,1)T T x x=(180,75,50)=(180,75,50)T T,y y=(170,70,55)=(170,70,55)T T如何获得这些特征不是模如何获得这些特征不是模如何获得这些特征不是模如何获得这些特征不是模式识别所研究的内容,是式识别所研究的内容,是式识别所研究的内容,是式识别所研究的内容,是其他相关学科的研究范畴其他相关学科的研究范畴其他相关学科的研究范畴其他相关学科的研究范畴本讲稿第十五页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)16目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚类算
15、法聚类算法总结和作业总结和作业本讲稿第十六页,共五十六页类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类间距离类间距离聚类准则聚类准则2023/4/7济南大学 模式识别与智能系统研究所(R)17本讲稿第十七页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)18类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类的定义类的定义研究聚类算法,必须首先给出类的定义。研究聚类算法,必须首先给出类的定义。不同类的定义,适合于不同的类内模式分布情况。不同类的定义,适合于不同的类内模式分布情况。只考虑距离层面的定义,相似测度和匹配测度可以类
16、推。只考虑距离层面的定义,相似测度和匹配测度可以类推。l l类定义一类定义一类定义一类定义一:集合:集合S S中任意两个元素中任意两个元素x xi i和和x xj j的距离的距离d dij ij满足满足d dij ij h h则则S S对于阈值对于阈值h h组成一类。组成一类。思考思考思考思考:这种定义,适合于哪种分布?:这种定义,适合于哪种分布?Key:Key:团簇状,各类相聚较远。团簇状,各类相聚较远。本讲稿第十八页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)19类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则本讲稿第十九页,共五十六页2023/4/7济南大
17、学 模式识别与智能系统研究所(R)20类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类的定义类的定义l l类定义二类定义二类定义二类定义二:集合:集合S S中任意两个元素中任意两个元素x xi i和和x xj j的距离的距离d dij ij满足满足则则S S对于阈值对于阈值h h组成一类。其中组成一类。其中k k为集合为集合S S中元素的个数。中元素的个数。思考:这种定义,适合于哪种分布?思考:这种定义,适合于哪种分布?Key:Key:仍然是团簇状,各类相聚较远。仍然是团簇状,各类相聚较远。本讲稿第二十页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(
18、R)21类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类的定义类的定义l l类定义三类定义三类定义三类定义三:集合:集合S S,对于其中任意一个元素,对于其中任意一个元素x xi i S S,都存在,都存在x xj j S S,其距离,其距离d dij ij h h,则称,则称S S对于阈值对于阈值h h组成一类。组成一类。思考:这种定义,适合于哪种分布?思考:这种定义,适合于哪种分布?Key:Key:长条状。长条状。本讲稿第二十一页,共五十六页类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类间距离类间距离类间距离类间距离聚类准则聚类准则20
19、23/4/7济南大学 模式识别与智能系统研究所(R)22本讲稿第二十二页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)23类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类间距离类间距离类间距离类间距离l l最近距离法最近距离法最近距离法最近距离法两个类别两个类别 k k和和 l l之间的最近距离:之间的最近距离:D Dkl kl=min=minij ij d dij ij d dij ij表示表示x xi ik k和和x xj jl l之间的距离。之间的距离。如果如果 l l是由两类是由两类 p p和和 q q合并而成,则有递推公式:合并而成,则有递推公式:D
20、Dkl kl=min =min D Dkpkp,D Dkqkq l l最远距离法最远距离法最远距离法最远距离法两个类别两个类别 k k和和 l l之间的最远距离:之间的最远距离:D Dkl kl=max=maxij ij d dij ij d dij ij表示表示x xi ik k和和x xj jl l之间的距离。之间的距离。如果如果 l l是由两类是由两类 p p和和 q q合并而成,则有递推公式:合并而成,则有递推公式:D Dkl kl=max =max D Dkpkp,D Dkqkq 本讲稿第二十三页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)24类的定义、类间距
21、离和聚类准则类的定义、类间距离和聚类准则类间距离类间距离类间距离类间距离l l中间距离法中间距离法中间距离法中间距离法三角形三角形 kpqkpq边边pqpq中线长的平方和:中线长的平方和:可以作为新类可以作为新类 l l=p p q q与与 k k间的距离间的距离的递推公式。的递推公式。本讲稿第二十四页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)25类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类间距离类间距离类间距离类间距离l l重心距离法重心距离法重心距离法重心距离法:一个类的空间位置用重心表示,两个类的重心之间的距:一个类的空间位置用重心表示,两个类的重
22、心之间的距离作为二者的距离。离作为二者的距离。l l设类设类 p p、q q的重心分别是的重心分别是x xp p、x xq q,有样本,有样本n np p、n nq q。类。类 l l=p p q q,则则n nl l=n np p+n nq q。则。则 l l的重心为:的重心为:l l另一个类另一个类 k k与与 l l的距离平方是:的距离平方是:D Dkl kl2 2=(=(x xk k-x xl l)T T(x xk k-x xl l)化简后得到:化简后得到:本讲稿第二十五页,共五十六页2023/4/7济南大学 模式识别与智能系统研究所(R)26类的定义、类间距离和聚类准则类的定义、类间
23、距离和聚类准则类间距离类间距离类间距离类间距离l l平均距离法平均距离法平均距离法平均距离法l l两类两类 p p、q q之间的距离可以定义为这两类元素之间的平均平方距离,之间的距离可以定义为这两类元素之间的平均平方距离,即即l l设类设类 l l=p p q q,则递推公式为:,则递推公式为:本讲稿第二十六页,共五十六页类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类间距离类间距离类间距离类间距离聚类准则聚类准则聚类准则聚类准则2023/4/7济南大学 模式识别与智能系统研究所(R)27本讲稿第二十七页,共五十六页聚聚聚聚类类类类准准准准则则则则l l类类类类内距离
24、准内距离准内距离准内距离准则则则则设设待分待分类类的模式集合的模式集合 x x1 1,x x2 2,x xN N,在某种相似性,在某种相似性测测度的基度的基础础上被上被划分划分为为c c类类 c ci i(j j);j j=1,2,3,=1,2,3,c c;i i=1,2,=1,2,n nj j。显显然,然,类类内聚内聚类类准准则则函数函数J JWW定定义为义为:显显然,然,J JWW越小越好。越小越好。(误误差平方和准差平方和准则则)特点:取决于特点:取决于类类心的心的选选取;取;同同类样类样本分布密集,各本分布密集,各类类分布区域体分布区域体积积相差不大。相差不大。2023/4/7济南大学
25、 模式识别与智能系统研究所(R)28类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则本讲稿第二十八页,共五十六页聚聚聚聚类类类类准准准准则则则则l l类间类间类间类间距离准距离准距离准距离准则则则则其中其中mmj j是是类类的模式平均矢量,的模式平均矢量,mm为总为总的模式平均矢量;的模式平均矢量;n nj j是是 j j类类所所含模式个数,含模式个数,N N是所有模式的个数。是所有模式的个数。l l加加权权的的类间类间距离准距离准则则:2023/4/7济南大学 模式识别与智能系统研究所(R)29类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则拓展思维:两类情况下结果如何?与J
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 聚类分析 精选 文档
限制150内