模式识别03-聚类分析.ppt





《模式识别03-聚类分析.ppt》由会员分享,可在线阅读,更多相关《模式识别03-聚类分析.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别导论模式识别导论聚类分析聚类分析李金屏李金屏李金屏李金屏济南大学济南大学济南大学济南大学信息科学与工程学院信息科学与工程学院信息科学与工程学院信息科学与工程学院 模式识别与智能系统研究所模式识别与智能系统研究所模式识别与智能系统研究所模式识别与智能系统研究所山东省网络环境智能计算技术重点实验室山东省网络环境智能计算技术重点实验室山东省网络环境智能计算技术重点实验室山东省网络环境智能计算技术重点实验室20112011年年年年9 9月月月月2023/5/20济南大学 模式识别与智能系统研究所(R)2目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类
2、间距离和聚类准则聚类算法聚类算法总结和作业总结和作业2023/5/20济南大学 模式识别与智能系统研究所(R)3目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚类算法聚类算法总结和作业总结和作业2023/5/20济南大学 模式识别与智能系统研究所(R)4复习复习模式识别的基本过程模式识别的基本过程l l为什么要进行特征提取?为什么要进行特征提取?l l什么是特征?什么是特征?l l如何抽取和表示特征?如何抽取和表示特征?l l识别和训练(两种训练方式)识别和训练(两种训练方式)l l识别系统的性能评价识别系统的性能评价特征矢量的特点
3、:随机性(为什么?)特征矢量的特点:随机性(为什么?)l l随机矢量的数字特征:有哪些?随机矢量的数字特征:有哪些?l l什么是正态分布(高斯分布)?写出一维和二维情况下的什么是正态分布(高斯分布)?写出一维和二维情况下的具体表达式和每个符号的具体含义。具体表达式和每个符号的具体含义。2023/5/20济南大学 模式识别与智能系统研究所(R)5复习复习根据模式识别的基本过程,讨论如何区分正常的楼根据模式识别的基本过程,讨论如何区分正常的楼房维修和爬楼盗窃?房维修和爬楼盗窃?l lKey:Key:维修:一般白天;安全工具;工作服;长时停留;有灯光等维修:一般白天;安全工具;工作服;长时停留;有灯
4、光等盗窃:一般夜间;主要徒手;夜行衣;不逗留;无灯光等盗窃:一般夜间;主要徒手;夜行衣;不逗留;无灯光等当然前提是能够检测到移动目标和判定大小当然前提是能够检测到移动目标和判定大小如何区分这两种水果(自动分拣机):梨和桃子?如何区分这两种水果(自动分拣机):梨和桃子?l lKey:Key:梨:青或黄;无沟;粗糙多斑点;尾桔蒂等梨:青或黄;无沟;粗糙多斑点;尾桔蒂等桃:红或青;有沟;光滑少斑点;尾多尖等桃:红或青;有沟;光滑少斑点;尾多尖等2023/5/20济南大学 模式识别与智能系统研究所(R)6目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离
5、和聚类准则聚类算法聚类算法总结和作业总结和作业2023/5/20济南大学 模式识别与智能系统研究所(R)7说明说明特征的选取特征的选取l l特征选取要合适特征选取要合适l l特征选取不足有可能将不同类别判为一类特征选取不足有可能将不同类别判为一类l l特征过多可能有害无益特征过多可能有害无益假设根据已有特征已经能够正确分类假设根据已有特征已经能够正确分类新增加的特征与原有特征的关系:新增加的特征与原有特征的关系:独立、不相关或者相关独立、不相关或者相关若独立或者不相关,则分类结果不变,但是增加负担;若独立或者不相关,则分类结果不变,但是增加负担;若相关,增加冗余;则重要特征占若相关,增加冗余;
6、则重要特征占“比重比重”减少;导致误判减少;导致误判增加和负担增加增加和负担增加l l量纲要合适量纲要合适2023/5/20济南大学 模式识别与智能系统研究所(R)8目录目录复习复习说明说明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚类算法聚类算法总结和作业总结和作业2023/5/20济南大学 模式识别与智能系统研究所(R)9模式相似性测度模式相似性测度为了能够划分模式的类别,必须首先定义相似性测为了能够划分模式的类别,必须首先定义相似性测度,描述各个模式之间特征的相似程度。度,描述各个模式之间特征的相似程度。距离测度距离测度距离测度距离测度l l描述
7、两个矢量描述两个矢量x x和和y y之间的距离之间的距离d d(x x,y y)应该满足如下公理:应该满足如下公理:d d(x x,y y)0 0,d d(x x,y y)=0 iff=0 iff x x=y y;d d(x x,y y)=)=d d(y y,x x););d d(x x,y y)d d(x x,z z)+)+d d(z z,y y););l l需要说明,某些距离测度不满足公理需要说明,某些距离测度不满足公理3 3,只是在广义上称,只是在广义上称为距离。为距离。2023/5/20济南大学 模式识别与智能系统研究所(R)10模式相似性测度模式相似性测度距离测度距离测度距离测度距离
8、测度设设x x=(=(x x1 1,x x2 2,x xn n)T T,y y=(=(y y1 1,y y2 2,y yn n)T Tl l欧式距离(欧式距离(欧式距离(欧式距离(EuclideanEuclidean)d(d(x x,y y)=|)=|x x-y y|=|=i i=1=1 n n(x xi i-y yi i)2 2 1/21/2l l绝对值距离(绝对值距离(绝对值距离(绝对值距离(ManhattanManhattan距离)距离)距离)距离)d(d(x x,y y)=)=i i=1=1 n n|x xi i-y yi i|l l切氏距离(切氏距离(切氏距离(切氏距离(Chebya
9、hevChebyahev)d(d(x x,y y)=max)=maxi i|x xi i-y yi i|l l闵科夫斯基距离(闵科夫斯基距离(闵科夫斯基距离(闵科夫斯基距离(MinkowskiMinkowski)d(d(x x,y y)=)=i i=1=1 n n(x xi i-y yi i)mm 1/m1/m m=2,1,m=2,1,时分别是欧式距离、绝对值距离和切氏距离。时分别是欧式距离、绝对值距离和切氏距离。2023/5/20济南大学 模式识别与智能系统研究所(R)11模式相似性测度模式相似性测度距离测度距离测度距离测度距离测度l l马氏距离(马氏距离(马氏距离(马氏距离(Mahalan
10、ohisMahalanohis)设设n n维矢量维矢量x xi i和和x xj j是矢量集是矢量集 x x1 1,x x2 2,x xn n 中的两个矢量,其中的两个矢量,其马氏距离马氏距离d d是:是:d d2 2(x xi i,x xj j)=()=(x xi i-x xj j)T T V V-1-1(x xi i-x xj j)2023/5/20济南大学 模式识别与智能系统研究所(R)12模式相似性测度模式相似性测度距离测度距离测度距离测度距离测度l lCamberraCamberra距离(距离(距离(距离(LanceLance距离、距离、距离、距离、WillimsWillims距离)距
11、离)距离)距离)能克服量纲引起的问题,但无法克服分量间的相关性。能克服量纲引起的问题,但无法克服分量间的相关性。2023/5/20济南大学 模式识别与智能系统研究所(R)13模式相似性测度模式相似性测度相似测度相似测度相似测度相似测度设设x x=(=(x x1 1,x x2 2,x xn n)T T,y y=(=(y y1 1,y y2 2,y yn n)T Tl l角度相似系数(夹角余弦)角度相似系数(夹角余弦)角度相似系数(夹角余弦)角度相似系数(夹角余弦)对于坐标系的旋转和尺度缩放是不变的,但对于一般的线对于坐标系的旋转和尺度缩放是不变的,但对于一般的线性变换和坐标系的平移不具有不变性。
12、性变换和坐标系的平移不具有不变性。l l指数相似系数指数相似系数指数相似系数指数相似系数不受量纲变化影响。其中不受量纲变化影响。其中 i i2 2为相应分量的方差。为相应分量的方差。2023/5/20济南大学 模式识别与智能系统研究所(R)14匹配测度匹配测度匹配测度匹配测度l l有时特征只有两个状态,即二值特征。有时特征只有两个状态,即二值特征。令令a a=i ix xi iy yi i,b b=I I(1-(1-x xi i)y yi i,c c=I I x xi i(1-(1-y yi i),),e e=I I(1-(1-x xi i)(1-)(1-y yi i)l lTanimotoT
13、animoto测度测度模式相似性测度模式相似性测度l lRaoRao测度测度2023/5/20济南大学 模式识别与智能系统研究所(R)15拓展思维拓展思维拓展思维拓展思维l l其他的匹配测度?其他的匹配测度?其他的匹配测度?其他的匹配测度?相同特征的比例?即相同特征的比例?即(1-1)(1-1)和和(0-0)(0-0)在所有特征中占有的比例在所有特征中占有的比例相同特征与不同特征的比例?相同特征与不同特征的比例?模式相似性测度模式相似性测度l l一个问题一个问题一个问题一个问题:特征空间中,两个特征矢量分别如下,计算其:特征空间中,两个特征矢量分别如下,计算其间不同距离:间不同距离:x x=(
14、1,1,0,1,0,0)=(1,1,0,1,0,0)T T,y y=(1,0,0,1,0,1)=(1,0,0,1,0,1)T T x x=(180,75,50)=(180,75,50)T T,y y=(170,70,55)=(170,70,55)T T如何获得这些特征不如何获得这些特征不如何获得这些特征不如何获得这些特征不是模式识别所研究的是模式识别所研究的是模式识别所研究的是模式识别所研究的内容,是其他相关学内容,是其他相关学内容,是其他相关学内容,是其他相关学科的研究范畴科的研究范畴科的研究范畴科的研究范畴2023/5/20济南大学 模式识别与智能系统研究所(R)16目录目录复习复习说明说
15、明模式相似性测度模式相似性测度类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚类算法聚类算法总结和作业总结和作业类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类间距离类间距离聚类准则聚类准则2023/5/20济南大学 模式识别与智能系统研究所(R)172023/5/20济南大学 模式识别与智能系统研究所(R)18类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类的定义类的定义研究聚类算法,必须首先给出类的定义。研究聚类算法,必须首先给出类的定义。不同类的定义,适合于不同的类内模式分布情况。不同类的定义,适合于不同的类内模式分布情况。只
16、考虑距离层面的定义,相似测度和匹配测度可以类推。只考虑距离层面的定义,相似测度和匹配测度可以类推。l l类定义一类定义一类定义一类定义一:集合:集合S S中任意两个元素中任意两个元素x xi i和和x xj j的距离的距离d dij ij满足满足d dij ij h h则则S S对于阈值对于阈值h h组成一类。组成一类。思考思考思考思考:这种定义,适合于哪种分布?:这种定义,适合于哪种分布?Key:Key:团簇状,各类相聚较远。团簇状,各类相聚较远。2023/5/20济南大学 模式识别与智能系统研究所(R)19类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则2023/5/20济南大学
17、模式识别与智能系统研究所(R)20类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类的定义类的定义l l类定义二类定义二类定义二类定义二:集合:集合S S中任意两个元素中任意两个元素x xi i和和x xj j的距离的距离d dij ij满足满足则则S S对于阈值对于阈值h h组成一类。其中组成一类。其中k k为集合为集合S S中元素的个数。中元素的个数。思考:这种定义,适合于哪种分布?思考:这种定义,适合于哪种分布?Key:Key:仍然是团簇状,各类相聚较远。仍然是团簇状,各类相聚较远。2023/5/20济南大学 模式识别与智能系统研究所(R)21类的定义、类间距离和
18、聚类准则类的定义、类间距离和聚类准则类的定义类的定义类的定义类的定义l l类定义三类定义三类定义三类定义三:集合:集合S S,对于其中任意一个元素,对于其中任意一个元素x xi i S S,都存在,都存在x xj j S S,其距离,其距离d dij ij h h,则称,则称S S对于阈值对于阈值h h组成一类。组成一类。思考:这种定义,适合于哪种分布?思考:这种定义,适合于哪种分布?Key:Key:长条状。长条状。类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类间距离类间距离聚类准则聚类准则2023/5/20济南大学 模式识别与智能系统研究所(R)222023/5/
19、20济南大学 模式识别与智能系统研究所(R)23类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类间距离类间距离类间距离类间距离l l最近距离法最近距离法最近距离法最近距离法两个类别两个类别 k k和和 l l之间的最近距离:之间的最近距离:D Dklkl=min=minij ij d dij ij d dij ij表示表示x xi ik k和和x xj jl l之间的距离。之间的距离。如果如果 l l是由两类是由两类 p p和和 q q合并而成,则有递推公式:合并而成,则有递推公式:D Dklkl=min =min D Dkpkp,D Dkqkq l l最远距离法最远距离法最远距离法
20、最远距离法两个类别两个类别 k k和和 l l之间的最远距离:之间的最远距离:D Dklkl=max=maxij ij d dij ij d dij ij表示表示x xi ik k和和x xj jl l之间的距离。之间的距离。如果如果 l l是由两类是由两类 p p和和 q q合并而成,则有递推公式:合并而成,则有递推公式:D Dklkl=max =max D Dkpkp,D Dkqkq 2023/5/20济南大学 模式识别与智能系统研究所(R)24类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类间距离类间距离类间距离类间距离l l中间距离法中间距离法中间距离法中间距离法三角形三角形
21、 kpqkpq边边pqpq中线长的平方和:中线长的平方和:可以作为新类可以作为新类 l l=p p q q与与 k k间间的距离的递推公式。的距离的递推公式。2023/5/20济南大学 模式识别与智能系统研究所(R)25类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类间距离类间距离类间距离类间距离l l重心距离法重心距离法重心距离法重心距离法:一个类的空间位置用重心表示,两个类的重:一个类的空间位置用重心表示,两个类的重心之间的距离作为二者的距离。心之间的距离作为二者的距离。l l设类设类 p p、q q的重心分别是的重心分别是x xp p、x xq q,有样本,有样本n np p、
22、n nq q。类。类 l l=p p q q,则,则n nl l=n np p+n nq q。则。则 l l的重心为:的重心为:l l另一个类另一个类 k k与与 l l的距离平方是:的距离平方是:D Dkl kl2 2=(=(x xk k-x xl l)T T(x xk k-x xl l)化简后得到:化简后得到:2023/5/20济南大学 模式识别与智能系统研究所(R)26类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类间距离类间距离类间距离类间距离l l平均距离法平均距离法平均距离法平均距离法l l两类两类 p p、q q之间的距离可以定义为这两类元素之间的平均之间的距离可以定义
23、为这两类元素之间的平均平方距离,即平方距离,即l l设类设类 l l=p p q q,则递推公式为:,则递推公式为:类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则类的定义类的定义类间距离类间距离聚类准则聚类准则2023/5/20济南大学 模式识别与智能系统研究所(R)27聚聚聚聚类类类类准准准准则则则则l l类类类类内距离准内距离准内距离准内距离准则则则则设设待分待分类类的模式集合的模式集合 x x1 1,x x2 2,x xN N,在某种相似性,在某种相似性测测度的基度的基础础上被划分上被划分为为c c类类 c ci i(j j);j j=1,2,3,=1,2,3,c c;i i=
24、1,2,=1,2,n nj j。显显然,然,类类内聚内聚类类准准则则函数函数J JWW定定义为义为:显显然,然,J JWW越小越好。越小越好。(误误差平方和准差平方和准则则)特点:取决于特点:取决于类类心的心的选选取;取;同同类样类样本分布密集,各本分布密集,各类类分布区域体分布区域体积积相差不大。相差不大。2023/5/20济南大学 模式识别与智能系统研究所(R)28类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则聚聚聚聚类类类类准准准准则则则则l l类间类间类间类间距离准距离准距离准距离准则则则则其中其中mmj j是是类类的模式平均矢量,的模式平均矢量,mm为总为总的模式平均矢量;
25、的模式平均矢量;n nj j是是 j j类类所含模式个数,所含模式个数,N N是所有模式的个数。是所有模式的个数。l l加加权权的的类间类间距离准距离准则则:2023/5/20济南大学 模式识别与智能系统研究所(R)29类的定义、类间距离和聚类准则类的定义、类间距离和聚类准则拓展思维:两类情况下结果如何?与JWB关系如何?聚聚聚聚类类类类准准准准则则则则l l类类类类内、内、内、内、类间类间类间类间距离准距离准距离准距离准则则则则希望聚希望聚类结类结果:果:类类内距离越小越好,内距离越小越好,类间类间距离越大越好。距离越大越好。设设待分待分类类模式集模式集 x xi i;i i=1,2,=1,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 03 聚类分析

限制150内