模式识别聚类精选文档.ppt
《模式识别聚类精选文档.ppt》由会员分享,可在线阅读,更多相关《模式识别聚类精选文档.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别聚类本讲稿第一页,共四十八页什么是聚类什么是聚类聚类是一种无监督分类法聚类是一种无监督分类法:没有预先指定没有预先指定的类别的类别分类:用已知类别的样本训练集来设计分类:用已知类别的样本训练集来设计分类器(监督学习)分类器(监督学习)聚类:用事先不知类别的样本,利用样聚类:用事先不知类别的样本,利用样本的先验知识来构造分类器(无监督学本的先验知识来构造分类器(无监督学习)习)l聚类分析无训练过程,训练与识别混合聚类分析无训练过程,训练与识别混合在一起。在一起。本讲稿第二页,共四十八页相似性度量相似性度量设有样本集设有样本集 ,要求按某,要求按某种相似性把分类,怎样实现?种相似性把分类,
2、怎样实现?聚类分析符合聚类分析符合“物以类聚,人以群分物以类聚,人以群分“的原则,它把相似性大的样本聚集为的原则,它把相似性大的样本聚集为一个类型,在特征空间里占据着一个局一个类型,在特征空间里占据着一个局部区域。每个局部区域都形成一个聚合部区域。每个局部区域都形成一个聚合中心,聚合中心代表相应类型。中心,聚合中心代表相应类型。本讲稿第三页,共四十八页如下图中,如下图中,(a)有一个聚合中心,有一个聚合中心,(b)、(c)有两个。有两个。本讲稿第四页,共四十八页聚类分析避免了估计类概率密度的困难,聚类分析避免了估计类概率密度的困难,对每个聚合中心来说都是局部密度极大对每个聚合中心来说都是局部密
3、度极大值位置,其附近密度高,距离越远密度值位置,其附近密度高,距离越远密度越小。越小。聚类分析的关键问题:如何在聚类过程聚类分析的关键问题:如何在聚类过程中自动地确定类型数目中自动地确定类型数目c。实际工作中,也可以给定值作为算法终实际工作中,也可以给定值作为算法终止的条件。止的条件。本讲稿第五页,共四十八页聚类分析的结果与特征的选取有很大的聚类分析的结果与特征的选取有很大的关系。不同的特征,分类的结果不同。关系。不同的特征,分类的结果不同。本讲稿第六页,共四十八页1.距离相似性度量距离相似性度量一个模式样本,对应特征空间里的一个一个模式样本,对应特征空间里的一个点。如果模式的特征是适当选择的
4、,也点。如果模式的特征是适当选择的,也就是各维特征对于分类来说都是有效的,就是各维特征对于分类来说都是有效的,那么同类样本就会密集地分布在一个区那么同类样本就会密集地分布在一个区域里,不同类的模式样本就会远离。因域里,不同类的模式样本就会远离。因此,点间距离远近反映了相应模式样本此,点间距离远近反映了相应模式样本所属类型有无差异,可以作为样本相似所属类型有无差异,可以作为样本相似性度量。距离越近,相似性越大,属于性度量。距离越近,相似性越大,属于一个类型。聚类分析中,最常用的就是一个类型。聚类分析中,最常用的就是距离相似性。距离相似性。本讲稿第七页,共四十八页(1)欧氏距离)欧氏距离欧氏距离简
5、称距离,模式样本向量欧氏距离简称距离,模式样本向量 x与与y之间的欧氏距之间的欧氏距离定义为:离定义为:d为特征空间的维数。为特征空间的维数。当当 较小时,表示较小时,表示x与与y在一个类型区域,反之,在一个类型区域,反之,则不在一个类型区域。这里有一个门限的选择问则不在一个类型区域。这里有一个门限的选择问题。若选择过大,则全部样本被视作一个唯一类题。若选择过大,则全部样本被视作一个唯一类型;若选取过小,则可能造成每个样本都单独构型;若选取过小,则可能造成每个样本都单独构成一个类型。必须正确选择门限值以保证正确分成一个类型。必须正确选择门限值以保证正确分类。类。本讲稿第八页,共四十八页(1)欧
6、氏距离(续)欧氏距离(续)另外,模式特征坐标单位的选取也会强另外,模式特征坐标单位的选取也会强烈地影响聚类结果。烈地影响聚类结果。例如:一个二维模式,一个特征是长度,例如:一个二维模式,一个特征是长度,另一个特征是压力。另一个特征是压力。l当长度由厘米变为米,在当长度由厘米变为米,在 中长度中长度特征的比重会下降,同样,若把比重单特征的比重会下降,同样,若把比重单位由毫米汞柱高度变成厘米汞柱高度,位由毫米汞柱高度变成厘米汞柱高度,中压力特征的影响也会下降。中压力特征的影响也会下降。本讲稿第九页,共四十八页(1)欧氏距离(续)欧氏距离(续)可以用图表示上述情况:从上图看出,(b)、(c)特征空间
7、划分是不同的。(b)中 为一类,为另一类,(c)中 为一类,为另一类。本讲稿第十页,共四十八页(1)欧氏距离(续)欧氏距离(续)另外,使用欧氏距离度量时,还要注意另外,使用欧氏距离度量时,还要注意模式样本测量值的选取,应该是有效反模式样本测量值的选取,应该是有效反映类别属性特征(各类属性的代表应均映类别属性特征(各类属性的代表应均衡)。但马氏距离可解决不均衡(一个衡)。但马氏距离可解决不均衡(一个多,一个少)的问题。多,一个少)的问题。例如,取例如,取5个样本,其中有个样本,其中有4个反映对分个反映对分类有意义的特征类有意义的特征A,只有,只有1个对分类有个对分类有意义的特征意义的特征B,欧氏
8、距离的计算结果,欧氏距离的计算结果,则主要体现特征则主要体现特征A。本讲稿第十一页,共四十八页(2)马氏()马氏(Mahalanobis)距离)距离定义:马氏距离的平方定义:马氏距离的平方l其中,为均值向量,为协方差矩阵。其中,为均值向量,为协方差矩阵。马氏距离排除了不同特征之间相关性的马氏距离排除了不同特征之间相关性的影响,其关键在于协方差矩阵的计算。影响,其关键在于协方差矩阵的计算。当为对角阵时,各特征之间才完全独立当为对角阵时,各特征之间才完全独立;当为单位矩阵时,马氏距离等于欧氏;当为单位矩阵时,马氏距离等于欧氏距离。距离。马氏距离比较适用于对样本已有初步分马氏距离比较适用于对样本已有
9、初步分类的情况,做进一步考核、修正。类的情况,做进一步考核、修正。本讲稿第十二页,共四十八页(3)明氏()明氏(Minkowsky)距离)距离定义:明氏距离定义:明氏距离:它是若干距离函数的通式:它是若干距离函数的通式:时,等于欧氏距离;时,等于欧氏距离;时,称为时,称为“街坊街坊”(city block)距离。距离。本讲稿第十三页,共四十八页2.角度相似性度量角度相似性度量样本样本x与与y之间的角度相似性度量定义为之间的角度相似性度量定义为它们之间夹角的余弦,即它们之间夹角的余弦,即 l也是单位向量之间的点积(内积)。越大,越大,x与与y越相似。常用于情报越相似。常用于情报检索、植物分类、疾
10、病分类。检索、植物分类、疾病分类。本讲稿第十四页,共四十八页2.角度相似性度量角度相似性度量 满足:满足:当当 时,时,达到最大。对于坐达到最大。对于坐标系的旋转及放大、缩小标系的旋转及放大、缩小 是不变是不变的量,但对位移和一般性的线性变换不的量,但对位移和一般性的线性变换不是不变的。是不变的。l样本与核的相似性度量样本与核的相似性度量l近邻函数值相等近邻函数值相等本讲稿第十五页,共四十八页样本相似性度量是聚类分析的基础,针样本相似性度量是聚类分析的基础,针对具体问题,选择适当的相似性度量是对具体问题,选择适当的相似性度量是保证聚类质量的重要问题。但有了相似保证聚类质量的重要问题。但有了相似
11、性度量还不够,还必须有适当的聚类准性度量还不够,还必须有适当的聚类准则函数。聚类准则函数对聚类质量也有则函数。聚类准则函数对聚类质量也有重大影响。重大影响。相似性度量相似性度量 集合与集合的相似性。集合与集合的相似性。相似性准则相似性准则 分类效果好坏的评价准分类效果好坏的评价准则则 本讲稿第十六页,共四十八页聚类准则函数聚类准则函数在样本相似性度量的基础上,聚类分在样本相似性度量的基础上,聚类分析还需要一定的准则函数,才能把真析还需要一定的准则函数,才能把真正属于同一类的样本聚合成一个类型正属于同一类的样本聚合成一个类型的子集,而把不同类的样本分离开来。的子集,而把不同类的样本分离开来。如果
12、聚类准则函数选得好,聚类质量如果聚类准则函数选得好,聚类质量就会高。就会高。本讲稿第十七页,共四十八页聚类准则函数聚类准则函数同时,聚类准则函数还可以用来评价一同时,聚类准则函数还可以用来评价一种聚类结果的质量,如果聚类质量不满种聚类结果的质量,如果聚类质量不满足要求,就要重复执行聚类过程,以优足要求,就要重复执行聚类过程,以优化结果。在重复优化中,可以改变相似化结果。在重复优化中,可以改变相似性度量,也可以选用新的聚类准则。性度量,也可以选用新的聚类准则。本讲稿第十八页,共四十八页1误差平方和准则(最常用的)误差平方和准则(最常用的)假定有混合样本假定有混合样本 ,采用,采用某种相似性度量,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 精选 文档
限制150内