模式识别(7).ppt
《模式识别(7).ppt》由会员分享,可在线阅读,更多相关《模式识别(7).ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 模式识别模式识别 第第7章特征的选择与提取章特征的选择与提取模式识别系统:模式识别系统:7.1 7.1 基本概念基本概念n前几章主要讨论模式识别的重要概念,如前几章主要讨论模式识别的重要概念,如贝叶贝叶斯分类器斯分类器、线性分类器线性分类器等。在讨论这些设计分等。在讨论这些设计分类器的方法时,提到有类器的方法时,提到有一个样本集一个样本集,样本集中,样本集中的样本用一个的样本用一个已经确定的向量已经确定的向量来描述。来描述。n例:对苹果与梨分类例:对苹果与梨分类 尺寸、重量和颜色三尺寸、重量和颜色三种度量。种度量。n即对要分类的样本怎样描述这个问题是已经确即对要分类的样本怎样描述这个问题是已
2、经确定的。在这种条件下研究分类器设计问题是一定的。在这种条件下研究分类器设计问题是一个个选择什么准则、使用什么方法,将已确定的选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题维特征空间划分成决策域的问题。7.1 7.1 基本概念基本概念n本章要讨论的问题是对已有的本章要讨论的问题是对已有的特征空间进行改特征空间进行改造造,着重于,着重于研究对样本究竟用什么样的度量方研究对样本究竟用什么样的度量方法法更好。更好。n对分类器设计来说,使用什么样的特征描述事对分类器设计来说,使用什么样的特征描述事物,也就是说使用什么样的特征空间是个很重物,也就是说使用什么样的特征空间是个很重要的
3、问题。这个问题称之为描述量的要的问题。这个问题称之为描述量的选择选择问题,问题,即保留哪些描述量,删除哪些描述量的问题。即保留哪些描述量,删除哪些描述量的问题。n由于对特征空间进行改造目的在于提高其某方由于对特征空间进行改造目的在于提高其某方面的性能,因此又称面的性能,因此又称特征的特征的优化优化问题。问题。7.1 7.1 基本概念基本概念核心:核心:如何构造一个特征空间,即对要识别的事物用如何构造一个特征空间,即对要识别的事物用如何构造一个特征空间,即对要识别的事物用如何构造一个特征空间,即对要识别的事物用什么方法进行描述、分析的问题什么方法进行描述、分析的问题什么方法进行描述、分析的问题什
4、么方法进行描述、分析的问题。n对一个具体问题来说,有以下几个不同的层次:对一个具体问题来说,有以下几个不同的层次:1物理量的获取与转换物理量的获取与转换:q指用什么样的传感器获取电信号,如摄取景物则要用摄指用什么样的传感器获取电信号,如摄取景物则要用摄像机,文字与数字识别首先要用扫描仪等设备。这些都像机,文字与数字识别首先要用扫描仪等设备。这些都属于物理量的获取,并且已转换成电信号,为计算机分属于物理量的获取,并且已转换成电信号,为计算机分析打下了基础。析打下了基础。q对从传感器中得到的信号,可以称之为对从传感器中得到的信号,可以称之为原始信息原始信息,因为,因为它要经过加工、处理才能得到对模
5、式分类更加有用的信它要经过加工、处理才能得到对模式分类更加有用的信号号。7.1 7.1 基本概念基本概念n特征形成特征形成(acquisition):q信号获取或测量信号获取或测量原始测量原始测量q原始特征原始特征n实例实例:q数字图象中的各像素灰度值数字图象中的各像素灰度值q人体的各种生理指标人体的各种生理指标n原始特征分析原始特征分析:q原始测量不能反映对象本质原始测量不能反映对象本质q高维原始特征不利于分类器设计:计算量大,冗余,高维原始特征不利于分类器设计:计算量大,冗余,样本分布十分稀疏样本分布十分稀疏7.1 7.1 基本概念基本概念2.描述事物方法的选择与设计描述事物方法的选择与设
6、计q获得原始信息之后,要对其进一步加工,以获取获得原始信息之后,要对其进一步加工,以获取对分类最有效的信息。关键在于设计所要信息的对分类最有效的信息。关键在于设计所要信息的形式。形式。例:对阿拉伯数字的识别可以提出各种不同的想法:例:对阿拉伯数字的识别可以提出各种不同的想法:分析分析从框架的左边框到数字之间的距离变化反映了不同数字的从框架的左边框到数字之间的距离变化反映了不同数字的从框架的左边框到数字之间的距离变化反映了不同数字的从框架的左边框到数字之间的距离变化反映了不同数字的不同形状不同形状不同形状不同形状,这可以用来作为数字分类的依据。,这可以用来作为数字分类的依据。强调分析不同截面的信
7、号强调分析不同截面的信号强调分析不同截面的信号强调分析不同截面的信号,如在框架的若干部位沿不同方向截,如在框架的若干部位沿不同方向截取截面分析从背景到字,以及从字到背景转换的情况。如取截面分析从背景到字,以及从字到背景转换的情况。如AB截截面切割字符三次,面切割字符三次,CD截面切割字符一次等。截面切割字符一次等。7.1 7.1 基本概念基本概念 设计对事物的描述方法是充分发挥设计者智慧的过程,设计对事物的描述方法是充分发挥设计者智慧的过程,这个层次的工作往往因事物而易,与设计者本人的知识结这个层次的工作往往因事物而易,与设计者本人的知识结构也有关。构也有关。这个层次的工作是最关键的,但因为太
8、缺乏共性,也不这个层次的工作是最关键的,但因为太缺乏共性,也不是本章讨论的内容。是本章讨论的内容。7.1 7.1 基本概念基本概念3特征空间的优化特征空间的优化q 本层次工作发生在已有了特征的描述方法之后,本层次工作发生在已有了特征的描述方法之后,也就是已有了一个也就是已有了一个初始的特征空间初始的特征空间初始的特征空间初始的特征空间,如何对它,如何对它进进进进行改造与优化行改造与优化行改造与优化行改造与优化的问题。的问题。q 要对初始的特征空间进行优化是为了要对初始的特征空间进行优化是为了降维降维降维降维。即初。即初始的特征空间维数较高。能否改成一个维数较低始的特征空间维数较高。能否改成一个
9、维数较低的空间,称为优化,优化后的特征空间应该更有的空间,称为优化,优化后的特征空间应该更有利于后续的分类计算,这就是本章着重讨论的问利于后续的分类计算,这就是本章着重讨论的问题。题。7.1 7.1 基本概念基本概念n对特征空间进行优化有两种基本方法:对特征空间进行优化有两种基本方法:qq特征选择特征选择特征选择特征选择:删掉部分特征;:删掉部分特征;qq特征的组合优化特征的组合优化特征的组合优化特征的组合优化:要通过一种映射,也就是说新的:要通过一种映射,也就是说新的每一个特征是原有特征的一个函数。每一个特征是原有特征的一个函数。假设已有假设已有D维特征向量空间维特征向量空间 ,则,则所谓特
10、所谓特征选择征选择是指从原有的是指从原有的D维特征空间,删去一些特征描述量,维特征空间,删去一些特征描述量,从而得到精简后的特征空间。在这个特征空间中,样本由从而得到精简后的特征空间。在这个特征空间中,样本由d维的特征向量描述:维的特征向量描述:,dD。由于。由于X只只是是Y的一个子集,因此每个分量的一个子集,因此每个分量xi必然能在原特征集中找到必然能在原特征集中找到其对应的描述量其对应的描述量xiyj。7.1 7.1 基本概念基本概念而而特征提取特征提取则是找到一个映射关系:则是找到一个映射关系:A:YX;使新样本特;使新样本特征描述维数比原维数降低。其中每个分量征描述维数比原维数降低。其
11、中每个分量xi是原特征向量各是原特征向量各分量的函数,即分量的函数,即 。因此这两种降维的基本方法是不同的。在实际应用中可将因此这两种降维的基本方法是不同的。在实际应用中可将两者结合起来使用,比如先进行特征提取,然后再进一步两者结合起来使用,比如先进行特征提取,然后再进一步选择其中一部分,或反过来。选择其中一部分,或反过来。特征的选择与提取特征的选择与提取n两类提取有效信息、压缩特征空间的方法:特征提取和特征选择n特征提取(extraction):用映射(或变换)的方法把原始特征变换为较少的新特征n特征选择(selection):从原始特征中挑选出一些最有代表性,分类性能最好的特征n特征的选择
12、与提取与具体问题有很大关系,目前没有理论能给出对任何问题都有效的特征选择与提取方法特征的选择与提取举例特征的选择与提取举例n细胞自动识别:q原始测量:(正常与异常)细胞的数字图像q原始特征(特征的形成,找到一组代表细胞性质的特征):细胞面积,胞核面积,形状系数,光密度,核内纹理,核浆比q压缩特征:原始特征的维数仍很高,需压缩以便于分类n特征选择:挑选最有分类信息的特征n特征提取:数学变换q傅立叶变换或小波变换思考:思考:n设原特征空间表示成n现在在x空间基础上得到一个二维的特征空间n其中若 ,属特征选择还是组合优化?n若 ,属特征选择还是组合优化?7.2 7.2 类别可分离性判据类别可分离性判
13、据n特征选择与特征提取的任务是特征选择与特征提取的任务是求出一组求出一组对分类最有效的特对分类最有效的特征征,所谓有效是,所谓有效是指在特征维数减少到同等水平时,其分指在特征维数减少到同等水平时,其分类性能最佳类性能最佳。n因此需要有定量分析比较的方法,判断所得到的特征维数因此需要有定量分析比较的方法,判断所得到的特征维数及所使用特征是否对分类最有利,这种用以定量检验分及所使用特征是否对分类最有利,这种用以定量检验分类性能的准则称为类性能的准则称为类别可分离性判据。类别可分离性判据。类别可分离性判据。类别可分离性判据。n理想准则:某组特征使分类器错误概率最小。理想准则:某组特征使分类器错误概率
14、最小。n常见类别可分离性判据:常见类别可分离性判据:基于距离的可分性判据基于距离的可分性判据:计算样本在特征空间离散程度:计算样本在特征空间离散程度 基于概率密度分布的判据基于概率密度分布的判据基于距离的可分性判据基于距离的可分性判据n基于距离度量是人们常用来进行分类的重要依据,因为一基于距离度量是人们常用来进行分类的重要依据,因为一般情况下同类物体在特征空间呈聚类状态,即从总体上说般情况下同类物体在特征空间呈聚类状态,即从总体上说同类物体内各样本由于具有共性,因此类内样本间距离应同类物体内各样本由于具有共性,因此类内样本间距离应比跨类样本间距离小。比跨类样本间距离小。n Fisher准则准则
15、正是以使正是以使类间距离尽可能大同时又保持类内类间距离尽可能大同时又保持类内距离较小距离较小这一种原理为基础的。这一种原理为基础的。n基于距离的可分性判据的实质是基于距离的可分性判据的实质是FisherFisher准则准则准则准则的延伸,即综的延伸,即综合考虑不同类样本的合考虑不同类样本的类内聚集程度类内聚集程度类内聚集程度类内聚集程度与与类间的离散程度类间的离散程度类间的离散程度类间的离散程度这两这两个因素。换句话说,这种判据的优化体现出个因素。换句话说,这种判据的优化体现出降维后的特征降维后的特征降维后的特征降维后的特征空间较好地体现类内密集、类间分离的要求空间较好地体现类内密集、类间分离
16、的要求空间较好地体现类内密集、类间分离的要求空间较好地体现类内密集、类间分离的要求。换句话说一。换句话说一些不能体现类间分隔开的特征很可能被排除掉了。些不能体现类间分隔开的特征很可能被排除掉了。基于距离的可分性判据基于距离的可分性判据nFisher准则时曾用过两个描述离散度的矩阵。一个准则时曾用过两个描述离散度的矩阵。一个是类间离散矩阵是类间离散矩阵Sbn另一个是类内离散度矩阵另一个是类内离散度矩阵SW 以上式子是针对两类别情况的,如果推广至以上式子是针对两类别情况的,如果推广至c类别情况?类别情况?基于距离的可分性判据基于距离的可分性判据n如果推广至如果推广至c类别情况,同时考虑各类的先验概
17、率类别情况,同时考虑各类的先验概率Pi不等,则可将上列各式表示成:不等,则可将上列各式表示成:其中,其中,为总均值向量,为总均值向量,Pi表示各类别的先验表示各类别的先验概率,概率,Ei表示表示i类的期望符号。类的期望符号。基于距离的可分性判据基于距离的可分性判据其中其中“tr”表示矩阵的迹(对角线元素的和)。表示矩阵的迹(对角线元素的和)。各类特征向量之间的平均距离各类特征向量之间的平均距离可写成:可写成:n计算所有样本平均距离作为判据计算所有样本平均距离作为判据其中其中Pi、Pj 分别表示各类的先验概率,分别表示各类的先验概率,ni、nj分别是第分别是第i与与j类的样本个数,类的样本个数,
18、用用 来表示第来表示第i类的第类的第k个与个与j类第类第l个样本之间的距离度量。在欧氏距离情况下,有:个样本之间的距离度量。在欧氏距离情况下,有:基于距离的可分性判据基于距离的可分性判据 右边括弧里的前一项涉及类内各特征向量之间的平均距离,右边括弧里的前一项涉及类内各特征向量之间的平均距离,后一项则是类间距离项。后一项可写成后一项则是类间距离项。后一项可写成 可分性判据可分性判据基于距离的准则概念直观,计算方便,但与错误率没有直接联系样本类间样本类间离散度矩阵离散度矩阵样本类内样本类内离散度矩阵离散度矩阵类间可分离类间可分离性判据性判据估估计计值值可分性判据可分性判据n有限样本集:有限样本集:
19、类内类间距离其它判据类内类间距离其它判据 判据判据Jd(X)是计算特征向量的总平均距离,以下一些判据是计算特征向量的总平均距离,以下一些判据则基于使则基于使类间离散度尽量大类间离散度尽量大类间离散度尽量大类间离散度尽量大,类内离散度尽量小类内离散度尽量小类内离散度尽量小类内离散度尽量小的考虑的考虑而提出:而提出:使判据最大?使判据最大?使判据最大?使判据最大?各种距离度量各种距离度量 绝对值距离(城市距离、棋盘距离)绝对值距离(城市距离、棋盘距离)s阶明考夫斯基距离阶明考夫斯基距离 欧几里德距离欧几里德距离 已知两个样本已知两个样本 Xi=(Xi1,Xi2,Xi3,Xin)T Xj=(Xj1,
20、Xj2,Xj3,Xjn)T利用判据利用判据J2 2进行特征提取的步骤:进行特征提取的步骤:使判据使判据J2 2,J3 3,J4 4,J5 5最大的变换最大的变换W例题:例题:7.3 7.3 基于基于K KL L展开式的特征提取展开式的特征提取nK-L变换,是一种常用的变换,是一种常用的正交变换正交变换,K-L变换变换常用来作为常用来作为数据压缩数据压缩,这里我们用它作,这里我们用它作降维降维。n学习这一节主要要掌握以下几个问题:学习这一节主要要掌握以下几个问题:n1什么是正交变换;什么是正交变换;n2K-L变换是一种最佳的正交变换,要弄清是什变换是一种最佳的正交变换,要弄清是什么意义的最佳,也
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别
限制150内