5-特征提取与选择.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《5-特征提取与选择.ppt》由会员分享,可在线阅读,更多相关《5-特征提取与选择.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章第五章第五章第五章 特征的选择与提取特征的选择与提取特征的选择与提取特征的选择与提取1 类别可分离性判据类别可分离性判据2 特征提取特征提取3 特征选择特征选择 特征提取与选择的基本任务是研究如何从众多特征特征提取与选择的基本任务是研究如何从众多特征特征提取与选择的基本任务是研究如何从众多特征特征提取与选择的基本任务是研究如何从众多特征中求出那些对分类识别中求出那些对分类识别中求出那些对分类识别中求出那些对分类识别最有效最有效最有效最有效的特征,从而实现特的特征,从而实现特的特征,从而实现特的特征,从而实现特征空间维数的压缩征空间维数的压缩征空间维数的压缩征空间维数的压缩,即获取一组即获
2、取一组即获取一组即获取一组“少而精少而精少而精少而精”且分类且分类且分类且分类错误概率小的分类待征错误概率小的分类待征错误概率小的分类待征错误概率小的分类待征.可以把特征分为三类可以把特征分为三类可以把特征分为三类可以把特征分为三类1 1 物理的;物理的;物理的;物理的;2 2 结构的;结构的;结构的;结构的;3 3 数学的。数学的。数学的。数学的。分类器分类器x1x2x3.xd对对象象选择选择.提取提取模式的特征的有效性直接影响分类器的设计和性能模式的特征的有效性直接影响分类器的设计和性能模式的特征的有效性直接影响分类器的设计和性能模式的特征的有效性直接影响分类器的设计和性能.由信息获由信息
3、获由信息获由信息获取部分获得的原始数据量一般是相当大的取部分获得的原始数据量一般是相当大的取部分获得的原始数据量一般是相当大的取部分获得的原始数据量一般是相当大的.为了有效地实现分为了有效地实现分为了有效地实现分为了有效地实现分类识别,要对原始数据进行选择或变换,得到最能反应分类本类识别,要对原始数据进行选择或变换,得到最能反应分类本类识别,要对原始数据进行选择或变换,得到最能反应分类本类识别,要对原始数据进行选择或变换,得到最能反应分类本质的待征,构成特征向量质的待征,构成特征向量质的待征,构成特征向量质的待征,构成特征向量.这就是特征抽取与选择的过程这就是特征抽取与选择的过程这就是特征抽取
4、与选择的过程这就是特征抽取与选择的过程.传感器传感器y1y2y3.ym学习学习.训练训练在一个较完善的模式识别系统中,明显或隐含的要在一个较完善的模式识别系统中,明显或隐含的要在一个较完善的模式识别系统中,明显或隐含的要在一个较完善的模式识别系统中,明显或隐含的要有特征提取与选择技术环节,其通常处于对象特征有特征提取与选择技术环节,其通常处于对象特征有特征提取与选择技术环节,其通常处于对象特征有特征提取与选择技术环节,其通常处于对象特征数据采集和分类识别两个环节之间数据采集和分类识别两个环节之间数据采集和分类识别两个环节之间数据采集和分类识别两个环节之间.基本概念基本概念基本概念基本概念特征选
5、择:特征选择:特征选择:特征选择:从一组特征中挑选出一些最有效的特征以达到降从一组特征中挑选出一些最有效的特征以达到降从一组特征中挑选出一些最有效的特征以达到降从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫特征选择。低特征空间维数的目的,这个过程叫特征选择。低特征空间维数的目的,这个过程叫特征选择。低特征空间维数的目的,这个过程叫特征选择。特征提取:特征提取:特征提取:特征提取:将一组高维特征,通过变换的方法得到一组新的将一组高维特征,通过变换的方法得到一组新的将一组高维特征,通过变换的方法得到一组新的将一组高维特征,通过变换的方法得到一组新的低维特征,这个过程叫特
6、征提取。低维特征,这个过程叫特征提取。低维特征,这个过程叫特征提取。低维特征,这个过程叫特征提取。特征形成:特征形成:特征形成:特征形成:根据被识别的对象产生出一组基本特征(也可称为根据被识别的对象产生出一组基本特征(也可称为根据被识别的对象产生出一组基本特征(也可称为根据被识别的对象产生出一组基本特征(也可称为原始特征),它可以是计算出来的,也可以是用仪原始特征),它可以是计算出来的,也可以是用仪原始特征),它可以是计算出来的,也可以是用仪原始特征),它可以是计算出来的,也可以是用仪表或传感器测量出来的。表或传感器测量出来的。表或传感器测量出来的。表或传感器测量出来的。特征提取:特征提取:特
7、征提取:特征提取:模式空间模式空间特征空间特征空间高维高维高维高维低维低维低维低维特征选择:特征选择:特征选择:特征选择:特征集特征集特征子集特征子集变换变换变换变换挑选挑选挑选挑选特征提取器特征提取器特征提取器特征提取器特征选择器特征选择器特征选择器特征选择器 说明:说明:说明:说明:有时特征提取和选择并不是截然分开的。例如,可以先将原有时特征提取和选择并不是截然分开的。例如,可以先将原有时特征提取和选择并不是截然分开的。例如,可以先将原有时特征提取和选择并不是截然分开的。例如,可以先将原始特征空间映射到维数较低的空间,在这个空间中再进行选始特征空间映射到维数较低的空间,在这个空间中再进行选
8、始特征空间映射到维数较低的空间,在这个空间中再进行选始特征空间映射到维数较低的空间,在这个空间中再进行选择以进一步降低维数;也可以先经过选择去掉那些明显没有择以进一步降低维数;也可以先经过选择去掉那些明显没有择以进一步降低维数;也可以先经过选择去掉那些明显没有择以进一步降低维数;也可以先经过选择去掉那些明显没有分类信息的特征,再进行映射以降低维数。分类信息的特征,再进行映射以降低维数。分类信息的特征,再进行映射以降低维数。分类信息的特征,再进行映射以降低维数。即在模式识别中,特征提取与特征选择作为两个过程,它们即在模式识别中,特征提取与特征选择作为两个过程,它们即在模式识别中,特征提取与特征选
9、择作为两个过程,它们即在模式识别中,特征提取与特征选择作为两个过程,它们的先后次序并不是固定不变的。在处理实际问题时,可以根的先后次序并不是固定不变的。在处理实际问题时,可以根的先后次序并不是固定不变的。在处理实际问题时,可以根的先后次序并不是固定不变的。在处理实际问题时,可以根据具体情况决定先进行哪一个过程。据具体情况决定先进行哪一个过程。据具体情况决定先进行哪一个过程。据具体情况决定先进行哪一个过程。本本本本章讨论特征的选择与提取方法章讨论特征的选择与提取方法章讨论特征的选择与提取方法章讨论特征的选择与提取方法.特征提取特征提取特征选择特征选择1 1 1 1类别可分离性判据类别可分离性判据
10、类别可分离性判据类别可分离性判据1.准则函数-判据2.基于类间距离的可分性判据3.基于概率分布的可分性判据4.基于熵函数的可分性判据1.1.1.1.准则函数准则函数准则函数准则函数 特征选择与提取的任务是求出一组对分类最有效特征选择与提取的任务是求出一组对分类最有效特征选择与提取的任务是求出一组对分类最有效特征选择与提取的任务是求出一组对分类最有效的特征,因此我们需要一个的特征,因此我们需要一个的特征,因此我们需要一个的特征,因此我们需要一个定量的准则定量的准则定量的准则定量的准则(或称(或称(或称(或称判据判据判据判据)来衡量特征对分类的来衡量特征对分类的来衡量特征对分类的来衡量特征对分类的
11、有效性有效性有效性有效性。由于直接用错误概率作为标准来分析特征的有效性由于直接用错误概率作为标准来分析特征的有效性由于直接用错误概率作为标准来分析特征的有效性由于直接用错误概率作为标准来分析特征的有效性比较困难我们希望找出另外一些更实用的准则来衡比较困难我们希望找出另外一些更实用的准则来衡比较困难我们希望找出另外一些更实用的准则来衡比较困难我们希望找出另外一些更实用的准则来衡量备类间的可分性,并希望可分性准则满足下列几量备类间的可分性,并希望可分性准则满足下列几量备类间的可分性,并希望可分性准则满足下列几量备类间的可分性,并希望可分性准则满足下列几条要求条要求条要求条要求1)1)与错误概率(或
12、它的上下界)有单调关系与错误概率(或它的上下界)有单调关系与错误概率(或它的上下界)有单调关系与错误概率(或它的上下界)有单调关系2)2)当特征独立时有可加性当特征独立时有可加性当特征独立时有可加性当特征独立时有可加性3)3)度量特性(非负性,互反性)度量特性(非负性,互反性)度量特性(非负性,互反性)度量特性(非负性,互反性)4)4)单调性,即加入新的特征时,判据不减小单调性,即加入新的特征时,判据不减小单调性,即加入新的特征时,判据不减小单调性,即加入新的特征时,判据不减小2.2.类内类间距离类内类间距离类内类间距离类内类间距离各类样本可以分开是因为它们位于特征空间的不同区各类样本可以分开
13、是因为它们位于特征空间的不同区各类样本可以分开是因为它们位于特征空间的不同区各类样本可以分开是因为它们位于特征空间的不同区域,显然这些区域之间距离越大,类别可分性就越大。域,显然这些区域之间距离越大,类别可分性就越大。域,显然这些区域之间距离越大,类别可分性就越大。域,显然这些区域之间距离越大,类别可分性就越大。基本思想:基本思想:基本思想:基本思想:考虑考虑考虑考虑最简单的两类情况,最简单的两类情况,最简单的两类情况,最简单的两类情况,11和和和和22,11中任一点与中任一点与中任一点与中任一点与22中的每一点都有一个距离,把所有这些距离相加中的每一点都有一个距离,把所有这些距离相加中的每一
14、点都有一个距离,把所有这些距离相加中的每一点都有一个距离,把所有这些距离相加求平均,可用这个均值来代表这两类之间的距离求平均,可用这个均值来代表这两类之间的距离求平均,可用这个均值来代表这两类之间的距离求平均,可用这个均值来代表这两类之间的距离,多多多多类情况是基于它的推导。类情况是基于它的推导。类情况是基于它的推导。类情况是基于它的推导。如何表示两个类区之间的距离如何表示两个类区之间的距离如何表示两个类区之间的距离如何表示两个类区之间的距离?我们定义各类特征向量之间的平均距离为:我们定义各类特征向量之间的平均距离为:我们定义各类特征向量之间的平均距离为:我们定义各类特征向量之间的平均距离为:
15、代入化简可得代入化简可得代入化简可得代入化简可得说明说明说明说明1)基于类内类间距离的可分离性判据是一种常用的判基于类内类间距离的可分离性判据是一种常用的判基于类内类间距离的可分离性判据是一种常用的判基于类内类间距离的可分离性判据是一种常用的判据,它据,它据,它据,它 实际上是各类向量之间的平均距离。实际上是各类向量之间的平均距离。实际上是各类向量之间的平均距离。实际上是各类向量之间的平均距离。2)2)具体而言,即具体而言,即具体而言,即具体而言,即J J(x x)表示各类特征向量之间的平均表示各类特征向量之间的平均表示各类特征向量之间的平均表示各类特征向量之间的平均距离,我们通常认为距离,我
16、们通常认为距离,我们通常认为距离,我们通常认为J J(x x)越大,可分离性越好。越大,可分离性越好。越大,可分离性越好。越大,可分离性越好。3)3)这种判据优点是计算简单;缺点是当类间距离较小,这种判据优点是计算简单;缺点是当类间距离较小,这种判据优点是计算简单;缺点是当类间距离较小,这种判据优点是计算简单;缺点是当类间距离较小,类内距离较大时,判据仍有可能取得较大的值,而类内距离较大时,判据仍有可能取得较大的值,而类内距离较大时,判据仍有可能取得较大的值,而类内距离较大时,判据仍有可能取得较大的值,而此时的可分离性并不大。此时的可分离性并不大。此时的可分离性并不大。此时的可分离性并不大。3
17、.3.基于概率分布的可分性判据基于概率分布的可分性判据基于概率分布的可分性判据基于概率分布的可分性判据 上面介绍的距离准则是直接从各类样本间的距离算出上面介绍的距离准则是直接从各类样本间的距离算出上面介绍的距离准则是直接从各类样本间的距离算出上面介绍的距离准则是直接从各类样本间的距离算出的的的的,没有考虑各类的概率分布没有考虑各类的概率分布没有考虑各类的概率分布没有考虑各类的概率分布,不能确切表明各类交叠不能确切表明各类交叠不能确切表明各类交叠不能确切表明各类交叠的情况,因此与错误概率没有直接联系的情况,因此与错误概率没有直接联系的情况,因此与错误概率没有直接联系的情况,因此与错误概率没有直接
18、联系,下面提出一下面提出一下面提出一下面提出一些基于概率分布的可分性判据些基于概率分布的可分性判据些基于概率分布的可分性判据些基于概率分布的可分性判据.两个分布密度函数之间的距离两个分布密度函数之间的距离两个分布密度函数之间的距离两个分布密度函数之间的距离任何函数任何函数任何函数任何函数J J,如果满足下述条件,都可用来作为类分,如果满足下述条件,都可用来作为类分,如果满足下述条件,都可用来作为类分,如果满足下述条件,都可用来作为类分离性的概率距离度量。离性的概率距离度量。离性的概率距离度量。离性的概率距离度量。1)J1)J具有非负性具有非负性具有非负性具有非负性2)2)当两类完全不交叠时,当
19、两类完全不交叠时,当两类完全不交叠时,当两类完全不交叠时,J J取最大值取最大值取最大值取最大值3)3)当两类分布密度相同时,当两类分布密度相同时,当两类分布密度相同时,当两类分布密度相同时,J J应为应为应为应为0 0如图所示,图如图所示,图如图所示,图如图所示,图1 1 1 1表示两类为完全可分的情况,而图表示两类为完全可分的情况,而图表示两类为完全可分的情况,而图表示两类为完全可分的情况,而图2 2 2 2则则则则表示两类完全不可分的。表示两类完全不可分的。表示两类完全不可分的。表示两类完全不可分的。P P(x x 11)=P=P(x x 22)图图图图2 2 2 2图图图图1 1 1
20、1P P(x x 11)P P(x x 22)=0=0(1)Bhattacharyya(1)Bhattacharyya距离距离距离距离注:注:注:注:s s是在是在是在是在00,11区间取值的一个参数,当区间取值的一个参数,当区间取值的一个参数,当区间取值的一个参数,当s=0.5s=0.5时,上述二者相等时,上述二者相等时,上述二者相等时,上述二者相等(2)(2)ChernoffChernoff距离距离距离距离定义散度等于各类平均可分信息之和:定义散度等于各类平均可分信息之和:定义散度等于各类平均可分信息之和:定义散度等于各类平均可分信息之和:(3)散度散度对数似然比对数似然比对数似然比对数似
21、然比可以提供可以提供可以提供可以提供11类对类对类对类对22类的可分性信息类的可分性信息类的可分性信息类的可分性信息11类对类对类对类对22类的平均可分性信息为类的平均可分性信息为类的平均可分性信息为类的平均可分性信息为4.4.基于熵函数的可分性判据基于熵函数的可分性判据基于熵函数的可分性判据基于熵函数的可分性判据最佳分类器由后验概率确定,所以可由特征的后最佳分类器由后验概率确定,所以可由特征的后最佳分类器由后验概率确定,所以可由特征的后最佳分类器由后验概率确定,所以可由特征的后验概率分布来衡量它对分类的有效性。验概率分布来衡量它对分类的有效性。验概率分布来衡量它对分类的有效性。验概率分布来衡
22、量它对分类的有效性。两种特殊情形下最佳分类器的错误率两种特殊情形下最佳分类器的错误率两种特殊情形下最佳分类器的错误率两种特殊情形下最佳分类器的错误率:1)1)各类后验概率是相等各类后验概率是相等各类后验概率是相等各类后验概率是相等错误率错误率错误率错误率错误率错误率错误率错误率可见后验概率越集中可见后验概率越集中可见后验概率越集中可见后验概率越集中,错误概率就越小错误概率就越小错误概率就越小错误概率就越小.后验概率分后验概率分后验概率分后验概率分布越平缓布越平缓布越平缓布越平缓(接近均匀分布接近均匀分布接近均匀分布接近均匀分布),则分类错误概率就越大,则分类错误概率就越大,则分类错误概率就越大
23、,则分类错误概率就越大.设设设设 为可能取值为为可能取值为为可能取值为为可能取值为 i i,(i=1,2,c ),(i=1,2,c )的一个随机变量的一个随机变量的一个随机变量的一个随机变量,它的取值它的取值它的取值它的取值 依赖于分布密度为依赖于分布密度为依赖于分布密度为依赖于分布密度为p(p(x x)的随机向量的随机向量的随机向量的随机向量x x(特征特征特征特征向量向量向量向量),即给定,即给定,即给定,即给定x x后后后后 的概率为的概率为的概率为的概率为p(p(/x x).).为了衡量后验概率分布的集中程度,需要规定一个为了衡量后验概率分布的集中程度,需要规定一个为了衡量后验概率分布
24、的集中程度,需要规定一个为了衡量后验概率分布的集中程度,需要规定一个定量准则定量准则定量准则定量准则.我们可以借助于信息论中关于熵的概念我们可以借助于信息论中关于熵的概念我们可以借助于信息论中关于熵的概念我们可以借助于信息论中关于熵的概念.我们想知道的是:我们想知道的是:我们想知道的是:我们想知道的是:给定某一给定某一给定某一给定某一x x后后后后,我们从观察,我们从观察,我们从观察,我们从观察得到得到得到得到的的的的结果中得到了多少信息结果中得到了多少信息结果中得到了多少信息结果中得到了多少信息?或者说或者说或者说或者说 的不确定性减少了的不确定性减少了的不确定性减少了的不确定性减少了多少多
25、少多少多少?从特征提取的角度看,显然用从特征提取的角度看,显然用从特征提取的角度看,显然用从特征提取的角度看,显然用具有最小不确定性具有最小不确定性具有最小不确定性具有最小不确定性的那的那的那的那些特征进行分类是有利的。在信息论中用些特征进行分类是有利的。在信息论中用些特征进行分类是有利的。在信息论中用些特征进行分类是有利的。在信息论中用“熵熵熵熵”作为作为作为作为不确定性的度量不确定性的度量不确定性的度量不确定性的度量.iji j 重叠程度越大重叠程度越大重叠程度越大重叠程度越大熵函数值越大熵函数值越大熵函数值越大熵函数值越大1)1)广义熵广义熵广义熵广义熵 为大于为大于为大于为大于1 1的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 提取 选择
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内