欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    5-特征提取与选择.ppt

    • 资源ID:82761274       资源大小:906KB        全文页数:81页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    5-特征提取与选择.ppt

    第五章第五章第五章第五章 特征的选择与提取特征的选择与提取特征的选择与提取特征的选择与提取1 类别可分离性判据类别可分离性判据2 特征提取特征提取3 特征选择特征选择 特征提取与选择的基本任务是研究如何从众多特征特征提取与选择的基本任务是研究如何从众多特征特征提取与选择的基本任务是研究如何从众多特征特征提取与选择的基本任务是研究如何从众多特征中求出那些对分类识别中求出那些对分类识别中求出那些对分类识别中求出那些对分类识别最有效最有效最有效最有效的特征,从而实现特的特征,从而实现特的特征,从而实现特的特征,从而实现特征空间维数的压缩征空间维数的压缩征空间维数的压缩征空间维数的压缩,即获取一组即获取一组即获取一组即获取一组“少而精少而精少而精少而精”且分类且分类且分类且分类错误概率小的分类待征错误概率小的分类待征错误概率小的分类待征错误概率小的分类待征.可以把特征分为三类可以把特征分为三类可以把特征分为三类可以把特征分为三类1 1 物理的;物理的;物理的;物理的;2 2 结构的;结构的;结构的;结构的;3 3 数学的。数学的。数学的。数学的。分类器分类器x1x2x3.xd对对象象选择选择.提取提取模式的特征的有效性直接影响分类器的设计和性能模式的特征的有效性直接影响分类器的设计和性能模式的特征的有效性直接影响分类器的设计和性能模式的特征的有效性直接影响分类器的设计和性能.由信息获由信息获由信息获由信息获取部分获得的原始数据量一般是相当大的取部分获得的原始数据量一般是相当大的取部分获得的原始数据量一般是相当大的取部分获得的原始数据量一般是相当大的.为了有效地实现分为了有效地实现分为了有效地实现分为了有效地实现分类识别,要对原始数据进行选择或变换,得到最能反应分类本类识别,要对原始数据进行选择或变换,得到最能反应分类本类识别,要对原始数据进行选择或变换,得到最能反应分类本类识别,要对原始数据进行选择或变换,得到最能反应分类本质的待征,构成特征向量质的待征,构成特征向量质的待征,构成特征向量质的待征,构成特征向量.这就是特征抽取与选择的过程这就是特征抽取与选择的过程这就是特征抽取与选择的过程这就是特征抽取与选择的过程.传感器传感器y1y2y3.ym学习学习.训练训练在一个较完善的模式识别系统中,明显或隐含的要在一个较完善的模式识别系统中,明显或隐含的要在一个较完善的模式识别系统中,明显或隐含的要在一个较完善的模式识别系统中,明显或隐含的要有特征提取与选择技术环节,其通常处于对象特征有特征提取与选择技术环节,其通常处于对象特征有特征提取与选择技术环节,其通常处于对象特征有特征提取与选择技术环节,其通常处于对象特征数据采集和分类识别两个环节之间数据采集和分类识别两个环节之间数据采集和分类识别两个环节之间数据采集和分类识别两个环节之间.基本概念基本概念基本概念基本概念特征选择:特征选择:特征选择:特征选择:从一组特征中挑选出一些最有效的特征以达到降从一组特征中挑选出一些最有效的特征以达到降从一组特征中挑选出一些最有效的特征以达到降从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫特征选择。低特征空间维数的目的,这个过程叫特征选择。低特征空间维数的目的,这个过程叫特征选择。低特征空间维数的目的,这个过程叫特征选择。特征提取:特征提取:特征提取:特征提取:将一组高维特征,通过变换的方法得到一组新的将一组高维特征,通过变换的方法得到一组新的将一组高维特征,通过变换的方法得到一组新的将一组高维特征,通过变换的方法得到一组新的低维特征,这个过程叫特征提取。低维特征,这个过程叫特征提取。低维特征,这个过程叫特征提取。低维特征,这个过程叫特征提取。特征形成:特征形成:特征形成:特征形成:根据被识别的对象产生出一组基本特征(也可称为根据被识别的对象产生出一组基本特征(也可称为根据被识别的对象产生出一组基本特征(也可称为根据被识别的对象产生出一组基本特征(也可称为原始特征),它可以是计算出来的,也可以是用仪原始特征),它可以是计算出来的,也可以是用仪原始特征),它可以是计算出来的,也可以是用仪原始特征),它可以是计算出来的,也可以是用仪表或传感器测量出来的。表或传感器测量出来的。表或传感器测量出来的。表或传感器测量出来的。特征提取:特征提取:特征提取:特征提取:模式空间模式空间特征空间特征空间高维高维高维高维低维低维低维低维特征选择:特征选择:特征选择:特征选择:特征集特征集特征子集特征子集变换变换变换变换挑选挑选挑选挑选特征提取器特征提取器特征提取器特征提取器特征选择器特征选择器特征选择器特征选择器 说明:说明:说明:说明:有时特征提取和选择并不是截然分开的。例如,可以先将原有时特征提取和选择并不是截然分开的。例如,可以先将原有时特征提取和选择并不是截然分开的。例如,可以先将原有时特征提取和选择并不是截然分开的。例如,可以先将原始特征空间映射到维数较低的空间,在这个空间中再进行选始特征空间映射到维数较低的空间,在这个空间中再进行选始特征空间映射到维数较低的空间,在这个空间中再进行选始特征空间映射到维数较低的空间,在这个空间中再进行选择以进一步降低维数;也可以先经过选择去掉那些明显没有择以进一步降低维数;也可以先经过选择去掉那些明显没有择以进一步降低维数;也可以先经过选择去掉那些明显没有择以进一步降低维数;也可以先经过选择去掉那些明显没有分类信息的特征,再进行映射以降低维数。分类信息的特征,再进行映射以降低维数。分类信息的特征,再进行映射以降低维数。分类信息的特征,再进行映射以降低维数。即在模式识别中,特征提取与特征选择作为两个过程,它们即在模式识别中,特征提取与特征选择作为两个过程,它们即在模式识别中,特征提取与特征选择作为两个过程,它们即在模式识别中,特征提取与特征选择作为两个过程,它们的先后次序并不是固定不变的。在处理实际问题时,可以根的先后次序并不是固定不变的。在处理实际问题时,可以根的先后次序并不是固定不变的。在处理实际问题时,可以根的先后次序并不是固定不变的。在处理实际问题时,可以根据具体情况决定先进行哪一个过程。据具体情况决定先进行哪一个过程。据具体情况决定先进行哪一个过程。据具体情况决定先进行哪一个过程。本本本本章讨论特征的选择与提取方法章讨论特征的选择与提取方法章讨论特征的选择与提取方法章讨论特征的选择与提取方法.特征提取特征提取特征选择特征选择1 1 1 1类别可分离性判据类别可分离性判据类别可分离性判据类别可分离性判据1.准则函数-判据2.基于类间距离的可分性判据3.基于概率分布的可分性判据4.基于熵函数的可分性判据1.1.1.1.准则函数准则函数准则函数准则函数 特征选择与提取的任务是求出一组对分类最有效特征选择与提取的任务是求出一组对分类最有效特征选择与提取的任务是求出一组对分类最有效特征选择与提取的任务是求出一组对分类最有效的特征,因此我们需要一个的特征,因此我们需要一个的特征,因此我们需要一个的特征,因此我们需要一个定量的准则定量的准则定量的准则定量的准则(或称(或称(或称(或称判据判据判据判据)来衡量特征对分类的来衡量特征对分类的来衡量特征对分类的来衡量特征对分类的有效性有效性有效性有效性。由于直接用错误概率作为标准来分析特征的有效性由于直接用错误概率作为标准来分析特征的有效性由于直接用错误概率作为标准来分析特征的有效性由于直接用错误概率作为标准来分析特征的有效性比较困难我们希望找出另外一些更实用的准则来衡比较困难我们希望找出另外一些更实用的准则来衡比较困难我们希望找出另外一些更实用的准则来衡比较困难我们希望找出另外一些更实用的准则来衡量备类间的可分性,并希望可分性准则满足下列几量备类间的可分性,并希望可分性准则满足下列几量备类间的可分性,并希望可分性准则满足下列几量备类间的可分性,并希望可分性准则满足下列几条要求条要求条要求条要求1)1)与错误概率(或它的上下界)有单调关系与错误概率(或它的上下界)有单调关系与错误概率(或它的上下界)有单调关系与错误概率(或它的上下界)有单调关系2)2)当特征独立时有可加性当特征独立时有可加性当特征独立时有可加性当特征独立时有可加性3)3)度量特性(非负性,互反性)度量特性(非负性,互反性)度量特性(非负性,互反性)度量特性(非负性,互反性)4)4)单调性,即加入新的特征时,判据不减小单调性,即加入新的特征时,判据不减小单调性,即加入新的特征时,判据不减小单调性,即加入新的特征时,判据不减小2.2.类内类间距离类内类间距离类内类间距离类内类间距离各类样本可以分开是因为它们位于特征空间的不同区各类样本可以分开是因为它们位于特征空间的不同区各类样本可以分开是因为它们位于特征空间的不同区各类样本可以分开是因为它们位于特征空间的不同区域,显然这些区域之间距离越大,类别可分性就越大。域,显然这些区域之间距离越大,类别可分性就越大。域,显然这些区域之间距离越大,类别可分性就越大。域,显然这些区域之间距离越大,类别可分性就越大。基本思想:基本思想:基本思想:基本思想:考虑考虑考虑考虑最简单的两类情况,最简单的两类情况,最简单的两类情况,最简单的两类情况,11和和和和22,11中任一点与中任一点与中任一点与中任一点与22中的每一点都有一个距离,把所有这些距离相加中的每一点都有一个距离,把所有这些距离相加中的每一点都有一个距离,把所有这些距离相加中的每一点都有一个距离,把所有这些距离相加求平均,可用这个均值来代表这两类之间的距离求平均,可用这个均值来代表这两类之间的距离求平均,可用这个均值来代表这两类之间的距离求平均,可用这个均值来代表这两类之间的距离,多多多多类情况是基于它的推导。类情况是基于它的推导。类情况是基于它的推导。类情况是基于它的推导。如何表示两个类区之间的距离如何表示两个类区之间的距离如何表示两个类区之间的距离如何表示两个类区之间的距离?我们定义各类特征向量之间的平均距离为:我们定义各类特征向量之间的平均距离为:我们定义各类特征向量之间的平均距离为:我们定义各类特征向量之间的平均距离为:代入化简可得代入化简可得代入化简可得代入化简可得说明说明说明说明1)基于类内类间距离的可分离性判据是一种常用的判基于类内类间距离的可分离性判据是一种常用的判基于类内类间距离的可分离性判据是一种常用的判基于类内类间距离的可分离性判据是一种常用的判据,它据,它据,它据,它 实际上是各类向量之间的平均距离。实际上是各类向量之间的平均距离。实际上是各类向量之间的平均距离。实际上是各类向量之间的平均距离。2)2)具体而言,即具体而言,即具体而言,即具体而言,即J J(x x)表示各类特征向量之间的平均表示各类特征向量之间的平均表示各类特征向量之间的平均表示各类特征向量之间的平均距离,我们通常认为距离,我们通常认为距离,我们通常认为距离,我们通常认为J J(x x)越大,可分离性越好。越大,可分离性越好。越大,可分离性越好。越大,可分离性越好。3)3)这种判据优点是计算简单;缺点是当类间距离较小,这种判据优点是计算简单;缺点是当类间距离较小,这种判据优点是计算简单;缺点是当类间距离较小,这种判据优点是计算简单;缺点是当类间距离较小,类内距离较大时,判据仍有可能取得较大的值,而类内距离较大时,判据仍有可能取得较大的值,而类内距离较大时,判据仍有可能取得较大的值,而类内距离较大时,判据仍有可能取得较大的值,而此时的可分离性并不大。此时的可分离性并不大。此时的可分离性并不大。此时的可分离性并不大。3.3.基于概率分布的可分性判据基于概率分布的可分性判据基于概率分布的可分性判据基于概率分布的可分性判据 上面介绍的距离准则是直接从各类样本间的距离算出上面介绍的距离准则是直接从各类样本间的距离算出上面介绍的距离准则是直接从各类样本间的距离算出上面介绍的距离准则是直接从各类样本间的距离算出的的的的,没有考虑各类的概率分布没有考虑各类的概率分布没有考虑各类的概率分布没有考虑各类的概率分布,不能确切表明各类交叠不能确切表明各类交叠不能确切表明各类交叠不能确切表明各类交叠的情况,因此与错误概率没有直接联系的情况,因此与错误概率没有直接联系的情况,因此与错误概率没有直接联系的情况,因此与错误概率没有直接联系,下面提出一下面提出一下面提出一下面提出一些基于概率分布的可分性判据些基于概率分布的可分性判据些基于概率分布的可分性判据些基于概率分布的可分性判据.两个分布密度函数之间的距离两个分布密度函数之间的距离两个分布密度函数之间的距离两个分布密度函数之间的距离任何函数任何函数任何函数任何函数J J,如果满足下述条件,都可用来作为类分,如果满足下述条件,都可用来作为类分,如果满足下述条件,都可用来作为类分,如果满足下述条件,都可用来作为类分离性的概率距离度量。离性的概率距离度量。离性的概率距离度量。离性的概率距离度量。1)J1)J具有非负性具有非负性具有非负性具有非负性2)2)当两类完全不交叠时,当两类完全不交叠时,当两类完全不交叠时,当两类完全不交叠时,J J取最大值取最大值取最大值取最大值3)3)当两类分布密度相同时,当两类分布密度相同时,当两类分布密度相同时,当两类分布密度相同时,J J应为应为应为应为0 0如图所示,图如图所示,图如图所示,图如图所示,图1 1 1 1表示两类为完全可分的情况,而图表示两类为完全可分的情况,而图表示两类为完全可分的情况,而图表示两类为完全可分的情况,而图2 2 2 2则则则则表示两类完全不可分的。表示两类完全不可分的。表示两类完全不可分的。表示两类完全不可分的。P P(x x 11)=P=P(x x 22)图图图图2 2 2 2图图图图1 1 1 1P P(x x 11)P P(x x 22)=0=0(1)Bhattacharyya(1)Bhattacharyya距离距离距离距离注:注:注:注:s s是在是在是在是在00,11区间取值的一个参数,当区间取值的一个参数,当区间取值的一个参数,当区间取值的一个参数,当s=0.5s=0.5时,上述二者相等时,上述二者相等时,上述二者相等时,上述二者相等(2)(2)ChernoffChernoff距离距离距离距离定义散度等于各类平均可分信息之和:定义散度等于各类平均可分信息之和:定义散度等于各类平均可分信息之和:定义散度等于各类平均可分信息之和:(3)散度散度对数似然比对数似然比对数似然比对数似然比可以提供可以提供可以提供可以提供11类对类对类对类对22类的可分性信息类的可分性信息类的可分性信息类的可分性信息11类对类对类对类对22类的平均可分性信息为类的平均可分性信息为类的平均可分性信息为类的平均可分性信息为4.4.基于熵函数的可分性判据基于熵函数的可分性判据基于熵函数的可分性判据基于熵函数的可分性判据最佳分类器由后验概率确定,所以可由特征的后最佳分类器由后验概率确定,所以可由特征的后最佳分类器由后验概率确定,所以可由特征的后最佳分类器由后验概率确定,所以可由特征的后验概率分布来衡量它对分类的有效性。验概率分布来衡量它对分类的有效性。验概率分布来衡量它对分类的有效性。验概率分布来衡量它对分类的有效性。两种特殊情形下最佳分类器的错误率两种特殊情形下最佳分类器的错误率两种特殊情形下最佳分类器的错误率两种特殊情形下最佳分类器的错误率:1)1)各类后验概率是相等各类后验概率是相等各类后验概率是相等各类后验概率是相等错误率错误率错误率错误率错误率错误率错误率错误率可见后验概率越集中可见后验概率越集中可见后验概率越集中可见后验概率越集中,错误概率就越小错误概率就越小错误概率就越小错误概率就越小.后验概率分后验概率分后验概率分后验概率分布越平缓布越平缓布越平缓布越平缓(接近均匀分布接近均匀分布接近均匀分布接近均匀分布),则分类错误概率就越大,则分类错误概率就越大,则分类错误概率就越大,则分类错误概率就越大.设设设设 为可能取值为为可能取值为为可能取值为为可能取值为 i i,(i=1,2,c ),(i=1,2,c )的一个随机变量的一个随机变量的一个随机变量的一个随机变量,它的取值它的取值它的取值它的取值 依赖于分布密度为依赖于分布密度为依赖于分布密度为依赖于分布密度为p(p(x x)的随机向量的随机向量的随机向量的随机向量x x(特征特征特征特征向量向量向量向量),即给定,即给定,即给定,即给定x x后后后后 的概率为的概率为的概率为的概率为p(p(/x x).).为了衡量后验概率分布的集中程度,需要规定一个为了衡量后验概率分布的集中程度,需要规定一个为了衡量后验概率分布的集中程度,需要规定一个为了衡量后验概率分布的集中程度,需要规定一个定量准则定量准则定量准则定量准则.我们可以借助于信息论中关于熵的概念我们可以借助于信息论中关于熵的概念我们可以借助于信息论中关于熵的概念我们可以借助于信息论中关于熵的概念.我们想知道的是:我们想知道的是:我们想知道的是:我们想知道的是:给定某一给定某一给定某一给定某一x x后后后后,我们从观察,我们从观察,我们从观察,我们从观察得到得到得到得到的的的的结果中得到了多少信息结果中得到了多少信息结果中得到了多少信息结果中得到了多少信息?或者说或者说或者说或者说 的不确定性减少了的不确定性减少了的不确定性减少了的不确定性减少了多少多少多少多少?从特征提取的角度看,显然用从特征提取的角度看,显然用从特征提取的角度看,显然用从特征提取的角度看,显然用具有最小不确定性具有最小不确定性具有最小不确定性具有最小不确定性的那的那的那的那些特征进行分类是有利的。在信息论中用些特征进行分类是有利的。在信息论中用些特征进行分类是有利的。在信息论中用些特征进行分类是有利的。在信息论中用“熵熵熵熵”作为作为作为作为不确定性的度量不确定性的度量不确定性的度量不确定性的度量.iji j 重叠程度越大重叠程度越大重叠程度越大重叠程度越大熵函数值越大熵函数值越大熵函数值越大熵函数值越大1)1)广义熵广义熵广义熵广义熵 为大于为大于为大于为大于1 1的正数的正数的正数的正数2)Shannon2)Shannon熵熵熵熵3)3)平方熵平方熵平方熵平方熵为了对所提取的特征进行评价,我们要计算空间每一为了对所提取的特征进行评价,我们要计算空间每一为了对所提取的特征进行评价,我们要计算空间每一为了对所提取的特征进行评价,我们要计算空间每一点的熵函数点的熵函数点的熵函数点的熵函数.在熵函数取值较大的那一部分空间,不在熵函数取值较大的那一部分空间,不在熵函数取值较大的那一部分空间,不在熵函数取值较大的那一部分空间,不同类的样本必然在较大的程度上互相重叠同类的样本必然在较大的程度上互相重叠同类的样本必然在较大的程度上互相重叠同类的样本必然在较大的程度上互相重叠.可以表征类别的分离程度,它可用来作为所提取特可以表征类别的分离程度,它可用来作为所提取特可以表征类别的分离程度,它可用来作为所提取特可以表征类别的分离程度,它可用来作为所提取特征的分类性能的准则函数征的分类性能的准则函数征的分类性能的准则函数征的分类性能的准则函数.因此因此因此因此熵函数的期望值熵函数的期望值熵函数的期望值熵函数的期望值2 2 2 2 特征提取特征提取特征提取特征提取1 1 按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法2 2 基于判别熵最小化的特征提取基于判别熵最小化的特征提取3 3 两维显示两维显示4 4 基于主成分变换的特征提取方法基于主成分变换的特征提取方法y y1 1y y2 2y ymmo o特征提取特征提取特征提取特征提取x x1 1x x2 2x x3 3x xd do od mX X空间空间空间空间 d d维维维维原始特征集原始特征集原始特征集原始特征集Y Y空间空间空间空间 mm维维维维新特征集新特征集新特征集新特征集变换变换变换变换确定变换的依据确定变换的依据确定变换的依据确定变换的依据:类别可分性判类别可分性判类别可分性判类别可分性判据据据据目标目标目标目标:在新的特征空间中在新的特征空间中在新的特征空间中在新的特征空间中,各类之间容易区分各类之间容易区分各类之间容易区分各类之间容易区分.s s s s阶阶阶阶MinkowskiMinkowskiMinkowskiMinkowski度量度量度量度量多维空间中两个向量之间有多种距离度量,下面是一多维空间中两个向量之间有多种距离度量,下面是一多维空间中两个向量之间有多种距离度量,下面是一多维空间中两个向量之间有多种距离度量,下面是一些最重要的例子:些最重要的例子:些最重要的例子:些最重要的例子:1 1 1 1 按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法 欧氏距离欧氏距离欧氏距离欧氏距离在在在在MinkowskiMinkowskiMinkowskiMinkowski度量中,令度量中,令度量中,令度量中,令s=2s=2s=2s=2,得到常用的欧氏距离:得到常用的欧氏距离:得到常用的欧氏距离:得到常用的欧氏距离:ChebychevChebychevChebychevChebychev距离距离距离距离:棋盘距离棋盘距离棋盘距离棋盘距离 MahalanobisMahalanobisMahalanobisMahalanobis距离距离距离距离:式中式中式中式中Q QQ Q是给定的正定标尺矩阵是给定的正定标尺矩阵是给定的正定标尺矩阵是给定的正定标尺矩阵所有上面所有上面所有上面所有上面x x x x的下标的意义如下:当只有一个下标时,的下标的意义如下:当只有一个下标时,的下标的意义如下:当只有一个下标时,的下标的意义如下:当只有一个下标时,此下标表示样本号;有两个下标时,第一个为样此下标表示样本号;有两个下标时,第一个为样此下标表示样本号;有两个下标时,第一个为样此下标表示样本号;有两个下标时,第一个为样本号,第二个表示该样本的特征序号。本号,第二个表示该样本的特征序号。本号,第二个表示该样本的特征序号。本号,第二个表示该样本的特征序号。以上的各种距离度量在实际应用中,在计算的复杂以上的各种距离度量在实际应用中,在计算的复杂以上的各种距离度量在实际应用中,在计算的复杂以上的各种距离度量在实际应用中,在计算的复杂性方面,在是否便于进行解析分析以及用它进行特性方面,在是否便于进行解析分析以及用它进行特性方面,在是否便于进行解析分析以及用它进行特性方面,在是否便于进行解析分析以及用它进行特征提取的效果方面都各不相同。由于欧氏距离在很征提取的效果方面都各不相同。由于欧氏距离在很征提取的效果方面都各不相同。由于欧氏距离在很征提取的效果方面都各不相同。由于欧氏距离在很多情况下便于分析和计算多情况下便于分析和计算多情况下便于分析和计算多情况下便于分析和计算.前面已经推导出了基于欧氏距离的一种度量函数,前面已经推导出了基于欧氏距离的一种度量函数,前面已经推导出了基于欧氏距离的一种度量函数,前面已经推导出了基于欧氏距离的一种度量函数,其中其中其中其中S S S Sb b b b为类间离散度矩阵为类间离散度矩阵为类间离散度矩阵为类间离散度矩阵,S S S Sw w为类内离散度矩阵为类内离散度矩阵为类内离散度矩阵为类内离散度矩阵.同样的,我们还可以提出下面各种判据:同样的,我们还可以提出下面各种判据:同样的,我们还可以提出下面各种判据:同样的,我们还可以提出下面各种判据:以以以以J J J J2 2 2 2为例为例为例为例,特征提取的步骤如下特征提取的步骤如下特征提取的步骤如下特征提取的步骤如下 作线性映射:作线性映射:作线性映射:作线性映射:其中其中其中其中X X X X为为为为d d d d维原始特征向量;维原始特征向量;维原始特征向量;维原始特征向量;Y Y Y Y为为为为m mm m维压缩后的特维压缩后的特维压缩后的特维压缩后的特征向量征向量征向量征向量 令令令令其中其中其中其中S S S Sw w w w,S S S Sb b b b为原空间(即为原空间(即为原空间(即为原空间(即X X X X的)离散度矩阵,的)离散度矩阵,的)离散度矩阵,的)离散度矩阵,S S S S*w w w w,S S S S*b b b b为映射后(即为映射后(即为映射后(即为映射后(即Y Y Y Y的)离散度矩阵的)离散度矩阵的)离散度矩阵的)离散度矩阵 J J J J2 2 2 2的表达式为:的表达式为:的表达式为:的表达式为:求变换矩阵求变换矩阵求变换矩阵求变换矩阵W,W,使使使使 J J J J2 2 2 2(WW)最大)最大)最大)最大将上式对将上式对将上式对将上式对WW的各分量求偏导数并令其为零的各分量求偏导数并令其为零的各分量求偏导数并令其为零的各分量求偏导数并令其为零,可以确定一个可以确定一个可以确定一个可以确定一个WW,从而得到使判据达最大,从而得到使判据达最大,从而得到使判据达最大,从而得到使判据达最大的变换的变换的变换的变换WW 新特征集为新特征集为新特征集为新特征集为其中其中其中其中X X X X为原始特征集为原始特征集为原始特征集为原始特征集(d(d(d(d维维维维),Y),Y),Y),Y为新特征集为新特征集为新特征集为新特征集(m(m(m(m维维维维)注注注注:WW的计算(适用于的计算(适用于的计算(适用于的计算(适用于J J J J2 2 2 2J J J J5 5 5 5判据):判据):判据):判据):则选前则选前则选前则选前m mm m个特征值对应的特征向量作为个特征值对应的特征向量作为个特征值对应的特征向量作为个特征值对应的特征向量作为WW,即:,即:,即:,即:W=W=u u1 1,u u2 2,u umm 此时此时此时此时2 2 2 2 基于判别熵最小化的特征提取基于判别熵最小化的特征提取基于判别熵最小化的特征提取基于判别熵最小化的特征提取上节中讨论了用熵作为不确定性的一种度量的表达式,这里我上节中讨论了用熵作为不确定性的一种度量的表达式,这里我上节中讨论了用熵作为不确定性的一种度量的表达式,这里我上节中讨论了用熵作为不确定性的一种度量的表达式,这里我们引入判别熵们引入判别熵们引入判别熵们引入判别熵WW(p p p p,q q q q)来表征来表征来表征来表征两类两类两类两类分布分布分布分布p p p p(x xi i)和)和)和)和q q(x xj j)差)差)差)差别大小,令:别大小,令:别大小,令:别大小,令:对于特征提取来说,我们应该对于特征提取来说,我们应该对于特征提取来说,我们应该对于特征提取来说,我们应该求得一组特征,它使上述判求得一组特征,它使上述判求得一组特征,它使上述判求得一组特征,它使上述判别熵别熵别熵别熵最小最小最小最小。计算步骤如下计算步骤如下计算步骤如下计算步骤如下 A=G1-G2,G1A=G1-G2,G1,G2G2分别是第一类样本集和第二分别是第一类样本集和第二分别是第一类样本集和第二分别是第一类样本集和第二类样本集的协方差矩阵类样本集的协方差矩阵类样本集的协方差矩阵类样本集的协方差矩阵Y Y Y Y为所要求的一组特征,它使得判别熵最小为所要求的一组特征,它使得判别熵最小为所要求的一组特征,它使得判别熵最小为所要求的一组特征,它使得判别熵最小 新特征集为新特征集为新特征集为新特征集为 将矩阵将矩阵将矩阵将矩阵A A A A的特征值进行排序的特征值进行排序的特征值进行排序的特征值进行排序选取前选取前选取前选取前m mm m个特征值对应的特征向量构成变换矩阵个特征值对应的特征向量构成变换矩阵个特征值对应的特征向量构成变换矩阵个特征值对应的特征向量构成变换矩阵W=U1W=U1W=U1W=U1,U2U2U2U2,Um Um Um Um 3 3 3 3 两维显示两维显示两维显示两维显示人的经验和直观对分类有很大作用,如果能将各人的经验和直观对分类有很大作用,如果能将各人的经验和直观对分类有很大作用,如果能将各人的经验和直观对分类有很大作用,如果能将各样本在特征空间的分布情况显示出来,我们可以样本在特征空间的分布情况显示出来,我们可以样本在特征空间的分布情况显示出来,我们可以样本在特征空间的分布情况显示出来,我们可以直接观察哪些样本聚集在一起,因而可能属于一直接观察哪些样本聚集在一起,因而可能属于一直接观察哪些样本聚集在一起,因而可能属于一直接观察哪些样本聚集在一起,因而可能属于一类。但人只能观察三维以下的空间,最好能把类。但人只能观察三维以下的空间,最好能把类。但人只能观察三维以下的空间,最好能把类。但人只能观察三维以下的空间,最好能把原原原原来的高维特征空间映射到二维平面上来的高维特征空间映射到二维平面上来的高维特征空间映射到二维平面上来的高维特征空间映射到二维平面上显示出来,显示出来,显示出来,显示出来,这一映射要尽可能的保持原来样本的分布情况,这一映射要尽可能的保持原来样本的分布情况,这一映射要尽可能的保持原来样本的分布情况,这一映射要尽可能的保持原来样本的分布情况,或者尽量使各样本间相互距离关系保持不变,上或者尽量使各样本间相互距离关系保持不变,上或者尽量使各样本间相互距离关系保持不变,上或者尽量使各样本间相互距离关系保持不变,上述所讨论的各种变换方法有利于我们解决这样一述所讨论的各种变换方法有利于我们解决这样一述所讨论的各种变换方法有利于我们解决这样一述所讨论的各种变换方法有利于我们解决这样一种两维显示的任务种两维显示的任务种两维显示的任务种两维显示的任务 线性映射线性映射线性映射线性映射两维显示只不过是前面所涉及的各种映射两维显示只不过是前面所涉及的各种映射两维显示只不过是前面所涉及的各种映射两维显示只不过是前面所涉及的各种映射(线性线性线性线性)的一种特殊情况的一种特殊情况的一种特殊情况的一种特殊情况,即即即即m=2m=2m=2m=2 非线性映射非线性映射非线性映射非线性映射对对对对一些比较复杂的样本一些比较复杂的样本一些比较复杂的样本一些比较复杂的样本,线性映射常不能满足上面线性映射常不能满足上面线性映射常不能满足上面线性映射常不能满足上面所提的保持分布不变的要求所提的保持分布不变的要求所提的保持分布不变的要求所提的保持分布不变的要求,可以用非线性映射替代可以用非线性映射替代可以用非线性映射替代可以用非线性映射替代y=y=y=y=f(xf(xf(xf(x),f),f),f),f为某一非线性函数为某一非线性函数为某一非线性函数为某一非线性函数设设设设映射前两点间距离为映射前两点间距离为映射前两点间距离为映射前两点间距离为D DD D,映射后该两点间距离为映射后该两点间距离为映射后该两点间距离为映射后该两点间距离为D*D*D*D*。希望映射后希望映射后希望映射后希望映射后D*D*D*D*尽可能等于尽可能等于尽可能等于尽可能等于D DD D。令。令。令。令e=De=De=De=DD*D*D*D*为为为为任意两点映射前后距离之差,我们要选择映射函数任意两点映射前后距离之差,我们要选择映射函数任意两点映射前后距离之差,我们要选择映射函数任意两点映射前后距离之差,我们要选择映射函数f f f f使使使使e e e e的函数值达最小的函数值达最小的函数值达最小的函数值达最小由于非线性映射比较复杂,一般情况下是用迭代算由于非线性映射比较复杂,一般情况下是用迭代算由于非线性映射比较复杂,一般情况下是用迭代算由于非线性映射比较复杂,一般情况下是用迭代算法。即选一个法。即选一个法。即选一个法。即选一个x x x x的初值,再逐步调整(每次调整的的初值,再逐步调整(每次调整的的初值,再逐步调整(每次调整的的初值,再逐步调整(每次调整的方向应使误差减小),直到满足一个停止准则(例方向应使误差减小),直到满足一个停止准则(例方向应使误差减小),直到满足一个停止准则(例方向应使误差减小),直到满足一个停止准则(例如,误差小于给定值,迭代次数超过预定次数,或如,误差小于给定值,迭代次数超过预定次数,或如,误差小于给定值,迭代次数超过预定次数,或如,误差小于给定值,迭代次数超过预定次数,或显示结果已满足观察者要求为止显示结果已满足观察者要求为止显示结果已满足观察者要求为止显示结果已满足观察者要求为止4 4 4 4 基于主成分变换的特征提取方法基于主成分变换的特征提取方法基于主成分变换的特征提取方法基于主成分变换的特征提取方法 在实际问题中在实际问题中,研究多变量问题是经常遇到的研究多变量问题是经常遇到的,然而在多数情况下然而在多数情况下,不同指标之间是有一定相关性不同指标之间是有一定相关性.由于指标较多由于指标较多,再加上指标之间有一定的相关性再加上指标之间有一定的相关性,势必增加了分析问题的复杂性势必增加了分析问题的复杂性.主成分分析就是设主成分分析就是设法将原来指标重新组合成一组新的相互无关的几法将原来指标重新组合成一组新的相互无关的几个综合指标来代替原来指标个综合指标来代替原来指标,同时根据实际需要从同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来中可取几个较少的综合指标尽可能多地反映原来指标的信息指标的信息.这种这种将多个指标化为少数相互无关的将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析综合指标的统计方法叫做主成分分析.这也是数学上处理这也是数学上处理这也是数学上处理这也是数学上处理降维降维降维降维的一种方法的一种方法的一种方法的一种方法.如下例所示如下例所示如下例所示如下例所示:某人要做一件上衣要测量很多尺寸某人要做一件上衣要测量很多尺寸某人要做一件上衣要测量很多尺寸某人要做一件上衣要测量很多尺寸,如身长、袖长等如身长、袖长等如身长、袖长等如身长、袖长等十几项指标十几项指标十几项指标十几项指标,但某服装厂要生产一批新型服装绝不可但某服装厂要生产一批新型服装绝不可但某服装厂要生产一批新型服装绝不可但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多能把尺寸的型号分得过多能把尺寸的型号分得过多能把尺寸的型号分得过多,而是从多种指标中综合成而是从多种指标中综合成而是从多种指标中综合成而是从多种指标中综合成几个少数的综合指标几个少数的综合指标几个少数的综合指标几个少数的综合指标,作为分类的型号作为分类的型号作为分类的型号作为分类的型号,如下图如下图如下图如下图:主成分分析的主成分分析的主成分分析的主成分分析的基本方法基本方法基本方法基本方法是通过构造原变量的适当是通过构造原变量的适当是通过构造原变量的适当是通过构造原变量的适当的线性组合的线性组合的线性组合的线性组合,以产生一系列互不相关的新信息以产生一系列互不相关的新信息以产生一系列互不相关的新信息以产生一系列互不相关的新信息,从中选从中选从中选从中选出少数几个新变量并使它们含有尽可能多的原变量出少数几个新变量并使它们含有尽可能多的原变量出少数几个新变量并使它们含有尽可能多的原变量出少数几个新变量并使它们含有尽可能多的原变量带有的信息带有的信息带有的信息带有的信息,从而使得用这几个新变量代替原变量分从而使得用这几个新变量代替原变量分从而使得用这几个新变量代替原变量分从而使得用这几个新变量代替原变量分析问题和解决问题成为可能析问题和解决问题成为可能析问题和解决问题成为可能析问题和解决问题成为可能.当研究的问题确定之后当研究的问题确定之后当研究的问题确定之后当研究的问题确定之后,变量中所含变量中所含变量中所含变量中所含“信息信息信息信息”的大小通常用该变量的方差或的大小通常用该变量的方差或的大小通常用该变量的方差或的大小通常用该变量的方差或样本方差来度量样本方差来度量样本方差来度量样本方差来度量.如图如图如图如图,设二维样本集设二维样本集设二维样本集设二维样本集呈现扁椭圆分布呈现扁椭圆分布呈现扁椭圆分布呈现扁椭圆分布.x1x2u将二维样本将二维样本将二维样本将二维样本X Xi i向长向长向长向长轴方向投影轴方向投影轴方向投影轴方向投影,可得到可得到可得到可得到一维样本一维样本一维样本一维样本Y Yi i设设设设u u为长轴方向的为长轴方向的为长轴方向的为长轴方向的单位向量单位向量单

    注意事项

    本文(5-特征提取与选择.ppt)为本站会员(s****8)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开