模式识别特征的选择和提取精选文档.ppt
《模式识别特征的选择和提取精选文档.ppt》由会员分享,可在线阅读,更多相关《模式识别特征的选择和提取精选文档.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别特征的选择和提取本讲稿第一页,共六十二页7.1引言以前讨论分类器设计时,都假定模式的特征向量已经提取出来了(有多少特征确定了)。特征的多少(维数)、”好坏”对分类器的设计和性能有很大的影响。好的特征容易把类分开,或表示时误差较小。1.特征的维数和特征的“好坏”本讲稿第二页,共六十二页特征选择和提取的任务是如何从许多特征中找出那些最有效的特征,把高维特征空间压缩到低维特征空间。特征的种类有物理的、结构的、数学的。物理的、结构的特征,人的感觉器官容易感受,数学的特征,如均值、相关系数、协方差矩阵的特征值和特征向量等。物理和结构特征和所处理的具体问题有关,在解决实际问题时可以依据具体问题而定
2、。这一节研究一般的特征提取和选择的方法。本讲稿第三页,共六十二页2.几个术语的含义在一些书籍和文献中,在不完全相同的意义上使用“特征提取”和“特征选择”的术语。例如“特征提取”,有的专指特征的形成过程,有的指特征的形成、经选择或变换后得到有效特征的过程。为了方便以后的讨论,我们把特征提取、特征选择的含义明确一下。本讲稿第四页,共六十二页模式特征的产生过程一般包括以下步骤:1原始特征的形成:用仪表或传感器测量出来的一些特征量,或通过计算得到的一些特征(对波形和图象),称为原始特征、原始测量或一次特征。本讲稿第五页,共六十二页2特征提取:原始特征的数量可能很大,需要通过变换(映射)把高维特征空间降
3、到低维空间,这时的特征叫二次特征,它们一般是原始特征的某种组合。通过变换A:X Y,测量空间 特征空间 需要尽可能多地保留对分类和表示有利的信息。好处:减少计算量;在样本少时,便于估计密度函数;提高分类器设计的性能。本讲稿第六页,共六十二页3特征选择:从得到的一组特征中,挑选最有效的特征以进一步减少特征空间的维数,得到它的一个有效子集。本讲稿第七页,共六十二页特征的提取和选择是人类的一项基本智能活动,从相关和不相关信息中找出主要因素。例如在细胞识别中,用变换的方法较少的特征,用选择的方法专家意见,或用数学方法进行筛选,从n个m个。但“提取”和“选择”不是截然分开的。具体指什么要从上下文去理解。
4、特征选择时,前m个最好的不一定组合后也是最好的。本讲稿第八页,共六十二页特征提取可以看作是在减少维数的同时,又能代表、表示原观测向量。模式识别的任务是判别、分类。维数减少、一般错误率要增加,要限制在一定范围内。本讲稿第九页,共六十二页7.2基于特征向量分析的特征提取方法这一节讨论基于相关矩阵或协方差矩阵的特征向量的特征抽取方法。这一方法和统计上的主因子分析以及随机过程中的K-L(Karhunen-Loeve)变换(展开)有密切关系。本讲稿第十页,共六十二页1.模式最优表示特征的提取假定有一n维向量x,希望能用m(m问题是找一组基uj,使得均方误差=E|2=E|x-|2最小。这时的yi就是从x导
5、出的特征,而y=umTx就表示特征变换(由n维m维)。本讲稿第十三页,共六十二页根据误差公式和基是标准正交的条件,=ET =E()()=如果把yj2 写成yj2=(yj)(yj)=(ujTx)(xTuj)则 Eyj2=ujTExxTuj=ujTRuj,其中R是自相关矩阵(*)本讲稿第十四页,共六十二页=要找一组基,使最小,同时要满足:ujT uj=1,j=m+1,n.把约束ujT uj=1用拉格朗日乘子(法)写入误差中,有=+(*)式的误差化为:本讲稿第十五页,共六十二页 =2(Ruj uj)=0,j=m+1,,n 上式说明uj必须是R的特征向量。(Re=e)这样,=为了使最小,特征向量 um
6、+1,un必须是对应最小特征值的,而近似x时所用的m个特征向量是对应m个最大特征值的。使取极值的必要条件是:+本讲稿第十六页,共六十二页上面推导出的特征还有其它意义上的最优性质。一个分布的熵定义为H=-Ep(y)粗略地说,当分布很平、延伸很广时,熵最大。如果x是零均值的高斯分布,那么可以证明所选择的特征向量具有最大熵。这些特征向量沿最大方差方向,这样的方向是最随机的,最不确定的,这些方向应保留下来作为特征。对最不确定的事,若有信息(测量),最有用。本讲稿第十七页,共六十二页例三维观测向量的特征提取有一三维观测向量,其相关矩阵为 3-10R=-130003它的特征值和特征向量为1=4,2=3,3
7、=2本讲稿第十八页,共六十二页1/01/e1=-1/e2=0e3=1/010要选一个特征,应选e1方向,均方误差是2+3=5,要选两个特征,应选e1、e2方向,均方误差是3=2.本讲稿第十九页,共六十二页表示模式的特征和用于分类的特征的不同(1)均值大小的影响若均值较大,均值就会起大作用,特征在均值方向。当两类问题的均值相差较大时,可以分类;但若均值差不多,则不会有好的效果。mR=+mmT本讲稿第二十页,共六十二页(2)也可以使用协方差矩阵,以均值为参考点,相对于均值。(3)最好的表示特征不一定是最好的分类特征。(3)有时可将坐标系移到一个类的均值处,这时相关矩阵的最大特征值的特征向量将沿两个
8、均值的方向排列。本讲稿第二十一页,共六十二页*7.3多类问题的特征提取下面介绍的方法是Fukunaga和Koontz在1970年提出的。出发点是要同时考虑所有的类。本讲稿第二十二页,共六十二页1.两类时的情况令R1和R2分别是两类观测向量的相关矩阵。即Ri=EixxT,i=1,2另Q=R1+R2令S是一线性变换,使得STQS=ST R1S+ST R2S=I(*)(R1+R2=I)本讲稿第二十三页,共六十二页其中1/S=v1 v2 vn1/1/vi和ui分别为Q的特征向量和特征值。本讲稿第二十四页,共六十二页一般地说,S并不把R1和R2对角化,但通过S的线性变换,它把观测向量x变为:x=STx变
9、换后的相关矩阵为Ri=STRiS由(*)式有R1+R2=I(*)STQS=ST R1S+ST R2S=I本讲稿第二十五页,共六十二页现在考虑在变换后新坐标系下的特征。首先,注意到R1和R2的特征向量是相同的。假设e是R1的一个特征向量,相应的特征值是,由(*)式:R2 e=(IR1)e=e-e=(1-)ee也是R2的特征向量,相应的特征值是(1)R1+R2=I本讲稿第二十六页,共六十二页由于相关矩阵的R1 、R2是半正定的,它们的特征值是非负的,01这样,R1的大特征值正好是R2的小特征值,R1的小特征值正好是R2的大特征值,本讲稿第二十七页,共六十二页这个关系如下图:R11 e1 11 R2
10、重 2 e212要 性 n-1 e n-11n-1减 n en 1n小重要性减小本讲稿第二十八页,共六十二页对类1是最好的表示方向,对类2是最坏的,反之亦然。如何来选特征呢?有两种可能的方法。1每类各选m/2个最大特征值所对应的特征向量,当m是奇数时,再选一个不管哪类的最大特征值所对应的特征向量。2从两类的特征值中,不管哪一类,选最大的m个特征值所对应的特征向量。一般地说,这两种方法谁好谁坏和具体问题有关。本讲稿第二十九页,共六十二页一旦特征向量选好后,则特征变换由下式确定:ej1Ty=Tx=ej2TSTx,:ej1T其中S是满足STQS=I的矩阵。本讲稿第三十页,共六十二页*2.C类时的情况
11、现在考虑将模式分为C类时的特征提取问题。模式原来是用n维测量空间的向量x来表示的。每类的相关矩阵为Ri=EixxT假定各个相关矩阵的最大特征值max1,这并不失一般性,可以通过调整线性空间的比例来实现。又由于相关矩阵是半正定的,各Ri的特征值在01之间。本讲稿第三十一页,共六十二页和前面一样,令uj,j=1,2,n是观测空间的标准正交基。另x是任一观测向量,x x是它的截尾表示形式,x=y1u1+y2u2+ymum对于第i类,我们选择一组u uj,它能使第i类的均方误差最小,i i=Ei|x-x|2=(*)本讲稿第三十二页,共六十二页而同时使其它类的均方误差最大。k k=Ek|x-x|2=(k
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 特征 选择 提取 精选 文档
限制150内