模式识别特征的选择和提取.pptx
《模式识别特征的选择和提取.pptx》由会员分享,可在线阅读,更多相关《模式识别特征的选择和提取.pptx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1模式识别特征的选择和提取模式识别特征的选择和提取 特征选择特征选择特征选择特征选择和和和和提取提取提取提取的任务是如何从许多特征中的任务是如何从许多特征中的任务是如何从许多特征中的任务是如何从许多特征中找出那些最找出那些最找出那些最找出那些最有效的特征有效的特征有效的特征有效的特征,把高维特征空间压缩,把高维特征空间压缩,把高维特征空间压缩,把高维特征空间压缩到低维特征空间。到低维特征空间。到低维特征空间。到低维特征空间。特征的种类特征的种类特征的种类特征的种类有物理的、结构的、数学的。物有物理的、结构的、数学的。物有物理的、结构的、数学的。物有物理的、结构的、数学的。物理的、结构的特
2、征,人的感觉器官容易感受,理的、结构的特征,人的感觉器官容易感受,理的、结构的特征,人的感觉器官容易感受,理的、结构的特征,人的感觉器官容易感受,数学的特征,如均值、相关系数、协方差矩阵数学的特征,如均值、相关系数、协方差矩阵数学的特征,如均值、相关系数、协方差矩阵数学的特征,如均值、相关系数、协方差矩阵的特征值和特征向量等。的特征值和特征向量等。的特征值和特征向量等。的特征值和特征向量等。物理和结构特征和所处理的具体问题有关,物理和结构特征和所处理的具体问题有关,物理和结构特征和所处理的具体问题有关,物理和结构特征和所处理的具体问题有关,在解决实际问题时可以依据具体问题而定。在解决实际问题时
3、可以依据具体问题而定。在解决实际问题时可以依据具体问题而定。在解决实际问题时可以依据具体问题而定。这一节研究一般的特征提取和选择的方法。这一节研究一般的特征提取和选择的方法。这一节研究一般的特征提取和选择的方法。这一节研究一般的特征提取和选择的方法。第1页/共61页2.几个术语的含义在一些书籍和文献中,在不完全相同在一些书籍和文献中,在不完全相同在一些书籍和文献中,在不完全相同在一些书籍和文献中,在不完全相同的意义上使用的意义上使用的意义上使用的意义上使用“特征提取特征提取特征提取特征提取”和和和和“特征选择特征选择特征选择特征选择”的术语。例如的术语。例如的术语。例如的术语。例如“特征提取特
4、征提取特征提取特征提取”,有的专指特征,有的专指特征,有的专指特征,有的专指特征的形成过程,的形成过程,的形成过程,的形成过程,有的指特征的形成、经选择或有的指特征的形成、经选择或有的指特征的形成、经选择或有的指特征的形成、经选择或变换后得到有效特征的过程。变换后得到有效特征的过程。变换后得到有效特征的过程。变换后得到有效特征的过程。为了方便以后的讨论,我们把特征提为了方便以后的讨论,我们把特征提为了方便以后的讨论,我们把特征提为了方便以后的讨论,我们把特征提取、特征选择的含义明确一下。取、特征选择的含义明确一下。取、特征选择的含义明确一下。取、特征选择的含义明确一下。第2页/共61页 模式特
5、征的产生过程一般包括以下步骤:模式特征的产生过程一般包括以下步骤:模式特征的产生过程一般包括以下步骤:模式特征的产生过程一般包括以下步骤:1 1原始特征的形成:用仪表或传感器测量原始特征的形成:用仪表或传感器测量原始特征的形成:用仪表或传感器测量原始特征的形成:用仪表或传感器测量出来的一些特征量,或出来的一些特征量,或出来的一些特征量,或出来的一些特征量,或通过计算得到的一些通过计算得到的一些通过计算得到的一些通过计算得到的一些特征(对波形和图象),称为原始特征、原特征(对波形和图象),称为原始特征、原特征(对波形和图象),称为原始特征、原特征(对波形和图象),称为原始特征、原始测量或一次特征
6、。始测量或一次特征。始测量或一次特征。始测量或一次特征。第3页/共61页 2 2 2 2特征提取:特征提取:特征提取:特征提取:原始特征的数量可能原始特征的数量可能原始特征的数量可能原始特征的数量可能很大,需要通过变换(映射)把高维特征空很大,需要通过变换(映射)把高维特征空很大,需要通过变换(映射)把高维特征空很大,需要通过变换(映射)把高维特征空间降到低维空间,这时的特征叫二次特征,间降到低维空间,这时的特征叫二次特征,间降到低维空间,这时的特征叫二次特征,间降到低维空间,这时的特征叫二次特征,它们一般是原始特征的它们一般是原始特征的它们一般是原始特征的它们一般是原始特征的某种组合某种组合
7、某种组合某种组合。通过变换通过变换通过变换通过变换A A:X X Y Y,测量空间测量空间测量空间测量空间 特征空间特征空间特征空间特征空间 需要尽可能多地保留对分类和表示有利的信需要尽可能多地保留对分类和表示有利的信需要尽可能多地保留对分类和表示有利的信需要尽可能多地保留对分类和表示有利的信息。息。息。息。好处好处好处好处 :减少计算量:减少计算量:减少计算量:减少计算量;在样本少时,在样本少时,在样本少时,在样本少时,便于估计密度函数;提高分类器设计的性能。便于估计密度函数;提高分类器设计的性能。便于估计密度函数;提高分类器设计的性能。便于估计密度函数;提高分类器设计的性能。第4页/共61
8、页 3 3特征选择:特征选择:特征选择:特征选择:从得到的一组特征中,从得到的一组特征中,从得到的一组特征中,从得到的一组特征中,挑选最有效的特征以进一步减少特征空间的挑选最有效的特征以进一步减少特征空间的挑选最有效的特征以进一步减少特征空间的挑选最有效的特征以进一步减少特征空间的维数,得到它的一个有效维数,得到它的一个有效维数,得到它的一个有效维数,得到它的一个有效子集子集子集子集。第5页/共61页 特征的提取和选择是人类的一项基本特征的提取和选择是人类的一项基本特征的提取和选择是人类的一项基本特征的提取和选择是人类的一项基本智能活动,从相关和不相关信息中找出主智能活动,从相关和不相关信息中
9、找出主智能活动,从相关和不相关信息中找出主智能活动,从相关和不相关信息中找出主要要要要因素。因素。因素。因素。例如在细胞识别中,用变换的方法例如在细胞识别中,用变换的方法例如在细胞识别中,用变换的方法例如在细胞识别中,用变换的方法较较较较少的特征,用选择的方法少的特征,用选择的方法少的特征,用选择的方法少的特征,用选择的方法专家意见,或用专家意见,或用专家意见,或用专家意见,或用数学方法进行筛选,从数学方法进行筛选,从数学方法进行筛选,从数学方法进行筛选,从n n个个个个mm个。个。个。个。但但但但“提取提取提取提取”和和和和“选择选择选择选择”不是截然分开的。不是截然分开的。不是截然分开的。
10、不是截然分开的。具体指什么要从上下文去理解。具体指什么要从上下文去理解。具体指什么要从上下文去理解。具体指什么要从上下文去理解。特征选择时,特征选择时,特征选择时,特征选择时,前前前前mm个最好的不一定组合个最好的不一定组合个最好的不一定组合个最好的不一定组合后也是最好的。后也是最好的。后也是最好的。后也是最好的。第6页/共61页特征提取可以看作是在减少维数的同时,特征提取可以看作是在减少维数的同时,特征提取可以看作是在减少维数的同时,特征提取可以看作是在减少维数的同时,又能代表、表示原观测向量。又能代表、表示原观测向量。又能代表、表示原观测向量。又能代表、表示原观测向量。模式识别的任务是判别
11、、分类。维数减模式识别的任务是判别、分类。维数减模式识别的任务是判别、分类。维数减模式识别的任务是判别、分类。维数减少、一般错误率要增加,要限制在一定范围内。少、一般错误率要增加,要限制在一定范围内。少、一般错误率要增加,要限制在一定范围内。少、一般错误率要增加,要限制在一定范围内。第7页/共61页7.2基于特征向量分析的特征提取方法 这一节讨论基于相关矩阵或协方差矩这一节讨论基于相关矩阵或协方差矩这一节讨论基于相关矩阵或协方差矩这一节讨论基于相关矩阵或协方差矩阵的特征向量的特征抽取方法。这一方法和阵的特征向量的特征抽取方法。这一方法和阵的特征向量的特征抽取方法。这一方法和阵的特征向量的特征抽
12、取方法。这一方法和统计上的主因子分析以及随机过程中的统计上的主因子分析以及随机过程中的统计上的主因子分析以及随机过程中的统计上的主因子分析以及随机过程中的K-K-L L(Karhunen-LoeveKarhunen-Loeve)变换(展开)有密切)变换(展开)有密切)变换(展开)有密切)变换(展开)有密切关系。关系。关系。关系。第8页/共61页1.模式最优表示特征的提取 假定有一假定有一假定有一假定有一n n维向量维向量维向量维向量x x,希望能用,希望能用,希望能用,希望能用mm(mm问题是找一组基问题是找一组基问题是找一组基问题是找一组基 u uj j ,使得均方误差,使得均方误差,使得均
13、方误差,使得均方误差 =E E|2 2=E E|x x-|-|2 2 最小。最小。最小。最小。这时的这时的这时的这时的y yi i 就是从就是从就是从就是从x x导出的特征,而导出的特征,而导出的特征,而导出的特征,而 y y=u ummT T x x就表示特征变换(由就表示特征变换(由就表示特征变换(由就表示特征变换(由n n维维维维mm维)。维)。维)。维)。第11页/共61页 根据误差公式和基是标准正交的条件,根据误差公式和基是标准正交的条件,根据误差公式和基是标准正交的条件,根据误差公式和基是标准正交的条件,=E E T T T T =E E ()()()()()=如果把如果把如果把如
14、果把y yj j2 2 写成写成写成写成y yj j2 2 =(y yj j)(y yj j)=(u uj jT Tx x)(x xT Tu uj j)则则则则 E E y yj j2 2=u uj jT T E E xxxxT T u uj j =u uj jT TRuRuj j ,其中其中其中其中R R是自相关矩阵是自相关矩阵是自相关矩阵是自相关矩阵 (*)第12页/共61页 =要找一组基,使要找一组基,使要找一组基,使要找一组基,使 最小,最小,最小,最小,同时要满足:同时要满足:同时要满足:同时要满足:u uj jT T u uj j =1=1,j j=mm+1,+1,n n.把约束把
15、约束把约束把约束u uj jT T u uj j =1=1用拉格朗日乘子(法)用拉格朗日乘子(法)用拉格朗日乘子(法)用拉格朗日乘子(法)写入误差中,有写入误差中,有写入误差中,有写入误差中,有 =+(*)式的误差化为:第13页/共61页 =2(=2(=2(=2(RuRuj j u uj j)=0)=0)=0)=0,j j=mm+1+1,,n n 上式说明上式说明上式说明上式说明u uj j必须是必须是必须是必须是R R的特征向量。的特征向量。的特征向量。的特征向量。(Re Re=e=e)这样这样这样这样,=为了使为了使为了使为了使 最小,特征向量最小,特征向量最小,特征向量最小,特征向量 u
16、 umm+1 1,u un n 必须是对应必须是对应必须是对应必须是对应最小特征值最小特征值最小特征值最小特征值的,而近似的,而近似的,而近似的,而近似x x时所时所时所时所用的用的用的用的mm个特征向量是对应个特征向量是对应个特征向量是对应个特征向量是对应mm个最大特征值个最大特征值个最大特征值个最大特征值的。的。的。的。使取极值的必要条件是:+第14页/共61页 上面推导出的特征还有其它意义上的上面推导出的特征还有其它意义上的上面推导出的特征还有其它意义上的上面推导出的特征还有其它意义上的最优性质。最优性质。最优性质。最优性质。一个分布的熵定义为一个分布的熵定义为一个分布的熵定义为一个分布
17、的熵定义为 HH=-=-E E p p(y y)粗略地说,当分布很平、延伸很广时,熵最粗略地说,当分布很平、延伸很广时,熵最粗略地说,当分布很平、延伸很广时,熵最粗略地说,当分布很平、延伸很广时,熵最大。如果大。如果大。如果大。如果x x是零均值的高斯分布,那么可以是零均值的高斯分布,那么可以是零均值的高斯分布,那么可以是零均值的高斯分布,那么可以证明所选择的特征向量具有最大熵。证明所选择的特征向量具有最大熵。证明所选择的特征向量具有最大熵。证明所选择的特征向量具有最大熵。这些特征向量沿最大方差方向,这样这些特征向量沿最大方差方向,这样这些特征向量沿最大方差方向,这样这些特征向量沿最大方差方向
18、,这样的方向是最随机的,最不确定的,这些方向的方向是最随机的,最不确定的,这些方向的方向是最随机的,最不确定的,这些方向的方向是最随机的,最不确定的,这些方向应保留下来作为特征。对最不确定的事,若应保留下来作为特征。对最不确定的事,若应保留下来作为特征。对最不确定的事,若应保留下来作为特征。对最不确定的事,若有信息(测量),最有用。有信息(测量),最有用。有信息(测量),最有用。有信息(测量),最有用。第15页/共61页 例例例例 三维观测向量的特征提取三维观测向量的特征提取三维观测向量的特征提取三维观测向量的特征提取 有一三维观测向量,其相关矩阵为有一三维观测向量,其相关矩阵为有一三维观测向
19、量,其相关矩阵为有一三维观测向量,其相关矩阵为 3 -1 03 -1 0 R R=-1 3 0=-1 3 0 0 00 30 3 它的特征值和特征向量为它的特征值和特征向量为它的特征值和特征向量为它的特征值和特征向量为 1 1=4=4,2 2=3=3,3 3=2=2第16页/共61页 1 1/0 0 1 1/e e1 1 =-1-1/e e2 2 =0 0 e e3 3 =1 1/0 0 1 1 0 0要选一个特征,应选要选一个特征,应选要选一个特征,应选要选一个特征,应选e e1 1方向,均方误方向,均方误方向,均方误方向,均方误差是差是差是差是 2 2 +3 3 =5=5,要选两个特征,应
20、选要选两个特征,应选要选两个特征,应选要选两个特征,应选e e1 1 、e e2 2方向,均方向,均方向,均方向,均方误差是方误差是方误差是方误差是 3 3 =2.=2.第17页/共61页表示模式的特征和用于分类的特征的不表示模式的特征和用于分类的特征的不表示模式的特征和用于分类的特征的不表示模式的特征和用于分类的特征的不同同同同(1 1)均值大小的影响均值大小的影响均值大小的影响均值大小的影响若均值较大,均值就会起大作用,若均值较大,均值就会起大作用,若均值较大,均值就会起大作用,若均值较大,均值就会起大作用,特征特征特征特征在均值方向。在均值方向。在均值方向。在均值方向。当两类问题的均值相
21、差较大时,可以分当两类问题的均值相差较大时,可以分当两类问题的均值相差较大时,可以分当两类问题的均值相差较大时,可以分类;但若均值差不多,则不会有好的效果。类;但若均值差不多,则不会有好的效果。类;但若均值差不多,则不会有好的效果。类;但若均值差不多,则不会有好的效果。mR=+mmT第18页/共61页(2 2)也可以使用)也可以使用)也可以使用)也可以使用协方差矩阵协方差矩阵协方差矩阵协方差矩阵,以均,以均,以均,以均值为参考点,相对于均值。值为参考点,相对于均值。值为参考点,相对于均值。值为参考点,相对于均值。(3 3)最好的表示特征不一定是最好的)最好的表示特征不一定是最好的)最好的表示特
22、征不一定是最好的)最好的表示特征不一定是最好的分类特征。分类特征。分类特征。分类特征。(3 3)有时可将坐标系移到一个类的)有时可将坐标系移到一个类的)有时可将坐标系移到一个类的)有时可将坐标系移到一个类的均值处,这时相关矩阵的最大特征值的特征均值处,这时相关矩阵的最大特征值的特征均值处,这时相关矩阵的最大特征值的特征均值处,这时相关矩阵的最大特征值的特征向量将沿两个均值的方向排列。向量将沿两个均值的方向排列。向量将沿两个均值的方向排列。向量将沿两个均值的方向排列。第19页/共61页*7.3多类问题的特征提取 下面介绍的方法是下面介绍的方法是下面介绍的方法是下面介绍的方法是FukunagaFu
23、kunaga和和和和KoontzKoontz在在在在19701970年提出的。年提出的。年提出的。年提出的。出发点是出发点是出发点是出发点是要同时考虑所有的类。要同时考虑所有的类。要同时考虑所有的类。要同时考虑所有的类。第20页/共61页1.两类时的情况令令令令R R1 1和和和和R R2 2分别是两类观测向量的相关分别是两类观测向量的相关分别是两类观测向量的相关分别是两类观测向量的相关矩阵。即矩阵。即矩阵。即矩阵。即 R Ri i=E Ei i xxxxT T ,i i=1=1,2 2另另另另 QQ=R R1 1+R R2 2令令令令S S是一线性变换,使得是一线性变换,使得是一线性变换,使
24、得是一线性变换,使得S ST TQSQS=S ST T R R1 1S S+S ST T R R2 2S S=I (*)=I (*)(R R1 1 +R R2 2 =I)=I)第21页/共61页其中其中其中其中 1/1/S S=v v1 1 v v2 2 v vn n 1/1/1/1/v vi i和和和和u ui i分别为分别为分别为分别为QQ的特征向量和特征值。的特征向量和特征值。的特征向量和特征值。的特征向量和特征值。第22页/共61页 一般地说,一般地说,一般地说,一般地说,S S并不把并不把并不把并不把R R1 1和和和和R R2 2对角化,对角化,对角化,对角化,但通过但通过但通过但
25、通过S S的线性变换,它把观测向量的线性变换,它把观测向量的线性变换,它把观测向量的线性变换,它把观测向量x x变为:变为:变为:变为:x x=S ST Tx x 变换后的相关矩阵为变换后的相关矩阵为变换后的相关矩阵为变换后的相关矩阵为R Ri i =S ST TR Ri iS S由(由(由(由(*)式有)式有)式有)式有 R R1 1 +R R2 2 =I I (*)STQS=ST R1S+ST R2S=I第23页/共61页 现在考虑在变换后新坐标系下的特征。现在考虑在变换后新坐标系下的特征。现在考虑在变换后新坐标系下的特征。现在考虑在变换后新坐标系下的特征。首先,注意到首先,注意到首先,注
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 特征 选择 提取
限制150内