模式识别特征的选择和提取.pptx
会计学1模式识别特征的选择和提取模式识别特征的选择和提取 特征选择特征选择特征选择特征选择和和和和提取提取提取提取的任务是如何从许多特征中的任务是如何从许多特征中的任务是如何从许多特征中的任务是如何从许多特征中找出那些最找出那些最找出那些最找出那些最有效的特征有效的特征有效的特征有效的特征,把高维特征空间压缩,把高维特征空间压缩,把高维特征空间压缩,把高维特征空间压缩到低维特征空间。到低维特征空间。到低维特征空间。到低维特征空间。特征的种类特征的种类特征的种类特征的种类有物理的、结构的、数学的。物有物理的、结构的、数学的。物有物理的、结构的、数学的。物有物理的、结构的、数学的。物理的、结构的特征,人的感觉器官容易感受,理的、结构的特征,人的感觉器官容易感受,理的、结构的特征,人的感觉器官容易感受,理的、结构的特征,人的感觉器官容易感受,数学的特征,如均值、相关系数、协方差矩阵数学的特征,如均值、相关系数、协方差矩阵数学的特征,如均值、相关系数、协方差矩阵数学的特征,如均值、相关系数、协方差矩阵的特征值和特征向量等。的特征值和特征向量等。的特征值和特征向量等。的特征值和特征向量等。物理和结构特征和所处理的具体问题有关,物理和结构特征和所处理的具体问题有关,物理和结构特征和所处理的具体问题有关,物理和结构特征和所处理的具体问题有关,在解决实际问题时可以依据具体问题而定。在解决实际问题时可以依据具体问题而定。在解决实际问题时可以依据具体问题而定。在解决实际问题时可以依据具体问题而定。这一节研究一般的特征提取和选择的方法。这一节研究一般的特征提取和选择的方法。这一节研究一般的特征提取和选择的方法。这一节研究一般的特征提取和选择的方法。第1页/共61页2.几个术语的含义在一些书籍和文献中,在不完全相同在一些书籍和文献中,在不完全相同在一些书籍和文献中,在不完全相同在一些书籍和文献中,在不完全相同的意义上使用的意义上使用的意义上使用的意义上使用“特征提取特征提取特征提取特征提取”和和和和“特征选择特征选择特征选择特征选择”的术语。例如的术语。例如的术语。例如的术语。例如“特征提取特征提取特征提取特征提取”,有的专指特征,有的专指特征,有的专指特征,有的专指特征的形成过程,的形成过程,的形成过程,的形成过程,有的指特征的形成、经选择或有的指特征的形成、经选择或有的指特征的形成、经选择或有的指特征的形成、经选择或变换后得到有效特征的过程。变换后得到有效特征的过程。变换后得到有效特征的过程。变换后得到有效特征的过程。为了方便以后的讨论,我们把特征提为了方便以后的讨论,我们把特征提为了方便以后的讨论,我们把特征提为了方便以后的讨论,我们把特征提取、特征选择的含义明确一下。取、特征选择的含义明确一下。取、特征选择的含义明确一下。取、特征选择的含义明确一下。第2页/共61页 模式特征的产生过程一般包括以下步骤:模式特征的产生过程一般包括以下步骤:模式特征的产生过程一般包括以下步骤:模式特征的产生过程一般包括以下步骤:1 1原始特征的形成:用仪表或传感器测量原始特征的形成:用仪表或传感器测量原始特征的形成:用仪表或传感器测量原始特征的形成:用仪表或传感器测量出来的一些特征量,或出来的一些特征量,或出来的一些特征量,或出来的一些特征量,或通过计算得到的一些通过计算得到的一些通过计算得到的一些通过计算得到的一些特征(对波形和图象),称为原始特征、原特征(对波形和图象),称为原始特征、原特征(对波形和图象),称为原始特征、原特征(对波形和图象),称为原始特征、原始测量或一次特征。始测量或一次特征。始测量或一次特征。始测量或一次特征。第3页/共61页 2 2 2 2特征提取:特征提取:特征提取:特征提取:原始特征的数量可能原始特征的数量可能原始特征的数量可能原始特征的数量可能很大,需要通过变换(映射)把高维特征空很大,需要通过变换(映射)把高维特征空很大,需要通过变换(映射)把高维特征空很大,需要通过变换(映射)把高维特征空间降到低维空间,这时的特征叫二次特征,间降到低维空间,这时的特征叫二次特征,间降到低维空间,这时的特征叫二次特征,间降到低维空间,这时的特征叫二次特征,它们一般是原始特征的它们一般是原始特征的它们一般是原始特征的它们一般是原始特征的某种组合某种组合某种组合某种组合。通过变换通过变换通过变换通过变换A A:X X Y Y,测量空间测量空间测量空间测量空间 特征空间特征空间特征空间特征空间 需要尽可能多地保留对分类和表示有利的信需要尽可能多地保留对分类和表示有利的信需要尽可能多地保留对分类和表示有利的信需要尽可能多地保留对分类和表示有利的信息。息。息。息。好处好处好处好处 :减少计算量:减少计算量:减少计算量:减少计算量;在样本少时,在样本少时,在样本少时,在样本少时,便于估计密度函数;提高分类器设计的性能。便于估计密度函数;提高分类器设计的性能。便于估计密度函数;提高分类器设计的性能。便于估计密度函数;提高分类器设计的性能。第4页/共61页 3 3特征选择:特征选择:特征选择:特征选择:从得到的一组特征中,从得到的一组特征中,从得到的一组特征中,从得到的一组特征中,挑选最有效的特征以进一步减少特征空间的挑选最有效的特征以进一步减少特征空间的挑选最有效的特征以进一步减少特征空间的挑选最有效的特征以进一步减少特征空间的维数,得到它的一个有效维数,得到它的一个有效维数,得到它的一个有效维数,得到它的一个有效子集子集子集子集。第5页/共61页 特征的提取和选择是人类的一项基本特征的提取和选择是人类的一项基本特征的提取和选择是人类的一项基本特征的提取和选择是人类的一项基本智能活动,从相关和不相关信息中找出主智能活动,从相关和不相关信息中找出主智能活动,从相关和不相关信息中找出主智能活动,从相关和不相关信息中找出主要要要要因素。因素。因素。因素。例如在细胞识别中,用变换的方法例如在细胞识别中,用变换的方法例如在细胞识别中,用变换的方法例如在细胞识别中,用变换的方法较较较较少的特征,用选择的方法少的特征,用选择的方法少的特征,用选择的方法少的特征,用选择的方法专家意见,或用专家意见,或用专家意见,或用专家意见,或用数学方法进行筛选,从数学方法进行筛选,从数学方法进行筛选,从数学方法进行筛选,从n n个个个个mm个。个。个。个。但但但但“提取提取提取提取”和和和和“选择选择选择选择”不是截然分开的。不是截然分开的。不是截然分开的。不是截然分开的。具体指什么要从上下文去理解。具体指什么要从上下文去理解。具体指什么要从上下文去理解。具体指什么要从上下文去理解。特征选择时,特征选择时,特征选择时,特征选择时,前前前前mm个最好的不一定组合个最好的不一定组合个最好的不一定组合个最好的不一定组合后也是最好的。后也是最好的。后也是最好的。后也是最好的。第6页/共61页特征提取可以看作是在减少维数的同时,特征提取可以看作是在减少维数的同时,特征提取可以看作是在减少维数的同时,特征提取可以看作是在减少维数的同时,又能代表、表示原观测向量。又能代表、表示原观测向量。又能代表、表示原观测向量。又能代表、表示原观测向量。模式识别的任务是判别、分类。维数减模式识别的任务是判别、分类。维数减模式识别的任务是判别、分类。维数减模式识别的任务是判别、分类。维数减少、一般错误率要增加,要限制在一定范围内。少、一般错误率要增加,要限制在一定范围内。少、一般错误率要增加,要限制在一定范围内。少、一般错误率要增加,要限制在一定范围内。第7页/共61页7.2基于特征向量分析的特征提取方法 这一节讨论基于相关矩阵或协方差矩这一节讨论基于相关矩阵或协方差矩这一节讨论基于相关矩阵或协方差矩这一节讨论基于相关矩阵或协方差矩阵的特征向量的特征抽取方法。这一方法和阵的特征向量的特征抽取方法。这一方法和阵的特征向量的特征抽取方法。这一方法和阵的特征向量的特征抽取方法。这一方法和统计上的主因子分析以及随机过程中的统计上的主因子分析以及随机过程中的统计上的主因子分析以及随机过程中的统计上的主因子分析以及随机过程中的K-K-L L(Karhunen-LoeveKarhunen-Loeve)变换(展开)有密切)变换(展开)有密切)变换(展开)有密切)变换(展开)有密切关系。关系。关系。关系。第8页/共61页1.模式最优表示特征的提取 假定有一假定有一假定有一假定有一n n维向量维向量维向量维向量x x,希望能用,希望能用,希望能用,希望能用mm(mm问题是找一组基问题是找一组基问题是找一组基问题是找一组基 u uj j ,使得均方误差,使得均方误差,使得均方误差,使得均方误差 =E E|2 2=E E|x x-|-|2 2 最小。最小。最小。最小。这时的这时的这时的这时的y yi i 就是从就是从就是从就是从x x导出的特征,而导出的特征,而导出的特征,而导出的特征,而 y y=u ummT T x x就表示特征变换(由就表示特征变换(由就表示特征变换(由就表示特征变换(由n n维维维维mm维)。维)。维)。维)。第11页/共61页 根据误差公式和基是标准正交的条件,根据误差公式和基是标准正交的条件,根据误差公式和基是标准正交的条件,根据误差公式和基是标准正交的条件,=E E T T T T =E E ()()()()()=如果把如果把如果把如果把y yj j2 2 写成写成写成写成y yj j2 2 =(y yj j)(y yj j)=(u uj jT Tx x)(x xT Tu uj j)则则则则 E E y yj j2 2=u uj jT T E E xxxxT T u uj j =u uj jT TRuRuj j ,其中其中其中其中R R是自相关矩阵是自相关矩阵是自相关矩阵是自相关矩阵 (*)第12页/共61页 =要找一组基,使要找一组基,使要找一组基,使要找一组基,使 最小,最小,最小,最小,同时要满足:同时要满足:同时要满足:同时要满足:u uj jT T u uj j =1=1,j j=mm+1,+1,n n.把约束把约束把约束把约束u uj jT T u uj j =1=1用拉格朗日乘子(法)用拉格朗日乘子(法)用拉格朗日乘子(法)用拉格朗日乘子(法)写入误差中,有写入误差中,有写入误差中,有写入误差中,有 =+(*)式的误差化为:第13页/共61页 =2(=2(=2(=2(RuRuj j u uj j)=0)=0)=0)=0,j j=mm+1+1,,n n 上式说明上式说明上式说明上式说明u uj j必须是必须是必须是必须是R R的特征向量。的特征向量。的特征向量。的特征向量。(Re Re=e=e)这样这样这样这样,=为了使为了使为了使为了使 最小,特征向量最小,特征向量最小,特征向量最小,特征向量 u umm+1 1,u un n 必须是对应必须是对应必须是对应必须是对应最小特征值最小特征值最小特征值最小特征值的,而近似的,而近似的,而近似的,而近似x x时所时所时所时所用的用的用的用的mm个特征向量是对应个特征向量是对应个特征向量是对应个特征向量是对应mm个最大特征值个最大特征值个最大特征值个最大特征值的。的。的。的。使取极值的必要条件是:+第14页/共61页 上面推导出的特征还有其它意义上的上面推导出的特征还有其它意义上的上面推导出的特征还有其它意义上的上面推导出的特征还有其它意义上的最优性质。最优性质。最优性质。最优性质。一个分布的熵定义为一个分布的熵定义为一个分布的熵定义为一个分布的熵定义为 HH=-=-E E p p(y y)粗略地说,当分布很平、延伸很广时,熵最粗略地说,当分布很平、延伸很广时,熵最粗略地说,当分布很平、延伸很广时,熵最粗略地说,当分布很平、延伸很广时,熵最大。如果大。如果大。如果大。如果x x是零均值的高斯分布,那么可以是零均值的高斯分布,那么可以是零均值的高斯分布,那么可以是零均值的高斯分布,那么可以证明所选择的特征向量具有最大熵。证明所选择的特征向量具有最大熵。证明所选择的特征向量具有最大熵。证明所选择的特征向量具有最大熵。这些特征向量沿最大方差方向,这样这些特征向量沿最大方差方向,这样这些特征向量沿最大方差方向,这样这些特征向量沿最大方差方向,这样的方向是最随机的,最不确定的,这些方向的方向是最随机的,最不确定的,这些方向的方向是最随机的,最不确定的,这些方向的方向是最随机的,最不确定的,这些方向应保留下来作为特征。对最不确定的事,若应保留下来作为特征。对最不确定的事,若应保留下来作为特征。对最不确定的事,若应保留下来作为特征。对最不确定的事,若有信息(测量),最有用。有信息(测量),最有用。有信息(测量),最有用。有信息(测量),最有用。第15页/共61页 例例例例 三维观测向量的特征提取三维观测向量的特征提取三维观测向量的特征提取三维观测向量的特征提取 有一三维观测向量,其相关矩阵为有一三维观测向量,其相关矩阵为有一三维观测向量,其相关矩阵为有一三维观测向量,其相关矩阵为 3 -1 03 -1 0 R R=-1 3 0=-1 3 0 0 00 30 3 它的特征值和特征向量为它的特征值和特征向量为它的特征值和特征向量为它的特征值和特征向量为 1 1=4=4,2 2=3=3,3 3=2=2第16页/共61页 1 1/0 0 1 1/e e1 1 =-1-1/e e2 2 =0 0 e e3 3 =1 1/0 0 1 1 0 0要选一个特征,应选要选一个特征,应选要选一个特征,应选要选一个特征,应选e e1 1方向,均方误方向,均方误方向,均方误方向,均方误差是差是差是差是 2 2 +3 3 =5=5,要选两个特征,应选要选两个特征,应选要选两个特征,应选要选两个特征,应选e e1 1 、e e2 2方向,均方向,均方向,均方向,均方误差是方误差是方误差是方误差是 3 3 =2.=2.第17页/共61页表示模式的特征和用于分类的特征的不表示模式的特征和用于分类的特征的不表示模式的特征和用于分类的特征的不表示模式的特征和用于分类的特征的不同同同同(1 1)均值大小的影响均值大小的影响均值大小的影响均值大小的影响若均值较大,均值就会起大作用,若均值较大,均值就会起大作用,若均值较大,均值就会起大作用,若均值较大,均值就会起大作用,特征特征特征特征在均值方向。在均值方向。在均值方向。在均值方向。当两类问题的均值相差较大时,可以分当两类问题的均值相差较大时,可以分当两类问题的均值相差较大时,可以分当两类问题的均值相差较大时,可以分类;但若均值差不多,则不会有好的效果。类;但若均值差不多,则不会有好的效果。类;但若均值差不多,则不会有好的效果。类;但若均值差不多,则不会有好的效果。mR=+mmT第18页/共61页(2 2)也可以使用)也可以使用)也可以使用)也可以使用协方差矩阵协方差矩阵协方差矩阵协方差矩阵,以均,以均,以均,以均值为参考点,相对于均值。值为参考点,相对于均值。值为参考点,相对于均值。值为参考点,相对于均值。(3 3)最好的表示特征不一定是最好的)最好的表示特征不一定是最好的)最好的表示特征不一定是最好的)最好的表示特征不一定是最好的分类特征。分类特征。分类特征。分类特征。(3 3)有时可将坐标系移到一个类的)有时可将坐标系移到一个类的)有时可将坐标系移到一个类的)有时可将坐标系移到一个类的均值处,这时相关矩阵的最大特征值的特征均值处,这时相关矩阵的最大特征值的特征均值处,这时相关矩阵的最大特征值的特征均值处,这时相关矩阵的最大特征值的特征向量将沿两个均值的方向排列。向量将沿两个均值的方向排列。向量将沿两个均值的方向排列。向量将沿两个均值的方向排列。第19页/共61页*7.3多类问题的特征提取 下面介绍的方法是下面介绍的方法是下面介绍的方法是下面介绍的方法是FukunagaFukunaga和和和和KoontzKoontz在在在在19701970年提出的。年提出的。年提出的。年提出的。出发点是出发点是出发点是出发点是要同时考虑所有的类。要同时考虑所有的类。要同时考虑所有的类。要同时考虑所有的类。第20页/共61页1.两类时的情况令令令令R R1 1和和和和R R2 2分别是两类观测向量的相关分别是两类观测向量的相关分别是两类观测向量的相关分别是两类观测向量的相关矩阵。即矩阵。即矩阵。即矩阵。即 R Ri i=E Ei i xxxxT T ,i i=1=1,2 2另另另另 QQ=R R1 1+R R2 2令令令令S S是一线性变换,使得是一线性变换,使得是一线性变换,使得是一线性变换,使得S ST TQSQS=S ST T R R1 1S S+S ST T R R2 2S S=I (*)=I (*)(R R1 1 +R R2 2 =I)=I)第21页/共61页其中其中其中其中 1/1/S S=v v1 1 v v2 2 v vn n 1/1/1/1/v vi i和和和和u ui i分别为分别为分别为分别为QQ的特征向量和特征值。的特征向量和特征值。的特征向量和特征值。的特征向量和特征值。第22页/共61页 一般地说,一般地说,一般地说,一般地说,S S并不把并不把并不把并不把R R1 1和和和和R R2 2对角化,对角化,对角化,对角化,但通过但通过但通过但通过S S的线性变换,它把观测向量的线性变换,它把观测向量的线性变换,它把观测向量的线性变换,它把观测向量x x变为:变为:变为:变为:x x=S ST Tx x 变换后的相关矩阵为变换后的相关矩阵为变换后的相关矩阵为变换后的相关矩阵为R Ri i =S ST TR Ri iS S由(由(由(由(*)式有)式有)式有)式有 R R1 1 +R R2 2 =I I (*)STQS=ST R1S+ST R2S=I第23页/共61页 现在考虑在变换后新坐标系下的特征。现在考虑在变换后新坐标系下的特征。现在考虑在变换后新坐标系下的特征。现在考虑在变换后新坐标系下的特征。首先,注意到首先,注意到首先,注意到首先,注意到R R1 1 和和和和R R2 2 的特征向量是相同的。的特征向量是相同的。的特征向量是相同的。的特征向量是相同的。假设假设假设假设e e是是是是R R1 1 的一个特征向量,相应的一个特征向量,相应的一个特征向量,相应的一个特征向量,相应的特征值是的特征值是的特征值是的特征值是,由(由(由(由(*)式:)式:)式:)式:R R2 2 e e=(=(I IR R1 1)e e=e-e-e e=(1-=(1-)e e e e也是也是也是也是R R2 2 的特征向量的特征向量的特征向量的特征向量,相应的特征相应的特征相应的特征相应的特征值是值是值是值是(1 1)R1+R2=I第24页/共61页 由于相关矩阵的由于相关矩阵的由于相关矩阵的由于相关矩阵的R R1 1 、R R2 2 是半正定的,是半正定的,是半正定的,是半正定的,它们的特征值是非负的,它们的特征值是非负的,它们的特征值是非负的,它们的特征值是非负的,0011这样,这样,这样,这样,R R1 1 的大特征值正好是的大特征值正好是的大特征值正好是的大特征值正好是R R2 2 的小的小的小的小特征值,特征值,特征值,特征值,R R1 1 的小特征值正好是的小特征值正好是的小特征值正好是的小特征值正好是R R2 2 的大特征值,的大特征值,的大特征值,的大特征值,第25页/共61页这个关系如下图:这个关系如下图:这个关系如下图:这个关系如下图:R R1 1 1 1 1 1 e e1 1 1 11 1 1 1 R R2 2 重重重重 2 2 2 2 e e2 2 1 12 2 2 2要要要要 性性性性 n-1 n-1 n-1 n-1 e e n-1 n-1 n-1 n-1 1 1n-1n-1n-1n-1减减减减 n n n n e en n n n 1 1n n n n小小小小 重要性减小重要性减小重要性减小重要性减小 第26页/共61页 对类对类对类对类1 1是最好的表示方向,对类是最好的表示方向,对类是最好的表示方向,对类是最好的表示方向,对类2 2是最是最是最是最坏的,反之亦然。坏的,反之亦然。坏的,反之亦然。坏的,反之亦然。如何来选特征呢?有两种可能的方法。如何来选特征呢?有两种可能的方法。如何来选特征呢?有两种可能的方法。如何来选特征呢?有两种可能的方法。1 1每类每类每类每类各各各各选选选选mm/2/2个最大特征值所对应个最大特征值所对应个最大特征值所对应个最大特征值所对应的特征向量,当的特征向量,当的特征向量,当的特征向量,当mm是奇数时,再选一个不管是奇数时,再选一个不管是奇数时,再选一个不管是奇数时,再选一个不管哪类的最大特征值所对应的特征向量。哪类的最大特征值所对应的特征向量。哪类的最大特征值所对应的特征向量。哪类的最大特征值所对应的特征向量。2 2从两类的特征值中,不管哪一类,从两类的特征值中,不管哪一类,从两类的特征值中,不管哪一类,从两类的特征值中,不管哪一类,选最大的选最大的选最大的选最大的mm个特征值所对应的特征向量。个特征值所对应的特征向量。个特征值所对应的特征向量。个特征值所对应的特征向量。一般地说,这两种方法谁好谁坏和具一般地说,这两种方法谁好谁坏和具一般地说,这两种方法谁好谁坏和具一般地说,这两种方法谁好谁坏和具体问题有关。体问题有关。体问题有关。体问题有关。第27页/共61页 一旦特征向量选好后,则特征变换由一旦特征向量选好后,则特征变换由一旦特征向量选好后,则特征变换由一旦特征向量选好后,则特征变换由下式确定:下式确定:下式确定:下式确定:e ej1 j1T T y y=TxTx=e ej2 j2T T S ST Tx x,:e ej1 j1T T 其中其中其中其中S S是满足是满足是满足是满足S ST TQS QS=I I的矩阵。的矩阵。的矩阵。的矩阵。第28页/共61页*2.C类时的情况现在考虑将模式分为现在考虑将模式分为现在考虑将模式分为现在考虑将模式分为C C类时的特征提取类时的特征提取类时的特征提取类时的特征提取问题。问题。问题。问题。模式原来是用模式原来是用模式原来是用模式原来是用n n维测量空间的向量维测量空间的向量维测量空间的向量维测量空间的向量x x来来来来表示的。每类的相关矩阵为表示的。每类的相关矩阵为表示的。每类的相关矩阵为表示的。每类的相关矩阵为R Ri i=E Ei i xxxxT T 假定各个相关矩阵的最大特征值假定各个相关矩阵的最大特征值假定各个相关矩阵的最大特征值假定各个相关矩阵的最大特征值maxmaxmaxmax1111,这并不失一般性,可以通过调整,这并不失一般性,可以通过调整,这并不失一般性,可以通过调整,这并不失一般性,可以通过调整线线线线性空间的比例来实现。性空间的比例来实现。性空间的比例来实现。性空间的比例来实现。又由于相关矩阵是半正定的,又由于相关矩阵是半正定的,又由于相关矩阵是半正定的,又由于相关矩阵是半正定的,各各各各R Ri i的特征值在的特征值在的特征值在的特征值在0 0 0 01 1 1 1之间。之间。之间。之间。第29页/共61页 和前面一样,令和前面一样,令和前面一样,令和前面一样,令 u uj j,j j=1=1,2 2,n n 是是是是观测空间的标准正交基。观测空间的标准正交基。观测空间的标准正交基。观测空间的标准正交基。另另另另x x是任一观是任一观是任一观是任一观测向量测向量测向量测向量,x x x x 是它的截尾表示形式,是它的截尾表示形式,是它的截尾表示形式,是它的截尾表示形式,x x=y y1 1u u1 1+y y2 2u u2 2+y ymmu umm对于第对于第对于第对于第i i类,我们选择一组类,我们选择一组类,我们选择一组类,我们选择一组u u u uj j j j,它能,它能,它能,它能使第使第使第使第i i类的均方误差最小,类的均方误差最小,类的均方误差最小,类的均方误差最小,i i i i=E Ei i i i|x-x-x x x x|2 2=(*)第30页/共61页 而同时使其它类的均方误差最大。而同时使其它类的均方误差最大。而同时使其它类的均方误差最大。而同时使其它类的均方误差最大。k k k k =E Ek k k k|x-x-x x x x|2 2=(k k=1=1,2 2,c c,k ki i)(*)(*)单独使单独使单独使单独使 i i i i最小,而不管上式的条件已最小,而不管上式的条件已最小,而不管上式的条件已最小,而不管上式的条件已在前面讨论过。在前面讨论过。在前面讨论过。在前面讨论过。若同时也满足(若同时也满足(若同时也满足(若同时也满足(*)式的条件,将使)式的条件,将使)式的条件,将使)式的条件,将使得所选择的基能最优的表示第得所选择的基能最优的表示第得所选择的基能最优的表示第得所选择的基能最优的表示第i i类,但不能类,但不能类,但不能类,但不能最优的表示其它类。最优的表示其它类。最优的表示其它类。最优的表示其它类。由于一般不能同时使由于一般不能同时使由于一般不能同时使由于一般不能同时使 i i i i最小,而最小,而最小,而最小,而 k k k k最最最最大,下面引入另外一个相关的准则。大,下面引入另外一个相关的准则。大,下面引入另外一个相关的准则。大,下面引入另外一个相关的准则。第31页/共61页 和和和和7.27.2节一样,可以表示节一样,可以表示节一样,可以表示节一样,可以表示 k k k k=,k k=1=1,2 2,c c由于由于由于由于R R R Ri i i i是半正定的,且是半正定的,且是半正定的,且是半正定的,且maxmaxmaxmax1111,k k k k的大小为下式限定的大小为下式限定的大小为下式限定的大小为下式限定:0 0 k k k kn-mn-mn-mn-m,k k k k =1=1=1=1,2 2 2 2,,c,c,c,c这样,使(这样,使(这样,使(这样,使(*)式最大等价于使下式)式最大等价于使下式)式最大等价于使下式)式最大等价于使下式最小(最小(最小(最小(k k k ki i i i)(n(n(n(nm)m)m)m)k k k k =k k=Ek|x-x|2=(k=1,2,c,ki)(*)第32页/共61页最大最大最大最大 k k k k(k k k ki i i i,k k k k=1=1=1=1,2 2 2 2,,c c c c)和最)和最)和最)和最小小小小 i i i i的准则可以写成下面的组合形式,并用的准则可以写成下面的组合形式,并用的准则可以写成下面的组合形式,并用的准则可以写成下面的组合形式,并用类数标准化。类数标准化。类数标准化。类数标准化。C C C Ci i i i=第33页/共61页 把把把把 i i i i=和(和(和(和(n n n nm m m m)k k k k的表的表的表的表达式代入,有达式代入,有达式代入,有达式代入,有 C C C Ci i i i=式中,式中,式中,式中,G G G Gi i i i=(*)(*)(*)(*)上式的准则在形式上和上式的准则在形式上和上式的准则在形式上和上式的准则在形式上和7.27.27.27.2节讨论的节讨论的节讨论的节讨论的一样。一样。一样。一样。为了选取为了选取为了选取为了选取m m m m个特征向量个特征向量个特征向量个特征向量u u u ui i i i来表示来表示来表示来表示x x x x,以使以使以使以使C C C Ci i i i最小,这时的特征向量应是最小,这时的特征向量应是最小,这时的特征向量应是最小,这时的特征向量应是G G G Gi i i i 的最的最的最的最大的大的大的大的m m m m个特征值所对应的特征向量。个特征值所对应的特征向量。个特征值所对应的特征向量。个特征值所对应的特征向量。第34页/共61页 下面的分析说明确实是这样。假定下面的分析说明确实是这样。假定下面的分析说明确实是这样。假定下面的分析说明确实是这样。假定e e e e是是是是G G G Gi i i i的标准特征向量,那么相应特征值的标准特征向量,那么相应特征值的标准特征向量,那么相应特征值的标准特征向量,那么相应特征值可可可可以表示为以表示为以表示为以表示为=e e e eT T T TG G G Gi i i ie e e e =由于由于由于由于maxmaxmaxmax1111和相关矩阵的半正定性和相关矩阵的半正定性和相关矩阵的半正定性和相关矩阵的半正定性质,质,质,质,上式括号中每一个二次项的特征值在上式括号中每一个二次项的特征值在上式括号中每一个二次项的特征值在上式括号中每一个二次项的特征值在0 0 0 01 1 1 1之间,之间,之间,之间,01010101。而且而且而且而且接近于接近于接近于接近于1 1 1 1时要求时要求时要求时要求e e e eT T T TR R R Ri i i ie e e e1,1,1,1,而而而而e e e eT T T TR R R Rk k k ke e e e(k k k ki i i i)却却却却0 0 0 0,第35页/共61页 这样,这样,这样,这样,G G G Gi i i i的相应于特征值接近的相应于特征值接近的相应于特征值接近的相应于特征值接近1 1 1 1的特的特的特的特征向量对应着征向量对应着征向量对应着征向量对应着i i i i类最重要的特征。类最重要的特征。类最重要的特征。类最重要的特征。当当当当e e e e=2 =2 =2 =2 时,(时,(时,(时,(*)式变为)式变为)式变为)式变为G G G G1 1 1 1+G G G G2 2 2 2=I I I I这和两类时的情况相似,这和两类时的情况相似,这和两类时的情况相似,这和两类时的情况相似,G G G G1 1 1 1 和和和和 G G G G2 2 2 2 的的的的特征向量相同,其特征值间的关系和变换后特征向量相同,其特征值间的关系和变换后特征向量相同,其特征值间的关系和变换后特征向量相同,其特征值间的关系和变换后的矩阵的矩阵的矩阵的矩阵R R1 1 、R R2 2 时的一样。时的一样。时的一样。时的一样。第36页/共61页 当当当当C C C C2 2 2 2时,情况就复杂了。时,情况就复杂了。时,情况就复杂了。时,情况就复杂了。上述的方法还可以进一步简化。上述的方法还可以进一步简化。上述的方法还可以进一步简化。上述的方法还可以进一步简化。可以把相关矩阵进行变换,使它满足可以把相关矩阵进行变换,使它满足可以把相关矩阵进行变换,使它满足可以把相关矩阵进行变换,使它满足 =I I I I线性变换线性变换线性变换线性变换S S S S的推导和上节一样。当使的推导和上节一样。当使的推导和上节一样。当使的推导和上节一样。当使用变换后的相关矩阵时,用变换后的相关矩阵时,用变换后的相关矩阵时,用变换后的相关矩阵时,G G G Gi i i i简化为简化为简化为简化为 G G G Gi i i i=1/c 2=1/c 2=1/c 2=1/c 2 R Ri i +(+(+(+(C C C C2)2)2)2)I I I I 当当当当C C C C=2=2=2=2时,时,时,时,G G G Gi i i i=R Ri i,和前面的结果,和前面的结果,和前面的结果,和前面的结果相同。相同。相同。相同。第37页/共61页7.4 图像特征抽取的奇异值分解法 一一一一幅图像可以表示为按一定顺序排列幅图像可以表示为按一定顺序排列幅图像可以表示为按一定顺序排列幅图像可以表示为按一定顺序排列的像素的一个阵列(矩阵)。的像素的一个阵列(矩阵)。的像素的一个阵列(矩阵)。的像素的一个阵列(矩阵)。假定阵列有假定阵列有假定阵列有假定阵列有NN行行行行NN列,这时观测向量列,这时观测向量列,这时观测向量列,这时观测向量就由就由就由就由NN2 2个像素的灰度值组成。由于观测向量个像素的灰度值组成。由于观测向量个像素的灰度值组成。由于观测向量个像素的灰度值组成。由于观测向量的维数很大,我们希望用(抽取)图像的特的维数很大,我们希望用(抽取)图像的特的维数很大,我们希望用(抽取)图像的特的维数很大,我们希望用(抽取)图像的特征来表示图像。征来表示图像。征来表示图像。征来表示图像。第38页/共61页 图像特征抽取的方法有许多种。例如图像特征抽取的方法有许多种。例如图像特征抽取的方法有许多种。例如图像特征抽取的方法有许多种。例如从二维频率谱中抽取特征。从二维频率谱中抽取特征。从二维频率谱中抽取特征。从二维频率谱中抽取特征。这一节我们讨论由这一节我们讨论由这一节我们讨论由这一节我们讨论由一组基图像的加权一组基图像的加权一组基图像的加权一组基图像的加权和表示图像和表示图像和表示图像和表示图像的方法,这种方法和前面讨论过的方法,这种方法和前面讨论过的方法,这种方法和前面讨论过的方法,这种方法和前面讨论过的利用特征值的特征抽取的方法很相似。的利用特征值的特征抽取的方法很相似。的利用特征值的特征抽取的方法很相似。的利用特征值的特征抽取的方法很相似。第39页/共61页 假定图像是用一个假定图像是用一个假定图像是用一个假定图像是用一个NN NN的矩阵的矩阵的矩阵的矩阵B B表示表示表示表示的,的,的,的,B B的元素表示像素的灰度值。考虑两个的元素表示像素的灰度值。考虑两个的元素表示像素的灰度值。考虑两个的元素表示像素的灰度值。考虑两个NN NN的标准正交矩阵的标准正交矩阵的标准正交矩阵的标准正交矩阵UU和和和和V V,矩阵,矩阵,矩阵,矩阵B B可以变可以变可以变可以变换为另一矩阵换为另一矩阵换为另一矩阵换为另一矩阵A A,A A=UUT TBVBV由于由于由于由于UU和和和和V V是标准正交的,所以信息是标准正交的,所以信息是标准正交的,所以信息是标准正交的,所以信息并无损失。并无损失。并无损失。并无损失。B B可以通过下式(可以通过下式(可以通过下式(可以通过下式(*)B B=UAVUAVT T=式中式中式中式中a ai ij j j j 是是是是A A的元素,的元素,的元素,的元素,UUi i、V Vj j 是是是是UU和和和和V V的列向量。的列向量。的列向量。的列向量。第40页/共61页 由于每一由于每一由于每一由于每一UUi iV Vj jT T都是一个都是一个都是一个都是一个NN NN矩阵,所矩阵,所矩阵,所矩阵,所以上式可以看作以上式可以看作以上式可以看作以上式可以看作B B图像在一组基图像下的展开,图像在一组基图像下的展开,图像在一组基图像下的展开,图像在一组基图像下的展开,而而而而a aij ij是展开时的系数。是展开时的系数。是展开时的系数。是展开时的系数。特征抽取的思路是找一组基(图像),特征抽取的思路是找一组基(图像),特征抽取的思路是找一组基(图像),特征抽取的思路是找一组基(图像),从而可以用少数从而可以用少数从而可以用少数从而可以用少数n n个系数个系数个系数个系数a aij ij来表示原图像。这来表示原图像。这来表示原图像。这来表示原图像。这时的图像时的图像时的图像时的图像B B是上式的截尾形式。而是上式的截尾形式。而是上式的截尾形式。而是上式的截尾形式。而a aij ij即它的特即它的特即它的特即它的特征。征。征。征。HadamardHadamard、HarrHarr和和和和FourierFourier变换都可以实变换都可以实变换都可以实变换都可以实现这一目的。现这一目的。现这一目的。现这一目的。第41页/共61页 下面要介绍的奇异值分解是另外一种下面要介绍的奇异值分解是另外一种下面要介绍的奇异值分解是另外一种下面要介绍的奇异值分解是另外一种方法。它使得矩阵方法。它使得矩阵方法。它使得矩阵方法。它使得矩阵A A的元素只有对角线的元的元素只有对角线的元的元素只有对角线的元的元素只有对角线的元素非零。在这种基图像下,原图像只要用素非零。在这种基图像下,原图像只要用素非零。在这种基图像