第四章特征提取和选择第一次课精选文档.ppt
《第四章特征提取和选择第一次课精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章特征提取和选择第一次课精选文档.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章特征提取和选择第一次课本讲稿第一页,共五十六页u在第二、三章所讨论的分类方法与分类器设计中,都是在第二、三章所讨论的分类方法与分类器设计中,都是在在d维特征空维特征空间已经确定的前提下间已经确定的前提下进行的。因此讨论的进行的。因此讨论的分类器设计分类器设计问题是一个问题是一个选选择什么准则、使用什么方法,将已确定的择什么准则、使用什么方法,将已确定的d维特征空间划分成决策维特征空间划分成决策域域的问题。的问题。u对对分类器设计方法分类器设计方法的研究固然重要,但如何的研究固然重要,但如何确定合适的特征空间确定合适的特征空间是是设计模式识别系统另一个十分重要、甚至更为关键的问题。设计模式
2、识别系统另一个十分重要、甚至更为关键的问题。u如果如果所选用的特征空间能使同类物体分布具有紧致性所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为成功设计分类器提供良布在该特征空间中彼此分割开的区域内,这就为成功设计分类器提供良好的基础;如果不同类别的样本在该特征空间中混杂在一起,再好的设好的基础;如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。计方法也无法提高分类器的准确性。学习指南学习指南 本讲稿第二页,共五十六页u这一章要讨论的问题就是这一章要讨论的问题就是特征空间如何设计和优化特征空间
3、如何设计和优化的问题。的问题。u对特征空间的改造和优化,主要的目的是降维对特征空间的改造和优化,主要的目的是降维,即把维数高的特,即把维数高的特征空间改成维数低的特征空间,提高其某方面的性能,降维主要有两征空间改成维数低的特征空间,提高其某方面的性能,降维主要有两种途径。种途径。一种是一种是删选删选掉一些次要的特征,问题在于如何确定特征的掉一些次要的特征,问题在于如何确定特征的重要性,以及如何删选。重要性,以及如何删选。另一种方法是使用另一种方法是使用变换变换的手段,在这里主要限定在线性变的手段,在这里主要限定在线性变换的方法上,通过变换来实现降维。换的方法上,通过变换来实现降维。本讲稿第三页
4、,共五十六页本章主要内容本章主要内容4.1 基本概念基本概念4.2 类的可分性判据类的可分性判据4.3 基于可分性判据的特征提取基于可分性判据的特征提取4.4 主分量分析(主分量分析(PCA)4.5 特征选择方法特征选择方法本讲稿第四页,共五十六页学习目的学习目的1.了了解解特特征征空空间间的的选选择择在在设设计计模模式式识识别别系系统统、解解决决模模式式识识别别具具体体问题中是至关重要的。问题中是至关重要的。2.掌掌握握对对特特征征空空间间进进行行优优化化的的两两种种基基本本方方法法,一一是是对对原原特特征征空空间间进进行行删删选选,即即特特征征选选择择;另另一一种种是是通通过过变变换换改改
5、造造原原特特征征空空间间,即即特征提取特征提取。3.重重点点掌掌握握运运用用线线性性变变换换对对原原特特征征空空间间优优化化的的的的基基本本方方法法,进进一一步步深深入入理理解解模模式式识识别别处处理理问问题题的的基基本本方方法法确确定定准准则则函函数数,并并通通过计算进行优化。过计算进行优化。本讲稿第五页,共五十六页课前思考题课前思考题 1什么叫特征空间?如果我们用颜色、尺寸、重量来衡量水果,构造的什么叫特征空间?如果我们用颜色、尺寸、重量来衡量水果,构造的特征空间是几维空间?特征空间是几维空间?2如果用颜色、尺寸与重量组成的特征空间来区分红苹果与梨,你如果用颜色、尺寸与重量组成的特征空间来
6、区分红苹果与梨,你认为这三种度量中的哪种最有效?为什么?能否想像这两种水果认为这三种度量中的哪种最有效?为什么?能否想像这两种水果在这个三维空间的分布?如果用这个特征空间来区分红苹果与樱在这个三维空间的分布?如果用这个特征空间来区分红苹果与樱桃,你想像一下这两类水果在特征空间如何分布?能否对这两种桃,你想像一下这两类水果在特征空间如何分布?能否对这两种情况设计更经济有效的特征空间?情况设计更经济有效的特征空间?本讲稿第六页,共五十六页3如果两类物体在一个二维特征空间如下图分布如果两类物体在一个二维特征空间如下图分布,能否用删除其中任能否用删除其中任一维来优化特征空间?有没有什么方法能得到一个对
7、分类很有利的一维来优化特征空间?有没有什么方法能得到一个对分类很有利的一维特征空间?一维特征空间?本讲稿第七页,共五十六页4.上题的答案可用下图上题的答案可用下图Y1与与Y2组成的空间表示?你认为哪个分量组成的空间表示?你认为哪个分量可以删掉?可以删掉?5.你有没有办法将原在你有没有办法将原在X1、X2空间表示的数改成用空间表示的数改成用Y1、Y2空间表空间表示?示?本讲稿第八页,共五十六页4.1基基 本本 概概 念念本讲稿第九页,共五十六页一、一、特征的特点特征的特点 特征是用于描述模式性质的一种量,在模式识特征是用于描述模式性质的一种量,在模式识别过程中别过程中,特征应该满足以下条件特征应
8、该满足以下条件:(1)特征是可获取的。特征是可获取的。(2)类内稳定。类内稳定。(3)类间差异大于类内差异。类间差异大于类内差异。本讲稿第十页,共五十六页二、特征的类别二、特征的类别1.物理特征物理特征 直接、容易感知,设计模式识别系统时易被选用。直接、容易感知,设计模式识别系统时易被选用。如如为为了了描描述述指指定定班班级级中中的的某某个个学学生生,可可以以用用以以下下物物理理特特征征:性性别别、身身高高、胖胖瘦瘦、肤肤色色等等外外在在特特征征。物物理理特特征征虽虽然然容易感知容易感知,却未必能非常有效地表征分类对象。却未必能非常有效地表征分类对象。本讲稿第十一页,共五十六页2.结构特征结构
9、特征 比比物物理理特特征征要要抽抽象象一一些些,但但仍仍比比较较容容易易感感知知,如如人人的的指指纹纹特特征征、人人脸脸的的五五官官结结构构信信息息等等,是是认认定定人人的的身身份份的的重重要参数。要参数。先先将将观观察察对对象象分分割割成成若若干干个个基基本本构构成成要要素素,再再确确定定基基本本要要素素间间的的相相互互连连接接关关系系,以以此此表表达达复复杂杂的的图图像像图图形形信息。信息。结结构构信信息息对对对对象象的的尺尺寸寸往往往往不不太太敏敏感感,如如汉汉字字识识别别时时,识识别别系系统统对对汉汉字字大大小小不不敏敏感感,只只对对笔笔划划结结构构信信息息敏敏感。感。本讲稿第十二页,
10、共五十六页3.数字特征数字特征为为了了表表征征观观察察对对象象而而设设立立的的特特征征,如如给给每每个个学学生生设设立立一一个个学学号号,作作为为标标志志每每个个学学生生的的特特征征。由由于于学学号号是是人人为为设设定定的的,可可以以保保证证唯唯一一性性,但但这这种种特特征征是是抽抽象象的的,不不容容易易被人感知。被人感知。本讲稿第十三页,共五十六页u对原有特征空间进行处理与加工,使之较原特征空间对原有特征空间进行处理与加工,使之较原特征空间优化。优化。u优化是为了降维优化是为了降维,要求既降低特征的维数,又能提,要求既降低特征的维数,又能提高分类器的性能。优化后的特征空间应该更有利于高分类器
11、的性能。优化后的特征空间应该更有利于后续的分类计算。后续的分类计算。三、特征形成、提取和选择三、特征形成、提取和选择本讲稿第十四页,共五十六页特征形成特征形成:u在设计一个具体的模式识别系统时在设计一个具体的模式识别系统时,往往是先接触一些训练样本往往是先接触一些训练样本,研究模式类所包含的特征信息研究模式类所包含的特征信息,并给出相应的表述方法。并给出相应的表述方法。u这一阶段的主要目标是获取尽可能多的表述特征。在这些特征中这一阶段的主要目标是获取尽可能多的表述特征。在这些特征中,有些有些可能满足类内稳定、类间离散的要求可能满足类内稳定、类间离散的要求,有的则可能不满足有的则可能不满足,不能
12、作为不能作为分类的依据。分类的依据。u根据样例分析得到一组表述观察对象的特征值根据样例分析得到一组表述观察对象的特征值,而不论特征是否实用而不论特征是否实用,称这一步为称这一步为特征形成特征形成,得到的特征称为得到的特征称为原始特征原始特征。u对原始特征集进行处理对原始特征集进行处理,去除对分类作用不大的特征去除对分类作用不大的特征,从而可以在保证从而可以在保证性能的条件下性能的条件下,通过降低特征空间的维数来减少分类方法的复杂通过降低特征空间的维数来减少分类方法的复杂度。度。本讲稿第十五页,共五十六页特征提取:特征提取:u 通过映射通过映射(或变换或变换)的方法获取最有效的特征的方法获取最有
13、效的特征,实现特征空间的维实现特征空间的维数从高维到低维的变换。数从高维到低维的变换。经过映射后的特征称为经过映射后的特征称为二次特征二次特征,它们是它们是原始特征的某种组合原始特征的某种组合,最常用的是最常用的是线性组合线性组合。u 需要注意需要注意,特征提取一定要进行数学变换特征提取一定要进行数学变换,但数学变换未必就是但数学变换未必就是特征提取。特征提取。u 所谓所谓特征提取在广义上就是指一种变换特征提取在广义上就是指一种变换,若,若X是测量空间,是测量空间,Y是是特征空间,则特征空间,则称称变换变换 A:X Y 为特征提取器。为特征提取器。本讲稿第十六页,共五十六页特征选择:特征选择:
14、u 从一组特征中挑选出对分类最有利的特征,达到降低特征空间维数从一组特征中挑选出对分类最有利的特征,达到降低特征空间维数的目的。的目的。本讲稿第十七页,共五十六页u 假设已有假设已有n 维特征向量空间维特征向量空间 u 特征选择特征选择是指删去原来是指删去原来n维特征空间中的一些特维特征空间中的一些特征描述量征描述量,得到精简后的特征空间。在这个特征空得到精简后的特征空间。在这个特征空间中,样本由间中,样本由d维的特征向量描述。维的特征向量描述。u 由于由于y是是x的一个子集,因此每个分量的一个子集,因此每个分量yi必然必然能在原特征集中找到其对应的特征分量。能在原特征集中找到其对应的特征分量
15、。u 特征提取特征提取是找到一个映射关系,使新样本特征是找到一个映射关系,使新样本特征描述维数比原维数降低。描述维数比原维数降低。u 其中每个分量其中每个分量yi是原特征向量的函数。是原特征向量的函数。本讲稿第十八页,共五十六页 思考题思考题本讲稿第十九页,共五十六页特特征征提提取取和和特特征征选选择择的的主主要要目目的的是是在在不不降降低低或或很很少少降降低低分分类类结结果果性性能能的的情情况况下下,降降低低特特征征空空间间的的维维数数,其其主主要要作作用在于用在于:(1)简简化化计计算算。特特征征空空间间的的维维数数越越高高,需需占占用用的的计计算算机机资资源源越越多多,设计和计算也就越复
16、杂。设计和计算也就越复杂。(2)简简化化特特征征空空间间结结构构。由由于于特特征征提提取取和和选选择择是是去去除除类类间间差差别别小小的的特特征征,保保留留类类间间差差别别大大的的特特征征,因因此此,在在特特征征空空间间中中,每每类类所所占占据据的的子子空空间间结结构构可可分分离离性性更更强强,从从而而也也简简化化了了类类间间分分界界面面形形状状的的复复杂杂度。度。四、特征提取和选择的作用四、特征提取和选择的作用本讲稿第二十页,共五十六页 4.2 类的可分性判据类的可分性判据本讲稿第二十一页,共五十六页n特征选择与特征提取的任务是降低特征空间的维数,求特征选择与特征提取的任务是降低特征空间的维
17、数,求出一组对分类最有效的特征出一组对分类最有效的特征(所谓最有效是指在特征维(所谓最有效是指在特征维数减少到同等水平时,其分类性能最佳)数减少到同等水平时,其分类性能最佳)。n高维特征变为低维特征的方法很多,究竟哪种方法最有效,高维特征变为低维特征的方法很多,究竟哪种方法最有效,需要通过某种标准来衡量,需要通过某种标准来衡量,在数学上就要构造某种准则在数学上就要构造某种准则(或判据或判据),这种用以定量检验分类性能的准则称为,这种用以定量检验分类性能的准则称为类别类别可分离性判据可分离性判据。n类别可分离性判据,用来检验不同的特征组合对分类性能类别可分离性判据,用来检验不同的特征组合对分类性
18、能好坏的影响,并用来导出特征选择与特征提取的方法。好坏的影响,并用来导出特征选择与特征提取的方法。本讲稿第二十二页,共五十六页(1)与与错误概率错误概率(或错误概率的上、或错误概率的上、下界下界)有单调关系有单调关系,使判据的极大值对应错误概率的最小值或较小值。使判据的极大值对应错误概率的最小值或较小值。(2)非负性非负性,即即其中其中,Jij表示第表示第i,j两类间的可分性判据。两类间的可分性判据。(3)对称性对称性,即即 Jij=Jji可分性判据满足以下要求可分性判据满足以下要求:本讲稿第二十三页,共五十六页(4)当特征独立时当特征独立时,判据应具有可加性判据应具有可加性,即即(5)单调性
19、。单调性。对于特征向量而言对于特征向量而言,加入新的特征分量不会减少判据值加入新的特征分量不会减少判据值,即即 本讲稿第二十四页,共五十六页4.2.1 基于距离的可分性判据基于距离的可分性判据u基于距离度量是人们常用来进行分类的重要依据,一般情况下同类基于距离度量是人们常用来进行分类的重要依据,一般情况下同类物体内各样本由于具有共性,因此物体内各样本由于具有共性,因此类内样本间距离应比跨类样本间距类内样本间距离应比跨类样本间距离小离小。因此。因此,利用类间距离构造类别的可分性判据是可行的。利用类间距离构造类别的可分性判据是可行的。u为了有利于分类为了有利于分类,总是希望不同类之间的距离大一些总
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 特征 提取 选择 第一次 精选 文档
限制150内