模式识别之特征选择和提取.ppt
《模式识别之特征选择和提取.ppt》由会员分享,可在线阅读,更多相关《模式识别之特征选择和提取.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于模式识别之特征关于模式识别之特征选择与提取选择与提取第一张,PPT共四十七页,创作于2022年6月5.1 基本概念基本概念5.2 类别可分性测度类别可分性测度5.3 基于类内散布矩阵的单类模式特征提取基于类内散布矩阵的单类模式特征提取5.4 基于基于K-L变换的多类模式特征提取变换的多类模式特征提取第第5章章 特征选择与特征提取特征选择与特征提取第二张,PPT共四十七页,创作于2022年6月5.1 基本概念基本概念 由于测量上可实现性的限制或经济上的考虑,所获得的测量值为数不多。能获得的性质测量值很多。如果全部直接作为分类特征,耗费机时,且分类效果不一定好。有人称之为“特征维数灾难”。特征
2、选择和提取的目的特征选择和提取的目的:经过选择或变换,组成识别特征,尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作即快又准确。1两种数据测量情况两种数据测量情况第三张,PPT共四十七页,创作于2022年6月(1)具有很大的识别信息量。即应具有很好的可分性。(2)具有可靠性。模棱两可、似是而非、时是时非等不易判别 的特征应丢掉。(3)尽可能强的独立性。重复的、相关性强的特征只选一个。(4)数量尽量少,同时损失的信息尽量小。2对特征的要求对特征的要求3.特征选择和特征提取的异同特征选择和特征提取的异同(1)特征选择:从L个度量值集合 中按一定准 则选出供分类用的子集,
3、作为降维(m维,m L)的分类 特征。(2)特征提取:使一组度量值 通过某种变换 产生新的m个特征 ,作为降维的分类特征,其中 。第四张,PPT共四十七页,创作于2022年6月(c)是具有分类能力的特征,故选(c),扔掉(a)、(b)。BA解:法1 特征抽取:测量三个结构特征 (a)周长 (b)面积 (c)两个互相垂直的内径比 特征选择:一般根据物理特征或结构特征进行压缩。分析:例:特征选择与特征提取的区别:对一个条形和圆进行识别。当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。第五张,PPT共四十七页,创作于2022年6月法2:特征抽取:测量物体向两个坐标
4、轴的投影值,则A、B各有2个值域区间。可以看出,两个物体的投影有重叠,直接使用投影值无法将两者区分开。特征选择:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在 轴上投影的坐标值的正负可区分两个物体。特征提取,一般用数学的方法进行压缩。BABA第六张,PPT共四十七页,创作于2022年6月5.2 类别可分性测度类别可分性测度5.2.1 基于距离的可分性测度基于距离的可分性测度类别可分性测度:衡量类别间可分性的尺度。相似性测度:衡量模式之间相似性的一种尺度类内距离和类间距离类概率密度函数 类别可分性测度空间分布:随机模式向量:错误率 与错误率有关的距离 1类内距离
5、和类内散布矩阵类内距离和类内散布矩阵1)类内距离:同一类模式点集内,各样本间的均方距离。平方形式:Xi,,Xj:n维模式点集X中的任意两个样本。第七张,PPT共四十七页,创作于2022年6月特征选择和提取的结果应使类内散布矩阵的迹愈?愈好。特征选择和提取的结果应使类内散布矩阵的迹愈 小小愈好。若X中的样本相互独立,有式中,R:该类模式分布的自相关矩阵;M:均值向量;C:协方差矩阵;:C主对角线上的元素,表示模式向量第k个分量的方差;tr:矩阵的迹(方阵主对角线上各元素之和)。2)类内散布矩阵:表示各样本点围绕均值的散布情况,即该类分布的协方差矩阵。类第八张,PPT共四十七页,创作于2022年6
6、月类间散布矩阵的迹愈大大愈有利于分类。2类间距离和类间散布矩阵类间距离和类间散布矩阵1)类间距离:模式类之间的距离,记为 。每类模式均值向量与模式总体均值向量之间平方距离的先验概率加权和。2)类间散布矩阵:表示c类模式在空间的散布情况,记为Sb。类间散布矩阵的迹愈?愈有利于分类。3)类间距离与类间散布矩阵的关系:注意:与类间距离的转置位置不同。第九张,PPT共四十七页,创作于2022年6月3多类模式向量间的距离和总体散布矩阵多类模式向量间的距离和总体散布矩阵1)两类情况的距离 q个 p个 共pq个距离 两个类区之间的距离=pq个距离的平均距离多类间任意两个点间距离的平均距离类似地 多类情况多类
7、间任意两个点间平方距离的平均值第十张,PPT共四十七页,创作于2022年6月(5-8)类的均值向量:(5-10)c类模式总体的均值向量:(5-11)2)多类情况的距离(2)Jd的另一种形式:将以下3式代入(5-8)式(1)多类模式向量间的平均平方距离Jd(5-9)平方距离:任意类的组合特定两类间任意样本的组合第十一张,PPT共四十七页,创作于2022年6月得某类类内平方距离平均值 某类类间平方距离多类模式向量之间的平方距离=各类平方距离的先验概率加权和 某类的平方距离模式类间的距离模式类内的距离多类模式向量之间的距离3)多类情况的散布矩阵多类类间散布矩阵:第十二张,PPT共四十七页,创作于20
8、22年6月4)多类模式平均平方距离与总体散布矩阵的关系多类类内散布矩阵:各类模式协方差矩阵的 先验概率加权平均值。多类模式的总体散布矩阵:得第十三张,PPT共四十七页,创作于2022年6月 距离与散布矩阵作为可分性测度的特点:*计算方便,概念直观(反映模式的空间分布情况);*与分类错误率没有直接的联系。5.2.2 基于概率分布的可分性测度基于概率分布的可分性测度1散度散度出发点:对数似然比含有类别的可分性信息。1)散度的定义 第十四张,PPT共四十七页,创作于2022年6月 对不同的X,似然函数不同,对数似然比体现的可分性不同,通常采用平均可分性信息对数似然比的期望值。类对数似然比的期望值:类
9、对数似然比的期望值:散度等于两类的对数似然比期望值之和。第十五张,PPT共四十七页,创作于2022年6月 散度表示了区分i类和j 类的总的平均信息。2)散度的性质(1)特征选择和特征提取应使散度尽可能的?特征选择和特征提取应使散度尽可能的大。第十六张,PPT共四十七页,创作于2022年6月(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。由散度的定义式可知,散度愈大,两类概率密度函数曲线相差愈大,交叠愈少,分类错误率愈小。第十七张,PPT共四十七页,创作于2022年6月据此可估计每一个特征在分类中的重要性:散度较大的特征含有较大的可分信息保留。(5)可加性表明,加入新的特征,不会使散度
10、减小。即3)两个正态分布模式类的散度设i类和j 类的概率密度函数分别为 第十八张,PPT共四十七页,创作于2022年6月两类模式之间马氏距离的平方 一维正态分布时:两类均值向量距离越远,散度愈大每类自身分布愈集中,两类间的散度愈大模式识别导论(齐敏)p135第十九张,PPT共四十七页,创作于2022年6月5.3 基于类内散布矩阵的单类模式特征提取基于类内散布矩阵的单类模式特征提取对某类模式:压缩模式向量的维数。对多类分类:压缩维数;保留类别间的鉴别信息,突出可分性。特征提取的目的:特征提取操作方法:m1 mn n1(m n)注意:维数降低后,在新的m维空间里各模式类之间的分布规 律应至少保持不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 特征 选择 提取
限制150内