欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    特征选择与特征提取.pptx

    • 资源ID:80059388       资源大小:331.80KB        全文页数:58页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    特征选择与特征提取.pptx

    第八章第八章:特征选择与特征提取特征选择与特征提取第1页/共58页模式识别,第八章2引言引言特征是决定样本之间的相似性和分类器设计的关键如何找到合适的特征是模式识别的核心问题在实际问题中,常常不容易找到那些最重要的特征 或者受条件限制不能对它们进行测量,这使得特征选择和提取的任务复杂化 特征选择成为构造模式识别系统、提高决策精度的最困难的任务之一第2页/共58页模式识别,第八章3引言引言模式三大基本特征:物理、结构和数字特征物理和结构特征:易于为人的直觉感知,但有时难于定量描述,因而不易用于机器判别数字特征:易于用机器定量描述和判别,如基于统计的特征第3页/共58页模式识别,第八章4引言引言一般情况下普遍认为,增加特征向量的维数(增加特征数)将有助于提高分类器的质量但实际应用中特征维数却收到多方面因素的约束和限制用较多的特征进行分类器设计,无论从计算的复杂程度还是就分类器性能来看都是不适宜的 第4页/共58页模式识别,第八章5特征的形成特征的形成特征形成特征形成(acquisition):信号采集信号采集原始测量原始测量原始特征原始特征实例实例数字图像中的各像素灰度值数字图像中的各像素灰度值人体的各种生理指标人体的各种生理指标语音的音调周期、共振峰、声道参数、频谱语音的音调周期、共振峰、声道参数、频谱第5页/共58页模式识别,第八章6特征的形成特征的形成高维原始特征不利于分类器设计高维原始特征不利于分类器设计计算量大计算量大信息冗余信息冗余第6页/共58页模式识别,第八章7特征选择与提取特征选择与提取分析原始特征的有效性,选出最有代表性的特征是模式识别的关键一步降低特征维数在很多情况下是有效设计分类器的重要课题第7页/共58页模式识别,第八章8特征选择与提取特征选择与提取两类获取有效特征信息、压缩特征空间的方法:特征提取和特征选择基本任务是如何从原始特征中获取最有效的信息第8页/共58页模式识别,第八章9特征选择与提取特征选择与提取特征选择(selection)从原始特征中挑选出一些最有代表性,分类性能最好的特征特征提取(extraction)通过映射或变换的方法把高维的原始特征变换为低维的新特征,新的特征包含了原有特征的有用信息第9页/共58页模式识别,第八章10特征选择与提取特征选择与提取目前,还没有特征选择和提取的一般方法,这是由于特征选择一般是面向问题的,很难对这些方法去作评价和比较 特征选择与提取是模式识别中重要而困难的一个环节第10页/共58页模式识别,第八章11特征选择与提取特征选择与提取细胞自动识别原始测量 正常或异常细胞的数字图像原始特征 找到一组代表细胞性质的特征:细胞面积,胞核面积,形状系数,光密度,核内纹理,和浆比 原始特征的维数仍很高,需压缩以便于分类!第11页/共58页模式识别,第八章12特征选择与提取特征选择与提取细胞自动识别特征选择 挑选最有分类信息的特征特征提取 数学变换:傅立叶变换或小波变换、特征压缩第12页/共58页模式识别,第八章13特征选择特征选择特征选择的任务是从一组数量为D的特征中选择出数量为d(D d)的一组最优特征各个特征之间存在复杂的相互关系 如果仅对每个单独的特征按照一定的统计进行排队,取排在前面的d个特征 所得结果在大多数情况下不是最优特征组第13页/共58页模式识别,第八章14特征选择特征选择从D个特征中选择出d个最优的特征,在这两个参数都已知的状况下,所有可能的组合数为如果D=100,d=10,则的Q数量级是1013第14页/共58页模式识别,第八章15特征选择特征选择在实际问题的研究过程当中,D的维数往往远远高于100例如,在利用生物芯片来进行药物设计和癌症诊断时,其产生的有效特征维数往往在10000左右实际需要选取的优化特征组的特征数量是未知的寻找可行的特征选择算法已逐渐成为国际上研究的热点第15页/共58页模式识别,第八章16特征选择特征选择一般来看,特征选择(确定优化的特征子集)需要两个主要步骤确定评价准则来评价所选择的特征子集的性能确定进行特征搜索所需要的策略第16页/共58页模式识别,第八章17特征选择特征选择按搜索策略划分的特征选择算法全局最优搜索策略 “分支定界”算法:该方法能保证在事先确定优化特征子集中特征数目的情况下,找到相对于所设计的可分性判据而言的最优特征子集。如何事先确定优化特征子集当中特征的数目?当处理高维度多类问题时,算法运算效率低下第17页/共58页模式识别,第八章18特征选择特征选择按搜索策略划分的特征选择算法随机搜索策略 将特征选择视为组合优化问题,采用非全局最优搜索方法 把特征选择问题和模拟退火算法、禁忌搜索算法、遗传算法、或随机重采样过程结合,以概率推理和采样过程作为算法基础 遗传算法在这一领域的应用最为广泛第18页/共58页模式识别,第八章19特征选择特征选择按搜索策略划分的特征选择算法启发式搜索策略 单独最优特征组合算法 序列前向选择算法 序列后向选择算法 浮动搜索算法第19页/共58页模式识别,第八章20特征选择特征选择特征选择的原则选择反映模式本质特性的参数作为特征使样本类间距离较大、类内距离较小与类别信息不相关的变换(平移、旋转、尺度变换)具有不变性尽量选择相关性小的特征尽可能不受噪声的干扰第20页/共58页模式识别,第八章21基于主成份的特征提取:基于主成份的特征提取:K-L变换变换K-L变换(Karhunen-Loeve Transform,卡洛南-洛伊变换)是将高维特征向量映射为低维特征向量的有效方法目的:提取出空间原始数据的主要特征(主元或主成份),减少数据冗余,使得数据在一个低维的特征空间被处理,同时保持原始数据的绝大部份有用信息,从而解决数据维度过高的瓶颈问题。第21页/共58页方法:将 维特征向量 ,通过特征变换得到另一 维特征向量特征向量 ,使得 与原向量 的均方误差最小 模式识别,第八章22第22页/共58页模式识别,第八章23K-L变换变换设 为 维特征向量,即:现在 维特征空间中选取一组新的正交基底向量 即:第23页/共58页模式识别,第八章24K-L变换变换将 在该基底向量上进行投影得到新向量 ,即 则向量 可表示为:第24页/共58页模式识别,第八章25K-L变换变换X原空间原空间Y新空间新空间y1y2x1x2第25页/共58页模式识别,第八章26K-L变换变换可见不同的基底向量 ,将 投影后可产生不同的向量现要寻求一组有效的基底向量,实现特征压缩的目的 第26页/共58页模式识别,第八章27K-L变换变换考虑:第27页/共58页模式识别,第八章28K-L变换变换 将 中 以后各项用常数 代替得:第28页/共58页模式识别,第八章29K-L变换变换 定义误差向量第29页/共58页模式识别,第八章30K-L变换变换X原空间原空间y新空间新空间yX第30页/共58页模式识别,第八章31K-L变换变换则平方误差为第31页/共58页模式识别,第八章32K-L变换变换由于则有第32页/共58页模式识别,第八章33K-L变换变换若现有一批样本,则均方误差为:可见,均方误差与基底向量 和 有关 第33页/共58页模式识别,第八章34K-L变换变换如何选择 和 ,使得均方误差 最小?为什么要这样做?第34页/共58页模式识别,第八章35K-L变换变换首先考虑若 确定,如何选择?令 即第35页/共58页模式识别,第八章36K-L变换变换则有第36页/共58页模式识别,第八章37K-L变换变换再考虑当 用最佳值 代替后,如何确定?第37页/共58页模式识别,第八章38K-L变换变换 确定后,均方误差第38页/共58页模式识别,第八章39K-L变换变换即:协方差矩阵协方差矩阵经典数学问题经典数学问题第39页/共58页模式识别,第八章40K-L变换变换结论:使均方误差 最小的基底向量 ,即是协方差矩阵 的本征向量 如何求本征向量?第40页/共58页模式识别,第八章41K-L变换变换本征值协方差矩阵 的本征值,即满足 的 值共有i 个本征值单位矩阵单位矩阵第41页/共58页模式识别,第八章42K-L变换变换本征向量满足方程 的向量共有i 个本征向量第42页/共58页模式识别,第八章43K-L变换变换当 为协方差矩阵 的本征向量时,均方误差可见应保留本征值较大的本征向量为基底向量!为什么?第43页/共58页模式识别,第八章44K-L变换变换总结:将 压缩到 将产生误差 压缩维数越多 将越大,即丢失的信息越多。第44页/共58页模式识别,第八章45K-L变换变换为了有效减少 ,应在压缩时,保留本征较大的本征向量为基底向量,即排序而选择本征值较大的m个本征向量为基底向量压缩后的特征向量为 第45页/共58页模式识别,第八章46K-L变换变换而称为X的m个主成份第46页/共58页模式识别,第八章47K-L变换变换K-L变换进行特征维数压缩的过程:获取一批学习样本 计算其均值 计算其协方差矩阵计算协方差矩阵的n个本征值 第47页/共58页模式识别,第八章48K-L变换变换将 由大到小排序值为 计算本征值对应的本征向量 ,即 根据具体要求将特征向量降为m维向量 第48页/共58页模式识别,第八章49K-L变换变换例:设已知样本的特征向量为:试用K-L变换将X压缩为一维的4个样本,并求出均方误差 第49页/共58页模式识别,第八章50K-L变换变换X2X3X4X1第50页/共58页模式识别,第八章51K-L变换变换解:求出样本均值(期望值)第51页/共58页模式识别,第八章52K-L变换变换求协方差矩阵 第52页/共58页模式识别,第八章53K-L变换变换计算协方差矩阵的本征值 即计算 解得第53页/共58页模式识别,第八章54K-L变换变换计算协方差矩阵的本征向量 解得:第54页/共58页模式识别,第八章55K-L变换变换特征压缩后 第55页/共58页模式识别,第八章56K-L变换变换Y3Y4Y1Y2第56页/共58页模式识别,第八章57K-L变换变换均方误差第57页/共58页模式识别,第八章58谢谢您的观看!第58页/共58页

    注意事项

    本文(特征选择与特征提取.pptx)为本站会员(莉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开