机器学习中的特征选择--ppt课件.ppt
《机器学习中的特征选择--ppt课件.ppt》由会员分享,可在线阅读,更多相关《机器学习中的特征选择--ppt课件.ppt(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Feature Selection for Classification李军政2017.5.101PPT课件单击此处添加文字内容综述单击此处添加文字内容特征选择流程单击此处添加文字内容几种常用的特征选择算法单击此处添加文字内容总结12342PPT课件综述nWhat 从全部特征中选取一个特征子集,使构造出来的模型更好。nWhy 在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:l分析特征、训练模型耗时长l模型复杂、推广能力差l引起维度灾难3PPT课件维度灾难n随着维数的增加,特征空间的体积指数增加,从而导致各方面的成本指数增加n样
2、本数量n存储空间n计算量n如何从中选出有用的特征?如何从中选出有用的特征?4PPT课件单击此处添加文字内容综述单击此处添加文字内容特征选择流程单击此处添加文字内容几种常用的特征选择算法单击此处添加文字内容总结12345PPT课件特征选择流程GeneratorEvaluationStop RuleValidationSubsetYesNoOriginal Feature Set6PPT课件两个主要步骤n产生过程产生过程q特征子集的产生可以看作是一个搜索过程,搜索空间中的每一个状态都是一个可能特征子集。q搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Ran
3、dom) 3大类。n评价函数评价函数q评价函数是评价一个特征子集好坏的准则q特征的评估函数分为五类:相关性,距离,信息增益,一致性和分类错误率。 7PPT课件搜索算法之完全搜索n完全搜索分为穷举搜索与非穷举搜索两类完全搜索分为穷举搜索与非穷举搜索两类q广度优先搜索(BFS )q分支限界搜索(BAB) q定向搜索 (BS)q最优优先搜索(Best First Search)BS: 首先选择N个得分最高的特征作为特征子集,将其加入一个限制最大长度的优先队列,每次从队列中取出得分最高的子集,然后穷举向该子集加入1个特征后产生的所有特征集,将这些特征集加入队列。8PPT课件搜索算法之启发式搜索n启发式
4、搜索启发式搜索q序列前向选择(SFS)q序列后向选择(SBS)q双向搜索(BDS)q增L去R选择算法 (LRS)nL和R的选择是关键q序列浮动选择(Sequential Floating Selection)q决策树(DTM)LRS两种形式: 算法从空集开始,每轮先加入L个特征,然后从中去除R个特征,使得评价函数值最优。( L R )在训练样本集上运行C4.5或其他决策树生成算法,待决策树充分生长后,再在树上运行剪枝算法。则最终决策树各分支处的特征就是选出来的特征子集。一般使用信息增益作为评价函数。L和R怎么确定?9PPT课件搜索算法之随机算法n随机算法随机算法q随机产生序列选择算法(RGSS
5、)n随机产生一个特征子集,然后在该子集上执行SFS与SBS算法q模拟退火算法(SA)n以一定的概率来接受一个比当前解要差的解,因此有可能会跳出这个局部的最优解,达到一个全局次最优解q遗传算法(GA)共同缺点:依赖共同缺点:依赖于随机因素,有实验结果难以重现于随机因素,有实验结果难以重现10PPT课件评价函数u作用是评价产生过程所提供的特征子集的好坏作用是评价产生过程所提供的特征子集的好坏u按照其工作原理,评价函数可以分为三种模型:按照其工作原理,评价函数可以分为三种模型:n过滤模型(Filter Model)n封装模型(Wrapper Model )n混合模型(Embedded Model )
6、u被称为特征选择的经典三刀:被称为特征选择的经典三刀:n飞刀(Filter)n弯刀(Wrapper)n电刀(Embedded )11PPT课件评价函数过滤模型u根据特征子集内部的特点来衡量其好坏,如欧氏距离、相关性、信息熵等特征子集在学习算法运行之前就被选定学习算法用于测试最终特征子集的性能u特点:简单、效率高,但精度差12PPT课件评价函数封装模型u学习算法封装在特征选择的过程中,用特征子集在学习算法上得到的挖掘性能作为特征子集优劣的评估准则。u与过滤模型相比,精度高、但效率低。u根本区别在于对学习算法的使用方式13PPT课件评价函数混合模型u混合模型把这两种模型进行组合,先用过滤模式进行初
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 中的 特征 选择 ppt 课件
限制150内