第八章:集成学习报告ppt课件.pptx





《第八章:集成学习报告ppt课件.pptx》由会员分享,可在线阅读,更多相关《第八章:集成学习报告ppt课件.pptx(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、朱辉星 2016年11月集成学习(ensemble learning):通过构建并结合多个学习器来完成学习任务。(也被成为:多分类器系统、基于委员会的学习)一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将他们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生C4.5决策树算法、BP神经网络算法同质集成中只包含同种类型的个体学习器个体学习器:基学习器对应算法:基学习算法异质集成中包含不同类型的个体学习器个体学习器:由不同学习算法生成个体学习器:组件学习器(或直接称个体学习器)集成学习优点:通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛
2、化性能。这对“弱学习器”(weak learner)尤为明显,因此集成学习的很多理论研究都是针对弱学习器进行的,而基学习器有时也被直接成为弱学习器虽然从理论上来说使用弱学习器集成足以获得好的性能,但在实践中出于种种考虑,希望使用较少的个体学习器,人们常常会使用比较强的学习器。如何能获得比最好的单一学习器更好的性能呢?在二分类任务中:三个分类器在三个测试样本上的表现如下:分类分类器器测试测试例例1 1测试测试例例2 2测试测试例例3 3h1h2h3集成分类分类器器测试测试例例1 1测试测试例例2 2测试测试例例3 3h1h2h3集成分类分类器器测试测试例例1 1测试测试例例2 2测试测试例例3
3、3h1h2h3集成a.集成提升性能b.集成不起作用c.集成起负作用集成学习的结果通过投票法产生a.每个分类器都只有66.6%的精度,但集成学习却达到了100%;b.三个分类器没有差别,集成后性能没有提高;c.每个分类器精度只有33.3%,集成学习结果变得更糟;以上例子显示要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,即学习器不能太坏,并且要有“多样性”。即学习器间具有差异性。个体学习器至少个体学习器至少不差于弱学习器不差于弱学习器考虑二分类问题: 和真实函数 ,假定基分类器的错误率为 ,即对每个基分类器 有假设集成通过简单投票法集合T个基分类器,若超过半数的基分类
4、器正确,则集成分类就正确 1, 1y fih( ( )( )iP h xf x 1( )TiiHxsignh x假设基分类器的错误率相互独立,则由Hoeffding不等式可知,集成的错误率为20( )( )(1)TkT kkTP H xf xk21exp(1 2 )2T上式显示出:随着集成中个体分类器数目T的增大,集成的错误率将指数级下降,最终趋向于零。然而我们必须注意到,上面的分析有一个关键假设:及学习器的误差相互独立。在现实任务中,个体学习器是为解决同一个问题训练出来的,他们显然不可能相互独立。事实上,个体学习器的“准确性”和“多样性”本身就存在冲突。一般的,准确性提高之后,要增加多样性就
5、需牺牲正确性。如何产生“好而不同”的个体学习器集成研究核心根据个体学习器的生成方式,集成学习方法可分为两大类:个体学习器间存在强依赖关系、必须串行生成的序列化方法个体学习器间不存在强依赖关系、可同时生成的并行化方法代表:代表:BoostingBoosting代表:代表:BaggingBagging和和 “随机森林随机森林” (Random forestRandom forest)Boosting是一族可将弱学习器提升为强学习器的算法,这族算法的工作机制:然后基于调整后的样本分布来训练下一个基学习器再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注先从初
6、始训练集训练出一个基学习器如此重复进行,直至基学习器数目达到事先指定的值如此重复进行,直至基学习器数目达到事先指定的值T T,最终将这最终将这T T个基学习器进行加权结合。个基学习器进行加权结合。Boosting族算法最著名的代表:AdaBoost其中 是真实函数基于“加性模型”,即基学习器的线性组合来最小化指数损失函数(exponential loss function)1, 1 ,iyf 1( )( )TtttH xhx( )( )exp(|)f x H xx DH DEe若H(x)能令指数函数最小化,则考虑(5)式对H(x)的偏导令(6)式为零可解得:exp( )( )(|)( ( )1
7、| )( ( )1| )( )H xH xH DeP f xxeP f xxH x 1( ( )1| )( )ln2( ( )1| )P f xxH xP f xx 因此,有1( ( )1| )( )ln2( ( )1)|P f xxsign H xsignP f xx 1, ( ( )1| )( ( )1| )1, ( ( )1| )( ( )1| )P f xxP f xxP f xxP f xx 1,1argmax( ( )| )yP f xy x 这意味着sign(H(x)达到了贝叶斯最优错误率。换言之,若指数损失函数最小化,则分类错误率也将最小化.在Adaboost算法中,第一个基分
8、类器h1是通过直接将基学习算法用于初始数据分布而得;此后迭代地生成 和 ,当基分类器 基于分布 产生后,该分类器的权重 应使得 最小化指数损失函数:thtthtDttth ( )( )exp(|)t ttf xhxtttx DhDEe( ( )( )( ( )( )tttx DttEef xh xef xh x( ( )( )( ( )( )ttttx Dtx DtePf xh xe Pf xh x(1)ttttee其中:( ( )( )tx DtPh xf x考虑指数损失函数的倒数:令(10)为零可解得:这恰是()中算法分类器权重更新公式。exp(|)(1)tttttttthDee 11ln
9、2tttAdaBoost算法在获得 之后样本分布将进行调整,使下一轮的基学习器 能纠正 的一些错误。理想的 能纠正 的全部错误,即最小化1tHth1tHth1tH1( )( )( )exp1(|)ttf xHxhxttx DHhDEe1( )( )( )( )ttf x Hxf x hxx DEee注意到 ,式(12)可使用 的泰勒展式近似为于是,理想的基学习器22( )( )1tfxhx( )( )tfx hxe122( )( )exp1( )( )(|)(1( )2tf x Hxtttx Dfx hxHhDEef x1( )( )1(1( ) ( )2tf x Hxx DtEef x h
10、xexp1( )argmin(|)ttthh xHhD注意到 是一个常数,令 表示一个分布1( )( )1argmin1( ) ( )2tf x Hxx DhEef x h x1( )( )argmax( ) ( )tf x Hxx DhEef x h x11( )( )( )( )argmax( ) ( )ttf x Hxx Df x Hxhx DeEf x h xEe1( )( )tf x Hxx DEetD11( )( )( )( )( )( )ttf x Hxtf x Hxx DD x eD xEe则根据数学期望的定义,这等价于令由f(x),h(x) -1,+1,有11( )( )(
11、)( )( )argmax( ) ( )ttf x Hxtx Df x Hxhx Deh xEf x h xEeargmax( ) ( )x DhEf x h x( ) ( ) 1 2( ( )( )f x h xf xh x 1,( )( )1,( )( )f xh xf xh x 这恰是()中算法第7行的样本分布更新公式( )( )1( )( )( )( )ttf x Hxtf x Hxx DD x eDxEe1( )( )( )( )( )( )( )tt ttf x Hxf xhxf x Hxx DD x eeEe1( )( )( )( )( )( )( )tt ttf x Hxx D
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 集成 学习 报告 ppt 课件

限制150内