基于异构分类器集成的增量学习算法.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于异构分类器集成的增量学习算法.pdf》由会员分享,可在线阅读,更多相关《基于异构分类器集成的增量学习算法.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Computer Engineering and Applications 计算机工程与应用2020, 56 (7)155基于异构分类器集成的增量学习算法熊霖, 唐万梅重庆师范大学 计算机与信息科学学院, 重庆 401331摘要: 将集成学习的思想引入到增量学习之中可以显著提升学习效果, 近年关于集成式增量学习的研究大多采用加权投票的方式将多个同质分类器进行结合,并没有很好地解决增量学习中的稳定可塑性难题。针对此提出了一种异构分类器集成增量学习算法。该算法在训练过程中,为使模型更具稳定性, 用新数据训练多个基分类器加入到异构的集成模型之中,同时采用局部敏感哈希表保存数据梗概以备待测样本近邻的查
2、找; 为了适应不断变化的数据, 还会用新获得的数据更新集成模型中基分类器的投票权重; 对待测样本进行类别预测时,以局部敏感哈希表中与待测样本相似的数据作为桥梁,计算基分类器针对该待测样本的动态权重,结合多个基分类器的投票权重和动态权重判定待测样本所属类别。通过对比实验,证明了该增量算法有比较高的稳定性和泛化能力。关键词: 增量学习; 集成学习; 局部敏感哈希; 异构分类器集成; 动态权重文献标志码: A中图分类号: TP391doi: 10.3778/j.issn.10028331. 18120188熊霖, 唐万梅.基于异构分类器集成的增量学习算法 .计算机工程与应用, 2020, 56 (7
3、) : 155161.XIONG Lin, TANG Wanmei. Incremental learning algorithm based on heterogeneous classifier ensemble. Computer Engineering and Applications, 2020, 56 (7) : 155161.IncrementalIncremental LearningLearning AlgorithmAlgorithm BasedBased onon HeterogeneousHeterogeneous ClassifierClassifier Ensemb
4、leEnsembleXIONG Lin, TANG WanmeiCollege of Computer and Information Science, Chongqing Normal University, Chongqing 401331, ChinaAbstractAbstract:Introducing the idea of ensemble learning into incremental learning can improve the learning effect. In recentyears, most of the research on ensemble incr
5、emental learning combines multiple homogeneous classifiers with weightedvoting method, which does not solve the problem of stabilityplasticityin incremental learning very well. An incrementallearning algorithm based on heterogeneous classifier ensemble is proposed. In the stage of training, to make
6、the ensemblemodel more stable, many base classifiers are trained with new data and then append into heterogeneous ensemble model.Meanwhile, LocalitySensitiveHashing is used to save the data sketch for the nearest neighbor search of test sample. Inorder to adapt to the changing data, the newly acquir
7、ed data will be used to update the voting weight of the base classifierin the ensemble model. In the prediction stage, for the class label prediction of the test sample, the data similar to the testsample is found from the LocalSensitiveHashing table, this data is used as a bridge to calculate the d
8、ynamic weight ofthe base classifier for the test sample. It determines the class label of the test sample by combined the voting weight anddynamic weight of many base classifiers. Through comparative experiments, it is proved that the proposed algorithm haswell stability and generalization ability.K
9、eyKey wordswords:incremental learningensemble learningLocality Sensitive Hashing(LSH) heterogeneous classifiersensemble dynamic weight1 1引言前的大多数算法均采用批量学习的方式1, 若对新的数机器学习是人工智能领域的主要研究方向之一,目据进行学习, 需要丢弃已经训练好的模型,将新数据加基金项目: 国家自然科学基金面上项目(No.11671062) ; 重庆市教育规划重点项目(No.2017GX116 ) 。作者简介: 熊霖 (1992) , 男, 硕士研究生,
10、 研究领域为机器学习与数据挖掘;唐万梅 (1965) , 通信作者, 女, 博士, 教授, 研究方向为神经网络、 数据挖掘、 机器学习, Email : 。收稿日期: 20181217修回日期: 20190325文章编号: 10028331(2020) 07015507CNKI网络出版: 20190328,http:/ 56 (7)Computer Engineering and Applications 计算机工程与应用入原有的数据集之中重新训练新模型。近年来物联网、异构分类器集成的增量学习算法 (Incremental learning社交媒体、 互联网以及移动通信等领域高速发展, 数据a
11、lgorithm based on Heterogeneous Classifier Ensemble,流逐渐成为数据分析与挖掘的主角,其主要特点有无限IHCE) , 在保证算法稳定性的前提下, 兼顾算法对动态性、 实时性、 易失性与动态变化性2。批量学习方式处理数据的适应性, 获得快速而准确的增量学习模型。主要动态数据流会面临如下几个问题:(1) 训练样本不能一采用局部敏感哈希(LocalitySensitiveHashing, LSH) 来次性获得, 若新数据加入后都重新训练模型, 则需要消保存数据分布的梗概, 用异构的分类器集成模型对不断耗大量的时间。在现实生活中,网站点击量分析、个性变
12、化的数据流进行增量学习。在对待测样本做预测时,化推荐及电力、 银行等行业每时每刻都产生着庞大的数根据待测样本与基分类器的适应性,调整基分类器的投据, 如果每次获得新数据就重新训练模型是不切实际票权重, 以应对数据发生变化等情况。的。(2) 产生数据的环境是变化的,数据流中数据的分布或隐含的知识也发生着变化,可能导致以前训练的模型2 2局部敏感哈希 (LSHLSH)不再适用于当前的数据。 (3) 数据流潜在的海量性导致对于海量高维的数据流, 数据流中有很多近似重复数据无法一次性载入内存,从而无法进行完整的批量式记录, 可以采用将相似度很高的数据进行剔除, 压缩数学习。据得到数据流分布的梗概。以往
13、的算法查找待测样本1962 年, Coppock 和 Freund 在 Science 上提出了增的近邻多是采用直接计算每个训练样本与待测样本间量学习3方法。增量学习与人脑学习相似,是指在保留的欧氏距离7, 11, 这种方法会花费大量的时间,可以采用以前学到的知识的情况下不断学习来自环境的新知类似索引技术来加快查找过程。在提出的IHCE 算法识。在学习过程中, 由于新增加的数据相对于原累积的中, 采用LSH21的方式来剔除数据流中近似重复数据和数据来说较少, 可以用新数据对原模型进行微调以获得查找待测样本的近邻。 LSH是一种高维空间最近邻搜和批量学习相似的效果。然而设计增量学习算法必定索算法
14、, 其基本思想是:通过 hash函数把数据从高维空会面对稳定 可塑性难题4: 稳定性是指模型必须要保存间映射到低维空间中, 使得高维空间的相似数据在低维已经学过的知识,意味着模型的参数和结构不能改变;而可塑性是指为了学习新知识需要对模型的参数与结空间相似概率很高; 而在高维空间不相识的数据在低维构进行调整。增量学习根据所用分类器的多少可以分空间相似概率很低, 其形式化定义如下。为单分类器增量学习和集成式增量学习。单分类器增定义1 (局部敏感哈希函数簇)对于Hash函数簇H量学习指在学习过程中只用一个模型,模型会根据新样中每个函数h, 如果任意两点p、q满足以下条件, 则认本调整其内部结构或者参
15、数以适应数据的变化,具有很为H是(dist1,dist2,P1,P2)sensitive 的:好的可塑性, 但稳定性不高。有代表性的单分类器模型(1) 若d(p,q)dist1,则PrHh(p)=h(q)P1;有Hoeffding 树5、 在线被动攻击算法6等, 这需要所使用(2) 若d(p,q)dist2,则PrHh(p)=h(q)P2。的基分类器本身具备增量学习能力。经大量实验表明:其中,dist1P20,d(p,q)为p、q两集成学习可以提高增量学习算法的稳定性和预测准确点的距离,PrH表示p、q两点的哈希值相同的概率。率7, 集成式增量学习以 Learn+算法8、 SEA算法9为代条件
16、 (1) 保证两个相似点以高概率被映射进同一个哈希表, 使用多个分类器对数据进行增量学习, 对所用的分桶; 条件 (2) 保证两个不相似的点以低概率映射进同一类器是否具备增量学习能力没有要求,这种方法具有很个哈希桶。好的稳定性, 但其可塑性低,难以应对数据产生突变或局部敏感哈希常用的距离度量有汉明距离、欧式距者渐变等情况。文献 1012 对当前流行的多种增量学离和余弦距离, 通常较高维的数据采用余弦距离度量较习算法进行了比较和归纳,可以看出近几年提出的集成好, 给定n维的两个样本点p和q, 两者的相似性为:式增量学习算法如wESVM13、 Learn+.CDS14、 OAUE15、npWEOB
17、16等大多是集成多个同质分类器,采用加权投票cos()=(=1iqi)i的方式对分类器进行结合的。为应对集成模型可塑性差的问题, 多数算法采用动态权重的方式对分类器进行n(pn(1)=1i)2(qi=1i)2i结合, 如文献1620 , 在计算动态权重过程中, 查找待测公式 (1) 表示p、q两点向量之间的夹角余弦值, 值越样本的近邻时会计算整个数据集中的数据与待测样本大, 则两点越相似。的距离, 这样的方式极为耗时。尤其对于数据流, 大量数据的存储与计算将会产生巨大的时空开销。3 3IHCEIHCE算法针对以往集成式增量学习中没有很好的权衡稳定集成式增量学习在训练阶段,通常是用新获得的数可塑
18、性问题和计算动态权重耗时问题,本文提出了一种据块训练一个或者多个基分类器加入到集成分类器熊霖, 等: 基于异构分类器集成的增量学习算法2020, 56 (7)157中。如何将基分类器进行结合是集成式增量学习最为多个固定容量的哈希桶中,若一个桶中的数据超过其容关键的一步, 在以往的大多数研究中,多采用加权投票量, 则用新数据替换最旧的数据。通过对多个数据块的的方式进行结合, 基分类器权重来源于该分类器在当时处理, 建立一张保存了数据分布梗概的哈希表。训练集上的分类能力, 也就是说基分类器一旦训练完如图2所示, 以三维数据为例, 用包含 4个哈希桶的成, 分类器的权重在预测不同的待测样本时是不变的
19、。LSH 对3个数据块进行处理。假设B区域数据经哈希有可能基分类器当时在训练集上分类能力好,获得较高映射落入桶 2、 桶3中, 因该区域数据相对于其他区域数的权重, 但对预测数据的分类能力差。这在数据流中尤据较多且分布广, 所以桶 2和桶3中的数据更新非常快,为常见, 所以针对实时的数据调整基分类器投票权重显这样可以快速适应数据动态的变化;而对于数据分布较得非常重要。少的 A区域, 桶1中完整地保存 3个数据块中 A区域的IHCE算法主要从三方面入手: (1) 采用异构的方式数据, 这样可以很好保存数据分布的梗概。构建集成模型。对于新获得的数据,采用不同的分类算3.23.2更新投票权重和训练基
20、分类器法分别训练分类器可提高基分类器之间差异性。 (2) 用IHCE 算法训练阶段,首先会用当前数据块对集成实时的数据调整基分类器的投票权重,以适应数据的变分类器中的每个基分类器进行测试,用该分类器对应的化。(3) 在分类器的预测阶段, 兼顾基分类器的历史表现分类准确率更新其投票权重, 更新公式如下:和对待测样本的适应性, 得到分类器对当前待测样本更j合理的投票权重。算法基本框架如图 1所示。kj=kj-1+acc-kk-1(2)3.13.1LSHLSH保存数据分布梗概式中,acc是第k个数据块上训练的第j个基分类器的IHCE 算法在算法训练之初建立一张空的哈希表,分类准确率,kj-1是第j个
21、基分类器在第k-1个数据针对每个时间段获得的数据块,将数据分别映射到表中块上的投票权重。数据块1数据块2数据块3数据块t数据流新数据基模型的训练数据保存到哈希表CCCCCCCCCCCC集成分类器C: A分类器计算样本 2的动态权重C: B分类器C : C分类器桶1桶2桶3桶4桶5桶6桶n哈希表桶n: 数据队列测试样本图1IHCE算法示意图100100100BC8060BC8040z60BC8040z6040z2020AA0A20008010008010080100204060204060 x08020y40100060204060 x08020y401000y60801000204060 x桶
22、1 (A)桶2 (B)桶3 (B)桶4 (C)图2LSH保存数据分布梗概1582020, 56 (7)Computer Engineering and Applications 计算机工程与应用IHCE 算法用异构的方式组建集成模型, 对于新获梗概的哈希表HT。得的数据块, 为提高基分类器之间的差异性,用多种不训练过程:同的分类算法在数据块上分别训练一个基分类器,将训步骤1(1) 创建一张包含了c个桶, 每个桶容量为s练完成的多个基分类器加入到集成模型中。的空哈希表HT。(2) 在数据块D1上, 用分类算法A1,3.33.3针对待测样本计算基分类器动态权重A2, Am训练得到m个基分类器C1A
23、1,C1A2, C1Am,IHCE 算法预测阶段,加入了能度量待测样本与基加入集成分类器Ec。(3) 将D1数据映射到哈希表HT中。分类器适应性的动态权重。算法先从哈希表的桶中找步骤 2(1) 用Dk测试Ec中的基分类器,使用公式出与待测样本相似的a个训练样本, 用每个基分类器对(1) 更新基分类器的投票权重。 (2) 将D这a个点进行分类, 分类准确率就是该基分类器针对待k中的数据通过哈希函数映射到哈希表HT某个哈希桶中, 如果桶容量测样本的动态权重, 计算公式如下:已满, 用最新数据代替最旧的。 (3) 用A1,A2, Am在akj=1a(Ckj(xt)=yt)(3)Dk上学习得到m个基分
24、类器CkA1,CkA2, CkAmt=1, 加入3.43.4算法实现集成模型Ec。IHCE算法在训练阶段, 获得新数据块后, 算法主要步骤 3 读入下一数据块,如果数据块为空,结束训有三步: (1) 用数据对集成模型中的每个基分类器进行练过程; 否则回到步骤 2。测试, 用分类准确率更新基分类器的投票权重。 (2) 将数经过k次学习, 得到集成模型为:Ec=C1A1,C1A2,据块中的数据映射进敏感哈希表的某个桶中,如果该桶C1Am, CkA1,CkA2, CkAm。已满, 则用最新数据替换最旧的数据。 (3) 用多种不同的预测样本x:分类算法在该数据块上训练多个基分类器,加入到集成步骤 4
25、将x通过哈希函数映射到HT中, 找出与模型中。预测阶段由三部分组成:(1) 将待测样本映射待测样本x相似的多个数据组成临时测试集Ds。进某个哈希桶中, 可认为该桶中的数据与待测样本是相步骤5 对于Ec中km个基分类器:似的。 (2) 用这些相似数据去评估基分类器与待测样本每个基分类器Cj的适应性, 得到每个基分类器针对待测样本的动态权重i,i =1,2, k,j =1,2, m分别。(3) 将基分类器的投票权重与针对待测样本所获对Ds进行分类测试,用公式(2) 计算分类器的动态权重ij得的动态权重结合得到该基分类器综合权重,用多个。基分类器综合权重加权投票判定待测样本的类别。算最终, 对于待测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分类 集成 增量 学习 算法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内