半监督学习方法的评价.docx
《半监督学习方法的评价.docx》由会员分享,可在线阅读,更多相关《半监督学习方法的评价.docx(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、摘要半监督学习利用大量未标记数据结合少量标记数据提升学习性能。本文涉及几种半监督分类方法的评价。文章由三个主要部分组成。首先,介绍半监督学习的定义和基本假设;第二部分为本文的主体部分,介绍了四种半监督学习方法:弱监督学习、生成模型、直推式支持向量机、基于图的方法,结合数据集对其优势和缺陷进行评价;在第三部分中,本文从理论上分析了未标记数据对分类性能提升的作用。关键词:半监督学习 分类 生成模型 直推式支持向量机 基于图的方法AbstractSemi-supervised learning uses a large amount of unlabeled data, together with
2、the labeled data to build a better classifier. This paper is concerned with the evaluation of several semi-supervised methods. There are three major ingredients. The first is an introduction on the definition and some popular assumptions of semi-supervised learning. The second, which is the main ing
3、redient of this paper, studies the four main semi-supervised methods, including weakly supervised methods, generative model, transductive support vector machine and graph-based methods. Some experiments on datasets of these methods have been carried out, to characterize their advantages and limitati
4、ons. The third ingredient present the theoretical analysis of how unlabeled data can be used successfully for classification. Key words: semi-supervised leaning, classification, generative model, transductive support vector machine, graph-based method 第一章 前言1.1 研究背景与意义1.1.1 半监督学习的定义为定义半监督学习,首先我们需要明确
5、监督学习和无监督学习的含义。首先给出一些基本的定义Error! Reference source not found.Error! Reference source not found.。样例x通常指一个D维向量x=x1,x2,xd,它的每一维称为一个特征,D即为特征向量的维数。训练集xi,yii=1n则是由n个样本点组成的集合,它是学习过程的输入值。标签y与样例x相对应。在分类问题中,它指代类别,通常为整数。对于多分类问题,可令y1,2,C,其中,C是类别的数量。监督学习是指,通过给定的有标记训练集xi,yii=1l,训练一个从输入X到输出Y的映射f。监督学习根据标签y的类型可分为两类。如果
6、y是离散值,则为分类问题,此时f是一个分类器;否则为回归问题,f则为回归函数。无监督学习的输入是一个未标记数据集xii=1u,最常见的一类无监督学习是聚类问题,它的目标是将n个样本点分为若干簇。无监督学习还包括离群点检测和降维等类型。本文集中于讨论分类问题。半监督学习是一种介于监督学习和无监督学习之间的学习方法Error! Reference source not found.。对于半监督分类问题,它综合利用标记数据集xi,yii=1l和未标记数据集xii=l+1u进行训练,通常情况下有标签的样例数目远大于无标签的样例数目,即ul。根据学习目的,半监督学习可分为两种类型:纯半监督学习和直推式半
7、监督学习。前者的目标是利用给定训练集xi,yii=1l,xii=l+1u训练f:XY,使f在新的样本上依然能给出好的预测。后者根据训练集训练f:Xl+uYl+u,即只需预测训练集中无标记样本的标签,不需要对新的样本具备预测能力。1.1.2 半监督学习的动机传统的监督学习需要一定规模的标记训练集,然而,实际问题中标签的获取代价很高。相比于难以获得的标记数据,我们更容易获取大量无标记数据。例如,在文本分类问题中,根据内容对文档进行人工标记很费时,但未标注的文档容易获得。半监督学习的动机在于,有效利用大量相对廉价的未标记数据提升学习性能。半监督学习通常需要依赖某些基本假设。常用的假设有以下三种:1)
8、 平滑假设Error! Reference source not found.,即当样本x1,x2在样本分布密集的区域内距离相近时,它们的标签相同。2) 低密度分离假设Error! Reference source not found.,要求决策边界位于样本分布稀疏的区域。低密度分离假设的等价表述为聚类假设,即位于同一聚类的样本有相同标签。聚类假设也可被视为平滑假设的一个特例,因为通常样本集中的区域组成一个聚类。在聚类假设下,未标记数据指导分类器识别数据密集和稀疏的区域,使决策平面穿过低密度区域。3) 流形假设Error! Reference source not found.,这一假设认为在
9、一个小的局部邻域内,样本有相似的性质,因而有相似的输出,在分类问题中则是有相同的标签。在流形假设下,未标记数据让数据空间变得更加密集,从而准确反映空间的局部特征。流形假设可以看作是从局部角度描述的聚类假设。三种假设本质上是一致的,区别在于关注的角度不同。流形假设可以应用于半监督回归,因此更为普遍。1.2 研究成果回顾最早在分类问题中使用未标记数据的是自训练方法Error! Reference source not found.。自训练在学习过程中反复利用某种监督学习方法,是一种包裹算法。它将标记数据集作为初始训练集,在每一步迭代中通过决策函数将部分未标记数据联同新给定的标签并入训练集,在新的训
10、练集上再次训练分类器。之后提出的是直推式学习的概念Error! Reference source not found.,它基于Vapnik原理,即不在解决问题的过程中解决更复杂的问题。直推式学习只预测已有未标记数据的标签,对新的样本不具备预测能力。半监督学习在20世纪70年代取得重要发展。对于高斯混合分布模型或混合多项分布模型Error! Reference source not found.,利用EM算法可在由标记和未标记数据集组成的训练集上对模型参数进行最大似然估计。更进一步地,每个分类可以对应多个混合成分。20世纪90年代,由于自然语言处理和文本分类对利用未标记数据提升分类性能的需求,半
11、监督学习成为热点问题。我们通常认为,“半监督学习”这一术语在1992年首次出现Error! Reference source not found.。目前主要的半监督学习方法有协同训练Error! Reference source not found.、生成模型Error! Reference source not found.、直推式支持向量机Error! Reference source not found.和基于图的方法Error! Reference source not found.。1.3 论文的章节安排在第二章中,我们将介绍两种弱监督学习方法:自训练和协同训练,并在标准数据集上对其
12、分类性能进行简单评测。在第三章中我们将介绍生成模型的原理,并具体介绍了基于混合多项分布的朴素贝叶斯模型,以及如何在标签缺失的情况下用EM算法进行参数估计。同时,我们将其应用在文本分类问题中,在20 Newsgroups数据集上对比了朴素贝叶斯和半监督朴素贝叶斯模型的分类准确度。在第四章中我们将介绍直推式支持向量机的理论,在满足低密度分离假设的数据集和随机选取的数据集上,将其分类准确度与支持向量机进行比较。在第五章中,我们将给出三种基于图的半监督学习方法,在正则化框架下完成其理论推导,并在图像数据集USPS和文本数据集20 Newsgroups的一个子集上观测其分类性能。在第六章中,我们基于PA
13、C框架,对半监督学习进行简单的理论分析。在结论部分,我们对全文内容进行总结,并提及半监督学习在未来的发展方向。第二章 弱监督学习自训练和协同训练在分类器的学习过程中,通过自助法利用未标记样本扩大训练集的规模,但依然使用监督式的分类器,因此又称为“弱监督学习”Error! Reference source not found.。本章余下部分将介绍这两种学习方式,给出实验结果和评价。2.1 自训练自训练是一种简单高效的半监督学习方法。它不需要任何对于输入数据的假设,它所基于的假设是,对于每一次预测,置信度高的样本有更大的可能性获得正确分类。自训练的学习步骤如下:1. 给定有标签的训练集L,无标记样
14、本集U;2. 在L上训练初始分类器;3. 利用初始分类器对U中全部数据进行标记,将置信度最高的数据及其新获得的标签移入L中,从而完成对L的更新;4. 在新获得的L上重新训练分类器,如此迭代,直到所有的无标记数据都获得标记为止;5. 最后,原始的标记数据集与获得标签的无标记数据集将共同作为训练集,训练出最终的分类器,对新的样本仍可进行分类。上述训练过程中对分类器的类型没有任何限制。由此看出,自训练是一种包裹算法,即它在中间步骤中可以对分类方法进行开放性的选择。自训练通过在每次迭代中从未标记数据集中选取样本并入标记数据集,解决了标记样本数量有限的问题。然而,由于训练初始分类器的样本很少,对未标记样
15、本容易出现错误分类,错误在迭代过程中累积,因此无法直接判断自训练相比监督学习能否提升分类性能。为评估自训练在数据集上的表现,我们选取了9组标准数据集,随机抽取百分之十的数据作为标记样本,使用十折交叉验证法,隐去训练集中未标记样本的标签,对测试集中的标签则予以保留。本章实验使用KEEL软件Error! Reference source not found.。这里我们选用的分类方法是k最近邻(k=3)。此时自训练步骤中第2步的具体过程为:(1)对于U中任意未标记样本xU,选取欧氏距离最近的3个标记样本点,3个点投票决定它的标签。若三点标签不同,则选取其中距离最近的点并采纳标签;(2)取三个样本点中
16、与xU标签相同的点,计算它们到xU的平均距离作为置信度。取置信度最高的xU并入L中。数据集信息如表1所示:数据集样例数目维数类别bupa34562cleveland303135ecoli33678haberman30632iris15043monk241062pima76882vehicle846184wisconsin69992表1在这些数据集上分别采用监督式3NN和自训练3NN方法,分类准确度如图1所示。图 1 从图中看出,在大部分数据集上,自训练(3NN)相比3NN方法对分类准确度没有明显提升。在kNN算法中,未标记点的标签依靠近邻点确定,据此推测,对于使用kNN分类器的自训练方法,当数
17、据集呈现出明显分类时,由于没有离群点的干扰,kNN方法错误率低,自训练由于自主扩大了训练集可以获得更准确的分类。我们对使用自训练方法后分类准确度有大幅变化的haberman和iris数据集的前三个维度做可视化处理,如图2所示。图 2左图的haberman数据集没有明显的聚类特征,因此容易出现误分类,自训练过程中错误累积。右图的iris数据集类别间分界明显,通过自训练方法扩大了训练集的规模,获得了更好的分类精度。事实上,文献Error! Reference source not found.的结论表明没有一种自训练方法适合所有数据集,选用了某种分类器(kNN,决策树,支持向量机等)的自训练方法可
18、能会在某一数据集上准确分类,但在其他数据集上会降低原有分类器的性能。2.2 协同训练协同训练的基本思想是将数据特征划分为两个不相交的子集,子特征集又称为视图。在两个视图上分别训练分类器,对于每一个分类器而言,选取置信度最高的未标记样本,在另一个分类器的训练集中移入该样本。具体步骤如下:1. 将L据特征分为互不相交的L1,L2,在其上分别训练分类器h1,h2;2. 通过h1将U中置信度最高的样本移入L2,通过h2将置信度最高的样本移入L1;3. 在新的L1,L2上重新训练分类器h1,h2;4. 重复2,3步直到U中没有样本。协同训练依赖于两个重要的假设:(1)在有足够多的标记样本时,每个视图对于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 监督 学习方法 评价
限制150内