《半监督学习综述ppt文档资料课件.ppt》由会员分享,可在线阅读,更多相关《半监督学习综述ppt文档资料课件.ppt(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、半监督学习综述(Semi-supervisedLearning)1资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值l有监督的学习有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未见示例的标记(label)。很难获得大量的标记样本。l无监督的学习无监督的学习:无训练样本,仅根据测试样本的在特征空间分布情况来进行标记,准确性差。l半监督的学习半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。机器学习23资金是运动的价值,
2、资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值半监督学习的过程4资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值传统机器学习算法需要利用大量有标记的样本进行学习。随着信息技术的飞速发展,收集大量未标记的(unlabeled)样本已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本来改善学习性能成为当前机器学习研究中备受关注的问题。优点优点:半监督学习(Semi-supervisedLearnin
3、g)能够充分利用大量的未标记样本来改善学习机的性能,是目前利用未标记样本进行学习的主流技术。半监督学习背景5资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值半监督学习的发展历程u未标记示例的价值实际上早在上世纪80年代末就已经被一些研究者意识到了。R.P.Lippmann.Patternclassificationusingneuralnetworks.IEEE Communications,1989,27(11):47-64.u 一般认为,半监督学习的研究始于B.Shahshahani和D.Landgrebe的工作,
4、最早是在这篇文章当中提到的。B.Shahshahani,D.Landgrebe.Theeffectofunlabeledsamplesinreducingthesmallsamplesizeproblemandmitigatingthehughesphenomenon.IEEE Transactions on Geoscience and Remote Sensing,1994,32(5):1087-1095.uD.J.Miller和H.S.Uyar认为,半监督学习的研究起步相对较晚,可能是因为在当时的主流机器学习技术(例如前馈神经网络)中考虑未标记示例相对比较困难。随着统计学习技术的不断发展
5、,以及利用未标记示例这一需求的日渐强烈,半监督学习才在近年来逐渐成为一个研究热点。D.J.Miller,H.S.Uyar.Amixtureofexpertsclassifierwithlearningbasedonbothlabelledandunlabelleddata.In:M.Mozer,M.I.Jordan,T.Petsche,eds.Advances in Neural Information Processing Systems 9,Cambridge,MA:MITPress,2019,571-5776资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增
6、值,其增值的这部分资金就是原有资金的时间价值n在进行Web网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但Web上存在着无数的网页,它们都可作为未标记示例来使用。n这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分?半监督学习的应用领域7资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值半监督学习应用实例n语音识别(Speechrecognition)n文本分
7、类(Textcategorization)n词义解析(Parsing)n视频监控(Videosurveillance)n蛋白质结构预测(Proteinstructureprediction)8资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值半监督学习的主要方法最大期望(EM算法)自训练(Self-training)协同训练(Co-training)转导支持向量机(TransductiveSupportVectorMachines)基于图的方法(graph-basedmethods)现状与展望9资金是运动的价值,资金的价
8、值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值1.最大期望(EM算法)u背景背景:期望最大化(EM)方法和朴素贝叶斯方法有着共同的理论基础。期望最大化是一种基于循环过程的最大似然参数估计方法,用于解决带缺失数据的参数估计问题。是最早的半监督学习方法。u前提前提:样本数据分为标记样本和未标记样本,按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型(generativemodels)。样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。10资金是运动的价值,资金的价值是随时间变化而变
9、化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值1.1 EM算法的特点u定义定义:具有隐状态变量的分布中参数的最大似然估计。u适用适用:能够产生很好的聚类数据u困难困难:如果把在参数下的期望为。那么,在估计状态变量X时,估值当然应该用条件期望然而这时就需要知道参数的值;另一方面,为了知道,又必须先知道X的估值(作为状态已知样本值)11资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值1、设定初值2、(E-步骤)对,令3、(M-步骤)(修正的估计)取使之满足:其中E-步骤为取条件期望(exp
10、ectation),而M-步骤为取最大(maximum)。这种交替的方法称为EM方法。优点优点:算法构思很简单,并且在数学上有很严格的理论基础缺点缺点:计算量过大,对生成模型的依赖较大。1.2 EM算法的具体步骤(解决方法)返回12Figure:Ifthemodeliswrong,higherlikelihoodmayleadtolowerclassificationaccuracy.Forexample,(a)isclearlynotgeneratedfromtwoGaussian.IfweinsistthateachclassisasingleGaussian,(b)willhavehig
11、herprobabilitythan(c).But(b)hasaround50%accuracy,while(c)ismuchbetter.13Figure:Anexampleofunidentifiablemodels.Evenifweknownp(x)(top)isamixtureoftwouniformdistributions,wecannotuniquelyidentifythetwocomponents.Forinstance,themixturesonthesecondandthirdlinegivethesamep(x),buttheyclassifyx=0.5differen
12、tly.14资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值2 自训练(Self-training)n定义定义:首先利用已标记的样本训练分类器,然后利用已有未标记训练样本建立的模型标记,使用分类器选出置信度高的样本加入训练集中重新训练,迭代这个过程,得到一个比较理想的分类器。n适用适用:用监督学习分类器时很复杂或者是很难修正n优点优点:简单、容易实现。n缺点:缺点:误差也同时会自我迭代放大。返回15资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价
13、值3 协同训练(Co-training)n背景:背景:最早是2019年由A.Blum和T.Mitchell在Combininglabeledandunlabeleddatawithco-training.In:Proceedings of the 11th Annual Conference on Computational Learning Theory(COLT98),Wisconsin,MI,2019,92-100.提出来的,在当时来说可谓是半监督学习的核心主流算法。n定义:定义:假设特征能够分成两个集,这两个数据集是独立同分布的。每个子特征集能够训练一个很好的分类器。每个分类器把未标记
14、的样本分出来给另一个分类器,选择出置信度高的新的为标记样本进行标记,重复上面的过程。n适用适用:特征能够很好的分成两类。n缺点缺点:大多数的问题并不具有“充分大”的属性集,而且随机划分视图这一策略并非总能奏效,16Figure:Co-Training:Conditionalindependentassumptiononfeaturesplit.Withthisassumptionthehighconfidentdatapointsinx1view,representedbycircledlabels,willberandomlyscatteredinx2view.Thisisadvantage
15、ousiftheyaretobeusedtoteachtheclassifierinx2view.17资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值3.1 协同训练的改进nS.Goldman和Y.Zhou提出了一种不需要充分冗余视图的协同训练算法。他们用不同的决策树算法,从同一个属性集上训练出两个不同的分类器,每个分类器都可以把示例空间划分为若干个等价类。n他们又对该算法进行了扩展,使其能够使用多个不同种类的分类器。ntri-training算法:不仅可以简便地处理标记置信度估计问题以及对未见示例的预测问题,还可以利
16、用集成学习(ensemblelearning)来提高泛化能力18资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值3.2 协同训练的应用实例nD.Yarowsky在研究词义消歧时,通过同时使用词的局部上下文以及词在文档其他部分出现时的含义这两部分信息,有效减少了对人工标注数据的需求量nE.Riloff和R.Jones在对名词短语进行地理位置分类时,同时考虑了名词短语本身及其出现的上下文。nM.Collins和Y.Singer进行名实体识别时,也同时使用了名实体的拼写信息及名实体出现的上下文信息。返回19资金是运动的价值,
17、资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值n背景背景:TSVM是为了改进SVM在文本分类中本已出色的表现而做的更一步改进.使用SVM进行文本分类一个问题是难于建造出那么多的标记文档,要么是可用的训练数据本身就少,或者是用人工方法把无标记的文档分类为有标记的文档所花费的功夫无法承受。这样就引出了TSVM。n定义定义:是标准SVM在半监督学习当中的拓展,是通过加入约束项使得未标记数据落在Margin之外,即使得分类的超平面避开数据密度高的区域。这里的未标记样本的特点就是使得决策面避开样本的密集区。n优点优点:考虑无标签样本对分类器的影
18、响,并且结合SVM算法实现的一种高效的分类算法。n适用:适用:能够用SVM的地方,自然想到用转导支持向量机能够获得更好的效果n缺点缺点:时间复杂度比较高,需要预先设置正负比例等的不足。4 转导支持向量机(TSVM)返回20资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值5 基于图的方法n定义定义:通过相似度度量将标记和未标记数据放在联系起来的图当中。实际当中,很多基于图的方法就是基于图估计一个函数这个函数需满足下面两个前提假设。对于已标记样本点,尽可能的接近标记,表为在损失函数(lossfunction)的选择。在整个
19、图上函数要比较平缓,表现为正交器regularizer。n适用:适用:具有相似特征的点往往被分在同一类当中21资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值n特点特点:不同的基于图的方法大体上都差不多,只不过是损失函数和正规则器的选择不同而已,其关键是要构建一个好的图。BlumandChawla(2019)posesemi-supervisedlearningasagraphmincut(alsoknownasst-cut)problem.Inthebinarycase,positivelabelsactassour
20、cesandnegativelabelsactassinks.Theobjectiveistofindaminimumsetofedgeswhoseremovalblocksallflowfromthesourcestothesinks。n优点优点:物理原理能够很好的解释。n缺点缺点:目前对于图的构建研究还不是很深入。5.1基于图的方法22一些随机手写字符数据集的样本两个具有欧几里距离的图像“2”基于欧几里距离KNN图局部相似图像把标签复制给全局不相似的图像23AsymmetrizedEuclidean2NNgraphonsome1sand2s.LabelPropagationonthisgr
21、aphworkswell.返回24资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值半监督学习的不足n通过半监督学习利用未标记示例后,有时不仅不能提高泛化能力,反而会使得性能下降。n在模型假设不符合真实情况或者未标记示例的分布与有标记示例的分布有较大差异时,进行半监督学习有可能导致性能下降。n另一方面,随着训练不断进行,自动标记的示例中的噪音会不断积累,其负作用会越来越大。25资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值研究现状和展望n以往的半监督学习研究几乎都是关注分类问题,虽然在监督学习中回归问题的重要性不亚于分类问题,半监督回归却一直缺乏研究。n利用数据审计(data editing)技术来发现和处理这些噪音数据,也许是一条可能的途径,M.Li和Z.-H.Zhou对此进行了初步的尝试。总的来说,找到未标记示例导致性能下降的真正原因,有助于更好地发挥半监督学习技术的效用。26谢谢观看!27资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值2828
限制150内