半监督学习综述.ppt
《半监督学习综述.ppt》由会员分享,可在线阅读,更多相关《半监督学习综述.ppt(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1半监督学习综述(Semi-supervisedLearning)机器学习领域中,传统的学习方法有两种:机器学习领域中,传统的学习方法有两种:监督学习监督监督学习监督学习学习。半监督学习(。半监督学习(Semi-supervised Learning)是模)是模式识别和机器学习领域研究的重点问题,是监督学习与无式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。量的标注样本和大量的未标注样本进行训练和分类的问题。2模式识别n模式识别(英语:Pat
2、ternRecognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统n模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。3机器学习:机器
3、模拟人的学习机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。4 监督学习(监督学习(Supervised learning) 训练集:标注训练集:标注 非监督学习(非监督学习(Unsupervised learning) 训练集:无需标注(同一分布)训练集:无需标注(同一分布) 半监督学习(
4、半监督学习(Semi-supervised learning) 训练集:标注训练集:标注+未标注未标注(同一分布同一分布)机器学习:按学习方式分类有监督的学习有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未见示例的标记(label)。很难获得大量的标记样本。无监督的学习无监督的学习:无标记样本,仅根据测试样本的在特征空间分布情况来进行标记,准确性差。7半监督学习的过程:有少量标记样本,学习机以从标记样本获得的知识为基础,结合有少量标记样本,学习机以从标记样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别测试样本的分布情况逐步修正已有知
5、识,并判断测试样本的类别。人类是否进行半监督学习?人类是否进行半监督学习?9人类是否进行半监督学习?人类是否进行半监督学习?10传统机器学习算法需要利用大量有标记的样本进行学习。随着信息技术的飞速发展,收集大量未标记的(unlabeled)样本已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本来改善学习性能成为当前机器学习研究中备受关注的问题。优点优点:半监督学习(Semi-supervisedLearning)能够充分利用大量的未标记样本来改善学习机的性能,是目前利用未标记样本进行学习的主流技术。半监督学习背景11半监督学习
6、的发展历程u未标记示例的价值实际上早在上世纪80年代末就已经被一些研究者意识到了。R.P.Lippmann.Patternclassificationusingneuralnetworks.IEEE Communications,1989,27(11):47-64.u 一般认为,半监督学习的研究始于B. Shahshahani和D. Landgrebe的工作,最早是在这篇文章当中提到的。 B.Shahshahani,D.Landgrebe.Theeffectofunlabeledsamplesinreducingthesmallsamplesizeproblemandmitigatingthe
7、hughesphenomenon.IEEE Transactions on Geoscience and Remote Sensing,1994,32(5):1087-1095.uD.J.Miller和H.S.Uyar认为,半监督学习的研究起步相对较晚,可能是因为在当时的主流机器学习技术(例如前馈神经网络)中考虑未标记示例相对比较困难。随着统计学习技术的不断发展,以及利用未标记示例这一需求的日渐强烈,半监督学习才在近年来逐渐成为一个研究热点。D.J.Miller,H.S.Uyar.Amixtureofexpertsclassifierwithlearningbasedonbothlabelle
8、dandunlabelleddata.In:M.Mozer,M.I.Jordan,T.Petsche,eds.Advances in Neural Information Processing Systems 9,Cambridge,MA:MITPress,1997,571-57712n在进行Web网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但Web上存在着无数的网页,它们都可作为未标记示例来使用。n这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 监督 学习 综述
限制150内