第1章 机器学习ppt课件.pptx
《第1章 机器学习ppt课件.pptx》由会员分享,可在线阅读,更多相关《第1章 机器学习ppt课件.pptx(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 什么是机器学习?什么是机器学习? 机器学习是一门多领域交叉学科,涉及计算机科学、概率统计、最优化理论、控制论、决策论、算法复杂度理论、实验科学等多个学科。 核心问题是如何用计算的方法模拟人类的学习行为:从历史经验中获取规律(或模型),并将其应用到新的类似场景中。通俗地说,机器学习就是从数据中挖掘出有价值的信息。分为三个层次:初级阶段是数据获取以及特征的提取;中级阶段是数据处理与分析;高级阶段是智能与认知,即实现智能的目标。 从学习目标的角度 回归、分类、聚类、排序、有结构预测 从训练数据特征的角度 有监督学习、半监督学习、无监督学习、 弱监督学习(强化学习) 从模型复杂度的角度 线性模型:线
2、性回归、逻辑回归、线性支持向量机 非线性模型:决策树、深层神经网络 从模型功能的角度 生成模型、判别模型机器学习多角度分类机器学习多角度分类 隐马尔可夫模型是一个关于时序的概率模型,描述由隐马尔可夫链随机生成观测序列的过程,属于生成模型。隐马尔可夫模型在语音识别、自然语言处理、生物信息等领域有着广泛的应用。 条件随机场是一个序列标注模型,其优点在于为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。 LDA主题模型是一种文档主题生成模型,是一种非监督机器学习技术。通过模拟文档生成过程,可以用来识别大规模文档集或语料库中潜藏的主题信息。从学习目标或解决问题分类从学习目标或解决问题分类
3、有监督学习(supervised learning):从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类与回归。 无监督学习(unsupervised learning):没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析,常见任务如聚类等。 半监督学习(Semi-supervised learning):结合(少量的)标注训练数据和(大量的)未标注数据来进行数据的分类学习。 增强学习(Reinforcement Learning):弱监督学习,外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善
4、自身的性能。 多任务学习(Multi-task Learning):把多个相关(related)的任务放在一起同时学习。训练数据特征分类训练数据特征分类1.1. 机器学习及其重要性机器学习及其重要性2.2. 机器学习角色的转变机器学习角色的转变3.3. 五个挑战问题五个挑战问题概述概述7机器学习机器学习经典定义:利用经验改善系统自身的性能T.Mitchell, Book 97 随着该领域的发展,主要做智能数据分析典型任务:预测 例如:天气预报 三违物品检测;监狱监测; 无人值守机器学习(续)机器学习(续)数据挖掘数据挖掘数据库数据库机器学习机器学习数据分析技术数据分析技术数据管理技术数据管理技
5、术重要性重要性生物生物信息学信息学计算计算金融学金融学分子分子生物学生物学行星行星地质学地质学工业过工业过程控制程控制机器人机器人遥感信遥感信息处理息处理信息信息安全安全机机 器器 学学 习习 美国航空航天局JPL实验室的科学家在Science(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,该领域在今后的若干年内将取得稳定而快速的发展。重要性:例子重要性:例子网络安全网络安全入侵检测:入侵检测:是否是入侵?是何种入侵?如何检测?历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现对当前访问模式分类这是一个典型的预测型机器学习问题常用技术:神经网络 决
6、策树支持向量机 k近邻序列分析 聚类 重要性:例子重要性:例子生物信息学生物信息学常用技术:神经网络 支持向量机隐马尔可夫模型k近邻 决策树序列分析 聚类 重要性(续)重要性(续) 计算机科学在过去十年中发展极为迅速,今后会快速稳定地发展、对科学做出更大贡献的领域。E.Mjolsness & D. DesCoste, Science 01 人工智能中最活跃、应用潜力最明显的领域(之一)。 T.G. Dietterich, AIMag 97 美国、欧洲各国都投入了大量人力物力。 大型公司如波音、微软、通用电器等都有研究课题,已有一些研究成果进入产品。 美国航空航天局喷气推进实验室位于加州理工学院
7、,是美国尖端技术研究的一个重要基地,著名的“勇气”号和“机遇”号火星机器人正是在这个实验室完成的。机器学习和数据挖掘技术在这两个火星机器人上有大量的应用。 谷歌(Google)、雅虎(Yahoo)、百度等互联网搜索引擎已经开始改变了很多人的生活方式,例如人们已经习惯于在出行前通过网络搜索来了解旅游景点的背景知识、寻找合适的旅馆、饭店。美国新闻周刊曾经对谷歌有个“一句话评论”:“它使得任何人离任何问题的答案之间的距离只有点击一下鼠标这么远”。 机器学习角色的转变机器学习角色的转变 如果我们想做出重要的贡献,首先需要把握住该领域发展的脉搏机器学习现在似乎已经发展到一个新阶段。 机器学习起源于人工智
8、能对人类学习能力的追求,上一阶段的研究几乎完全局限在人工智能这一领域中(学习本身是目的) 而现在,机器学习已经开始进入了计算机科学的不同领域,甚至其他学科,成为一种支持技术、服务技术(学习本身是手段)机器学习角色的转变(续)机器学习角色的转变(续) 现阶段对机器学习的研究可能不应再过多地强调模拟人的学习能力,可能应该把机器学习真正当成一种支持技术(手段而非目的),考虑不同领域甚至不同学科对机器学习的需求,找出其中具有共性的、必须解决的问题,并进而着手研究。我们暂且把这种视角下的机器学习称为: “普适机器学习”(Pervasive ML)。挑战问题挑战问题(1)(1):泛化能力:泛化能力共性问题
9、几乎所有的领域,都希望越准越好提高泛化能力是永远的追求 目前泛化能力最强的技术: 支持向量机(SVM)产生途径:理论-实践 集成学习(ensemble learning) 产生途径:实践-理论挑战问题挑战问题(1)(1):泛化能力(续):泛化能力(续)第一个挑战问题:今后10年能否更“准”?如果能,会从哪儿来?挑战问题挑战问题(2)(2):速度:速度共性问题几乎所有的领域,都希望越快越好 加快速度也是永远的追求“训练速度” vs. “测试速度 训练速度快的往往测试速度慢:k近邻 测试速度快的往往训练速度慢:神经网络挑战问题挑战问题(2)(2):速度:速度第二个挑战问题:今后10年能否更“快”?
10、能做到“训练快”、“测试也快”吗?如果能,如何做?共性问题绝大多数领域都希望有“可理解性” 例子:医疗诊断 地震预测 目前强大的技术几乎都是(或基本上是)“黑盒子” 神经网络、支持向量机、集成学习 “黑盒子”能满足需要吗?挑战问题挑战问题(3)(3):可理解性:可理解性挑战问题挑战问题(3)(3):可理解性:可理解性第三个挑战问题:今后10年能否产生“白盒子”?是和“黑盒子”完全不同的东西,还是从“黑盒子”变出来?挑战问题挑战问题(4)(4):数据利用能力:数据利用能力共性问题随着数据收集能力飞速提高、Internet的出现,在大多数领域中都可以很容易地获得大量未标记数据 例子:医学图象分析
11、垃圾邮件过滤 传统的机器学习技术 对有标记数据进行学习 “标记” 事件所对应的结果 没有标记的数据是没用的吗?挑战问题挑战问题(4)(4):数据利用能力(续):数据利用能力(续)共性问题在绝大多数领域中都会遇到“坏”数据,有时甚至只有“坏”数据 例子:海军舰队 Web “坏”数据 大量噪音、属性缺失、不一致、 传统的“坏”数据处理方式 “扔掉” “坏”数据一点用也没有吗?第四个挑战问题:今后10年能否“数据通吃”?如何“吃”?挑战问题挑战问题(4)(4):数据利用能力(续):数据利用能力(续)共性问题大多数领域中的错误代价都不一样 例子:入侵检测 癌症诊断 目前的机器学习技术 降低错误率 “错
12、误”是没有区别的吗?把“好”当成“坏”把“坏”当成“好”挑战问题挑战问题(5)(5):代价敏感:代价敏感一样吗?一样吗?第五个挑战问题:今后10年能否“趋利避害”?在达到较低的总错误率的基础上,如何“趋”、如何“避”?挑战问题挑战问题(5)(5):代价敏感(续):代价敏感(续)章 节 目 录1.1 1.1 学习中的元素学习中的元素1.2 1.2 目标函数的表示目标函数的表示1.3 1.3 机器学习系统的基本结构机器学习系统的基本结构1.4 1.4 学习任务的类型学习任务的类型1.5 1.5 机器学习的定义和发展史机器学习的定义和发展史1.6 1.6 机器学习的可完成的事机器学习的可完成的事1.
13、7 1.7 机器学习的成功案例机器学习的成功案例学习可能只是一个简单的联想过程,给定了特定的输入,就会产生特定的输出。如:狗 命令“坐” 行为“坐” 成功学习例子:成功学习例子: 学习识别客户的购买模式以便能检测出信用卡欺诈行为 对客户进行扼要描述以便能对市场推广活动进行定位 对网上内容进行分类并按用户兴趣自动导入数据 贷款申请人的信用打分 燃气涡轮的故障诊断学习中的元素学习中的元素 学习Agent的核心是一个算法,该算法定义了用于学习的过程。 算法输出可以是 光扫描手写体的识别, 机器人为抓住某物体需要执行的动作, 棋类游戏中的下一步移动, 是否允许贷款申请人贷款的建议。 称学习的结果为目标
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第1章 机器学习ppt课件 机器 学习 ppt 课件
限制150内