机器学习导论.pdf
《机器学习导论.pdf》由会员分享,可在线阅读,更多相关《机器学习导论.pdf(331页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 ? ? ? ? ? ? ? ? ? ? ? ? ? “ “ ? ? ? ? ? ? ? ? ? ? ? ? 、 ? ? 、 ? “ ? ? ? ? “ ? ? ? ? ? ? ? ? ? ? ? ? 、 ? ? ? 、 ? ? ? ? ? ? “ ? ? ? ? ? ? ? ? ? “ ? ? ? “ ? ? ? “ ? ? 、 ? ? ? ? ? ? 、 ? ? ? ? ? ? 。 ? ? ? “ ? 、 ? ? ? ? 。 、 ? ? ? ? “ ” ? ? ? ? ? ? ? ? ” ? ? ? ? ? ? ? ? ? ? ? ? 、 ? “ ? 、 ? ? 。 ? ? ? ? ? ?
2、 ? ? ? ? 、 ? ? ? ? ? ? ? ? ? ? ” ? ? ? ? ? ? ? ? ? ? ? 、 ? “ ? 、 ? ? 。 ? ? ? ? ? ? ? ? ? ? ” 、 ? ? ?“ ? ? ” ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 、 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ” ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
3、“ ? 、 ? ? ? ? 。 、 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? “ ? ? ? “ ? ? ? “ ? ? 、 ? ? ? ? ? ? 、 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
4、? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ” 。 “ “ ? “ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 。 “ ? “
5、? ? ? ” ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ” ? ? ? ? “ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? “ ? ? ? ? 。 “ “ ? ? “ ? 献给我的妻子, 瓦卢卡 (Verunka) 推荐序 机器学习是人工智能领域的一个重要分支, 其研究涉及代数、 几何、 概率统 计、 优化、 泛函分析、 图论、 信息论、 算法、 认知计算等多个学科的知识, 其应 用不仅仅限于模式识别、 计算机视觉、 数据挖掘、 生物信息学、 智能控制等科学 和工程领域, 甚至在社会科学领域的研究中
6、也有应用, 如管理学、 经济学和历史 学等。 目前, 随着计算机科学和智能科学技术的进步, 机器学习得到了快速发展, 其方法被广泛应用到了各个领域。 尤其是近些年, 深度学习方法快速发展并在多 个领域展示出优异性能, 使机器学习和整个人工智能领域受到极大的关注。 机器学习是基于已有数据、 知识或经验来设计模型或发现新知识的一个研究领 域。 20 世纪50 70 年代是机器学习研究的初期, 人们基于逻辑知识表示试图给机器 赋予逻辑推理能力, 取得了很多振奋人心的成果; 20 世纪80 年代, 专家系统受到高 度重视, 为专家系统获取知识成为一个重要方向。 20 世纪80 年代中后期, 人工神经
7、网络由于误差反向传播 (BP) 算法的重新提出和广泛应用而形成一股热潮, 但其地 位在90 年代后期被以支持向量机为核心的统计学习理论所取代。 20 世纪 90 年代以 后, 受重视的机器学习方法还有集成学习、 概率图模型、 半监督学习、 迁移学习等。 2006 年, 以加拿大多伦多大学的 G. Hinton 教授为代表的几位研究人员在深度学习 方面取得巨大突破, 在 Google、 Microsoft、 Facebook 等科技公司的推动下, 深度学习 借助于大数据和高性能计算的有利条件得到了广泛应用和高度关注。 目前, 搜索引 擎、 机器人、 无人驾驶汽车等高科技产品都依赖于机器学习技术。
8、 机器学习, 特别 是深度学习, 在语音识别、 人脸识别、 围棋、 游戏等方面已经超过了人类水平, 可 以想象机器学习与人类的生产、 生活之间的关系将会越来越紧密。 过去几十年, 机器学习领域也出现了一些经典的著作或教材。 1983 年, R. Michalski、 J. Carbonell 和 T. Mitchell 主编的 机器学习: 一种人工智能方法 一 书出版, 标志着机器学习成为人工智能的一个独立研究领域。Machine Learning 期刊创刊于 1986 年, 目前依然是机器学习领域的顶级期刊。 1990 年, J. Carbonell 主编的 机器学习: 范式与方法 对归纳学
9、习、 基于解释的学习、 遗传算法和连 接主义学习等机器学习范式及方法进行了深入探讨。 T. Mitchell 于 1997 年出版的 机器学习 是一本经典的机器学习教材, 其中文版已于 2003 年由机械工业出版 社出版, 但因为出版年限较早, 许多内容已没有时效性。 1998 年, V. Vapnik 出 版的 统计学习理论 是一本完整阐述统计机器学习思想的名著。 2001 年出版、 2009 年再版的 统计学习基础: 数据挖掘, 推理和预测 是美国斯坦福大学教授 T. Hastie, R. Tibshirani 和 J. Friedman 的一部力作, 其中对最为流行的机器学习 方法进行了
10、全面而深入的介绍, 因其严谨的数学推导, 该书不失为机器学习研究 进阶的很好的读物。 E. Alpaydin 所著的 机器学习导论 出版于 2004 年并于 2010 年再版, 书中对基础的机器学习方法进行了介绍, 是一本机器学习入门的很 好的教材。 C. Bishop 所著的 模式识别与机器学习 和 K. Murphy 所著的 机器 学习: 一个概率的视角 分别于 2006 年和 2012 年出版, 两本书都从概率的角度 全面而细致地介绍了许多经典的机器学习模型。 C. Bishop 的 模式识别与机器学 习 可帮助读者打下坚实的机器学习基础, 而 K. Murphy 的书则相对介绍了更多
11、较新的机器学习算法, 甚至有一章专门介绍了深度学习方法。 2012 年, 李航老师 出版了 统计学习方法, 2016 年, 周志华老师出版了 机器学习。 这两本书 中, 统计学习方法 主要集中于几种重要机器学习模型的介绍, 而 机器学习 内容相对更加全面, 深入浅出, 堪称机器学习的中文经典著作。 相对于以上这些 机器学习书籍, M. Kubat 所写的这本 机器学习导论 更像是一本科普性质的读 物, 作者尽量避开复杂的数学公式, 用生动形象的方式介绍机器学习算法, 而且 本书篇幅适当, 又涵盖了几乎所有基本的机器学习方法, 使得本书不仅适合作为 本科学生机器学习课程的教材, 也适合于想了解机
12、器学习入门知识的普通读者。 本书的译者都是工作在机器学习教学与研究第一线的年轻老师, 其中仲国强 副教授过去是我的博士研究生, 在模式识别和机器学习领域都有很扎实的研究基 础。 相信本书的中译本对于国内机器学习的教学和研究都会有所裨益, 也为更多 的人, 尤其是初学者了解机器学习打开一扇门。 中国科学院自动化研究所副所长、 模式识别国家重点实验室主任 刘成林 前 言 目前, 机器学习慢慢走向成熟。 你可能觉得这只是老生常谈, 请让我做一个 详细说明。 人们希望机器某一天能够自己学习, 这个梦想几乎在计算机出现时就有了, 也许更早。 不过, 长久以来, 这仅仅是一个想象而已。 罗森布拉特 (Ro
13、senblatt) 感知器的提出曾经掀起过一股热潮, 但是现在回想起来, 这股热潮没能持续很长 的时间。 至于接下来的尝试, 使情况发展得更糟糕, 这个领域甚至没有再引起人 们的注意, 长期被忽视, 因而无法取得重大突破, 也没有这一类的软件公司, 后 续研究寥寥无几且得到的资金支持也不多。 这个阶段, 机器学习一直不被看好, 像进入休眠期一样, 在其他成功学科的阴影里生存。 然而, 接下来发生的一切使这些颓势彻底改变了。 一群有识之士指出, 在 20 世纪 70 年代的人工智能领域, 基于知识的系统曾 经风靡一时, 但它们有一个弱点: “知识” 从哪里来? 当时主流的观点认为, 应 该让工程
14、师和领域专家合作, 用 if-then 的形式表示出来。 但是实际情况差强人意, 专家们发现很难把掌握的知识表达给工程师。 反过来, 工程师也不知道该问什么 问题以及如何表示答案。 尽管有几个广为人知的成功案例, 但是其他大多数研究 都试图建立知识库, 并且成千上万的规则令人沮丧。 这些有识之士主张简单和直接的操作。 如果难以准确地告诉机器如何处理某 个问题, 那么为什么不间接地给出指令, 通过例子展示所需要的技能, 计算机将 通过这些例子来学习! 当然, 这必须要有能够进行学习的算法才有意义, 这也是困难所在。 无论是 罗森布拉特的感知器还是后来出现的技术都不太管用。 然而, 机器学习在技术
15、方 面的缺乏算不上是障碍, 相反是一个挑战, 并激发出了很多绝妙的点子。 其中, 使计算机有学习能力这个想法开创了一个激动人心的新领域, 并引起了世人的 关注。 这一想法在 1983 年爆发了。 一卷很厚的论文集 机器学习: 人工智能的 米切尔斯基 (R. Michalski), 卡波内尔 (J. Carbonell), 米切尔 (T. Mitchell) 编辑。 T. Mitchell. Machine Learning M. New YorkV McGraw-Hill, 1997. 方法 中提出了很多各式各样的方法来求解这个谜题。 在它的影响下, 几乎一夜 之间一个新的学科诞生了。 3 年
16、后, 后续著作一本接一本地出现。 相关学术刊物 也很快被创立, 有着巨大影响力的年度学术会议相继召开。 几十、 或许是几百篇 博士论文完成并通过答辩。 早期阶段, 问题不仅是如何学习, 而是学什么和为什么学。 这段充满创造力 的岁月让人难以忘怀, 唯一有些遗憾的是很多非常好的想法后来被放弃了。 实用 主义占了上风, 资源都被投向那些最有希望的方向。 经过一段时间的发展, 具体 研究基本成形: 知识系统 if-then 规则的归纳, 分类归纳, 程序基于经验来提高技 能, Prolog 程序自动调优, 以及其他方面。 相关的研究方向非常多, 一些知名学 者希望通过写书来引领未来的发展, 这其中有
17、些人做得很成功。 机器学习发展的一个重要的转折点是汤姆米切尔 (Tom Mitchell) 的传奇教 科书。 该书向博士生和科学家们总结了该领域的发展现状, 慢慢地大学也用这 本书作为研究生的教材。 同时, 研究方法也变得更加系统化。 大量机器学习测试 库被建立起来, 用于比较性能或者学习算法的优劣。 统计评估方法也被广泛地使 用在评估过程中。 相关流行程序的公开版本很容易获得, 从事这个学科的人数增 至数千, 甚至更多。 现在, 到了很多大学都为本科生开设机器学习课程的阶段。 通常这些课程需 要不同类型的教材。 除了掌握基本技术以外, 学生还需要了解不同方法的优点和 缺点, 以及不同情况下每
18、种方法的独特之处。 最重要的是, 他们需要理解在特定 情况下, 哪些技术是可行的, 哪些是不可行的。 只有这样才能在解决具体问题时 做出正确的选择。 一本教材除了满足以上的各项要求外, 还应该介绍一些数学概 念, 多包括一些实用的建议。 关于教材, 还要考虑材料的多少、 结构以及风格, 以便能够支持一个学期的 导论课程。 第一个问题是材料的选择。 当高科技公司准备成立机器学习研究团队时, 大 学就要向学生传授相应的知识和技能, 以及对有关行业需求的理解。 出于这个原 因, 本书重点介绍了贝叶斯分类器, 最近邻分类器, 线性和多项式分类器, 决策 树, 神经网络的基础, 以及提升 (Boosti
19、ng) 算法的原理。 本书用很大篇幅来描述 具体应用的典型特征。 在现实中, 当面对有一定难度的任务时, 一些基本方法和 老师在实验环境下演示的结果可能不完全一样。 因此在学习过程中, 学生必须知 道每种方法会发生什么。 本书共包括 14 章, 每章覆盖一个专题。 各章分成很多个小节, 每节介绍一个 关键问题。 建议学生在做完每一节后面的 2 4 个 “控制问题” 后再学习下一节。 这些问题用来帮助检查学生对学习材料的掌握情况。 如果不会做这些题, 则有必 要重新阅读相关内容。 俗话说, 实践出真知。 每章结尾安排了必要的练习用于实际操作。 如果接下 来的思考实验能够全部完成, 将有助于更深入
20、地理解所学内容的各个方面。 不过 这些实验难度较大, 只有付出很大努力才能获得正确的答案。 所学的知识在上机 实验中可被进一步巩固。 编程对于学习同样也很重要。 现在, 人们都习惯从网上 下载所需的程序, 这是捷径, 但本书不建议这样做, 因为只有具体实现了程序的 全部细节, 才能领会机器学习技术的精妙之处。 目 录 推荐序 前言 第 1 章 一个简单的机器学习任务 / / 001 1. 1 训练集和分类器 / / 002 1. 2 一点题外话: 爬山搜索 / / 005 1. 3 机器学习中的爬山法 / / 009 1. 4 分类器的性能 / / 012 1. 5 可用数据的困难 / / 0
21、14 1. 6 总结和历史简评 / / 016 1. 7 巩固你的知识 / / 017 第 2 章 概率: 贝叶斯分类器 / / 021 2. 1 单属性的情况 / / 022 2. 2 离散属性值的向量 / / 026 2. 3 稀少事件的概率: 利用专家的直觉 / / 030 2. 4 如何处理连续属性 / / 032 2. 5 高斯钟形函数: 一个标准的概率密度函数 / / 036 2. 6 用高斯函数的集合近似概率密度函数 / / 037 2. 7 总结和历史简评 / / 042 2. 8 巩固你的知识 / / 043 第 3 章 相似性: 最近邻分类器 / / 047 3. 1 k
22、近邻法则 / / 048 3. 2 度量相似性 / / 051 3. 3 不相关属性与尺度缩放问题 / / 054 3. 4 性能方面的考虑 / / 057 3. 5 加权最近邻 / / 060 3. 6 移除危险的样例 / / 062 3. 7 移除多余的样例 / / 064 3. 8 总结和历史简评 / / 066 3. 9 巩固你的知识 / / 067 第 4 章 类间边界: 线性和多项式分类器 / / 071 4. 1 本质 / / 072 4. 2 加法规则: 感知机学习 / / 075 4. 3 乘法规则: WINNOW / / 081 4. 4 多于两个类的域 / / 084 4
23、. 5 多项式分类器 / / 086 4. 6 多项式分类器的特殊方面 / / 089 4. 7 数值域和支持向量机 / / 091 4. 8 总结和历史简评 / / 094 4. 9 巩固你的知识 / / 095 第 5 章 人工神经网络 / / 099 5. 1 作为分类器的多层感知机 / / 100 5. 2 神经网络的误差 / / 103 5. 3 误差的反向传播 / / 105 5. 4 多层感知机的特殊方面 / / 110 5. 5 结构问题 / / 113 5. 6 径向基函数网络 / / 115 5. 7 总结和历史简评 / / 117 5. 8 巩固你的知识 / / 119
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 导论
限制150内