《机器学习:发展与未来》深入浅出地介绍了机器学习及其历史(共52页).doc
《《机器学习:发展与未来》深入浅出地介绍了机器学习及其历史(共52页).doc》由会员分享,可在线阅读,更多相关《《机器学习:发展与未来》深入浅出地介绍了机器学习及其历史(共52页).doc(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上机器学习:发展与未来 2017年12月在过去的二十年中,人类手机、存储、传输、处理数据的能力取得了飞速发展,亟需能有效地对数据进行分析利用的计算机算法。机器学习作为智能数据分析算法的源泉,顺应了大时代的这个迫切需求,因此自然地取得了巨大发展、受到了广泛关注。“现在是大数据时代,但是大数据不等于大价值。”我们要从大数据里面得到价值的话,就必须要有一些有效的数据分析。正因为这个原因,这几年机器学习特别热。这是从人工智能里面产生的一个学科,利用经验改善系统学习。在计算机系统里面,不管是什么经验,一定是以数据的形式呈现的。所以机器学习必须对数据分析,这个领域发展到今天主要是研
2、究智能数据分析的理论和方法。我们可以看到图灵奖连续两年授予在这方面取得突出成就的学者,这其实一定程度上也表现出了大会对此的重视。那么究竟什么是机器学习?这里给出一个具体的实例。|“文献筛选”的故事什么是文献筛选呢?这是“循证医学”中,针对特定的临床问题,先要对相关研究报告进行详尽评估。那么人们一般通过 PubMed 获取相关候选论文的摘要,然后通过人工的方式找到值得全文审读的文章。为什么要这么做呢?我们都知道,现在优质医学资源非常稀缺,为了缓解这个问题,国外产生了一种叫做“循证医学”的做法。以后患病了不是先去找专家,而是先去看一看文选资料,因为很可能已经有人患过,甚至已经有医生诊治过这个病,发
3、表过论文。那么如果我们暴露里面和这个病相关的最新技术,把它汇集起来,很可能就能得到很好的解决方案。如何实现这个想法呢?第一步,我们要从这个浩如烟海的医学文献里面,把可能有关的文章汇集出来。现在有很多基础工作建设,例如在医学上有 Pub Med 的系统,我们还可以用谷歌学术等搜索关键词,就能搜到很多文章。但这些检索出来的文章和我们真正需要的可能还有很大的距离,因为他可能只是仅仅包含搜索的关键词而已。所以第二步就需要请人类专家来过滤它们,找出到底哪些东西需要深入研究。这部分的工作量有多大呢?我们举个例子,在一个关于婴儿和儿童残疾的疾病研究里面,这个美国 Tufts 医学中心在第一步的筛选之后就拿到
4、了 33000 篇摘要。中心的专家效率非常高,他们每三十秒钟就可以过滤 1 篇。但就算这样,这个工作还是要做 250 个小时。可想而知,就算一个医生三十秒钟看一篇文章,一天八小时不吃饭、不喝水、不休息,也需要一个多月才能完成。而且糟糕的是每一项新的研究我们都要重复这个麻烦的过程。还有更可怕的是,随着医学的发展,我们发表的论文数量也越来越多。所以如果没有其他解决途径,“循证医学”可能就没有未来了。为了解决这个问题,降低昂贵的成本,Tufts 医学中心引入了机器学习技术。怎么来做呢?我们挑出大量的文章,只邀请熟练的专家判断是有关还是无关的,然后基于这个信息建立一个分类模型,用这个分类模型对剩下没有
5、看过的文章做一次预测。其中相关的文章再请专家来审读,这样的话,专家需要读的东西就会大幅度减少。这样做之后,得到的性能指标已经非常接近、甚至一定程度上超过了原来专家过滤的效果。因为我们知道一个专家三十秒钟读一篇文章,需要连续工作一个月,而且中间出错的可能性太多。现在用机器学习来做只需要一天时间,所以被当成是机器学习对现在机器医学发展的一个很重要贡献而报道出来。这里面非常关键的一步就是我们怎么样把这个分配模型做出来,其实就是用的机器学习。|一张 PPT 说清机器学习过程现在假设把数据组织成一个表格的形式,每一行表示一个对象或者一个事件,每一列表示我刻画的对象的属性。比如说每一行指的就是“西瓜”,那
6、最后我们特别关心的是这个“西瓜”好还是不好,我们把它叫做类别标签。之后,我们经过一个训练过程就得到了模型,今后我们拿到一个没有见过的新数据时,只要知道它的输入,把输入提供给这个模型,这个模型就可以给你一个结果,究竟是好的还是不好的“西瓜”。所以在现实生活中,我们碰到的各种各样的分类预测预报问题,抽样出来看,如果在计算机上通过数据驱动的方式来解决它,其实就是在做一个机器学习的过程。把数据变成模型要用到学习算法。有一种说法是计算机科学就是关于算法的学问。那如果从这个道理上来讲的话,机器学习其实就是关于学习算法的设计分析和每个学科领域的应用。|人工智能的三个阶段机器学习本身确实是起源于人工智能,而我
7、们都知道人工智能是 1956 年达特茅斯会议上诞生的。到今天恰恰是六十周年。那么在过去的六十年里面,其实我们从人工智能的主流技术上看,可以认为是经过了三个阶段。在最早的一个阶段,大家都认为要把逻辑推理能力赋予计算机系统,这个是最重要的。因为我们都认为数学家特别的聪明,而数学家最重要的能力就是逻辑推理,所以在那个时期的很多重要工作中,最有代表性的就是西蒙和纽厄尔做的自动定理证明系统,后来这两位也因为这个贡献获得了七五年的图灵奖。但是后来慢慢的就发现光有逻辑推理能力是不够的,因为就算是数学家,他也需要有很多知识,否则的话也证明不出定理来。所以这个时候,主流技术的研究就很自然地进入了第二阶段。大家开
8、始思考怎么样把我们人类的知识总结出来,交给计算机系统,这里面的代表就是知识工程专家系统。像知识工程之父爱德华费根鲍姆就因为这个贡献获得了 1994 年的图灵奖。但是接下来大家就发现要把知识总结出来交给计算机,这个实在太难了。一方面总结知识很难,另外一方面在有些领域里面,专家实际上是不太愿意分享他的经验的。所以到底怎么解决这个问题呢?我们想到人的知识就是通过学习来的,所以很自然的人工智能的研究就进入了第三个阶段。这时候机器学习作为这个阶段的主流研究内容,可以看到机器学习本身其实就是作为突破知识工程的一个武器而出现的。但是,事实上并没有达到目的,今天大多数的机器学习的结果都是以黑箱的形式存在的。另
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习:发展与未来 机器 学习 发展 未来 深入浅出 介绍 及其 历史 52
限制150内