2022年2022年机器学习概述 .pdf
《2022年2022年机器学习概述 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年机器学习概述 .pdf(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 【机器学习】机器学习概述【机器学习】机器学习概述1.1 欢迎参考视频:1-1-Welcome(7min).mkv第一个视频主要讲了什么是机器学习,机器学习能做些什么事情。机器学习是目前信息技术中最激动人心的方向之一。在这门课中, 你将学习到这门技术的前沿,并可以自己实现学习机器学习的算法。你或许每天都在不知不觉中使用了机器学习的算法每次,你打开谷歌、必应搜索到你需要的内容, 正是因为他们有良好的学习算法。谷歌和微软实现了学习算法来排行网页每次,你用Facebook或苹果的图片分类程序他能认出你朋友的照片,这也是机器学习。 每次您阅读您的电子邮件垃圾邮件筛选器, 可以帮你过滤大量的垃圾邮件这
2、也是一种学习算法。对我来说,我感到激动的原因之一是有一天做出一个和人类一样聪明的机器。实现这个想法任重而道远, 许多 AI 研究者认为,实现这个目标最好的方法是通过让机器试着模仿人的大脑学习我会在这门课中介绍一点这方面的内容。在这门课中, 你还讲学习到关于机器学习的前沿状况。但事实上只了解算法、数学并不能解决你关心的实际的问题。所以,我们将花大量的时间做练习,从而你自己能实现每个这些算法, 从而了解内部机理。那么,为什么机器学习如此受欢迎呢?原因是,机器学习不只是用于人工智能领域。我们创造智能的机器,有很多基础的知识。比如,我们可以让机器找名师资料总结 - - -精品资料欢迎下载 - - -
3、- - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 18 页 - - - - - - - - - 2 到 A与 B之间的最短路径,但我们仍然不知道怎么让机器做更有趣的事情,如 web搜索、照片标记、反垃圾邮件。我们发现,唯一方法是让机器自己学习怎么来解决问题。所以,机器学习已经成为计算机的一个能力。现在它涉及到各个行业和基础科学中。我从事于机器学习, 但我每个星期都跟直升机飞行员、生物学家、很多计算机系统程序员交流(我在斯坦福大学的同事同时也是这样)和平均每个星期会从硅谷收到两、三个电子邮件,这些联系我的人都对将学习算法应用于他
4、们自己的问题感兴趣。这表明机器学习涉及的问题非常广泛。有机器人、计算生物学、硅谷中大量的问题都收到机器学习的影响。这里有一些机器学习的案例。比如说,数据库挖掘。机器学习被用于数据挖掘的原因之一是网络和自动化技术的增长,这意味着,我们有史上最大的数据集比如说, 大量的硅谷公司正在收集web上的单击数据,也称为点击流数据,并尝试使用机器学习算法来分析数据,更好的了解用户,并为用户提供更好的服务。这在硅谷有巨大的市场。再比如,医疗记录。随着自动化的出现,我们现在有了电子医疗记录。如果我们可以把医疗记录变成医学知识,我们就可以更好地理解疾病。再如,计算生物学。还是因为自动化技术, 生物学家们收集的大量
5、基因数据序列、DNA 序列和等等,机器运行算法让我们更好地了解人类基因组,大家都知道这对人类意味着什么。 再比如,工程方面,在工程的所有领域,我们有越来越大、越来越大的数据集,我们试图使用学习算法,来理名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 18 页 - - - - - - - - - 3 解这些数据。另外,在机械应用中,有些人不能直接操作。例如,我已经在无人直升机领域工作了许多年。我们不知道如何写一段程序让直升机自己飞。我们唯一能做的就是让计算机自己学习如何驾驶
6、直升机。手写识别:现在我们能够非常便宜地把信寄到这个美国甚至全世界的原因之一就是当你写一个像这样的信封,一种学习算法已经学会如何读你信封,它可以自动选择路径, 所以我们只需要花几个美分把这封信寄到数千英里外。事实上,如果你看过自然语言处理或计算机视觉,这些语言理解或图像理解都是属于 AI 领域。大部分的自然语言处理和大部分的计算机视觉,都应用了机器学习。 学习算法还广泛用于自定制程序。每次你去亚马逊或 Netflix或 iTunesGenius ,它都会给出其他电影或产品或音乐的建议,这是一种学习算法。仔细想一想,他们有百万的用户;但他们没有办法为百万用户, 编写百万个不同程序。 软件能给这些
7、自定制的建议的唯一方法是通过学习你的行为,来为你定制服务。最后学习算法被用来理解人类的学习和了解大脑。我们将谈论如何用这些推进我们的AI 梦想。几个月前,一名学生给我一篇文章关于最顶尖的12个 IT 技能。拥有了这些技能HR绝对不会拒绝你。这是稍显陈旧的文章, 但在这个列表最顶部就是机器学习的技能。在斯坦福大学, 招聘人员联系我, 让我推荐机器学习学生毕业的人远远多于机器学习的毕业生。 所以我认为需求远远没有被满足现在学习名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 1
8、8 页 - - - - - - - - - 4 机器学习非常好, 在这门课中, 我希望能告诉你们很多机器学习的知识。在接下来的视频中,我们将开始给更正式的定义,什么是机器学习。然后我们会开始学习机器学习的主要问题和算法你会了解一些主要的机器学习的术语,并开始了解不同的算法,用哪种算法更合适。1.2 机器学习是什么?参考视频:1-2-WhatisMachineLearning_(7min).mkv机器学习是什么?在本视频中,我们会尝试着进行定义, 同时让你懂得何时会使用机器学习。实际上,即使是在机器学习的专业人士中,也不存在一个被广泛认可的定义来准确定义机器学习是什么或不是什么,现在我将告诉你一
9、些人们尝试定义的示例。第一个机器学习的定义来自于ArthurSamuel 。他定义机器学习为, 在进行特定编程的情况下, 给予计算机学习能力的领域。 Samuel的定义可以回溯到50 年代,他编写了一个西洋棋程序。这程序神奇之处在于, 编程者自己并不是个下棋高手。但因为他太菜了,于是就通过编程,让西洋棋程序自己跟自己下了上万盘棋。通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之,这西洋棋程序明白了什么是好的布局,什么样是坏的布局。然后就牛逼大发了,程序通过学习后,玩西洋棋的水平超过了Samuel。这绝对是令人注目的成果。尽管编写者自己是个菜鸟, 但因为计算机有着足够的耐心,去下上万盘的
10、棋,没有人有这耐心去下这么多盘棋。通过这些练习,计算机获名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 18 页 - - - - - - - - - 5 得无比丰富的经验,于是渐渐成为了比Samuel更厉害的西洋棋手。上述是个有点不正式的定义, 也比较古老。另一个年代近一点的定义,由 TomMitchell提出, 来自卡内基梅隆大学,Tom定义的机器学习是,一个好的学习问题定义如下, 他说,一个程序被认为能从经验E中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验
11、E后,经过 P评判,程序在处理 T时的性能有所提升。 我认为经验 E就是程序上万次的自我练习的经验而任务T就是下棋。性能度量值 P呢,就是它在与一些新的对手比赛时,赢得比赛的概率。在这些视频中,除了我教你的内容以外,我偶尔会问你一个问题,确保你对内容有所理解。说曹操,曹操到,顶部是TomMitchell的机器学习的定义,我们假设您的电子邮件程序会观察收到的邮件是否被你标记为垃圾邮件。在这种Email 客户端中,你点击垃圾邮件按钮,报告某些 Email 为垃圾邮件,不会影响别的邮件。 基于被标记为垃圾的邮件,您的电子邮件程序能更好地学习如何过滤垃圾邮件。请问,在这个设定中,任务 T是什么?几秒钟
12、后,该视频将暂停。当它暂停时,您可以使用鼠标,选择这四个单选按钮中的一个,让我知道这四个,你所认为正确的选项。它可能是性能度量值P。所以,以性能度量值P为标准,这个任务的性能,也就是这个任务T的系统性能,将在学习经验 E后得到提高。本课中,我希望教你有关各种不同类型的学习算法。目前存在几种不同类型的学习算法。 主要的两种类型被我们称之为监督学习和无监督学习。在接下来的几个视频中,我会给出这些术语的定义。这里简单名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 18 页 -
13、- - - - - - - - 6 说两句,监督学习这个想法是指,我们将教计算机如何去完成任务,而在无监督学习中, 我们打算让它自己进行学习。 如果对这两个术语仍一头雾水,请不要担心, 在后面的两个视频中,我会具体介绍这两种学习算法。此外你将听到诸如,强化学习和推荐系统等各种术语。这些都是机器学习算法的一员,以后我们都将介绍到, 但学习算法最常用两个类型就是监督学习、 无监督学习。 我会在接下来的两个视频中给出它们的定义。 本课中,我们将花费最多的精力来讨论这两种学习算法。而另一个会花费大量时间的任务是了解应用学习算法的实用建议。我非常注重这部分内容, 实际上,就这些内容而言我不知道还有哪所大
14、学会介绍到。 给你讲授学习算法就好像给你一套工具,相比于提供工具,可能更重要的,是教你如何使用这些工具。我喜欢把这比喻成学习当木匠。想象一下,某人教你如何成为一名木匠,说这是锤子,这是螺丝刀,锯子,祝你好运,再见。这种教法不好,不是吗?你拥有这些工具,但更重要的是,你要学会如何恰当地使用这些工具。会用与不会用的人之间, 存在着鸿沟。 尤其是知道如何使用这些机器学习算法的,与那些不知道如何使用的人。在硅谷我住的地方,当我走访不同的公司, 即使是最顶尖的公司, 很多时候我都看到人们试图将机器学习算法应用于某些问题。 有时他们甚至已经为此花了六个月之久。但当我看着他们所忙碌的事情时,我想说,哎呀,我
15、本来可以在六个月前就告诉他们,他们应该采取一种学习算法, 稍加修改进行使用, 然后成功的机会绝对会高得多所以在本课中,我们要名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 18 页 - - - - - - - - - 7 花很多时间来探讨, 如果你真的试图开发机器学习系统,探讨如何做出最好的实践类型决策, 才能决定你的方式来构建你的系统,这样做的话,当你运用学习算法时, 就不太容易变成那些为寻找一个解决方案花费 6 个月之久的人们的中一员。他们可能已经有了大体的框架,只是
16、没法正确的工作于是这就浪费了六个月的时间。所以我会花很多时间来教你这些机器学习、 人工智能的最佳实践以及如何让它们工作,我们该如何去做, 硅谷和世界各地最优秀的人是怎样做的。我希望能帮你成为最优秀的人才, 通过了解如何设计和构建机器学习和人工智能系统。这就是机器学习,这些都是我希望讲授的主题。在下一个视频里,我会定义什么是监督学习,什么是无监督学习。此外,探讨何时使用二者。1.3 监督学习参考视频 :1-3-SupervisedLearning(12min).mkv在这段视频中,我要定义可能是最常见一种机器学习问题:那就是监督学习。我将在后面正式定义监督学习。我们用一个例子介绍什么是监督学习把
17、正式的定义放在后面介绍。假如说你想预测房价。前阵子,一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友, 他有一套 750平方英尺房子, 现在他希望把房子卖掉,他想知道这房子能卖多少钱。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 18 页 - - - - - - - - - 8 那么关于这个问题,机器学习算法将会怎么帮助你呢? 外链
18、图片转存失败 , 源站可能有防盗链机制 , 建议将图片保存下来直接上传(img-icnIz1qF-1576504106702)(/images/2d99281dfc992452c9d32e022ce71161.png) 我们应用学习算法, 可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖 $150,000,当然这不是唯一的算法。可能还有更好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。根据二次方程的曲线, 我们可以从这个点推测出, 这套房子能卖接近,当然这不是唯一的算法。 可能还有更好的, 比如我们不用直线拟合这些数据,用二次
19、方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近$200,000$。稍后我们将讨论如何选择学习算法, 如何决定用直线还是二次方程来拟合。两个方案中有一个能让你朋友的房子出售得更合理。这些都是学习算法里面很好的例子。以上就是监督学习的例子。可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由正确答案组成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格, 即它们实际的售价然后运用学习算法,算出更多的正确答案。比如你朋友那个新房子的价格。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。一般房子的
20、价格会记到美分, 所以房价实际上是一系列离散的值,但是我们通常又把房价看成实数,看成是标量, 所以又把它看成一个连名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 18 页 - - - - - - - - - 9 续的数值。回归这个词的意思是,我们在试着推测出这一系列连续值属性。我再举另外一个监督学习的例子。我和一些朋友之前研究过这个。假设说你想通过查看病历来推测乳腺癌良性与否,假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大,所以人们显然会很在
21、意这个问题。 外链图片转存失败 , 源站可能有防盗链机制 , 建议将图片保存下来直接上传(img-W4s364ib-1576504106702)(/images/4f80108ebbb6707d39b7a6da4d2a7a4e.png) 让我们来看一组数据: 这个数据集中, 横轴表示肿瘤的大小,纵轴上,我标出1 和 0 表示是或者不是恶性肿瘤。我们之前见过的肿瘤, 如果是恶性则记为1, 不是恶性,或者说良性记为 0。我有 5 个良性肿瘤样本, 在 1 的位置有 5 个恶性肿瘤样本。 现在我们有一个朋友很不幸检查出乳腺肿瘤。假设说她的肿瘤大概这么大, 那么机器学习的问题就在于, 你能否估算出肿瘤
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年机器学习概述 2022 机器 学习 概述
限制150内