《第1章 机器学习和统计学习.pptx》由会员分享,可在线阅读,更多相关《第1章 机器学习和统计学习.pptx(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、,第一章统计学习方法概论,提纲:1 大,机器学习,维基百科: 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。,提纲:1 大,网络教学信息,斯坦福机器学习 CM
2、U 机器学习课程 http:/www.cs.cmu.edu/epxing/Class/10715/ http:/www.cs.cmu.edu/epxing/Class/10708/ 视频 http:/www.cs.cmu.edu/epxing/Class/10701 ,提纲:1 大,相关学术文章下载资源,COLT和ICML(每年度的官网): http:/www.cs.mcgill.ca/colt2009/proceedings.html CV: NIPS: http:/books.nips.cc/; JMLR(期刊): http:/jmlr.csail.mit.edu/papers/;,提纲:
3、1 大,机器学习,维基百科: 机器学习有下面几种定义: “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 英文定义:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T
4、, as measured by P, improves with experience E.,提纲:1 大,机器学习应用,数据挖掘 计算机视觉 自然语言处理 生物特征识别 搜索引擎 医学诊断 检测信用卡欺诈 证券市场分析 DNA序列测序 语音和手写识别 战略游戏 机器人,提纲:1 大,Game,深蓝是并行计算的电脑系统,建基于RS/6000 SP,另加上480颗特别制造的VLSI象棋芯片。下棋程式以C语言写成,运行AIX 操作系统。1997年版本的深蓝运算速度为每秒2亿步棋,是其1996年版本的2倍。1997年 6月,深蓝在世界超级电脑中排名第259位,计算能力为11.38 gigaflop
5、s。,提纲:1 大,Text to speech and speech recognition,提纲:1 大,Computer vision,提纲:1 大,Gene,bioinformatics,提纲:1 大,bioinformatics,Gene,提纲:1 大,Financial Information,提纲:1 大,Robotic Control,提纲:1 大,Deep Learning,提纲:1 大,aerospace,提纲:1 大,机器学习的发展历程,“黑暗时代”,人工智能的诞生(1943年1956年) Warren McCulloch和Walter Pitts在1943年发表了人工智
6、能领域的开篇之作,提出了人工神经网络模型。 John von Neumann。他在1930年加入了普林斯顿大学,在数学物理系任教,和阿兰图灵是同事。 Marvin Minsky和Dean Edmonds建造第一台神经网络计算机。 1956年:John McCarthy从普林斯顿大学毕业后去达特茅斯学院工作,说服了Marvin Minsky和Claude Shannon在达特茅斯学院组织一个暑期研讨会,召集了对机器智能、人工神经网络和自动理论感兴趣的研究者,参加由IBM赞助的研讨会。,提纲:1 大,机器学习的发展历程,提纲:1 大,新的方向: 集成学习 可扩展机器学习(对大数据集、高维数据的学习
7、等) 强化学习 迁移学习 概率网络 深度学习,机器学习的发展历程,提纲:1 大,国内外的研究者,M. I. Jordan Andrew Ng Tommi Jaakkola David Blei Eric Xing。 D.Koller 2001年IJCAI计算机与思维奖:TerryWinograd、David Marr、Tom Mitchell、RodneyBrooks等人之后的第18位获奖者 Peter L. Bartlett J. D. Lafferty 国内:李航,周志华, 杨强,王晓刚,唐晓鸥,唐杰,刘铁岩,何晓飞,朱筠,吴军, 张栋,戴文渊,余凯,邓力,孙健 。,提纲:1 大,卡内基梅
8、隆大学的计算机科学学士学位, 麻省理工学院的电子工程和计算机科学硕士学位, 加州大学伯克利分校的计算机科学博士学位。 在斯坦福大学计算机科学和电子工程学系担任教授,讲授机器学习课程 吴恩达(Andrew Ng) 硅谷人工智能实验室 北京深度学习实验室 北京大数据实验室,国内外的研究者,提纲:1 大,机器学习和数据挖掘的关系,机器学习是数据挖掘的重要工具。 数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。 机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些
9、机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。 数据挖掘试图从海量数据中找出有用的知识。 大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。,提纲:1 大,机器学习和数据挖掘的关系,提纲:1 大,机器学习的一个形象描述,23,提纲:1 大,为什么要研究大数据机器学习?,例“尿布啤酒”关联规则 实际上,在面对少量数据时关联分析并不难,可以直接使用统计学中有关相关性的知识,这也正是机器学习界没有研究关联分析的一个重要原因。 关联分析的困难其实完全是由海量数据造成的,因为数据量的增加会直接造成挖
10、掘效率的下降,当数据量增加到一定程度,问题的难度就会产生质变, 例如,在关联分析中必须考虑因数据太大而无法承受多次扫描数据库的开销、可能产生在存储和计算上都无法接受的大量中间结果等。,提纲:1 大,机器学习相关学术期刊和会议,机器学习 学术会议:NIPS、ICML、ECML和COLT, 学术期刊:Machine Learning和Journal of Machine Learning Research 数据挖掘 学术会议:SIGKDD、ICDM、SDM、PKDD和PAKDD 学术期刊:Data Mining and Knowledge Discovery和IEEE Transactions o
11、n Knowledge and Data Engineering 人工智能 学术会议:IJCAI和AAAI、 数据库 学术会议:SIGMOD、VLDB、ICDE, 其它一些顶级期刊如 Artificial Intelligence、 Journal of Artificial Intelligence Research、 IEEE Transactions on Pattern Analysis and Machine Intelligence、 Neural Computation等也经常发表机器学习和数据挖掘方面的论文,提纲:1 大,机器学习相关学术期刊和会议,提纲:1 大,机器学习相关学
12、术期刊和会议,提纲:1 大,机器学习相关学术期刊和会议,提纲:1 大,机器学习相关学术期刊和会议,提纲:1 大,机器学习相关学术期刊和会议,提纲:1 大,机器学习和统计学习,维基百科: 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推
13、论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。,提纲:1 大,统计学习和机器学习,Brendan OConnor的博文Statistics vs. Machine Learning, fight!,初稿是08年写的,或许和作者的机器学习背景有关,他在初稿中主要是贬低了统计学,思想和1有点类似,认为机器学习比统计学多了些Algorithm Modeling方面内容,比如SVM的Max-margin,决策树等,此外他认为机器学习更偏实际。但09年十月的时候他转而放弃自己原来的观点,认为统计才是real deal: Statistics, not machine lear
14、ning, is the real deal, but unfortunately suffers from bad marketing.,提纲:1 大,统计学习和机器学习,提纲:1 大,统计学习和机器学习,-Simon Blomberg: From Rs fortunes package: To paraphrase provocatively, machine learning is statistics minus any checking of models and assumptions. -Andrew Gelman: In that case, maybe we should g
15、et rid of checking of models and assumptions more often. Then maybe wed be able to solve some of the problems that the machine learning people can solve but we cant!,提纲:1 大,统计学习和机器学习,研究方法差异 统计学研究形式化和推导 机器学习更容忍一些新方法 维度差异 统计学强调低维空间问题的统计推导(confidence intervals, hypothesis tests, optimal estimators) 机器学
16、习强调高维预测问题 统计学和机器学习各自更关心的领域: 统计学: survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution, semiparametric inference, bootstrapping, time series. 机器学习: online learning, semisupervised learning, manifold learning, active learning, boosting.,提纲:1 大,统计学习和机器学习(专业术语),统计学 机器学习Es
17、timationLearningClassifier HypothesisData point Example/InstanceRegression Supervised LearningClassification Supervised LearningCovariate FeatureResponse Label,提纲:1 大,统计学习,统计学习的对象 data :计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。 数据的基本假设是同类数据具有一定的统计规律性。 统计学习的目的 用于对数据(特别是未知数据)进行预测和分析。,提纲:1 大,统计学习,统计学习的方法 分类:
18、 Supervised learning Unsupervised learning Semi-supervised learning Reinforcement learning 监督学习: 训练数据 training data 模型 model - 假设空间 hypothesis 评价准则 evaluation criterion - 策略 strategy 算法 algorithm,提纲:1 大,统计学习的研究: 统计学习方法 统计学习理论(统计学习方法的有效性和效率和基本理论) 统计学习应用,统计学习,提纲:1 大,监督学习,Instance,feature vector,featur
19、e space 输入实例x的特征向量: x(i)与xi 不同,后者表示多个输入变量中的第i个 训练集: 输入变量和输出变量: 分类问题、回归问题、标注问题,提纲:1 大,联合概率分布 假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y) P(X,Y)为分布函数或分布密度函数 对于学习系统来说,联合概率分布是未知的, 训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。 假设空间 监督学习目的是学习一个由输入到输出的映射,称为模型 模式的集合就是假设空间(hypothesis space) 概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X),监督学习,提纲:1
20、大,问题的形式化,监督学习,提纲:1 大,无监督学习,训练集: 模型函数: 条件概率分布:,提纲:1 大,强化学习,提纲:1 大,强化学习,状态转移概率函数: 奖励函数: 策略:给定状态下动作的函数 或者条件概率分布 状态价值函数: 动作价值函数:,提纲:1 大,强化学习方法,无模型(model-free) 基于策略(policy-based):求解最优策略* 基于价值(value-based):求解最优价值函数 有模型(model-based) 通过学习马尔可夫决策过程的模型,包括转移概率函数和奖励函数 通过模型对环境的反馈进行预测 求解价值函数最大的策略*,提纲:1 大,半监督学习,少量标
21、注数据,大量未标注数据 利用未标注数据的信息,辅助标注数据,进行监督学习 较低成本,主动学习,机器主动给出实例,教师进行标注 利用标注数据学习预测模型,提纲:1 大,统计学习,按算法分类: 在线学习(online learning) 批量学习(batch learning),提纲:1 大,统计学习,按技巧分类: 贝叶斯学习(Bayesian learning),提纲:1 大,统计学习,按技巧分类: 贝叶斯学习(Bayesian learning),提纲:1 大,统计学习,按技巧分类: 核方法(Kernel method) 使用核函数表示和学习非线性模型,将线性模型学习方法扩展到非线性模型的学习
22、 不显式地定义输入空间到特征空间的映射,而是直接定义核函数,即映射之后在特征空间的内积 假设x1,x2是输入空间的任意两个实例,内积为,输入空间到特征空间的映射为, 核方法在输入空间中定义核函数 K(x1, x2),使其满足 K(x1, x2) = ,提纲:1 大,统计学习三要素,模型: 决策函数的集合: 参数空间 条件概率的集合: 参数空间,提纲:1 大,统计学习三要素,策略 损失函数:一次预测的好坏 风险函数:平均意义下模型预测的好坏 0-1损失函数 0-1 loss function 平方损失函数 quadratic loss function 绝对损失函数 absolute loss
23、function,提纲:1 大,统计学习三要素,策略 对数损失函数 logarithmic loss function 或对数似然损失函数 loglikelihood loss function 损失函数的期望 风险函数 risk function 期望损失 expected loss 由P(x,y)可以直接求出P(x|y),但不知道, 经验风险 empirical risk ,经验损失 empirical loss,提纲:1 大,统计学习三要素,策略:经验风险最小化与结构风险最小化 经验风险最小化最优模型 当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合over-fitti
24、ng” 结构风险最小化 structure risk minimization,为防止过拟合提出的策略,等价于正则化(regularization),加入正则化项regularizer,或罚项 penalty term:,提纲:1 大,统计学习三要素,求最优模型就是求解最优化问题:,提纲:1 大,统计学习三要素,算法: 如果最优化问题有显式的解析式,算法比较简单 但通常解析式不存在,就需要数值计算的方法,提纲:1 大,模型评估与模型选择,训练误差,训练数据集的平均损失 测试误差,测试数据集的平均损失 损失函数是0-1 损失时: 测试数据集的准确率:,提纲:1 大,模型评估与模型选择,过拟合与模
25、型选择 假设给定训练数据集 经验风险最小:,提纲:1 大,模型评估与模型选择,提纲:1 大,模型评估与模型选择,提纲:1 大,正则化与交叉验证,正则化一般形式: 回归问题中:,提纲:1 大,交叉验证: 训练集 training set: 用于训练模型 验证集 validation set:用于模型选择 测试集 test set: 用于最终对学习方法的评估 简单交叉验证 S折交叉验证 留一交叉验证,正则化与交叉验证,提纲:1 大,泛化能力 generalization ability,泛化误差 generalization error 泛化误差上界 比较学习方法的泛化能力-比较泛化误差上界 性质
26、:样本容量增加,泛化误差趋于0,假设空间容量越大, 泛化误差越大 二分类问题 期望风险和经验风险,提纲:1 大,泛化能力 generalization ability,经验风险最小化函数: 泛化能力: 定理:泛化误差上界,二分类问题, 当假设空间是有限个函数的结合 , 对任意一个函数f, 至少以概率1-,以下不等式成立:,提纲:1 大,生成模型与判别模型,监督学习的目的就是学习一个模型: 决策函数: 条件概率分布: 生成方法Generative approach 对应生成模型:generative model, 朴素贝叶斯法和隐马尔科夫模型,提纲:1 大,生成模型与判别模型,判别方法由数据直接
27、学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型 Discriminative approach对应discriminative model K近邻法、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。,提纲:1 大,生成模型与判别模型,各自优缺点: 生成方法:可还原出联合概率分布P(X,Y), 而判别方法不能。生成方法的收敛速度更快,当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以使用生成方法,而判别方法则不能用。 判别方法:直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接
28、学习Y=f(X)或P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程。,提纲:1 大,分类问题,提纲:1 大,分类问题,二分类评价指标 TP true positive FN false negative FP false positive TN true negative,精确率 召回率 F1值,提纲:1 大,标注问题,标注:tagging, 结构预测:structure prediction 输入:观测序列, 输出:标记序列或状态序列 学习和标注两个过程 训练集: 观测序列: 输出标记序列: 模型:条件概率分布,提纲:1 大,回归问题,回归模型是表示从输入
29、变量到输出变量之间映射的函数.回归问题的学习等价于函数拟合。 学习和预测两个阶段 训练集:,提纲:1 大,回归问题,例子: 标记表示名词短语的“开始”、“结束”或“其他”(分别以B, E, O表示) 输入:At Microsoft Research, we have an insatiable curiosity and the desire to create new technology that will help define the computing experience. 输出:At/O Microsoft/B Research/E, we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.,提纲:1 大,回归问题,回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由 著名的最小二乘法(least squares)求解。 股价预测,提纲:1 大,Q&A?,
限制150内