《统计学习基础.ppt》由会员分享,可在线阅读,更多相关《统计学习基础.ppt(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学习基础 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望概率 vs.统计概率:研究随机事件出现的可能性的数学分支,描述非确定性的正式语言基本问题:给定以一个数据产生过程,输出的性质?统计推断:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲基本问题:给定输出数据,该数据的产生过程?数据产生过程观测到的数据概率统计推断2统计学习统计学 根据数据进行推理的学科统计学习 多元统计分析+计算统计学多元统计分析 基于一个多元变量数据集,预测函数值计算统计学
2、统计问题的计算方法(a.k.a.统计计算)+计算繁重的统计方法数据挖掘 研究数据分析,尤其是大数据量/复杂的数据集3学习的主要目的:预测通过学习,得到训练数据的某种模型然后利用该模型,预测未见过的测试数据假设测试数据与训练数据来自相同分布4统计学习的任务概率密度估计:预测概率密度回归:预测连续目标变量的值分类:预测离散目标变量的值其他:聚类、降维有监督/无监督学习有监督学习:回归、分类无监督学习:概率密度估计、聚类、降维5统计学习的主要部分模型类别参数模型、非参数模型损失函数L2损失、0-1损失、log似然损失推广性训练误差(学习)、测试误差(预测)优化计算6例:回归数据产生过程为加上 的高斯
3、噪声目标:用多项式模型拟合 ,使得最小。7例:回归(续)Fig1(a)1阶多项式拟合 Fig1(b)3阶多项式拟合拟合函数样本数据点8例:回归(续)Fig1(d)训练误差和测试误差 Fig1(c)10阶多项式拟合9例:人脸形状ICCV2001:Learning inhomogeneous Gibbs models of faces by minimax entropy10一些问题怎样表示误差?(损失函数)怎样保证在未来的数据集上误差最小?(推广性)对特定的数据,应该选择哪个模型/方法?(模型选择、假设检验)我们的方法在未来数据集上的误差是多少?(误差估计、置信带、学习理论)11课程目的为计算机
4、专业的学生快速提供广泛的概率和统计背景概率统计统计学习为学习其他课程打好统计学基础机器学习数据挖掘模式识别人工智能12数学基础的重要性研究数据分析必须打好概率和统计基础Using fancy tools like neural nets,boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.13教材/参考书AOL Larry Wasserman,All of Statisti
5、cs:A Concise Course in Statistical Inference中译本:统计学完全教程主要教材:内容很全,但有些部分篇幅略少,更偏向于从统计的角度讲述Chp1-13,Chp20ESL Trevor Hastie,Robert Tibshirani,Jerome Friedman,The Elements of Statistical Learning Data Mining,Inference,and Prediction中译本:统计学习基础数据挖掘、推理与预测统计学习部分的主要教材:主要从机器学习的角度讲述Chp1-7PRML Bisshopr,Pattern Recognition and Machine Learning14课程内容(1)第一部分:概率随机变量及其概率分布概率不等式和收敛性第二部分:统计推断统计推断基本知识非参数估计、Bootstrap、Jackknife参数估计假设检验15课程内容(2)第三部分:统计学习统计学习概述线性回归核方法统计判决理论模型选择和模型评估16作业和考试助教:池晨 作业:40%每次作业留2周时间请按时交作业,鼓励讨论,但NO COPY期末考试:60%,开卷17
限制150内