欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    (2.1.1)--第二章_机器学习基本概念.pdf

    • 资源ID:67730973       资源大小:1.65MB        全文页数:32页
    • 资源格式: PDF        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    (2.1.1)--第二章_机器学习基本概念.pdf

    大数据机器学习第二讲:机器学习基本概念 基本术语 监督学习 假设空间 学习三要素 奥卡姆剃刀定理 没有免费的午餐定理 训练误差和测试误差 正则化 泛化能力 生成模型与判别模型提纲 Data set形状=圆形 剥皮=难味道=酸甜形状=扁圆形 剥皮=易 味道=酸形状=长圆形 剥皮=难 味道=甜。Instance/sample Attribute value/feature Attribute/feature space Feature vector基本术语 D=x1,x2,xm m个示例的数据集是d维样本空间X的一个特征向量 training/learning training data training sample Label (形状=长圆形 剥皮=难 味道=甜),橙子)example基本术语 Classification regression binary classification multi-class classification Clustering Multi-labeling annotation 基本术语监督学习 监督学习目的是学习一个由输入到输出的映射,称为模型 模型的集合就是假设空间(hypothesis space)模型:概率模型:条件概率分布P(Y|X),非概率模型:决策函数Y=f(X)联合概率分布:假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)问题的形式化监督学习假设空间 hypothesis space 学习过程:搜索所有假设空间,与训练集匹配 形状=圆形 剥皮=难味道=酸甜 橙 形状=扁圆形 剥皮=易 味道=酸 橘 形状=长圆形 剥皮=难 味道=甜橙 假设形状,剥皮,味道 分别有3,2,3 种可能取值,加上取任意值*和空集,假设空间规模4x3x4+1=49 Version space:形状=*剥皮=难味道=*橙 形状=扁圆形 剥皮=易 味道=*橘 学习三要素:当假设空间F为决策函数的集合:F实质为参数向量决定的函数族:当假设空间F为条件概率的集合:F实质是参数向量决定的条件概率分布族学习三要素 策略 损失函数和风险函数 0-1损失函数 0-1 loss function 平方损失函数 quadratic loss function 绝对损失函数 absolute loss function 对数损失函数 logarithmic loss function 或对数似然损失函数 loglikelihood loss function 学习三要素 策略 损失函数的期望 风险函数 risk function 期望损失 expected loss 经验风险 empirical risk,经验损失 empirical loss学习三要素 策略:经验风险最小化与结构风险最小化 经验风险最小化最优模型 当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合over-fitting”为防止过拟合提出的策略,结构风险最小化 structure risk minimization,等价于正则化(regularization),加入正则化项regularizer,或罚项 penalty term:学习三要素 方法:求最优模型就是求解最优化问题:难点:全局最优 高效学习三要素 14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)原理称为“如无必要,勿增实体”奥卡姆剃刀Occams razor 疑问一:哪个更简单?疑问二:奥卡姆剃刀Occams razor 形状=*剥皮=难味道=*橙 形状=长圆形 剥皮=*味道=*橙No free lunch theorem A 好?B 好?随机胡猜好?假设样本空间X和假设空间H都是离散的.P(h|X,Za):产生假设 h 的概率 f(x):真实目标函数“训练集外误差”No free lunch theorem 二分类问题:No free lunch theorem 总误差竟然与学习算法无关 定理前提条件:所有“问题”出现的机会相同,或所有问题同等重要 假设真实函数的均匀分布。寓意:脱离具体问题,空谈“什么方法好”毫无意义。No free lunch theorem 形状=*剥皮=难味道=*橙 形状=长圆形 剥皮=*味道=*橙 训练误差,训练数据集的平均损失 测试误差,测试数据集的平均损失 损失函数是0-1 损失时:测试数据集的准确率:训练误差和测试误差 过拟合与模型选择多项式曲线拟合的例子 假设给定训练数据集 经验风险最小:过拟合过拟合过拟合过拟合过拟合 正则化一般形式:回归问题中:正则化正则化正则化 泛化误差 generalization error 泛化误差上界 比较学习方法的泛化能力-比较泛化误差上界 性质:样本容量增加,泛化误差趋于0假设空间容量越大,泛化误差越大 二分类问题 期望风险和经验风险 假设空间F为有限集合泛化能力 generalization ability 经验风险最小化函数:泛化能力:定理:泛化误差上界,二分类问题,当假设空间是有限个函数的结合,对任意一个函数f,至少以概率1-,以下不等式成立:泛化能力 generalization ability 监督学习的目的就是学习一个模型:决策函数:条件概率分布:生成方法Generative approach 对应生成模型:generative model,朴素贝叶斯法和隐马尔科夫模型 判别方法discriminative approach对应判别模型:discriminative model,K近邻,感知机,决策树,logistic 回归等生成模型与判别模型 二者各有优缺点 生成模型:还原联合概率,而判别模型不能;学习收敛速度快,当样本容量增加时,学到的模型可以更快收敛;当存在隐变量时,可以使用生成模型,而判别模型不行。判别模型:直接学习决策函数或条件概率,学习的准确率更高;可以对数据进行抽象,定义特征和使用特征,可以简化学习问题。生成模型与判别模型Q&A?

    注意事项

    本文((2.1.1)--第二章_机器学习基本概念.pdf)为本站会员(奉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开