欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    dd第一章:概率统计基础.ppt

    • 资源ID:70741262       资源大小:335KB        全文页数:26页
    • 资源格式: PPT        下载积分:11.9金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要11.9金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    dd第一章:概率统计基础.ppt

    第二部分:统计推断n nChp6:统计推断概述n nChp7:非参数推断n nChp8:Bootstrapn nChp9:参数推断n nChp10:假设检验n nChp11:贝叶斯推断n nChp12:统计决策理论1Chp6:统计推断n n统计推断统计推断/学习学习n n利用数据来推断产生数据的分布的过程利用数据来推断产生数据的分布的过程n n统计推断的基本问题:统计推断的基本问题:n n我们观测到数据我们观测到数据 ,要推断(估计或,要推断(估计或学习)学习)F F 或或 F F 的某些的某些性质(如均值和方差)。性质(如均值和方差)。数据产生过程观测到的数据概率统计推断2参数模型n n参数模型参数模型n n可用有限个参数参数化,如可用有限个参数参数化,如n n也可记为也可记为n n一般形式一般形式n n当当 为向量,而我们只对其中一部分参数感兴趣,为向量,而我们只对其中一部分参数感兴趣,则其余参数称为冗余参量(则其余参数称为冗余参量(nuisance parameters nuisance parameters)3非参数模型n n非参数模型非参数模型n n粗略地说,非参数模型不能用有限个参数参数化粗略地说,非参数模型不能用有限个参数参数化n n如如n n 如如4例:参数推断n n6.16.1例(一维参数估计)设例(一维参数估计)设 是独立的是独立的Bernoulli(p)Bernoulli(p)观测,问题在于如何估计参数观测,问题在于如何估计参数p p。n n6.26.2例(二维参数估计)假设例(二维参数估计)假设 且且PDF PDF ,n n如如n n则有两个参数则有两个参数 。n n目标是从数据中获得参数。如果仅对目标是从数据中获得参数。如果仅对感兴趣,那么感兴趣,那么是是感兴趣参数,而感兴趣参数,而 是是冗余参量冗余参量。5例:非参数推断n n6.36.3例(例(CDFCDF的非参数估计)设的非参数估计)设 是来自是来自CDF CDF F F 的独立观测。问题是在假设的独立观测。问题是在假设 的条件下的条件下估计估计F F。6例:非参数推断n n6.46.4例(非参数密度估计)设例(非参数密度估计)设 是是CDF CDF F F 的独立的独立观测,令观测,令 是其是其PDFPDF。n n假设我们要估计假设我们要估计f f 。在只假设。在只假设 的条件下,不可能的条件下,不可能估计出估计出 f f。我们需要假设。我们需要假设f f的平滑性。的平滑性。n n例如,可假设例如,可假设 ,其中,其中 是满足下述条是满足下述条件的所有概率密度函数的集合件的所有概率密度函数的集合n n类类 称为称为Sobolev Sobolev 空间;是空间;是“波动不大波动不大”的函数的集合。的函数的集合。7例:非参数推断n n6.56.5例(函数的非参数估计):令例(函数的非参数估计):令 ,我们,我们要估计要估计 ,仅假设仅假设存在。存在。n n均值均值可被认为是可被认为是F F的函数,可写成的函数,可写成 n n通常,任意通常,任意F F 的函数可认为统计函数的函数可认为统计函数/统计泛函。统计泛函。n n方差:方差:n n中值:中值:8例:监督学习n n假设有成对的观测数据假设有成对的观测数据 ,n n如如 为第为第i i个人的血压,个人的血压,为其寿命为其寿命n nX X:特征:特征/独立变量独立变量/预测子预测子/回归子回归子n nY Y:输出:输出/依赖变量依赖变量/响应变量响应变量n n :回归函数:回归函数n n参数回归模型:参数回归模型:,其中,其中 为有限维为有限维n n如线性回归:如线性回归:为直线集合,为直线集合,n n非参数回归模型:非参数回归模型:,其中,其中 为无限维为无限维n n如核回归:如核回归:9例:监督学习(续)n n预测:给定新的预测:给定新的X X的值,估计的值,估计Y Y的值的值n n分类:当分类:当Y Y为离散值时的预测为离散值时的预测n n回归回归/曲线拟合曲线拟合/曲线估计:估计函数曲线估计:估计函数 n n回归模型:回归模型:n n n n n n 10统计推断方法n n频率推断频率推断n n贝叶斯推断贝叶斯推断11注意n n在参数模型中,若在参数模型中,若 为参数模为参数模型,我们记型,我们记n n n n n n下标下标 表示概率或期望是与表示概率或期望是与 有关,而不是有关,而不是对对 求平均求平均12点估计n n点估计是指对某个感兴趣的量的真值点估计是指对某个感兴趣的量的真值 做一个最做一个最佳估计,这个估计称为佳估计,这个估计称为 或或 ,因为它取决于数,因为它取决于数据,所以据,所以 是一个随机变量。是一个随机变量。n n但但 为固定值,虽然未知为固定值,虽然未知n n如果如果 X X1 1,X,Xn n 是从某个分布是从某个分布F F的的IIDIID数据点,参数数据点,参数 的点估计为的点估计为X X1 1,X,Xn n 的函数:的函数:13抽样分布(Sampling Distribution)n n 的分布称为的分布称为抽样分布抽样分布n n 的标准差的标准差 (standard deviation)(standard deviation)称为称为标准误差标准误差 (standard error)(standard error)标准误差的估计值称为标准误差的估计值称为14估计量的评价标准n n一个好的估计有什么性质一个好的估计有什么性质?n n无偏性无偏性n n估计的估计的偏差(偏差(biasbias)为为n n若若 ,则该估计是无偏估计。,则该估计是无偏估计。n n一致性一致性n n若若 ,则该点估计是一致的。,则该点估计是一致的。n n有效性有效性n n无偏估计中,方差较小的一个更有效(收敛速度更快)无偏估计中,方差较小的一个更有效(收敛速度更快)对分布求期望,而不是对平均15偏差方差分解n n点估计的性能有时通过点估计的性能有时通过均方误差均方误差(MSE,mean squared error)(MSE,mean squared error)来评价:来评价:n nMSEMSE可分解为可分解为n n为了使估计的为了使估计的MSEMSE小,估计的偏差和方差都要小小,估计的偏差和方差都要小n n对无偏估计,对无偏估计,bias=0bias=0,所以,所以估计的偏差/正确性估计的变化程度/精度无偏估计的MSE不一定最小,还需考虑估计的方差16偏差方差分解17偏差方差分解n n若若 时,时,且且 ,则,则 是是一致的,即一致的,即n n证明:证明:所以所以所以(qm收敛定义)18例:Bernoulli分布中的参数估计n n令令 n n n n n n 为为p p无偏估计无偏估计n n标准误差为标准误差为 n n所以所以 ,为一致估计为一致估计n n估计的标准误差为估计的标准误差为 19置信区间n n参数的参数的1-1-置信区间置信区间为区间为区间 ,其中,其中 n n 和和 是数据的函数,是数据的函数,使得使得n n区间区间(a,ba,b)以以1-1-的概率覆盖的概率覆盖 n n1-1-:置信区间的覆盖度:置信区间的覆盖度(coveragecoverage)n n置信区间表示了我们对置信区间表示了我们对未知参数的不确定程度未知参数的不确定程度n n置信区间宽,表示若要对参数有个比较确定的解,需置信区间宽,表示若要对参数有个比较确定的解,需要更多样本数据要更多样本数据20渐近正态性 如果满足如果满足 则该估计是则该估计是渐近正态的(渐近正态的(asymptotically asymptotically normalnormal)。如果一个估计是渐近正态的,可以比较方便地得如果一个估计是渐近正态的,可以比较方便地得到其置信区间。到其置信区间。21基于正态分布的置信区间假设假设 ,令令 ,即即 且且 其中其中 ,令令则则 如对如对95%95%的置信区间,的置信区间,则则95%95%的置信区间约为的置信区间约为22例:二项分布的置信区间n n n n令令n n其中其中n n则根据则根据HoeffdingHoeffding不等式不等式n n对每个对每个p p,n n所以所以 为为1-1-置信区间。置信区间。n n根据根据CLTCLT,n n则则1-1-置信区间为置信区间为基于正态的区间比基于Hoeffding不等式的区间小,但CLT只是近似(在大样本时)23假设检验n n假设检验:从缺省理论假设检验:从缺省理论-零假设零假设/原假设(原假设(null null hypothesishypothesis)开始)开始n n问题:数据是否提供了足够多的证据以拒绝该理论问题:数据是否提供了足够多的证据以拒绝该理论n n是:拒绝原假设是:拒绝原假设n n否:接受原假设否:接受原假设24例:检验硬币是否公正n n假设假设 表示表示n n次独立的抛次独立的抛硬币试验,我们想知道该硬币是否公正硬币试验,我们想知道该硬币是否公正n n原假设原假设 :硬币是公正的:硬币是公正的n n备择假设备择假设 :硬币是不公正的:硬币是不公正的n n记为:记为:n n当当 较大时,拒绝较大时,拒绝n n问题:问题:T T应为多大?(拒绝域应为多大?(拒绝域/接受域接受域/显著水平)显著水平)n n一般不能轻易拒绝一般不能轻易拒绝25总结n n统计推断的基本概念统计推断的基本概念n n模型、模型估计、估计的评价模型、模型估计、估计的评价n n一个好的估计:一个好的估计:n n偏差小偏差小n n方差方差/标准误差小标准误差小n nMSEMSE小小n n一致性一致性n n鲁棒性(当样本数据有噪声时,仍能得到一个好的估计)鲁棒性(当样本数据有噪声时,仍能得到一个好的估计)n n.重点掌握偏差、标准误差和MSE的计算26

    注意事项

    本文(dd第一章:概率统计基础.ppt)为本站会员(wuy****n92)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开