dd第一章：概率统计基础.ppt

资源ID：70741262 资源大小：335KB 全文页数：26页
资源格式： PPT 下载积分：11.9金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要11.9金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

dd第一章：概率统计基础.ppt

第二部分：统计推断n nChp6：统计推断概述n nChp7：非参数推断n nChp8：Bootstrapn nChp9：参数推断n nChp10：假设检验n nChp11：贝叶斯推断n nChp12：统计决策理论1Chp6：统计推断n n统计推断统计推断/学习学习n n利用数据来推断产生数据的分布的过程利用数据来推断产生数据的分布的过程n n统计推断的基本问题：统计推断的基本问题：n n我们观测到数据我们观测到数据，要推断（估计或，要推断（估计或学习）学习）F F 或或 F F 的某些的某些性质（如均值和方差）。性质（如均值和方差）。数据产生过程观测到的数据概率统计推断2参数模型n n参数模型参数模型n n可用有限个参数参数化，如可用有限个参数参数化，如n n也可记为也可记为n n一般形式一般形式n n当当为向量，而我们只对其中一部分参数感兴趣，为向量，而我们只对其中一部分参数感兴趣，则其余参数称为冗余参量（则其余参数称为冗余参量（nuisance parameters nuisance parameters）3非参数模型n n非参数模型非参数模型n n粗略地说，非参数模型不能用有限个参数参数化粗略地说，非参数模型不能用有限个参数参数化n n如如n n 如如4例：参数推断n n6.16.1例（一维参数估计）设例（一维参数估计）设是独立的是独立的Bernoulli(p)Bernoulli(p)观测，问题在于如何估计参数观测，问题在于如何估计参数p p。n n6.26.2例（二维参数估计）假设例（二维参数估计）假设且且PDF PDF ，n n如如n n则有两个参数则有两个参数。n n目标是从数据中获得参数。如果仅对目标是从数据中获得参数。如果仅对感兴趣，那么感兴趣，那么是是感兴趣参数，而感兴趣参数，而是是冗余参量冗余参量。5例：非参数推断n n6.36.3例（例（CDFCDF的非参数估计）设的非参数估计）设是来自是来自CDF CDF F F 的独立观测。问题是在假设的独立观测。问题是在假设的条件下的条件下估计估计F F。6例：非参数推断n n6.46.4例（非参数密度估计）设例（非参数密度估计）设是是CDF CDF F F 的独立的独立观测，令观测，令是其是其PDFPDF。n n假设我们要估计假设我们要估计f f 。在只假设。在只假设的条件下，不可能的条件下，不可能估计出估计出 f f。我们需要假设。我们需要假设f f的平滑性。的平滑性。n n例如，可假设例如，可假设，其中，其中是满足下述条是满足下述条件的所有概率密度函数的集合件的所有概率密度函数的集合n n类类称为称为Sobolev Sobolev 空间；是空间；是“波动不大波动不大”的函数的集合。的函数的集合。7例：非参数推断n n6.56.5例（函数的非参数估计）：令例（函数的非参数估计）：令，我们，我们要估计要估计，仅假设仅假设存在。存在。n n均值均值可被认为是可被认为是F F的函数，可写成的函数，可写成 n n通常，任意通常，任意F F 的函数可认为统计函数的函数可认为统计函数/统计泛函。统计泛函。n n方差：方差：n n中值：中值：8例：监督学习n n假设有成对的观测数据假设有成对的观测数据，n n如如为第为第i i个人的血压，个人的血压，为其寿命为其寿命n nX X：特征：特征/独立变量独立变量/预测子预测子/回归子回归子n nY Y：输出：输出/依赖变量依赖变量/响应变量响应变量n n ：回归函数：回归函数n n参数回归模型：参数回归模型：，其中，其中为有限维为有限维n n如线性回归：如线性回归：为直线集合，为直线集合，n n非参数回归模型：非参数回归模型：，其中，其中为无限维为无限维n n如核回归：如核回归：9例：监督学习（续）n n预测：给定新的预测：给定新的X X的值，估计的值，估计Y Y的值的值n n分类：当分类：当Y Y为离散值时的预测为离散值时的预测n n回归回归/曲线拟合曲线拟合/曲线估计：估计函数曲线估计：估计函数 n n回归模型：回归模型：n n n n n n 10统计推断方法n n频率推断频率推断n n贝叶斯推断贝叶斯推断11注意n n在参数模型中，若在参数模型中，若为参数模为参数模型，我们记型，我们记n n n n n n下标下标表示概率或期望是与表示概率或期望是与有关，而不是有关，而不是对对求平均求平均12点估计n n点估计是指对某个感兴趣的量的真值点估计是指对某个感兴趣的量的真值做一个最做一个最佳估计，这个估计称为佳估计，这个估计称为或或，因为它取决于数，因为它取决于数据，所以据，所以是一个随机变量。是一个随机变量。n n但但为固定值，虽然未知为固定值，虽然未知n n如果如果 X X1 1,X,Xn n 是从某个分布是从某个分布F F的的IIDIID数据点，参数数据点，参数的点估计为的点估计为X X1 1,X,Xn n 的函数：的函数：13抽样分布（Sampling Distribution）n n 的分布称为的分布称为抽样分布抽样分布n n 的标准差的标准差 (standard deviation)(standard deviation)称为称为标准误差标准误差 (standard error)(standard error)标准误差的估计值称为标准误差的估计值称为14估计量的评价标准n n一个好的估计有什么性质一个好的估计有什么性质?n n无偏性无偏性n n估计的估计的偏差（偏差（biasbias）为为n n若若，则该估计是无偏估计。，则该估计是无偏估计。n n一致性一致性n n若若，则该点估计是一致的。，则该点估计是一致的。n n有效性有效性n n无偏估计中，方差较小的一个更有效（收敛速度更快）无偏估计中，方差较小的一个更有效（收敛速度更快）对分布求期望，而不是对平均15偏差方差分解n n点估计的性能有时通过点估计的性能有时通过均方误差均方误差(MSE,mean squared error)(MSE,mean squared error)来评价：来评价：n nMSEMSE可分解为可分解为n n为了使估计的为了使估计的MSEMSE小，估计的偏差和方差都要小小，估计的偏差和方差都要小n n对无偏估计，对无偏估计，bias=0bias=0，所以，所以估计的偏差/正确性估计的变化程度/精度无偏估计的MSE不一定最小，还需考虑估计的方差16偏差方差分解17偏差方差分解n n若若时，时，且且，则，则是是一致的，即一致的，即n n证明：证明：所以所以所以（qm收敛定义）18例：Bernoulli分布中的参数估计n n令令 n n n n n n 为为p p无偏估计无偏估计n n标准误差为标准误差为 n n所以所以，为一致估计为一致估计n n估计的标准误差为估计的标准误差为 19置信区间n n参数的参数的1-1-置信区间置信区间为区间为区间，其中，其中 n n 和和是数据的函数，是数据的函数，使得使得n n区间区间(a,ba,b)以以1-1-的概率覆盖的概率覆盖 n n1-1-：置信区间的覆盖度：置信区间的覆盖度(coveragecoverage)n n置信区间表示了我们对置信区间表示了我们对未知参数的不确定程度未知参数的不确定程度n n置信区间宽，表示若要对参数有个比较确定的解，需置信区间宽，表示若要对参数有个比较确定的解，需要更多样本数据要更多样本数据20渐近正态性如果满足如果满足则该估计是则该估计是渐近正态的（渐近正态的（asymptotically asymptotically normalnormal）。如果一个估计是渐近正态的，可以比较方便地得如果一个估计是渐近正态的，可以比较方便地得到其置信区间。到其置信区间。21基于正态分布的置信区间假设假设，令令，即即且且其中其中，令令则则如对如对95%95%的置信区间，的置信区间，则则95%95%的置信区间约为的置信区间约为22例：二项分布的置信区间n n n n令令n n其中其中n n则根据则根据HoeffdingHoeffding不等式不等式n n对每个对每个p p，n n所以所以为为1-1-置信区间。置信区间。n n根据根据CLTCLT，n n则则1-1-置信区间为置信区间为基于正态的区间比基于Hoeffding不等式的区间小，但CLT只是近似（在大样本时）23假设检验n n假设检验：从缺省理论假设检验：从缺省理论-零假设零假设/原假设（原假设（null null hypothesishypothesis）开始）开始n n问题：数据是否提供了足够多的证据以拒绝该理论问题：数据是否提供了足够多的证据以拒绝该理论n n是：拒绝原假设是：拒绝原假设n n否：接受原假设否：接受原假设24例：检验硬币是否公正n n假设假设表示表示n n次独立的抛次独立的抛硬币试验，我们想知道该硬币是否公正硬币试验，我们想知道该硬币是否公正n n原假设原假设：硬币是公正的：硬币是公正的n n备择假设备择假设：硬币是不公正的：硬币是不公正的n n记为：记为：n n当当较大时，拒绝较大时，拒绝n n问题：问题：T T应为多大？（拒绝域应为多大？（拒绝域/接受域接受域/显著水平）显著水平）n n一般不能轻易拒绝一般不能轻易拒绝25总结n n统计推断的基本概念统计推断的基本概念n n模型、模型估计、估计的评价模型、模型估计、估计的评价n n一个好的估计：一个好的估计：n n偏差小偏差小n n方差方差/标准误差小标准误差小n nMSEMSE小小n n一致性一致性n n鲁棒性（当样本数据有噪声时，仍能得到一个好的估计）鲁棒性（当样本数据有噪声时，仍能得到一个好的估计）n n.重点掌握偏差、标准误差和MSE的计算26

注意事项

本文（dd第一章：概率统计基础.ppt）为本站会员（wuy****n92）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。