《第七章模型选择和模型评估精选文档.ppt》由会员分享,可在线阅读,更多相关《第七章模型选择和模型评估精选文档.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章模型选择和模型评估 MLE3-1本讲稿第一页,共三十九页 MLE3-2上节课内容总结q后验的仿真模拟q贝叶斯推理与MLEm例m令 为 的极大似然估计,在合适的正则条件下,后验均值为q贝叶斯推理的优点m可以方便的结合先验信息m数据和先验同等对待m由后验可以同时推出点估计和区间估计 本讲稿第二页,共三十九页 MLE3-3第七章:模型选择和模型评估内容:q估计选择(Ch13)q模型选择 (Ch14,Ch9,统计学习基础第7章)本讲稿第三页,共三十九页 MLE3-4估计选择q有几个不同的估计,哪个估计更好一些?m统计决策理论本讲稿第四页,共三十九页 MLE3-5损失函数q损失函数:度量真值 与估
2、计 之间的差异q损失函数举例平方误差损失绝对误差损失损失0-1损失Kullback Leibler损失本讲稿第五页,共三十九页 MLE3-6风险函数q风险函数:损失的均值q一个估计 的风险是m对平方误差损失,风险为MSEm风险是 的函数q比较不同的估计,转化为比较不同估计的风险m但并不能清楚地回答哪个估计更好本讲稿第六页,共三十九页 MLE3-7风险比较没有一个估计的风险在所有的值都超过另外一个本讲稿第七页,共三十九页 MLE3-8风险比较q风险函数的两个单值概述q最大风险q贝叶斯风险m其中 为的先验。本讲稿第八页,共三十九页 MLE3-9决策规则(Decision Rules)q决策规则是估
3、计的别名q最小化贝叶斯风险的决策规则成为贝叶斯规则或贝叶斯估计,即 为对应先验 f 的贝叶斯估计m其中下界是对所有的估计 计算q最小化最大风险的估计称为最小最大规则m其中下界是对所有的估计 计算本讲稿第九页,共三十九页 MLE3-10贝叶斯估计q给定一个模型(先验和后验)和损失函数,就可以找到贝叶斯规则q若 ,则贝叶斯规则为后验均值q若 ,则贝叶斯规则为后验中值q若 为0-1损失,则贝叶斯规则为后验众数本讲稿第十页,共三十九页 MLE3-11最小最大规则q找最小最大规则,或者证明一个估计是最小最大估计是一件很困难的事情。但还是有一个简单的方法:有些贝叶斯估计(如风险为常数)是最小最大估计q令
4、对应先验 f 的贝叶斯估计:q假设q则 为最小最大估计,且f 称为最小受欢迎先验(least favorable prior)。q上述结论一个简单的结果有:如果一个贝叶斯规则的风险为常数 ,则它是最小最大估计。本讲稿第十一页,共三十九页 MLE3-12MLE为近似最小最大估计q对满足弱正则条件的参数模型,极大似然估计近似为最小最大估计。对均方误差损失,通常q根据Cramer-Rao 不等式,这是所有无偏估计的方差的下界。本讲稿第十二页,共三十九页 MLE3-13MLE为近似最小最大估计q因此对所有估计 ,有q对大数N,MLE为近似最小最大估计。q因此,对大多数参数模型,当有大量样本时,MLE近
5、似为最小最大估计和贝叶斯估计。mMany Normal Means 情况不成立(不是大样本)本讲稿第十三页,共三十九页 MLE3-14可接受性(Admissibility)q一个估计如果在所有值上都比其它估计的风险大,则该估计不是我们所希望的。如果存在一个其它的规则 ,使得q则该估计 是不可接受的。q否则,是可接受的。至少存在一个本讲稿第十四页,共三十九页 MLE3-15可接受性q可接受性是与其他表示估计好坏的方法有何关系?q在一些正则条件下,如果 为贝叶斯规则且有有限风险,则它是可接受的。q如果 的风险为常数且是可接受的,则它是最小最大估计。本讲稿第十五页,共三十九页 MLE3-16许多正态
6、均值(Many Normal Means)qMany Normal Means是一个原型问题,与一般的非参数回归或密度估计等价。对这个问题,以前许多关于极大似然估计的正面的结论都不再满足。q令 ,表示数据,表示未知参数,qc0,这里参数的数目与观测数据一样多本讲稿第十六页,共三十九页 MLE3-17Many Normal MeansqMLE为 ,损失函数为 MLE的风险为q最小最大估计的风险近似为 ,且存在这样一个估计 能达到该风险。也就是说,存在风险比MLE更小的估计,因此MLE是不可接受的。在实际应用中,风险的差值可能很重要。q因此对高维问题或非参数问题,MLE并不是最优估计。另外在非参数
7、场合,MLE的鲁棒性也不是很好。本讲稿第十七页,共三十九页 MLE3-18底线根据这些工具,怎样选择估计呢?q如果一个估计是不可接受的,则该估计一定是不好的。q如果你信仰贝叶斯观点,则你可以用贝叶斯规则q如果最小最大性满足应用要求,可以使用最小最大估计。本讲稿第十八页,共三十九页 MLE3-19模型选择q给定一个估计和风险函数,应该选择哪个模型/参数?本讲稿第十九页,共三十九页 MLE3-20“模型”q我们说的“模型”有时指的是模型类别 ,例如所有2个高斯的混合模型和所有3个高斯的混合模型。q有时也指在一个类别的模型中的一员,如参数的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参
8、数值。q在实际应用中,我们通常同时考虑上述两种情况,也就是说:本讲稿第二十页,共三十九页 MLE3-21训练与测试训练数据目标/类别学习模型测试数据应用模型本讲稿第二十一页,共三十九页 MLE3-22训练误差与测试误差q测试误差,亦称泛化误差(generalization error),是在与训练数据同分布的独立的测试样本上的期望预测误差:q训练误差是在训练样本上的平均损失:本讲稿第二十二页,共三十九页 MLE3-23训练误差与测试误差我们的目标:选择使测试误差最小 的模型M,称为模型选择。本讲稿第二十三页,共三十九页 MLE3-24训练误差与测试误差选择次优模型:过拟合/欠拟合本讲稿第二十四
9、页,共三十九页 MLE3-25训练误差与测试误差训练误差为预测风险的过小估计:本讲稿第二十五页,共三十九页 MLE3-26模型选择和模型评估q为了进行模型选择,我们只需知道不同模型的测试误差的相对值。渐近近似有时对比较不同模型的测试误差很有用。q通常对误差的真值没有很好的估计。当样本有限时,渐近近似通常还不能得到足够好的估计。这种情况下我们可以采用重采样(resampling)方法。q当然如过我们对测试误差有一种很好的方法来直接估计,我们可以用它来进行模型选择。本讲稿第二十六页,共三十九页 MLE3-27训练误差的乐观性q训练误差的乐观性定义为q也就是说,欠估计R(M)的量取决于 yi 影响其
10、预测的强度。我们越难拟合数据,乐观性越大。本讲稿第二十七页,共三十九页 MLE3-28训练误差的乐观性q通常我们有q因此,为了选择模型,我们可以m对 进行估计,或m以某种方式估计R(M)欠拟合程度+复杂性惩罚本讲稿第二十八页,共三十九页 MLE3-29估计乐观性q通过各种技巧(通常是渐近性)估计乐观性本讲稿第二十九页,共三十九页 MLE3-30Mallows Cp统计量q当取平方误差损失,误差模型为 ,其中误差 的均值为0,方差为q其中 为模型中参数的数目。本讲稿第三十页,共三十九页 MLE3-31Mallows Cp统计量q这样,可以用Mallows Cp统计来估计R(M)q其中 为从一个低
11、偏差(的复杂)估计的MSE获得。本讲稿第三十一页,共三十九页 MLE3-32AIC(Akaike Information Criterion)q假设采用log似然作为损失函数m实际上我们采用的是2l(M)q如果模型为 ,则当 时,q其中 为 的MLE,为训练数据上的似然值本讲稿第三十二页,共三十九页 MLE3-33AIC(Akaike Information Criterion)q这导出R(M)的一个估计:AIC(Akaike Information Criterion)q其中 为从一个低偏差(的复杂)估计的MSE获得。q这同Mallows Cp统计量相同,只是适用假设范围更宽(推广)q但是注
12、意:这并不是普遍满足,如0-1损失。本讲稿第三十三页,共三十九页 MLE3-34贝叶斯模型选择q假设我们有一个候选模型M,其参数空间为 ,后验为q为了比较两个模型M1和M2,可以计算两个模型的相对后验概率,称为后验几率(posterior odds):q 称为贝叶斯因子(Bayes factor),是数据对后验的贡献本讲稿第三十四页,共三十九页 MLE3-35BIC(Bayesian Information Criterion)q假设模型的先验是常量且参数的先验平滑,我们用Laplace近似来近似计算 的积分,再加上某些简化,得到q其中 ,为 的MLE。q这导出了另外一个模型选择计分的准则:贝
13、叶斯信息准则(Bayesian Information Criterion,BIC)本讲稿第三十五页,共三十九页 MLE3-36BIC(Bayesian Information Criterion)q当取平方误差损失,误差模型为 ,其中误差 的均值为0,方差为 ,有q得到qBIC(M),其中因子2被logN代替mAIC倾向于过拟合,而BIC倾向于欠拟合本讲稿第三十六页,共三十九页 MLE3-37BICqAIC不是一致的,而BIC是一致的,也就是说,选择最小BIC的模型等价于选择最大后验概率的模型(在渐近意义下)。事实上模型的后验概率为q不仅可以估计最好的模型,而且可以评估所考虑模型的相关指标。本讲稿第三十七页,共三十九页 MLE3-38最小描述长度MDLq最小描述长度MDL(minimum description length)采用与BIC完全相同的选择准则,但它源自数据压缩/最优编码qBIC与MDL都只适用于似然损失。本讲稿第三十八页,共三十九页 MLE3-39下节课内容qVC维与结构风险最小(Chp23)q重采样技术(Chp9)mBoostrapq模型组合(Chp23)mBaggingmBoosting本讲稿第三十九页,共三十九页
限制150内