一元非参数回归-优秀PPT.ppt
参数回来与非参数回来的优缺点比较:参数回来与非参数回来的优缺点比较:参数回来:参数回来:优点:优点:(1).(1).模型形式简洁明确,仅由一些参数表达模型形式简洁明确,仅由一些参数表达 (2).(2).在经济中,模型的参数具有一般都具有明确的经济含义在经济中,模型的参数具有一般都具有明确的经济含义 (3).(3).当模型参数假设成立,统计推断的精度较高,能经受实际当模型参数假设成立,统计推断的精度较高,能经受实际检验检验 (4).(4).模型能够进行外推运算模型能够进行外推运算 (5).(5).模型可以用于小样本的统计推断模型可以用于小样本的统计推断缺点:缺点:(1).(1).回来函数的形式预先假定回来函数的形式预先假定 (2).(2).模型限制较多:一般要求样本满足某种分布要求,随机误模型限制较多:一般要求样本满足某种分布要求,随机误差满足差满足 正态假设,说明变量间独立,说明变量与随机误差不相关,等正态假设,说明变量间独立,说明变量与随机误差不相关,等 (3)(3)须要对模型的参数进行严格的检验推断,步骤较多须要对模型的参数进行严格的检验推断,步骤较多 (4).(4).模型泛化实力弱,缺乏稳健性,当模型假设不成立,拟合模型泛化实力弱,缺乏稳健性,当模型假设不成立,拟合效果效果 不好,须要修正或者甚至更换模型不好,须要修正或者甚至更换模型非参数回来:非参数回来:优点:优点:(1)(1)回来函数形式自由,受约束少,对数据的分布一般回来函数形式自由,受约束少,对数据的分布一般不做任何要求不做任何要求 (2)(2)适应实力强,稳健性高,回来模型完全由数据驱动适应实力强,稳健性高,回来模型完全由数据驱动 (3)(3)模型的精度高模型的精度高;(4);(4)对于非线性、非齐次问题,有特对于非线性、非齐次问题,有特殊好的效果殊好的效果缺点:缺点:(1)(1)不能进行外推运算不能进行外推运算,(2),(2)估计的收敛速度慢估计的收敛速度慢 (3)(3)一般只有在大样本的状况下才能得到很好的效一般只有在大样本的状况下才能得到很好的效果,果,而小样本的效果较差而小样本的效果较差 (4)(4)高维诅咒高维诅咒,光滑参数的选取一般较困难光滑参数的选取一般较困难非参数回来方法样样条光滑条光滑正交回来正交回来核回来:核回来:N-WN-W估估计计、P-CP-C估估计计、G-MG-M估估计计(9.19.1)局部多局部多项项式回来:式回来:线线性、多性、多项项式(式(9.29.2)光滑光滑样样条:光滑条:光滑样样条、条、B B样样条条近近邻邻回来:回来:k-NNk-NN、k k近近邻邻核、核、对对称近称近邻邻(9.49.4)正交正交级级数光滑(数光滑(9.59.5)稳稳健回来:健回来:LOWESSLOWESS、L L光滑、光滑、R R光滑、光滑、M M光滑光滑 -(9.39.3)局局部部回回来来FourierFourier级级数光滑数光滑waveletwavelet光滑光滑处理高维的非参数方法:多元局部回来、薄片样条、处理高维的非参数方法:多元局部回来、薄片样条、可加模型、投影寻踪、可加模型、投影寻踪、回来树、张量积,等回来树、张量积,等3核函数核函数K K:函数:函数K(.)K(.)满足满足:常见的核函数:常见的核函数:Parzen Parzen 核:核:GaussianGaussian核:核:EpanechnikovEpanechnikov核:核:tricubetricube核:核:为示性函数为示性函数4回来模型:回来模型:(1)(1)模型为随机设计模型模型为随机设计模型,样本观测样本观测 (X i,Yi)iid(X i,Yi)iid(2)(2)模型为固定设计模型模型为固定设计模型Xi 为为R中中n个试验点列个试验点列,i=1,2,nYi为固定为固定Xi的的n次独立观测,次独立观测,i=1,2,nm(x)为为一未知函数,用一些方法来拟合为为一未知函数,用一些方法来拟合定义:线性光滑定义:线性光滑 (linear smoother)(linear smoother)5光滑参数的选取光滑参数的选取风险风险(均方误差均方误差)(mean squared error,MSE)(mean squared error,MSE)志向的状况是希望选择合适的光滑参数志向的状况是希望选择合适的光滑参数h h,使得通过样本数,使得通过样本数据拟合的回来曲线能够最好的靠近真实的回来曲线据拟合的回来曲线能够最好的靠近真实的回来曲线(即达到风险即达到风险最小最小),这里真实回来函数,这里真实回来函数m(x)m(x)一般是未知的。一般是未知的。可能会想到用平均残差平方和来估计风险可能会想到用平均残差平方和来估计风险R(h)R(h)但是这并不是一个好的估计,会导致过拟合(欠光滑),但是这并不是一个好的估计,会导致过拟合(欠光滑),缘由在于两次利用了数据,一次估计函数,一次估计风险。缘由在于两次利用了数据,一次估计函数,一次估计风险。我们选择的函数估计就是使得残差平方和达到最小,因此我们选择的函数估计就是使得残差平方和达到最小,因此它倾向于低估了风险。它倾向于低估了风险。是是 的估计,的估计,h是光滑参数,称为带宽或窗宽是光滑参数,称为带宽或窗宽6光滑参数光滑参数的选取的选取缺一交叉验证方法缺一交叉验证方法(leave-one-out cross validation,CV)(leave-one-out cross validation,CV)这里这里 是略去第是略去第i个数据点后得到的函数估计个数据点后得到的函数估计交叉验证的直观意义:交叉验证的直观意义:因此:因此:7光滑参数光滑参数的选取的选取定理:若定理:若 那么缺一交叉验证得分那么缺一交叉验证得分 能够写成:能够写成:这里这里 是光滑矩阵是光滑矩阵L的第的第i个对角线元素个对角线元素广义交叉验证广义交叉验证(generalized cross-validation,GCV)(generalized cross-validation,GCV)其中:其中:为有效自由度为有效自由度8光滑参数光滑参数的选取的选取其他标准其他标准(1)(1)干脆插入法干脆插入法(Direct Plug-In,DPI)(Direct Plug-In,DPI)相关文献可以参考:相关文献可以参考:Wolfgang Hrdle(1994),Applied Nonparametric Regression,Berlin Jeffrey D.Hart(1997),Nonparametric Smoothing and Lack-of-Fit Tests,Springer Series in Statistics 李竹渝、鲁万波、龚金国李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非,经济、金融计量学中的非参数估计技术,科学出版社,北京参数估计技术,科学出版社,北京 吴喜之译吴喜之译(2008),现代非参数统计,科学出版社,北京,现代非参数统计,科学出版社,北京 (2)(2)罚函数法罚函数法(penalizing function)(penalizing function)(3)(3)单边交叉验证单边交叉验证(One Sided Cross Validation(One Sided Cross Validation,OSCV)OSCV)(4)(4)拇指规则拇指规则(Rule Of Thumb)(Rule Of Thumb)99.1.9.1.核回来(核光滑)模型核回来(核光滑)模型N-WN-W估计是一种简洁的加权平均估计,可以写成线性光滑:估计是一种简洁的加权平均估计,可以写成线性光滑:局部回来局部回来由由Nadaraya(1964)Nadaraya(1964)和和 Watson(1964)Watson(1964)分别提出,分别提出,(1 1)N-WN-W估计估计形式:形式:其中:其中:,为核函数,为核函数,为带宽或窗宽为带宽或窗宽10局部回来局部回来(2)(2)G-MG-M估计估计由由Gasser and Mller(1979)Gasser and Mller(1979)提出,形式如下提出,形式如下:其中其中写成线性光滑的形式写成线性光滑的形式:11局部回来局部回来核估计存在边界效应,边界点的估计偏差较大核估计存在边界效应,边界点的估计偏差较大,以以N-WN-W估计为例,如下图估计为例,如下图12局部回来局部回来一般,核函数的选取并不是很重要,重要的是带宽的选取一般,核函数的选取并不是很重要,重要的是带宽的选取13局部回来局部回来一般,核函数的选取并不是很重要,重要的是带宽的选取一般,核函数的选取并不是很重要,重要的是带宽的选取14局部回来局部回来一般,核函数的选取并不是很重要,重要的是带宽的选取一般,核函数的选取并不是很重要,重要的是带宽的选取可以看到:拟合曲线的光滑度受到光滑参数可以看到:拟合曲线的光滑度受到光滑参数h h变更的影响变更的影响15局部回来局部回来核估计的渐近方差核渐近偏差核估计的渐近方差核渐近偏差核估计渐近偏差渐近方差N-W估计G-M估计其中,其中,h h为光滑参数,为光滑参数,f f为为X X的密度函数,且的密度函数,且16局部回来局部回来 9.2.9.2.局部多项式回来局部多项式回来多项式的回来模型多项式的回来模型其中其中 可由最小二乘法估计可由最小二乘法估计,即即 局部多项式回来:对局部多项式回来:对m(x)m(x)在在u u处进行处进行p p阶泰勒绽开,略去阶泰勒绽开,略去p p阶阶高阶无穷小量,得到高阶无穷小量,得到m(x)m(x)在在u u处的一个处的一个p p阶多项式近似,即阶多项式近似,即此时,此时,x x应当靠近应当靠近u u,且,且17局部回来局部回来通过最小二乘来估计系数通过最小二乘来估计系数留意:是在留意:是在x x的一个邻域内进行多项式估计,因此,最小二乘应的一个邻域内进行多项式估计,因此,最小二乘应当与当与x x的邻域有关的邻域有关局部加权平方和:局部加权平方和:使上述问题最小化,可以得到系数的局部多项式的最小二乘估计使上述问题最小化,可以得到系数的局部多项式的最小二乘估计可以很简洁得到,取可以很简洁得到,取p=0p=0时为局部常数估计,即时为局部常数估计,即N-WN-W核估计核估计取取p=1p=1,为局部线性估计,为局部线性估计18局部回来局部回来写成矩阵形式:写成矩阵形式:使上式最小化,可以得到系数的估计使上式最小化,可以得到系数的估计其中其中19局部回来局部回来得到加权最小二乘估计得到加权最小二乘估计当当p=1p=1时(局部线性估计)的渐近偏差和渐近方差时(局部线性估计)的渐近偏差和渐近方差其中其中可以看到局部线性回来的渐近方差和可以看到局部线性回来的渐近方差和N-WN-W估计相同,估计相同,而渐近偏差却比而渐近偏差却比N-WN-W回来小,说明局部线性多项式回来小,说明局部线性多项式可以削减边界效应,局部线性估计由于可以削减边界效应,局部线性估计由于N-WN-W估计估计20局部回来局部回来局部多项式光滑可以很好的削减边界效应局部多项式光滑可以很好的削减边界效应21局部回来局部回来检验函数检验函数(Doppler(Doppler函数函数)22局部回来局部回来运用运用GCVGCV选取最优带宽选取最优带宽h=0.017h=0.017,权函数为,权函数为tricubetricube核函数核函数23局部回来局部回来运用运用GCVGCV选取最优带宽选取最优带宽h=0.017h=0.017,权函数为,权函数为tricubetricube核函数核函数24局部回来局部回来9.4.9.4.近邻光滑近邻光滑(1)k-NN(1)k-NN回来回来(k-nearest neighbor regression)(k-nearest neighbor regression)其中其中 =i:xi是离是离x最近的最近的k个观测值之一个观测值之一 K-NNK-NN估计的渐近偏差和渐近方差:估计的渐近偏差和渐近方差:对于随机设计模型,近邻估计写成线性光滑器的形式对于随机设计模型,近邻估计写成线性光滑器的形式权函数:权函数:25局部回来局部回来(1)k-NN(1)k-NN回来回来(k-nearest neighbor regression)(k-nearest neighbor regression)26局部回来局部回来(1)k-NN(1)k-NN回来回来(k-nearest neighbor regression)(k-nearest neighbor regression)27局部回来局部回来(2)k-(2)k-近邻核回来近邻核回来K K近邻核估计的权重近邻核估计的权重其中其中R为为xi 中中离离x最近的第最近的第k k个距离,个距离,K K为核函数为核函数渐近偏差和渐近方差:渐近偏差和渐近方差:28局部回来局部回来(2)k-(2)k-近邻核回来近邻核回来29局部回来局部回来(2)k-(2)k-近邻核回来近邻核回来30局部回来局部回来9.3.9.3.稳健光滑稳健光滑(1)(1)局部加权描点光滑局部加权描点光滑(Locally Weighted Scatter plot Smoothing,LOWESS)(Locally Weighted Scatter plot Smoothing,LOWESS)Step1Step1:在在x x的邻域内,用一个多项式进行拟合,求出系数的邻域内,用一个多项式进行拟合,求出系数 j 其中其中w wi(x,k)为为k-NN权权Step2:Step2:依据残差依据残差 计算尺度估计计算尺度估计 ,定义稳健权重定义稳健权重Step3Step3:用新的权重用新的权重 重复重复Step1Step1、Step2Step2,直到第,直到第N N次结束次结束31(1)(1)局部加权描点光滑局部加权描点光滑(LOWESS)(LOWESS)局部回来局部回来32(1)(1)局部加权描点光滑局部加权描点光滑(LOWESS)(LOWESS)局部回来局部回来33