《非参数回归的介绍精选PPT.ppt》由会员分享,可在线阅读,更多相关《非参数回归的介绍精选PPT.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、非参数回归的介绍第1页,此课件共61页哦参数回归与非参数回归的优缺点比较:参数回归与非参数回归的优缺点比较:参数回归:参数回归:非参数回归:非参数回归:优点:优点:(1).(1).模型形式简单明确,仅由一些参数表达模型形式简单明确,仅由一些参数表达 (2).(2).在经济中,模型的参数具有一般都具有明确的经济含义在经济中,模型的参数具有一般都具有明确的经济含义 (3).(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验当模型参数假设成立,统计推断的精度较高,能经受实际检验 (4).(4).模型能够进行外推运算模型能够进行外推运算 (5).(5).模型可以用于小样本的统计推断模型可以
2、用于小样本的统计推断缺点:缺点:(1).(1).回归函数的形式预先假定回归函数的形式预先假定 (2).(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足模型限制较多:一般要求样本满足某种分布要求,随机误差满足 正态假设,解释变量间独立,解释变量与随机误差不相关,等正态假设,解释变量间独立,解释变量与随机误差不相关,等 (3)(3)需要对模型的参数进行严格的检验推断,步骤较多需要对模型的参数进行严格的检验推断,步骤较多 (4).(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果 不好,需要修正或者甚至更换模型不好,需
3、要修正或者甚至更换模型优点;优点;(1)(1)回归函数形式自由,受约束少,对数据的分布一般不做任何要求回归函数形式自由,受约束少,对数据的分布一般不做任何要求 (2)(2)适应能力强,稳健性高,回归模型完全由数据驱动适应能力强,稳健性高,回归模型完全由数据驱动 (3)(3)模型的精度高模型的精度高 ;(4);(4)对于非线性、非齐次问题,有非常好的效果对于非线性、非齐次问题,有非常好的效果缺点缺点:(1)(1)不能进行外推运算不能进行外推运算,(2),(2)估计的收敛速度慢估计的收敛速度慢 (3)(3)一般只有在大样本的情况下才能得到很好的效果,一般只有在大样本的情况下才能得到很好的效果,而小
4、样本的效果较差而小样本的效果较差 (4)(4)高维诅咒高维诅咒,光滑参数的选取一般较复杂光滑参数的选取一般较复杂2第2页,此课件共61页哦非参数回归方法样条光滑样条光滑正交回归正交回归核回归:核回归:N-WN-W估计、估计、P-CP-C估计、估计、G-MG-M估计估计局部多项式回归:线性、多项式局部多项式回归:线性、多项式 光滑样条:光滑样条、光滑样条:光滑样条、B B样条样条近邻回归:近邻回归:k-NNk-NN、k k近邻核、对称近邻近邻核、对称近邻正交级数光滑正交级数光滑稳健回归:稳健回归:LOWESSLOWESS、L L光滑、光滑、R R光滑、光滑、M M光滑光滑局局部部回回归归Four
5、ierFourier级数光滑级数光滑waveletwavelet光滑光滑处理高维的非参数方法:多元局部回归、薄片样条、处理高维的非参数方法:多元局部回归、薄片样条、可加模型、投影寻踪、可加模型、投影寻踪、回归树、张量积,等回归树、张量积,等3第3页,此课件共61页哦核函数核函数K K:函数:函数K(.)K(.)满足满足:常见的核函数:常见的核函数:BoxcarBoxcar核:核:GaussianGaussian核:核:EpanechnikovEpanechnikov核:核:tricubetricube核:核:为示性函数为示性函数4第4页,此课件共61页哦回归模型:回归模型:(1)(1)模型为随
6、机设计模型模型为随机设计模型,样本观测样本观测 (X i,Yi)iid(X i,Yi)iid(2)(2)模型为固定设计模型模型为固定设计模型Xi 为为R中中n个试验点列个试验点列,i=1,2,nYi为固定为固定Xi的的n次独立观测,次独立观测,i=1,2,nm(x)为为一未知函数,用一些方法来拟合为为一未知函数,用一些方法来拟合定义:线性光滑器定义:线性光滑器(linear smoother)(linear smoother)5第5页,此课件共61页哦光滑参数的选取光滑参数的选取风险风险(均方误差均方误差)(mean squared error,MSE)(mean squared error,
7、MSE)理想的情况是希望选择合适的光滑参数理想的情况是希望选择合适的光滑参数h,使得通过样本数据拟合的回归,使得通过样本数据拟合的回归曲线能够最好的逼近真实的回归曲线曲线能够最好的逼近真实的回归曲线(即达到风险最小即达到风险最小),这里真实回归函数,这里真实回归函数m(x)一般一般是未知的。是未知的。可能会想到用平均残差平方和来估计风险可能会想到用平均残差平方和来估计风险R(h)但是这并不是一个好的估计,会导致过拟合(欠光滑),原因在于但是这并不是一个好的估计,会导致过拟合(欠光滑),原因在于两次利用了数据,一次估计函数,一次估计风险。我们选择的函数两次利用了数据,一次估计函数,一次估计风险。
8、我们选择的函数估计就是使得残差平方和达到最小,因此它倾向于低估了风险。估计就是使得残差平方和达到最小,因此它倾向于低估了风险。是是 的估计,的估计,h是光滑参数,称为带宽或窗宽是光滑参数,称为带宽或窗宽6第6页,此课件共61页哦光滑参数光滑参数的选取的选取缺一交叉验证方法缺一交叉验证方法(leave-one-out cross validation,CV)(leave-one-out cross validation,CV)这里这里 是略去第是略去第i个数据点后得到的函数估计个数据点后得到的函数估计交叉验证的直观意义:交叉验证的直观意义:因此:因此:7第7页,此课件共61页哦光滑参数光滑参数的
9、选取的选取定理:若定理:若 那么缺一交叉验证得分那么缺一交叉验证得分 能够写成:能够写成:这里这里 是光滑矩阵是光滑矩阵L的第的第i个对角线元素个对角线元素广义交叉验证广义交叉验证(generalized cross-validation,GCV)(generalized cross-validation,GCV)其中:其中:为有效自由度为有效自由度8第8页,此课件共61页哦光滑参数光滑参数的选取的选取其他标准其他标准(1)(1)直接插入法直接插入法(Direct Plug-In,DPI)(Direct Plug-In,DPI)相关文献可以参考:相关文献可以参考:Wolfgang Hrdle(
10、1994),Applied Nonparametric Regression,Berlin Jeffrey D.Hart(1997),Nonparametric Smoothing and Lack-of-Fit Tests,Springer Series in Statistics 李竹渝、鲁万波、龚金国李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非参数估计,经济、金融计量学中的非参数估计技术,科学出版社,北京技术,科学出版社,北京 吴喜之译吴喜之译(2008),现代非参数统计,科学出版社,北京,现代非参数统计,科学出版社,北京 (2)(2)罚函数法罚函数法(penalizing
11、 function)(penalizing function)(3)(3)单边交叉验证单边交叉验证(One Sided Cross Validation(One Sided Cross Validation,OSCV)OSCV)(4)(4)拇指规则拇指规则(Rule Of Thumb)(Rule Of Thumb)9第9页,此课件共61页哦1.1.核回归(核光滑)核回归(核光滑)N-WN-W估计是一种简单的加权平均估计,可以写成线性光滑器:估计是一种简单的加权平均估计,可以写成线性光滑器:局部回归局部回归由由Nadaraya(1964)Nadaraya(1964)和和 Watson(1964)
12、Watson(1964)分别提出,分别提出,(1 1)N-WN-W估计估计形式:形式:其中:其中:,为核函数,为核函数,为带宽或窗宽为带宽或窗宽10第10页,此课件共61页哦局部回归局部回归(2 2)P-C-P-C-估计估计由由PriestleyPriestley and Chao(1972)and Chao(1972)提出,形式:提出,形式:写成线性光滑器的形式:写成线性光滑器的形式:在随机设计模型下,在随机设计模型下,P-CP-C估计可由估计可由x x的密度估计:的密度估计:推导出来,相关文献可参考推导出来,相关文献可参考h hrdle(1994)rdle(1994)和李竹和李竹渝等渝等(
13、2007)(2007)11第11页,此课件共61页哦局部回归局部回归(3)(3)G-MG-M估计估计由由Gasser and Mller(1979)Gasser and Mller(1979)提出,形式如下提出,形式如下:其中其中写成线性光滑器的形式写成线性光滑器的形式:G-MG-M估计是卷积形式的估计,估计是卷积形式的估计,P-CP-C估计可看成估计可看成G-MG-M估计的近似估计的近似:当当K K连续连续12第12页,此课件共61页哦局部回归局部回归核估计存在边界效应,边界点的估计偏差较大核估计存在边界效应,边界点的估计偏差较大,以以N-WN-W估计为例,如下图估计为例,如下图13第13页
14、,此课件共61页哦局部回归局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取一般,核函数的选取并不是很重要,重要的是带宽的选取14第14页,此课件共61页哦局部回归局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取一般,核函数的选取并不是很重要,重要的是带宽的选取15第15页,此课件共61页哦局部回归局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取一般,核函数的选取并不是很重要,重要的是带宽的选取可以看到:拟合曲线的光滑度受到光滑参数可以看到:拟合曲线的光滑度受到光滑参数h h变化的影响变化的影响16第16页,此课件共61页哦局部回归局部回归核估计的渐近方差核渐近偏差
15、核估计的渐近方差核渐近偏差核估计渐近偏差渐近方差N-W估计G-M估计其中,其中,h h为光滑参数,为光滑参数,f f为为X X的密度函数,且的密度函数,且17第17页,此课件共61页哦局部回归局部回归 2.2.局部多项式光滑局部多项式光滑多项式的回归模型多项式的回归模型其中其中 可由最小二乘法估计可由最小二乘法估计,即即 局部多项式回归:对局部多项式回归:对m(x)m(x)在在u u处进行处进行p p阶泰勒展开,略去阶泰勒展开,略去p p阶高阶无穷阶高阶无穷小量,得到小量,得到m(x)m(x)在在u u处的一个处的一个p p阶多项式近似,即阶多项式近似,即此时,此时,x x应该靠近应该靠近u
16、u,且,且18第18页,此课件共61页哦局部回归局部回归通过最小二乘来估计系数通过最小二乘来估计系数注意:是在注意:是在x x的一个邻域内进行多项式估计,因此,最小二乘应该与的一个邻域内进行多项式估计,因此,最小二乘应该与x x的邻域有关的邻域有关局部加权平方和:局部加权平方和:使上述问题最小化,可以得到系数的局部多项式的最小二乘估计使上述问题最小化,可以得到系数的局部多项式的最小二乘估计可以很容易得到,取可以很容易得到,取p=0p=0时为局部常数估计,即时为局部常数估计,即N-WN-W核估计核估计取取p=1p=1,为局部线性估计,为局部线性估计19第19页,此课件共61页哦局部回归局部回归写
17、成矩阵形式:写成矩阵形式:使上式最小化,可以得到系数的估计使上式最小化,可以得到系数的估计其中其中20第20页,此课件共61页哦局部回归局部回归得到加权最小二乘估计得到加权最小二乘估计当当p=1p=1时(局部线性估计)的渐近偏差和渐近方差时(局部线性估计)的渐近偏差和渐近方差其中其中可以看到局部线性回归的渐近方差和可以看到局部线性回归的渐近方差和N-WN-W估计相同,估计相同,而渐近偏差却比而渐近偏差却比N-WN-W回归小,说明局部线性多项式可以回归小,说明局部线性多项式可以减少边界效应,局部线性估计由于减少边界效应,局部线性估计由于N-WN-W估计估计21第21页,此课件共61页哦局部回归局
18、部回归局部多项式光滑可以很好的减少边界效应局部多项式光滑可以很好的减少边界效应22第22页,此课件共61页哦局部回归局部回归检验函数检验函数(Doppler(Doppler函数函数)23第23页,此课件共61页哦局部回归局部回归使用使用GCVGCV选取最优带宽选取最优带宽h=0.017h=0.017,权函数为,权函数为tricubetricube核函数核函数24第24页,此课件共61页哦局部回归局部回归使用使用GCVGCV选取最优带宽选取最优带宽h=0.017h=0.017,权函数为权函数为tricubetricube核函数核函数25第25页,此课件共61页哦局部回归局部回归3.3.近邻光滑近
19、邻光滑(1)(1)k-NNk-NN回归回归(k-nearest neighbor regression)(k-nearest neighbor regression)其中其中 =i:xi是离是离x最近的最近的k个观测值之一个观测值之一 K-NNK-NN估计的渐近偏差和渐近方差:估计的渐近偏差和渐近方差:对于随机设计模型,近邻估计写成线性光滑器的形式对于随机设计模型,近邻估计写成线性光滑器的形式权函数:权函数:26第26页,此课件共61页哦局部回归局部回归(1)(1)k-NNk-NN回归回归(k-nearest neighbor regression)(k-nearest neighbor re
20、gression)27第27页,此课件共61页哦局部回归局部回归(1)(1)k-NNk-NN回归回归(k-nearest neighbor regression)(k-nearest neighbor regression)28第28页,此课件共61页哦局部回归局部回归(2)(2)k-k-近邻核回归近邻核回归K K近邻核估计的权重近邻核估计的权重其中其中R为为xi 中中离离x最近的第最近的第k k个距离,个距离,K K为核函数为核函数渐近偏差和渐近方差:渐近偏差和渐近方差:29第29页,此课件共61页哦局部回归局部回归(2)(2)k-k-近邻核回归近邻核回归30第30页,此课件共61页哦局部回
21、归局部回归(2)(2)k-k-近邻核回归近邻核回归31第31页,此课件共61页哦局部回归局部回归(3)(3)对称化近邻回归对称化近邻回归(Symmetrized Nearest Neighbor Estimate)(Symmetrized Nearest Neighbor Estimate)Yang(1981)Yang(1981),Stute(1984)Stute(1984)研究了这种估计研究了这种估计其中权重其中权重写成线性光滑器写成线性光滑器这里的这里的k(h)相当于相当于nh,可以看出实质上相当于可以看出实质上相当于nh个个Yi值加权平均值加权平均32第32页,此课件共61页哦局部回归局
22、部回归4.4.稳健光滑稳健光滑(1)(1)局部加权描点光滑局部加权描点光滑(Locally Weighted Scatter plot Smoothing,LOWESS)(Locally Weighted Scatter plot Smoothing,LOWESS)Step1Step1:在在x x的邻域内,用一个多项式进行拟合,求出系数的邻域内,用一个多项式进行拟合,求出系数 j 其中其中Wki(x)为为k-NN权权Step2Step2:根据残差根据残差 计算尺度估计计算尺度估计 ,定义稳健权重定义稳健权重Step3Step3:用新的权重用新的权重 重复重复Step1Step1、Step2St
23、ep2,直到第,直到第N N次结束次结束33第33页,此课件共61页哦(1)(1)局部加权描点光滑局部加权描点光滑(LOWESS)(LOWESS)局部回归局部回归34第34页,此课件共61页哦(1)(1)局部加权描点光滑局部加权描点光滑(LOWESS)(LOWESS)局部回归局部回归35第35页,此课件共61页哦局部回归局部回归(2)(2)L-光滑光滑条件条件L函数函数其中其中为为条件分位数函数条件分位数函数特别:特别:a)a)当当 时时b)b)当当 时,为中位数光滑时,为中位数光滑其中其中 =i:xi是离是离x最近的最近的k个观测值之一个观测值之一 36第36页,此课件共61页哦局部回归局部
24、回归(2)(2)L-光滑光滑对于条件对于条件L函数函数其中用其中用 来估计来估计F(y|x)得到得到L-估计估计37第37页,此课件共61页哦局部回归局部回归(3)(3)M-光滑光滑(局部局部)最小二乘方法得到的光滑估计最小二乘方法得到的光滑估计是通过考虑损失函数为二次函数得到的,现在考虑损失是通过考虑损失函数为二次函数得到的,现在考虑损失函数函数c c较大时,为普通的二次损失函数,较大时,为普通的二次损失函数,c c较小较小(1(1倍或倍或2 2倍观测误差的标倍观测误差的标准差准差)可以获得更多的稳健性可以获得更多的稳健性38第38页,此课件共61页哦局部回归局部回归M-M-样条样条(Cox
25、,1983)(Cox,1983)核核M-M-光滑光滑(kernel M-smoother)(kernel M-smoother)(Hubber,1979;Silverman,1985)(Hubber,1979;Silverman,1985)39第39页,此课件共61页哦局部回归局部回归(3)R-(3)R-光滑光滑定义得分函数定义得分函数其中其中J是定义在是定义在(0,1)上的非减函数,满足上的非减函数,满足J(1-s)=J(s)用用 来估计来估计F(y|x),则则 应该应该粗略地接近粗略地接近0对于对于 ,则,则Cheng and Cheng(1986)Cheng and Cheng(1986
26、)提出的提出的R-R-估计:估计:40第40页,此课件共61页哦样条回归样条回归设设m(x)m(x)在在a,ba,b连续可微,且二阶导数平方可积连续可微,且二阶导数平方可积考查形式考查形式其中其中 为粗糙惩罚为粗糙惩罚1.1.光滑光滑样条样条41第41页,此课件共61页哦样条回归样条回归定义一组样条基函数:定义一组样条基函数:注意,这里样条基函数可以是其他样条基注意,这里样条基函数可以是其他样条基 如如:B:B样条基样条基(吴喜之译吴喜之译(2008)(2008)样条样条42第42页,此课件共61页哦样条回归样条回归将前面的优化问题写成矩阵形式:将前面的优化问题写成矩阵形式:其中其中 上述问题
27、的最优解上述问题的最优解其中其中43第43页,此课件共61页哦样条回归样条回归下面的图利用的是下面的图利用的是B B样条基函数,样条基函数,44第44页,此课件共61页哦样条回归样条回归下面的图利用的是下面的图利用的是B B样条基函数,样条基函数,45第45页,此课件共61页哦样条回归样条回归下面的图利用的是下面的图利用的是B B样条基函数,样条基函数,46第46页,此课件共61页哦正交光滑正交光滑1.1.正交多项式回归正交多项式回归回回归归函数函数其中其中 是正交基函数,如是正交基函数,如Laguerre,Legendre正交多项式正交多项式正交基正交基满满足足系数系数系数估系数估计计如如4
28、7第47页,此课件共61页哦正交光滑正交光滑回归函数估计回归函数估计写成线性光滑器:写成线性光滑器:48第48页,此课件共61页哦LegendreLegendre正交多正交多项项式式正交光滑正交光滑49第49页,此课件共61页哦正交光滑正交光滑2.Fourier 2.Fourier 级数光滑级数光滑在实际中,将无穷用有限值在实际中,将无穷用有限值r r替换,替换,r r称为截断点,相当于光滑参数称为截断点,相当于光滑参数是正交是正交cosinecosine基空间基空间系数系数系数系数 的估计的估计其中其中50第50页,此课件共61页哦正交光滑正交光滑m(x)m(x)的估计的估计将将 代入,得代
29、入,得其中其中可以看到上面的估计与可以看到上面的估计与G-MG-M估计有相同的表达形式,估计有相同的表达形式,都为卷积形式,只是核函数不相同都为卷积形式,只是核函数不相同51第51页,此课件共61页哦正交光滑正交光滑另外一种的另外一种的FourierFourier估计估计一般要求:一般要求:同样可以写成卷积形式:同样可以写成卷积形式:其中其中关于权函数选取可以是满足前面条件任意的权函数关于权函数选取可以是满足前面条件任意的权函数52第52页,此课件共61页哦正交光滑正交光滑常见的权函数常见的权函数.Fejr权:权:Rogosinski权:权:特征权特征权:若令若令n-1=r,n-1=r,则则K
30、是是K的特征函数,的特征函数,K是关于原点对称的连续概是关于原点对称的连续概率密度函数率密度函数53第53页,此课件共61页哦正交光滑正交光滑3.3.小波回归小波回归(wavelet regression)(wavelet regression)具有空间适应性,是一种适应性估计,一般对信噪比很大的具有空间适应性,是一种适应性估计,一般对信噪比很大的数据可以很好的拟合数据可以很好的拟合其中其中在实际中,可以这样近似:在实际中,可以这样近似:其中:其中:54第54页,此课件共61页哦正交光滑正交光滑小波基函数:小波基函数:HaarHaar父小波父小波母母HaarHaar小波小波55第55页,此课件
31、共61页哦正交光滑正交光滑函数集函数集 是是 上的正交基上的正交基父小波:父小波:水平水平1 1:水平水平2 2:水平水平3 3:水平水平4 4:56第56页,此课件共61页哦正交光滑正交光滑通过小波基函数可以发现大多数通过小波基函数可以发现大多数 因此可以略去,但需要识别因此可以略去,但需要识别.对于:对于:回归函数估计的步骤回归函数估计的步骤:(1)(1)估计系数估计系数:(2)(2)收缩收缩:(3)(3)重新构造重新构造:57第57页,此课件共61页哦正交光滑正交光滑常用的收缩方法:软阈与硬阈常用的收缩方法:软阈与硬阈软阈软阈(soft threshold):(soft threshold):硬阈硬阈(hard threshold):(hard threshold):其中阈值的确定其中阈值的确定58第58页,此课件共61页哦正交光滑正交光滑59第59页,此课件共61页哦正交光滑正交光滑60第60页,此课件共61页哦正交光滑正交光滑61第61页,此课件共61页哦
限制150内