《【教学课件】第五章自变量的选择.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第五章自变量的选择.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章 自变量的选择 5.1 引言 在实际问题中可以提出许多可能对因变量有影响的自变量,如在实际问题中可以提出许多可能对因变量有影响的自变量,如何从中选择确实有影响的自变量来建立回归方程是一个十分重何从中选择确实有影响的自变量来建立回归方程是一个十分重要的问题。如果方程中包含的自变量过多,那么不仅使用不便,要的问题。如果方程中包含的自变量过多,那么不仅使用不便,还可能削弱估计和预测的精度,而自变量过少或选得不恰当,还可能削弱估计和预测的精度,而自变量过少或选得不恰当,又会使所建立的模型与实际有偏离而不能使用。然而,自变量又会使所建立的模型与实际有偏离而不能使用。然而,自变量的选择又是一个十分复
2、杂的问题,而涉及的计算量都很大,本的选择又是一个十分复杂的问题,而涉及的计算量都很大,本章的目的是对自变量选择作一些理论分析,提出一些变量选择章的目的是对自变量选择作一些理论分析,提出一些变量选择准则,并介绍有关的计算方法。准则,并介绍有关的计算方法。5.2 自变量选择的后果 自变量的选择问题可以看成是这样二个问题:究竟应用全模型还是用选模型;究竟应用全模型还是用选模型;若用选模型,则究竟应包含多少变量最适合。如果全模型若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型
3、为真,而我们选用了全模型,有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。和预测两个角度来看一看由于模型选择不当带来的后果。5.3 自变量选择准则自变量选择准则5.6 逐步回归的思想当可供选择的自变量太多时,当然可用前面所述的自变量当可供选择的自变量太多时,当然可用前面所述的自变量选择的准则去选择好的方程,但很复杂,因此很不实用。选择的准则去选择好的方程,但很复杂,因此很不实用。为此需要找一些简便的方法找到较好的方程。为此需要找一些简便的方法
4、找到较好的方程。SAS中实现自变量的选择选项2slentry=value;对forward和stepwise方法规定变量选入回归模型里的显著性水平。对forward方法缺省值是0.50,对stepwise是0.15.slstay=value;对backward和stepwise方法规定变量保留在模型里的显著性水平。对backward方法缺省值是0.10,对stepwise是0.15.仅用于selection=adjrsq或cp的任选项mse:平均残差平方和aic:AIC信息量bic:BIC信息量jp:预测偏差的方差sp:平均预测均方误差PRESS方法可在selection=forward,ba
5、ckward,stepwise时在outest数据库中输出。例如:proc reg data=outest=新数据集 press;model y=x1-x4/selection=stepwise;run;例子5.1(pp.124)data page124;input x1-x4 y;cards;7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4;proc reg;model y=x1 x2 x3 x4/selection=stepwise;run;AIC准则proc reg;model y=x1 x2 x3 x4/selection=cp aic;run;JP统计量准则proc reg;model y=x1 x2 x3 x4/selection=cp jp;run;
限制150内