回归分析方法(共16页).doc
《回归分析方法(共16页).doc》由会员分享,可在线阅读,更多相关《回归分析方法(共16页).doc(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上第八章 回归分析方法当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法建立数学模型。如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是搜集大量数据,基于对数据的统计分析去建立模型。本章讨论其中用途非常广泛的一类模型统计回归模型。回归模型常用来解决预测、控制、生产工艺优化等问题。 变量之间的关系可以分为两类:一类叫确定性关系,也叫函数关系,其特征是:一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。例如,通常人的
2、年龄越大血压越高,但人的年龄和血压之间没有确定的数量关系,人的年龄和血压之间的关系就是相关关系。回归分析就是处理变量之间的相关关系的一种数学方法。其解决问题的大致方法、步骤如下: (1)收集一组包含因变量和自变量的数据; (2)选定因变量和自变量之间的模型,即一个数学式子,利用数据按照最小二乘准则计算模型中的系数; (3)利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型; (4)判断得到的模型是否适合于这组数据; (5)利用模型对因变量作出预测或解释。应用统计分析特别是多元统计分析方法一般都要处理大量数据,工作量非常大,所以在计算机普及以前,这些方法大都是停留在理论研究上。运用
3、一般计算语言编程也要占用大量时间,而对于经济管理及社会学等对高级编程语言了解不深的人来说要应用这些统计方法更是不可能。MATLAB等软件的开发和普及大大减少了对计算机编程的要求,使数据分析方法的广泛应用成为可能。MATLAB统计工具箱几乎包括了数理统计方面主要的概念、理论、方法和算法。运用MATLAB统计工具箱,我们可以十分方便地在计算机上进行计算,从而进一步加深理解,同时,其强大的图形功能使得概念、过程和结果可以直观地展现在我们面前。本章内容通常先介绍有关回归分析的数学原理,主要说明建模过程中要做的工作及理由,如模型的假设检验、参数估计等,为了把主要精力集中在应用上,我们略去详细而繁杂的理论
4、。在此基础上再介绍在建模过程中如何有效地使用MATLAB软件。没有学过这部分数学知识的读者可以不深究其数学原理,只要知道回归分析的目的,按照相应方法通过软件显示的图形或计算所得结果表示什么意思,那么,仍然可以学到用回归模型解决实际问题的基本方法。包括:一元线性回归、多元线性回归、非线性回归、逐步回归等方法以及如何利用MATLAB软件建立初步的数学模型,如何透过输出结果对模型进行分析和改进,回归模型的应用等。8.1 一元线性回归分析回归模型可分为线性回归模型和非线性回归模型。非线性回归模型是回归函数关于未知参数具有非线性结构的回归模型。某些非线性回归模型可以化为线性回归模型处理;如果知道函数形式
5、只是要确定其中的参数则是拟合问题,可以使用MATLAB软件的curvefit命令或nlinfit命令拟合得到参数的估计并进行统计分析。本节主要考察线性回归模型。 8.1.1 一元线性回归模型的建立及其MATLAB实现 其中是待定系数,对于不同的是相互独立的随机变量。假设对于的n个值,得到的n个相应的值,确定的方法是根据最小二乘准则,要使取最小值。利用极值必要条件令,求的估计值,从而得到回归直线。只不过这个过程可以由软件通过直线拟合完成,而无须进行繁杂的运算。(1)参数的区间估计由于我们所计算出的仍然是随机变量,因此要对取值的区间进行估计,如果区间估计值是一个较短的区间表示模型精度较高。(2)对
6、误差方差的估计设为回归函数的值,为测量值,残差平方和剩余方差(3)线性相关性的检验由于我们采用的是一元线性回归,因此,如果模型可用的话,应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R的值及F值观察(后面的例子说明)。(4)一元线性回归的MATLAB实现 MATLAB工具箱中用命令regress实现,其用法是: b=regress(y,x) b ,bint , r ,rint , s=regress(y , x , alpha)输入y(因变量,列向量)、x(1与自变量组成的矩阵,见下例),alpha是显著性水平(缺省时默认0.05)。输出,注意:b中元素顺序与拟合命令pol
7、yfit的输出不同,bint是的置信区间,r是残差(列向量),rint是残差的置信区间,s包含4个统计量:决定系数(相关系数为R);F值;F(1,n-2)分布大于F值的概率p;剩余方差的值(MATLAB7.0以后版本)。也可由程序sum(r.2)/(n-2)计算。其意义和用法如下:的值越接近1,变量的线性相关性越强,说明模型有效;如果满足,则认为变量与显著地有线性关系,其中的值可查F分布表,或直接用MATLAB命令finv(1-,1, n-2)计算得到;如果表示线性模型可用。这三个值可以相互印证。的值主要用来比较模型是否有改进,其值越小说明模型精度越高。8.1.2身高与腿长例1 测得16名成年
8、女子身高与腿长所得数据如下: 表8-1 16名女子身高(cm)腿长(cm)数据88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164 首先利用命令plot(x,y,r*)画出散点图,从图形可以看出,这些点大致分布在一条直线的左右,因此,可以考虑一元线性回归。可编制程序如下:y=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164;x=88 85 88 9
9、1 92 93 93 95 96 98 97 96 98 99 100 102;n=16;X=ones(n,1),x;b,bint,r,rint,s=regress(y,X,0.05);b,bint,s,rcoplot(r,rint)运行后得到b = 31.7713 1.2903bint = 12.3196 51.2229 1.0846 1.4960 s = 0.9282 180.9531 0.0000 3.1277=0.9282,由finv(0.95,1,14)= 4.6001,即= 4.6001F=180.9531,p0.0001,可以通过残差图发现,第二个数据为奇异数据,去掉该数据后运行
10、后得到b = 17.6549 1.4363bint = -0.5986 35.9083 1.2445 1.6281 s = 0.9527 261.6389 0.0000 1.9313=0.9527,由finv(0.95,1,13)= 4.6672,即= 4.6672F=261.6389,pm)得n组观察值,采用最小二乘估计求得回归方程.建立回归模型是一个相当复杂的过程,概括起来主要有以下几个方面工作(1)根据研究目的收集数据和预分析;(2)根据散点图是否具有线性关系建立基本回归模型;(3)模型的精细分析;(4)模型的确认与应用等。收集数据的一个经验准则是收集的数据量(样本容量)至少应为可能的自
11、变量数目的610倍。在建模过程中首先要根据所研究问题的目的设置因变量,然后再选取与该因变量有统计关系的一些变量作为自变量。我们当然希望选择与问题关系密切的变量,同时这些变量之间相关性不太强,这可以在得到初步的模型后利用MATLAB软件进行相关性检验。下面通过一个案例探讨MATLAB软件在回归分析建模各个环节中如何应用。多元线性回归的MATLAB实现 仍然用命令regress(y , X),只是要注意矩阵X的形式,将通过如下例子说明其用法。8.2.2 某类研究学者的年薪1. 问题例2 工薪阶层关心年薪与哪些因素有关,以此可制定出它们自己的奋斗目标。某科学基金会希望估计从事某研究的学者的年薪Y与他
12、们的研究成果(论文、著作等)的质量指标X1、从事研究工作的时间X2、能成功获得资助的指标X3之间的关系,为此按一定的实验设计方法调查了24位研究学者,得到如下数据(i为学者序号):表8-2 从事某种研究的学者的相关指标数据i1234567891011123.55.35.15.84.26.06.85.53.17.24.54.992018333113253054725116.16.47.46.77.55.96.04.05.88.35.06.433.240.338.746.841.437.539.040.730.152.938.231.8i1314151617181920212223248.06.5
13、6.63.76.27.04.04.55.95.64.83.9233539217403523332734157.67.05.04.45.57.06.03.54.94.38.05.843.344.142.533.634.248.038.035.940.436.845.235.1试建立Y与之间关系的数学模型,并得出有关结论和作统计分析。2. 作出因变量Y与各自变量的样本散点图作散点图的目的主要是观察因变量Y与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式。下图分别为年薪Y与成果质量指标、研究工作时间、获得资助的指标之间的散点图,subplot(1,3,1),plot(x1,Y,g*),
14、subplot(1,3,2),plot(x2,Y,k+),subplot(1,3,3),plot(x3,Y,ro),从图可以看出这些点大致分布在一条直线旁边,因此,有比较好的线性关系,可以采用线性回归。 Y与x1的散点图 Y与x2的散点图 Y与x3的散点图图8.1 因变量Y与各自变量的样本散点图3. 利用MATLAB统计工具箱得到初步的回归方程设回归方程为:.建立m-文件输入如下程序数据:x1=3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9;x2=9
15、20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 33 27 34 15;x3=6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0 5.8 8.3 5.0 6.4 7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3 8.0 5.0;Y=33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.5 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1;n=24; m=3;X=
16、ones(n,1),x1,x2,x3;b,bint,r,rint,s=regress(Y,X,0.05);b,bint,r,rint,s,运行后即得到结果如表8-3所示。表8-3 对初步回归模型的计算结果回归系数回归系数的估计值回归系数的置信区间18.015713.9052 22.12621.08170.3900 1.77330.32120.2440 0.39841.28350.6691 1.8979=0.9106 F=67.9195 p= 3.10 (查F分布表或输入命令finv(0.95,3,20)计算)。()p值检验:若(为预定显著水平),则说明因变量与自变量之间显著地有线性相关关系。本
17、例输出结果,p0.0001,显然满足P=0.05。以上三种统计推断方法推断的结果是一致的,说明因变量与自变量之间显著地有线性相关关系,所得线性回归模型可用。当然越小越好,这主要在模型改进时作为参考。4. 模型的精细分析和改进(1) 残差分析残差,是各观测值与回归方程所对应得到的拟合值之差,实际上,它是线性回归模型中误差的估计值。即有零均值和常值方差,利用残差的这种特性反过来考察原模型的合理性就是残差分析的基本思想。利用MATLAB进行残差分析则是通过残差图或时序残差图。残差图是指以残差为纵坐标,以其他指定的量为横坐标的散点图。主要包括:(1)横坐标为观测时间或观测值序号;(2)横坐标为某个自变
18、量的观测值;(3)横坐标为因变量的拟合值。通过观察残差图,可以对奇异点进行分析,还可以对误差的等方差性以及对回归函数中是否包含其他自变量、自变量的高次项及交叉项等问题给出直观的检验。以观测值序号为横坐标,残差为纵坐标所得到的散点图称为时序残差图,画出时序残差图的MATLAB语句为rcoplot(r,rint)(图8.2)。可以清楚看到残差大都分布在零的附近,因此还是比较好的 ,不过第4、12、19这三个样本点的残差偏离原点较远,如果作为奇异点看待,去掉后重新拟合,则得回归模型为:且回归系数的置信区间更小均不包含原点,统计变量stats包含的三个检验统计量:相关系数的平方,假设检验统计量,概率,
19、分别为:0.9533 ; 115.5586 ; 0.0000 ,比较可知R,F均增加模型得到改进。 图8.2 时序残差图(2) 变量间的交互作用讨论变量间的交互作用包括:不同自变量之间的交互作用以及同一变量的自相关性。不同自变量之间的交互作用:有时,在实验中不仅单因素对指标有影响,而且因素间还会联合起来对指标产生影响,常称这种联合作用为交互作用。处理两个因素间交互作用的一个简单办法是加入这两个自变量的乘积项。本文案例如果加入交互项则为:用表8.2的数据,利用MATLAB统计工具箱得到回归系数分别为:27.0727 ,1.1147,-0.0215 ,-0.1843 ,0.0033 ,-0.005
20、4 ,0.0511 。但它们的置信区间均包含原点,其他指标也不理想,因此,本例中其交互作用并不显著,该模型不如前面两个模型好。自相关性的诊断和处理:若数据是以时间为序的,称为时间序列数据。在时间序列数据中,同一变量的顺序观测值之间出现的相关现象称为自相关。一旦数据中存在这种自相关序列,如果仍采用普通的回归模型直接处理,将产生不良后果,使预测失去意义。自相关的诊断主要有图示检验法、相关系数法和DW检验法。图示检验法是通过绘制残差散点图观察,如果散布点大部分点落在第,象限,表明存在着正的序列相关;如果大部分点落在第,象限,表明存在着负的序列相关。对DW检验法可以利用MATLAB软件编程计算统计量:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 方法 16
限制150内