多元回归分析例子.doc
《多元回归分析例子.doc》由会员分享,可在线阅读,更多相关《多元回归分析例子.doc(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流多元回归分析例子.精品文档.6 双重筛选逐步回归、问题的提出考察自变量对因变量的影响时, 可能其中有些自变量如只对因变量有影响, 而另外一些自变量则对其它因变量有影响, 多对多逐步回归无法判断哪些自变量对哪些因变量有影响。实际情况有时可能是一部分因变量与一部分自变量有密切关系, 而另一部分因变量与另一些自变量有密切关系等等。而与不会有共同的变量, 但与可能有共同的变量, 因为一个自变量可能会对许多不同的甚至全部都有影响。双重筛选逐步回归是一种逐步算法, 既能按照自变量与因变量的关系对因变量进行分组, 又能使每个自变量对各组因变量的影响都能反映
2、出来, 最后分组建立回归方程。、问题的提出考察自变量对因变量的影响时, 可能其中有些自变量如只对因变量有影响, 而另外一些自变量则对其它因变量有影响, 多对多逐步回归无法判断哪些自变量对哪些因变量有影响。实际情况有时可能是一部分因变量与一部分自变量有密切关系, 而另一部分因变量与另一些自变量有密切关系等等。而与不会有共同的变量, 但与可能有共同的变量, 因为一个自变量可能会对许多不同的甚至全部都有影响。双重筛选逐步回归是一种逐步算法, 既能按照自变量与因变量的关系对因变量进行分组, 又能使每个自变量对各组因变量的影响都能反映出来, 最后分组建立回归方程。、双重筛选逐步回归的计算方法个因变量和个
3、自变量的双重筛选逐步回归计算过程: 第一步: 确定自变量和因变量的取舍标准; 设和分别为自变量和因变量的引入和剔除临界值, 则一般取第二步: 任意选人一个因变量。设此时已引入个自变量(因子)和个因变量(预报量); 第三步: 逐个检查是否需要剔除自变量, 如有自变量被剔除则转回第三步; 第四步: 逐个检查是否需要引人自变量, 如有自变量被引入则转到第三步; 第五步: 逐个检查是否需要剔除因变量, 如有因变量被剔除则转到第三步; 第六步: 引入因变量(预报量), 转到第三步; 第七步: 计算回归方程。如果自第二步第六步已引入个因变量, 则计算此组的个回归方程; 第八步: 删除已引入的因变量的数据而
4、保留所有自变量的数据, 从第二步起继续计算下一组回归方程, 如此继续, 直到全部因变量都有了回归方程为止。例6.1 为了分析某地区自然经济条件对森林覆盖面积消长的影响而抽取12个村作为样本, 共测了12个因子, 各因子数据列于表6.1。表6.1序号174.391.05.761.31086617.451.29.515.3912.61270.4157.08.042.21266817.252.524.210.848.40378.777.07.942.01146317.062.922.813.579.80478.967.06.861.51105517.064.325.134.5714.03549.19
5、1.04.921.5924916.539.310.77.415.62657.6219.05.562.5914816.837.337.39.122.80753.1221.07.423.9904516.830.027.08.642.84870.1123.05.383.11235917.047.834.681.6411.25986.645.012.541.21055714.869.037.323.9511.201082.281.013.241.61316115.962.316.533.6016.801176.890.010.701.51316915.867.622.28.939.801288.983
6、.01.981.81076514.579.342.158.973.50其中: : 山地比例(%); : 人口密度(人/); : 人均收入增长率(元/年); : 公路密度(100m/ha); : 前汛期降水量(cm/年); : 后汛期降水量(cm/年); : 月平均最低温度(); : 森林覆盖率(%); : 针叶林比例(%); : 造林面积(千亩/年); : 年采伐面积(千亩/年); : 火灾频数(次/年)。按双重筛选逐步回归计算回归方程, 取, , 得到三组回归方程(详细的计算过程请参见多元回归分析经典例子的计算中的双重筛选逐步回归法计算的例子和结果): 第一组: 第二组: 第三组: 由计算结
7、果看出, 森林覆盖率及年采伐面积受相同自变量影响, 主要影响因素为山地比例、人口密度、人均收入增长率及月平均最低气温的影响; 针叶林比例及火灾频数主要受公路密度及月平均最低气温影响; 造林面积主要受公路密度、人均收入增长率及山地比例的影响。前面讨论的回归分析与逐步回归模型都假定是线性的, 而在自然科学中我们也常会遇到非线性回归模型, 在非线性回归模型中又可分为两种类型: 一种类型是可以通过变量变换化成为线性模型, 然后按线性模型加以解决: 例如, , 作变量变换: 令, , 于是有将视为自变量, 则这时就可以看成是变量的线性函数, 这样就可应用线性模型计算参数。又如为指数函数, 但如对等式两端
8、以为底取对数, 则得如果令, , , 则变为其中为参数, 这样就化为对的线性关系, 然后应用线性关系求算参数。另一种类型的非线性模型是用任何变量变换办法都不能直接化为线性模型求算参数, 例如: 植物病毒侵染的非线性回归数学模型: , (7.1)其中为待定参数, 为病毒浓度, 为病毒侵染的半叶平均枯斑数。式(7.1)为非线性模型, 而且这一模型用任何变量变换办法都不能直接化成线性模型求算参数, 因此必须采用其它方法, 如级数法(或称Gauss-Newton法)或麦夸特法(Marquardt)等。多元回归分析原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的基本思想是: 虽然自
9、变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。回归分析主要解决以下几个方面的问题:(1) 确定几个特定的变量之间是否存在相关关系, 如果存在的话, 找出它们之间合适的数学表达式;(2) 根据一个或几个变量的值, 预测或控制另一个变量的取值, 并且可以知道这种预测或控制能达到什么样的精确度;(3) 进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间, 找出哪些是重要因素, 哪些是次要因素, 这些因素之间又有什么关系等等。回归分析有很广泛的应用, 例如实验数据的一般处理, 经验公式的求得, 因素分析, 产品质量的控制, 气象及地震预报
10、, 自动控制中数学模型的制定等等。多元回归分析是研究多个变量之间关系的回归分析方法, 按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析(简称为“一对多”回归分析)及多个因变量对多个自变量的回归分析(简称为“多对多”回归分析), 按回归模型类型可划分为线性回归分析和非线性回归分析。本“多元回归分析原理”是针对均匀设计3.00软件的使用而编制的, 它不是多元回归分析的全面内容, 欲了解多元回归分析的其他内容请参阅回归分析方面的书籍。本部分内容分七个部分, 14介绍“一对多”线性回归分析, 包括数学模型、回归系数估计、回归方程及回归系数的显著性检验、逐步回归分析方法。“一对多”
11、线性回归分析是多元回归分析的基础, “多对多”回归分析的内容与“一对多”的相应内容类似, 5介绍“多对多”线性回归的数学模型, 6介绍“多对多”回归的双重筛选逐步回归法。7简要介绍非线性回归分析。1 一对多线性回归分析的数学模型2 回归系数的最小二乘估计3 回归方程及回归系数的显著性检验4 逐步回归分析5 多对多线性回归数学模型6 双重筛选逐步回归7 非线性回归模型1 一对多线性回归分析的数学模型设随机变量与个自变量存在线性关系: , (1.1)(1.1)式称为回归方程, 式中为回归系数, 为随机误差。现在解决用估计的均值的问题, 即且假定, , 是与无关的待定常数。设有组样本观测数据: 其中
12、表示在第次的观测值, 于是有: , (1.2)其中为个待定参数, 为个相互独立的且服从同一正态分布的随机变量, (1.2)式称为多元(元)线性回归的数学模型。(1.2)式亦可写成矩阵形式, 设则(1.2)式变为: , (1.3)(1.3)式称为多元线性回归模型的矩阵形式。2 回归系数的最小二乘估计设分别为的最小二乘估计值, 于是的观测值, , (2.1)其中为误差的估计值, 称为残差或剩余。令为的估计值, 则有, (2.2), , (2.3)(2.3)式表示实际值与估计值的偏离程度。欲使估计值与实际值拟合的最好, 则应使残差平方和达到最小, 为此, 我们可以应用微分求极值原理确定, 即解下列方
13、程组, (2.4)即, (2.5)整理并化简则得以下正规方程组: , (2.6)如果记(2.6)式的系数矩阵为, 右端常数项矩阵记为, 则有, (2.7), (2.8)因此正规方程(2.6)的矩阵形式为, (2.9)或, (2.10)其中为正规方程中待定的未知实数向量, 如果系数矩阵满秩, 则存在, 此时有, (2.11)(2.11)式即为多元线性回归模型(1.2)式中参数的最小二乘估计。正规方程组(2.6)亦可表达为下述另一种形式, 如果记则由(2.6)式中第一等式可解出, (2.12)再将(2.12)代入到(2.6)其它各式中并经化简整理可得, (2.13)又由如果记, , (2.14),
14、 , (2.15)则(2.13)式可以表示为, (2.16)(2.16)式称为正规方程组, 解此方程组可得, 再代入到(2.12)式中则得, 于是得回归方程, (2.17)(2.17)式称为回归超平面方程。如果记(2.16)式的系数矩阵为, 右端常数项向量为, 则且记, 则正规方程组(2.16)的矩阵形式为, (2.18)解(2.18)得, (2.19)再代回到(2.12), 则得到。以下是一对多线性回归分析的两个例子。例2.1 某养猪场估算猪的毛重, 测得14头猪的体长(cm)、胸围(cm)与体重(kg)数据如表, 试建立与及的预测方程。表2.1序号体长()胸围()体重()141492824
15、55839351624145271445596243662745076971518727457978796310808466119085701292947613989180141039581经计算: , , , , 于是正规方程组为解此方程组得又因此所求预测回归方程为回归方程中系数与的含义是体长每增加1cm, 则猪体重毛重平均增加0.522kg, 胸围每增加1cm, 则猪体重毛重平均增加0.475kg。例2.2 某地区二化螟的第一代成虫发生量与四个因素有关, 这四个因素分别如下, 已知原始观测数据如表2.2, 试建立二化螟发生总量的回归方程。: 冬季积雪期限(单位为周), : 每年化雪日期(以
16、2月1日为1), : 二月份平均气温(), : 三月份平均气温(), : 二化螟发生总量(头), 经计算: 表2.2序号110260.23.6921226-1.44.41731440-0.81.734416320.21.44251951-1.40.940616330.22.12777262.72.7487251.04.027912172.23.713101124-0.83.056111216-0.54.915127162.04.181311151.14.7201543474.741.231211.846226.69230.36153.169224于是又24 + 0.9974211.8462 +
17、 1.6258126.6923 + 11.192630.3615 + 16.952913.1692 136.98554,因此所求二化螟发生总量的预测回归方程为3 回归方程及回归系数的显著性检验、回归方程的显著性检验(1) 回归平方和与剩余平方和建立回归方程以后, 回归效果如何呢?因变量与自变量是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化规律。的每次取值是有波动的, 这种波动常称为变差, 每次观测值的变差大小, 常用该次观侧值与次观测值的平均值的差(称为离差)来表示, 而全部次观测值的总变差可由总的离差平方和其中: 称为回归平方和,
18、是回归值与均值之差的平方和, 它反映了自变量的变化所引起的的波动, 其自由度(为自变量的个数)。称为剩余平方和(或称残差平方和), 是实测值与回归值之差的平方和, 它是由试验误差及其它因素引起的, 其自由度。总的离差平方和的自由度为。如果观测值给定, 则总的离差平方和是确定的, 即是确定的, 因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显著, 或者说剩余平方和越小回归效果越显著, 如果0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。(2) 复相关系数为检验总的回归效果, 人们也常引用无量纲指标, (3.1)或, (3.2)称为复
19、相关系数。因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此就是这种贡献在总回归平方和中所占的比例, 因此表示全部自变量与因变量的相关程度。显然。复相关系数越接近, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。但应注意, 与回归方程中自变量的个数及观测组数有关, 当相对于并不很大时, 常有较大的值, 因此实际计算中应注意与的适当比例, 一般认为应取至少为的到10倍为宜。(3) 检验要检验与是否存在线性关系, 就是要检验假设, (3.3)当假设成立时, 则与无线性关系, 否则认为线性关系显著。检验假设应用统计量, (3.4)这是两个方差之比, 它服从自由度为及的
20、分布, 即, (3.5)用此统计量可检验回归的总体效果。如果假设成立, 则当给定检验水平下, 统计量应有, (3.6)对于给定的置信度, 由分布表可查得的值, 如果根据统计量算得的值为, 则拒绝假设, 即不能认为全部为O, 即个自变量的总体回归效果是显著的, 否则认为回归效果不显著。利用检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方差分析表中, 如表3.1。表3.1 方差分析表来 源平方和自由度方 差方差比回 归剩 余总 计根据与的定义, 可以导出与的以下关系: 利用这两个关系式可以解决值多大时回归效果才算是显著的问题。因为对给定的检验水平, 由分布表可查出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 回归 分析 例子
限制150内