线性回归分析的数学模型(共31页).doc
精选优质文档-倾情为你奉上线性回归分析的数学模型 摘 要 在实际问题中常常遇到简单的变量之间的关系,我们会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约这些问题中最简单的是线性回归线性回归分析是对客观事物数量关系的分析,是一种重要的统计分析方法,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究由于客观事物的联系错综复杂经济现象的变化往往用一个变量无法描述,故本篇在深入分析一元线性回归及数学模型的情况下,又详细地介绍了多元线性回归方程的参数估计和其显著性检验等全面揭示了这种复杂的依存关系,准确测定现象之间的数量变动以提高预测和控制的准确度 本文中详细的阐述了线性回归的定义及其线性模型的简单分析并应用了最小二乘法原理具体介绍了线性回归分析方程参数估计办法和其显著性检验并充分利用回归方程进行点预测和区间预测 但复杂的计算给分析方法推广带来了困难,需要相应的操作软件来计算回归分析求解操作过程中的数据以提高预测和控制的准确度从而为工农业生产及研究起到强有力的推动作用 关键词:线性回归;最小二乘法;数学模型 目 录 第一章 前言1 第二章 线性模型2 第一节 一元线性模型2 第二节 多元线性模型4 第三章 参数估计 5 第一节 一元线性回归方程中的未知参数的估计5 第二节 多元线性回归模型的参数估计8 第四章 显著性检验13 第一节 一元线性回归方程的显著性检验 13 第二节 多元线性回归方程的显著性检验 20 第五章 利用回归方程进行点预测和区间预测21 第六章 总结26 致谢 27 参考文献 第一章 前 言 回归分析是对客观事物数量依存关系的分析是数理统计中的一个常用的方法是处理多个变量之间相互关系的一种数学方法 在现实世界中,我们常与各种变量打交道,在解决实际问题过程中,我们常常会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约常见的关系有两种:一类为“确定的关系”即变量间有确定性关系,其关系可用函数表达式表示例如:路程s,时间t,与速度v之间有关系式:s=vt 在圆体给与半径r之间有关系式v= 另外还有一些变量他们之间也有一定的关系,然而这种关系并不完全确定,不能用函数的形式来表达,在这种关系中至少有一个变量是随机的例如:人的身高与体重有一定的关系,一般来讲身高高的人体重相对大一些但是它们之间不能用一个确定的表达式表示出来这次变量(或至少其中有一个是随机变量)之间的关系我们称之为相关关系又如环境因素与农作物的产量也有相关关系,因为在相同环境条件下 农作物的产量也有区别,这也就是说农作物的产量是一个随机变量回归分析就是研究相关关系的一种数学方法,是寻找不完全确定的变量间的数学关系式并进行统计推断的一种方法它能帮助我们从一个变量取得的值去估计另一个变量的值在这种关系中最简单的是线性回归 线性回归分析是对客观事物数量关系的分析,是一种重要的统计分析方法,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究由于客观事物的联系错综复杂经济现象的变化往往用一个变量无法描述, 故本篇在深入分析一元线性回归及数学模型的情况下,又详细地介绍了多元线性回归方程的参数估计和其显著性检验等全面揭示了这种复杂的依存关系,准确测定现象之间的数量变动以提高预测和控制的准确度 第二章 线性模型 第一节 一元线性模型 在工农业生产及科研中最常遇到的配直线问题,就是回归分析的统计推断方法来求经验公式(线性回归)的问题如: 例1 今有某种大豆脂肪含量x(%)与蛋白质含量y(%)的测定结果如下表所示:试求它们之间的关系(检验公式) x 165 175 185 195 205 215 225 y 435 426 426 406 403 387 372 首先将这组数据在直角坐标系上描成点,如下图: 一般的,按此方法描点所得的图成为散点图 从图上可以看出:这些数据描出的点分布在一条直线附近于是推出他们大致可以表示为线性关系 这里再y上加“ ”是为了区别于他的实际值y,因为y与x一般不具有确定的函数关系,这样,在散点图的启发下,我们选定了回归方程是线性的然后根据统计推断方法来估计出未知数 和 从而确定所求的经验公式一般的,设随机变量y与x之间的相关关系可以用线性模型 , N(0, ) (1) 来表示这里x是试验或观察中可以控制或精确观测的变量即非随机变量,y是可观测的随机变量 是不可观测的随机变量(它表示模型误差,是除去x对Y的先行影响之外的且不能测出的其它各个随机因素对Y的影响的总和) 通过实验观测可得到关于变量x和Y的一组数据( , ),( , ),( , )因为对于任意一个 (i=1,2,n),在 的观测值在取定前不能精确预言它一定能取什么值,故把 看作是随机变量Y的观测值而相互独立的随机变量 , , 为Y的样本我们知道,样本与样本观测值之间的区别是:前者是随机变量,后者为取定的数值,但为了叙述方便,今后把样本观察值也成为样本在符号上均用 , , 来表示具体表示的意义也可由上下文分析清楚,设观测值 与样本 之间满足关系式: = (i=1,2,n) (2) 其中 (i=1,2,n)且相互独立 如果两个变量间的关系用上述线性模型描述,则它们之间存在线性相关关系由(1)有: E(Y)= 我们希望根据观测的数据 ,求出 , 的估计量 , 这样就可以利用方程 (3) 去估计随机变量Y的数学期望E(Y)也就是说,将 , 代入方程 (1)并略去误差 ,就得到了随机变量Y和变量x的线性关系式(3)方程(3)通常称为Y对x的线性回归方程或回归方程,其图形称为回归直线 对于(1)和(2)所确定的线性模型,所考虑的统计推断主要问题是:未知参数 和 的估计:检验x和Y之间的关系是否可确信是线性关系,即对假设(1)进行检验,对Y进行预测等 第二节 多元线性模型 一般来讲,影响结果Y的因素往往不止一个设有 , 共p个元素这时要用图来确定它们的关系是困难的常可根据经验做出假设其中最简单的是假设它们之间有线性关系: (4) 式中 , 都是可精确测量或可控制的一般变量,Y是可观测的随机变量, , , 都是未知参数, 是服从 分布的不可观测的随机误差我们对(4)获得了n组相互独立的观测值(样本) ( ; , , ) (i=1,2,n) (5) 于是由(4)式可知 具有数据结构式: i=1,2,n (6) 其中各个 ( i=1,2,n)相互独立,且均服从 这就是p元线性回归模型 对于(4)所确定的模型统计推断的主要问题是:根据样本去估计未知参数 , , 、 ,从而建立Y与 , 间的数量关系式和对比得到的数量关系式的可信度进行统计检验;检验各变量 , 分别对指标是否有显著影响2 第二章 参数的估计 第一节 一元线性回归方程参数的估计 有多种确定回归方程也就是确定未知参数 , 的估计量 , ,的方法其中最常用的是“最小二乘法” 我们将采用“最小二乘法原理”来求出 , 也就是求,使误差 ( i=1,2,n)的平方和 Q= = (7) 为最小的 , 值作为参数 , 的估计量 由(7)知Q是 , 的二元函数即Q=Q( , )按二元函数求极值的方法可得联立方程组: (8) 这个方程组称为正规方程组 即: (9) 解此方程组由(9)的第一式得 因此 的估计量为: (10) 其中 , 将(10)式代入(9)中的第二式可解得 的估计量为 (11) 这样:利用(10)和(11)确定的 , 使平方和Q达到最小,从而求出回归方程 这里 , 分别表示由(10)和(11)确定的 , 的值并称 为经验截距; 为经验回归系数,简称为回归系数,而 是 的无偏估计量 由(10)可得回归方程的另一种形式: (12) 由此可知,回归直线通过点( , ),即通过由馆测值的平均值组成的点,并且回归方程由回归系数 完全确定一般的,把由回归方程确定的x的对应值 称为回归值 根据观测数据,利用 (10)和(11)来求回归直线时,常把(11)中的分子和分母分别记为 和 ,且按下面的公式计算: 所以(10)和 (11)两式可记作: (13) (14) 又有公式: = = (15) 然而,对总体中的未知参数进行估计,其主要目的还是建立一元线性回归方程虽然有一个正规方程组存在实际上并不研究它以下是建立一元线性回归方程的具体步骤: (1) 计算 , , , , ; (2) 计算 , , (在回归方程作显著性检验时用); (3) 计算 和 写出一元线性回归方程3 序号 1 165 435 27225 189225 71775 2 175 426 30625 181476 74550 3 185 426 34225 181476 78810 4 195 406 38025 164836 79170 5 205 403 42025 162409 82615 6 215 387 46225 149769 83205 7 225 372 50625 138384 83700 8 235 360 55225 129600 84600 9 245 340 60025 115600 83300 1845 3555 384225 1412775 721725 从而可求得 =205, =395, =60, =-705, -1175, = - =63588 所求回归方程为 63588-1175x 例2 设两个变量x与Y由某种相关关系,测得它的一组数据如下表所示,试求其回归方程 x 492 500 493 490 490 495 498 499 502 502 Y 167 170 168 166 167 168 168 170 170 171 解:根据计算得 =4961, =1685, =2461351, =835994 =03293, = - =05129 所以回归方程为 05129+03293x 第二节 多元线性回归模型的参数估计 设 , ,Y有一组观测值(样本);( , , )(i=1,2,n)我们希望由估计 , , 所决定出的回归方程能使一切 与 之间的偏差达到最小根据最小二乘法的原理 即:要求 = 所以只要求偏离平方和 达到最小的 为书写方便以下把“ ”书写成“ ” 根据微积分中值原理和最小二乘法估计 是下列方程组的解 ( j=1,2,,n) (16) 经整理即得关于 的一个线性方程组 (17) 此方程组(17)称为正规方程组借此方程组就可求得参数 的回归值 为了求解方便我们将(17)是写成矩阵的形式,令 1 X= 1 ,Y= , B= 1 记(17)式的系数矩阵为A,常数项矩阵为B,则A恰为 ,B恰为 即: 1 1 1 1 = 1 1 n = =A 1 1 1 = = =B 因此用矩阵的形式可表式为 = 在回归分析中通常 存在这时最小二乘估计 可表式为: = (18) 当我们求出了 的最小二乘估计 后,就可以建立多元回归方程5 例 3 某地区所产原棉的纤维能力Y与纤维的公制支数 ,纤维的成熟度 有关,现实测得28组数据(见下表)试建立Y关于 , 的二元线性回归方程 i i 1 5415 158 403 15 6208 170 381 2 5700 138 401 16 5798 159 400 3 5674 157 400 17 5551 161 419 4 5698 155 409 18 6059 157 381 5 6165 152 373 19 6060 153 396 6 5929 160 409 20 6059 155 393 7 7505 114 295 21 6370 145 372 8 5920 150 390 22 6102 149 384 9 7646 118 289 23 6245 150 388 10 6556 127 348 24 6644 145 338 11 6475 150 360 25 6191 158 376 12 5907 150 377 26 6352 150 379 13 5697 154 394 27 5999 159 379 14 6618 12 366 28 5815 17 409 解:先求出方程组的系数矩阵及常数向量,再求 = =61567143 =4184 =14943 =10609 =37889 = =72 =630632 =05423 =04 =-15098857 =28 =-40545386 =1594481 =09193 =4045287 求 , 的正规方程组为 72 -15098857 =-40545386 -15098857 +05423 =09193 解得 =-0 , =02527 , = =66011 所以 Y的关于 , 的二元线性回归方程为 =66011-0 +02527 第四章 显著性检验 第一节 一元线性回归方程的显著性检验 由上面的讨论知,对于任何的两个变量x和Y的一组观测数据( )(i=1,2,n)按公式(10)和(11)都可以确定一个回归方程 然而事前并不知道Y和x之间是否存在线性关系,如果两个变量Y和x之间并不存在显著的线性相关关系,那么这样确定的回归方程显然是毫无实际意义的因此,我们首先要判断Y和x是否线性相关,也就是要来检验线性假设 是否可信,显然,如果Y和x之间无线性关系,则线性模型的一次项系数 =0;否则 0所以检验两个变量之间是否存在线性相关关系,归根到底是要检验假设 根据现行假设对数据所提的要求可知,观察值 , , 之间的差异,是有两个方面的原因引起的:(1)自变量x的值不相同;(2)其它因素的影响,检验 是否成立的问题,也就是检验这两方面的影响哪一个是主要的问题因此,就必须把他们引起的差异从Y的总的差异中分解出来也就是说,为了选择适当的检验统计量,先导出离差平方和的分解因式6 一、离差平方和的分解公式 观察值 (i=1,2,n),与其平均值 的离差平方和,称为总的离差平方和,记作 因为 = 其中: =2 =2 =2 =2 所以 = 由于 中的 , 为(10)和(11)所确定即它们满足正规方程组(9)的解因此定义项 = 于是得到了总离差平方和的分解公式: 其中 (19) 是回归直线 上横坐标为 的点的纵坐标,并且 的平均值为 , 是 这n个数的偏差平方和,它描述了 的离散程度,还说明它是来源于 的分散性,并且是通过x对于Y的线性影响而反映出来的,所以, 称为回归平方和 而 = 它正是前面讨论的 的最小值,在假设(1)式的条件下它是由不可观察的随机变量 引起的,也就是说,它是由其它未控制的因素及试验误差引起的,它的大小反映了其它因素以及试验误差对实验结果得影响我们称 为剩余平方和或残差平方和7 二、 、 的性质及其分布 由以上分析可知,要解决判断Y和x之间是否存在线性相关关系的问题,需要通过比较回归平方和和剩余平方和来实现为了更清楚地说明这一点,并寻求出检验统计量,考察估计量 , 的性质及其分布 (一) 的分布 由(14)式可知 = 在 相互独立且服从同一分布 的假定下由(2)知 , , 是P个相互独立的随机变量,且 (i=1,2,,n)所以他们的平均值 的数学期望为: 因为 是 的线性函数,且有: 这说明 是 的无偏估计量且 的方差为 所以 即: 同样可证,对于任意给定的 其对应的回归值 (它是 的点估计)适合 ( , (二) 方差 的估计及分布 因为 = = = 由 、 及 可得 = 又由于 及E(L),E(U)得 =E(L)+E(U) =(n-2) 从而,说明了 = = 是 的无偏估计量,由此可见,不论假设 成立与否, 是 的一个无偏估计量,而 仅当假设成立时,才是 的一个无偏估计量,否则它的期望值大于 说明比值 (20) 在假设成立时有偏大倾向,也就是说,如果F取得值相当大,则没有理由认为x和Y之间有线性相关关系,也就是下面我们将采用F作为检验统计量的原因另外,由于 , 是 的最小二乘估计,由(8)式可知 =0 , =0 这表明 中的n个变量 , 之间有两个独立的线性约束条件,故 的自由度为n-2因此 8 三、F检验 由以上讨论可知,当 成立时 ; 且二者相互独立,由此可得 因此可用这个统计量F作为检验假设 的检验统计量 对给定的显著性水平 ,查自由度为(1,n-2)的F分布的临值表,得临界值 ,如果由实际观察值计算所得的F> 则否定假设 ,即认为x,Y之间线性相关关系显著否则不能否定 ,而认为线性相关关系不显著 这种采用F检验法来对回归方程来进行显著性检验的方法称为方差分析 在F检验中, , 的计算公式如下 = = (21) 其中 = 例4 对例1进行线性关系显著性检验 解:n=9 =-1175×(-705)=8284 = =8550-8184=266 具体检验在如下的方差分析表上进行 方差来源 平方和 自由度 平均平方和 F值 回归 8284 1 8284 21800 剩余 266 7 038 总和 8548 8 查下表对 =001 , 今 说明线性关系极显著,即回归方程是有意义的9 例5 某种物质在不同的温度下可以吸附另一种物质,如果温度x(单位:)与吸附重量Y(单位:mg)的观测值如下表所示: 温度 15 18 24 30 35 39 44 48 50 重量 48 57 70 83 109 124 131 136 153 试求其回归方程并作显著性检验 解:根据上述观测值得到 n=9 =303 =9111 =11511 =34509 =103665 =13100 =38387 =114516 =3367 =10122 = =29303 =02569 所求线性回归方程为 =02569+29303x 因为 =114516 =112485 所以 = =2031 由n-2=7 =122 =38769 F>122 所以回归方程极显著 第二节 多元线性回归方程的相关性检验 由于 的无偏估计量为 将总的离差平方和 进行分解可 得到 + 其中 , 这里 叫做残差平方和,其自由度为n, 叫做回归平方和,自由度为n-p-1 检验假设 是否成立 在 成立时 因此可利用F检验法检验线性相关关系的显著性 如果F ,则可认为 与 , 之间的线性相关关系显著;如果 则可以认为 与 , 之间的线性相关关系特别显著否则可认为 与 , 之间不存在线性相关关系,所建立的线性回归方程是不显著的 例6 对例1 的回归方程进行显著性检验 解:经过计算得 =23510 , = =47346 = (2,10)=756 所以所求二元线性回归方程线性极其显著10 第五章 利用回归方程进行点预测和区间预测 若线性回归方程作显著性检验的结果是拒绝 ,也就是拒绝回归系数 =0的假设,便可以利用回归方程进行点预测和区间预测这是人们关注线性回归的主要原因之一 (1)当x= 时用 预测 的观测值 称为点预测,根据 得 的观测值 的点预测是无偏的 (2)当x= 时用适合不等式 的统计量G 和H所确定的随机区间 预测 的取值范围称为区间预测,而 称为 的 预测区间 若 与样本的各 相互独立,则根据 服从正态分布 , ,Z与Q 相互独立可以导出 因此 的 预测区间为 与一元线性回归一样,当给定 时,可求出相应的 的点估计 亦可求出区间估计,还可以给出相应的 的预测 区间11 影响预测精度的主要因素有: (1) ,但 是不可改变的一般的, 越小精度越高 (2) n,n越大精度越高因此,要尽量扩大样本容量 (3)自变量取值 不要太集中;预测点 离 越近精度越高 例7 一些夏季害虫的盛发期与春季温度有关,现有1956-1964年间3月下旬至4月中旬平均温度的累计数x和一代三螟蛾盛发期Y(以5月10日为0)的观测值如下: 温度 355 341 317 403 368 402 317 392 442 盛发期 12 16 9 2 7 3 13 9 -1 试求线性回归方程并进行F检验;若 =40 ,求 的095预测区间 解:根据上述观测值得到的 n=9 =3337 =70 =1251749 =24364 =794 =1446356 =-1590444 =1495556 =37077 =77778 = =-10996 = 所以所求的线性回归方程为 =48.5-1.1x 当 =40时 =456 , =836 ,所以 的095预测区间为(-380,1292) 检验说明当3月下旬至4月下旬平均温度的累计数为40时,应该预测一代螟蛾盛发期为5月6日5月23日之间,并且预测100次将有95次是正确的 例8 下表列出在不同挂重x下,弹簧长度y的测量值,设测量值y对给定的x服从正态分布 挂物的重量 (牛) 50 100 150 200 250 300 弹簧的长度 (厘米) 725 812 895 990 109 118 (1) 求线形回归法方程 ; (2) 检验假设 ; (3) 若回归效果显著,求b的置信度为95的置信区间; (4) 求在x=160(牛)时,y的置信度为095的预测区间 解:(1) =175, =, =94867 =5546594 n=6, =10762 =27500-6× =43750 =10762-6×175×94867=800965 =5546594-6× =146745 =001831 =94867-001831×175=62825 所以 =62825+001831x (2) =001831×800965=146657 =146745-146657=0 =005, =771 =66429392>771 所以 ,拒绝 ,认为重量x与弹簧长度y有显著的线性关系 (3) =004697, 27764 b的置信度为095的置信区间为(001769,001893) (4) ×160=92121 =01412 所以,y的置信度为095的预测区间为(90709,93533) 例9 假设儿子的身高y与父亲的身高x适合一元线性回归模型,观察了10对父子的身高(英寸)得数据如下: X 60 62 64 65 66 67 68 70 72 74 y 636 655 66 656 669 671 674 633 701 70 (1) 建立y与x的回归方程 (2) 对线性回归方程作假设检验( =005) (3) 当 =69时,求 的信置度为095的预测区间 解:(1)设回归方程为:y= 按所给数据计算,得 =668, =668, =44794 =6651, =6651, =4428393 =444924 =1716 =48129 =6372 所以 =03713, =417072 线性回归方程为: =417072+03713x (2)需检验假设 b=0 检验统计量 因为 =236592 , =244698, 于是F=236592(10-2)/244698=7735 而 =532<7735=F,故认为回归是显著的拒绝原假设 (3) 的置信度为1- 的预测区间为 当 =69时, =417072+03713×69=673269,从而 42837 所以预测区间的一个观测值为(630432,716106) 第六章 结论 本篇从基础的一元线性回归入手深入的分析了多元线性回归方程的参数性质及其显著性检验,并对一元线性回归方程进行点预测和区间预测,并给出实例进行解析但复杂的计算给分析方法推广带来了困难,需要相应的软件来简化回归分析求解的操作过程专心-专注-专业