第五章回归分析-统计计算及方法课件.ppt
《第五章回归分析-统计计算及方法课件.ppt》由会员分享,可在线阅读,更多相关《第五章回归分析-统计计算及方法课件.ppt(113页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第五章第五章 回归分析回归分析n回归分析回归分析n一元线性回归一元线性回归n多元线性回归多元线性回归n非线性回归非线性回归25.0 5.0 引言引言回归名称的由来回归名称的由来回归分析是研究变量之间相互依赖回归分析是研究变量之间相互依赖关系的一种统计方法,是数理统计关系的一种统计方法,是数理统计学中应用最广泛的分支之一学中应用最广泛的分支之一.3 回归分析的基本思想以及回归分析的基本思想以及 “回归回归”名称的由来最初是由名称的由来最初是由英国生物学家英国生物学家兼统计学家高尔顿兼统计学家高尔顿提出来的提出来的.他从一千多对父母身高与其子女身高他从一千多对父母身高与其子女身高的数据分析中得出
2、:当父亲身高很高的数据分析中得出:当父亲身高很高时,儿子的身高并不像期待的那样高,时,儿子的身高并不像期待的那样高,而要稍矮一些,有向同龄人平均身高而要稍矮一些,有向同龄人平均身高靠拢的现象;而当父亲身高很矮时,靠拢的现象;而当父亲身高很矮时,儿子的身高要比预期的高,也有向同儿子的身高要比预期的高,也有向同龄人平均身高靠拢的现象龄人平均身高靠拢的现象.4 正是因为儿子的身高有回到同龄人正是因为儿子的身高有回到同龄人平均身高的这种趋势,才使人类的身平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现高在一定时间内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮父辈个子高其子女更高,
3、父辈个子矮其子女更矮的两极分化现象,说明后其子女更矮的两极分化现象,说明后代的平均身高向中心靠拢了,这种现代的平均身高向中心靠拢了,这种现象叫象叫回归回归,这就是,这就是“回归回归”一词的最一词的最初含义初含义.现在的意思是:凡是利用一个现在的意思是:凡是利用一个变量或一组变量的变异来估计或预测变量或一组变量的变异来估计或预测另一个变量的变异情况都称之为回归。另一个变量的变异情况都称之为回归。在现实问题中处于同一个过程中的一些在现实问题中处于同一个过程中的一些变量往往是相互依赖和相互制约的,它们之变量往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:间的相互关系大致可分为两种:(1
4、)确定性关系确定性关系 -函数关系函数关系(2)非确定性关系非确定性关系 -相关关系相关关系:变量之间有一:变量之间有一定的依赖关系,但这种关系并不完全确定。定的依赖关系,但这种关系并不完全确定。可控变量:可以在某范围内随意地取指定数值可控变量:可以在某范围内随意地取指定数值-自变量自变量不可控变量不可控变量:可以观测但不可控制可以观测但不可控制(随机变量随机变量)-)-因变量因变量 6 例例2 2 人的血压人的血压y与年龄与年龄x之间的关之间的关 系,不可能由一个人的年龄完全确定系,不可能由一个人的年龄完全确定 他的血压他的血压.一般说人的年龄越大血压一般说人的年龄越大血压 越高,但年龄相同
5、者,血压未必相同越高,但年龄相同者,血压未必相同.例例1 1 人的体重人的体重y与身高与身高x之间的关系之间的关系一一般来说,身高高一些,体重也要重般来说,身高高一些,体重也要重一些,但身高不能严格地确定体重,即一些,但身高不能严格地确定体重,即同样身高的人,体重可能不同同样身高的人,体重可能不同.7 这几个例子中的两个变量之间都有这几个例子中的两个变量之间都有一定的关系,且是一种一定的关系,且是一种非确定性非确定性的关系,的关系,称这类关系为称这类关系为相关关系相关关系.例例3 3 水稻亩产量水稻亩产量y与其施肥量与其施肥量x1 1、播种、播种量量x2 2、种子、种子x3 3有关系,但有关系
6、,但 x1 1、x2 2、x3 3 取取相同的一组数值时,亩产量相同的一组数值时,亩产量y可取不同可取不同数值数值.8 上述例子中身高上述例子中身高x,年龄年龄x,施肥量施肥量 x1、播种量播种量x2、种子种子 x3 都是可以在一定范围都是可以在一定范围内随意的取指定数值内随意的取指定数值,是可控变量称之是可控变量称之为为自变量自变量,而体重而体重 y,血压血压 y,亩产量亩产量 y 都是不可控变量称为都是不可控变量称为因变量因变量.研究一个变量与一个研究一个变量与一个(或几个或几个)可控变量可控变量之间之间 相关关系相关关系的统计分析方法称为的统计分析方法称为回归回归分析分析.回归分析:回归
7、分析:研究一个随机变量与一个(或几个)研究一个随机变量与一个(或几个)可控变量之间相关关系地统计方法。可控变量之间相关关系地统计方法。只有一个自变量的回归分析叫做只有一个自变量的回归分析叫做一元回归分析一元回归分析;多于一个自变量的回归分析叫做多于一个自变量的回归分析叫做多元回归分析多元回归分析。回归分析主要内容回归分析主要内容:(1)(1)提供建立有相关关系的变量之间的数学关系式提供建立有相关关系的变量之间的数学关系式(经验公式经验公式)的一般方法的一般方法;(2)判别所建立的经验公式是否有效判别所建立的经验公式是否有效;(3)利用所得到的经验公式进行预测和控制利用所得到的经验公式进行预测和
8、控制.5.1 5.1 一元线性回归一元线性回归(一一)一元线性回归模型一元线性回归模型 设设 与与 有相关关系有相关关系,当自变量当自变量 时时,因因变量变量 并不取固定的值与其对应并不取固定的值与其对应.如果要用函数关如果要用函数关系近似系近似 与与 的相关关系的相关关系,很自然想到很自然想到,应该以应该以 作为作为 与与 相对应的数值相对应的数值.(51)其中其中 为常数,则称为常数,则称 与与 之间存在线性之间存在线性相关关系,称(相关关系,称(5 51 1)为一元正态线性回归模型,)为一元正态线性回归模型,简称一元线性模型,其回归函数记为简称一元线性模型,其回归函数记为称为称为 对对
9、的线性回归,的线性回归,称为回归常数,称为回归常数,称为回归系数。称为回归系数。由(由(5 51 1)得)得,可知可知 取取不同数值时,便得到不同的正态变量。不同数值时,便得到不同的正态变量。其中其中为未知的常数。为未知的常数。由由独立知道独立知道也相互独立,且也相互独立,且称为独立样本称为独立样本的一个(或一组)样本观测的一个(或一组)样本观测值,其中值,其中为取固定值取固定值时,对时,对进行一次试验所得到的观测值。进行一次试验所得到的观测值。利用独立样本及其样本值可得利用独立样本及其样本值可得的估计量及的估计量及估计值估计值和和从而得到回归函数从而得到回归函数的估计的估计称为称为 对对 的
10、经验回归方程或经验公式。的经验回归方程或经验公式。注:确定变量间相关关系数学关系式的三种方法注:确定变量间相关关系数学关系式的三种方法1.1.经验公式。经验公式。2.2.假设检验。假设检验。3.3.散点图法。散点图法。把样本值把样本值作为平面直角坐标系的作为平面直角坐标系的 个点描出来,构成实验的个点描出来,构成实验的散点图。散点图。根据散点图,适当地选择一个函数根据散点图,适当地选择一个函数使得使得在一定意义下最好地吻合在一定意义下最好地吻合于观测结果于观测结果常用的是最小常用的是最小二乘法,即二乘法,即.二、未知参数的估计二、未知参数的估计1.1.正规方程组、回归系数的点估计正规方程组、回
11、归系数的点估计根据最小二乘法求线性回归函数根据最小二乘法求线性回归函数的估计的估计就是求使得就是求使得取得最小值的取得最小值的即即根据微分学中的二元函数极值的充分条件根据微分学中的二元函数极值的充分条件,将将分别对分别对求一阶偏导数并令其为零求一阶偏导数并令其为零经过整理后得到线性方程组经过整理后得到线性方程组其中其中正正规规方方程程组组解此方程组即得使解此方程组即得使取得最小值的取得最小值的分别称为分别称为的最小二乘估计值的最小二乘估计值.于是于是,得到得到对对的经验回归方程的经验回归方程注注:用最小二乘法得到的经验回归直线通过已知用最小二乘法得到的经验回归直线通过已知个数据点个数据点的几何
12、重心的几何重心把估计值中的把估计值中的分别用分别用来代替来代替,就得到了参数就得到了参数的估计量的估计量.为了方便为了方便,我们引进几个常用的记号我们引进几个常用的记号则则参数估计量参数估计量回归方程回归方程定理定理1:1:在一元线性回归模型中在一元线性回归模型中,和和相互相互独立独立.证明证明:即即与与不相关不相关.但但与与都是独立正态变量都是独立正态变量的线性组合的线性组合,因此因此,与与的联合分布为正的联合分布为正态分布态分布.对于正态随机向量来说不相关和相互独立是对于正态随机向量来说不相关和相互独立是等价的等价的.证毕证毕定理定理2:2:在一元线性回归模型中在一元线性回归模型中,的最小
13、二的最小二 乘估计量乘估计量 的数学期望和方差为的数学期望和方差为证明证明:证毕证毕.由定理由定理2 2可看出可看出,当当 时时,取最小值取最小值 ;与与 成反比成反比.所以所以,为了提高为了提高 和和 的估计精度的估计精度,最最好选择好选择 使使 ,并且并且 应比较分散应比较分散.注注:的最小二乘估计量与极大似然估计量相等的最小二乘估计量与极大似然估计量相等.24实际上:实际上:在在 ,0和和 1的最大似的最大似然估计为最小二乘估计然估计为最小二乘估计2.2.参数参数 的点估计的点估计当当 的极大似然估计量的极大似然估计量 已得到后已得到后,的估计量可由似然方程的估计量可由似然方程可得可得
14、的极大似然估计量为的极大似然估计量为记记即即是是 的极大似然估计量的极大似然估计量.定理定理3:在一元线性模型中在一元线性模型中证明证明:而而又又于是有于是有证毕证毕.由定理由定理3 3可得可得是是 的无偏估计的无偏估计.3.3.估计量估计量 和和 的分布的分布定理定理4:4:在一元线性模型中在一元线性模型中(1)(2)(3)(4)(5)相互独立相互独立.4.4.未知参数未知参数 和和 的区间估计的区间估计定理定理5.5.在一元线性模型中在一元线性模型中证明证明:由定理由定理4,4,得得由定理由定理4 4的的(5)(5)可知可知,分别相互独立分别相互独立,再由再由t t分布的定义分布的定义,即
15、得即得证毕证毕由定理由定理5 5及及t t分布的分位数分布的分位数,得得即得即得 的的 置信区间为置信区间为类似类似,的的 置信区间为置信区间为由由易得易得 的的 置信区间为置信区间为三、线性回归效果的显著性检验三、线性回归效果的显著性检验 我们在求我们在求 Y 对对 x 的线性回归之前,必须判断的线性回归之前,必须判断Y与与 x 的关系是否满足一元线性回归模型。理论上的关系是否满足一元线性回归模型。理论上讲,这要求检验讲,这要求检验(1)对对x取任一固定值时,取任一固定值时,Y都服从正态分布,而且都服从正态分布,而且 方差相同;方差相同;(2)x在某一范围取值时,在某一范围取值时,EY是是x
16、的线性函数;的线性函数;(3)在在x取各个不同值时,相应的取各个不同值时,相应的Y是相互独立的。是相互独立的。但要检验这三条不仅需要大量的试验,还要进行大但要检验这三条不仅需要大量的试验,还要进行大量的计算,实际上很难办到。量的计算,实际上很难办到。(1)x对对Y没有显著影响,应丢掉自变量没有显著影响,应丢掉自变量x;(2)x对对Y有显著影响,但不能用线性相关关系来有显著影响,但不能用线性相关关系来 表示;表示;(3)除除x外还有其它不可忽略的变量对外还有其它不可忽略的变量对Y也有显著也有显著 影响,从而削弱了影响,从而削弱了x对对Y的影响,应考虑多元的影响,应考虑多元 线性回归。线性回归。1
17、.F检验法检验法考虑考虑令令计算后可得一元线性模型中的平方和分解公式:计算后可得一元线性模型中的平方和分解公式:总总偏偏差差平平方方和和回回归归平平方方和和残残差差平平方方和和总偏差(离差)平方和总偏差(离差)平方和回归平方和回归平方和因为因为剩余平方和(或残差平方和)剩余平方和(或残差平方和)平方和分解公式:平方和分解公式:(1)由于)由于x对对Y的线性相关关系而引起的的线性相关关系而引起的Y的分散性。的分散性。(2)剩余因素引起的)剩余因素引起的Y的分散性。的分散性。定理定理6:证明:证明:对于检验对于检验证毕证毕2.t检验法检验法由定理由定理5知知3.r检验法检验法为了检验为了检验Y与与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 章回 分析 统计 计算 方法 课件
限制150内