应用统计回归分析.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《应用统计回归分析.ppt》由会员分享,可在线阅读,更多相关《应用统计回归分析.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章第十章 回归分析回归分析回归分析的基本概念回归分析的基本概念一元线性回归一元线性回归多元线性回归多元线性回归1、函数关系y=f(x);2、相关关系Y=f(x,),其中为随机变量。常把上述关系表为:Y=f(x)+确定性非确定性 相关关系式中最简单、最常用的一种是相关关系式中最简单、最常用的一种是线性线性回归回归,即其中即其中f(x)=L(x)=ax+b 的的情形.10.1 10.1 回归分析基本概念回归分析基本概念一一.相关关系相关关系二、一元线性回归的数学模型二、一元线性回归的数学模型1、一元线性理论回归模型(10.1.1)其中为确定性部分,0、1为未知参数2、一元线性回归模型、一元线性
2、回归模型 对(x,y)作n次独立观察,得n组数据(xi,yi),代入(10.1)得一元线性回归模型(10.1.2)由(xi,yi)的值可作出0、1的估计从而可得上述方程称为一元线性经验回归方程(简称回归方程)参数的参数的最小二乘估计最小二乘估计模型线性模型线性性的检验性的检验预测与控制预测与控制102 102 一元线性回归一元线性回归一、参数的最小二乘估计参数的最小二乘估计考虑一元线性理论回归模型(10.2.1)代入(10.2.1)可得一元线性回归模型:若我们对(x,y)做n次独立的观察,可获得n组相互独立的观测值(10.2.3)1.0,1的最小二乘估最小二乘估计计 先讨论问题:如何由(10.
3、2.2)去估计(10.2.3)中的参数0,1 与 2。若已得到0,1的估计则线性方程称为一元线性经验回归方程一元线性经验回归方程(简称回归方程)。于于是对是对(10.2.2)的每一组观测值,由(10.2.4)均可求得一个相应的值常称为回归值回归值或预测值预测值、拟合值拟合值等。我们总希望由估计所定出的回归方程能使一切之间的偏差达到最小,根据最小二乘法最小二乘法的原理,即要求必须满足以下方程组(由微积分)则令用代替,经整理即得(10.2.6)称为正规方程组正规方程组,在xi,i=1,n 不全相等时它有唯一解(10.2.7)容易验证,上式中 的确能使Q达到最小,因此他们是0,1的最小二乘估计最小二
4、乘估计.可见可见,回归方程的图形是通过点回归方程的图形是通过点(),(),斜率为斜率为 的直线的直线.称此直线为称此直线为回归直线回归直线.(10.2.8)2.最小最小二乘估计的性质及二乘估计的性质及 2的估计的估计令令(10.2.9)则(10.2.7)和(10.2.8)可表为:和和此时的残差平方和此时的残差平方和最小最小,记为记为Se,称为称为剩余剩余平方和平方和.即即(10.2.12)进一步分析进一步分析,可得可得(10.2.13)由于,故很明显,都是统计量,在的假设下,它们具如下性质具如下性质:(设 x0为自变量 x 的值.)例例10.2.1 在硝酸钠在硝酸钠(NaNO3)的溶解度试验中
5、的溶解度试验中,测得在不同温度测得在不同温度x(0C)下下,溶解于溶解于100份水中的硝酸钠份数份水中的硝酸钠份数y的数据如下表所示的数据如下表所示.求求 0,1的最小二乘估计的最小二乘估计 及及 2的无偏估计的无偏估计,并写出并写出回归方回归方程程.xi 0 4 10 15 21 29 36 51 68yi66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1解解 编制计算表如下:xi=234 yi=811.3 n=9xi2=10144 yi2=76218.17 xiyi=24628.6 Lxx=4060 Lyy=3084.0543 Lxy=3534.8
6、故,可算得2的无偏估计为所求的回归方程为二、模型线性性的检验二、模型线性性的检验 如果y与x之间不存在良好的线性关系,这样得到的回归方程是毫无意义的。因此,我们必须检验假设H0:1=0;H1:10 (10.2.15)离差分解离差分解(10.2.17)其中ST称为总离差平方和总离差平方和,称为剩余平方和剩余平方和.由性质(4)知,它的分布仅依赖于n和2,与x的分布无关,因此它反映了除去y与x之间的线性相关关系之外其他因素引起的数据yi间的波动(10.2.18)称为回归平方和回归平方和.它主要反映由变量x的变化引起的yi间的波动.由性质(4)知,且与SR独立;在H0真时,由性质(2)及(10.2.
7、18)知故,H0为真时统计量(10.2.19)从而,给定水平,假设H0(10.2.15)有拒绝域易知,在ST一定时,若回归平方和SR越大,则剩余回归平方和Se越小,此时F值就越大,从而反映出y与x之间的线性相关程度就越高,模型(10.2.1)就越好;反之,则相反.以上方法称为模型线性性检验(或回归方程显著性检验)的F检验法检验法.这种检验也需要做方差分析方差分析.模型线性性检验模型线性性检验方差分析表方差分析表离差来源平方和自由度F值显著性回归R剩余eSRSe1n 2总和STn 1 回归模型线性性不显著的原因可能有如下几种:(1)影响y的除x外,还可能有其他不可忽略的因素;(2)y与x的关系不
8、是线性的,而是存在其它的关系;(3)y与x无关.为此需要进一步查明原因,视具体情况处理.模型线性性检验的模型线性性检验的 t 检验法检验法 事实上,当H0真时,于是,给定水平,假设H0(10.2.15)有拒绝域:例例10.2.2(续例续例10.2.1)试判断温度试判断温度x和硝酸钠溶解份数和硝酸钠溶解份数y之间的之间的线性关系是否显著线性关系是否显著?选用F检验法.由例例10.2.1的计算结果(见P364),并利用(10.2.13)式和(10.2.18)式得建立方差分析表如下.表表10-4 方差分析表方差分析表离差来源平方和自由度F值显著性回归R剩余eSR=3077.39688Se=6.657
9、4217F=3235.75 总和ST=3084.05488给定=0.01,查表得 F0.01(1,7)=12.23235.75=F,故拒绝H0.这表明温度x和硝酸钠溶解份数y之间的线性关系非常显著.也可选用 t 检验法检验法.此时因为t(n 2)=t0.01(7)=3.00,而统计量 t 的值故拒绝H0.三、预测与控制三、预测与控制 回归方程的一个重要应用就是预测。对于给定的点 x=x0,我们常希望知道x0所对应的y0=0+1x0+0的点预测和预测区间.此处 y0与各 yi(i=1,2,n)相互独立.1.一元一元线线性回性回归预测归预测y0的点预测可由回归方程(10.2.4)直接得到 求 y0
10、 的预测区间的方法与求参数的置信区间的方法类似(因y0是随机变量而非常数,故不称置信区间而称预测区间预测区间).显然(10.2.20)由y0与 的独立性及性质(3),可知标准化后得又由性质(4)及(10.2.14)式知:独立,故U与也独立.于是故y0的置信度为1的预测区间为(10.2.21)若记则y0的预测区间可记为对于给定的样本观测值x,可作两条曲线这两条曲线可形成一含回归直线的带域,两头呈喇叭形,在 x=处最窄.如图10-2所示(见P370)当n充分大时,因而近似地有可用u/2代替t/2(n 2),从而y0的预测区间可近似表为(10.2.22)2.一元一元线线性回性回归归控制控制 控制是预
11、测的反问题,即问自变量 x 应控制在什么范围内,才能以一定的置信度保证因变量 y 落在某一给定的区间之内.换句话说,对于给定的置信度1及区间y1,y2,要寻找x1和x2,使当x1 x x2时x 所对应的 y 落在y1,y2 内的概率 1.仅限于讨论 n 较大的情形.一种简便的方法是:利用(10.2.22)式,从不等式组 中解出x来即可得到控制x的上、下限.但要注意须有(10.2.23)p元线性回归模型元线性回归模型参数估计参数估计最小二乘估计最小二乘估计假设检验与假设检验与回归系数的区间估计回归系数的区间估计预测和变量控制预测和变量控制10.3 10.3 p(多多)元线性回归元线性回归一、p元
12、线性回归模型一般地有(10.3.1)其中x1,xp是可精确测量或可控制的一般变量,y是可观测的r.v.,1,p是未知参数未知参数。若我们对(10.3.1)获得n个相互独立的观测值则由(10.3.1)知:yi 具有数据结构式这就是p元(多元)线性回归模型元(多元)线性回归模型。对对p元线性回归模型我们将研究下面几个元线性回归模型我们将研究下面几个问题问题由样本由样本观测值观测值(10.3.2)去估计未知参数去估计未知参数 1,p,2,从而建立从而建立y与与x1,xp间的间的数量关系式(所谓的数量关系式(所谓的回归方程回归方程););对对由此得到的数量关系式的可信度进行统计由此得到的数量关系式的可
13、信度进行统计检验检验;检验各变量检验各变量x1,xp 分别对指标分别对指标y是否有显是否有显著影响;著影响;回归系数的区间估计、预测和变量控制。回归系数的区间估计、预测和变量控制。二、参数估计二、参数估计 先讨论第一个问题,即如何由(10.3.2)去估计(10.3.1)中的参数0,p 与 2。若已得到0,p的估计则线性方程称为p元线性回归方程元线性回归方程。于是对(10.3.2)的每一组观测值,由(10.3.4)均可求得一个相应的值常称为回归值回归值或预测值预测值、拟合值拟合值等。我们总希望由估计所定出的回归方程能使一切之间的偏差达到最小,根据最小二乘法最小二乘法的原理,即要求必须满足以下方程
14、组(由微积分)则令用代替,经整理即得(10.3.7)称为正规方程组,其解称为0,1,p的最小二乘估计最小二乘估计,记为则(10.3.3)可表为 Y=X+,N(0,2In)(10.3.8)(10.3.7)可表为 正规方程组可用向量矩阵形式简洁表出。正规方程组可用向量矩阵形式简洁表出。令令其中X为正规方程组的结构矩阵结构矩阵,A=XX为系数矩阵系数矩阵,是一个p+1阶方阵,B=XY为常数项矩阵。在回归分析中通常A1存在,故从而由最小二乘估计 可建立回归方程(10.3.4),并利用它对指标y进行预报和控制。例如给出任意一组变量x1,xp的值(x01,x0p),由(10.3.4)可得y0的预测值:定义
15、定义 为了得到预测的精度及控制生产的需要,通常还要求得2的估计。实测值yi与回归值的差叫残差,称为剩余平方和(或残差平方和)。叫残差向量,一般地,有推论推论定理定理10.1E(Se)=(np1)2,从而是2的无偏估计。例例 求求p元中心化回归模型元中心化回归模型中参数0,1,p的最小二乘估计与2的无偏估计。其中定理定理10.2 现在进一步研究最小二乘估计(least square estimation)的性质。是 的无偏估计,其协方差阵为定理定理10.3定理定理10.4 当YN(X,2In)时,与Se独立,且 其中q为矩阵X的秩。的L.S.E与残差向量的几何意义求 的L.S.E,就是求一个使得
16、Y与的距离最短,这等价于在U(X)中找一向量使得这只能在才能办到,式(10.3.16)指出了这一点,可见是Y在U(X)上的投影投影。三、假设检验三、假设检验M变量变量y与与x1,xp之间是否确有线性关系之间是否确有线性关系即检验假设即检验假设 H0:1=2=p=0 (10.3.17)M若若y与与x1,xp之间确有线性关系,那么之间确有线性关系,那么因子因子xj对对y作用是否显著呢?这需要检验作用是否显著呢?这需要检验假设假设 H0:j=0,(j=1,p)(10.3.18)1.假设假设(10.3.17)的检验法的检验法总偏差平方和其中即剩余平方和,它反映除去y与x1,xp之间的线性关系以外一切因
17、素引起的数据yi间的波动。而称为回归平方和回归平方和。反映由变量x1,xp的变化引起的数据yi间的波动。在p元线性回归模型(10.3.3)中,当假设 (10.3.17)真时,故由定理10.4知由于SR是正态变量的平方和,其自由度为(n1)(np1)=p,故由定理6.3.2(柯赫伦)知,在(10.3.17)真时,Se与SR相互独立,且从而有2.假设假设(10.3.18)的的检验问检验问题题最后,给定显著性水平后,即可得到假设(10.3.17)的拒绝域由定理10.4知其中cjj为(XX)1中第j+1个对角元素,且独立,故这就是用来检验第j 个因子j 是否显著为零的统计量。于是,给定显著性水平,假设
18、(10.3.18)的拒绝域为四四.回归系数的区间估计、预测和变量控制回归系数的区间估计、预测和变量控制1.的线性函数的区间估计的线性函数的区间估计 若检验得知回归因子xj对y的影响显著,此时常要考虑j的区间估计问题。一般地说,在回归分析中常要求考虑 的线性函数的区间估计问题。设=(1,2,p)为实常向量,记我们要求的是的置信度为1的置信区间。易证 的最小方差线性无偏估计为它称为 的高斯马尔可夫估计。且与相互独立。可选择为主元。由P|T|t/2(np)=1,解不等式,得 的置信度为1的置信区间如下:特别,当置信度为1的置信区间为2.y的预测区间的预测区间 设给定x=(x1,xp)的值x0=(x0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计 回归 分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内