第五章回归分析.ppt
数 理 统 计 (回归分析)13 一元线性回归分析 一、确定性关系:当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:变量与变量之间的关系 2二、相关性关系:变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。再如:父亲的身高与儿子的身高之间也有一定联系,通常父亲高,儿子也高。回归分析研究相关性关系的最基本,应用最广泛的方法。3(一)一元线性回归4在实际问题中,回归函数(x)一般是未知的,需要根据试验数据去估计。56一元线性回归要解决的问题:7(二)a,b的估计最小二乘估计8正规方程系数行列式9 在误差为正态分布假定下,最小二乘估计等价于极大似然估计。事实上,似然函数1011参数估计的性质1213参数估计的性质14估计量的性质1516例1 K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高x(吋)60626465666768707274儿子身高y(吋)63.665.2 6665.5 66.9 67.1 67.4 68.370.1 70求Y关于x的线性回归方程。1718(三)误差方差的估计1920例2 求例1中误差方差的无偏估计。21(1)影响Y取值的,除了x,还有其他不可忽略的因素;(2)E(Y)与x的关系不是线性关系,而是其他关系;(3)Y与x不存在关系。(四)线性假设的显著性检验采用最小二乘法估计参数采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公式求出回归方程。因此(x)是否为x的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:2223例3 检验例1中回归效果是否显著,取=0.05。24回归分析与方差分析2526线性回归的方差分析线性回归的方差分析 27线性回归的方差分析线性回归的方差分析原假设H0:b=0,备择假设 H1:b0选统计量28方差分析表方差分析表方差来源平方和自由度均方F比回归S回1S回/1残差Qen-2Se/(n-1)总和Qyyn-129线性回归的方差分析线性回归的方差分析对检验水平,查表得F(1,n-2),计算出F值。若FF(1,n-2),则拒绝H0,说明回归效果显著;若F2.306,即|t|值在H0的拒绝域内,故拒绝H0,说明回归效果是显著的。b的置信度为0.95(=0.05)的置信区间为3637相关系数检验法38(五)回归系数b的置信区间当回归效果显著时,常需要对回归系数b作区间估计。39 (六)回归函数 函数值的点估计和置信区间4041(七)Y的观察值的点预测和预测区间424344注:在预测时,一定要落在已有的 的数据范围内部,否则预测常常没有意义。45例4,在例1中F.Galton曾断言“儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子身高的影响有回归到子代平均水平的趋势。”试问例1这组数据能证实这一论断吗(=0.05)?并给出x=69吋时,y的预测区间。(1)回归到平均水平的趋势,即检验 4647例5 合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中x:碳含量()y:钢的强度(kg/mm2)数据见下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0(1)画出散点图;(2)设(x)=a+bx,求a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数b是否为零(取=0.05);(5)求回归系数b的95置信区间;(6)求在x=0.06点,回归函数的点估计和95置信区间;(7)求在x=0.06点,Y的点预测和95区间预测。48 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 (1)合金钢的强度y与钢材中碳的含量x的散点图49x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.050 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19 x0e51 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 合金钢的强度y与钢材中碳的含量x的回归直线图525354八、控制问题八、控制问题要求y 以置信度1-在 内取值,x控制在 内,使其中的x所对应的观察值y满足55控制问题控制问题56对给出的 ,以置信度1-,有由此解出x即为x1由此解出x即为x2当样本容量n较大时,若取x0在x附近,则这时57(九)可化为一元线性回归的例子 实际中常会遇到很复杂的回归问题,但在某些情况下,通过适当的变量变换,可将其化为一元线性回归来处理。下面是三种常见的可转化为一元线性回归的模型。58592 多元线性回归 在实际问题中,影响Y(因变量)的因素(自变量)往往不止一个,设有 606162线性回归要解决的问题:63(二)最小二乘估计及其性质64656667例6 某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:表1.1.2 化妆品销售的调查数据 地区i销售(箱)Yi人数(千人)Xi1人均收入(元)Xi2116227424502120180325432233753802413120528385678623476169265378278198300868地区i销售(箱)Yi人数(千人)Xi1人均收入 (元)Xi281923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605化妆品销售的调查数据(续)6970由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加0.496箱;若固定人数不变,收入每增加1元,销售量增加0.0092箱。多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应的Y进行点预测和区间预测。所有这些都可以通过SAS软件实现。71727374757677正态线性模型参数估计的进一步性质78 参数估计的算法参数估计的算法参数估计的算法参数估计的算法当满足元线性回归模型理论假设的条件时,模型参数当满足元线性回归模型理论假设的条件时,模型参数当满足元线性回归模型理论假设的条件时,模型参数当满足元线性回归模型理论假设的条件时,模型参数 的最小二乘解为的最小二乘解为的最小二乘解为的最小二乘解为 可以证明可以证明可以证明可以证明 79其中其中其中其中 由此可见,由此可见,由此可见,由此可见,是是是是 的无偏估计的无偏估计的无偏估计的无偏估计.协方差阵协方差阵协方差阵协方差阵 反映出估计量反映出估计量反映出估计量反映出估计量 的波动大的波动大的波动大的波动大 小小小小,由于由于由于由于 是是是是 右乘一个矩阵右乘一个矩阵右乘一个矩阵右乘一个矩阵 所以所以所以所以 的的的的 波动大小可以由抽样过程中进行控制波动大小可以由抽样过程中进行控制波动大小可以由抽样过程中进行控制波动大小可以由抽样过程中进行控制.同一元线性回归分同一元线性回归分同一元线性回归分同一元线性回归分 析一样,在多元线性回归中,析一样,在多元线性回归中,析一样,在多元线性回归中,析一样,在多元线性回归中,样本抽样要尽可能的分散样本抽样要尽可能的分散样本抽样要尽可能的分散样本抽样要尽可能的分散.803.3.回归方程的显著性检验回归方程的显著性检验 多元回归方程显著性的整体性检验多元回归方程显著性的整体性检验多元回归方程显著性的整体性检验多元回归方程显著性的整体性检验检验解释变量检验解释变量检验解释变量检验解释变量 全体对因变量全体对因变量全体对因变量全体对因变量 是否有显是否有显是否有显是否有显 著影响,方法是著影响,方法是著影响,方法是著影响,方法是 检验,亦称方差分析检验,亦称方差分析检验,亦称方差分析检验,亦称方差分析.显著性检验的基本定理显著性检验的基本定理显著性检验的基本定理显著性检验的基本定理令令令令 总偏差平方和,自由度总偏差平方和,自由度总偏差平方和,自由度总偏差平方和,自由度 回归平方和,自由度回归平方和,自由度回归平方和,自由度回归平方和,自由度 81 残差平方和,自由度残差平方和,自由度残差平方和,自由度残差平方和,自由度 则有则有则有则有 且且且且 与与与与 相互独立相互独立相互独立相互独立.显著性检验基本方法显著性检验基本方法显著性检验基本方法显著性检验基本方法 F F F F检验(方差分析)检验(方差分析)检验(方差分析)检验(方差分析)检验假设检验假设82检验统计量及其分布检验统计量及其分布在在在在 为真时,为真时,为真时,为真时,与与与与相互独立,相互独立,相互独立,相互独立,于是检验统计量于是检验统计量于是检验统计量于是检验统计量检验的显著性概率检验的显著性概率83决策准则决策准则在在在在显显显显著性水平著性水平著性水平著性水平下,当下,当下,当下,当 时拒绝时拒绝时拒绝时拒绝,即认为即认为即认为即认为 回归方程有显著意义回归方程有显著意义回归方程有显著意义回归方程有显著意义.当当 时,称回归方程高度显著,标记为时,称回归方程高度显著,标记为时,称回归方程高度显著,标记为时,称回归方程高度显著,标记为*;当当 时,称回归方程显著,标记为时,称回归方程显著,标记为时,称回归方程显著,标记为时,称回归方程显著,标记为*;当当 时,称回归方程不显著,不做标记时,称回归方程不显著,不做标记时,称回归方程不显著,不做标记时,称回归方程不显著,不做标记.检验结果的报告(方差分析表)检验结果的报告(方差分析表)检验结果的报告(方差分析表)检验结果的报告(方差分析表)84方差来方差来方差来方差来源源源源偏差平方偏差平方偏差平方偏差平方和和和和自由度自由度自由度自由度F F值值值值p p值值值值显显显显著著著著性性性性回归回归回归回归残差残差残差残差总计总计总计总计此外,与一元线性回归分析类似,可用可决系数(复此外,与一元线性回归分析类似,可用可决系数(复此外,与一元线性回归分析类似,可用可决系数(复此外,与一元线性回归分析类似,可用可决系数(复相关系数)相关系数)相关系数)相关系数)85来测定回归方程对各个观测点的拟合程度,来测定回归方程对各个观测点的拟合程度,来测定回归方程对各个观测点的拟合程度,来测定回归方程对各个观测点的拟合程度,的值越大(小)表明回归直线对各个观测点的拟合程度的值越大(小)表明回归直线对各个观测点的拟合程度的值越大(小)表明回归直线对各个观测点的拟合程度的值越大(小)表明回归直线对各个观测点的拟合程度 越高(低越高(低越高(低越高(低).u多元回归方程中每个自变量对因变量影响多元回归方程中每个自变量对因变量影响多元回归方程中每个自变量对因变量影响多元回归方程中每个自变量对因变量影响 显著性检验显著性检验显著性检验显著性检验检验解释变量检验解释变量检验解释变量检验解释变量 对因变量对因变量对因变量对因变量 影响的显著性影响的显著性影响的显著性影响的显著性.检验假设检验假设86检验统计量及其分布检验统计量及其分布在在在在 为真时,检验统计量为真时,检验统计量为真时,检验统计量为真时,检验统计量 检验的显著性概率检验的显著性概率决策准则决策准则87在显著性水平在显著性水平在显著性水平在显著性水平 下,当下,当下,当下,当 时拒绝时拒绝时拒绝时拒绝 即认为解即认为解即认为解即认为解 释变量释变量释变量释变量 对因变量对因变量对因变量对因变量 影响显著影响显著影响显著影响显著.若存在不显著的变量,取若存在不显著的变量,取若存在不显著的变量,取若存在不显著的变量,取 从回归方程从回归方程从回归方程从回归方程 中剔除自变量中剔除自变量中剔除自变量中剔除自变量 设从原回归方程设从原回归方程设从原回归方程设从原回归方程 中剔除自变量中剔除自变量中剔除自变量中剔除自变量 后,重新建立的回归方程中为后,重新建立的回归方程中为后,重新建立的回归方程中为后,重新建立的回归方程中为 88则可以证明,新回归方程的系数与原回归方程的系数有则可以证明,新回归方程的系数与原回归方程的系数有则可以证明,新回归方程的系数与原回归方程的系数有则可以证明,新回归方程的系数与原回归方程的系数有如下关系:如下关系:如下关系:如下关系:对于新建立的回归方程,必须对每一个余下的变量对于新建立的回归方程,必须对每一个余下的变量对于新建立的回归方程,必须对每一个余下的变量对于新建立的回归方程,必须对每一个余下的变量再次进行检验,直至余下变量全部显著为止再次进行检验,直至余下变量全部显著为止再次进行检验,直至余下变量全部显著为止再次进行检验,直至余下变量全部显著为止.895.5.利用回归方程对系统进行预测利用回归方程对系统进行预测 点预测点预测点预测点预测设预测点为设预测点为设预测点为设预测点为 则则则则 是对是对是对是对的点估计,亦是对的点估计,亦是对的点估计,亦是对的点估计,亦是对90的点预测的点预测的点预测的点预测.区间预测区间预测区间预测区间预测可以证明可以证明可以证明可以证明其中其中其中其中(剩余方差),(剩余方差),(剩余方差),(剩余方差),91于是,点预测的误差为于是,点预测的误差为于是,点预测的误差为于是,点预测的误差为 即在即在即在即在 处的区间预测为处的区间预测为处的区间预测为处的区间预测为 92即即即即当当当当 较大,较大,较大,较大,时,可取时,可取时,可取时,可取 以此来简化计算以此来简化计算以此来简化计算以此来简化计算.936.6.应用范例应用范例水泥凝固时释放的热量与水泥中的成分的多元水泥凝固时释放的热量与水泥中的成分的多元水泥凝固时释放的热量与水泥中的成分的多元水泥凝固时释放的热量与水泥中的成分的多元线性回归分析线性回归分析线性回归分析线性回归分析水泥中的成分:水泥中的成分:水泥中的成分:水泥中的成分:的成分(的成分(的成分(的成分(%),),),),的成分(的成分(的成分(的成分(%),),),),的成分(的成分(的成分(的成分(%),),),),的成分(的成分(的成分(的成分(%).94959697