(本科)[11]第十一章 回归分析《统计学》(第二版)ppt课件.ppt
课程主讲人:11第十一章 回归分析统计学(第二版)第第十一十一章章 回归分析回归分析 Chapter 11 Regression Analysis 第一节第一节 回归分析的概述回归分析的概述 一、回归分析的概念一、回归分析的概念 回归分析回归分析( (Regression analysis) )是在一个变量与另是在一个变量与另一个变量或一组变量之间存在显著相关关系的前提下,一个变量或一组变量之间存在显著相关关系的前提下,依据其相关的类型,拟合恰当的趋势模型,以近似地依据其相关的类型,拟合恰当的趋势模型,以近似地模拟变量间平均变化趋势的统计分析方法。模拟变量间平均变化趋势的统计分析方法。 “ “回归回归”一词可溯源于一词可溯源于1919世纪后半期英国遗传学世纪后半期英国遗传学家高尔登家高尔登( (Francis Galton) )对遗传问题所进行的研究对遗传问题所进行的研究(The statistical methods used in studying the relation-ship between two variables were first employed by Sir Francis Galton F. .R. .S. 1822-1911. 1822-1911.)。在)。在1877-18891877-1889年期间,高尔登得出了一个经典的数学公式,用此公年期间,高尔登得出了一个经典的数学公式,用此公式可较好地度量子女的身高与父母身高之间的关系式可较好地度量子女的身高与父母身高之间的关系(Measuring the relationship between a fathers height and the sons height.)。通过对遗传现象的大量观察)。通过对遗传现象的大量观察和公式测算,假如父母的身高是在人类平均身高的水和公式测算,假如父母的身高是在人类平均身高的水平上上下波动平上上下波动 英寸,英寸,则其子女的身高就是在人类平则其子女的身高就是在人类平均高度上下波动均高度上下波动 英寸。他由此发现了一个规律:子英寸。他由此发现了一个规律:子 x23x 女的平均高度有返归于人类总平均高度的倾向,这就女的平均高度有返归于人类总平均高度的倾向,这就是著名的是著名的“回归法则回归法则”。尽管。尽管“ ”“ ”这个数值当时并这个数值当时并未被学术界作最后定论,但是未被学术界作最后定论,但是“回归回归( (regression)”)”这这一名词最初用于研究血缘关系,而今它已经成为统计一名词最初用于研究血缘关系,而今它已经成为统计上研究事物现象间相互关系的通用语。上研究事物现象间相互关系的通用语。 2010 2010年年1 1月,姚明妻子月,姚明妻子“叶莉有喜啦!叶莉有喜啦!”的消息被的消息被媒体披露,线上线下的好事者纷纷猜测姚明、叶莉所媒体披露,线上线下的好事者纷纷猜测姚明、叶莉所生的孩子是否也会长成巨人。不过,孙逸仙纪念医院生的孩子是否也会长成巨人。不过,孙逸仙纪念医院(Sun Yat-sen Memorial Hospital)儿科内分泌专科专)儿科内分泌专科专家称:姚明的孩子未必如同父母一样家称:姚明的孩子未必如同父母一样“鹤立鸡群鹤立鸡群”。孩子的身高孩子的身高7070由遗传因素所决定,由遗传因素所决定,30%30%由营养、运动、由营养、运动、睡眠、生活环境等因素决定。睡眠不足、偏食、肥胖、睡眠、生活环境等因素决定。睡眠不足、偏食、肥胖、心情压抑等均会影响身体长高。可见,巨人心情压抑等均会影响身体长高。可见,巨人未必都生“小巨人”。 医学上预测医学上预测下一代成年后的身高公式:下一代成年后的身高公式:23x儿子成年身高(儿子成年身高(cm) 父亲身高(父亲身高(cm) 母亲身高(母亲身高(cm) 2 6.5 2 6.5女儿成年身高(女儿成年身高(cm) 父亲身高(父亲身高(cm) 母亲身高(母亲身高(cm) 2 6.5 2 6.5 姚明身高姚明身高2.272.27米,叶莉身高米,叶莉身高1.901.90米。根据以上公式米。根据以上公式计算,姚明的儿子身高约计算,姚明的儿子身高约2.152.15米,而女儿则约为米,而女儿则约为2.022.02米。米。其实该公式只是预测身高遗传趋势,实际身高可能与公其实该公式只是预测身高遗传趋势,实际身高可能与公式预测的身高相差式预测的身高相差 5 5厘米以上。姚明的父亲姚志源曾厘米以上。姚明的父亲姚志源曾是上海篮球队中锋,身高是上海篮球队中锋,身高2.082.08米,其母亲方凤娣曾是中米,其母亲方凤娣曾是中国女篮队长,身高国女篮队长,身高1.881.88米,当时被誉为米,当时被誉为“亚洲第一篮球亚洲第一篮球伉俪伉俪”。19801980年年9 9月月1212日,方凤娣在上海第六医院产下日,方凤娣在上海第六医院产下“小巨人小巨人”姚明。根据以上公式,姚明的身高应该是姚明。根据以上公式,姚明的身高应该是2.052.05米。孕味足的女人韵味足米。孕味足的女人韵味足叶莉,北京时间叶莉,北京时间20102010年年5 5月月2222日在美国休斯敦当地医院顺利产下一个体重日在美国休斯敦当地医院顺利产下一个体重 3.63.6公斤女婴。在姚叶千金成长时期,公斤女婴。在姚叶千金成长时期,“姚二代姚二代”的身的身高毋庸置疑地将时常会受到媒体瞩目和坊间期盼。高毋庸置疑地将时常会受到媒体瞩目和坊间期盼。 二、回归分析主要解决的问题二、回归分析主要解决的问题 1 1确定变量间的回归关系确定变量间的回归关系 用一组存在相关变量的样本观察数据来确定这些用一组存在相关变量的样本观察数据来确定这些变量间的回归关系。该关系是以回归方程的形式来描变量间的回归关系。该关系是以回归方程的形式来描述的,这实际上是相关变量间不确定、不规则的数量述的,这实际上是相关变量间不确定、不规则的数量关系的一般化和规则化。关系的一般化和规则化。 回归关系,又称广义的相关关系,它是指变量之回归关系,又称广义的相关关系,它是指变量之间存在的主从关系或因果关系。在回归方程中,解释间存在的主从关系或因果关系。在回归方程中,解释变量变量 ,即原因因素,称为自变量,即原因因素,称为自变量( (Independent vari-able) ),被解释变量,被解释变量 ,即结果因素,称为因变量,即结果因素,称为因变量( (Dependent variable) )。具有回归关系的变量的地位是。具有回归关系的变量的地位是不对等的,即要准确识别那个变量是自变量,那个变不对等的,即要准确识别那个变量是自变量,那个变量是因变量,它们间不能易位。自变量量是因变量,它们间不能易位。自变量 是可控制的是可控制的非随机变量,而因变量非随机变量,而因变量 除受自变量除受自变量 影响外,同影响外,同时还受到其他随机因素的干扰,因此时还受到其他随机因素的干扰,因此 是随机变量。是随机变量。 xyxyxy 2 2筛选自变量和检验回归系数的显著性筛选自变量和检验回归系数的显著性 既要选用与因变量关系密切的变量作为回归模型既要选用与因变量关系密切的变量作为回归模型的备选的自变量,又要对这些备选的自变量进一步筛的备选的自变量,又要对这些备选的自变量进一步筛选,最后,只将自变量之间关系不密切的变量引入回选,最后,只将自变量之间关系不密切的变量引入回归模型中,而剔除自变量之间关系密切的变量,以避归模型中,而剔除自变量之间关系密切的变量,以避免回归模型中出现多重共线性。所谓多重共线性免回归模型中出现多重共线性。所谓多重共线性(Multi-collinearity),就是指在自变量中有两个或两),就是指在自变量中有两个或两个以上的自变量之间存在着完全线性或几乎完全线性个以上的自变量之间存在着完全线性或几乎完全线性的关系。的关系。 回归分析是考察变量间关系的性质,而具体回归回归分析是考察变量间关系的性质,而具体回归分析的统计指标分析的统计指标回归系数,它是说明自变量与因回归系数,它是说明自变量与因变量之间的变动比例关系。对回归系数的显著性需要变量之间的变动比例关系。对回归系数的显著性需要进行假设检验。进行假设检验。 3 3判断回归内插和外推的有效性判断回归内插和外推的有效性 回归模型通常是根据呈回归关系的变量的一组有回归模型通常是根据呈回归关系的变量的一组有 限的样本数据利用最小二乘法拟合的,在样本数据的限的样本数据利用最小二乘法拟合的,在样本数据的取值全距范围内即条件区域内,回归模型所模拟的现取值全距范围内即条件区域内,回归模型所模拟的现象的走势轨迹是最优的,在平均意义上讲,该模型充象的走势轨迹是最优的,在平均意义上讲,该模型充分体现了回归变量间的数量变化规律性。若将该模型分体现了回归变量间的数量变化规律性。若将该模型运用于条件区域之外,则会因回归变量间的数量变化运用于条件区域之外,则会因回归变量间的数量变化形式的改变,而会使得原有回归模型模拟失效。由此形式的改变,而会使得原有回归模型模拟失效。由此可知,回归模型尤其是未引入随机扰动项(即未加上可知,回归模型尤其是未引入随机扰动项(即未加上误差项)的回归模型,只是在条件区误差项)的回归模型,只是在条件区域内有效,仅适域内有效,仅适宜内插推算,而不适宜外推预测,即回归模型的推测宜内插推算,而不适宜外推预测,即回归模型的推测只能在条件区域内进行。只能在条件区域内进行。 如:工龄如:工龄( (年年) )与工人劳动生产率与工人劳动生产率( (件件/ /日日) )的关系,的关系,随着工龄的增长,劳动生产率会相应地逐渐提高的趋随着工龄的增长,劳动生产率会相应地逐渐提高的趋势。当工龄接近势。当工龄接近5050岁的老年工人的工龄时,通常随着岁的老年工人的工龄时,通常随着工龄的继续增长,则劳动生产率可能会呈抛物线型的工龄的继续增长,则劳动生产率可能会呈抛物线型的下降。假如新工人平均下降。假如新工人平均2525岁上岗,则工龄岁上岗,则工龄 的条件区的条件区x 域为域为0 02525年,即年,即 。利用工龄。利用工龄15152525年的样年的样本资料配合回归方程,可推测本资料配合回归方程,可推测0 02525年中任某一工龄的年中任某一工龄的劳动生产率。劳动生产率。 再如:农作物随着施肥量的增加而逐渐会增产,再如:农作物随着施肥量的增加而逐渐会增产,施肥量施肥量 和农作物产量和农作物产量 大致可配合正相关的回归方大致可配合正相关的回归方程。若施肥量程。若施肥量 超过一定的限度,则产量超过一定的限度,则产量 反而会下反而会下降。降。 又如:树木适度密植会增产林木,若过度密植,又如:树木适度密植会增产林木,若过度密植,则林木会减产。在计量经济学的理论基础上,适当超则林木会减产。在计量经济学的理论基础上,适当超出变量间的数量变化的条件区域,通过对回归系数等出变量间的数量变化的条件区域,通过对回归系数等一系列检验,在一定的概率保证程度下,可对仍持续一系列检验,在一定的概率保证程度下,可对仍持续未发生质的变化的变量的关系作近期预测。但是,通未发生质的变化的变量的关系作近期预测。但是,通常情况下要对原模型进行修正,或重新配合新的模型。常情况下要对原模型进行修正,或重新配合新的模型。 将自变量的数值代人回归方程,可估计因变量的将自变量的数值代人回归方程,可估计因变量的趋势值,趋势值又称估计值或理论值。由于自变量趋势值,趋势值又称估计值或理论值。由于自变量0,25xxyxyx 是非随机变量,因此,所建立的回归方程是不能互推,是非随机变量,因此,所建立的回归方程是不能互推,即只能由即只能由 推算推算 ,而不能像纯数学方程式那样,由,而不能像纯数学方程式那样,由 推算推算 。因为这样推算没有体现统计学中的定性定。因为这样推算没有体现统计学中的定性定量相结合地分析大量社会经济数量方面的特征,从定量相结合地分析大量社会经济数量方面的特征,从定性的角度分析性的角度分析 不是不是 的因,因而的因,因而 也不是也不是 的果,的果,因此,因此, 推算推算 ,不能表明变量之间的因果对应关系。,不能表明变量之间的因果对应关系。 三、回归方程的由来和类别三、回归方程的由来和类别 对呈相关关系的变量之间的数量变化,在二维平对呈相关关系的变量之间的数量变化,在二维平面或三维空间的坐标系中的散点分布进行识别,对应面或三维空间的坐标系中的散点分布进行识别,对应自变量自变量 的每一个值,因变量的每一个值,因变量 会有许多可能的取值,会有许多可能的取值,为了反映为了反映 与与 之间的数量变化趋势,就取与某一之间的数量变化趋势,就取与某一 对应的所有可能的对应的所有可能的 值的均值值的均值 作为代表值或作为代表值或趋势值,从而可得到趋势值,从而可得到 倚倚 回归关系式:回归关系式: xyyxyxxyyxxyxyxy|E y xyx |yf xE y x 此式说明此式说明 与与 的对应关系是就平均的意义下说的对应关系是就平均的意义下说的(的(Write the regression equation as to emphasize that the regression equation provides the mean value of for a given value of .)。)。 在实际应用中,通常依据有关的专业理论知识和在实际应用中,通常依据有关的专业理论知识和经验,或用观察数据作散点图,观察分布形状,确定经验,或用观察数据作散点图,观察分布形状,确定变量之何变化的关系或类型。变量之何变化的关系或类型。 按呈回归关系的变量的多少,回归方程可以分为按呈回归关系的变量的多少,回归方程可以分为一元回归方程和多元回归方程;按呈回归关系的变量一元回归方程和多元回归方程;按呈回归关系的变量是否线性,回归方程可以分为线性回归方程和非线性是否线性,回归方程可以分为线性回归方程和非线性回归方程。回归方程。 yx()E y xxyx 第二节第二节 回归分析的概述回归分析的概述 一、一元线性回归模型的概念一、一元线性回归模型的概念 一元线性回归模型,又称简单直线回归模型,它一元线性回归模型,又称简单直线回归模型,它是指一个因变量只与一个自变量有依从关系,两变量是指一个因变量只与一个自变量有依从关系,两变量间关系形态表现为直线趋势的模型。间关系形态表现为直线趋势的模型。 二、一元线性总体回归模型二、一元线性总体回归模型 则,总体回归直线为:则,总体回归直线为: 式中:式中: 表示总体变量表示总体变量 的第的第 个观察值;个观察值; 表示总体变量表示总体变量 的第的第 个观察值;个观察值; 表示总体第表示总体第 个随机项;个随机项; 表示总体表示总体 的条件平均数;的条件平均数; 、 表示总体回归参数。表示总体回归参数。 、 的含义为:的含义为: 为因变量的初始值,当为因变量的初始值,当 时,它是时,它是 的期望值,即是回归直线在的期望值,即是回归直线在 轴上轴上的截距:的截距: 为总体为总体 对对 回归系数,它是度量当回归系数,它是度量当 变变动一个单位时所引起动一个单位时所引起 相应平均可能变化的单位量。相应平均可能变化的单位量。当当 时,时, 与与 为正相关;当为正相关;当 时,时, 与与 为为负相关。负相关。 iiiyx1,2,iN y|xxixxiiyyiiiy|xiy0 x yyyxxy0 xy0 xy 通常,通常, 与与 的计量单位是不同的。的计量单位是不同的。 为了使利用样本推断总体成为可靠的估计,总体为了使利用样本推断总体成为可靠的估计,总体回归模型的建立必须基于如下基本假设:回归模型的建立必须基于如下基本假设: 1. 1. 是可控的非随机变量,当是可控的非随机变量,当 取某一个取某一个 值时,值时,相应相应 有许多有许多 值与之对应,值与之对应, 是随机变量,这些是随机变量,这些 构成一个在构成一个在 条件下的条件分布,并假设其服从条件下的条件分布,并假设其服从正态分布,且正态分布,且 (Expected value of zero of ),则所有),则所有 的条件分布的平均值位于给定的条件分布的平均值位于给定 值的回归线上,呈线性关系,如图值的回归线上,呈线性关系,如图10-1410-14所示。所示。 xyixxixyiyiyiyix 0iEiiiyx 图图11-1 11-1 线性回归模型图线性回归模型图 2. 2. 在任意在任意 值上,所有值上,所有 的条件分布的方差的条件分布的方差是相等的,即具有同方差性(是相等的,即具有同方差性(The variance of ,de-noted by ,is the same for all values of .)。)。 ( (如图如图11-211-2所示所示) ) y1xxo1y xxixiyi2iix2var( )i(1,2, )in Implication:The variance of about the regression line equals and is the same for all values of . e. .g. . in Figure 11-3 11-3, , , , 3. 3. 随机扰动项随机扰动项 是相互独立的,是相互独立的,不存在序列相关,即不存在序列相关,即 , (The values of are independent.)。)。 e. .g. . in Figure 11-3 11-3, . . 4. 4. 对多元线性回归模型,各自变量是相互独立的,对多元线性回归模型,各自变量是相互独立的,不存在多重共线性,即不存在多重共线性,即 , 。 y2x12(,)iiiineee12(,)jjjjneee22ij( ,1,2, ;)i jn ij()iiiyxcov( ,)ij 0()ij()( ) ()ijijEEE ()ijcov(,)0ijx x()ij 备注:对每一个值,分布有同样形状备注:对每一个值,分布有同样形状( (The distributions have the same shape at each value) )。 图图11-2 11-2 回归模型假设图回归模型假设图 ( , )f x yy1xo2x3xxy xx1y x2y x3y x 三、一元线性样本回归模型三、一元线性样本回归模型 则,样本回归直线为:则,样本回归直线为: 式中:式中: 表示样本变量表示样本变量 的第的第 个观察值;个观察值; 表示样本变量表示样本变量 的第的第 个观察值;个观察值; 表示样本第表示样本第 个随机项;个随机项; 表示样本对总体表示样本对总体 的估计值;的估计值; , 表示样本回归参数。表示样本回归参数。 , 的含义为:的含义为: 为因变量的初始值,它是当为因变量的初始值,它是当 时时 的平均可能取值,即为回归直线与的平均可能取值,即为回归直线与 轴的轴的交点;交点; 为样本为样本 对对 回归系数,它是直线的斜率,回归系数,它是直线的斜率,表示表示 每变动一个单位所引起每变动一个单位所引起 的平均变动数。当的平均变动数。当 时,时, 与与 为正相关;当为正相关;当 时,时, 与与 为为负相关。负相关。 iiiyabxe1,2,in yabxixxiiyyiiei yy|xababa0 x yybyxxy0b xy0bxy 四、一元线性回归模型的参数的最小二乘估计四、一元线性回归模型的参数的最小二乘估计 1 1最小二乘法的概念最小二乘法的概念 实际上,总体实际上,总体 和和 的真值是不可能进行全面的真值是不可能进行全面观察获得的,因而只能从全及总体中抽取部分资料作观察获得的,因而只能从全及总体中抽取部分资料作为样本,通过样本来推断总体,因此,根据样本的观为样本,通过样本来推断总体,因此,根据样本的观察值资料拟合的回归模型是对总体模型的估计,如图察值资料拟合的回归模型是对总体模型的估计,如图11-311-3所示。所示。 xy The th error(第(第 个偏误)个偏误) 图图11-3 11-3 观察值与理论值的偏差图观察值与理论值的偏差图 、 、 分别为分别为 、 、 的估计量,随着样的估计量,随着样本容量的增大,它们之间的差异会变小。本容量的增大,它们之间的差异会变小。 yyixjxxoiiiiieyy330jjjeyyiyiyyiyy1jy3jy110jjjeyy yabx220jjjeyy2jyabiei 就样本回归线就样本回归线 而言,每输入一个观察而言,每输入一个观察值值 ,计算得到的回归值,计算得到的回归值 往往不一定与实际观察值往往不一定与实际观察值 相等,很可能会存在一定的偏差,即:相等,很可能会存在一定的偏差,即: 若要使样本回归线充分代表总体回归线,即若要使样本回归线充分代表总体回归线,即 、 、 成为成为 、 、 的最优估计量,则各个相关点与样的最优估计量,则各个相关点与样本回归线应当是最接近。换句话说,这样对散点趋势本回归线应当是最接近。换句话说,这样对散点趋势分布所拟合的回归线就会最优。显然,残差分布所拟合的回归线就会最优。显然,残差 的平方的平方和刻划了全部观察值(相关点)与回归值的偏离程度。和刻划了全部观察值(相关点)与回归值的偏离程度。无论无论 是正偏离还是负偏离,反正都是描绘理论值与是正偏离还是负偏离,反正都是描绘理论值与实际值的偏差。若要反映总偏差,不能将实际值的偏差。若要反映总偏差,不能将 直接汇总,直接汇总,而首先应当把而首先应当把 变成非负的形式。要么变成变成非负的形式。要么变成 ,要么,要么变成变成 。前者不易代数运算(。前者不易代数运算(Not easy to algebra),),故通常采用后者。故通常采用后者。 ( (最小值最小值) ),就是最小二,就是最小二乘法的形式。乘法的形式。 yabxixiyiyiiieyyabieiieieieieie2ie2minie 所谓最小二乘法(所谓最小二乘法(Note: Carl Friedrich Gauss (1777-1855) (1777-1855) proposed the least squares method.),),它是依据数学偏导数求极值的原理(它是依据数学偏导数求极值的原理(Calculus-Based Derivation of Least Squares Formulas),拟合的最优),拟合的最优趋势线必须满足以下两个条件:趋势线必须满足以下两个条件: (1 1)实际观察值)实际观察值 与回归方程推算的理论值与回归方程推算的理论值 的离差之和为零,即的离差之和为零,即 ; (2 2)实际观察值)实际观察值 与回归方程推算的理论值与回归方程推算的理论值 的离差平方和为最小,即的离差平方和为最小,即 minimum。 2 2最小二乘法估计参数的过程最小二乘法估计参数的过程 对该式求关于对该式求关于 和和 的一阶偏导数的一阶偏导数( (Take the partial derivatives with respect to and , set them equal to zero, and solve.) ):iyiy()0iiyyiyiy2()iiyy22iiieyy 2iiyabx min abab 该联立方程式(该联立方程式(Simultaneous equations)经整理,)经整理,得到以下规范方程组得到以下规范方程组( (Normal equations) ): 求解这个方程组可以得到和回归系数的计算公式:求解这个方程组可以得到和回归系数的计算公式: 22e=210e=20iiiiiiiyabxayabxxb 2yiiiiiinabxx yaxbx 、 分别是分别是 、 的最小二乘枯计值。由此可以的最小二乘枯计值。由此可以得到样本回归模型:得到样本回归模型: 3 3回归系数计算公式的衍生形式回归系数计算公式的衍生形式 证证 22()iiiiiiiinx yxybnxxyxabybxnn abiiiyabxeyxbr 2222()()nxyxyrnxxnyy 即即 222222()()()nxxnxyxynxxnyy 2222xxnnnbyynnnxybyxbr 范例范例11.1 11.1 根据范例根据范例10.510.5的表的表10-610-6所给资料,试所给资料,试配合该配合该1010名学生的统计学成绩与高等数学成绩的直线名学生的统计学成绩与高等数学成绩的直线回归方程。回归方程。 法一:据例法一:据例10.510.5的结论可知,高等数学成绩的结论可知,高等数学成绩 与与统计学成绩统计学成绩 之间存在显著正线性相关,故可以设所之间存在显著正线性相关,故可以设所求的直线回归方程为:求的直线回归方程为: xy yabx22()iiiiiinx yxybnxx 210657847968080.97310648707968087960.9733.3491010iiyxabnn 将将 、 的值代入所设的回归模型中,则得到所的值代入所设的回归模型中,则得到所求的直线回归模型为:求的直线回归模型为: 法二:法二: ab3.3490.973yx2()xxxn22xxnn264870796101012.2822()yyyn22yynn266940808101012.8590.929r 12.8590.9290.97312.828yxbr iiyxabnn8087960.97310103.3493.3490.973yx 第三节第三节 回归分析中的显著性检验回归分析中的显著性检验 一一、回归系数的显著性检验回归系数的显著性检验 变量变量 与与 之间存在线性关系的主要标志是之间存在线性关系的主要标志是 会会随着随着 的变化而变化,而两变量是否会依存变化,这的变化而变化,而两变量是否会依存变化,这可以由回归系数可以由回归系数 来反映。来反映。 可以证得样本回归参数可以证得样本回归参数 、 分别为总体回归参分别为总体回归参数数 、 的线性无偏估计量。由此推知,样本回归系的线性无偏估计量。由此推知,样本回归系数数 是否与是否与0 0有显著差异,也就说明了有显著差异,也就说明了总体回归系数总体回归系数 是否为是否为0 0。 abbxyyx 若若 ,则表明总体回归直线是一条水平线,则表明总体回归直线是一条水平线, 与与 之间无线性关系,这样就违背了一元线性回归模之间无线性关系,这样就违背了一元线性回归模型的基本假设;型的基本假设; 若若 ,则表明总体回归直线不是一条水平线,则表明总体回归直线不是一条水平线, 与与 之间有线性关系,这样就符合了一元线性回归之间有线性关系,这样就符合了一元线性回归模型的基本假设。模型的基本假设。 回归系数的检验步骤:回归系数的检验步骤: step1 1:提出假设:提出假设 零假设零假设 表明样本是从一个没有线性关系的总表明样本是从一个没有线性关系的总体中抽取的;体中抽取的; 备择假设备择假设 表明样一本是从一个有线性关系的总表明样一本是从一个有线性关系的总体中抽取的。体中抽取的。 0 xy0 xy0:0H1:0H 0H1H step2 2:选择统计量:选择统计量 式中式中: : 表示回归系数表示回归系数 的临界值。的临界值。 上式是以总体回归系数上式是以总体回归系数 为中心,为中心, ; 回归系数回归系数 的标准差:的标准差: 回归估计标准误差:回归估计标准误差: bbbtSbtb0b|2y xbiSSxx2|2iy xyySn22iiiiyaybx yn 由于回归直线是固定的,它具有两个约束条件:由于回归直线是固定的,它具有两个约束条件: 和和 ,因此要减去,因此要减去两个自由度,计算两个自由度,计算 的公式分母是的公式分母是 。 为此,统计量为此,统计量 可以改写为:可以改写为: step3 3:导出决定规则:导出决定规则 通常选择显著性水平通常选择显著性水平 。由于备择假设。由于备择假设 , ,而而 可以大于可以大于0 0,也可以小于,也可以小于0 0,所以须采,所以须采用双尾检验。查用双尾检验。查 分布表,得到相应的临界值分布表,得到相应的临界值 。 若若 ,则经过从总体中抽样得到的样,则经过从总体中抽样得到的样本回归系数本回归系数 的可能性大于的可能性大于 (=5%)(=5%),此时应该,此时应该接受原假设接受原假设 ; iiynabxiix y2iiaxbx| y xS2fdnbt|2by xibtSxx0.051:0Ht22tn22bttn0b %0H 若若 ,则样本回归系数,则样本回归系数 的可能的可能性小于性小于 (=5%)(=5%),此时应拒绝原假设,此时应拒绝原假设 ,否定,否定 ,从而得出变量,从而得出变量 与与 之间存在线性关系。之间存在线性关系。 范例范例11.2 11.2 根据例根据例10.510.5和例和例11.111.1的资料及结论,的资料及结论,试检验拟合的线性回归方程是否显著。试检验拟合的线性回归方程是否显著。 解解 22bttn0b %0H0 xy0.973b 2|2iiiiy xyaybx ySn669403.3498080.973 657841025.317222iiixxxxn 279664870101508.421028fdn 由于由于 ,所以对回归系数,所以对回归系数 的假设检验应的假设检验应选择选择 检验。检验。 step1 1:提出假设:提出假设 step2 2:选择统计量:选择统计量 step3 3:导出决定规则:导出决定规则 选择显著性水平选择显著性水平 , 由于由于 ,表明回归系数,表明回归系数 的的 值大于值大于5%5%显著性水平上的临界值,因而拒绝零假设显著性水平上的临界值,因而拒绝零假设 。从样从样 1030n bt0:0H1:0H |2by xibtSxx0.9735.3171508.47.1070.0520.05/22102tnt 0.0258t2.30622bttnbt0H 本资料检验到样本回归系数本资料检验到样本回归系数 是显著的,从而推知,是显著的,从而推知,变量变量 与与 之间存在线性关系,所以表明高等数学成之间存在线性关系,所以表明高等数学成绩与统计学成绩之间确实存在线性关系,高等数学成绩与统计学成绩之间确实存在线性关系,高等数学成绩是影响统计学成绩的显著因素。绩是影响统计学成绩的显著因素。 二、拟合优度的检验二、拟合优度的检验 拟合优度是指依据给定的样本各个观察值拟合优度是指依据给定的样本各个观察值 与相与相应观察值应观察值 之间数量关系的变化趋势所拟合的回归直之间数量关系的变化趋势所拟合的回归直线的优良程度。线的优良程度。 若各相关点紧密分布于回归直线周围,说明直线若各相关点紧密分布于回归直线周围,说明直线对这两变量的数量变化关系描述得愈好,即回归直线对这两变量的数量变化关系描述得愈好,即回归直线对样本数据点的拟合优度愈高。对样本数据点的拟合优度愈高。 拟合优度的检验有如下两种方法:拟合优度的检验有如下两种方法: 1 1残差图法(残差图法(Residual plots method) 如果回归直线对相关点的分布趋势拟合优良,那如果回归直线对相关点的分布趋势拟合优良,那bxyxy 么残差的绝对数值就比较小,所描绘的点会在么残差的绝对数值就比较小,所描绘的点会在 的水平线的上下随机分布,的水平线的上下随机分布, 。 如果回归直线对相关点的分布走势拟合失真(或如果回归直线对相关点的分布走势拟合失真(或有一定偏差),那么残差的绝对数值就会比较大,所有一定偏差),那么残差的绝对数值就会比较大,所描绘的点不会在描绘的点不会在 的水平线的上下随机分布,而的水平线的上下随机分布,而会出现逐渐递增或逐渐递减的系统变动趋势。会出现逐渐递增或逐渐递减的系统变动趋势。 2 2可决系数法可决系数法 可决系数可决系数( (Coefficient of determination) )是总离差是总离差平方和中有多大的比例可以用回归直线来解释,反映平方和中有多大的比例可以用回归直线来解释,反映了回归方程对各实际样本观察值分布走势的拟合优度。了回归方程对各实际样本观察值分布走势的拟合优度。回归分析中定义样本的可决系数为回归分析中定义样本的可决系数为 , ,其公式形式为:其公式形式为: 式中:子项(式中:子项(Numerator)和母项()和母项(Denominator)0ie 20,ieN0ie 2r222iiyyryy 表示的含义可见图表示的含义可见图10-2010-20。 不能解释的离差不能解释的离差 总离差总离差 可以解释的离差可以解释的离差 图图11-7 11-7 离差分解图离差分解图 下面对可决系数公式进行推导。下面对可决系数公式进行推导。 从图从图11-711-7中可以看出相关点的离差有三种表现:中可以看出相关点的离差有三种表现: (1 1)总离差()总离差(total sum of squares)。它是每)。它是每个个 yyoxiy()iiiyye()iyy()iyy yabx 观察值与各观察值的均值的离差,即。观察值与各观察值的均值的离差,即。 总离差平方和(总离差平方和(Total Sum of Squares):): 总离差平方和反映了因变量总离差平方和反映了因变量 的的 个观察值的离个观察值的离散程度。散程度。 (2 2)回归离差,又称可用回归直线解释的离差)回归离差,又称可用回归直线解释的离差( (Explained deviation) )。它是每个回归值。它是每个回归值 与各观察与各观察值的均值值的均值 的离差,即的离差,即 。 可以解释的离差平方和(可以解释的离差平方和(Sum of Squares due to Regression)()(SSR can be thought of as the explained portion of SST):): 可以解释的离差平方和反映了在可以解释的离差平方和反映了在 的总变差中因的总变差中因 与与 之间的线性回归关系而引起的之间的线性回归关系而引起的 的变化部分。的变化部分。 2iSSTyy yniyyiyy2iSSRyy yxyy (3 3)剩余离差,又称不能用回归直线解释的离差)剩余离差,又称不能用回归直线解释的离差( (Unexplained deviation) ),或称随机(因素)离差、残,或称随机(因素)离差、残差。它是每个观察值与相应的回归值的离差,即。差。它是每个观察值与相应的回归值的离差,即。 不能解释的离差平方和(不能解释的离差平方和(Sum of Squares due to Error)()(SSE can be thought of as the unexplained portion of SST.):): 不能解释的离差平方和反映了除不能解释的离差平方和反映了除 对对 的线性回的线性回归关系影响之外的其他随机因素对归关系影响之外的其他随机因素对 的总变差的影响的总变差的影响部分。由于随机因素的干扰,往往理论值与实际值会部分。由于随机因素的干扰,往往理论值与实际值会不等,二者的差值即为随机离差。不等,二者的差值即为随机离差。 图图11-711-7中反映出:中反映出: 总离差总离差 回归离差回归离差 剩余离差剩余离差 2iiSSEyy xyyiyyiyyiiyy1,2,in 而剩余离差就是总离差减去回归离差后剩下的离而剩余离差就是总离差减去回归离差后剩下的离差而得名。差而得名。 对上式两边平方,再对两边求和,得:对上式两边平方,再对两边求和,得: 式中:式中: ,该式有三种证明方法,该式有三种证明方法,各证法使用了不同的前提条件,不妨以下给予分别介各证法使用了不同的前提条件,不妨以下给予分别介绍。绍。 法一:由最小二乘法估计法一:由最小二乘法估计 、 时,有时,有2iyy2iyy2iiyy2iyyiiyyiyy0iiyyab220iiieyabxa 0iiyabx 又又 而而 因此,因此, 220iiiiexyabxb 0iiixyabx iiyabxiyyiiyyiiiabxyyabx iiiaybxyabx 法二:法二: ii