(本科)[11]第十一章 回归分析《统计学》(第二版)ppt课件.ppt
《(本科)[11]第十一章 回归分析《统计学》(第二版)ppt课件.ppt》由会员分享,可在线阅读,更多相关《(本科)[11]第十一章 回归分析《统计学》(第二版)ppt课件.ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课程主讲人:11第十一章 回归分析统计学(第二版)第第十一十一章章 回归分析回归分析 Chapter 11 Regression Analysis 第一节第一节 回归分析的概述回归分析的概述 一、回归分析的概念一、回归分析的概念 回归分析回归分析( (Regression analysis) )是在一个变量与另是在一个变量与另一个变量或一组变量之间存在显著相关关系的前提下,一个变量或一组变量之间存在显著相关关系的前提下,依据其相关的类型,拟合恰当的趋势模型,以近似地依据其相关的类型,拟合恰当的趋势模型,以近似地模拟变量间平均变化趋势的统计分析方法。模拟变量间平均变化趋势的统计分析方法。 “ “
2、回归回归”一词可溯源于一词可溯源于1919世纪后半期英国遗传学世纪后半期英国遗传学家高尔登家高尔登( (Francis Galton) )对遗传问题所进行的研究对遗传问题所进行的研究(The statistical methods used in studying the relation-ship between two variables were first employed by Sir Francis Galton F. .R. .S. 1822-1911. 1822-1911.)。在)。在1877-18891877-1889年期间,高尔登得出了一个经典的数学公式,用此公年期间,高尔
3、登得出了一个经典的数学公式,用此公式可较好地度量子女的身高与父母身高之间的关系式可较好地度量子女的身高与父母身高之间的关系(Measuring the relationship between a fathers height and the sons height.)。通过对遗传现象的大量观察)。通过对遗传现象的大量观察和公式测算,假如父母的身高是在人类平均身高的水和公式测算,假如父母的身高是在人类平均身高的水平上上下波动平上上下波动 英寸,英寸,则其子女的身高就是在人类平则其子女的身高就是在人类平均高度上下波动均高度上下波动 英寸。他由此发现了一个规律:子英寸。他由此发现了一个规律:子 x
4、23x 女的平均高度有返归于人类总平均高度的倾向,这就女的平均高度有返归于人类总平均高度的倾向,这就是著名的是著名的“回归法则回归法则”。尽管。尽管“ ”“ ”这个数值当时并这个数值当时并未被学术界作最后定论,但是未被学术界作最后定论,但是“回归回归( (regression)”)”这这一名词最初用于研究血缘关系,而今它已经成为统计一名词最初用于研究血缘关系,而今它已经成为统计上研究事物现象间相互关系的通用语。上研究事物现象间相互关系的通用语。 2010 2010年年1 1月,姚明妻子月,姚明妻子“叶莉有喜啦!叶莉有喜啦!”的消息被的消息被媒体披露,线上线下的好事者纷纷猜测姚明、叶莉所媒体披露
5、,线上线下的好事者纷纷猜测姚明、叶莉所生的孩子是否也会长成巨人。不过,孙逸仙纪念医院生的孩子是否也会长成巨人。不过,孙逸仙纪念医院(Sun Yat-sen Memorial Hospital)儿科内分泌专科专)儿科内分泌专科专家称:姚明的孩子未必如同父母一样家称:姚明的孩子未必如同父母一样“鹤立鸡群鹤立鸡群”。孩子的身高孩子的身高7070由遗传因素所决定,由遗传因素所决定,30%30%由营养、运动、由营养、运动、睡眠、生活环境等因素决定。睡眠不足、偏食、肥胖、睡眠、生活环境等因素决定。睡眠不足、偏食、肥胖、心情压抑等均会影响身体长高。可见,巨人心情压抑等均会影响身体长高。可见,巨人未必都生“小
6、巨人”。 医学上预测医学上预测下一代成年后的身高公式:下一代成年后的身高公式:23x儿子成年身高(儿子成年身高(cm) 父亲身高(父亲身高(cm) 母亲身高(母亲身高(cm) 2 6.5 2 6.5女儿成年身高(女儿成年身高(cm) 父亲身高(父亲身高(cm) 母亲身高(母亲身高(cm) 2 6.5 2 6.5 姚明身高姚明身高2.272.27米,叶莉身高米,叶莉身高1.901.90米。根据以上公式米。根据以上公式计算,姚明的儿子身高约计算,姚明的儿子身高约2.152.15米,而女儿则约为米,而女儿则约为2.022.02米。米。其实该公式只是预测身高遗传趋势,实际身高可能与公其实该公式只是预测
7、身高遗传趋势,实际身高可能与公式预测的身高相差式预测的身高相差 5 5厘米以上。姚明的父亲姚志源曾厘米以上。姚明的父亲姚志源曾是上海篮球队中锋,身高是上海篮球队中锋,身高2.082.08米,其母亲方凤娣曾是中米,其母亲方凤娣曾是中国女篮队长,身高国女篮队长,身高1.881.88米,当时被誉为米,当时被誉为“亚洲第一篮球亚洲第一篮球伉俪伉俪”。19801980年年9 9月月1212日,方凤娣在上海第六医院产下日,方凤娣在上海第六医院产下“小巨人小巨人”姚明。根据以上公式,姚明的身高应该是姚明。根据以上公式,姚明的身高应该是2.052.05米。孕味足的女人韵味足米。孕味足的女人韵味足叶莉,北京时间
8、叶莉,北京时间20102010年年5 5月月2222日在美国休斯敦当地医院顺利产下一个体重日在美国休斯敦当地医院顺利产下一个体重 3.63.6公斤女婴。在姚叶千金成长时期,公斤女婴。在姚叶千金成长时期,“姚二代姚二代”的身的身高毋庸置疑地将时常会受到媒体瞩目和坊间期盼。高毋庸置疑地将时常会受到媒体瞩目和坊间期盼。 二、回归分析主要解决的问题二、回归分析主要解决的问题 1 1确定变量间的回归关系确定变量间的回归关系 用一组存在相关变量的样本观察数据来确定这些用一组存在相关变量的样本观察数据来确定这些变量间的回归关系。该关系是以回归方程的形式来描变量间的回归关系。该关系是以回归方程的形式来描述的,
9、这实际上是相关变量间不确定、不规则的数量述的,这实际上是相关变量间不确定、不规则的数量关系的一般化和规则化。关系的一般化和规则化。 回归关系,又称广义的相关关系,它是指变量之回归关系,又称广义的相关关系,它是指变量之间存在的主从关系或因果关系。在回归方程中,解释间存在的主从关系或因果关系。在回归方程中,解释变量变量 ,即原因因素,称为自变量,即原因因素,称为自变量( (Independent vari-able) ),被解释变量,被解释变量 ,即结果因素,称为因变量,即结果因素,称为因变量( (Dependent variable) )。具有回归关系的变量的地位是。具有回归关系的变量的地位是不
10、对等的,即要准确识别那个变量是自变量,那个变不对等的,即要准确识别那个变量是自变量,那个变量是因变量,它们间不能易位。自变量量是因变量,它们间不能易位。自变量 是可控制的是可控制的非随机变量,而因变量非随机变量,而因变量 除受自变量除受自变量 影响外,同影响外,同时还受到其他随机因素的干扰,因此时还受到其他随机因素的干扰,因此 是随机变量。是随机变量。 xyxyxy 2 2筛选自变量和检验回归系数的显著性筛选自变量和检验回归系数的显著性 既要选用与因变量关系密切的变量作为回归模型既要选用与因变量关系密切的变量作为回归模型的备选的自变量,又要对这些备选的自变量进一步筛的备选的自变量,又要对这些备
11、选的自变量进一步筛选,最后,只将自变量之间关系不密切的变量引入回选,最后,只将自变量之间关系不密切的变量引入回归模型中,而剔除自变量之间关系密切的变量,以避归模型中,而剔除自变量之间关系密切的变量,以避免回归模型中出现多重共线性。所谓多重共线性免回归模型中出现多重共线性。所谓多重共线性(Multi-collinearity),就是指在自变量中有两个或两),就是指在自变量中有两个或两个以上的自变量之间存在着完全线性或几乎完全线性个以上的自变量之间存在着完全线性或几乎完全线性的关系。的关系。 回归分析是考察变量间关系的性质,而具体回归回归分析是考察变量间关系的性质,而具体回归分析的统计指标分析的统
12、计指标回归系数,它是说明自变量与因回归系数,它是说明自变量与因变量之间的变动比例关系。对回归系数的显著性需要变量之间的变动比例关系。对回归系数的显著性需要进行假设检验。进行假设检验。 3 3判断回归内插和外推的有效性判断回归内插和外推的有效性 回归模型通常是根据呈回归关系的变量的一组有回归模型通常是根据呈回归关系的变量的一组有 限的样本数据利用最小二乘法拟合的,在样本数据的限的样本数据利用最小二乘法拟合的,在样本数据的取值全距范围内即条件区域内,回归模型所模拟的现取值全距范围内即条件区域内,回归模型所模拟的现象的走势轨迹是最优的,在平均意义上讲,该模型充象的走势轨迹是最优的,在平均意义上讲,该
13、模型充分体现了回归变量间的数量变化规律性。若将该模型分体现了回归变量间的数量变化规律性。若将该模型运用于条件区域之外,则会因回归变量间的数量变化运用于条件区域之外,则会因回归变量间的数量变化形式的改变,而会使得原有回归模型模拟失效。由此形式的改变,而会使得原有回归模型模拟失效。由此可知,回归模型尤其是未引入随机扰动项(即未加上可知,回归模型尤其是未引入随机扰动项(即未加上误差项)的回归模型,只是在条件区误差项)的回归模型,只是在条件区域内有效,仅适域内有效,仅适宜内插推算,而不适宜外推预测,即回归模型的推测宜内插推算,而不适宜外推预测,即回归模型的推测只能在条件区域内进行。只能在条件区域内进行
14、。 如:工龄如:工龄( (年年) )与工人劳动生产率与工人劳动生产率( (件件/ /日日) )的关系,的关系,随着工龄的增长,劳动生产率会相应地逐渐提高的趋随着工龄的增长,劳动生产率会相应地逐渐提高的趋势。当工龄接近势。当工龄接近5050岁的老年工人的工龄时,通常随着岁的老年工人的工龄时,通常随着工龄的继续增长,则劳动生产率可能会呈抛物线型的工龄的继续增长,则劳动生产率可能会呈抛物线型的下降。假如新工人平均下降。假如新工人平均2525岁上岗,则工龄岁上岗,则工龄 的条件区的条件区x 域为域为0 02525年,即年,即 。利用工龄。利用工龄15152525年的样年的样本资料配合回归方程,可推测本
15、资料配合回归方程,可推测0 02525年中任某一工龄的年中任某一工龄的劳动生产率。劳动生产率。 再如:农作物随着施肥量的增加而逐渐会增产,再如:农作物随着施肥量的增加而逐渐会增产,施肥量施肥量 和农作物产量和农作物产量 大致可配合正相关的回归方大致可配合正相关的回归方程。若施肥量程。若施肥量 超过一定的限度,则产量超过一定的限度,则产量 反而会下反而会下降。降。 又如:树木适度密植会增产林木,若过度密植,又如:树木适度密植会增产林木,若过度密植,则林木会减产。在计量经济学的理论基础上,适当超则林木会减产。在计量经济学的理论基础上,适当超出变量间的数量变化的条件区域,通过对回归系数等出变量间的数
16、量变化的条件区域,通过对回归系数等一系列检验,在一定的概率保证程度下,可对仍持续一系列检验,在一定的概率保证程度下,可对仍持续未发生质的变化的变量的关系作近期预测。但是,通未发生质的变化的变量的关系作近期预测。但是,通常情况下要对原模型进行修正,或重新配合新的模型。常情况下要对原模型进行修正,或重新配合新的模型。 将自变量的数值代人回归方程,可估计因变量的将自变量的数值代人回归方程,可估计因变量的趋势值,趋势值又称估计值或理论值。由于自变量趋势值,趋势值又称估计值或理论值。由于自变量0,25xxyxyx 是非随机变量,因此,所建立的回归方程是不能互推,是非随机变量,因此,所建立的回归方程是不能
17、互推,即只能由即只能由 推算推算 ,而不能像纯数学方程式那样,由,而不能像纯数学方程式那样,由 推算推算 。因为这样推算没有体现统计学中的定性定。因为这样推算没有体现统计学中的定性定量相结合地分析大量社会经济数量方面的特征,从定量相结合地分析大量社会经济数量方面的特征,从定性的角度分析性的角度分析 不是不是 的因,因而的因,因而 也不是也不是 的果,的果,因此,因此, 推算推算 ,不能表明变量之间的因果对应关系。,不能表明变量之间的因果对应关系。 三、回归方程的由来和类别三、回归方程的由来和类别 对呈相关关系的变量之间的数量变化,在二维平对呈相关关系的变量之间的数量变化,在二维平面或三维空间的
18、坐标系中的散点分布进行识别,对应面或三维空间的坐标系中的散点分布进行识别,对应自变量自变量 的每一个值,因变量的每一个值,因变量 会有许多可能的取值,会有许多可能的取值,为了反映为了反映 与与 之间的数量变化趋势,就取与某一之间的数量变化趋势,就取与某一 对应的所有可能的对应的所有可能的 值的均值值的均值 作为代表值或作为代表值或趋势值,从而可得到趋势值,从而可得到 倚倚 回归关系式:回归关系式: xyyxyxxyyxxyxyxy|E y xyx |yf xE y x 此式说明此式说明 与与 的对应关系是就平均的意义下说的对应关系是就平均的意义下说的(的(Write the regressio
19、n equation as to emphasize that the regression equation provides the mean value of for a given value of .)。)。 在实际应用中,通常依据有关的专业理论知识和在实际应用中,通常依据有关的专业理论知识和经验,或用观察数据作散点图,观察分布形状,确定经验,或用观察数据作散点图,观察分布形状,确定变量之何变化的关系或类型。变量之何变化的关系或类型。 按呈回归关系的变量的多少,回归方程可以分为按呈回归关系的变量的多少,回归方程可以分为一元回归方程和多元回归方程;按呈回归关系的变量一元回归方程和多元回
20、归方程;按呈回归关系的变量是否线性,回归方程可以分为线性回归方程和非线性是否线性,回归方程可以分为线性回归方程和非线性回归方程。回归方程。 yx()E y xxyx 第二节第二节 回归分析的概述回归分析的概述 一、一元线性回归模型的概念一、一元线性回归模型的概念 一元线性回归模型,又称简单直线回归模型,它一元线性回归模型,又称简单直线回归模型,它是指一个因变量只与一个自变量有依从关系,两变量是指一个因变量只与一个自变量有依从关系,两变量间关系形态表现为直线趋势的模型。间关系形态表现为直线趋势的模型。 二、一元线性总体回归模型二、一元线性总体回归模型 则,总体回归直线为:则,总体回归直线为: 式
21、中:式中: 表示总体变量表示总体变量 的第的第 个观察值;个观察值; 表示总体变量表示总体变量 的第的第 个观察值;个观察值; 表示总体第表示总体第 个随机项;个随机项; 表示总体表示总体 的条件平均数;的条件平均数; 、 表示总体回归参数。表示总体回归参数。 、 的含义为:的含义为: 为因变量的初始值,当为因变量的初始值,当 时,它是时,它是 的期望值,即是回归直线在的期望值,即是回归直线在 轴上轴上的截距:的截距: 为总体为总体 对对 回归系数,它是度量当回归系数,它是度量当 变变动一个单位时所引起动一个单位时所引起 相应平均可能变化的单位量。相应平均可能变化的单位量。当当 时,时, 与与
22、 为正相关;当为正相关;当 时,时, 与与 为为负相关。负相关。 iiiyx1,2,iN y|xxixxiiyyiiiy|xiy0 x yyyxxy0 xy0 xy 通常,通常, 与与 的计量单位是不同的。的计量单位是不同的。 为了使利用样本推断总体成为可靠的估计,总体为了使利用样本推断总体成为可靠的估计,总体回归模型的建立必须基于如下基本假设:回归模型的建立必须基于如下基本假设: 1. 1. 是可控的非随机变量,当是可控的非随机变量,当 取某一个取某一个 值时,值时,相应相应 有许多有许多 值与之对应,值与之对应, 是随机变量,这些是随机变量,这些 构成一个在构成一个在 条件下的条件分布,并
23、假设其服从条件下的条件分布,并假设其服从正态分布,且正态分布,且 (Expected value of zero of ),则所有),则所有 的条件分布的平均值位于给定的条件分布的平均值位于给定 值的回归线上,呈线性关系,如图值的回归线上,呈线性关系,如图10-1410-14所示。所示。 xyixxixyiyiyiyix 0iEiiiyx 图图11-1 11-1 线性回归模型图线性回归模型图 2. 2. 在任意在任意 值上,所有值上,所有 的条件分布的方差的条件分布的方差是相等的,即具有同方差性(是相等的,即具有同方差性(The variance of ,de-noted by ,is the
24、 same for all values of .)。)。 ( (如图如图11-211-2所示所示) ) y1xxo1y xxixiyi2iix2var( )i(1,2, )in Implication:The variance of about the regression line equals and is the same for all values of . e. .g. . in Figure 11-3 11-3, , , , 3. 3. 随机扰动项随机扰动项 是相互独立的,是相互独立的,不存在序列相关,即不存在序列相关,即 , (The values of are indepe
25、ndent.)。)。 e. .g. . in Figure 11-3 11-3, . . 4. 4. 对多元线性回归模型,各自变量是相互独立的,对多元线性回归模型,各自变量是相互独立的,不存在多重共线性,即不存在多重共线性,即 , 。 y2x12(,)iiiineee12(,)jjjjneee22ij( ,1,2, ;)i jn ij()iiiyxcov( ,)ij 0()ij()( ) ()ijijEEE ()ijcov(,)0ijx x()ij 备注:对每一个值,分布有同样形状备注:对每一个值,分布有同样形状( (The distributions have the same shape
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 统计学 本科11第十一章 回归分析统计学第二版ppt课件 本科 第十一 回归 分析 第二 ppt 课件
限制150内