第2章线性回归PPT讲稿.ppt





《第2章线性回归PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第2章线性回归PPT讲稿.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第2章线性回归第1页,共84页,编辑于2022年,星期一2.1 线性回性回归基本概念基本概念n2.1.1 回归分析所要解决的主要问题回归分析所要解决的主要问题n2.1.2 统计关系与函数关系统计关系与函数关系n2.1.3 相关分析与回归分析相关分析与回归分析n2.1.4 随机误差项随机误差项 第2页,共84页,编辑于2022年,星期一n回归分析回归分析,是确定两个或,是确定两个或两个以上变量间的数量相两个以上变量间的数量相互依赖关系的一种统计分互依赖关系的一种统计分析方法,运用十分广泛。析方法,运用十分广泛。第3页,共84页,编辑于2022年,星期一父亲们的身高与儿子们的身高之间父亲们的身高与
2、儿子们的身高之间关系的研究关系的研究n1889年年F.Gallton和他的朋友和他的朋友K.Pearson收集收集了上千个家庭的身高、臂长和腿长的记录了上千个家庭的身高、臂长和腿长的记录n企图寻找出儿子们身高与父亲们身高之间关系企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式的具体表现形式第4页,共84页,编辑于2022年,星期一学生身高体重ABCDEFGHIJ1581601621641661681701721741764750485562605261706510名学生的身高与体重数据名学生的身高与体重数据第5页,共84页,编辑于2022年,星期一n一般来说,回归分析是根据已掌握的变量实
3、测数据建立一般来说,回归分析是根据已掌握的变量实测数据建立适合的适合的回归模型回归模型,然后求解模型中的各个,然后求解模型中的各个参数参数,评价,评价回归模型是否能够很好地拟合实测数据;如果能够很回归模型是否能够很好地拟合实测数据;如果能够很好的拟合好的拟合,则可以根据自变量的变化情况对因变量作则可以根据自变量的变化情况对因变量作进一步的预测与控制进一步的预测与控制。n在回归分析中,如果模型只包括一个自变量、一个因在回归分析中,如果模型只包括一个自变量、一个因变量,且二者的数量关系可用一条直线近似表示,则变量,且二者的数量关系可用一条直线近似表示,则称为称为一元线性回归分析一元线性回归分析。Y
4、=a+bX第6页,共84页,编辑于2022年,星期一第7页,共84页,编辑于2022年,星期一2.1.1 回归分析所要解决的主要问题回归分析所要解决的主要问题n(1)确定几个特定变量之间是否存在相关关系,如果存)确定几个特定变量之间是否存在相关关系,如果存在的话,找出她们之间合适的数学表达式在的话,找出她们之间合适的数学表达式n(2)根据一个或几个变量的值,预报或控制另一个变)根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度量的取值,并且要知道这种预报或控制的精确度n(3)进行因素分析,确定因素的主次以及因素之间的相)进行因素分析,确定因素的主次以及因素之间
5、的相互关系等等互关系等等第8页,共84页,编辑于2022年,星期一n一元线性回归分析,只要解决:一元线性回归分析,只要解决:n(1)求变量)求变量x与与y之间的回归直线方程之间的回归直线方程n(2)判断变量)判断变量x和和y之间是否确为线性关系之间是否确为线性关系n(3)根据一个变量的值,预测或控制另一变量的取值)根据一个变量的值,预测或控制另一变量的取值第9页,共84页,编辑于2022年,星期一2.1.2 统计关系与函数关系统计关系与函数关系n变量之间的关系形态一般可以分为两类:一类为变量变量之间的关系形态一般可以分为两类:一类为变量之间的关系是确定的,称为之间的关系是确定的,称为函数关系函
6、数关系;n而另一类变量之间的关系是不确定的,称为而另一类变量之间的关系是不确定的,称为统计关系统计关系。n变量之间变量之间统计关系,是指统计关系,是指一个或几个变量在数量上的一个或几个变量在数量上的变动会引起另一个变量数量上发生变动,但变动的结变动会引起另一个变量数量上发生变动,但变动的结果不是唯一确定的,亦即变量之间的关系不是一一对果不是唯一确定的,亦即变量之间的关系不是一一对应的,应的,因而不能用函数关系进行表达。因而不能用函数关系进行表达。但统计关系可但统计关系可以通过函数关系加一个随机变量予以描述。以通过函数关系加一个随机变量予以描述。第10页,共84页,编辑于2022年,星期一 确定
7、性关系确定性关系即两变量间的函数关系即两变量间的函数关系圆的周长与半径的关系:圆的周长与半径的关系:C2 R速度、时间与路程的关系:速度、时间与路程的关系:LSTX X与与Y Y的函数关系:的函数关系:Ya+bX第11页,共84页,编辑于2022年,星期一 不确定性关系不确定性关系 两变量在宏观上存在关系,但并未精确两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。到可以用函数关系来表达。青少年身高与年龄的关系青少年身高与年龄的关系年龄与血脂的关系年龄与血脂的关系回归分析是用来研究非确定性关系的一种统计分析方法回归分析是用来研究非确定性关系的一种统计分析方法身高与体重的关系身高与体重的
8、关系药物浓度与反应率的关系药物浓度与反应率的关系体重与体表面积体重与体表面积的关系的关系第12页,共84页,编辑于2022年,星期一2.1.3 相关分析与回归分析相关分析与回归分析n相关分析相关分析就是就是对两个变量之间线性关系的描述和度量对两个变量之间线性关系的描述和度量。统。统计关系的形态大体上可以分为计关系的形态大体上可以分为线性相关线性相关、非线性相关非线性相关、完完全相关全相关和和不相关不相关等几种。等几种。第13页,共84页,编辑于2022年,星期一单相关单相关 是两个变量之间存在的相关关系,是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依即一个因变量与一个自变量之间
9、的依存关系。因此也称为存关系。因此也称为一元相关。一元相关。复相关复相关 也称多元相关,是指三个或三个以上也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,一个因变量与两个或更多个自变量,也称也称多元相关。多元相关。相关关系的种类:相关关系的种类:1 1、按相关关系涉及变量的多少可分为:、按相关关系涉及变量的多少可分为:第14页,共84页,编辑于2022年,星期一正相关正相关 两个相关现象间,当一个变量的数值两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数增加(或减少)时,另一个变量的数值也随之增加(
10、或减少),这样的相值也随之增加(或减少),这样的相关关系就是关关系就是正相关正相关,也叫,也叫同向相关同向相关。负相关负相关 当一个变量的数值增加当一个变量的数值增加(或减少)(或减少)时,时,另一个变量的数值相反地呈减少(或另一个变量的数值相反地呈减少(或增加)的趋势变化,这样的相关关系增加)的趋势变化,这样的相关关系就是就是负相关负相关,也叫,也叫异向相关异向相关。相关关系的种类:相关关系的种类:2 2、按相关的方向可分为:、按相关的方向可分为:第15页,共84页,编辑于2022年,星期一线性相关线性相关 当一个变量发生变动,另一个变量随当一个变量发生变动,另一个变量随之发生大致均等的变动
11、,这就是直线之发生大致均等的变动,这就是直线相关。亦称为简单相关或直线相关。相关。亦称为简单相关或直线相关。非线性相关非线性相关 当一个变量发生变动,另一个变量随当一个变量发生变动,另一个变量随之发生不均等的变化,这就曲线相关。之发生不均等的变化,这就曲线相关。亦称为一元非线性相关亦称为一元非线性相关。相关关系的种类:相关关系的种类:3 3、按相关关系形式可分为:、按相关关系形式可分为:第16页,共84页,编辑于2022年,星期一n散点图是描述变量之间关系的一种直观的方法,从中可以直观散点图是描述变量之间关系的一种直观的方法,从中可以直观地看出变量之间的关系形态及关系强度。地看出变量之间的关系
12、形态及关系强度。第17页,共84页,编辑于2022年,星期一相关关系的种类:相关关系的种类:4 4、按相关关系的密切程度分为:、按相关关系的密切程度分为:完全相关完全相关 因变量完全随自变量变动而变动,存在着因变量完全随自变量变动而变动,存在着因变量完全随自变量变动而变动,存在着因变量完全随自变量变动而变动,存在着严格的严格的严格的严格的依存关系依存关系依存关系依存关系。即变量间的关系为。即变量间的关系为。即变量间的关系为。即变量间的关系为函数关系函数关系。不完全相关不完全相关不完全相关不完全相关 变量之间存在着变量之间存在着变量之间存在着变量之间存在着不严格的依存关系不严格的依存关系不严格的
13、依存关系不严格的依存关系,即因变量的,即因变量的,即因变量的,即因变量的变动除了受自变量变动的影响外,还受其他因素的变动除了受自变量变动的影响外,还受其他因素的变动除了受自变量变动的影响外,还受其他因素的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的影响。它是相关关系的影响。它是相关关系的影响。它是相关关系的主要表现形式。主要表现形式。主要表现形式。主要表现形式。完全不相关完全不相关完全不相关完全不相关 自变量与因变量彼此自变量与因变量彼此自变量与因变量彼此自变量与因变量彼此独立独立独立独立,互不影响,其数量变,互不影响,其数量变,互不影响,其数量变,互不影响,其数量变化化化
14、化毫无联系毫无联系毫无联系毫无联系。第18页,共84页,编辑于2022年,星期一第19页,共84页,编辑于2022年,星期一n不同形态的散点图第20页,共84页,编辑于2022年,星期一第21页,共84页,编辑于2022年,星期一2.1.3 相关分析与回归分析相关分析与回归分析n通过散点图可以判断两个变量之间有无相关关系,并对变量之通过散点图可以判断两个变量之间有无相关关系,并对变量之间的关系形态做出大致的描述,但散点图不能准确反映变量之间的关系形态做出大致的描述,但散点图不能准确反映变量之间的关系密切程度。间的关系密切程度。n因此,因此,为准确地度量两个变量之间的关系密切程度,需要为准确地度
15、量两个变量之间的关系密切程度,需要计算相关系数。计算相关系数。n相关系数相关系数是对变量之间密切程度的度量。对两个变量之间线是对变量之间密切程度的度量。对两个变量之间线性相关程度的度量称为性相关程度的度量称为简单相关系数简单相关系数。若相关系数是根据总。若相关系数是根据总体全部数据计算出来的,称为体全部数据计算出来的,称为总体相关系数总体相关系数 ;若是根据样本数;若是根据样本数据计算出来的,则称为据计算出来的,则称为样本相关系数样本相关系数 。样本相关系数的计算公。样本相关系数的计算公式为:式为:第22页,共84页,编辑于2022年,星期一2.1.3 相关分析与回归分析相关分析与回归分析n可
16、以证明,相关系数的取值范围在可以证明,相关系数的取值范围在-1到到1之间,即之间,即 。值的大小可以用来反映相关关系的强弱程度。值的大小可以用来反映相关关系的强弱程度。越越大,说明相关程度越高,相反,大,说明相关程度越高,相反,越小,说明相关程越小,说明相关程度越低。特别地,度越低。特别地,或或 时,表明现象之间存在时,表明现象之间存在完全相关关系,当完全相关关系,当 时,说明现象之间完全不相关。时,说明现象之间完全不相关。对于相关关系的强弱程度,通常有个检验标准可供参对于相关关系的强弱程度,通常有个检验标准可供参考:考:时,可认为基本上不存在相关关系;时,可认为基本上不存在相关关系;为低度相
17、关;为低度相关;为显著相关;为显著相关;为高度相为高度相关。关。第23页,共84页,编辑于2022年,星期一2.1.3 相关分析与回归分析相关分析与回归分析n相关分析和回归分析的区别相关分析和回归分析的区别q二者的研究目的不同。前者二者的研究目的不同。前者主要研究变量之间是否存在线性关系以主要研究变量之间是否存在线性关系以及这种关系的强弱程度,而及这种关系的强弱程度,而后者后者则是在前者的基础上进一步研究则是在前者的基础上进一步研究变量之间的联系方式,以便在给定一个或几个变量值的条件下变量之间的联系方式,以便在给定一个或几个变量值的条件下预测或控制另一个变量的值。预测或控制另一个变量的值。q其
18、次,两者的假设条件不同。相关分析其次,两者的假设条件不同。相关分析假设研究的两个变量是随假设研究的两个变量是随机的。而机的。而回归分析回归分析一般都假设解释变量是确定性的,在重复抽样中一般都假设解释变量是确定性的,在重复抽样中取固定的值;被解释变量是随机的,它有一个概率分布。取固定的值;被解释变量是随机的,它有一个概率分布。回归分回归分析的目的析的目的就是要通过给定解释变量的值来预测或控制被解释变量就是要通过给定解释变量的值来预测或控制被解释变量的总体均值或个别值。的总体均值或个别值。第24页,共84页,编辑于2022年,星期一2.1.3 相关分析与回归分析相关分析与回归分析n相关分析和回归分
19、析的联系相关分析和回归分析的联系q在进行回归分析之前,一般要确定变量之间的线性关系是否密在进行回归分析之前,一般要确定变量之间的线性关系是否密切,这就要依赖相关分析。切,这就要依赖相关分析。q变量之间的相关系数与回归分析中的拟合程度存在一定关变量之间的相关系数与回归分析中的拟合程度存在一定关系。系。第25页,共84页,编辑于2022年,星期一2.1.4 随机误差项随机误差项n随机误差:随机误差:也称为偶然误差和不定误差,在实际相同条件下,多次也称为偶然误差和不定误差,在实际相同条件下,多次测量同一量值时,其绝对值和符号无法预计的测量误差。测量同一量值时,其绝对值和符号无法预计的测量误差。n是由
20、于在测定过程中一系列有关因素微小的随机波动而形成的具有相是由于在测定过程中一系列有关因素微小的随机波动而形成的具有相互抵偿性的误差。互抵偿性的误差。n它的特点:它的特点:大小和方向都不固定,也无法测量或校正。大小和方向都不固定,也无法测量或校正。n它的性质:它的性质:随着测定次数的增加,正负误差可以相互低偿,随着测定次数的增加,正负误差可以相互低偿,误差的平均值将逐渐趋向于零。误差的平均值将逐渐趋向于零。第26页,共84页,编辑于2022年,星期一2.1.4 随机误差项随机误差项n随机误差项的来源随机误差项的来源q被省略掉而未进入回归方程但又影响着被解释变量的种种因素,被省略掉而未进入回归方程
21、但又影响着被解释变量的种种因素,包括理包括理论上尚不清楚或难以确定的因素、实际中由于受数据观测在时间论上尚不清楚或难以确定的因素、实际中由于受数据观测在时间和费用及难度上的影响不得不放弃的因素、涉及到人们的思想品和费用及难度上的影响不得不放弃的因素、涉及到人们的思想品德、行为方式、个性偏好等难以用数量来反映的因素、对被解释德、行为方式、个性偏好等难以用数量来反映的因素、对被解释变量有影响,但与其他变量相比较而言影响不大的变量等。变量有影响,但与其他变量相比较而言影响不大的变量等。q变量的观测误差:变量的观测误差:由于受到各种主客观因素的影响而使得实际观测值由于受到各种主客观因素的影响而使得实际
22、观测值与真实值之间产生的偏差;与真实值之间产生的偏差;q变量替代造成的误差:变量替代造成的误差:选择可观测的近似变量替代难以被观测选择可观测的近似变量替代难以被观测变量而产生的偏差;变量而产生的偏差;q模型设定误差:模型设定误差:根据实际问题的性质和特点对总体回归函数作近根据实际问题的性质和特点对总体回归函数作近似的假定,这种由于模型设定而产生的误差;似的假定,这种由于模型设定而产生的误差;第27页,共84页,编辑于2022年,星期一2.2 一元一元线性回性回归分析分析n2.2.1 一元线性回归分析的几个定义一元线性回归分析的几个定义n2.2.2 一元线性回归分析的一般步骤一元线性回归分析的一
23、般步骤n2.2.3 参数的普通最小二乘估计参数的普通最小二乘估计n2.2.4 拟合优度的检验拟合优度的检验 n2.2.5 显著性检验显著性检验n2.2.6 残差图分析残差图分析n2.2.7 回归分析预测回归分析预测第28页,共84页,编辑于2022年,星期一2.2.1 一元线性回归分析的几个定义一元线性回归分析的几个定义n在回归分析中,在回归分析中,我们把被预测或被解释的变量称为因变我们把被预测或被解释的变量称为因变量量(dependent variable),用),用Y表示;表示;把用来预测或用把用来预测或用来解释因变量的一个或多个变量称为自变量来解释因变量的一个或多个变量称为自变量(ind
24、ependent variable),用),用X表示。表示。当只涉及一个自变当只涉及一个自变量时称为一元回归,量时称为一元回归,若因变量若因变量Y与自变量与自变量X之间为线性关之间为线性关系时称为系时称为一元线性回归。一元线性回归。描述因变量描述因变量Y如何依赖于自变如何依赖于自变量量X和误差项和误差项的方程称为的方程称为回归模型。回归模型。n一元线性回归模型可表示为:一元线性回归模型可表示为:。被称为误被称为误差项的随机变量,差项的随机变量,和和 称为模型的参数。称为模型的参数。第29页,共84页,编辑于2022年,星期一2.2.2 一元线性回归分析的一般步骤一元线性回归分析的一般步骤n第一
25、步,变量的选择问题。第一步,变量的选择问题。根据研究的目的和内容确定被解释变量根据研究的目的和内容确定被解释变量Y和和解释变量解释变量X,选择的原则:,选择的原则:既要与被解释变量既要与被解释变量Y有密切的联系,又要考虑变有密切的联系,又要考虑变量资料的可得性,还要兼顾模型简洁。量资料的可得性,还要兼顾模型简洁。n第二步,模型的设定。第二步,模型的设定。模型的设定往往需要经济理论的指导。模型的设定往往需要经济理论的指导。n第三步,参数估计。第三步,参数估计。根据设定的模型,利用已经收集到的样本数据,应用最小根据设定的模型,利用已经收集到的样本数据,应用最小二乘法对模型中的参数进行估计,包括对二
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 PPT 讲稿

限制150内