六章节直线回归与相关.ppt
《六章节直线回归与相关.ppt》由会员分享,可在线阅读,更多相关《六章节直线回归与相关.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、六章节直线回归与相关 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望下一张下一张 主主 页页 退退 出出 上一张上一张 1 回归与相关的概念回归与相关的概念一类是完全确定性的关系,又称函数关系,可以一类是完全确定性的关系,又称函数关系,可以一类是完全确定性的关系,又称函数关系,可以一类是完全确定性的关系,又称函数关系,可以用精确的数学表达式来表示,即当变量用精确的数学表达式来表示,即当变量用精确的数学表达式来表示,即当变量用精确的数学表达式来表示,即当变量x x的
2、值取的值取的值取的值取定后,变量定后,变量定后,变量定后,变量y y有唯一确定的值与之对应。有唯一确定的值与之对应。有唯一确定的值与之对应。有唯一确定的值与之对应。如长方形的面积(如长方形的面积(如长方形的面积(如长方形的面积(S S)与与与与 长(长(长(长(a a)和宽()和宽()和宽()和宽(b b)的关)的关)的关)的关系:系:系:系:S=abS=ab。它们之间的关系是确定性的,只要。它们之间的关系是确定性的,只要。它们之间的关系是确定性的,只要。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一知道了其中两个变量的值就可以精确地计算出另一知道了其中两个变量的值
3、就可以精确地计算出另一知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为个变量的值,这类变量间的关系称为个变量的值,这类变量间的关系称为个变量的值,这类变量间的关系称为函数关系函数关系函数关系函数关系。各种变量间的关系大致可分为两类:各种变量间的关系大致可分为两类:确定性关系确定性关系确定性关系确定性关系非确定性关系非确定性关系非确定性关系非确定性关系 如人的身高与体重的关系,作物种植密度与产量的关如人的身高与体重的关系,作物种植密度与产量的关如人的身高与体重的关系,作物种植密度与产量的关如人的身高与体重的关系,作物种植密度与产量的关系,食品价格与需求量的关系等等,系
4、,食品价格与需求量的关系等等,系,食品价格与需求量的关系等等,系,食品价格与需求量的关系等等,这些变量间都存在着这些变量间都存在着这些变量间都存在着这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求十分密切的关系,但不能由一个或几个变量的值精确地求十分密切的关系,但不能由一个或几个变量的值精确地求十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。出另一个变量的值。出另一个变量的值。出另一个变量的值。统计学中把这些变量间的关系称为统计学中把这些变量间的关系称为统计学中把这些变量间的关系称为统计学中把这些变量间的关系称为相相相相关关系关关系关关系关关系,把存在相
5、关关系的变量称为,把存在相关关系的变量称为,把存在相关关系的变量称为,把存在相关关系的变量称为相关变量相关变量相关变量相关变量。下一张下一张 主主 页页 退退 出出 上一张上一张 另一类是另一类是另一类是另一类是 非确定性关系,不能用精确的数学公非确定性关系,不能用精确的数学公非确定性关系,不能用精确的数学公非确定性关系,不能用精确的数学公式来表示,当变量式来表示,当变量式来表示,当变量式来表示,当变量x x的值取定后,的值取定后,的值取定后,的值取定后,y y有若干种可有若干种可有若干种可有若干种可能取值。能取值。能取值。能取值。在一定范围内,对一个变量的任意数值(在一定范围内,对一个变量的
6、任意数值(在一定范围内,对一个变量的任意数值(在一定范围内,对一个变量的任意数值(XXi i),虽),虽),虽),虽然没有另一个变量的确定数值然没有另一个变量的确定数值然没有另一个变量的确定数值然没有另一个变量的确定数值y yi i与之对应,但是却有一与之对应,但是却有一与之对应,但是却有一与之对应,但是却有一个特定个特定个特定个特定y yi i的条件概率分布与之对应,这种变量的不确定的条件概率分布与之对应,这种变量的不确定的条件概率分布与之对应,这种变量的不确定的条件概率分布与之对应,这种变量的不确定关系,称为相关关系。关系,称为相关关系。关系,称为相关关系。关系,称为相关关系。一种是一种是
7、因果关系因果关系,即一个变量的变,即一个变量的变化受另一个或几个变量的影响。如小麦化受另一个或几个变量的影响。如小麦的生长速度受遗传特性、营养水平、管的生长速度受遗传特性、营养水平、管理条件等因素的影响。理条件等因素的影响。另一种是另一种是平行关系平行关系,它们互为因果,它们互为因果或共同受到另外因素的影响。如人的身或共同受到另外因素的影响。如人的身高和胸围之间的关系属于平行关系。高和胸围之间的关系属于平行关系。下一张下一张 主主 页页 退退 出出 上一张上一张 相关变量间的关系一般分为两种相关变量间的关系一般分为两种:研究研究研究研究“一因一果一因一果一因一果一因一果”,即一个自变量与一个依
8、,即一个自变量与一个依,即一个自变量与一个依,即一个自变量与一个依变量的回归分析称为变量的回归分析称为变量的回归分析称为变量的回归分析称为一元回归分析一元回归分析一元回归分析一元回归分析;研究研究研究研究“多因一果多因一果多因一果多因一果”,即多个自变量与一个依,即多个自变量与一个依,即多个自变量与一个依,即多个自变量与一个依变量的回归分析称为变量的回归分析称为变量的回归分析称为变量的回归分析称为多元回归分析多元回归分析多元回归分析多元回归分析。一元回归分析又分为一元回归分析又分为一元回归分析又分为一元回归分析又分为直线回归分析直线回归分析直线回归分析直线回归分析与与与与曲线回曲线回曲线回曲线
9、回归分析归分析归分析归分析两种;多元回归分析又分为两种;多元回归分析又分为两种;多元回归分析又分为两种;多元回归分析又分为多元线性回归多元线性回归多元线性回归多元线性回归分析分析分析分析与与与与多元非线性回归分析多元非线性回归分析多元非线性回归分析多元非线性回归分析两种。两种。两种。两种。下一张下一张 主主 页页 退退 出出 上一张上一张 统计学上采用统计学上采用统计学上采用统计学上采用回归分析回归分析回归分析回归分析 (regression regression analysisanalysis)方法研究呈因果关系的相关变量间)方法研究呈因果关系的相关变量间)方法研究呈因果关系的相关变量间)
10、方法研究呈因果关系的相关变量间的关系。的关系。的关系。的关系。表示原因的变量称为自变量,表示结果表示原因的变量称为自变量,表示结果表示原因的变量称为自变量,表示结果表示原因的变量称为自变量,表示结果的变量称为依变量。的变量称为依变量。的变量称为依变量。的变量称为依变量。回归分析的任务就是揭示出呈因果关系回归分析的任务就是揭示出呈因果关系的相关变量间的联系形式,建立它们之的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量由自变量(原因)来预测、控制依变量(结果)。(结果)。回归分析主要包括:找出回归方程;检
11、回归分析主要包括:找出回归方程;检验回归方程是否显著;通过回归方程来验回归方程是否显著;通过回归方程来预测或控制另一变量。预测或控制另一变量。对多个变量进行相关分析时,研究一个对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为变量与多个变量间的线性相关称为复相关复相关分析分析;研究其余变量保持不变的情况下两;研究其余变量保持不变的情况下两个变量间的线性相关称为个变量间的线性相关称为偏相关分析偏相关分析。下一张下一张 主主 页页 退退 出出 上一张上一张 统计学上采用统计学上采用相关分析相关分析(correlation analysis)来研究呈平行关系相关变量之间来研究呈平行关系
12、相关变量之间的关系。的关系。对两个变量间的直线关系进行相关分析对两个变量间的直线关系进行相关分析称为称为简单相关分析简单相关分析(也叫(也叫直线相关分析直线相关分析););2 直线回归直线回归 2.1 直线回归方程的建立直线回归方程的建立 下一张下一张 主主 页页 退退 出出 上一张上一张 为了直观地看出为了直观地看出为了直观地看出为了直观地看出x x和和和和y y间的变化趋势,可将间的变化趋势,可将间的变化趋势,可将间的变化趋势,可将每一对观测值在平面直角坐标系中描点,作出散每一对观测值在平面直角坐标系中描点,作出散每一对观测值在平面直角坐标系中描点,作出散每一对观测值在平面直角坐标系中描点
13、,作出散点图点图点图点图 (见图见图见图见图6-16-1)。2.1.1数学模型数学模型 对于两个相关变量,一个变量用对于两个相关变量,一个变量用对于两个相关变量,一个变量用对于两个相关变量,一个变量用x x表示,另表示,另表示,另表示,另一个变量用一个变量用一个变量用一个变量用y y表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两个变量的个变量的个变量的个变量的n n对观测值:(对观测值:(对观测值:(对观测值:(x x1 1,y y1 1),(),(),(),(x x2 2,y y2 2),),),),(,(,(,(x
14、xn n,y yn n)图图图图6-1 x6-1 x与与与与y y的关系散点图的关系散点图的关系散点图的关系散点图 下一张下一张 主主 页页 退退 出出 上一张上一张 散点图可直观地、定性地表示了两个变量之间散点图可直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。根据观测值将其内在关系定量地表达出来。两个变量间有关或无关;若有关,两个变量两个变量间有关或无关;若有关,两个变量两个变量间有关或无关;若有关,两个变量两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;间关系类型,
15、是直线型还是曲线型;间关系类型,是直线型还是曲线型;间关系类型,是直线型还是曲线型;由散点图(由散点图(图图6-1)可以看出:)可以看出:两个变量间直线关系的性质(是正相关还是两个变量间直线关系的性质(是正相关还是两个变量间直线关系的性质(是正相关还是两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);负相关)和程度(是相关密切还是不密切);负相关)和程度(是相关密切还是不密切);负相关)和程度(是相关密切还是不密切);由于依变量由于依变量由于依变量由于依变量y y的实际观测值总是带有随机误的实际观测值总是带有随机误的实际观测值总是带有随机误的实际观测值总是带有随机误
16、差,因而依变量差,因而依变量差,因而依变量差,因而依变量y y的实际观测值的实际观测值的实际观测值的实际观测值y yi i可用自变量可用自变量可用自变量可用自变量x x的的的的实际观测值实际观测值实际观测值实际观测值x xi i表示为:表示为:表示为:表示为:(i i=1,2,=1,2,n n)(6-16-1)若呈因果关系的两个相关变量若呈因果关系的两个相关变量若呈因果关系的两个相关变量若呈因果关系的两个相关变量y y(依变量)与(依变量)与(依变量)与(依变量)与x x(自变量)间的关系是直线关系,那么,根(自变量)间的关系是直线关系,那么,根(自变量)间的关系是直线关系,那么,根(自变量)
17、间的关系是直线关系,那么,根据据据据n n对观测值所描出的散点图,如对观测值所描出的散点图,如对观测值所描出的散点图,如对观测值所描出的散点图,如图图图图6-16-1(b b)和和和和图图图图6-16-1(e e)所示。)所示。)所示。)所示。式中:式中:式中:式中:,为未知参数,为未知参数,为未知参数,为未知参数,i i为相互独立,且服从为相互独立,且服从为相互独立,且服从为相互独立,且服从NN(0 0,)的随机变量。这就是直线回归的)的随机变量。这就是直线回归的)的随机变量。这就是直线回归的)的随机变量。这就是直线回归的数学模型数学模型数学模型数学模型。总体线性回归模型的图示YX观察值观察
18、值总体线性回归模型总体线性回归模型因变量因变量自变量自变量参数参数随机误差随机误差y y y y条件平均数条件平均数条件平均数条件平均数下一张下一张 主主 页页 退退 出出 上一张上一张 设回归直线方程为设回归直线方程为:(6-26-2)2.1.2 参数参数,的估计的估计其中,其中,是是的估计值,的估计值,b是是的估计值。的估计值。最小二乘估计法最小二乘估计法建立建立 样本线性回归方程的方法样本线性回归方程的方法最小二乘法最小二乘法实际观察值与样本回归线上实际观察值与样本回归线上的点的距离的平方和最小的点的距离的平方和最小xy e1e2e3e4最小最小 、b应使回归估计值应使回归估计值 与实际
19、观测值与实际观测值y的偏差平方和最小的偏差平方和最小,即:,即:总的离回归平总的离回归平方和,即剩余平方和方和,即剩余平方和 根据微积分学中的求极值的方法,令根据微积分学中的求极值的方法,令 Q对对a、b的一阶偏导数等于的一阶偏导数等于0,即:,即:最小最小(6-36-3)(6-46-4)经整理,得关于经整理,得关于a、b的的正规方程组正规方程组:下一张下一张 主主 页页 退退 出出 上一张上一张 解正规方程组,得:解正规方程组,得:(6-56-5)(6-76-7)在在6-7式中,分子为自变量式中,分子为自变量x的离均差与依的离均差与依变量变量y的离均差的乘积和的离均差的乘积和 ,简,简称称乘
20、积和乘积和,记作,记作 ,分母是自变量,分母是自变量x的离均的离均差平方和差平方和 ,记作,记作SSX。所所所所 以以以以 a为为回归截距回归截距(regression interceptregression intercept),是回归,是回归直线与直线与y轴交点的纵坐标,当轴交点的纵坐标,当x=0时,时,;b为为回归系数回归系数(regression coefficientregression coefficient),表示,表示x变变化一个单位,化一个单位,y平均变化的数量;平均变化的数量;b的符号反的符号反映了映了x影响影响y的性质,的性质,b的绝对值大小反映了的绝对值大小反映了x 影
21、响影响y的程度;的程度;为为回归估计值回归估计值,是当,是当x在其在其研究范围内取某一个值时,研究范围内取某一个值时,y值平均数值平均数 的估计值。的估计值。如果将如果将 式代入(式代入(6-2)式,可得)式,可得到回归方程的到回归方程的中心化形式:中心化形式:下一张下一张 主主 页页 退退 出出 上一张上一张 性质性质1性质性质2性质性质3 回归直线通过点回归直线通过点回归方程的基本性质:回归方程的基本性质:【例【例6-1】食品感官评定时,测得食品甜度与】食品感官评定时,测得食品甜度与蔗糖浓度的关系如表蔗糖浓度的关系如表6-2所示,试建立所示,试建立y与与x的的直线回归方程。直线回归方程。2
22、.1.3 计算示例计算示例蔗糖质量分数蔗糖质量分数x%1.03.04.05.57.08.09.5甜度甜度 y1518192122.623.826表表表表6-2 6-2 食品甜度与蔗糖浓度的关系食品甜度与蔗糖浓度的关系食品甜度与蔗糖浓度的关系食品甜度与蔗糖浓度的关系(1)作散点图)作散点图 以蔗糖质量分数以蔗糖质量分数(x)为横坐标,)为横坐标,甜度(甜度(y)为纵坐)为纵坐标作散点图,如标作散点图,如图图6-2所示。所示。图图6-26-2(2)计算回归截距)计算回归截距a,回归系数,回归系数b,建立直线,建立直线回归方程回归方程下一张 主 页 退 出 上一张 首先根据实际观测值计算出下列数据:
23、首先根据实际观测值计算出下列数据:首先根据实际观测值计算出下列数据:首先根据实际观测值计算出下列数据:所以,甜度所以,甜度所以,甜度所以,甜度y y对蔗糖质量分数对蔗糖质量分数对蔗糖质量分数对蔗糖质量分数x x的直线回归方程为:的直线回归方程为:的直线回归方程为:的直线回归方程为:然后计算出然后计算出然后计算出然后计算出b b、a a:以上计算也可在回归计算表中进行。以上计算也可在回归计算表中进行。以上计算也可在回归计算表中进行。以上计算也可在回归计算表中进行。序号序号序号序号k kX Xk kY Yk kX Xk k2 2X Xk kY Yk kY Yk k2 21 11.0 1.0 1.0
24、 1.0 15.0 15.0 15.0 15.0 1.00 1.00 1.00 1.00 15.0 15.0 15.0 15.0 225.00 225.00 225.00 225.00 2 23.0 3.0 3.0 3.0 18.0 18.0 18.0 18.0 9.00 9.00 9.00 9.00 54.0 54.0 54.0 54.0 324.00 324.00 324.00 324.00 3 34.0 4.0 4.0 4.0 19.0 19.0 19.0 19.0 16.00 16.00 16.00 16.00 76.0 76.0 76.0 76.0 361.00 361.00 361
25、.00 361.00 4 45.5 5.5 5.5 5.5 21.0 21.0 21.0 21.0 30.25 30.25 30.25 30.25 115.5 115.5 115.5 115.5 441.00 441.00 441.00 441.00 5 57.0 7.0 7.0 7.0 22.6 22.6 22.6 22.6 49.00 49.00 49.00 49.00 158.2 158.2 158.2 158.2 510.76 510.76 510.76 510.76 6 68.0 8.0 8.0 8.0 23.8 23.8 23.8 23.8 64.00 64.00 64.00 64
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 章节 直线 回归 相关
限制150内