《直线回归与相关》PPT课件.ppt
《《直线回归与相关》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《直线回归与相关》PPT课件.ppt(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章第八章 直线回归与相关直线回归与相关 前面各章我们讨论的问题,都只涉及到一前面各章我们讨论的问题,都只涉及到一个变量,如体重个变量,如体重、日增重、产仔数、体温、血、日增重、产仔数、体温、血糖浓度糖浓度、产奶量、产奶量、产毛量或孵化率、产毛量或孵化率、发病率、发病率等。等。但是,由于客观事物在发展过程中相互联但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。中常常要研究两个或两个以上变量间的关系。下一张下一张 主主 页页 退退 出出 上一张上一张 最高月最高月产产、猪瘦肉率与背膘厚度
2、、眼肌面积、胴体长;猪瘦肉率与背膘厚度、眼肌面积、胴体长;猪瘦肉率与背膘厚度、眼肌面积、胴体长;猪瘦肉率与背膘厚度、眼肌面积、胴体长;绵羊产毛量与体重、胸围、体长绵羊产毛量与体重、胸围、体长;黑白花奶牛的一胎黑白花奶牛的一胎305天天产产奶量与奶量与、最高日、最高日产产天数;天数;90天天产产奶量、奶量、最高日最高日产产猪的增重与饲料消耗;猪的增重与饲料消耗;雏鹅重与雏鹅重与雏鹅重与雏鹅重与7070日龄重;日龄重;日龄重;日龄重;绵羊胸围与体绵羊胸围与体绵羊胸围与体绵羊胸围与体长长;仔猪初生重与断奶重;仔猪初生重与断奶重;仔猪初生重与断奶重;仔猪初生重与断奶重;例如例如 变量间的关系有两类:变
3、量间的关系有两类:一类是变量间存在着完全确定性的关系,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。可以用精确的数学表达式来表示。如长方形的面积如长方形的面积(S)与与 长(长(a)和)和 宽宽(b)的关系可以表达为:)的关系可以表达为:S=ab。它们之间。它们之间的关系是确定性的,只要知道了其中两个变量的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这的值就可以精确地计算出另一个变量的值,这类变量间的关系称为类变量间的关系称为函数关系函数关系。下一张下一张 主主 页页 退退 出出 上一张上一张 另一类是另一类是 变变 量量 间不存在完全的确定
4、性关间不存在完全的确定性关系,不能用精确的数学公式来表示。系,不能用精确的数学公式来表示。如黄牛的体长与体重的关系;仔猪初生重如黄牛的体长与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,面积、胴体长等的关系等等,这些变量间都存这些变量间都存在着十分密切的关系,但不能由一个或几个变在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。量的值精确地求出另一个变量的值。像这样一像这样一类关系在生物界中是大量存在的,统计学中把类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为这些变量间的关系称
5、为相关关系相关关系,把存在相关,把存在相关关系的变量称为关系的变量称为相关变量相关变量。下一张下一张 主主 页页 退退 出出 上一张上一张 相关变量间的关系一般分为两种相关变量间的关系一般分为两种:一种是一种是因果关系因果关系,即一个变量的变化受另,即一个变量的变化受另一个或几个变量的影响。如仔猪的生长速度受一个或几个变量的影响。如仔猪的生长速度受遗传特性、营养水平、饲养管理条件等因素的遗传特性、营养水平、饲养管理条件等因素的影响,子代的体高受亲本体高的影响;影响,子代的体高受亲本体高的影响;另一种是另一种是平行关系平行关系,它们互为因果或共同,它们互为因果或共同受到另外因素的影响。如黄牛的体
6、长和胸围之受到另外因素的影响。如黄牛的体长和胸围之间的关系,猪的背膘厚度和眼肌面积之间的关间的关系,猪的背膘厚度和眼肌面积之间的关系等都属于平行关系。系等都属于平行关系。下一张下一张 主主 页页 退退 出出 上一张上一张 统计学上采用回归分析统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关)研究呈因果关系的相关变量间的关系。系。表示原因的变量称为自变量,表示结果的表示原因的变量称为自变量,表示结果的变量称为依变量。变量称为依变量。研究研究“一因一果一因一果”,即一个自变量与一个,即一个自变量与一个依变量的回归分析称为依变量的回归分析称为一元回归分析一
7、元回归分析;研究研究“多因一果多因一果”,即多个自变量与一个,即多个自变量与一个依变量的回归分析称为依变量的回归分析称为多元回归分析多元回归分析。一元回归分析又分为一元回归分析又分为直线回归分析直线回归分析与与曲线曲线回归分析回归分析两种;多元回归分析又分为两种;多元回归分析又分为多元线性多元线性回归分析回归分析与与多元非线性回归分析多元非线性回归分析两种。两种。下一张下一张 主主 页页 退退 出出 上一张上一张 回归分析的任务是揭示出呈回归分析的任务是揭示出呈因果关系的相关变量间的联系形因果关系的相关变量间的联系形式,建立它们之间的回归方程,式,建立它们之间的回归方程,利用所建立的回归方程,
8、由自变利用所建立的回归方程,由自变量(原因)来预测、控制依变量量(原因)来预测、控制依变量(结果)。(结果)。统计学上采用相关分析统计学上采用相关分析 (correlation analysis)研究呈平行关系的相关变量之间的关研究呈平行关系的相关变量之间的关系。系。对两个变量间的直线关系进行相关分析称为对两个变量间的直线关系进行相关分析称为简单相关分析简单相关分析(也叫(也叫直线相关分析直线相关分析););对多个变量进行相关分析时,研究一个变量对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为与多个变量间的线性相关称为复相关分析复相关分析;研究;研究其余变量保持不变的情况下两个
9、变量间的线性相其余变量保持不变的情况下两个变量间的线性相关称为关称为偏相关分析偏相关分析。下一张下一张 主主 页页 退退 出出 上一张上一张 第一节第一节 直线回归直线回归 一、直线回归方程的建立一、直线回归方程的建立 对于两个相关变量,一个变量用对于两个相关变量,一个变量用x表示,另表示,另一个变量用一个变量用y表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两个变量的个变量的n对观测值:对观测值:(x1,y1),(),(x2,y2),),(,(xn n,yn n)下一张下一张 主主 页页 退退 出出 上一张上一张 为了直观地看出为了直观地看出x和和y间的变化趋势,可将间的变化趋势
10、,可将每一对每一对 观观 测测 值值 在在 平平 面直角坐标系描点,作面直角坐标系描点,作出散点图出散点图 (见图见图8-1)。从散点图(从散点图(图图8-1)可以看出:)可以看出:两个变量间直线关系的性质(是正相关还两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);是负相关)和程度(是相关密切还是不密切);下一张下一张 主主 页页 退退 出出 上一张上一张 散点图散点图直观地、定性地直观地、定性地表示了两个变量之表示了两个变量之间的关系。为了探讨它们之间的规律性,还必间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系须根据观测值将其内在关系定量地定量
11、地表达出来。表达出来。两个变量间有关或无关两个变量间有关或无关;若有关若有关,两个变量两个变量间关系类型,是直线型还是曲线型;间关系类型,是直线型还是曲线型;如果呈因果关系的两个相关变量如果呈因果关系的两个相关变量y(依变量依变量)与与x(自变量自变量)间的关系是直线关系,根据间的关系是直线关系,根据n对对观测值所描出的散点图,如观测值所描出的散点图,如图图81(b)和和图图81(e)所示。)所示。由于依变量由于依变量y的实际观测值总是带有随机误的实际观测值总是带有随机误差,因而依变量差,因而依变量y的实际观测值的实际观测值yi i可用自变量可用自变量x的实际观测值的实际观测值xi i表示为:
12、表示为:(i i=1,2,=1,2,n n)(8181)其中其中:x 为可以观测的一般变量为可以观测的一般变量(也可以是可以观测也可以是可以观测的随机变量的随机变量);y 为可以观测的随机变量为可以观测的随机变量;这就是直线回归的这就是直线回归的数学模型数学模型。我们可以根据。我们可以根据实际观测值对实际观测值对,以及方差以及方差 做出估计。做出估计。i i为相互独立,且都服从为相互独立,且都服从N(0,)的随机)的随机变量。变量。在在x、y直角坐标平面上可以作出无数直角坐标平面上可以作出无数 条条直线,我们直线,我们把所有直线中最接近散点图中全部散把所有直线中最接近散点图中全部散点的直线用来
13、表示点的直线用来表示x与与y的直线关系的直线关系,这条直线称,这条直线称为为回归直线回归直线。下一张下一张 主主 页页 退退 出出 上一张上一张 设回归直线的方程为设回归直线的方程为:(8-2)其中,其中,a是是的估计值,的估计值,b是是的估计值。的估计值。a、b应使回归估计值应使回归估计值 与实际观测值与实际观测值y的偏差的偏差平方和最小平方和最小,即:,即:根据微积分学中的求极值的方法,令根据微积分学中的求极值的方法,令 Q对对a、b的一阶偏导数等于的一阶偏导数等于0,即:,即:最最 小小 整理得关于整理得关于a、b的的正规方程组正规方程组:下一张下一张 主主 页页 退退 出出 上一张上一
14、张 解正规方程组,得:解正规方程组,得:(8-3)(8-4)(8-3)式中的分子是自变量)式中的分子是自变量x的离均的离均差差 与与 依依 变变 量量 y 的的 离离 均均 差差 的的 乘乘 积积和和 ,简,简 称称 乘积和乘积和,记作,记作 ,分母是自变量,分母是自变量x的离均差的离均差 平方和平方和 ,记作,记作SSX。a叫做样本叫做样本回归截距回归截距,是回归直线与,是回归直线与y轴交点的纵坐标,当轴交点的纵坐标,当x=0时,时,=a;b叫做样本叫做样本回归系数回归系数,表,表 示示 x 改改 变变一个单位,一个单位,y平均改变的数量;平均改变的数量;b 的符号的符号反映了反映了x影响影
15、响y的性质,的性质,b的绝对值大小反的绝对值大小反映了映了 x 影响影响 y 的的 程度程度;的估计值。的估计值。叫做叫做回归估计值回归估计值,是当,是当x在在其研在在其研究究 范范 围围 内内 取某一个值时,取某一个值时,y值平均数值平均数 回归方程的基本性质:回归方程的基本性质:如果将(如果将(8-4)式代入()式代入(8-2)式,得到)式,得到回归方程的另一种形式回归方程的另一种形式(中心化形式中心化形式):下一张下一张 主主 页页 退退 出出 上一张上一张 性质性质1最小;最小;性质性质2;性质性质3 回回 归归 直直 线线 通通 过过 点点。(8-5)【例【例8.1】在四川白鹅的生产
16、性能研究中,】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(得到如下一组关于雏鹅重(g)与)与70日龄重日龄重(g)的数据,试建立的数据,试建立70日龄重日龄重(y)与雏鹅重与雏鹅重(x)的直的直线回归方程。线回归方程。表表8-1 四川白鹅雏鹅重与四川白鹅雏鹅重与70日龄重测定结果日龄重测定结果 (单位:(单位:g)下一张下一张 主主 页页 退退 出出 上一张上一张 1、作散点图、作散点图 以雏鹅重(以雏鹅重(x)为横坐)为横坐标,标,70日龄重(日龄重(y)为纵坐标作散点图,)为纵坐标作散点图,见见图图8-3。2、计算回归截距、计算回归截距a,回归系数,回归系数b,建立直线回归方程建立
17、直线回归方程 首先根据实际观测值计算出首先根据实际观测值计算出 下下 列数列数据:据:下一张 主 页 退 出 上一张 进而计算出进而计算出b、a:得到四川白鹅的得到四川白鹅的70日龄重日龄重y对雏鹅重对雏鹅重x的的直线回归方程为:直线回归方程为:根据直线回归方程可作出回归直线,见图根据直线回归方程可作出回归直线,见图8-3。从图。从图8-3看出,并不是所有的散点都恰看出,并不是所有的散点都恰好落在回归直线上,这说明好落在回归直线上,这说明用用 去估计去估计y是有是有偏差的。偏差的。下一张下一张 主主 页页 退退 出出 上一张上一张 3 3、直线回归的偏离度估计、直线回归的偏离度估计、直线回归的
18、偏离度估计、直线回归的偏离度估计 偏差平方和偏差平方和偏差平方和偏差平方和 的大小表示了实测点与回归的大小表示了实测点与回归的大小表示了实测点与回归的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为直线偏离的程度,因而偏差平方和又称为直线偏离的程度,因而偏差平方和又称为直线偏离的程度,因而偏差平方和又称为离回归平方离回归平方离回归平方离回归平方和和和和。统计学已经证明:在直线回归分析中离回归平方。统计学已经证明:在直线回归分析中离回归平方。统计学已经证明:在直线回归分析中离回归平方。统计学已经证明:在直线回归分析中离回归平方和的自由度为和的自由度为和的自由度为和的自由度为n n-2-
19、2。于是可求得。于是可求得。于是可求得。于是可求得离回归均方离回归均方离回归均方离回归均方为:为:为:为:离回归均方是模型(离回归均方是模型(离回归均方是模型(离回归均方是模型(8-18-1)中)中)中)中 2 2的估计值。的估计值。的估计值。的估计值。离回归均方的平方根叫离回归均方的平方根叫离回归均方的平方根叫离回归均方的平方根叫离回归标准误离回归标准误离回归标准误离回归标准误,记为,记为,记为,记为 ,即即即即 (8-6)离回归标准误离回归标准误Syx的大小表示了回归直线与的大小表示了回归直线与实测点偏差的程度实测点偏差的程度,即回归估测值,即回归估测值 与与 实实 际际观测值观测值y偏差
20、的程度,于是我们偏差的程度,于是我们把离回归标准把离回归标准误误Syx用来表示回归方程的偏离度。用来表示回归方程的偏离度。下一张下一张 主主 页页 退退 出出 上一张上一张 以后我们将证明:以后我们将证明:(8-7)利用(利用(8-7)式先计算出)式先计算出 ,然后,然后再代入(再代入(8-6)式求)式求Syx。对于【例对于【例8.1】有】有所以所以二、直线回归的显著性检验二、直线回归的显著性检验 若若x和和y变量间并不存在直线关系,变量间并不存在直线关系,但由但由n对观测值(对观测值(xi,yi)也可以根据上面介绍的方)也可以根据上面介绍的方法求得一个回归方程法求得一个回归方程 =a+bx。
21、显然,这样显然,这样的回归方程所反应的两个变量间的回归方程所反应的两个变量间 的直线关系是的直线关系是不真实的。不真实的。如何判断直线回归方程所反应的两如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变个变量间的直线关系的真实性呢?这取决于变量量x与与y间是否存在直线关系。我们先探讨依变间是否存在直线关系。我们先探讨依变量量y的变异,然后再作出统计推断。的变异,然后再作出统计推断。下一张下一张 主主 页页 退退 出出 上一张上一张 1、直线回归的变异来源、直线回归的变异来源 图图8-4 的分解图的分解图 从图从图8-4看到:看到:上式两端平方,然后对所有的上式两端平方,然后
22、对所有的n点求和,则有点求和,则有 下一张下一张 主主 页页 退退 出出 上一张上一张 由由 于于所所 以以于于 是是 所以有所以有所以有所以有 (8-88-8)反映了反映了反映了反映了y y的总变异程度,称为的总变异程度,称为的总变异程度,称为的总变异程度,称为y y的总的总的总的总平方和,记为平方和,记为平方和,记为平方和,记为SSSSy y;反映了由于反映了由于反映了由于反映了由于y y与与与与x x间存在直线关系所间存在直线关系所间存在直线关系所间存在直线关系所引起的引起的引起的引起的y y的变异程度,称为回归平方和,记为的变异程度,称为回归平方和,记为的变异程度,称为回归平方和,记为
23、的变异程度,称为回归平方和,记为SSSSRR;反映了除反映了除y与与x存在直线关系以外的存在直线关系以外的原因,包括随机误差所引起的原因,包括随机误差所引起的y的变异程度,称的变异程度,称为离回归平方和或剩余平方和,记为为离回归平方和或剩余平方和,记为SSr。(8-8)式又可表示为:)式又可表示为:(8-9)这表明这表明y的总平方和剖分为的总平方和剖分为 回归平方和回归平方和 与离与离回归平方和两部分。与此相对应,回归平方和两部分。与此相对应,y的总自由度的总自由度dfy也划分为回归自由度也划分为回归自由度dfr与离回归自由度与离回归自由度dfr两部分,即两部分,即 下一张下一张 主主 页页
24、退退 出出 上一张上一张 (8-10)在直线回归分析中,回归自由度等于自在直线回归分析中,回归自由度等于自变量的个数,变量的个数,即即 ;y 的的 总总 自自 由由度度 ;离回归自由度;离回归自由度 。于是:。于是:离回归均方离回归均方 ,回回 归归 均均 方方 。2、回归关系显著性检验、回归关系显著性检验F检验检验 x与与y两个变量间是否存在直线关系,可用两个变量间是否存在直线关系,可用F检验法进行检验。检验法进行检验。无效假设无效假设HO:=0,备择假设,备择假设HA:0。在无效假设成立的条件下,回归均方与离回在无效假设成立的条件下,回归均方与离回归均方的比值服从归均方的比值服从 和和 的
25、的F分布,分布,所以可以用所以可以用 dfdf1 1=1,=1,dfdf2 2=n n-2-2 (8-11)下一张下一张 主主 页页 退退 出出 上一张上一张 来检验回归关系即回归方程的显著性。来检验回归关系即回归方程的显著性。回归平方和还可用下面的公式计算得到:回归平方和还可用下面的公式计算得到:(8-12)(8-13)根据(根据(8-9)式,可得到离回归平方和计算)式,可得到离回归平方和计算公式为:公式为:下一张下一张 主主 页页 退退 出出 上一张上一张 对于【例对于【例8.1】资料,有】资料,有而而 。于是可以。于是可以列出方差分析表进行回归关系显著性检验。列出方差分析表进行回归关系显
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 直线回归与相关 直线 回归 相关 PPT 课件
限制150内