统计学 第七章 相关分析.ppt
第七章第七章 相关关系分析法相关关系分析法 x xy y西安石油大学经管院西安石油大学经管院第七章第七章 相关分析相关分析相关关系分析概述相关关系分析概述简单直线相关分析简单直线相关分析简单直线回归分析简单直线回归分析曲线回归及多元线性回归分析曲线回归及多元线性回归分析其他相关系数的介绍其他相关系数的介绍研究内容:研究内容:本章学习目的本章学习目的通过本章的学习要求理解相关分析和回归通过本章的学习要求理解相关分析和回归通过本章的学习要求理解相关分析和回归通过本章的学习要求理解相关分析和回归分析的有关概念,研究内容,掌握计算相分析的有关概念,研究内容,掌握计算相分析的有关概念,研究内容,掌握计算相分析的有关概念,研究内容,掌握计算相关系数和配合回归方程的方法,并能结合关系数和配合回归方程的方法,并能结合关系数和配合回归方程的方法,并能结合关系数和配合回归方程的方法,并能结合实际资料对变量进行相关与回归分析。实际资料对变量进行相关与回归分析。实际资料对变量进行相关与回归分析。实际资料对变量进行相关与回归分析。本章重点难点本章重点难点v 重点重点重点重点:相关关系的概念和种类、相:相关关系的概念和种类、相:相关关系的概念和种类、相:相关关系的概念和种类、相关系数的计算及应用;回归分析的概念、关系数的计算及应用;回归分析的概念、关系数的计算及应用;回归分析的概念、关系数的计算及应用;回归分析的概念、配合直线回归方程的方法、参数配合直线回归方程的方法、参数配合直线回归方程的方法、参数配合直线回归方程的方法、参数a a a a和和和和b b b b的的的的经济含义。经济含义。经济含义。经济含义。vv 难点难点难点难点:相关系数的计算、配合直线:相关系数的计算、配合直线:相关系数的计算、配合直线:相关系数的计算、配合直线回归方程的方法、相关分析与回归分析回归方程的方法、相关分析与回归分析回归方程的方法、相关分析与回归分析回归方程的方法、相关分析与回归分析的区别与联系、估计标准误的计算。的区别与联系、估计标准误的计算。的区别与联系、估计标准误的计算。的区别与联系、估计标准误的计算。(一一)函数关系函数关系第一节第一节 相关关系分析概述相关关系分析概述一、相关关系的的概念一、相关关系的的概念函数关系:函数关系:是指变量之间存在着严格的依存关系是指变量之间存在着严格的依存关系在这种关系中,当自变量取定一个数值时,因变在这种关系中,当自变量取定一个数值时,因变量会有一个完全确定的值和它对应。量会有一个完全确定的值和它对应。或对于某一变量的每一个数值,另一变量都会有或对于某一变量的每一个数值,另一变量都会有唯一确定的值与之相对应,并且这种关系可用一唯一确定的值与之相对应,并且这种关系可用一个数学表达式反映出来。如图个数学表达式反映出来。如图1-11-1所示。所示。如圆的面积如圆的面积=圆周率圆周率半径半径2 2销售额销售额=销售量销售量销售价格(价格一定时)销售价格(价格一定时)相关关系分析概述相关关系分析概述 x x x xy y y y距离距离=速度速度时间(在匀速条件下)时间(在匀速条件下)图图1-11-1相关关系分析概述相关关系分析概述(二二)相关关系相关关系相关关系:相关关系:它是指现象之间确实存在的、但关系它是指现象之间确实存在的、但关系值不固定的相互依存关系。或现象之间客观存在值不固定的相互依存关系。或现象之间客观存在的不严格、不确定的数量依存关系。如图的不严格、不确定的数量依存关系。如图1-21-2所示。所示。例如粮食亩产量与施肥量之间例如粮食亩产量与施肥量之间、某种日用品的销某种日用品的销售量与当地居民的人口数、身高与体重之间等。售量与当地居民的人口数、身高与体重之间等。x x x xy y y y图图1-21-2相关关系分析概述相关关系分析概述不相关:若两种现象之间彼此互不影响,其数不相关:若两种现象之间彼此互不影响,其数量变化各自独立,则为不相关。量变化各自独立,则为不相关。(一)按相关的程度分为:完全相关、不完全相(一)按相关的程度分为:完全相关、不完全相关和不相关关和不相关完全相关:两种现象之间,其中一个现象的数完全相关:两种现象之间,其中一个现象的数量变化完全由另一个现象的数量变化所确定,则量变化完全由另一个现象的数量变化所确定,则这两种现象之间的关系为完全相关。这两种现象之间的关系为完全相关。不完全相关:若两种现象之间的关系介于完全不完全相关:若两种现象之间的关系介于完全相关和不相关之间,则称其为不完全相关相关和不相关之间,则称其为不完全相关 。二、相关关系的种类二、相关关系的种类相关关系分析概述相关关系分析概述(二)按变量之间相关关系的(二)按变量之间相关关系的方向分(按相关的方向分(按相关的 性性质质分):分):正相关正相关 和负相关和负相关 正相关:正相关:当一个变量当一个变量x x的值增加(或减少),另一个的值增加(或减少),另一个变量变量y y的值也随之增加(或减少)(同方向变动)。的值也随之增加(或减少)(同方向变动)。例如:例如:家庭的消费支出随着收入的增加而增加;随家庭的消费支出随着收入的增加而增加;随着技术水平的提高,产品合格率也不断提高等。着技术水平的提高,产品合格率也不断提高等。负相关:负相关:当一个变量当一个变量x x的值增加(减少)时,另一个的值增加(减少)时,另一个变量变量y y的值随之减少(增加)(反方向变动)。的值随之减少(增加)(反方向变动)。例如:例如:商品流转的规模越大,单位流通费用越低;劳商品流转的规模越大,单位流通费用越低;劳动生产率水平提高,单位产品成本随之下降。动生产率水平提高,单位产品成本随之下降。相关关系分析概述相关关系分析概述正相关、负相关若用散点图表示如图正相关、负相关若用散点图表示如图1-31-3中中(1 1)、()、(2 2)所示。)所示。相关关系分析概述相关关系分析概述图图1-31-3(三)按相关的形式分:直线相关和曲线相关(三)按相关的形式分:直线相关和曲线相关 直线相关:直线相关:当一个变量发生增减变动时,另一变当一个变量发生增减变动时,另一变量随之发生大体均等的增减变动。量随之发生大体均等的增减变动。或或一种现象的一种现象的一个数值和另一种现象相应的数值,在平面坐标一个数值和另一种现象相应的数值,在平面坐标系中确定为一个点,称为散点(相关点),若相系中确定为一个点,称为散点(相关点),若相关点大致分布在一条直线的周围,则为线性相关。关点大致分布在一条直线的周围,则为线性相关。曲线相关:曲线相关:当一个变量发生变动时,另一变量的当一个变量发生变动时,另一变量的值也随之发生变动,但这种变动是不均等的,在值也随之发生变动,但这种变动是不均等的,在图形上,其观察点分布在各种不同的曲线周围。图形上,其观察点分布在各种不同的曲线周围。相关关系分析概述相关关系分析概述(3 3)图图1-41-4为直线相关图(为直线相关图(1 1)()(2 2),图),图1-51-5为曲线相为曲线相关图(关图(3 3)()(4 4):):相关关系分析概述相关关系分析概述图图1-41-4图图1-51-5(四)按研究变量(四)按研究变量的多少分的多少分 :单相关:单相关 和复相关和复相关 单相关:单相关:研究两个变量之间的相关关系为单相关,研究两个变量之间的相关关系为单相关,即一个因变量和一个自变量之间的相关关系。即一个因变量和一个自变量之间的相关关系。例如:例如:劳动生产率与单位产品成本之间的关系、收劳动生产率与单位产品成本之间的关系、收入水平入水平(y y)与受教育程度与受教育程度(x x)之间的关系;之间的关系;复相关:复相关:研究三个或三个以上变量之间的相关关系。研究三个或三个以上变量之间的相关关系。例如:例如:同时研究商品的销售额、广告费支出、居民同时研究商品的销售额、广告费支出、居民收入水平之间的关系;研究某种商品的需求量与价收入水平之间的关系;研究某种商品的需求量与价格水平及人们的收入水平之间的关系。格水平及人们的收入水平之间的关系。相关关系分析概述相关关系分析概述相关关系的图示相关关系的图示 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 相关关系分析概述相关关系分析概述 确定经济现象之间是否存在相关关系及相关确定经济现象之间是否存在相关关系及相关 关系的种类。关系的种类。确定经济现象之间相关关系的密切程度确定经济现象之间相关关系的密切程度 ;建立经济现象之间数量变动关系的数学方程式建立经济现象之间数量变动关系的数学方程式 ;确定因变量估计值误差的程度确定因变量估计值误差的程度 三、相关关系分析的主要三、相关关系分析的主要内容内容(任务)(任务)相关关系分析概述相关关系分析概述研究内容研究内容现象之间是否存在相关关系现象之间是否存在相关关系相关关系的种类相关关系的种类相关关系的密切程度相关关系的密切程度第二节第二节 简单直线相关分析简单直线相关分析简单直线相关分析简单直线相关分析(一)相关表(一)相关表概念:概念:将相关两个变量的对应数值按照一定的顺将相关两个变量的对应数值按照一定的顺序或规格排列在一张表格上所形成的统计表。序或规格排列在一张表格上所形成的统计表。种类:种类:按照资料是否按照资料是否分分组组相关表分相关表分为为 :简单相关:简单相关表和分组相关表表和分组相关表 简单相关表:简单相关表:是指资料未经分组,只将一个变量的是指资料未经分组,只将一个变量的数值按照从小到大(或时间)顺序、并配合相应的数值按照从小到大(或时间)顺序、并配合相应的另一个变量的变量值一一对应而平行排列起来形成另一个变量的变量值一一对应而平行排列起来形成的表。的表。一、相关表和相关图一、相关表和相关图简单直线相关分析简单直线相关分析序序 号号机床使用年限(年)机床使用年限(年)年维修费用(元)年维修费用(元)1 12 24004002 22 25405403 33 35205204 44 46406405 54 47407406 65 56006007 75 58008008 86 67007009 96 676076010106 690090011118 884084012129 910801080简单直线相关分析简单直线相关分析分组相关表:分组相关表:是根据分组资料编制的相关表。是根据分组资料编制的相关表。单变量分组表单变量分组表 使用年限使用年限机床数机床数(台台)年平均维修费用(元)年平均维修费用(元)2 22 24704703 31 15205204 42 26906905 52 27007006 63 37877878 81 18408409 91 110801080合计合计1212简单直线相关分析简单直线相关分析双变量分组表双变量分组表 年维修费用年维修费用(元)(元)机床使用年限机床使用年限(年年)合计合计2 23 34 45 56 68 89 910001000110011001 11 1900900100010001 11 18008009009001 11 12 27007008008001 12 23 36006007007001 11 12 25005006006001 11 12 24004005005001 11 1合合 计计2 21 12 22 23 31 11 11212简单直线相关分析简单直线相关分析(二)相关图(二)相关图使用年限使用年限简单直线相关分析简单直线相关分析(一)相关系数的含义(一)相关系数的含义相关系数:相关系数:是说明两种现象之间直线相关关系密是说明两种现象之间直线相关关系密切程度的统计分析指标。切程度的统计分析指标。(二)相关系数的一般公式(二)相关系数的一般公式 二、相关系数二、相关系数简单直线相关分析简单直线相关分析协方差的作用:协方差的作用:显示显示x x与与y y之间相关的性质,即是正相关还是负之间相关的性质,即是正相关还是负相关;相关;显示显示x x与与y y相关程度的大小。相关程度的大小。标标准差作用准差作用 :消除离差积乘中两个变量原有计量单位的影响;消除离差积乘中两个变量原有计量单位的影响;将名数局限在将名数局限在-1-1到到+1+1之间。之间。简单直线相关分析简单直线相关分析证明:证明:同理:同理:简单直线相关分析简单直线相关分析根据根据 可得可得 -2r+20-2r+20则则 -1r+1-1r+1 2r+202r+20r-1r-1r1 r1 简单直线相关分析简单直线相关分析【例例】某市工资性现金收入与城镇储蓄存款余额某市工资性现金收入与城镇储蓄存款余额资料资料 及其相关系数的计算过程如下表:及其相关系数的计算过程如下表:序序号号年年份份x x(万元万元)y y(万元万元)1 119981998 500500120120-310-310-155-155 9610096100 240252402548050480502 219991999 540540140140-270-270-135-135 7290072900 182251822536450364503 320002000 620620150150-190-190-125-125 3610036100 156251562523750237504 420012001 730730200200 -80-80 -75-75 64006400 56255625 600060005 520022002 900900280280 9090 5 5 81008100 2525 4504506 620032003 970970350350 160 160 7575 2560025600 5625562512000120007 72004200410501050450450 240 240175175 5760057600 306253062542000420008 82005200511701170510510 360 360235235129600129600 55225552258460084600合计合计64806480 2200 2200432400432400155000155000253300253300简单直线相关分析简单直线相关分析经过计算,表明该市工资性现金收入与城镇储蓄经过计算,表明该市工资性现金收入与城镇储蓄存款余额之间存在着高度正相关。存款余额之间存在着高度正相关。简单直线相关分析简单直线相关分析判断相关关系密切程度的判断相关关系密切程度的标准标准为:为:微弱相关微弱相关 低度相关低度相关 显著相关显著相关 高度相关高度相关 完全相关完全相关 不相关不相关r r0.30.30.30.3r r0.50.50.50.5r r0.80.80.80.8r r1 1r r=1=1简单直线相关分析简单直线相关分析(三)相关系数的简化式(三)相关系数的简化式通过变量代换,可将相关系数的计算公式简化为通过变量代换,可将相关系数的计算公式简化为如下公式。它可以直接利用原始变量值的和计算。如下公式。它可以直接利用原始变量值的和计算。简单直线相关分析简单直线相关分析证明:证明:同理同理 简单直线相关分析简单直线相关分析由单变量分组表计算相关系数由单变量分组表计算相关系数:或或 简单直线相关分析简单直线相关分析式中:式中:简单直线相关分析简单直线相关分析令令则则简单直线相关分析简单直线相关分析序号序号机床使用年限(年)机床使用年限(年)x x年维修费(元)年维修费(元)y yX X2 2Y Y2 2xyxy1 12 24004004 41600001600008008002 22 25405404 4291600291600108010803 33 35205209 9270400270400156015604 44 46406401616409600409600256025605 54 47407401616547600547600296029606 65 56006002525360000360000300030007 75 58008002525640000640000400040008 86 67007003636690000690000420042009 96 676076036365776005776004560456010106 690090036368100008100005400540011118 884084064647056007056006720672012129 910801080818111664011664097209720合计合计60608520852035.235.2642880064288004656046560如前面未分组资料,其相关系数的计算过程为:如前面未分组资料,其相关系数的计算过程为:简单直线相关分析简单直线相关分析计算结果表明,机床使用年限与维修费用之间为高计算结果表明,机床使用年限与维修费用之间为高度正相关。度正相关。简单直线相关分析简单直线相关分析三、简单直线相关分析的特点三、简单直线相关分析的特点 1.1.用于相关分析的两个变量是对等的关系,不用于相关分析的两个变量是对等的关系,不分自变量和因变量;分自变量和因变量;4 4.用于相关分析的两个变量均为随机变量。用于相关分析的两个变量均为随机变量。2 2.只能计算出一个相关系数;只能计算出一个相关系数;3 3.相关系数相关系数r的有正负号。分别表示正相关,负的有正负号。分别表示正相关,负相关;相关;.简单直线相关分析简单直线相关分析第三节第三节 简单直线回归分析简单直线回归分析回归分析法:回归分析法:就是对具有相关关系的两个或两个以就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确立一上变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,以便从一个已知的量来推测个相应的数学表达式,以便从一个已知的量来推测另一个未知的量。另一个未知的量。或:用数学方程式来反映经济现象之间数量变化的一或:用数学方程式来反映经济现象之间数量变化的一般关系的方法叫回归分析法,这里的数学表达式叫回般关系的方法叫回归分析法,这里的数学表达式叫回归方程。归方程。一、回归分析的意义一、回归分析的意义简单直线回归分析简单直线回归分析简单直线回归分析的特点:简单直线回归分析的特点:1.1.在两个变量之间必须根据研究的目的确定在两个变量之间必须根据研究的目的确定哪个是自变量,哪个是因变量。哪个是自变量,哪个是因变量。2.2.在没有明显因果关系的两个变量中,可配在没有明显因果关系的两个变量中,可配合两个回归方程。合两个回归方程。值得注意的是,若两个变量存在明显的因果值得注意的是,若两个变量存在明显的因果关系时,只能计算一条回归直线,另一条配关系时,只能计算一条回归直线,另一条配合出来也没意义。合出来也没意义。3.3.回归方程的作用在于给出自变量的数值来回归方程的作用在于给出自变量的数值来估计因变量的可能值。估计因变量的可能值。简单直线回归分析简单直线回归分析5.5.回归分析中,因变量是随机的,而把自变量当回归分析中,因变量是随机的,而把自变量当作研究时可以控制的量。即在给定不同自变量的作研究时可以控制的量。即在给定不同自变量的数值下,观察对应的因变量数值的变化情况。数值下,观察对应的因变量数值的变化情况。4.4.直线回归方程中,自变量的系数直线回归方程中,自变量的系数b b称为回归系称为回归系数。回归系数的符号为正时表示正相关数。回归系数的符号为正时表示正相关,为负表为负表示负相关。示负相关。简单直线回归分析简单直线回归分析配合直线回归方程的前提条件是:两个变量之间配合直线回归方程的前提条件是:两个变量之间确实存在线性相关关系,而且其相关的紧密程度确实存在线性相关关系,而且其相关的紧密程度至少是显著的。至少是显著的。(一)回归方程的建立(一)回归方程的建立简单直线回归方程的一般形式为:简单直线回归方程的一般形式为:二、直线回归方程的建立和求解二、直线回归方程的建立和求解判断资料的变动规律及相关点的分布规律:当随判断资料的变动规律及相关点的分布规律:当随着的变动,的增长量大致相等时,或相关点着的变动,的增长量大致相等时,或相关点分布在一条直线周围时,可配合直线回归方程。分布在一条直线周围时,可配合直线回归方程。简单直线回归分析简单直线回归分析若一条直线上的点和实际相关点的离差平方和为若一条直线上的点和实际相关点的离差平方和为最小值,则这条直线是最理想的。最小值,则这条直线是最理想的。(二)参数二)参数a a、b b的求解的求解根据根据 这这个条件所配合的方程叫个条件所配合的方程叫最小二乘法。参数最小二乘法。参数a a、b b常用最小平方法来求解。常用最小平方法来求解。b b 回归直线的斜率,称回归系数回归直线的斜率,称回归系数,表明表明x x每增每增加一个单位,因变量加一个单位,因变量y yc c的平均变化值。的平均变化值。b0b0,x x与与y y为正相关;为正相关;b0b0,x x与与y y为负相关为负相关 式中,式中,y yc c 因变量的估计值;因变量的估计值;x x 自变量;自变量;a a 回归直线在回归直线在y y轴上的截距,轴上的截距,x x等于等于0 0时时y y的值;的值;简单直线回归分析简单直线回归分析 根据极值原理根据极值原理,令,则对参令,则对参 数数a a、b b分别求偏导等于零得:分别求偏导等于零得:即即简单直线回归分析简单直线回归分析 根据前面维修费用和机床使用年限资料:根据前面维修费用和机床使用年限资料:则则简单直线回归分析简单直线回归分析回归方程的一个重要意义在于根据自变量的已知值回归方程的一个重要意义在于根据自变量的已知值推算因变量的可能值。推算因变量的可能值。回归直线的代表性如何,一般是通过估计标准误差回归直线的代表性如何,一般是通过估计标准误差指标加以检验的。它是用来说明回归直线代表性大指标加以检验的。它是用来说明回归直线代表性大小的统计指标,其原理与前面讲过的衡量平均数的小的统计指标,其原理与前面讲过的衡量平均数的代表性的原理相同,不同的是:前面说明平均数的代表性的原理相同,不同的是:前面说明平均数的代表性,而这里说明的是平均线或趋势线的代表性。代表性,而这里说明的是平均线或趋势线的代表性。三、估计标准误差三、估计标准误差(一)估计标准误差的意义(一)估计标准误差的意义简单直线回归分析简单直线回归分析(二)估计标准误差的计算方法(二)估计标准误差的计算方法2.2.根据参数根据参数a a、b b计算计算估计标准误差是说明回归方程代表性大小的统计估计标准误差是说明回归方程代表性大小的统计分析指标。其值小,表明方程代表性大;反之说分析指标。其值小,表明方程代表性大;反之说明方程代表性小。明方程代表性小。1.1.根据因变量的实际值和估计值的离差计算根据因变量的实际值和估计值的离差计算简单直线回归分析简单直线回归分析证明:证明:已知已知 则:则:简单直线回归分析简单直线回归分析机床使用年限机床使用年限(年年)x)x维修费(元)维修费(元)y y2 2400400481.55481.55-81.55-81.556650.406650.402 2540540481.55481.5558.4558.453116.403116.403 3520520557.70557.70-37.70-37.701421.291421.294 4640640633.85633.856.156.1537.8237.824 4740740633.85633.85106.15106.1511267.8211267.825 5600600710.00710.00-110.00-110.0012100.0012100.005 5800800710.00710.0090.0090.008100.008100.006 6700700786.15786.15-86.15-86.157121.827121.826 6760760786.15786.15-26.15-26.15683.82683.826 6900900786.15786.15113.85113.8512961.8212961.828 8840840938.45938.4598.4598.459296.409296.409 9108410841014.601014.6065.4065.404277.164277.16合合 计计852085208520.008520.0078030.7578030.75【例例1 1】由前资料根据因变量的实际值和估计值的离差计算由前资料根据因变量的实际值和估计值的离差计算简单直线回归分析简单直线回归分析解:解:说明维修费的实际值和估计值是有差距说明维修费的实际值和估计值是有差距的,这个差距有的大,有的小,平均来的,这个差距有的大,有的小,平均来说为说为88.3388.33元。元。简单直线回归分析简单直线回归分析【例例2 2】由前面资料根据参数由前面资料根据参数a a、b b计算估计标准误差计算估计标准误差a=329.25a=329.25b=76.15b=76.15n=12n=12维修费的实际值和估计值是有差距的,这个差距有维修费的实际值和估计值是有差距的,这个差距有的大,有的小,平均来说为的大,有的小,平均来说为88.3388.33元。元。简单直线回归分析简单直线回归分析(三)估计标准误差和相关系数的关系(三)估计标准误差和相关系数的关系1.1.离差平方和的分解离差平方和的分解因为因为令令 所以所以简单直线回归分析简单直线回归分析x x x xy y y y如图如图3-13-1、3-23-2所示:所示:图图3-1简单直线回归分析简单直线回归分析 x xy y 图图3-2 离差分解图离差分解图简单直线回归分析简单直线回归分析它表明总变差的产生受两个因素的影响:它表明总变差的产生受两个因素的影响:也就是由于也就是由于x x与与y y的线性依存关系而引起的线性依存关系而引起y y的变化的变化部分称为回归变差。部分称为回归变差。受自变量变动的影响受自变量变动的影响若无若无u u,点会如图,点会如图3-33-3所示所示x x x xy y y y图图3-33-3简单直线回归分析简单直线回归分析两个变量之间关系的密切程度可由决定:两个变量之间关系的密切程度可由决定:指除了指除了x x与与y y的线性依存关系影响外的一切因素对的线性依存关系影响外的一切因素对y y的的影响部分影响部分,即总变差中减去回归变差后剩余的部分。即总变差中减去回归变差后剩余的部分。A.A.若估计误差若估计误差Q Q为最大值,等于总变差时:为最大值,等于总变差时:u=0 u=0 与与 完全重叠,完全重叠,y y的大小不受的大小不受x x的影响。如图(的影响。如图(1 1)B.B.若估计值为最小值若估计值为最小值0 0时,时,估计误差估计误差简单直线回归分析简单直线回归分析C.C.若若Q Q的数值愈大,表明所有的观察点离回归线愈的数值愈大,表明所有的观察点离回归线愈近,因而也就表示近,因而也就表示x x与与y y的线性关系愈密切。的线性关系愈密切。由此看来,两个变量之间关系的密切程度完全由由此看来,两个变量之间关系的密切程度完全由Q Q来确定,来确定,Q Q越小,越小,y y与与x x的关系越密切,的关系越密切,Q Q愈大,愈大,x x与与y y关系愈不密切。关系愈不密切。而估计标准误差是而估计标准误差是Q Q的平均值,所以估计标准误差的平均值,所以估计标准误差也叫剩余标准差。也叫剩余标准差。由此看来,绝对有关。由此看来,绝对有关。表示所有的点表示所有的点y y都落在回归线都落在回归线 上,所以上,所以x x与与y y完全完全线性相关。线性相关。简单直线回归分析简单直线回归分析2.2.估计标准误差与相关系数的关系估计标准误差与相关系数的关系根据方差分解公式得:根据方差分解公式得:简单直线回归分析简单直线回归分析r r2 2称为判定系数称为判定系数,表明已判明的因素在总变差中表明已判明的因素在总变差中所占比重的大小。所占比重的大小。r r2 2比重越大,比重越大,Q Q所占比重越所占比重越小,点与直线的距离越近。小,点与直线的距离越近。简单直线回归分析简单直线回归分析或或这里的这里的r r称为称为方差法方差法相关系数,它既适合于线性相相关系数,它既适合于线性相关,也适合于非线性相关。关,也适合于非线性相关。在非线性相关条件下,用在非线性相关条件下,用R R表示,称为相关指数;表示,称为相关指数;r r只取正值,但并不意味着表示正相关。线性相关只取正值,但并不意味着表示正相关。线性相关是正相关,还是负相关由是正相关,还是负相关由b b决定。决定。-1r-1r2 2+1+1简单直线回归分析简单直线回归分析【例例1 1】检查检查5 5位同学学习时间与学习成绩如下表:位同学学习时间与学习成绩如下表:每天学每天学习时习时数数x x平均成平均成绩绩y y4 4404041.241.2-22-22484484-1.2-1.21.441.446 6606051.651.6-2-24 48.48.470.5670.567 7505056.856.8-12-12144144-6.8-6.846.2446.241010707072.472.48 86464-2.4-2.45.765.761313909088.088.028287847842.02.04.004.0040403103103103100 014801480128.00128.00解:经过计算,其直线回归方程为:解:经过计算,其直线回归方程为:简单直线回归分析简单直线回归分析r r2 2说明在总变差中,有说明在总变差中,有91.35%91.35%可以由回归方程可以由回归方程来解释,即已判明的因素在总变差中所占的比来解释,即已判明的因素在总变差中所占的比重为重为91.35%91.35%。简单直线回归分析简单直线回归分析说明理论分数与实际分数说明理论分数与实际分数y y之间平均误差为之间平均误差为6.56.5分,分,这个数字与平均成绩这个数字与平均成绩6262分对比约占分对比约占10.48%10.48%r r表明学习时数与成绩之间存在着高度的正相关表明学习时数与成绩之间存在着高度的正相关关系。关系。简单直线回归分析简单直线回归分析第四节第四节曲线曲线回归及回归及多元线性多元线性回归回归一、曲线回归分析一、曲线回归分析在在实践中,对已掌握的资料,应充分利用相关表、相实践中,对已掌握的资料,应充分利用相关表、相关图,对相关点的分布特征进行分析判断,并结合一关图,对相关点的分布特征进行分析判断,并结合一些已知的函数图形知识,选择适当的数学模型,再用些已知的函数图形知识,选择适当的数学模型,再用可行的方法求解参数(一般用最小二乘法)。许多情可行的方法求解参数(一般用最小二乘法)。许多情况下,非线性回归问题可以通过变量的变换转化成线况下,非线性回归问题可以通过变量的变换转化成线性回归方程,计算简单方便。性回归方程,计算简单方便。若增长速度大致相同:若增长速度大致相同:若二级增长量大致相同时:若二级增长量大致相同时:曲线回归及多元线性回归曲线回归及多元线性回归若若y y比比x x的变化慢时用对数方程:的变化慢时用对数方程:若观察值的倒数的一级增长量大致相等时,可为若观察值的倒数的一级增长量大致相等时,可为其配合逻辑曲线其配合逻辑曲线 :曲线回归及多元线性回归曲线回归及多元线性回归二、多元线性回归分析二、多元线性回归分析统计中研究一个因变量与多个自变量之间数量关统计中研究一个因变量与多个自变量之间数量关系的理论和方法称为多元回归。系的理论和方法称为多元回归。多元回归分多元回归分 多元多元线线性回性回归归 多元非线性回归多元非线性回归 多元回归方程:是用于表达一个因变量和多个自多元回归方程:是用于表达一个因变量和多个自变量之间相互关系的一种数学模型。变量之间相互关系的一种数学模型。当研究因变量当研究因变量y y与与n n个自变量的关系时,方程为:个自变量的关系时,方程为:曲线回归及多元线性回归曲线回归及多元线性回归 为回归系数,表示当其它自变量都为回归系数,表示当其它自变量都 固定时,设自变量变动一个单位,而使固定时,设自变量变动一个单位,而使y y平均变动平均变动 的数值。的数值。一般来说,在一般来说,在y y的所有影响因素中,可以找出几个的所有影响因素中,可以找出几个主要影响因素,一般三个为宜,则方程为主要影响因素,一般三个为宜,则方程为:求解其对数求解其对数a a、仍用最小二乘法。仍用最小二乘法。曲线回归及多元线性回归曲线回归及多元线性回归第五节第五节 其它相关系数的介绍其它相关系数的介绍一、复相关系数一、复相关系数(线性条件下)(线性条件下)它是测定两个或多个变量对某一特定变量之间关它是测定两个或多个变量对某一特定变量之间关系密切程度的指标。当研究的是三个自变量与一系密切程度的指标。当研究的是三个自变量与一个因变量的平均相关程度时,复相关系数可以用个因变量的平均相关程度时,复相关系数可以用下式表示:下式表示:其它相关系数的介绍其它相关系数的介绍其余两个同理。其余两个同理。当当R=0R=0时,时,表明,表明y y与与 之间不存在线性相关关系。之间不存在线性相关关系。R R愈接近愈接近1 1,线性相关愈密切,相反,线性相关愈密切,相反R R愈接近愈接近0 0,线性相关关系愈不密切。线性相关关系愈不密切。为完全相关关系。为完全相关关系。当当R=1R=1时,时,y y与与 其它相关系数的介绍其它相关系数的介绍二、偏相关系数二、偏相关系数偏相关系数表示偏相关系数表示y y对自变量对自变量x x的纯(净)依赖程度。的纯(净)依赖程度。一级偏相关系数一级偏相关系数:剔除:剔除1 1个影响因素个影响因素其中,其中,K K为剔除因素,表示剔除了为剔除因素,表示剔除了K K的影响后的影响后i i与与j j之间的净相关关系。之间的净相关关系。其它相关系数的介绍其它相关系数的介绍二级偏相关关系不数:二级偏相关关系不数:剔除剔除2 2个因素影响个因素影响其中,其中,KLKL为剔除因素,为剔除因素,表示剔除了表示剔除了KLKL的影响后的影响后i i与与j j之间的净相关关系。之间的净相关关系。的计算同一级偏的计算同一级偏相关系数。相关系数。其它相关系数的介绍其它相关系数的介绍三、点双列相关三、点双列相关(连续变量与二分型变量关系)(连续变量与二分型变量关系)在在x x与与y y两个变量数列中,若一个变量属于连续变两个变量数列中,若一个变量属于连续变量,而另一个变量属于量,而另一个变量属于“二分二分”型变量(男、女;型变量(男、女;成功、失败;对、错;合格、不合格等),为了成功、失败;对、错;合格、不合格等),为了测定二分型变量对另一连续型变量之间关系的密测定二分型变量对另一连续型变量之间关系的密切程度,则用点双列相关系数用切程度,则用点双列相关系数用 r rb b表示。表示。是非标志的标准差;是非标志的标准差;连续变量连续变量y y的标准差;的标准差;其它相关系数的介绍其它相关系数的介绍 P P具有某种属性的单位占总体单位数的比重;具有某种属性的单位占总体单位数的比重;q q不具有某种性的单位占总体单位数的比重;不具有某种性的单位占总体单位数的比重;与具有某种属性的单位对应的与具有某种属性的单位对应的y y的平均值;的平均值;与不具有某种属性的单位对应的与不具有某种属性的单位对应的y y的平均值。的平均值。例如,例如,某班有某班有1414名学生,男名学生,男9 9人,女人,女5 5人,男生人,男生统计学成绩