第10章 回归相关分析.ppt
第第10章章一元线性相关与回归分析一元线性相关与回归分析统计学主要内容:一、一、相关与回归概述相关与回归概述二、线性相关分析二、线性相关分析 三、一元线性回归分析三、一元线性回归分析四、四、Excel 的应用10.1 相关分析 变量间的关系变量间的关系 相关关系的种类相关关系的种类 相关分析与回归分析概述相关分析与回归分析概述 相关关系的描述与测度相关关系的描述与测度 相关系数的显著性检验相关系数的显著性检验10.1.1变量间的关系变量间的关系n在生产和经营活动中,人们经常要对变量之间的关系进行分析,以揭示变量之间的关系及其关联程度,探索出内在的数量规律性,进行科学的预测。n比如在企业生产中,我们要对影响生产成本的各种因素进行分析,以达到控制成本的目的;在农业生产中,我们需要研究农作物产量与施肥量之间的关系,以便分析施肥量对产量的影响,进而确定合理的施肥量;在商业活动中,我们需要研究广告费支出与销售量之间的关系,进而通过广告费支出来预测销售量等。n n变量之间的关系可以分为两种类型函数关系相关关系函数关系1.1.是一一是一一对应的确定关系对应的确定关系2.2.设设有有两两个个变变量量 x x 和和 y y,变变量量 y y 随随变变量量 x x 一一起起变变化化,并并完完全全依依赖赖于于 x x,当当变变量量 x x 取取某某个个数数值值时时,y y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y y 是是 x x 的的函函数数,记记为为 y y=f f(x x),其其中中 x x 称为自变量,称为自变量,y y 称为因变量称为因变量3.3.各各观测点落在一条线上观测点落在一条线上 x xy y函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y y)与与销销售售量量(x x)之之间间的的关关系系可表示为可表示为 y y=pxpx (p p 为单价为单价)圆圆 的的 面面 积积(S)S)与与 半半 径径 之之 间间 的的 关关 系系 可可 表表 示示 为为S S=R R2 2 企企业业的的原原材材料料消消耗耗额额(y y)与与产产量量(x x1 1)、单单位位产产量量消消耗耗(x x2 2)、原原材材料料价价格格(x x3 3)之之间间的的关关系系可可表表示为示为y y=x x11x x22x x3 3 相关关系1.1.变变量量间间关关系系不不能能用用函函数数关关系精确表达系精确表达2.2.一一个个变变量量的的取取值值不不能能由由另另一个变量唯一确定一个变量唯一确定3.3.当当变变量量 x x 取取某某个个值值时时,变变量量 y y 的取值可能有几个的取值可能有几个4.4.各观测各观测点分布在直线周围点分布在直线周围 x xy y相关关系的例子相关关系的例子v父亲身高父亲身高(y y)与子女身高与子女身高(x x)之间的关系之间的关系v收入水平收入水平(y y)与受教育程度与受教育程度(x x)之间的关系之间的关系v粮粮食食亩亩产产量量(y y)与与施施肥肥量量(x x1 1)、降降雨雨量量(x x2 2)、温度温度(x x3 3)之间的关系之间的关系v商品的消费量商品的消费量(y y)与居民收入与居民收入(x x)之间的关系之间的关系v商品销售额商品销售额(y y)与广告费支出与广告费支出(x x)之间的关系之间的关系1.1.2 1.1.2 相关关系的种类相关关系的种类 1.按相关程度分为:完全相关、不完全相关、不相关。2.按相关性质分为:正相关、负相关。3.按相关形式分为:线性相关、非线性相关。4.按相关关系涉及的变量的多少分为:单相关、复相关。10.1.3 10.1.3 相关分析与回归分析概述相关分析与回归分析概述分析内容相关分析相关分析:1.1.确确定定现现象象间间或或变变量量间间有有无无关关系系以以及及相相关关关关系呈现的形态或类型;系呈现的形态或类型;2.2.确确定定相相关关关关系系的的密密切切程度(程度(r r)。)。回归分析:回归分析:1.1.确确定定变变量量间间的的数数量量依依存关系(回归方程);存关系(回归方程);2.2.根据回归方程进行根据回归方程进行预测和控制。预测和控制。变量间的关系相关分析:相关分析:相关分析:相关分析:1.1.变变量量 x x 变变量量 y y 处处于于平平等的地位;等的地位;2.2.变变量量 x x 和和 y y 都都是是随随机机变量回归分析中。变量回归分析中。回归分析:回归分析:回归分析:回归分析:1.1.变变量量 y y 称称为为因因变变量量,处处在在被被解解释释的的地地位位,x x 称称为为自自变变量量,用用于于预预测测因变量的变化;因变量的变化;2.2.因因变变量量 y y 是是随随机机变变量量,自自变变量量 x x 可可以以是是随随机机变变量量,也也可可以以是是非非随随机机的的确定变量确定变量特别提醒n n运用相关回归等定量分析方法,必须以定性分析为前提。10.1.4 相关关系的描述与测度1)散点图 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 例一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据。25家分行2002年的有关业务数据散点图2)相关系数1.1.对变量之间关系密切程度的度量2.2.对两个变量之间线性相关程度的度量称为简单相关系数3.3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.4.若是根据样本数据计算的,则称为样本相关系数,记为 r或样本相关系数的计算公式相关系数的计算相关系数取值范围及意义1.1.r r 的取值范围的取值范围是是-1,1-1,12.2.|r r|=|=1 1,为完全相关为完全相关uur r=1 1,为完全正相关为完全正相关uur r=-1-1,为完全负正相关为完全负正相关3.3.r r=0=0,无关,或不存在无关,或不存在线性线性线性线性相关相关关系关系4.4.r r取值为负数取值为负数,为负相关为负相关5.5.r r取值为正数取值为正数,为正相关为正相关6.6.|r r|越越趋趋于于1 1表表示示关关系系越越密密切切;|r r|越越趋趋于于0 0表表示示关关系系越不密切越不密切相关系数取值的意义 相关系数相关系数r r的绝对值的绝对值vv大于或等于0.8,高度相关vv0.50.8 ,中度相关vv0.30.5,低度相关vv0.3以下,可视为不相关n但这种解释必须建立在对相关系数进行显著性检验的基础之上。10.1.5 相关系数的显著性检验n n检验:能否根据样本相关系数说明总体的相关程度,即考察样本相关系数的可靠性。n n通常采用 t t 分布检验n n该检验可以用于小样本,也可以用于大样本。相关系数显著性检验的步骤1.1.提出假设:假设样本是从不相关的总体中抽出的提出假设:假设样本是从不相关的总体中抽出的 H H0 0:;H H1 1:0 02.2.计算检验的统计量3.确定显著性水平,查表得临界值t4.统计决策 若tt,拒绝H0 若t=7.5344t t0.050.05(25-2)=2.0687(25-2)=2.0687,拒拒绝绝H H0 0,即即不不良良贷款与各项贷款余额之间存在着显著的正线性相关关系贷款与各项贷款余额之间存在着显著的正线性相关关系 10.2 一元线性回归分析一元线性回归模型一元线性回归模型参数的最小二乘估计参数的最小二乘估计回归直线的拟合优度回归直线的拟合优度显著性检验显著性检验10.2.1 什么是回归分析?1.1.从一组样本数据出发,确定变量之间的数学关系式2.2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析与相关分析的区别分析内容相关分析相关分析:1.1.确确定定现现象象间间或或变变量量间间有有无无关关系系以以及及相相关关关关系呈现的形态或类型;系呈现的形态或类型;2.2.确确定定相相关关关关系系的的密密切切程度(程度(r r)。)。回归分析:回归分析:1.1.确确定定变变量量间间的的数数量量依依存关系(回归方程);存关系(回归方程);2.2.根据回归方程进行根据回归方程进行预测和控制。预测和控制。变量间的关系相关分析:相关分析:相关分析:相关分析:1.1.变变量量 x x 变变量量 y y 处处于于平平等的地位;等的地位;2.2.变变量量 x x 和和 y y 都都是是随随机机变量回归分析中。变量回归分析中。回归分析:回归分析:回归分析:回归分析:1.1.变变量量 y y 称称为为因因变变量量,处处在在被被解解释释的的地地位位,x x 称称为为自自变变量量,用用于于预预测测因变量的变化;因变量的变化;2.2.因因变变量量 y y 是是随随机机变变量量,自自变变量量 x x 可可以以是是随随机机变变量量,也也可可以以是是非非随随机机的的确定变量确定变量一元线性回归vv只涉及一个自变量的回归vv因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量,用y表示用来预测或用来解释因变量的一个或多个变量称为自变量,用x表示 vv因变量与自变量之间的关系用一个线性方程来表示一元线性回归模型vv一元线性一元线性回归模型可表示为回归模型可表示为 y y=0 0 0 0+1 1 1 1 x x+e e e euu 0 0 和和 1 1 称为模型的参数称为模型的参数uuy y 是是 x x 的线性函数的线性函数(部分部分)加上误差项加上误差项uu线性部分反映了由于线性部分反映了由于 x x 的变化而引起的的变化而引起的 y y 的变化的变化uu误差项误差项 是随机变量是随机变量t t反反映映了了除除 x x 和和 y y 之之间间的的线线性性关关系系之之外外的的随随机机因因素素对对 y y 的影响的影响t t是不能由是不能由 x x 和和 y y 之间的线性关系所解释的变异性之间的线性关系所解释的变异性一元线性回归模型的基本假定1.1.误误差差项项 是是一一个个期期望望值值为为0 0的的随随机机变变量量,即即E E()=0)=0。对于一个给定的对于一个给定的 x x 值,值,y y 的期望值为的期望值为E E(y y)=)=0 0+11x x2.2.误误差差项项 是是一一个个服服从从正正态态分分布布的的随随机机变变量量,且且相相互独立。即互独立。即 N N(0,(0,22)uu独独立立性性意意味味着着对对于于一一个个特特定定的的 x x 值值,它它所所对对应的应的 与其他与其他 x x 值所对应的值所对应的 不相关不相关uu对对于于一一个个特特定定的的 x x 值值,它它所所对对应应的的 y y 值值与与其其他他 x x 所对应的所对应的 y y 值也不相关值也不相关回归方程vv描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程回归方程vv一元线性回归方程的形式如下 E(y)=0+1x方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x x=0=0 时时 y y 的期望值的期望值 1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一一个个单位时,单位时,y y 的平均变动值的平均变动值估计的回归方程3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程1.总总体体回回归归参参数数 和和 是是未未知知的的,必必需需利利用用样样本本数数据去估计据去估计其其中中:是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距,是是直直线线的的斜斜率率,它它表表示示x x 每每变变动动一一个个单单位位时时,的的平平均均变变动动值值 10.2.3参数的最小二乘估计参数的最小二乘估计什么是最小二乘估计使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小最小二乘估计的图示 x xy y(x xn n ,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i ,y yi i)e ei i =y yi i-y yi i待定参数 的求解公式例题分析求不良贷款对贷款余额的回归方程回归方程为:回归方程为:y=-0.8295+0.037895x回回回回归归归归系系系系数数数数 =0.037895=0.037895 表表示示,贷贷款款余余额额每每增增加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0378950.037895亿元亿元 不良贷款对贷款余额回归方程的图示用Excel进行回归分析n n1.分别将x变量和y变量的具体数值输入Excel的相邻两列n n2.点击“工具”“数据分析”“回归”n n2.填写对话框n n3.确定10.2.4一元线性回归方程的拟合优度n n回归直线与各观察点的接近程度称为回归直线对回归直线与各观察点的接近程度称为回归直线对数据的拟合优度。数据的拟合优度。n n若各观察点紧密围绕直线,说明直线对数据的拟若各观察点紧密围绕直线,说明直线对数据的拟合优度好,反之则较差。合优度好,反之则较差。n n拟合优度好,用回归方程得出的估计值或预测值拟合优度好,用回归方程得出的估计值或预测值精度高。精度高。n n说明拟合优度的度量是判定系数、说明拟合优度的度量是判定系数、估计标准误差估计标准误差。1)变差1.1.因因变变量量 y y 的的取取值值是是不不同同的的,y y 取取值值的的这这种种波波动动称称为为变差变差。变差来源于两个方面。变差来源于两个方面uu由于自变量由于自变量 x x 的取值不同造成的的取值不同造成的uu其他因素的影响造成的其他因素的影响造成的2.2.对对一一个个具具体体的的观观测测值值来来说说,变变差差的的大大小小可可以以通通过过该实际观测值与其均值之差该实际观测值与其均值之差 来表示来表示变差分解的图示 x xy yy y 2)离差平方和的分解及关系 SST=SSR+SSE总平方和总平方和总平方和总平方和(SSTSST)回归平方和回归平方和回归平方和回归平方和(SSRSSR)残差平方和残差平方和残差平方和残差平方和(SSESSE)三个平方和的意义1.1.总平方和总平方和总平方和总平方和(SSTSST)uu反映因变量的反映因变量的 n n 个观察值与其均值的总离差个观察值与其均值的总离差2.2.回归平方和回归平方和回归平方和回归平方和(SSRSSR)uu反反映映自自变变量量 x x 的的变变化化对对因因变变量量 y y 取取值值变变化化的的影影响响,或或者者说说,是是由由于于 x x 与与 y y 之之间间的的线线性性关关系系引引起的起的 y y 的取值变化,也称为可解释的平方和的取值变化,也称为可解释的平方和3.3.残差平方和残差平方和残差平方和残差平方和(SSESSE)uu反反映映除除 x x 以以外外的的其其他他因因素素对对 y y 取取值值的的影影响响,也也称称为为不不可可解解释释的的平平方方、剩剩余余平平方方和和或或残残差差平平方方和和3)判定系数R2回归直线拟合优度的度量 回归平方和回归平方和占总离差平方和的比例占总离差平方和的比例1.1.取值范围在取值范围在 0,1 0,1 之间之间2.2.反映回归直线的拟合程度反映回归直线的拟合程度1.R2 1,说明回归方程拟合得 越好;1.R20,说明回归方程拟合得越差3.3.判定判定系数等于相关系数的平方,即系数等于相关系数的平方,即R R2 2(r r)2 2判定系数R2 的例题分析n n【例例例例】计计算算不不良良贷贷款款对对贷贷款款余余额额回回归归的的判判定定系系数数,并解释其意义并解释其意义 n n 判判判判定定定定系系系系数数数数的的的的实实实实际际际际意意意意义义义义是是是是:在在不不良良贷贷款款取取值值的的变变差差中中,有有71.16%71.16%可可以以由由不不良良贷贷款款与与贷贷款款余余额额之之间间的的线线性性关关系系来来解解释释,或或者者说说,在在不不良良贷贷款款取取值值的的变变动动中中,有有71.16%71.16%是是由由贷贷款款余余额额所所决决定定的的。可可见见不不良良贷贷款款与与贷贷款余额之间有较强的线性关系款余额之间有较强的线性关系 4)估计标准误差回归直线拟合优度的度量1.是在排除了x对y的线性影响后,y随机波动大小的一个估计量2.反映用估计的回归方程预测y时预测误差的大小 3.计算公式为注:例题的注:例题的ExcelExcel计算结果为计算结果为1.97991.97991.97991.979910.2.5 显著性检验n n回归方程是根据样本数据得出的,它是否真实的反映了变量x和y 之间的关系,需要进行显著性检验。n n显著性检验的内容:uu线性关系的检验uu自变量x对因变量y的影响显著与否1)线性关系的检验vv检验自变量与因变量之间的线性关系是否显著vv将回归均方(MSR)同残差均方(MSE)加以比较,用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数p)残差均方:残差平方和SSE除以相应的自由度(n-p-1)线性关系检验的步骤1.提出假设uH0:1=0 x与y的线性关系不显著uH1:10 x与y的线性关系显著2.计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2查出临界值F 4.统计决策:若FF,拒绝H0;若FF ,故拒绝H0,不良贷款与贷款余额之间的线性关系显著线性关系的检验(Excel的方差分析表)2)回归系数的检验回归系数的检验1.检验自变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布样本统计量 的分布1.1.1.是是是根根根据据据最最最小小小二二二乘乘乘法法法求求求出出出的的的样样样本本本统统统计计计量量量,它它它有有有自自自己己己的分布的分布的分布2.2.2.的的的分布具有如下性质分布具有如下性质分布具有如下性质 分布形式:正态分布分布形式:正态分布分布形式:正态分布 数学期望:数学期望:数学期望:标准差:标准差:标准差:由由由于于于 未未未知知知,需需需用用用其其其估估估计计计量量量s s sy yy来来来代代代替替替得得得到到到 的的的估估估计计计的的的标标标准差准差准差n n这样,我们就可以构造检验回归系数的统计检验量n n该统计量服从自由度为n-2的t分布。n n如果原假设成立,则1=0,检验统计量为回归系数1检验的步骤 1.1.提出假设H H0 0:1 1=0=0 自变量自变量 x x 对因变量对因变量 y y 的影响不显著的影响不显著 H H1 1:1 1 0 0自变量自变量 x x 对因变量对因变量 y y 的影响显著的影响显著 2.2.计算检验的统计量3.确定显著性水平确定显著性水平,并进行统计决策,并进行统计决策 t t t t,拒绝拒绝H H0 0;t t t ,故故拒拒绝绝H H0 0,表表明明贷贷款款余余额额对对不不良良贷贷款款的的影响显著影响显著用P 值对值对回归系数的检验P P=0.000000=0.000000=0.05=0.05,拒拒绝绝原原假假设设,表表明明贷贷款款余余额额对不良贷款的影响显著。对不良贷款的影响显著。小结一元线性回归主要内容一一.一元线性回归模型二二.参数的最小二乘估计三三.回归直线的拟合优度:R R2 2、S Sy y四四.显著性检验线性线性关系检验:关系检验:回归系数(关系显著与否)检验:回归系数(关系显著与否)检验:t t、P P10.3 利用回归方程进行估计和预测vv根据自变量 x 的取值估计或预测因变量 y的取值vv估计或预测的方法uu点估计t ty y 的平均值的点估计的平均值的点估计t ty y 的个别值的点估计的个别值的点估计uu区间估计t ty y 的平均值的的平均值的置信区间置信区间置信区间置信区间估计估计t ty y 的个别值的的个别值的预测区间预测区间预测区间预测区间估计估计10.3.1 点估计2.点估计值有n ny y 的的平均值平均值平均值平均值的点估计的点估计n ny y 的的个别值个别值个别值个别值的点估计的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同1.对于自变量 x 的一个给定值x0,根据回归方程得到因变量 y 的一个估计值 y 的平均值的点估计n利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的平均值的一个估计值E(y0),就是平均值的点估计u在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计。根据估计的回归方程得y 的个别值的点估计n n利利用用估估计计的的回回归归方方程程,对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0 ,求求出出因因变变量量 y y 的的一一个个个个别别值值的的估估计计值值 y0 ,就是个别值的点估计,就是个别值的点估计uu比比如如,如如果果我我们们只只是是想想知知道道贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行(这这里里是是编编号号为为1010的的那那个个分分行行)的的不不良良贷贷款款是是多多少少,则则属属于于个个别别值值的的点点估计估计 。根据估计的回归方程得。根据估计的回归方程得10.3.2 区间估计1.1.点点估估计计不不能能给给出出估估计计的的精精度度,点点估估计计值值与与实实际际值值之间是有误差的,因此需要进行区间估计之间是有误差的,因此需要进行区间估计2.2.对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0,根根据据回回归归方方程程得得到因变量到因变量 y y 的一个估计区间的一个估计区间3.3.区间估计有两种类型区间估计有两种类型uu置信区间估计置信区间估计uu预测区间估计预测区间估计主要内容1.1.相关系数的计算及意义2.2.回归方程的拟合3.3.回归直线的拟合优度4.4.回归方程的显著性检验5.5.用Excel 进行相关回归分析结结 束束