《第八章 相关与一元线性回归.ppt》由会员分享,可在线阅读,更多相关《第八章 相关与一元线性回归.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章第八章 相关与一元回归分析相关与一元回归分析相关与一元回归分析相关与一元回归分析8.1 8.1 变量间关系的度量变量间关系的度量 8.2 8.2 一元线性回归一元线性回归8.3 8.3 利用回归方程进行估计和预测利用回归方程进行估计和预测1学习内容学习内容1.相关系数的分析方法相关系数的分析方法2.线性回归的基本原理和参数的最小二乘估计线性回归的基本原理和参数的最小二乘估计3.回归直线的拟合优度回归直线的拟合优度4.回归方程的显著性检验回归方程的显著性检验5.利用回归方程进行估计和预测利用回归方程进行估计和预测28.1 8.1 变量间关系的度量变量间关系的度量一一.变量间的关系变量间的关
2、系二二.相关关系的描述与测度相关关系的描述与测度3一一.变量间的关系变量间的关系函数关系函数关系1.1.是一一是一一对应的确定关系对应的确定关系2.2.设设有有两两个个变变量量x x和和y y,变变量量y y 随随变变量量x x一一起起变变化化,并并完完全全依依赖赖于于x x,当当变变量量x x 取取某某个个数数值值时时,y y依依确确定定的的关关系系取取相相应应的的值值,则则称称y y是是 x x的的函函数数,记记为为y y =f f(x x),其其中中x x称称为自变量,为自变量,y y称为因变量称为因变量3.3.各各观测点落在一条线上观测点落在一条线上 x xy y4函数关系函数关系(几
3、个例子几个例子)函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y y)与与销销售售量量(x x)之之间间的的关关系系可表示为可表示为 y y=pxpx (p p 为单价为单价)圆的面积圆的面积(S)(S)与半径之间的关系可表示为与半径之间的关系可表示为S S=R R2 2 企企业业的的原原材材料料消消耗耗额额(y y)与与产产量量(x x1 1)、单单位位产产量量消消耗耗(x x2 2)、原原材材料料价价格格(x x3 3)之之间间的的关关系系可可表表示为示为y y=x x1 1 x x2 2 x x3 3 5相关关系相关关系(correlationcorrelation)1.
4、1.变变量量间间关关系系不不能能用用函函数数关关系精确表达系精确表达2.2.一一个个变变量量的的取取值值不不能能由由另另一个变量唯一确定一个变量唯一确定3.3.当当变变量量 x x 取取某某个个值值时时,变变量量 y y 的的取取值值可可能能有有几几个个4.4.各观测各观测点分布在直线周围点分布在直线周围 x xy y6相关关系相关关系(几个例子几个例子)相关关系的例子相关关系的例子父亲身高父亲身高(y y)与子女身高与子女身高(x x)之间的关系之间的关系收入水平收入水平(y y)与受教育程度与受教育程度(x x)之间的关系之间的关系粮粮食食亩亩产产量量(y y)与与施施肥肥量量(x x1
5、1)、降降雨雨量量(x x2 2)、温温度度(x x3 3)之间的关系之间的关系商品的消费量商品的消费量(y y)与居民收入与居民收入(x x)之间的关系之间的关系商品销售额商品销售额(y y)与广告费支出与广告费支出(x x)之间的关系之间的关系7相关关系相关关系(类型类型)8散点图散点图(scatter diagram)(scatter diagram)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完
6、全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 9散点图散点图(例题分析例题分析)【例例】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的增增加加,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄
7、清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。下下面面是是该该银银行行所属的所属的2525家分行家分行20022002年的有关业务数据年的有关业务数据 10散点图散点图(例题分析例题分析)11散点图散点图(例题分析例题分析)12相关系数相关系数(correlation coefficient)(correlation coefficient)1.1.对变量之间关系密切程度的度量对变量之间关系密切程度的度量2.2.对两个变量之间线性相关程度的度量称为简单相关系数对两
8、个变量之间线性相关程度的度量称为简单相关系数3.3.若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相相关关系数,记为系数,记为 4.4.若若是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关关系系数数,记记为为 r r13相关系数相关系数 (计算公式计算公式)样本相关系数的计算公式样本相关系数的计算公式14相关系数相关系数协方差协方差为正为正为负为负为正为正为负为负协方差为正值时,表示正线性相关关系。协方差为正值时,表示正线性相关关系。15协方差为负值时,表示负线性相关关系。协方差为负值时,表示负线性相关关系。相关系数相关系数协方差协方
9、差16协方差接近于零时,表示很小,协方差接近于零时,表示很小,没有线性相关关系。没有线性相关关系。相关系数相关系数协方差协方差17协方差协方差(covariance):两个变量与其均值离差乘:两个变量与其均值离差乘积的平均数,是相互关系的一种度量。积的平均数,是相互关系的一种度量。总体协方差:总体协方差:样本协方差样本协方差:相关系数相关系数协方差协方差18协方差为大的正值时,表协方差为大的正值时,表示强的正线性相关关系。示强的正线性相关关系。协方差接近于零时,表示很协方差接近于零时,表示很小,没有线性相关关系。小,没有线性相关关系。协方差为大的负值时,表协方差为大的负值时,表示强的负线性相关
10、关系。示强的负线性相关关系。协方差协方差相关系数相关系数协方差协方差19cmkgmmkg大大于于基本结论:协方差受计量单位影响,从而不能真实基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。反映相关的程度。相关系数相关系数协方差协方差20相关系数(相关系数(correlation coefficient):协方差与两协方差与两变量标准差乘积的比值,是没有量纲的、标准变量标准差乘积的比值,是没有量纲的、标准化的协方差。化的协方差。总体相关系数总体相关系数样本相关系数样本相关系数相关系数相关系数协方差协方差21相关系数相关系数 (计算公式计算公式)样本相关系数的计算公式样本相关系数的计算
11、公式22相关系数相关系数(取值及其意义取值及其意义)1.r r 的取值范围的取值范围是是 -1,1-1,12.2.|r r|=|=1 1,为完全相关为完全相关nr r=1 1,为,为完全正相关完全正相关nr r=-1-1,为完全负相关为完全负相关3.3.r r=0=0,不存在不存在线性线性相关关系相关相关关系相关4.4.-1-1 r r 0 0,为,为负相关负相关5.5.0 0 r r 1 1,为,为正相关正相关6.6.|r r|越越趋趋于于1 1表表示示关关系系越越密密切切;|r r|越越趋趋于于0 0表表示示关系越不密切关系越不密切23相关系数相关系数(取值及其意义取值及其意义)-1.0+
12、1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负负负负相关程度增加相关程度增加相关程度增加相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加24相关系数的性质相关系数的性质w性质性质1:r具有对称性。即x与y之间的相关系数和y与x之间w 的相关系数相等,即rxy=ryxw性质性质2:r数值大小与x和y原点及尺度无关,即改变x和y的w 数据原点及计量尺度,并不改变r数值大小w性质性质3:仅仅是x与y之间线性关系的一个度量,它不能用w 于描述非线性关系。这意味着,r=0只表示两个变
13、w 量之间不存在线性相关关系,并不说明变量之间没w 有任何关系w性质性质4:r虽然是两个变量之间线性关系的一个度量,却不w 一定意味着x与y一定有因果关系25相关系数的经验解释相关系数的经验解释1.|r|0.8时,可视为两个变量之间高度相关2.0.5|r|0.8时,可视为中度相关3.0.3|r|0.5时,视为低度相关4.|r|F F ,拒绝拒绝H H0 0;若若F F F F ,拒绝拒绝H H0 0,线性关系显著线性关系显著53线性关系检验线性关系检验 (方差分析表方差分析表)54回归系数检验回归系数检验3.在在一一元元线线性性回回归归中中,等等价价于于线线性性关关系系的的显显著性检验著性检验
14、1.1.检检验验 x x 与与 y y 之之间间是是否否具具有有线线性性关关系系,或或者者说说,检检验验自自变变量量 x x 对对因因变变量量 y y 的的影影响响是否显著是否显著2.2.理论基础是回归系数理论基础是回归系数 的抽样分布的抽样分布55回归系数检验回归系数检验(检验步骤检验步骤)1.1.提出假设提出假设nH H0 0:b b1 1=0(=0(没有线性关系没有线性关系)nH H1 1:b b1 1 0(0(有线性关系有线性关系)2.2.计算检验的统计量计算检验的统计量3.3.确定显著性水平确定显著性水平,并进行决策,并进行决策 t t t t,拒绝拒绝H H0 0;t t =7.5
15、33515t t=2.201=2.201,拒拒绝绝H H0 0,表表明明不不良良贷贷款款与与贷贷款款余余额之间有线性关系额之间有线性关系57回归系数检验回归系数检验 (例题分析例题分析)P P 值的应用值的应用P P=0.000000=0.000000=0.05=0.05,拒绝原假设,拒绝原假设,不良贷款与贷不良贷款与贷款余额之间有线性关系款余额之间有线性关系588.3 8.3 利用回归方程进行估计和预测利用回归方程进行估计和预测一一.点估计点估计二二.区间估计区间估计59利用回归方程进行估计和预测利用回归方程进行估计和预测1.1.根据自变量根据自变量 x x 的取值估计或预测因变量的取值估计
16、或预测因变量 y y的取值的取值2.2.估计或预测的类型估计或预测的类型n点估计点估计ly y 的平均值的点估计的平均值的点估计ly y 的个别值的点估计的个别值的点估计n区间估计区间估计ly y 的平均值的的平均值的置信区间置信区间估计估计ly y 的个别值的的个别值的预测区间预测区间估计估计60点估计点估计 2.2.点估计值有点估计值有ny y 的的平均值平均值的点估计的点估计ny y 的的个别值个别值的点估计的点估计3.3.在点估计条件下,平均值的点估计和个别值的的点估计是在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同一样的,但在区间估计中则不同1.1.1
17、.1.对对对对于于于于自自自自变变变变量量量量 x x x x 的的的的一一一一个个个个给给给给定定定定值值值值x x x x0 0 0 0 ,根根根根据据据据回回回回归归归归方方方方程程程程得得得得到到到到因因因因变量变量变量变量 y y y y 的一个估计值的一个估计值的一个估计值的一个估计值61 y y 的平均值的点估计的平均值的点估计利利用用估估计计的的回回归归方方程程,对对于于自自变变量量x x 的的一一个个给给定定值值x x0 0,求求出出因因变变量量y y的的平平均均值值的的一一个个估估计值计值E E(y y0 0),就是平均值的点估计,就是平均值的点估计n在在前前面面的的例例子
18、子中中,假假如如我我们们要要估估计计贷贷款款余余额额为为100100亿亿元元时时,所所有有分分行行不不良良贷贷款款的的平平均均值值,就就是是平平均均值值的的点点估估计计 。根据估计的回归方程得根据估计的回归方程得62y y 的个别值的点估计的个别值的点估计利利用用估估计计的的回回归归方方程程,对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0,求求出出因因变变量量y y 的的一一个个个个别别值值的的估估计计值值 ,就就是是个个别别值的点估计值的点估计n比比如如,如如果果我我们们只只是是想想知知道道贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行(这这里里是是编
19、编号号为为1010的的那那个个分分行行)的的不不良良贷贷款款是是多多少少,则则属属于于个个别别值值的的点点估估计计。根根据据估估计计的的回回归归方程得方程得63区间估计区间估计1.1.点点估估计计不不能能给给出出估估计计的的精精度度,点点估估计计值值与与实实际际值值之间是有误差的,因此需要进行区间估计之间是有误差的,因此需要进行区间估计2.2.对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0,根根据据回回归归方方程程得到因变量得到因变量 y y 的一个估计区间的一个估计区间3.3.区间估计有两种类型区间估计有两种类型n置置 信信 区区 间间 估估 计计(confidence
20、 confidence interval interval estimateestimate)n预预 测测 区区 间间 估估 计计(prediction(prediction interval interval estimate)estimate)64置信区间估计置信区间估计1.1.利用利用估计的回归方程,对于自变量估计的回归方程,对于自变量 x x 的一个给定值的一个给定值 x x0 0 ,求出因变量求出因变量 y y 的的平均值的估计区间平均值的估计区间 ,这一估计区间,这一估计区间称为称为置信区间置信区间2.2.E E(y y0 0)在在1-1-置信置信水平下的置信区间为水平下的置信区间
21、为式中:式中:s sy y为为估计标准误差估计标准误差65置信区间估计置信区间估计(例题分析例题分析)【例例】求求 出出 贷贷 款款 余余 额额 为为 100100亿亿 元元 时时,不不 良良 贷贷 款款 95%95%的置信区间的置信区间.解:根据前面的计算结果,已知解:根据前面的计算结果,已知n n=25=25,s sy y=1.97991.9799,t t(25-2)=2.0687(25-2)=2.0687 置信区间为置信区间为:当当贷贷款款余余额额为为100100亿亿元元时时,不不良良贷贷款款的的平平均均值值在在2.11412.1141亿元到亿元到3.80593.8059亿元之间亿元之间
22、 66预测区间估计预测区间估计1.1.利用估计利用估计的回归方程,对于自变量的回归方程,对于自变量 x x 的一个给定值的一个给定值 x x0 0 ,求出因变量求出因变量 y y 的的一个个别值的估计区间,这一区间一个个别值的估计区间,这一区间称为称为预测区间预测区间 2.y y0 0在在1-1-置信水平下的预测区间为置信水平下的预测区间为注意!注意!67预测区间估计预测区间估计(例题分析例题分析)【例例】求出贷款余额为求出贷款余额为72.872.8亿元时,不良贷款亿元时,不良贷款 95%95%的置信区间的置信区间.解:根据前面的计算结果,已知解:根据前面的计算结果,已知n n=25=25,s
23、 sy y=1.97991.9799,t t(25-2)=2.0687(25-2)=2.0687 置信区间为置信区间为:贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行,其其不不良良贷贷款款的预测区间在的预测区间在-2.2766-2.2766亿元到亿元到6.13666.1366亿元之间亿元之间 68影响区间宽度的因素影响区间宽度的因素1.1.置信水平置信水平(1-(1-)n区间区间宽度随置信水平的增大而增大宽度随置信水平的增大而增大2.2.数据数据的离散程度的离散程度(s s)n区间宽度随离散程度的增大而增大区间宽度随离散程度的增大而增大3.3.样本容量样本容量n区间宽度随样本容量的增大而减小区间宽度随样本容量的增大而减小4.4.用于用于预测的预测的x xp p与与x x的的差异程度差异程度n区间宽度随区间宽度随x xp p与与x x 的差异程度的增大而增大的差异程度的增大而增大69置信区间、预测区间、回归方程置信区间、预测区间、回归方程xp pyx x预测上限置信上限预测下限置信下限70本章小结本章小结1.变量间关系的度量变量间关系的度量2.回归模型、回归方程与估计的回归方程回归模型、回归方程与估计的回归方程3.回归方程的拟合优度回归方程的拟合优度4.回归分析中的显著性检验回归分析中的显著性检验5.估计和预测估计和预测71
限制150内