《相关与一元线性回归.ppt》由会员分享,可在线阅读,更多相关《相关与一元线性回归.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1现在学习的是第1页,共71页学习内容学习内容1.相关系数的分析方法相关系数的分析方法2.线性回归的基本原理和参数的最小二乘估计线性回归的基本原理和参数的最小二乘估计3.回归直线的拟合优度回归直线的拟合优度4.回归方程的显著性检验回归方程的显著性检验5.利用回归方程进行估计和预测利用回归方程进行估计和预测2现在学习的是第2页,共71页8.1 8.1 变量间关系的度量变量间关系的度量一一.变量间的关系变量间的关系二二.相关关系的描述与测度相关关系的描述与测度3现在学习的是第3页,共71页一一.变量间的关系函数关系变量间的关系函数关系1.1.是一一对应的确定关系是一一对应的确定关系2.2.设设有有
2、两两个个变变量量x x和和y y,变变量量y y 随随变变量量x x一一起起变变化化,并并完完全全依依赖赖于于x x,当当变变量量x x 取取某某个个数数值值时时,y y依依确确定定的的关关系系取取相相应应的的值值,则则称称y y是是 x x的的函函数数,记记为为y y =f f(x x),其其中中x x称称为为自自变变量量,y y称称为因变量为因变量3.3.各观测点落在一条线上各观测点落在一条线上 x xy y4现在学习的是第4页,共71页函数关系函数关系(几个例子几个例子)函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y y)与与销销售售量量(x x)之之间间的的关关系系可
3、可表示为表示为 y y=px px(p p 为单价为单价)圆的面积圆的面积(S)(S)与半径之间的关系可表示为与半径之间的关系可表示为S S=R R2 2 企企业业的的原原材材料料消消耗耗额额(y y)与与产产量量(x x1 1)、单单位位产产量量消消耗耗(x x2 2)、原原材材料料价价格格(x x3 3)之之间间的的关关系系可可表表示示为为y y=x x1 1 x x2 2 x x3 3 5现在学习的是第5页,共71页相关关系相关关系(correlation)(correlation)1.1.变变量量间间关关系系不不能能用用函函数数关关系系精精确表达确表达2.2.一一个个变变量量的的取取值
4、值不不能能由由另另一一个变量唯一确定个变量唯一确定3.3.当当变变量量 x x 取取某某个个值值时时,变变量量 y y 的取值可能有几个的取值可能有几个4.4.各观测点分布在直线周围各观测点分布在直线周围 x xy y6现在学习的是第6页,共71页相关关系相关关系(几个例子几个例子)相关关系的例子相关关系的例子父亲身高父亲身高(y y)与子女身高与子女身高(x x)之间的关系之间的关系收入水平收入水平(y y)与受教育程度与受教育程度(x x)之间的关系之间的关系粮粮食食亩亩产产量量(y y)与与施施肥肥量量(x x1 1)、降降雨雨量量(x x2 2)、温温度度(x x3 3)之之间的关系间
5、的关系商品的消费量商品的消费量(y y)与居民收入与居民收入(x x)之间的关系之间的关系商品销售额商品销售额(y y)与广告费支出与广告费支出(x x)之间的关系之间的关系7现在学习的是第7页,共71页相关关系相关关系(类型类型)8现在学习的是第8页,共71页散点图散点图(scatter diagram)(scatter diagram)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负
6、线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 9现在学习的是第9页,共71页散点图散点图(例题分析例题分析)【例例】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的增增加加,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力
7、。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。下面是该银行所属的下面是该银行所属的2525家分行家分行20022002年的有关业务数据年的有关业务数据 10现在学习的是第10页,共71页散点图散点图(例题分析例题分析)11现在学习的是第11页,共71页散点图散点图(例题分析例题分析)12现在学习的是第12页,共71页相关系数相关系数(correlation coefficient)(correlation coefficient)1.1.对变量之间关系密
8、切程度的度量对变量之间关系密切程度的度量2.2.对两个变量之间线性相关程度的度量称为简单相关系数对两个变量之间线性相关程度的度量称为简单相关系数3.3.若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相相关关系系数数,记记为为 4.4.若是根据样本数据计算的,则称为样本相关系数,记为若是根据样本数据计算的,则称为样本相关系数,记为 r r13现在学习的是第13页,共71页相关系数相关系数 (计算公式计算公式)样本相关系数的计算公式样本相关系数的计算公式14现在学习的是第14页,共71页相关系数相关系数协方差协方差为正为正为负为负为正为正为负为负协方差为正值
9、时,表示正线性相关关系。协方差为正值时,表示正线性相关关系。15现在学习的是第15页,共71页协方差为负值时,表示负线性相关关系。协方差为负值时,表示负线性相关关系。相关系数相关系数协方差协方差16现在学习的是第16页,共71页协方差接近于零时,表示很小,没协方差接近于零时,表示很小,没有线性相关关系。有线性相关关系。相关系数相关系数协方差协方差17现在学习的是第17页,共71页协方差协方差(covariance):两个变量与其均值离差乘积的:两个变量与其均值离差乘积的平均数,是相互关系的一种度量。平均数,是相互关系的一种度量。总体协方差:总体协方差:样本协方差样本协方差:相关系数相关系数协方
10、差协方差18现在学习的是第18页,共71页协方差为大的正值时,表协方差为大的正值时,表示强的正线性相关关系。示强的正线性相关关系。协方差接近于零时,表示很小,协方差接近于零时,表示很小,没有线性相关关系。没有线性相关关系。协方差为大的负值时,表示强协方差为大的负值时,表示强的负线性相关关系。的负线性相关关系。协方差协方差相关系数相关系数协方差协方差19现在学习的是第19页,共71页cmkgmmkg大大于于基本结论:协方差受计量单位影响,从而不能真实反映基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。相关的程度。相关系数相关系数协方差协方差20现在学习的是第20页,共71页相关系数(
11、相关系数(correlation coefficient):协方差与两变量协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。标准差乘积的比值,是没有量纲的、标准化的协方差。总体相关系数总体相关系数样本相关系数样本相关系数相关系数相关系数协方差协方差21现在学习的是第21页,共71页相关系数相关系数 (计算公式计算公式)样本相关系数的计算公式样本相关系数的计算公式22现在学习的是第22页,共71页相关系数相关系数(取值及其意义取值及其意义)1.r r 的取值范围是的取值范围是 -1,1-1,12.2.|r r|=1|=1,为完全相关,为完全相关nr r=1=1,为完全正相关,为完全正
12、相关nr r=-1=-1,为完全负相关,为完全负相关 r r=0=0,不存在,不存在线性线性相关关系相关相关关系相关 -1-1 r r00,为负相关,为负相关 0 0 r r 1 1,为正相关,为正相关|r r|越越趋趋于于1 1表表示示关关系系越越密密切切;|r r|越越趋趋于于0 0表表示示关关系系越越不密切不密切23现在学习的是第23页,共71页相关系数相关系数(取值及其意义取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关负相关程度增加负相关程度增加r正相关程度增加正相关程度增加24现在学习的是第24页,共71页相关系数的性质相
13、关系数的性质w性质性质1:r具有对称性。即x与y之间的相关系数和y与x之间w 的相关系数相等,即rxy=ryxw性质性质2:r数值大小与x和y原点及尺度无关,即改变x和y的w 数据原点及计量尺度,并不改变r数值大小w性质性质3:仅仅是x与y之间线性关系的一个度量,它不能用w 于描述非线性关系。这意味着,r=0只表示两个变w 量之间不存在线性相关关系,并不说明变量之间没w 有任何关系w性质性质4:r虽然是两个变量之间线性关系的一个度量,却不w 一定意味着x与y一定有因果关系25现在学习的是第25页,共71页相关系数的经验解释相关系数的经验解释1.|r|0.8时,可视为两个变量之间高度相关2.0.
14、5|r|0.8时,可视为中度相关3.0.3|r|0.5时,视为低度相关4.|r|F F ,拒绝拒绝H H0 0;若若F F F F ,拒绝拒绝H H0 0,线性关系显著,线性关系显著53现在学习的是第53页,共71页线性关系检验线性关系检验 (方差分析表方差分析表)54现在学习的是第54页,共71页回归系数检验回归系数检验3.在在一一元元线线性性回回归归中中,等等价价于于线线性性关关系系的的显显著性检验著性检验1.1.检检验验 x x 与与 y y 之之间间是是否否具具有有线线性性关关系系,或或者者说说,检验自变量检验自变量 x x 对因变量对因变量 y y 的影响是否显著的影响是否显著2.2
15、.理论基础是回归系数理论基础是回归系数 的抽样分布的抽样分布55现在学习的是第55页,共71页回归系数检验回归系数检验(检验步骤检验步骤)1.1.提出假设提出假设nH H0 0:b b1 1=0(=0(没有线性关系没有线性关系)nH H1 1:b b1 1 0(0(有线性关系有线性关系)2.2.计算检验的统计量计算检验的统计量3.3.确定显著性水平确定显著性水平,并进行决策,并进行决策 t t t t,拒绝,拒绝H H0 0;t t =7.533515t t=2.201=2.201,拒拒绝绝H H0 0,表表明明不不良良贷贷款款与与贷贷款款余余额额之之间间有线性关系有线性关系57现在学习的是第
16、57页,共71页回归系数检验回归系数检验 (例题分析例题分析)P P 值的应用值的应用P P=0.000000=0.000000=0.05=0.05,拒绝原假设,拒绝原假设,不良贷款与贷不良贷款与贷款余额之间有线性关系款余额之间有线性关系58现在学习的是第58页,共71页8.3 8.3 利用回归方程进行估计和预测利用回归方程进行估计和预测一一.点估计点估计二二.区间估计区间估计59现在学习的是第59页,共71页利用回归方程进行估计和预测利用回归方程进行估计和预测1.1.根据自变量根据自变量 x x 的取值估计或预测因变量的取值估计或预测因变量 y y的取值的取值2.2.估计或预测的类型估计或预
17、测的类型n点估计点估计ly y 的平均值的点估计的平均值的点估计ly y 的个别值的点估计的个别值的点估计n区间估计区间估计ly y 的平均值的的平均值的置信区间置信区间估计估计ly y 的个别值的的个别值的预测区间预测区间估计估计60现在学习的是第60页,共71页点估计点估计 2.2.点估计值有点估计值有ny y 的的平均值平均值的点估计的点估计ny y 的的个别值个别值的点估计的点估计3.3.在点估计条件下,平均值的点估计和个别值的的点估计是一在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同样的,但在区间估计中则不同1.1.1.1.对对对对于于于于自自自自变变
18、变变量量量量 x x x x 的的的的一一一一个个个个给给给给定定定定值值值值x x x x0 0 0 0 ,根根根根据据据据回回回回归归归归方方方方程程程程得得得得到到到到因因因因变量变量变量变量 y y y y 的一个估计值的一个估计值的一个估计值的一个估计值61现在学习的是第61页,共71页 y y 的平均值的点估计的平均值的点估计利利用用估估计计的的回回归归方方程程,对对于于自自变变量量x x 的的一一个个给给定定值值x x0 0,求求出出因因变变量量y y的的平平均均值值的的一一个个估估计计值值E E(y y0 0),就是平均值的点估计,就是平均值的点估计n在在前前面面的的例例子子中
19、中,假假如如我我们们要要估估计计贷贷款款余余额额为为100100亿亿元元时时,所所有有分分行行不不良良贷贷款款的的平平均均值值,就就是是平平均均值值的的点点估估计计 。根根据据估估计计的回归方程得的回归方程得62现在学习的是第62页,共71页y y 的个别值的点估计的个别值的点估计利利用用估估计计的的回回归归方方程程,对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0,求求出出因因变变量量y y 的的一一个个个个别别值值的的估估计计值值 ,就就是是个个别别值值的的点点估估计计n比比如如,如如果果我我们们只只是是想想知知道道贷贷款款余余额额为为72.872.8亿亿元元的的那那个
20、个分分行行(这这里里是是编编号号为为1010的的那那个个分分行行)的的不不良良贷贷款款是是多多少少,则则属属于于个别值的点估计。根据估计的回归方程得个别值的点估计。根据估计的回归方程得63现在学习的是第63页,共71页区间估计区间估计1.1.点点估估计计不不能能给给出出估估计计的的精精度度,点点估估计计值值与与实实际际值值之之间是有误差的,因此需要进行区间估计间是有误差的,因此需要进行区间估计2.2.对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0,根根据据回回归归方方程程得得到到因因变变量量 y y 的一个估计区间的一个估计区间3.3.区间估计有两种类型区间估计有两种类型
21、n置信区间估计置信区间估计(confidence interval estimate)(confidence interval estimate)n预预 测测 区区 间间 估估 计计(prediction(prediction interval interval estimate)estimate)64现在学习的是第64页,共71页置信区间估计置信区间估计1.1.利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x x 的一个给定值的一个给定值 x x0 0 ,求出因变量求出因变量 y y 的平均值的估计区间的平均值的估计区间 ,这一估计区间称为,这一估计区间称为置信置信区间区间2
22、.2.E E(y y0 0)在在1-1-置信水平下的置信区间为置信水平下的置信区间为式中:式中:s sy y为估计标准误差为估计标准误差65现在学习的是第65页,共71页置信区间估计置信区间估计(例题分析例题分析)【例例】求求 出出 贷贷 款款 余余 额额 为为 100100亿亿 元元 时时,不不 良良 贷贷 款款95%95%的置信区间的置信区间.解:根据前面的计算结果,已知解:根据前面的计算结果,已知n n=25=25,s sy y=1.97991.9799,t t(25-2)=2.0687(25-2)=2.0687 置信区间为置信区间为:当当贷贷款款余余额额为为100100亿亿元元时时,不
23、不良良贷贷款款的的平平均均值值在在2.11412.1141亿元到亿元到3.80593.8059亿元之间亿元之间 66现在学习的是第66页,共71页预测区间估计预测区间估计1.1.利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x x 的一个给定值的一个给定值 x x0 0 ,求出因变量求出因变量 y y 的一个个别值的估计区间,这一区间称为的一个个别值的估计区间,这一区间称为预预测区间测区间 2.y y0 0在在1-1-置信水平下的预测区间为置信水平下的预测区间为注意!注意!67现在学习的是第67页,共71页预测区间估计预测区间估计(例题分析例题分析)【例例】求出贷款余额为求出贷
24、款余额为72.872.8亿元时,不良贷款亿元时,不良贷款 95%95%的置信区间的置信区间.解:根据前面的计算结果,已知解:根据前面的计算结果,已知n n=25=25,s sy y=1.97991.9799,t t(25-2)=2.0687(25-2)=2.0687 置信区间为置信区间为:贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行,其其不不良良贷贷款款的的预测区间在预测区间在-2.2766-2.2766亿元到亿元到6.13666.1366亿元之间亿元之间 68现在学习的是第68页,共71页影响区间宽度的因素影响区间宽度的因素1.1.置信水平置信水平(1-(1-)n区间宽度
25、随置信水平的增大而增大区间宽度随置信水平的增大而增大2.2.数据的离散程度数据的离散程度(s s)n区间宽度随离散程度的增大而增大区间宽度随离散程度的增大而增大3.3.样本容量样本容量n区间宽度随样本容量的增大而减小区间宽度随样本容量的增大而减小4.4.用于预测的用于预测的x xp p与与x x的差异程度的差异程度n区间宽度随区间宽度随x xp p与与x x 的差异程度的增大而增大的差异程度的增大而增大69现在学习的是第69页,共71页置信区间、预测区间、回归方程置信区间、预测区间、回归方程xp pyx x预测上限置信上限预测下限置信下限70现在学习的是第70页,共71页本章小结本章小结1.变量间关系的度量变量间关系的度量2.回归模型、回归方程与估计的回归方程回归模型、回归方程与估计的回归方程3.回归方程的拟合优度回归方程的拟合优度4.回归分析中的显著性检验回归分析中的显著性检验5.估计和预测估计和预测71现在学习的是第71页,共71页
限制150内