相关与回归分析统计学.pptx
《相关与回归分析统计学.pptx》由会员分享,可在线阅读,更多相关《相关与回归分析统计学.pptx(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第11章 一元线性回归11.1 变量间关系的度量 11.2 一元线性回归11.3 利用回归方程进行估计和预测11.4 残差分析第1页/共92页学习目标1.相关关系的分析方法2.一元线性回归的基本原理和参数的最小二乘估计3.回归直线的拟合优度4.回归方程的显著性检验5.利用回归方程进行估计和预测6.用 Excel 进行回归第2页/共92页11.1 变量间关系的度量11.1.1 变量间的关系11.1.2 相关关系的描述与测度11.1.3 相关系数的显著性检验第3页/共92页变量间的关系第4页/共92页函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完
2、全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 x xy y第5页/共92页函数关系(几个例子)n n某种商品的销售额y与销售量x之间的关系可表示为 y=px(p 为单价)n n圆的面积S与半径R之间的关系可表示为S=R2 n n企业的原材料消耗额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系可表示为 y=x1 x2 x3 第6页/共92页相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变
3、量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 x xy y第7页/共92页相关关系(几个例子)n n父亲身高y与子女身高x之间的关系n n收入水平y与受教育程度x之间的关系n n粮食单位面积产量y与施肥量x1、降雨量x2、温度x3之间的关系n n商品的消费量y与居民收入x之间的关系n n商品销售额y与广告费支出x之间的关系第8页/共92页相关关系(类型)第9页/共92页相关关系的描述与测度(散点图)第10页/共92页相关分析及其假定1.相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能
4、否代表总体变量之间的关系?2.为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量第11页/共92页散点图(scatter diagram)不相关不相关不相关 负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关 第12页/共92页散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的
5、增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据 第13页/共92页散点图(例题分析)第14页/共92页散点图(不良贷款对其他变量的散点图)第15页/共92页相关关系的描述与测度(相关系数)第16页/共92页相关系数(correlation coefficient)1.度量变量之间关系强度的一个统计量2.对两个变量之间线性相关强度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本
6、相关系数,简称为相关系数,记为 r也 称 为 线 性 相 关 系 数(linear correlation coefficient)或 称 为 Pearson相 关 系 数 (Pearsons correlation coefficient)第17页/共92页相关系数(计算公式)样本相关系数的计算公式或化简为第18页/共92页相关系数的性质性质1:r 的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关 r=0,不存在线性相关关系-1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱第19页/共92页相关系数的性质性质2:r具
7、有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy=ryx性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着,r=0只表示两个变 量之间不存在线性相关关系,并不说明变量之间没 有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系第20页/共92页相关系数的经验解释1.|r|0.8时,可视为两个变量之间高度相关2.0.5|r|0.8时,可视为中度相关3.0.3|r|0.5时,视为低度相关4.|r|t t,拒绝,
8、拒绝H H0 0 若若 t t =7.5344t t(25-2)=2.069(25-2)=2.069,拒拒绝绝H H0 0,不不良良贷贷款与贷款余额之间存在着显著的正线性相关关系款与贷款余额之间存在着显著的正线性相关关系 第25页/共92页相关系数的显著性检验(例题分析)各相关系数检验的统计量第26页/共92页11.2 一元线性回归11.2.1 一元线性回归模型11.2.2 参数的最小二乘估计11.2.3 回归直线的拟合优度11.2.4 显著性检验第27页/共92页什么是回归分析?(Regression)1.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验
9、,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度第28页/共92页回归模型的类型第29页/共92页一元线性回归模型第30页/共92页一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示用 来 预 测 或 用 来 解 释 因 变 量 的 一 个 或 多 个 变 量 称 为 自 变 量(independent variable),用x表示 3.因变量与自变量之间的关系用一
10、个线性方程来表示第31页/共92页回归模型(regression model)1.回答“变量之间是什么样的关系?”2.方程中运用1 个数值型因变量(响应变量)被预测的变量1 个或多个数值型或分类型自变量(解释变量)用于预测的变量3.主要用于预测和估计第32页/共92页一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型2.一元线性回归模型可表示为 y=0 0+1 1 x +e ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x
11、 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数第33页/共92页一元线性回归模型(基本假定)1.因变量x与自变量y之间具有线性关系2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的3.误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x4.对于所有的 x 值,的方差2 都相同5.误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关第34页/共92页一元线
12、性回归模型(基本假定)x x=x x3 3时的时的E E(y y)x x=x x2 2时时y y的分布的分布x x=x x1 1时时y y的分布的分布x x=x x2 2时的时的E E(y y)x x3 3x x2 2x x1 1x x=x x1 1时的时的E E(y y)0 0 xyx x=x x3 3时时y y的分布的分布 0 0+1 1x x第35页/共92页回归方程(regression equation)1.描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程2.一元线性回归方程的形式如下 E(y)=0+1 x 方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也
13、称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x x=0=0 时时 y y 的期望值的期望值 1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一一个个单单位位时时,y y 的的平均变动值平均变动值第36页/共92页估计的回归方程(estimated regression equation)3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估
14、计的回归方程1.总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计其其中中:是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距,是是直直线线的的斜斜率率,它它表表示示对对于于一一个个给给定定的的 x x 的的值值,是是 y y 的的估估计计值值,也也表表示示 x x 每每变变动动一一个个单单位位时时,y y 的平均变动值的平均变动值 第37页/共92页参数的最小二乘估计第38页/共92页最小二乘估计(method of least squares)1.德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方
15、和来估计参数 2.使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第39页/共92页Karl Gauss的最小化图x xy y(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i第40页/共92页最小二乘法(和 的计算公式)根据最小二乘法,可得求解 和 的公式如下第41页/共92页估计方程的求法(例题分析)【例】求不良贷款对贷款余额的回归方程回归方程为:y=-0.8295+0.0378
16、95 x回回归归系系数数 =0.037895=0.037895 表表示示,贷贷款款余余额额每每增增加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0378950.037895亿元亿元 第42页/共92页估计方程的求法(例题分析)不良贷款对贷款余额回归方程的图示第43页/共92页用Excel进行回归分析第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【回归】,选择【确定】第4步:当对话框出现时 在【Y值输入区域】设置框内键入Y的数据区域 在【X值输入区域】设置框内键入X的数据区域 在【置信度】选项中给出所需的数值 在【输出选项】中选择输出区域 在【残差】
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归 分析 统计学
限制150内