欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    相关与回归分析统计学.pptx

    • 资源ID:80080714       资源大小:849.24KB        全文页数:92页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    相关与回归分析统计学.pptx

    第11章 一元线性回归11.1 变量间关系的度量 11.2 一元线性回归11.3 利用回归方程进行估计和预测11.4 残差分析第1页/共92页学习目标1.相关关系的分析方法2.一元线性回归的基本原理和参数的最小二乘估计3.回归直线的拟合优度4.回归方程的显著性检验5.利用回归方程进行估计和预测6.用 Excel 进行回归第2页/共92页11.1 变量间关系的度量11.1.1 变量间的关系11.1.2 相关关系的描述与测度11.1.3 相关系数的显著性检验第3页/共92页变量间的关系第4页/共92页函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 x xy y第5页/共92页函数关系(几个例子)n n某种商品的销售额y与销售量x之间的关系可表示为 y=px(p 为单价)n n圆的面积S与半径R之间的关系可表示为S=R2 n n企业的原材料消耗额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系可表示为 y=x1 x2 x3 第6页/共92页相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 x xy y第7页/共92页相关关系(几个例子)n n父亲身高y与子女身高x之间的关系n n收入水平y与受教育程度x之间的关系n n粮食单位面积产量y与施肥量x1、降雨量x2、温度x3之间的关系n n商品的消费量y与居民收入x之间的关系n n商品销售额y与广告费支出x之间的关系第8页/共92页相关关系(类型)第9页/共92页相关关系的描述与测度(散点图)第10页/共92页相关分析及其假定1.相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?2.为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量第11页/共92页散点图(scatter diagram)不相关不相关不相关 负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关 第12页/共92页散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据 第13页/共92页散点图(例题分析)第14页/共92页散点图(不良贷款对其他变量的散点图)第15页/共92页相关关系的描述与测度(相关系数)第16页/共92页相关系数(correlation coefficient)1.度量变量之间关系强度的一个统计量2.对两个变量之间线性相关强度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r也 称 为 线 性 相 关 系 数(linear correlation coefficient)或 称 为 Pearson相 关 系 数 (Pearsons correlation coefficient)第17页/共92页相关系数(计算公式)样本相关系数的计算公式或化简为第18页/共92页相关系数的性质性质1:r 的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关 r=0,不存在线性相关关系-1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱第19页/共92页相关系数的性质性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy=ryx性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着,r=0只表示两个变 量之间不存在线性相关关系,并不说明变量之间没 有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系第20页/共92页相关系数的经验解释1.|r|0.8时,可视为两个变量之间高度相关2.0.5|r|0.8时,可视为中度相关3.0.3|r|0.5时,视为低度相关4.|r|t t,拒绝,拒绝H H0 0 若若 t t =7.5344t t(25-2)=2.069(25-2)=2.069,拒拒绝绝H H0 0,不不良良贷贷款与贷款余额之间存在着显著的正线性相关关系款与贷款余额之间存在着显著的正线性相关关系 第25页/共92页相关系数的显著性检验(例题分析)各相关系数检验的统计量第26页/共92页11.2 一元线性回归11.2.1 一元线性回归模型11.2.2 参数的最小二乘估计11.2.3 回归直线的拟合优度11.2.4 显著性检验第27页/共92页什么是回归分析?(Regression)1.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度第28页/共92页回归模型的类型第29页/共92页一元线性回归模型第30页/共92页一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示用 来 预 测 或 用 来 解 释 因 变 量 的 一 个 或 多 个 变 量 称 为 自 变 量(independent variable),用x表示 3.因变量与自变量之间的关系用一个线性方程来表示第31页/共92页回归模型(regression model)1.回答“变量之间是什么样的关系?”2.方程中运用1 个数值型因变量(响应变量)被预测的变量1 个或多个数值型或分类型自变量(解释变量)用于预测的变量3.主要用于预测和估计第32页/共92页一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型2.一元线性回归模型可表示为 y=0 0+1 1 x +e ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数第33页/共92页一元线性回归模型(基本假定)1.因变量x与自变量y之间具有线性关系2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的3.误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x4.对于所有的 x 值,的方差2 都相同5.误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关第34页/共92页一元线性回归模型(基本假定)x x=x x3 3时的时的E E(y y)x x=x x2 2时时y y的分布的分布x x=x x1 1时时y y的分布的分布x x=x x2 2时的时的E E(y y)x x3 3x x2 2x x1 1x x=x x1 1时的时的E E(y y)0 0 xyx x=x x3 3时时y y的分布的分布 0 0+1 1x x第35页/共92页回归方程(regression equation)1.描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程2.一元线性回归方程的形式如下 E(y)=0+1 x 方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x x=0=0 时时 y y 的期望值的期望值 1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一一个个单单位位时时,y y 的的平均变动值平均变动值第36页/共92页估计的回归方程(estimated regression equation)3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程1.总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计其其中中:是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距,是是直直线线的的斜斜率率,它它表表示示对对于于一一个个给给定定的的 x x 的的值值,是是 y y 的的估估计计值值,也也表表示示 x x 每每变变动动一一个个单单位位时时,y y 的平均变动值的平均变动值 第37页/共92页参数的最小二乘估计第38页/共92页最小二乘估计(method of least squares)1.德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 2.使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第39页/共92页Karl Gauss的最小化图x xy y(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i第40页/共92页最小二乘法(和 的计算公式)根据最小二乘法,可得求解 和 的公式如下第41页/共92页估计方程的求法(例题分析)【例】求不良贷款对贷款余额的回归方程回归方程为:y=-0.8295+0.037895 x回回归归系系数数 =0.037895=0.037895 表表示示,贷贷款款余余额额每每增增加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0378950.037895亿元亿元 第42页/共92页估计方程的求法(例题分析)不良贷款对贷款余额回归方程的图示第43页/共92页用Excel进行回归分析第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【回归】,选择【确定】第4步:当对话框出现时 在【Y值输入区域】设置框内键入Y的数据区域 在【X值输入区域】设置框内键入X的数据区域 在【置信度】选项中给出所需的数值 在【输出选项】中选择输出区域 在【残差】分析选项中选择所需的选项第44页/共92页回归直线的拟合优度第45页/共92页变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示第46页/共92页误差的分解(图示)x xy yy y第47页/共92页误差平方和的分解(三个平方和的关系)SST=SSR+SSE总平方和总平方和(SSTSST)回归平方和回归平方和(SSRSSR)残差平方和残差平方和(SSESSE)第48页/共92页误差平方和的分解(三个平方和的意义)1.总平方和(SSTtotal sum of squares)反映因变量的 n 个观察值与其均值的总误差2.回 归 平 方 和(SSRsum of squares of regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残 差 平 方 和(SSEsum of squares of error)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和第49页/共92页判定系数R2 (coefficient of determination)1.回归平方和占总误差平方和的比例2.反映回归直线的拟合程度3.取值范围在 0,1 之间4.R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差5.判定系数等于相关系数的平方,即R2r2第50页/共92页判定系数 (例题分析)【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系 第51页/共92页估计标准误差(standard error of estimate)1.实际观察值与回归估计值误差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为注:例题的计算结果为注:例题的计算结果为1.97991.9799第52页/共92页显著性检验第53页/共92页线性关系的检验1.检验自变量与因变量之间的线性关系是否显著2.将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数k)残差均方:残差平方和SSE除以相应的自由度(n-k-1)第54页/共92页线性关系的检验(检验的步骤)1.提出假设H0:1=0 线性关系不显著2.计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 4.作出决策:若FF,拒绝H0;若FF,拒绝H0,线性关系显著第56页/共92页线性关系的检验(方差分析表)Excel 输出的方差分析表第57页/共92页回归系数的检验3.在一元线性回归中,等价于线性关系的显著性检验4.采用t检验1.检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布第58页/共92页回归系数的检验(检验步骤)1.提出假设H0:1=0(没有线性关系)H1:1 0(有线性关系)2.计算检验的统计量3.确定显著性水平确定显著性水平,并进行决策,并进行决策 t t t t,拒绝,拒绝H H0 0;t t =7.533515t t=2.201=2.201,拒拒绝绝H H0 0,表表明明不不良良贷贷款款与贷款余额之间有显著的线性关系与贷款余额之间有显著的线性关系第60页/共92页回归系数的检验(例题分析)P 值的应用P P=0.000000=0.000000=0.05=0.05,拒绝原假设,拒绝原假设,不良贷款与贷不良贷款与贷款余额之间有显著的线性关系款余额之间有显著的线性关系第61页/共92页回归分析结果的评价l建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手1.所估计的回归系数 的符号是否与理论或事先预期相一致在不良贷款与贷款余额的回归中,可以预期贷款余额越多,不良贷款也可能会越多,也就是说,回归系数的值应该是正的,在上面建立的回归方程中,我们得到的回归系数 为正值,2.如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此在不良贷款与贷款余额的回归中,二者之间为正的线性关系,而且,对回归系数的t检验结果表明而这之间的线性关系是统计上显著的第62页/共92页3.回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题在不良贷款与贷款余额的回归中,得到的R2=71.16%,解释了不良贷款变差的2/3以上,说明拟合的效果还算不错4.考察关于误差项的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项服从正态分布,否则,我们所用的检验程序将是无效的。正态性的简单方法是画出残差的直方图或正态概率图回归分析结果的评价第63页/共92页Excel输出的部分回归结果名称名称计算公式计算公式Adjusted R SquareAdjusted R SquareInterceptIntercept的抽样标准误差的抽样标准误差Intercept95%Intercept95%的置信区间的置信区间斜率斜率95%95%的置信区间的置信区间第64页/共92页11.3 利用回归方程进行估计和预测11.3.1 点估计11.3.2 区间估计第65页/共92页利用回归方程进行估计和预测1.根据自变量 x 的取值估计或预测因变量 y的取值2.估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计第66页/共92页点估计第67页/共92页点估计2.点估计值有n ny y 的的平均值平均值的点估计的点估计n ny y 的的个别值个别值的点估计的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同1.对于自变量 x 的一个给定值x0,根据回归方程得到因变量 y 的一个估计值第68页/共92页 y 的平均值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的平均值的一个估计值E(y0),就是平均值的点估计在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计。根据估计的回归方程得第69页/共92页y 的个别值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计例如,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计。根据估计的回归方程得第70页/共92页区间估计第71页/共92页区间估计1.点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计2.对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间3.区间估计有两种类型置信区间估计(confidence interval estimate)预测区间估计(prediction interval estimate)第72页/共92页置信区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的平均值的估计区间,这一估计区间称为置信区间(confidence interval)2.E(y0)在1-置信水平下的置信区间为式中:式中:s se e为估计标准误差为估计标准误差第73页/共92页置信区间估计(例题分析)【例】求出贷款余额为100亿元时,不良贷款95%置信水平下的置信区间 解:根据前面的计算结果,已知n=25,se=1.9799,t(25-2)=2.069 置信区间为当当贷贷款款余余额额为为100100亿亿元元时时,不不良良贷贷款款的的平平均均值值在在2.11412.1141亿元到亿元到3.80593.8059亿元之间亿元之间 第74页/共92页预测区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval)2.y0在1-置信水平下的预测区间为注意!注意!第75页/共92页预测区间估计(例题分析)【例】求出贷款余额为72.8亿元的那个分行,不良贷款95%的预测区间 解:根据前面的计算结果,已知n=25,se=1.9799,t(25-2)=2.069 预测区间为贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行,其其不不良良贷贷款款的预测区间在的预测区间在-2.2766-2.2766亿元到亿元到6.13666.1366亿元之间亿元之间 第76页/共92页置信区间和预测区间(例题分析)第77页/共92页置信区间、预测区间、回归方程xp pyx x预测上限置信上限预测下限置信下限第78页/共92页11.4 残差分析11.4.1 残差与残差图11.4.2 标准化第79页/共92页残差与残差图第80页/共92页残差(residual)1.因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示2.反映了用估计的回归方程去预测而引起的误差 3.可用于确定有关误差项的假定是否成立 4.用于检测有影响的观测值第81页/共92页残差图(residual plot)1.表示残差的图形关于x的残差图关于y的残差图标准化残差图2.用于判断误差的假定是否成立 3.检测有影响的观测值第82页/共92页残差与标准化残差图(例题分析)第83页/共92页残差图(形态及判别)(a)(a)满意模式满意模式残残差差x x0 0(b)(b)非常数方差非常数方差残残残差差差x x0 00(c)(c)模型不合适模型不合适残残残差差差x x0 00第84页/共92页残差图(例题分析)第85页/共92页标准化残差第86页/共92页标准化残差(standardized residual)1.残差除以它的标准差2.也称为Pearson残差或半学生化残差(semi-studentized residuals)3.计算公式为注意:注意:ExcelExcel给出的标准残差的计算公式为给出的标准残差的计算公式为 这实际上是这实际上是学生化删除残差学生化删除残差(studentized deleted residuals)(studentized deleted residuals)第87页/共92页标准化残差图 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间 第88页/共92页标准化残差图(例题分析)第89页/共92页本章小结1.变量间关系的度量2.回归模型、回归方程与估计的回归方程3.回归直线的拟合优度4.回归分析中的显著性检验5.估计和预测6.用Excel 进行回归分析第90页/共92页结 束第91页/共92页感谢您的观看!第92页/共92页

    注意事项

    本文(相关与回归分析统计学.pptx)为本站会员(莉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开