《统计学一元线性回归.pptx》由会员分享,可在线阅读,更多相关《统计学一元线性回归.pptx(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习目标1.相关关系的分析方法2.一元线性回归的基本原理和参数的最小二乘估计3.回归直线的拟合优度4.回归方程的显著性检验5.利用回归方程进行估计和预测6.用 Excel 进行回归第1页/共88页 重点 1.一元线性回归分析 2.用软件进行回归分析 难点 最小二乘法的原理并用它解决实际问题最小二乘法的原理并用它解决实际问题本章教学重点与难点第2页/共88页11.1 变量间关系的度量11.1.1 变量间的关系11.1.2 相关关系的描述与测度11.1.3 相关系数的显著性检验第3页/共88页变量间的关系第4页/共88页函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量
2、 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 x xy y第5页/共88页函数关系(几个例子)n n某种商品的销售额y与销售量x之间的关系可表示为 y=px(p 为单价)n n圆的面积S与半径R之间的关系可表示为S=R2 n n企业的原材料消耗额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系可表示为 y=x1 x2 x3 第6页/共88页相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个
3、变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 x xy y第7页/共88页相关关系(几个例子)n n父亲身高y与子女身高x之间的关系n n收入水平y与受教育程度x之间的关系n n粮食单位面积产量y与施肥量x1、降雨量x2、温度x3之间的关系n n商品的消费量y与居民收入x之间的关系n n商品销售额y与广告费支出x之间的关系第8页/共88页相关关系(类型)第9页/共88页相关关系的描述与测度(散点图)第10页/共88页相关分析及其假定1.相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反
4、映的变量之间的关系能否代表总体变量之间的关系?2.为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量第11页/共88页散点图(scatter diagram)不相关不相关不相关 负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关 第12页/共88页散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良
5、贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的 办 法。下 面 是 该 银 行 所 属 的 25家 分 行2002年的有关业务数据 第13页/共88页散点图(例题分析)第14页/共88页散点图(不良贷款对其他变量的散点图)第15页/共88页相关关系的描述与测度(相关系数)第16页/共88页相关系数(correlation coefficient)1.度量变量之间关系强度的一个统计量2.对两个变量之间线性相关强度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数
6、,记为 4.若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r也 称 为 线 性 相 关 系 数(linear correlation coefficient)或 称 为 Pearson相 关 系 数 (Pearsons correlation coefficient)第17页/共88页相关系数(计算公式)样本相关系数的计算公式或化简为第18页/共88页相关系数的性质性质1:r 的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关 r=0,不存在线性相关关系-1 r0,为负相关0r 1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关
7、系越弱第19页/共88页相关系数的性质性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy=ry性质3:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系第20页/共88页相关系数的经验解释1.|r|0.8时,可视为两个变量之间高度相关2.0.5|r|0.8时,可视为中度相关3.0.3|r|0.5时,
8、视为低度相关4.|r|t t,拒绝,拒绝H H0 0 若若 t t =7.5344t t(25-2)=2.069(25-2)=2.069,拒绝,拒绝H H0 0,不良,不良贷款与贷款余额之间存在着显著的正线性相关关贷款与贷款余额之间存在着显著的正线性相关关系系 第25页/共88页相关系数的显著性检验(例题分析)各相关系数检验的统计量第26页/共88页11.2 一元线性回归11.2.1 一元线性回归模型11.2.2 参数的最小二乘估计11.2.3 回归直线的拟合优度11.2.4 显著性检验第27页/共88页什么是回归分析?(Regression)1.从一组样本数据出发,确定变量之间的数学关系式2
9、.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度第28页/共88页回归模型的类型第29页/共88页一元线性回归模型第30页/共88页一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示用 来 预 测 或 用 来 解 释 因 变 量 的 一 个 或 多 个 变 量 称 为 自 变 量(independent variable),用
10、x表示 3.因变量与自变量之间的关系用一个线性方程来表示第31页/共88页回归模型(regression model)1.回答“变量之间是什么样的关系?”2.方程中运用1 个数值型因变量(响应变量)被预测的变量1 个或多个数值型或分类型自变量(解释变量)用于预测的变量3.主要用于预测和估计第32页/共88页一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型2.一元线性回归模型可表示为 y=+1 1 x +y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因
11、素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数第33页/共88页一元线性回归模型(基本假定)1.因变量x与自变量y之间具有线性关系2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的3.误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x4.对于所有的 x 值,的方差2 都相同5.误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也
12、不相关第34页/共88页一元线性回归模型(基本假定)x x=x x3 3时的时的E E(y y)x x=x x2 2时时y y的分的分布布x x=x x1 1时时y y的分布的分布x x=x x2 2时的时的E E(y y)x x3 3x x2 2x x1 1x x=x x1 1时的时的E E(y y)0 0 xyx x=x x3 3时时y y的分的分布布 0 0+1 1x x第35页/共88页回归方程(regression equation)1.描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程2.一元线性回归方程的形式如下3.E(y)=0+1 x方程的图示是一条直线,也称为直线回
13、归方程方程的图示是一条直线,也称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x x=0=0 时时 y y 的期的期望值望值 1 1是直线的斜率,称为回归系数,表示当是直线的斜率,称为回归系数,表示当 x x 每变动每变动一个单位时,一个单位时,y y 的平均变动值的平均变动值第36页/共88页估计的回归方程(estimated regression equation)3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回
14、归方程估计的回归方程1.1.总体总体回归参数回归参数 和和 是未知的,必须利用样本数据去估计是未知的,必须利用样本数据去估计其中:其中:是估计的回归直线在是估计的回归直线在 y y 轴上的截距,轴上的截距,是直线是直线的斜率,它表示对于一个给定的的斜率,它表示对于一个给定的 x x 的值,的值,是是 y y 的估的估计值,也表示计值,也表示 x x 每变动一个单位时,每变动一个单位时,y y 的平均变动值的平均变动值 第37页/共88页参数的最小二乘估计第38页/共88页最小二乘估计(method of least squares)1.德国科学家Karl Gauss(17771855)提出用最
15、小化图中垂直方向的误差平方和来估计参数 2.使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第39页/共88页Karl Gauss的最小化图x xy y(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i第40页/共88页q相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;q相关分析中x、y均为随机变量,回归分析中只有y为随机变量;q相关分析测定相关程度和方向,回归分析用回归
16、模型进行预测和控制。回归分析与相关分析区别:第41页/共88页总体一元线性回归模型:模型参数误差项假定:E()=0总体一元线性回归方程:第42页/共88页一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态为正为负为0回归直线的拟合第43页/共88页总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。(估计的回归方程)第44页/共88页随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统
17、部分,反映两变量的平均变动关系,即本质特征。第45页/共88页一元线性回归方程中参数a、b的确定:最小平方法基本数学要求第46页/共88页整理得到由两个关于a、b的二元一次方程组成的方程组:进一步整理,有:第47页/共88页学学生生身高身高x x体重体重y yx x2 2y y2 2xyxy估计值估计值 残差残差y-y-A AB BC CD DE EF FG GH HI IJ J1581581601601621621641641661661681681701701721721741741761764747505048485555626260605252616170706565249642496
18、42560025600262442624426896268962755627556282242822428900289002958429584302763027630976309762209220925002500230423043025302538443844360036002704270437213721490049004225422574267426800080007776777690209020102921029210080100808840884010492104921218012180114401144047.29147.29149.44849.44851.60651.60653.
19、76453.76455.92155.92158.07958.07960.23660.23662.39462.39464.55264.55266.70966.709-0.291-0.2910.5520.552-3.606-3.6061.2361.2366.0796.0791.9211.921-8.236-8.236-1.394-1.3945.4485.448-1.709-1.709 1670167057057027922027922033032330329554695546-0 0第48页/共88页估计方程的求法(例题分析)【例】求不良贷款对贷款余额的回归方程回归方程为:y=-0.8295+0.
20、037895 x回归系数回归系数 =0.037895=0.037895 表示,贷款余额每增加表示,贷款余额每增加1 1亿元,不良贷款平均增亿元,不良贷款平均增加加0.0378950.037895亿元亿元 第49页/共88页估计方程的求法(例题分析)不良贷款对贷款余额回归方程的图示第50页/共88页用Excel进行回归分析第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【回归】,选择【确定】第4步:当对话框出现时 在【Y值输入区域】设置框内键入Y的数据区域 在【X值输入区域】设置框内键入X的数据区域 在【置信度】选项中给出所需的数值 在【输出选项】中选择输出区域
21、在【残差】分析选项中选择所需的选项第51页/共88页估计方程的求法(Excel的输出结果)第52页/共88页回归直线的拟合优度第53页/共88页变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示第54页/共88页误差的分解(图示)x xy yy y第55页/共88页误差平方和的分解(三个平方和的关系)SST=SSR+SSE总平方和总平方和(SSTSST)回归平方和回归平方和(SSRSSR)残
22、差平方和残差平方和(SSESSE)第56页/共88页误差平方和的分解(三个平方和的意义)1.总平方和(SSTtotal sum of squares)反映因变量的 n 个观察值与其均值的总误差2.回 归 平 方 和(SSRsum of squares of regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残 差 平 方 和(SSEsum of squares of error)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和第57页/共88页判定系
23、数R2(coefficient of determination)1.回归平方和占总误差平方和的比例2.反映回归直线的拟合程度3.取值范围在 0,1 之间4.R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差5.判定系数等于相关系数的平方,即R2r2第58页/共88页判定系数(例题分析)【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不
24、良贷款与贷款余额之间有较强的线性关系 第59页/共88页估计标准误差(standard error of estimate)1.实际观察值与回归估计值误差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项 的标准差 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为注:例题的计算结果为注:例题的计算结果为1.97991.9799第60页/共88页显著性检验第61页/共88页线性关系的检验1.检验自变量与因变量之间的线性关系是否显著2.将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二
25、者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数k)残差均方:残差平方和SSE除以相应的自由度(n-k-1)第62页/共88页线性关系的检验(检验的步骤)1.提出假设H0:1=0 线性关系不显著2.计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 4.作出决策:若FF,拒绝H0;若FF,拒绝H0,线性关系显著第64页/共88页线性关系的检验(方差分析表)Excel 输出的方差分析表第65页/共88页回归系数的检验3.在一元线性回归中,等价于线性关系的显著性检验4.采用t检验1.检验 x 与 y 之间是否具有线性关系,或者说,检验自
26、变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布第66页/共88页回归系数的检验(检验步骤)1.提出假设H0:1=0(没有线性关系)H1:1 0(有线性关系)2.计算检验的统计量3.3.确定显著性水平确定显著性水平,并进行决策,并进行决策 t t t t,拒绝,拒绝H H0 0;t t =7.533515t t=2.201=2.201,拒绝,拒绝H H0 0,表明,表明不良贷款与贷款余额之间有显著的线不良贷款与贷款余额之间有显著的线性关系性关系第68页/共88页回归系数的检验(例题分析)P 值的应用P P=0.000000=0.000000=0.05=0.05,拒绝原假
27、设,拒绝原假设,不良贷款与贷不良贷款与贷款余额之间有显著的线性关系款余额之间有显著的线性关系第69页/共88页回归分析结果的评价l建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手1.所估计的回归系数 的符号是否与理论或事先预期相一致在不良贷款与贷款余额的回归中,可以预期贷款余额越多,不良贷款也可能会越多,也就是说,回归系数的值应该是正的,在上面建立的回归方程中,我们得到的回归系数 为正值,2.如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此在不良贷款与贷款余额的回归中,二者之间为正的线性关系,而且,对回归系
28、数的t检验结果表明而这之间的线性关系是统计上显著的第70页/共88页3.回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题在不良贷款与贷款余额的回归中,得到的R2=71.16%,解释了不良贷款变差的2/3以上,说明拟合的效果还算不错4.考察关于误差项 的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项 服从正态分布,否则,我们所用的检验程序将是无效的。正态性的简单方法是画出残差的直方图或正态概率图回归分析结果的评价第71页/共88页11.3 利用回归方程进行估计和预测11.3.1 点估计11.3.2 区间估计第72页/共88页利
29、用回归方程进行估计和预测1.根据自变量 x 的取值估计或预测因变量 y的取值2.估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计第73页/共88页点估计第74页/共88页点估计2.点估计值有n ny y 的的平均值平均值的点估计的点估计n ny y 的的个别值个别值的点估计的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同1.对于自变量 x 的一个给定值x0,根据回归方程得到因变量 y 的一个估计值第75页/共88页 y 的平均值的点估计n利用估计的回归方程,对于自变量 x 的一个
30、给定值 x0,求出因变量 y 的平均值的一个估计值E(y0),就是平均值的点估计在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计。根据估计的回归方程得第76页/共88页y 的个别值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计例如,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计。根据估计的回归方程得第77页/共88页区间估计第78页/共88页区间估计1.点估计不能给出估计的精度,点估计值与实际值之间
31、是有误差的,因此需要进行区间估计2.对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间3.区间估计有两种类型置信区间估计(confidence interval estimate)预测区间估计(prediction interval estimate)第79页/共88页置信区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的平均值的估计区间,这一估计区间称为置信区间(confidence interval)2.E(y0)在1-置信水平下的置信区间为式中:式中:s se e为估计标准误差为估计标准误差第80页/共88页置信区间估计(例
32、题分析)【例】求出贷款余额为100亿元时,不良贷款95%置信水平下的置信区间(根据前面计算点估计值2.96)解:根据前面的计算结果,已知n=25,se=1.9799,t(25-2)=2.069 置信区间为当贷款余额为当贷款余额为100100亿元时,不良贷款的平均值亿元时,不良贷款的平均值在在2.11412.1141亿元到亿元到3.80593.8059亿元之间亿元之间 第81页/共88页预测区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval)2.y0在1-置信水平下的预测区间为注
33、意!注意!第82页/共88页预测区间估计(例题分析)【例】求出贷款余额为72.8亿元的那个分行,不良贷款95%的预测区间 解:根据前面的计算结果,已知n=25,se=1.9799,t(25-2)=2.069 预测区间为贷款余额为贷款余额为72.872.8亿元的那个分行,其不良贷款亿元的那个分行,其不良贷款的预测区间在的预测区间在-2.2766-2.2766亿元到亿元到6.13666.1366亿元之间亿元之间 第83页/共88页置信区间和预测区间(例题分析)第84页/共88页置信区间、预测区间、回归方程xp pyx x预测上限置信上限预测下限置信下限第85页/共88页本章小结1.变量间关系的度量2.回归模型、回归方程与估计的回归方程3.回归直线的拟合优度4.回归分析中的显著性检验5.估计和预测6.用Excel 进行回归分析第86页/共88页本章作业P3301.思考题:1、7、102.练习题:5、7、9第87页/共88页感谢您的观看!第88页/共88页
限制150内