《相关和回归分析讲稿.ppt》由会员分享,可在线阅读,更多相关《相关和回归分析讲稿.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于相关和回归分析第一页,讲稿共六十七页哦2022/10/92 相关和回归分析是研究事物的相互关系,相关和回归分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。评价、预测和控制的重要工具。第二页,讲稿共六十七页哦2022/10/93本章学习目的n1.理解相关的意义、主要形式、以及相关分析的基本内容。n2.掌握相关系数的设计原理,以及相关关系显著性检验。n3.回归和相关的区别和联系n4.普通
2、最小二乘法的原理以及回归参数的意义。n5.估计标准误差的分析等。第三页,讲稿共六十七页哦2022/10/94 第一节 相关的意义和种类一、问题的提出一、问题的提出二、相关关系的概念二、相关关系的概念三、相关关系的种类三、相关关系的种类四、相关关系的主要内容四、相关关系的主要内容第四页,讲稿共六十七页哦2022/10/95一、问题的提出相关第五页,讲稿共六十七页哦2022/10/96第六页,讲稿共六十七页哦2022/10/97一、相关关系的概念一、相关关系的概念 n客观现象之间的数量联系存在着两种不同的类型:函数关系和相关关系n函数关系:即当一个(或一组)变量每取一个值时,相应的另一个变量必然有
3、一个确定值与之对应。第七页,讲稿共六十七页哦2022/10/98(函数关系)(1)是一一对应的确定关系(2)设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量(3)各观测点落在一条线上 x xy y第八页,讲稿共六十七页哦2022/10/99自变量与因变量自变量与因变量n如果变量之间有因果关系,那么原因变量就叫作自变量,而受自变量影响的变量就称因变量。自变量通常发生在因变量之前。(不是所有先发生的变量都是自变量)一般自变量记为X,因变
4、量 记为Y。第九页,讲稿共六十七页哦2022/10/910【例例】(1 1)某某种种商商品品的的销销售售额额(y y)与与销销售售量量(x x)之之间间的的关关系系可表示为可表示为 y y=p x p x(p p 为单价为单价)(2 2)圆的面积)圆的面积(S)(S)与半径之间的关系可表示为与半径之间的关系可表示为 S S=R R2 2(3 3)企企业业的的原原材材料料消消耗耗额额(y y)与与产产量量(x x1 1)、单单位位产产量量消消耗耗(x x2 2)、原原材材料料价价格格(x x3 3)之之间间的的关关系系可可表表示示为为y y=x x1 1 x x2 2 x x3 3 第十页,讲稿
5、共六十七页哦2022/10/911相关关系(相关关系(correlation analysiscorrelation analysis):相关关系:变量之间存在有依存关系,但这种关系是不完全确定的随机关系,即当一个(或一组)变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。第十一页,讲稿共六十七页哦2022/10/912第十二页,讲稿共六十七页哦2022/10/913因果关系因果关系相关关系相关关系互为因果关系互为因果关系共变关系共变关系随机性依存关系随机性依存关系确定性依存关系确定性依存关系函数关系变量之变量之间关系间关系第十三页,讲稿共六十七页哦2022/10/914相关关系(1
6、)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量 x 取某个值时,变量 y 的取值可能有几个;(4)各观测点分布在直线周围。x xy y第十四页,讲稿共六十七页哦2022/10/915【例例】商品的消费量商品的消费量(y)(y)与居民收入与居民收入(x)(x)之间的关系之间的关系商品销售额商品销售额(y)(y)与广告费支出与广告费支出(x)(x)之间的关系之间的关系粮食亩产量粮食亩产量(y)(y)与施肥量与施肥量(x(x1 1)、降雨量、降雨量(x(x2 2)、温度、温度(x(x3 3)之间之间的关系的关系收入水平收入水平(y)(y)与受教育程度与
7、受教育程度(x)(x)之间的关系之间的关系父母亲身高父母亲身高(y)(y)与子女身高与子女身高(x)(x)之间的关系之间的关系身高与体重的关系身高与体重的关系第十五页,讲稿共六十七页哦2022/10/916n相关关系与函数关系的关系相关关系与函数关系的关系:在一定的条件下互相转化在一定的条件下互相转化.具有函数关系的变量具有函数关系的变量,当存在观测误差和随机因素影响时当存在观测误差和随机因素影响时,其函数关系往往以相关的形式表现出来其函数关系往往以相关的形式表现出来.而具有相关关系的变量之间的联系而具有相关关系的变量之间的联系,如果我们对它们有了深刻的如果我们对它们有了深刻的规律性认识规律性
8、认识,并且能够把影响因变量变动的因素全部纳入方程并且能够把影响因变量变动的因素全部纳入方程,这时相关关系也可转化为函数关系这时相关关系也可转化为函数关系.另外另外,相关关系也具有某种相关关系也具有某种变动规律变动规律,所以所以,相关关系也经常可以用一定的函数形式去近相关关系也经常可以用一定的函数形式去近似地描述似地描述.第十六页,讲稿共六十七页哦2022/10/917二、相关关系的种类1.按相关的程度分:完全相关完全相关不完全相关不完全相关 不相关不相关(或零相关或零相关)例:完全相关完全相关:在价格P不变的情况下,销售收入Y与销售量X 的关系;不相关不相关:股票价格的高低与气温的高低是不相关
9、的;第十七页,讲稿共六十七页哦2022/10/9182.按相关的方向分:正相关正相关负相关负相关正相关:两个变量之间的变化方向一致,都是增长趋正相关:两个变量之间的变化方向一致,都是增长趋 势或下降趋势。势或下降趋势。例例:收入与消费的关系收入与消费的关系;工人的工资随劳动生产率的提高而提高。工人的工资随劳动生产率的提高而提高。负相关:两个变量变化趋势相反,一个下降而另一负相关:两个变量变化趋势相反,一个下降而另一 个上升,或一个上升而另一个下降。个上升,或一个上升而另一个下降。例例:物价与消费的关系物价与消费的关系;商品流转的规模愈大商品流转的规模愈大,流通费用水平则越低。流通费用水平则越低
10、。第十八页,讲稿共六十七页哦2022/10/9193.按相关的形式分:线性相关线性相关非线性相关非线性相关 线性相关(直线相关):当一个变量每变动一个单位时,线性相关(直线相关):当一个变量每变动一个单位时,另一个变量按一个大致固定的另一个变量按一个大致固定的 增增(减减)量变动。量变动。例例:人均消费水平与人均收入水平人均消费水平与人均收入水平非线性相关(曲线相关):当一个变量变动时,非线性相关(曲线相关):当一个变量变动时,另一另一个变量也相应发生变动,但这种变动是不均等的。个变量也相应发生变动,但这种变动是不均等的。例例:产品的平均成本与总产量产品的平均成本与总产量;农产量与施肥量农产量
11、与施肥量.第十九页,讲稿共六十七页哦2022/10/9204.按相关的影响因素多少分:单相关单相关复相关复相关偏相关偏相关单相关单相关(一元相关一元相关):只有一个自变量。:只有一个自变量。复相关复相关(多元相关多元相关):有两个及两个以上的自变量。:有两个及两个以上的自变量。如如:居民的收入与储蓄额;成本与产量如如:某种商品的需求与其价格水平以及收入水平 之间的相关关系便是一种复相关。第二十页,讲稿共六十七页哦2022/10/921 偏相关偏相关:在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。如:在假定人们的收入水平不变的条件下,某种商品的需求与
12、其价格水平的关系就是一种偏相关。第二十一页,讲稿共六十七页哦2022/10/922 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 图示第二十二页,讲稿共六十七页哦2022/10/923第二节 相关图表和相关系数n一、相关表和相关图n二、简单相关系数第二
13、十三页,讲稿共六十七页哦2022/10/924 相关分析相关分析:就是用一个指标来表明现象间就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。分析)和回归分析。第二十四页,讲稿共六十七页哦2022/10/925定性分析定性分析是依据研究者的理论知识和实践经验,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,对客观现象之间是否存在相关关系,以及何种关系作出判断。以及何种关系作出判断。定量分析定量分析在定性分析的基础上,通过编制相关在定性分析的基础上,
14、通过编制相关表、绘制相关图、计算相关系数等方表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形法,来判断现象之间相关的方向、形态及密切程度。态及密切程度。相关关系的判断相关关系的判断第二十五页,讲稿共六十七页哦2022/10/926一、相关表和相关图 相关表和相关图是研究相关关系的直观工具,在进行详细的定量分析之前,可以先利用它们对现象之间存在的相关关系的方向、形式、和密切程度作大致的判断。第二十六页,讲稿共六十七页哦n简单相关表:简单相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。消费支出消费支出y15203040425360657870
15、可支配收可支配收入入x18254560627588929899居民消费和收入的相关表居民消费和收入的相关表单位:百元单位:百元第二十七页,讲稿共六十七页哦2022/10/928 相关图相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。例:第二十八页,讲稿共六十七页哦2022/10/929二、简单相关系数n(一)简单相关系数的概念(一)简单相关系数的概念 是度量两个变量两个变量之间线性线性相关密切程度密切程度和相关方向的统计指标。包括简单相关系数、复相关系数、偏相关系数、曲线相关系数(相关指数).n简单相关系数又称皮尔逊(1890年,英
16、国)相关系数,或积矩相关系数或动差相关系数。n若相关系数是根据总体全部数据计算的,称为总体 相关系数,记为 .n若是根据样本数据计算的,则称为样本相关系数,记为 r.样本相关系数是总体相关系数的一致估计量.第二十九页,讲稿共六十七页哦2022/10/930n 样本简单相关系数的计算公式(积差法积差法)(二)简单相关系数的计算公式(二)简单相关系数的计算公式式中:(1)1.用计算器计算协方差Sxy第三十页,讲稿共六十七页哦2022/10/931(1)式可化简为如下公式:或:或:第三十一页,讲稿共六十七页哦2022/10/932n用计算机计算n选取“工具”-“数据分析”n选“相关系数”n选“确定”
17、n输入“输入区域”n输入“输出区域”n在“分组方式”中选“逐列”n选“标志位于第一行”n确定n出现结果如下:第三十二页,讲稿共六十七页哦2022/10/933 1.r 的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负相关 2.r=0,不存在线性线性相关关系 3.-1r0,为负相关 4.0r1,为正相关 5.|r|越趋于1表示关系越密切;|r|越趋于0表示 关系越不密切相关系数取值及其意义相关系数取值及其意义第三十三页,讲稿共六十七页哦2022/10/934r的范围在0.1-0.3是微弱相关r的范围在0.3-0.5是低度相关;r的范围在0.5-0.8是显著相关;r
18、的范围在0.8以上是高度相关.第三十四页,讲稿共六十七页哦2022/10/935-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加第三十五页,讲稿共六十七页哦2022/10/936【例例1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到19952007年的样本数据(xi,yi),i=1,2,,13,数据见表1,计算相关系数。表表1 我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据 单位单位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均
19、消费金额消费金额1999200020012002200320042005393.8419.14460.86544.11668.29737.73859.972492672893294064515132006200720082009201020111068.81169.21250.71429.51725.92099.56436907138039471148第三十六页,讲稿共六十七页哦2022/10/937解:解:根据样本相关系数的计算公式有 人均国民收入与人均消费金额之间的相关系 数为 0.9987第三十七页,讲稿共六十七页哦2022/10/938【例例2】计算人均可支配收入和消费支出之间计算人均
20、可支配收入和消费支出之间的简单相关系数。的简单相关系数。第三十八页,讲稿共六十七页哦解:解:由表中数据得:y 473,x 662,y2 26507,x2 51656,xy 36933,n=10计算得人均可支配收入和消费支出间的简单相关系数为:第三十九页,讲稿共六十七页哦2022/10/940 第三节 一元线性回归分析n一、回归分析概念n二、回归分析的种类n三、一元线性回归分析第四十页,讲稿共六十七页哦2022/10/941回归方程一词是怎么来的第四十一页,讲稿共六十七页哦2022/10/942一、回归分析的概念 是指对具有相关关系的现象,根据是指对具有相关关系的现象,根据其相关关系的具体形态,
21、选择一个合适其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一近似地表达变量间的平均变化关系的一种统计分析方法。种统计分析方法。第四十二页,讲稿共六十七页哦2022/10/943二、回归分析的内容1.从一组样本数据出发,确定变量之间的数学关系式。2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。第四十三页,讲稿共六十七页哦2022/10/
22、944n回归分析和相关分析的区别:1.相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化.2.相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x则作为研究时给定的非随机变量。3.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 第四十四页,讲稿共六十七页哦2022/10/945相关分析与回归分析的联系n相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时
23、,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。简单说:1、相关分析是回归分析的基础和前提;2、回归分析是相关分析的深入和继续。第四十五页,讲稿共六十七页哦2022/10/946三、回归分析的种类1.按自变量的个数分:一元回归一元回归多元回归多元回归2.按回归方程的形式分:线性回归线性回归非线性回归非线性回归本章主要介绍一元线性回归。第四十六页,讲稿共六十七页哦2022/10/947四、一元线性回归分析(一)一元线性回归方程(一)一元线性
24、回归方程1.当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关 系时称为一元线性回归一元线性回归。2、对于具有线性关系的两个变量,可以用 一条线性方程来表示它们之间的关系。3、描述因变量 y 如何依赖于自变量 x 和 误差项 的方程称为回归模型。第四十七页,讲稿共六十七页哦2022/10/948注意:在两个变量之间,必须确定哪个是自变量,哪个是因变量回归方程的主要作用是用自变量来推算因变量。第四十八页,讲稿共六十七页哦2022/10/949n 回归模型的表达式如下回归模型的表达式如下:Y=a a +X+e e1、模型中,y 是 x 的线性函数(部分)加上随机误差项2、线
25、性部分反映了由于 x 的变化而引起的 y 的变化,是Y的数学期望,即对应于X某一取值时Y的平均值:第四十九页,讲稿共六十七页哦2022/10/9503、随机误差项(随机干扰项)是随机变量A、反映了除 x 和 y 之间的线性关系 之外的随机因素对 y 的影响B、是不能由 x 和 y 之间的线性关系 所解释的变异性随机误差项是Y与E(Y)的离差:4、和 称为模型的参数第五十页,讲稿共六十七页哦2022/10/951总体回归线与随机误差项 XYiY 。第五十一页,讲稿共六十七页哦2022/10/952(二)回归参数的普通最小二乘估计(二)回归参数的普通最小二乘估计(OLS)基本原理:1、使因变量的观
26、察值 Y与估计值 之间的 离差平方和达到最小来求得。即2.用最小二乘法拟合的直线来代表x与y之间的 关系与实际数据的误差比其他任何直线都小。第五十二页,讲稿共六十七页哦2022/10/953回归参数推导过程:为使Q 达到极小值,则须有:整理得如下标准方程组:第五十三页,讲稿共六十七页哦2022/10/954解上述方程组得:其中 可变形为:第五十四页,讲稿共六十七页哦【例例】根据例根据例根据例根据例2(幻灯片(幻灯片(幻灯片(幻灯片3838)中数据,拟合人均消费支出)中数据,拟合人均消费支出对人均可支配收入的回归方程,并指出回归系数的含义。对人均可支配收入的回归方程,并指出回归系数的含义。解解:
27、y 473,x 662,y2 26507,x2 51656,xy 36933,n=10由表中数据得:所以:所建立的回归方程为:回归系数 的含义是:人均可支配收入每增加1元,人均消费支出平均增加0.72元。第五十五页,讲稿共六十七页哦2022/10/956根据例1(幻灯片36)中的数据,配合人均消费金额对人均国民收入的回归方程n 人均消费金额对人均国民收入的回归方程为:y=54.22286+0.52638 x第五十六页,讲稿共六十七页哦2022/10/957第五十七页,讲稿共六十七页哦2022/10/958相关系数与回归系数的关系第五十八页,讲稿共六十七页哦2022/10/959估计标准误差估计
28、标准误差Syx(可说明回归方程的代表程度)实际观察值与回归估计值离差平方和的均方根。估计标准误差反映了实际观察值在回归直线周围的分散状况,是用来说明回归方程代表性大小的统计指标。也说明了回归直线的拟合程度.第五十九页,讲稿共六十七页哦2022/10/960由一元回归方程样由一元回归方程样本资料计算本资料计算:估计标准误差的计算公式为:k表示自变量个数第六十页,讲稿共六十七页哦2022/10/961例例第六十一页,讲稿共六十七页哦2022/10/962简化式:简化式:第六十二页,讲稿共六十七页哦2022/10/963【例例】前例2中回归方程估计标准误差为:第六十三页,讲稿共六十七页哦2022/1
29、0/964n作为回归模型拟合优度的判断和评价指标,估计标准误差显然不如判定系数,判定系数是无量纲的系数,有确定的取值范围(0-1),便于对不同资料回归模型拟合优度 进行比较.而估计标准误差则是有计量单位的,又没有确定的取值范围,不便于对不同资料回归模型拟合优度进行比较.第六十四页,讲稿共六十七页哦2022/10/965利用回归方程进行预测和估计利用回归方程进行预测和估计1.根据自变量 x 的取值估计或预测因变量 y的取值.2.当给出的x属于样本内的数据时,计算的yc值称为内插检验或事后预测,当给出的x在样本之外时,计算的yc值称为外推预测或事前预测.3.估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计第六十五页,讲稿共六十七页哦2022/10/966点估计点估计:2.点估计值点估计值 y 的平均值的点估计 y 的个别值的点估计3.在点估计条件下,平均值的点估计和个别值的在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同的点估计是一样的,但在区间估计中则不同1.对对于于自自变变量量 x 的的一一个个给给定定值值x0,根根据据回回归归方方程得到因变量程得到因变量 y 的一个估计值的一个估计值第六十六页,讲稿共六十七页哦2022/10/9感谢大家观看第六十七页,讲稿共六十七页哦
限制150内