《第七相关分析和回归分析.ppt》由会员分享,可在线阅读,更多相关《第七相关分析和回归分析.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七相关分析和回归分第七相关分析和回归分析析现在学习的是第1页,共65页第一节第一节 变量间的相关关系变量间的相关关系相关的概念相关分析的内容相关系数及其计算相关系数的检验现在学习的是第2页,共65页一、变量相关的概念一、变量相关的概念 x xy y变量间的函数关系变量间的函数关系是一一对应的确定关系设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量1、某种商品的销售额(y)与销售量(x)之间的关系可表示为 y=p x(p 为单价)2
2、、圆的面积(S)与半径之间的关系可表示为S=R2 3、企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1 x2 x3 现在学习的是第3页,共65页 x xy y变量间的相关关系变量间的相关关系现象之间存在的一种非确定性的数量依存关系(家庭收入和储蓄)变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定。当变量 x 取某个值时,变量 y 的取值可能有几个。1、商品的消费量(y)与居民收入(x)之间的关系2、商品销售额(y)与广告费支出(x)之间的关系3、粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的
3、关系4、收入水平(y)与受教育程度(x)之间的关系5、父亲身高(y)与子女身高(x)之间的关系现在学习的是第4页,共65页相关关系的类型相关关系的类型(课本第(课本第114页)页)相关关系相关关系正正相相关关负负相相关关相关方向相关方向变量多少变量多少单单相相关关复复相相关关相关形式相关形式线线性性相相关关非非线线性性相相关关完完全全相相关关中中度度相相关关低低度度相相关关相关程度相关程度弱弱相相关关高高度度相相关关现在学习的是第5页,共65页相关关系的图示相关关系的图示 不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线
4、性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 现在学习的是第6页,共65页二、相关分析的内容二、相关分析的内容(1)判断现象之间有无相关关系(2)判断相关关系的方向、表现形态和密切程度特点:w不必区分自变量和因变量w是回归分析的基础手段w定性分析、相关表、相关图、相关系数现在学习的是第7页,共65页相关表和相关图相关表和相关图 将变量X与Y对应数据用统计表反映,形成相关表。探讨变量x
5、,y的相关关系时,常须先做出散点图(Scatter Diagram),以坐标系上的点代表x,y的观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。现在学习的是第8页,共65页相关表相关表“Click”公司对公司对40个销售地区的调查结果见表个销售地区的调查结果见表现在学习的是第9页,共65页相关图相关图(见前(见前“相关关系的图示相关关系的图示”)图:图:Click宝珠笔的地区调查散点图宝珠笔的地区调查散点图由“click”公司的散点图可以看到销售额随每月电视广告时数增加时增加(a图);某地区销售代表人数变多时,该地区的销售额也随之上升(b图)。a图和b图进一步表示销售额与
6、各变量之间的关系呈直线关系。现在问题在于各变量之间的紧密关系究竟强到何种程度。这就涉及到一个常用的指标相关系数。现在学习的是第10页,共65页三、相关系数及其计算三、相关系数及其计算1、对变量之间关系密切程度的度量2、对两个变量之间线性相关程度的度量称为简单相关系数(偏相关系数与复相关系数见课本第115页)xy 变量x和y的协方差 x变量x的标准差 y变量y的标准差现在学习的是第11页,共65页相关系数的演变公式相关系数的演变公式或化简为现在学习的是第12页,共65页相关系数取值及其意义相关系数取值及其意义1、r 的取值范围是-1,12、|r|=1,为完全相关r=1,为完全正相关;r=-1,为
7、完全负正相关3、r=0,不存在线性相关关系相关4、-1r0,为负相关;0 t t,拒绝拒绝H0 0 若t =64.9809t t(13-2)=2.201(13-2)=2.201,拒绝拒绝H H0 0,人均消费金人均消费金额与人均国民收入之间的相关关系显著额与人均国民收入之间的相关关系显著现在学习的是第21页,共65页第二节第二节 简单回归分析简单回归分析回归分析的内容回归分析的内容回归模型和回归方程回归模型和回归方程简单线性回归(一元线性回归方简单线性回归(一元线性回归方 程)的建程)的建立(拟合)立(拟合)线性回归方程拟合优度的测定线性回归方程拟合优度的测定回归方程的显著性检验回归方程的显著
8、性检验回归预测回归预测现在学习的是第22页,共65页回归方法描述一个变量如何地依赖另一个变量。身高和体重;成绩与努力程度;工作好坏与实力、机遇等“回归”一词来源于生物学。英国生物统计学家高尔顿根据1078对父子身高的散点图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子,但平均而言,父母身材高的其子要矮些,而身材矮小的,其子要高些。这种遗传上身高趋于一般,“退化到平庸”的现象,高尔顿称作回归。高尔顿的学生皮尔逊继续研究,把回归的概念和数学高尔顿的学生皮尔逊继续研究,把回归的概念和数学方法联系起来,把代表现象之间一般数量关系的直线方法联系起来,把代表现象之间一般数量关系的直线或曲线称为回归直
9、线或回归曲线。或曲线称为回归直线或回归曲线。现在学习的是第23页,共65页回归:借用的遗传学概念,现指变量之间的一般数量关系。回归分析:用函数关系近似表达现象之间数量变化的一般规律。反映现象间相关关系数量变化规律的函数表达式称为回归模型或方程。回归分析的特点w两个变量不是对等的,必须区分自变量和因变量w回归方程是用来由自变量的给定值来推算因变量数值的。自变量一般是给定的,因变量是随机的。w回归分析是相关分析的目的现在学习的是第24页,共65页回归分析与相关分析的区别回归分析与相关分析的区别(见课本(见课本113页)页)1、相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称
10、为因变量(dependent variable),处在被解释的地位,x 称为自变量(independent variable),用于预测因变量的变化2、相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量3、相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 现在学习的是第25页,共65页一、回归分析的内容一、回归分析的内容1、简单线性回归方程的拟合。从一组样本数据出发,确定变量之间的数学关系式2、拟合优度的测定及回归方程的显
11、著性检验。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3、回归预测。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度现在学习的是第26页,共65页二、回归模型和回归方程二、回归模型和回归方程一个自变量一个自变量一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性回线性回归归非线性非线性回归回归回归模型的类型现在学习的是第27页,共65页回归模
12、型回归模型1、回答“变量之间是什么样的关系?”2、方程中运用1 个数字的因变量(响应变量)被预测的变量1 个或多个数字的或分类的自变量(解释变量)用于预测的变量3、主要用于预测和估计现在学习的是第28页,共65页一元线性回归模型一元线性回归模型(概念要点)(概念要点)1、当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归2、对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系3、描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型现在学习的是第29页,共65页一元线性回归模型一元线性回归模型(概念要点)(概念要点)对于只涉
13、及一个自变量的简单线性回归模型可表示为 模型中,y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数现在学习的是第30页,共65页一元线性回归模型一元线性回归模型(基本假定)(基本假定)1、误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为 E(y)=a+b x2、对于所有的 x 值,的方差2 都相同3、误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)
14、独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关现在学习的是第31页,共65页回归方程回归方程(概念要点)(概念要点)1、描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程回归方程2、简单线性回归方程的形式如下 E(y)=a+b x方程的图示是一条直线,因此也称为直线回归方程方程的图示是一条直线,因此也称为直线回归方程a a是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x x=0=0 时时 y y 的期望值的期望值b b是是直直线线的的斜斜率率,称称为为回回归
15、归系系数数,表表示示当当 x x 每每变变动动一一个个单单位位时,时,y y 的平均变动值的平均变动值现在学习的是第32页,共65页三、简单线性回归(一元线性三、简单线性回归(一元线性回归方回归方 程)的建立(拟合)程)的建立(拟合)一元回归方程建立的前提条件一元回归方程建立的前提条件1、r 的绝对值大于0.6 2、有线性关系参数参数a 和和b的的最小二乘法估计最小二乘法估计现在学习的是第33页,共65页最小二乘法最小二乘法(图示)(图示)xy y(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-
16、y yi i现在学习的是第34页,共65页最小二乘法最小二乘法(公式推导见课本(公式推导见课本359页)页)(和和 的计算公式的计算公式)根根据据最最小小二二乘乘法法的的要要求求,可可得得求求解解 和和 的的标标准准方程如下方程如下现在学习的是第35页,共65页估计方程的求法估计方程的求法(实例)(实例)w 例:根据前例中的数据,配合人均消费金额对人均国民收入的回归方程w 根据 求解公式得现在学习的是第36页,共65页估计方程估计方程w 人均消费金额y对人均国民收入x的回归方程为y=54.22286+0.52638 x 现在学习的是第37页,共65页估计方程的求法估计方程的求法(Excel的输
17、出结果)的输出结果)现在学习的是第38页,共65页四、线性回归方程拟合优度的测定四、线性回归方程拟合优度的测定(判定系数、估计标准误差)判定系数、估计标准误差)1、因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2、对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示总变差的分解现在学习的是第39页,共65页离差平方和的分解离差平方和的分解(图示)(图示)离差分解图离差分解图离差分解图离差分解图现在学习的是第40页,共65页离差平方和的分解离差平方和的
18、分解(三个平方和(三个平方和的关系)的关系)2、两端平方后求和有1、从图上看有、从图上看有SST=SSR+SSE总变差平方和总变差平方和总变差平方和总变差平方和(SSTSST)回归平方和回归平方和回归平方和回归平方和(SSRSSR)残差平方和残差平方和残差平方和残差平方和(SSESSE)现在学习的是第41页,共65页变差平方和的分解变差平方和的分解(三个平方和的意义)(三个平方和的意义)1、总平方和(SST)反映因变量的 n 个观察值与其均值的总离差2、回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称
19、为可解释的平方和3、剩余平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和现在学习的是第42页,共65页判定系数判定系数 r21、反映回归直线的拟合程度取值范围在 0,1 之间 r r2 2 1 1,说明回归方程拟合的越好;r2 20,说明回说明回归方程拟合的越差归方程拟合的越差判定系数等于相关系数的平方,即r r2(r)r)2(证明见课本证明见课本357357页页现在学习的是第43页,共65页估计标准误差估计标准误差 Sy1、反映实际观察值在回归直线周围的分散状况2、从另一个角度说明了回归直线的拟合程度3、Sy越小,回归方程拟合得越好。现在学习的是第44页,
20、共65页相关和回归分析之间的联系相关和回归分析之间的联系w相关系数r 和回归系数b的关系w相关系数r与估计标准误差Sy的关系现在学习的是第45页,共65页应用相关分析与回归分析应注意的问题应用相关分析与回归分析应注意的问题w1、定性分析与定量分析相结合w2、注意客观现象的数量界限w3、注意社会经济现象的复杂性w4、注意相关分析与回归分析的辨证关系现在学习的是第46页,共65页五、回归分析的显著性检验五、回归分析的显著性检验 线性回归方程的显著性检验回归系数b的检验 相关系数的检验现在学习的是第47页,共65页在根据样本数据拟合回归方程时,我们首先假设变量在根据样本数据拟合回归方程时,我们首先假
21、设变量在根据样本数据拟合回归方程时,我们首先假设变量在根据样本数据拟合回归方程时,我们首先假设变量x x和和y y y y之间存在线性关系,但这种假设是否成立,需通之间存在线性关系,但这种假设是否成立,需通之间存在线性关系,但这种假设是否成立,需通之间存在线性关系,但这种假设是否成立,需通过检验才能证实过检验才能证实过检验才能证实过检验才能证实回归方程显著性检验或线性关系回归方程显著性检验或线性关系回归方程显著性检验或线性关系回归方程显著性检验或线性关系的检验的检验的检验的检验(F F检验:检验自变量和因变量之间的线性检验:检验自变量和因变量之间的线性关系是否显著)关系是否显著)通过最小二乘法
22、得到的通过最小二乘法得到的通过最小二乘法得到的通过最小二乘法得到的 能否作为回归方程中能否作为回归方程中能否作为回归方程中能否作为回归方程中b b的的估计值?估计值?回归系数的检验回归系数的检验回归系数的检验回归系数的检验(t t t t检验:检验自变量检验:检验自变量x x对因变量对因变量对因变量对因变量y y y y的影响是否显著)的影响是否显著)的影响是否显著)的影响是否显著)为什么要进行检验?如为什么要进行检验?如何进行检验?何进行检验?现在学习的是第48页,共65页回归方程的显著性检验回归方程的显著性检验(线性关系的检验(线性关系的检验)1、检验自变量和因变量之间的线性关系是否显著2
23、、具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系现在学习的是第49页,共65页回归方程的显著性检验回归方程的显著性检验(检验的步骤)(检验的步骤)1、提出假设H0:线性关系不显著(方程不显著)2、计算检验统计量、计算检验统计量F3、确定显著性水平、确定显著性水平 ,并根据分子自由度,并根据分子自由度,并根据分子自由度,并根据分子自由度1 1和分母自由度和分母自由度和分母自由度和分母自由度n-2-2找出临界值找出临界值找出临界值找出临界值F F 4 4、作出决策:若、作出决策:若、作出决策:若、作出决策:若F F F ,拒绝拒绝H0 0;若若若若F F t t,拒绝拒绝拒绝拒绝HH0 0;t t F F0.050.05(2,7)=4.74(2,7)=4.74,回归方程显著,回归方程显著3 3、回归系数的显著性检验、回归系数的显著性检验 t t=9.35489.3548t t=0.3646=0.3646,;t t 2 2=4.7962 4.7962 t t=2.3646=2.3646;两两个回归系数均显著个回归系数均显著现在学习的是第65页,共65页
限制150内