应用统计学(第四版)第8章-相关分析与回归分析ppt课件.ppt
1 3 相关分析(相关分析(掌握掌握) 线性回归分析(线性回归分析(掌握掌握) 回归模型的统计检验和预测(回归模型的统计检验和预测(掌握掌握) 非线性回归模型(非线性回归模型(了解了解) 主要内容和学习目标主要内容和学习目标 函数关系函数关系:变量间的:变量间的确定性确定性数量依存关系数量依存关系相关关系相关关系:变量间的:变量间的非确定性非确定性数量依存关系数量依存关系变量之间的关系变量之间的关系 l当变量当变量x x取某个数值时,变量取某个数值时,变量y y 依确定的对应关系取相应的值依确定的对应关系取相应的值l表现形式:表现形式:y=f(x)y=f(x) l各观测点落在一条线上各观测点落在一条线上 相关关系的特点相关关系的特点l当变量当变量x x取某个值时,取某个值时, 变量变量y y 的取值可能有几个的取值可能有几个l表现形式:表现形式:y=f(x)+y=f(x)+l各观测点在一条线的周围各观测点在一条线的周围 9 8.1.1 8.1.1 相关关系的概念和种类相关关系的概念和种类 1.1.相关关系的概念相关关系的概念 在社会经济发展变化中,客观现象总是普遍在社会经济发展变化中,客观现象总是普遍联系和相互依存的,客观现象(变量)之间联系和相互依存的,客观现象(变量)之间的数量依存关系可分为两种类型:确定性关的数量依存关系可分为两种类型:确定性关系和系和相关关系相关关系。 相关关系相关关系是指现象之间客观存在的非确定性是指现象之间客观存在的非确定性的数量依存关系。的数量依存关系。 8.1 8.1相关分析相关分析10如:商品的消费量(如:商品的消费量(y y)与居民收入()与居民收入(x x)之间的关系)之间的关系 变量间关系是变量间关系是不能用函数关系精确表达不能用函数关系精确表达的,一个变的,一个变量的取值不能由另一个变量唯一确定。量的取值不能由另一个变量唯一确定。各观测点分布在直线周围。各观测点分布在直线周围。112. 2. 相关关系的种类相关关系的种类(1 1)按相关的方向可以分为)按相关的方向可以分为正相关正相关和和负相关负相关。(2 2)按相关的程度可分为)按相关的程度可分为完全相关完全相关、不完全相关不完全相关和和不相关不相关。(3 3)按涉及的变量或因素的个数可以分为)按涉及的变量或因素的个数可以分为单相关单相关与与复相关复相关。(4 4)按相关的表现形式可分为)按相关的表现形式可分为线性相关线性相关与与非线性相关非线性相关。相关关系相关关系的种类的种类按变量个数按变量个数按表现形式按表现形式按密切程度按密切程度单相关单相关复相关复相关线性相关线性相关非线性相关非线性相关完全相关完全相关不完全相关不完全相关不相关不相关相关关系的分类相关关系的分类 线性相关线性相关:按其变化方向可分为正相关与负相关按其变化方向可分为正相关与负相关 函数关系函数关系13相关关系单相关线性相关正相关负相关非线性相关复相关多元线性相关多元非线性相关相关关系的种类的关系图相关关系的种类的关系图相关分析的主要内容与方法相关分析的主要内容与方法l判断变量之间是否存在相关关系(定性分析法)判断变量之间是否存在相关关系(定性分析法)l分析变量间相关关系的形态特征(制作散点图)分析变量间相关关系的形态特征(制作散点图)l分析变量间相关关系的密切程度(计算相关系数)分析变量间相关关系的密切程度(计算相关系数)l对总体相关关系进行显著性检验(假设检验法)对总体相关关系进行显著性检验(假设检验法)相关分析的概念相关分析的概念研究两个或两个以上的变量之间相关关系的形态和程研究两个或两个以上的变量之间相关关系的形态和程度的一种统计方法。度的一种统计方法。 简单线性相关关系简单线性相关关系 定性分析定性分析 相关图分析相关图分析 相关系数分相关系数分析析 相关分析相关分析的方法的方法定性分析定性分析相关系数分析相关系数分析相关图分析相关图分析计算计算相关相关系数系数绘制绘制相关相关图图进行进行定性定性分析分析相关相关系数系数检验检验简单线性相关分析的基本程序简单线性相关分析的基本程序 定性分析定性分析 l 是指对事物的质的规定性的认识和分析是指对事物的质的规定性的认识和分析l 要借助相关的社会经济理论、专业知识、要借助相关的社会经济理论、专业知识、 实践经验和判断能力实践经验和判断能力l 如果定性分析判断现象之间没有相关关系,如果定性分析判断现象之间没有相关关系, 就不需要进行定量的描述和测度了就不需要进行定量的描述和测度了 美国印第安纳州的地区教会想要筹款兴建新教堂,提出美国印第安纳州的地区教会想要筹款兴建新教堂,提出教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。为了增进民众参与的热诚和信心,教会的神父收集了近号。为了增进民众参与的热诚和信心,教会的神父收集了近1515年的教堂数与在监狱服刑的人数进行统计分析。结果却令年的教堂数与在监狱服刑的人数进行统计分析。结果却令教会大吃一惊。最近教会大吃一惊。最近1515年教堂数与监狱服刑人数呈显著的正年教堂数与监狱服刑人数呈显著的正相关。那么是否可以由此得出,教堂建得越多,就可能带来相关。那么是否可以由此得出,教堂建得越多,就可能带来更多的犯罪呢?经过统计学家和教会神父深入讨论,发现监更多的犯罪呢?经过统计学家和教会神父深入讨论,发现监狱服刑人数的增加和教堂数的增加都与人口的增加有关。教狱服刑人数的增加和教堂数的增加都与人口的增加有关。教堂数的增加并非监狱服刑人数增加的原因。至此,教会人士堂数的增加并非监狱服刑人数增加的原因。至此,教会人士总算松了一口气。总算松了一口气。案例:教堂数与监狱服刑人数同步增长案例:教堂数与监狱服刑人数同步增长208.1.28.1.2 相关分析的图表和意义相关分析的图表和意义1 1、相关图表相关图表 相关表和相关图可直观地表达变量之间相关表和相关图可直观地表达变量之间的相关关系的程度。的相关关系的程度。 相关表相关表是将具有相关关系的原始数据是将具有相关关系的原始数据, ,按按某一顺序平行排列在一张表上某一顺序平行排列在一张表上, ,以观察它以观察它们之间的相互关系。们之间的相互关系。21表表8-18-1高校人数和周边饭店季营业额高校人数和周边饭店季营业额饭饭店店学生人学生人数(千数(千人)人)x x季营业季营业额(千额(千元)元)y y饭饭店店学生人学生人数(千数(千人)人)x x季营业额季营业额(千元)(千元)y y1 12 258586 616161371372 26 61051057 720201571573 38 888888 820201691694 48 81181189 922221491495 512121171171010262620220222 相关图相关图也称为分布图或散点图,它是在平面也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点描绘直角坐标中把相关关系的原始数据用点描绘出来,通常以直角坐标的横轴代表自变量出来,通常以直角坐标的横轴代表自变量x,x,纵轴代表因变量纵轴代表因变量y y。相关图所反映的变量之。相关图所反映的变量之间的相关关系的方向和程序比相关表更为清间的相关关系的方向和程序比相关表更为清晰,也更为直观。晰,也更为直观。23图图8-18-1学生人数和季营业额相关图学生人数和季营业额相关图 24258.1.3 8.1.3 简单线性相关简单线性相关1. 1. 相关系数相关系数 相关系数相关系数是描述相关的两个变量之间相关关是描述相关的两个变量之间相关关系密切程度的数量指标。早在系密切程度的数量指标。早在18901890年,英国年,英国著名统计学家著名统计学家Karl PearsonKarl Pearson便提出了一个测便提出了一个测定两个变量线性相关的计算方法,通常称为定两个变量线性相关的计算方法,通常称为积差相关系数或简单相关系数。积差相关系数或简单相关系数。262. 2. 相关分析的意义相关分析的意义(1 1)相关分析可以确定变量之间相关关系的)相关分析可以确定变量之间相关关系的方向和程度方向和程度(2 2)相关分析可以衡量回归估计的精确程度)相关分析可以衡量回归估计的精确程度 l相关系数相关系数是对变量之间相关关系密切程度的度量是对变量之间相关关系密切程度的度量l对两个变量之间线性相关程度的度量对两个变量之间线性相关程度的度量 称为称为简单相关系数简单相关系数l若相关系数是根据总体全部数据计算的,若相关系数是根据总体全部数据计算的, 则称为则称为总体相关系数,记为总体相关系数,记为 l若相关系数是根据样本数据计算的,若相关系数是根据样本数据计算的, 则称为则称为样本相关系数,记为样本相关系数,记为 r r 相关系数分析相关系数分析 28总体相关系数总体相关系数: :XYXY式中:XY是变量是变量X X和和Y Y的协方差的协方差X是变量是变量X X的标准差的标准差Y是变量是变量Y Y的标准差的标准差样本相关系数样本相关系数:22()()iiiixxyyrxxyy 样本相关系数的计算公式样本相关系数的计算公式30ExcelExcel在相关系数计算中的应用在相关系数计算中的应用方法一:利用统计函数中的方法一:利用统计函数中的“CORRELCORREL”函数计算;函数计算;方法二:利用统计函数中的方法二:利用统计函数中的“PEARSONPEARSON”函数计算;函数计算;方法三:利用分析工具库中的方法三:利用分析工具库中的“相关系数相关系数”工具计算。工具计算。取值取值意义意义线性正相关关系线性正相关关系线性负相关关系线性负相关关系完全线性正相关关系完全线性正相关关系完全线性负相关关系完全线性负相关关系没有线性相关关系没有线性相关关系线性相关程度越高线性相关程度越高线性相关程度越低线性相关程度越低1r1r 10r 0r01r 0r 1r相关系数的性质相关系数的性质33取值范围取值范围相关程度相关程度高度相关高度相关中度相关中度相关低度相关低度相关弱度相关弱度相关0.50.8r 0.81r0.3r 0.30.5r 相关程度的划分相关程度的划分35根据给定的显著性水平和自由度根据给定的显著性水平和自由度n-2,n-2,查找查找t t分布中的相分布中的相应临界值应临界值 。如果。如果 ,就否定原假设,认为,就否定原假设,认为 r r 在统计上是显著的,即总体相关系数不为零,总体变在统计上是显著的,即总体相关系数不为零,总体变量间存在线性相关关系。量间存在线性相关关系。3.3.相关系数的显著性检验相关系数的显著性检验提出假设:提出假设:01:0,:0HH计算计算 t t 检验统计量:检验统计量: 2t2|tt 22(2)1ntrt nr36 计算学生人数和季营业额的相关系数计算学生人数和季营业额的相关系数 124608119 1401100.9611(2207119 119) (2818011401 1401)1010r 【例8.2】利用表8-1的数据,计算学生人数x(万人)和季营业额y(万元)的相关系数。37 检验高校学生人数与周边饭店季营业额之间的相关检验高校学生人数与周边饭店季营业额之间的相关系数是否显著,显著性水平系数是否显著,显著性水平 =0.05=0.05。 第一步:提出假设第一步:提出假设 第二步:构造并计算检验统计量第二步:构造并计算检验统计量01:0; :0HH221020.9610.0411 0.96 0.96ntrr38 第三步:确定临界值。根据给定的显著性水平第三步:确定临界值。根据给定的显著性水平 =0.05=0.05和自由度和自由度10-2=810-2=8,查找,查找t t分布表或利用分布表或利用ExcelExcel计算,得到临界值。计算,得到临界值。 第四步:决策。由于第四步:决策。由于 所以拒绝原假设,说明高校学生人数与周边饭店季所以拒绝原假设,说明高校学生人数与周边饭店季营业额之间存在着显著的正线性相关关系。营业额之间存在着显著的正线性相关关系。0.025(8)(0.05,8)2.31tTINV0.025| | 10.40(8)2.31tt39 8.2.1 8.2.1 回归分析回归分析 回归分析回归分析是根据已知变量估计未知变量是根据已知变量估计未知变量的一种统计方法,它是以对未知变量的一种统计方法,它是以对未知变量( (因因变量变量) )同其他变量同其他变量( (自变量自变量) )相互关系的观相互关系的观察为基础,在某种精确度下,预测未知变察为基础,在某种精确度下,预测未知变量的数值。量的数值。 8.2 8.2 线性回归分析线性回归分析40回归分析的内容和步骤回归分析的内容和步骤: 选择适当的回归模型。选择适当的回归模型。 进行参数估计。进行参数估计。 进行模型的检验。进行模型的检验。 进行预测。即根据回归方程进行适当的经进行预测。即根据回归方程进行适当的经济预测,这是回归分析的最终目的。济预测,这是回归分析的最终目的。411. 1. 总体回归方程与样本回归方程总体回归方程与样本回归方程 例:研究家庭消费支出与家庭收入之例:研究家庭消费支出与家庭收入之间的关系,一个总体由间的关系,一个总体由5050户家庭组成,户家庭组成,并按人均月收入水平划分成组内收入并按人均月收入水平划分成组内收入水平大致相同的水平大致相同的1010个组。个组。42图图8-4 8-4 不同收入水平的家庭消费支出散点分布图不同收入水平的家庭消费支出散点分布图总体回归线PRL随机试验所有可能结果的集合称为总体或样本空间第一节 古典回归模型 由图中看出总体回归直线是线性的,用函数的形式来由图中看出总体回归直线是线性的,用函数的形式来表示:表示: (1)(1) 这是直线的数学表达式,在式这是直线的数学表达式,在式(1)(1)中,中, E(YE(YXi)Xi)表示给定表示给定X X值相应的值相应的( (或条件的或条件的) ) Y Y的均值,的均值,称为称为或条件均值下标或条件均值下标i i代表第代表第i i个子总体。个子总体。如,如,x=2x=2时,时,y y的条件均值为的条件均值为 即收入水平为即收入水平为20002000元的元的4 4个家庭的平均消费支出为个家庭的平均消费支出为15001500元。元。01( |)iiE Y XX11111.101.401.701.801.55555第一节 古典回归模型注意注意: E E( (Y YX Xi i) )是是X Xi i的函数的函数( (在此例中是线性函数在此例中是线性函数) )。这意味。这意味着着Y Y依赖于依赖于X Xi i,一般称之为,一般称之为。回归可简单。回归可简单地定义为在给定地定义为在给定X X值的条件下值的条件下Y Y值分布的均值。换句话值分布的均值。换句话说,总体回归直线经过说,总体回归直线经过Y Y的条件期望值。式的条件期望值。式(1)(1)是总体是总体回归函数回归函数(Population Regression Function, PRF)(Population Regression Function, PRF)的数学形式。在本例中,总体回归函数是线性函数。的数学形式。在本例中,总体回归函数是线性函数。第一节 古典回归模型 为参数为参数( (parameters) ),也称,也称回归系数回归系数( (regression coefficients) )。 又称为截距又称为截距( (intercept) ),是当,是当X X为为0 0时时Y Y的均值的均值 又称为斜率又称为斜率( (slope) ),斜率度量了,斜率度量了X X 每变动一每变动一单位,单位,Y Y 的均值的变化率。的均值的变化率。 例,如果斜率例,如果斜率 为为0.5,那么,当收入,那么,当收入x x每增加每增加1 1单位(千元),单位(千元),Y Y 的的( (期望期望) )均值将增加均值将增加0.50.5个单位个单位(千元);即,平均而言,消费支出将增加(千元);即,平均而言,消费支出将增加0.50.5千元。千元。 0101,1第一节 古典回归模型模型的随机设定模型的随机设定 从图中可看出单个家庭的消费支出与平均消费支出从图中可看出单个家庭的消费支出与平均消费支出之间存在着一定的离差,即之间存在着一定的离差,即 (2)(2) 其中,其中, 表示随机误差项表示随机误差项(stochastic, random (stochastic, random error term)error term)或简称为误差项。或简称为误差项。01iiiYXi47表表8-4 8-4 从表从表8-38-3的总体中抽取一个随机样本的总体中抽取一个随机样本 XYXY10.7763.2021.1074.0031.7084.3041.6594.5052.50106.0048图图8-5 8-5 总体回归线与样本回归线总体回归线与样本回归线第一节 古典回归模型 得到一条很好地得到一条很好地“拟合拟合”了样本数据了样本数据的直线,称之为的直线,称之为(sample (sample regression lines, SRL)regression lines, SRL)。 可能从可能从K K个不同的样本中得到个不同的样本中得到K K条不同条不同的样本回归直线,所有的这些样本回的样本回归直线,所有的这些样本回归线不可能都相同。每一条直线也最归线不可能都相同。每一条直线也最多是对真实总体回归线的多是对真实总体回归线的近似近似。第一节 古典回归模型 用样本回归函数用样本回归函数(sample regression (sample regression function,S R F)function,S R F)来表示样本回归线。来表示样本回归线。 (3)(3) 表示总体条件均值,表示总体条件均值, E(Y|Xi)E(Y|Xi)的估计量;的估计量; 表示表示 的估计量;的估计量; 表示表示 的估计量;的估计量;001iiYXiY110第一节 古典回归模型 建立随机的样本回归函数:建立随机的样本回归函数: (4) 其中其中eiei为残差项为残差项(residual term)(residual term),或简称,或简称为残差为残差(residual)(residual)。01iiiYXe第一节 古典回归模型 回归分析的主要目的是根据样本回归函数回归分析的主要目的是根据样本回归函数来估计总体回归函数,来估计总体回归函数,01iiiYXe01iiiYX532. 2. 相关分析与回归分析的联系与区别相关分析与回归分析的联系与区别(1 1)相关分析与回归分析的)相关分析与回归分析的联系联系 相关分析和回归分析具有共同的研究对象相关分析和回归分析具有共同的研究对象 相关分析和回归分析需要相互补充相关分析和回归分析需要相互补充 相关分析是回归分析的前提相关分析是回归分析的前提 回归分析是相关分析的拓展回归分析是相关分析的拓展54(2 2)相关分析与回归分析的)相关分析与回归分析的区别区别 变量的地位不同变量的地位不同 变量的性质不同变量的性质不同 研究的目的不同研究的目的不同 研究的方法不同研究的方法不同 所起的作用不同所起的作用不同558.2.2 8.2.2 一元线性回归模型一元线性回归模型1. 1. 回归模型的基本假定回归模型的基本假定 回归模型回归模型是描述因变量如何依赖自变量和随是描述因变量如何依赖自变量和随机误差项的方程。一元线性回归模型只涉及机误差项的方程。一元线性回归模型只涉及一个自变量,可表述为:一个自变量,可表述为:01yx第一节 古典回归模型 随机误差项是服从正态分布的实随机变量。随机误差项是服从正态分布的实随机变量。 零均值假定。即,零均值假定。即, 同方差假定,即对于自变量同方差假定,即对于自变量 所有观察值,随机误差项所有观察值,随机误差项 的方差的方差 都相同。都相同。 非自相关假定,即与自变量不同观察值对应非自相关假定,即与自变量不同观察值对应的随机误差项之间是互不相关、互不影响的的随机误差项之间是互不相关、互不影响的 自变量变量与随机误差项不相关假定。自变量变量与随机误差项不相关假定。 无多重共线性假定。无多重共线性假定。回归模型的基本假定回归模型的基本假定( )0E12,kx xx22. 2. 最小二乘估计最小二乘估计(OLS)(OLS) 残差是残差是Y Yi i的真实值与估计值之差,即的真实值与估计值之差,即 普通最小二乘法普通最小二乘法(ordinary least squares, OLS )(ordinary least squares, OLS ),即选择参数即选择参数 和和 ,使得全部观察值的残差平方,使得全部观察值的残差平方和最小。和最小。 用数学形式表示为:用数学形式表示为: 最小二乘原理就是所选样本回归函数使得所有最小二乘原理就是所选样本回归函数使得所有Y Y的估的估计值与真实值差的平方和最小。计值与真实值差的平方和最小。iiiiieYYYY实际的估计的22201min:()()iiiiieY YYX01 求解联立方程求解联立方程 解得解得 0100112()( 1)02()()0iiiiiQyxQyxx12201()iiiiiinx yxynxxyx59参数估计误差和置信区间参数估计误差和置信区间(1)(1)估计误差估计误差: :估计值和真值的偏差估计值和真值的偏差。 的估计误差为:的估计误差为: 的估计误差为:的估计误差为:0122122( )(x)(2)(x)iiieSxnx2202()()()(2)(x)iiiexSn nx60(2)(2)置信区间置信区间 对于给定的置信度对于给定的置信度1-1- , 参数的置信区间为参数的置信区间为: :即以即以100(1-100(1- )%)%的概率回归系数属于该区间内。的概率回归系数属于该区间内。 同理,同理, 参数的置信区间为参数的置信区间为1121121(2) (),(2) ()tnStnS020020(2) (),(2) ()tnStnS0618.2.3 8.2.3 多元线性回归模型多元线性回归模型1. 1. 多元线性回归模型的参数估计多元线性回归模型的参数估计 利用最小二乘法估计模型的参数利用最小二乘法估计模型的参数01 122 1,2,iiikkiiyxxxin22201 122() ()miniiiiiikkieyyyxxx62 参数估计值应该是下列方程组的解:参数估计值应该是下列方程组的解:01 122001 1221101 1222()( 1)02()()0()()0iiikkiiiikkiiiiikkikikQyxxxQyxxxxQyxxxx63 定义矩阵: 方程组可以用矩阵表示成: 参数的最小二乘估计为121nnyyYy112111222212(1)1 1 1 kknnknnkxxxxxxXxxx0 11(1) 1kkB ()X YX X B1()BX XX Y642. 2. 参数的估计误差和置信区间参数的估计误差和置信区间 参数估计值的标准差为参数估计值的标准差为 为矩阵为矩阵 对角线上的第对角线上的第i i个元素个元素 对于给定的置信度对于给定的置信度1-1- ,参数的,参数的100(1-100(1- )%)%置置信区间为:信区间为:22()1iiiiiieSccnk22(1) (),(1) ()iiiitnkStnkSiic1()CX X653. 3. 多元回归模型中的相关分析多元回归模型中的相关分析 多元回归分析中,由于变量总数不止两个,多元回归分析中,由于变量总数不止两个,因变量与多个自变量的组合产生一定的依存因变量与多个自变量的组合产生一定的依存关系;同时任何两个变量之间的相关关系都关系;同时任何两个变量之间的相关关系都可能受到其余变量的影响。为此需要对已建可能受到其余变量的影响。为此需要对已建立的多元回归模型进行相关分析,包括立的多元回归模型进行相关分析,包括复相复相关关和和偏相关偏相关。66(1)(1)复相关复相关在多变量情况下,复相关系数是用来测定因变量在多变量情况下,复相关系数是用来测定因变量 与一组自变量与一组自变量 之间相关程度的指标。其计之间相关程度的指标。其计算公式为:算公式为:12,mx xxy22,122()1()iiymiyyrRyy复相关系数的值域在复相关系数的值域在0 0到到1 1之间,它的值为之间,它的值为1 1,表明,表明 与与 之间存在严密的线性关系;它的值为之间存在严密的线性关系;它的值为0 0,则表明则表明 与与 之间不存在任何线性相关关之间不存在任何线性相关关系;它的取值在系;它的取值在0 0和和1 1之间时,表明变量之间存在一定的之间时,表明变量之间存在一定的线性相关关系。线性相关关系。y12,mxxx y12,mxxx 67(2)(2)偏相关偏相关 在多变量情况下,偏相关系数是用来测定当其他变在多变量情况下,偏相关系数是用来测定当其他变量保持不变的情况下,任意两个变量之间相关程度的指量保持不变的情况下,任意两个变量之间相关程度的指标。它主要考察两个变量之间的净相关关系,从而反映标。它主要考察两个变量之间的净相关关系,从而反映现象之间的真实联系。以两个自变量的情形为例现象之间的真实联系。以两个自变量的情形为例: 12121222212(1)(1)yyyyrrrrrr21122122112(1)(1)yyyyrrrrrrx1和和y偏相关系数:偏相关系数: x2和和y偏相关系数:偏相关系数:68 回归分析回归分析是要通过样本所估计的参数来代替总体是要通过样本所估计的参数来代替总体的真实参数。的真实参数。 在一次抽样中,参数的估计值与真值的差异有多在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。大,是否显著,这就需要进一步进行统计检验。主要包括主要包括拟合优度检验拟合优度检验、模型的、模型的显著性检验显著性检验和变和变量的量的显著性检验显著性检验,以及,以及预测预测。 8.3 8.3 回归模型的统计检验和预测回归模型的统计检验和预测 698.3.1 8.3.1 模型的拟合优度检验模型的拟合优度检验 对样本回归直线与样本观测值之对样本回归直线与样本观测值之间拟合程度的检验。间拟合程度的检验。:判定系数判定系数(可决系数可决系数)R R2 2问题:问题:采用普通最小二乘估计方法,已经保证了采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验模型最好地拟合了样本观测值,为什么还要检验拟合程度?拟合程度?70 如果如果Y Yi i= =i i 即实际观测值落在样本回归即实际观测值落在样本回归“线线”上,则上,则拟合拟合最好最好。可认为。可认为, ,“离差离差”全部来自回归线,而与全部来自回归线,而与“残差残差”无无关。关。 71 对于所有样本点,则需考虑这些点与样本均值离对于所有样本点,则需考虑这些点与样本均值离差的平方和差的平方和, ,可以证明可以证明:记22)(YYyTSSii总体平方和总体平方和22()iiRSSyYY回归平方和回归平方和22()iiiESSeYY残差平方和残差平方和72TSS=RSS+ESS Y的观测值围绕其均值的总离差总离差(total variation)可分解为两部分:一部分来自回归一部分来自回归线线(RSS),另一部分则来自随机势力,另一部分则来自随机势力(ESS)。在给定样本中,在给定样本中,TSS不变,不变,如果实际观测点离样本回归线越近,则如果实际观测点离样本回归线越近,则RSS在在TSS中占的比重越大,因此中占的比重越大,因此 拟合优度拟合优度:回归平方和:回归平方和RSS/YRSS/Y的总离差的总离差TSSTSS7321R S SE S SRT S ST S S可决系数可决系数R R2 2统计量统计量 称称 R R2 2 为(样本)为(样本)可决系数可决系数或或判定系数判定系数 可决系数可决系数的取值范围:的取值范围:00,11 R R2 2越接近越接近1 1,说明实际观测点离样本线,说明实际观测点离样本线越近,拟合优度越高。越近,拟合优度越高。748.3.2 8.3.2 模型的显著性检验模型的显著性检验 模型的模型的显著性检验显著性检验,就是检验模型对总体的近似程度,就是检验模型对总体的近似程度,即检验因变量即检验因变量y y和模型中所以自变量的线性关系是否和模型中所以自变量的线性关系是否显著。通常构造显著。通常构造F F统计量进行检验,称为统计量进行检验,称为F F检验。检验。 对多元线性回归模型对多元线性回归模型01 122 1,2,iiikkiiyxxxin75基本步骤如下:基本步骤如下: 1 1、提出假设、提出假设2 2、计算检验统计量:、计算检验统计量:3 3、对给定的显著水平、对给定的显著水平 确定临界值确定临界值4 4、得出检验结论:、得出检验结论:如果如果 ,则否定原假设,表明回归,则否定原假设,表明回归模型是显著的;反之,就不能否定原假设。模型是显著的;反之,就不能否定原假设。012112:0; :,0kkHH 至少有一个不等于/( ,1)/(1)SSR kFF k nkSSEnk( ,1)FFk nk( ,1)F k nk768.3.3 8.3.3 解释变量的显著性检验解释变量的显著性检验 变量的显著性检验变量的显著性检验是判断解释变量是判断解释变量X X是否对被解释是否对被解释变量变量Y Y具有显著的线性性影响,具有显著的线性性影响,主要是针对变量的主要是针对变量的参数真值是否为零来进行显著性检验的。参数真值是否为零来进行显著性检验的。 多元线性回归模型,多元线性回归模型, 检验某个自变量检验某个自变量 x x 对对y y是否有显著影响,进行解释是否有显著影响,进行解释变量的显著性检验。变量的显著性检验。01 122 1,2,iiikkiiyxxxin77 检验步骤:检验步骤: 1 1、对总体参数提出假设、对总体参数提出假设 4 4、 比较,判断比较,判断 若若|t|t|t t /2/2(n-(n-k-1-k-1) ),则拒绝,则拒绝H H0 0 ,接受,接受H H1 1 ; 若若|t|t| t t /2/2(n-(n-k-1k-1) ),则拒绝,则拒绝H H1 1 ,接受,接受H H0 0 ;01:0; :0iiHH2 2、构造检验统计量、构造检验统计量(1)()iiitt nkS3 3、对给定的显著水平对给定的显著水平 确定临界值确定临界值t /2(n-k-1)78注意注意: 在一元线性回归分析中,回归系数的显著性在一元线性回归分析中,回归系数的显著性检验与回归模型的显著性检验是等价的,因检验与回归模型的显著性检验是等价的,因此此 t t 检验和检验和F F 检验的结论是一致的。检验的结论是一致的。 但在多元回归分析中,它们是不等价的,但在多元回归分析中,它们是不等价的,t t 检验只检验方程中各个系数的显著性,而检验只检验方程中各个系数的显著性,而 F F 检验则检验的是整个方程的显著性。检验则检验的是整个方程的显著性。791 1、点预测、点预测对于一元线性回归模型对于一元线性回归模型 iiXY10给定样本以外的解释变量的观测值给定样本以外的解释变量的观测值X Xf f,可以得到被解释,可以得到被解释变量的预测值变量的预测值f f ,可以此作为其,可以此作为其条件均值条件均值E(Y|X=XE(Y|X=Xf f) )或或个别值个别值Y Yf f的一个近似估计。的一个近似估计。 注意:注意:严格地说,这只是被解释变量的预测值的估计严格地说,这只是被解释变量的预测值的估计值,而不是预测值。值,而不是预测值。 原因原因: :(1 1)参数估计量不确定;)参数估计量不确定; (2 2)随机项的影响)随机项的影响8.3.4 8.3.4 预测预测802 2、区间预测、区间预测 (1 1)y y的期望值的置信区间估计的期望值的置信区间估计 在在1-1- 的置信水平下的置信区间可表示为的置信水平下的置信区间可表示为 (一元模型一元模型) (多元模型多元模型)()fE y22/221()1(2)()ffniixxytnnxx1/2(1)()fffytn kXXXX 81 (2 2)y y的个别值的预测区间估计的个别值的预测区间估计 真实值真实值 的置信水平为的置信水平为1-1- 的预测区间为:的预测区间为:22/221()1(2)1()ffniixxytnnxx821. 1. 适配曲线问题适配曲线问题选配曲线通常可以分为下列两个步骤:选配曲线通常可以分为下列两个步骤: 确定变量间的依存关系,根据实际资料做确定变量间的依存关系,根据实际资料做散点图,按照图形的分布形状选择合适的散点图,按照图形的分布形状选择合适的模型。模型。 确定回归模型中的未知参数。确定回归模型中的未知参数。2.2.常见的函数常见的函数双曲线、幂函数、二次曲线和对数函数等双曲线、幂函数、二次曲线和对数函数等 8.4 8.4 非线性回归非线性回归83End of Chapter 8