第03章 回归分析.ppt
《第03章 回归分析.ppt》由会员分享,可在线阅读,更多相关《第03章 回归分析.ppt(164页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第03章 回归分析第03章 回归分析n本章主要讨论线性回归模型的系统建模方法n包括:模型的参数估计 假设检验 残差分析 回归方程的选取 Logistic回归模型及其参数估计和统计推断方法第一节 线性回归模型n线性回归模型表示n线性回归模型的系数确定n有关统计推断n回归方程的意义n回归方程的线性关系n回归方程的预测值受教受教育的育的水平水平工作工作后的后的收入收入预防预防疾病疾病支出支出疾病疾病的发的发病率病率第一节 线性回归模型联系与相互影响是普遍的现象联系与相互影响是普遍的现象第一节 线性回归模型n问题的提出:n事物间的联系和相互影响是普遍的n这种相互影响的抽象为:两变量或多变量间的数量关系
2、n这种关系可以是线性相关的,也可能是非线性相关的n回归模型用来揭示变量间的关系第一节 线性回归模型n什么是回归模型(regression)?n通过一个或几个变量的变化去解释另一变量的变化n包括找出自变量与因变量、设定数学模型、检验模型、估计预测等环节n线性回归模型是为了揭示变量间存在的线性关系第一节 线性回归模型n自变量(independent variable):n解释变量,给定的或可以控制的、用来解释、预测应变量的变量n因变量(dependent variable):n响应变量,由自变量来解释其变化的变量XY第一节 线性回归模型n线性回归模型及其矩阵表示 设 是一个可观测的随机变量,它受到
3、 个非随机因素 和随机误差 的影响。若 与 有如下线性关系:(3.1)其中 是未知参数;是均值为零、方差为 的不可观测的随机变量,称为误差项,本章均假定 。该模型称为线性回归模型,且称 为因变量,为自变量。线性回归模型n要建立线性回归模型,首先要估计未知参数 。为此,我们进行 次独立观测,得到n组数据(称为样本)满足:(3.2)线性回归模型其中 相互独立且均服从 分布。令线性回归模型 则可以简写为如下的线性回归模型的矩阵形式:(3.3)其中 称为观测向量,称为设计矩阵,并假设 为列满秩的,即 。是待估计的未知参数向量,是不可观测的随机误差向量。线性回归模型n当模型(3.1)中包含自变量的高次项
4、、交叉乘积项和自变量的其他已知函数项(如 等等)时,只要将它们看成新的自变量,在设计矩阵中加入这些新变量的观测值所成的列,也可将这样的回归模型在给定n组观测值时写为式(3.3)如:线性回归模型在给定n组观测值 时,只要令则有因此本章以后的讨论都适合于这些模型。只要Y与未知参数之间的关系是线性的,均可按线性回归模型(3.1)的方式进行分析。的最小二乘估计n如果 与 满足线性回归模型(3.1),则误差 应是比较小的。因此,选择 使误差项的平方和 达到最小,其中 ()。为此,分别对 求偏导并令其等于0,得 的最小二乘估计 称之为正规方程 的最小二乘估计 因为 ,故 存在。解正规方程,即得 的最小二乘
5、估计 为 由式(3.3)可知,故 的最小二乘估计当给出 的估计 后,将其代入式(3.1)并略去误差项,则称为回归方程。回归方程。利用回归方程,可由自变量 的观测值求出因变量 的估计值 。误差方差 的估计将自变量的各组观测值代入回归方程,可得各因变量的各估计值(拟合值)残差向量:其中残差平方和:误差方差 的估计由于 且 ,则由此得:从而 (3.5)是 的无偏估计有关的统计推断n回归关系的统计推断n(1)建立方差分析表n(2)线性回归分析的显著性检验n(3)检验的p值n回归参数的统计推断n关于预报值的统计推断 回归关系的统计推断 给定因变量 与自变量 的n组观测值,利用前述方法可得到未知参数 和
6、的估计,从而可给出 和 之间的线性回归方程。但所求得的回归方程是否有意义,还需要对回归方程进行检验。回归关系的统计推断n(1)建立方差分析表 1)离差平方和的分解引起观测值 y1,y2,yn 差异的原因有两个:一是因为Y与自变量X1,X2,Xp-1之间有显著的线性关系时,由于X1,X2,Xp-1的取值不同,而使得因变量Y也各不相同。二是因为除了Y和自变量X1,X2,Xp-1之间的线性关系之外的其他原因。如X1,X2,Xp-1对Y的非线性影响和随机因素的影响。(1)建立方差分析表n为了分析回归关系,定义了几个指标:记 则数据的总离差平方和(total sum of squares)为反映了数据y
7、1,y2,yn的波动大小。(1)建立方差分析表残差平方和(error sum of squares)反映了除去Y与X1,X2,Xp-1之间的线性关系以外的因素引起的数据y1,y2,yn的波动。若SSE=0,则每个观测值可由线性关系精确拟合,SSE越大,观测值和线性拟合值之间的偏差也越大。(1)建立方差分析表回归平方和(regression sum of squares)反映了线性拟合值与它们的平均值的总偏差,即由变量X1,X2,Xp-1的变化引起的y1,y2,yn的波动。若SSR=0,则每个拟合值相等,即y1,y2,yn不随着X1,X2,Xp-1的变化而变化。(1)建立方差分析表 上述三个指标
8、分别从不同角度描述了回归关系。同时,这三个指标之间也有着如下关系:SST=SSE+SSR (3.6)(1)建立方差分析表n对应于SST的分解(3.6),其自由度也有相应的分解。这里的自由度是指平方和中,独立变化项的数目。n在SST中,由于有一个关系式 即彼此不是独立变化的,故其自由度为n-1。n可以证明:SSE的自由度为n-p,SSR的自由度为p-1。所以对应SST的分解(3.6),它们的自由度也有相应分解:n-1=(n-p)+(p-1)(3.7)(1)建立方差分析表n基于以上SST的分解(3.6)和(3.7),可以建立方差分析表如表3.1。n其中回归平方和及残差平方和与各自的自由度之比分别称
9、为均方回归(regression mean square)及均方残差(error mean square).利用方差分析表,可对回归方程的显著性作检验。(1)建立方差分析表(2)回归关系的显著性检验 为了检验Y与X1,X2,Xp-1之间是否存在显著的线性回归关系,即检验假设:至少一个 这是因为若假设H0成立,那么 ,即Y与X1,X2,Xp-1之间不存在线性关系。(2)回归关系的显著性检验基于以上方差分析表,构造如下检验统计量:(3.8)当H0为真时,可以证明FF(p-1,n-p),这里F(p-1,n-p)表示自由度为p-1和n-p的F分布。(2)回归关系的显著性检验n由上述对回归平方和SSR的
10、讨论知,若H0不真,F的值有偏大的趋势。n因此,给定显著性水平a,由F分布的临界值Fa(p-1,n-p)(即F分布的上侧a分位数),计算F的观测值F0n 若F0=Fa(p-1,n-p),接受H0,即在显著性水平a之下,认为线性回归关系不显著;否则拒绝H0,认为线性回归关系显著。(3)检验的p值n在SAS及其他一些数据分析软件中,对显著性检验问题,其输出结果通常是检验的p值。n对上述线性回归关系的显著性检验问题,其检验p值为其中F0是检验统计量的观测值。(3)检验的p值n有了p值后,对于给定的显著性水平a,任何检验准则均为:若 p=a,则接受H0这样不需要查相应分布的分位数表,直接根据数据分析软
11、件输出的p值和给定的a值,就能够判断接受还是拒绝H0回归参数的统计推断n回归关系显著并不意味着每个字变量X1,X2,Xp-1对Y的影响都显著。可能其中的某个或某些对Y的影响不显著。n一般说来,我们总希望从回归方程中剔除那些对Y的影响不显著的自变量,从而建立一个较为简单有效的回归方程,以便于实际应用。回归参数的统计推断n若某个自变量Xk对Y无影响,显然在线性回归模型中,参数 。n因此检验Xk的影响是否显著等价于检验假设:构造检验统计量 ,其中 是 的最小二乘估计,回归参数的统计推断n可以证明:(3.10)其中t(n-p)是自由度为n-p的t分布。由此,若H0为真,由公式(3.10)知 若H0不为
12、真,由于 则|t|有偏大的趋势。回归参数的统计推断n给定显著水平a,求出自由度为n-p的t分布 的上侧0.5a分位数 记t的观察值为t0,检验准则为 若 ,则接受H0 若 ,则拒绝H0回归参数的统计推断n对上述统计量,其p值为从而,若p=a,则接受H0,否则拒绝H0 另外,由式(3.10)可求得 的置信度为1-a的置信区间为 (3.12)建立回归方程除了解 与 的相依关系外,另一个重要应用就是进行预报。设给定了自变量的一组新观察值 ,利用回归方程可得因变量的预报值:关于预报值的统计推断实际上 是对应于 的y值的点估 计。但在实际应用中,更感兴趣的是给出 的真值 的区间估计,可证明其中关于预报值
13、的统计推断关于预报值的统计推断n而 ,由此可得y0的一个置信度为 的置信区间为:线性回归PROC REG过程nPROC REG过程是SAS系统中众多回归分析过程中的一种,除可拟合一般线性回归模型外,还提供多种选取最优模型的方法及模型诊断检查方法,其基本语句形式为:PROC REG options;MODEL dependent=regressors/options;OUTPUT OUT=SAS data set keyword=name ;线性回归PROC REG过程nPROC REG options;其中“options”部分指出要分析的SAS数据集,即“DATA=SAS data set”
14、。若省略,则SAS系统使用最新建立的数据集作回归分析。线性回归PROC REG过程nMODEL dependent=regressors/options;在关键词“MODEL”之后,指明因变量,等号之后依次列出回归变量(即自变量),每个变量间用空格分开。“options”部分提供了最优模型的选择方法和其他拟合结果的输出选择:1 模型的选择方法语句:SELECTION=name 其中“name”可以使以下选项之一:MODEL指令1)FORWARD:即向前选择最优模型方法。从仅含常数项的回归模型开始,逐步加入自变量,其准则是将反映各自变量加入时,描述残差平方和减少量的偏F统计量的p值与给定的变量进
15、入模型的控制水平相比较,如果所有变量所对应的偏F统计量的p值均大于该控制水平(即所有自变量对因变量的影响均不显著),则向前选择过程结束,否则将具有最大偏F值得变量的自变量引入模型,然后再对未引入模型的自变量重复以上作法,直到没有变量能被引入为止。自变量进入模型的控制水平语句SLENTRY=level表示,并写在选择方法语句之后,若省去此句,SAS系统默认的水平为level=0.50。MODEL指令2)BACKWARD:即向后删除法。首先拟合一个包含全部自变量的线性回归模型,然后根据偏F统计量的p值与给定的控制水平比较,将对因变量影响不显著的自变量逐个删除,直到模型中的所有自变量在给定的控制水平
16、上对因变量的影响均显著为止。保留自变量在模型中的控制水平用语句SLSTAY=level给出。若省略此句,SAS系统默认的水平为level=0.10。MODEL指令3)STEPWISE:即逐步回归法,选取自变量和保留自变量的控制水平语句SLENTRY=level1和SLSTAY=level2给出。SAS系统默认的控制水平为level1=level2=0.15。4)RSQUARE:即在所有可能的回归方程中利用 准则选择最优模型的方法。在每一个给定的自变量个数的水平上,打印出使 达到最大的那个回归模型的拟合结果。MODEL指令5)ADJRSQ:即修正的 (本书中的 )准则选择最优模型法。6)CP:即
17、利用 准则选择最优模型法。以上方法只选用一种,不可并用。MODEL指令2 对模型选取细节的选项:1)DETAILS:此选项仅对最优模型选取方法中的FORWARD,BACKWARD和STEPWISE有效。会打印出每一步引入和删除的自变量及相关信息。如一个自变量选入模型的偏F值,模型的 值和一个自变量被删除时模型 值以及有关参数估计的信息。2)NOINT:取消回归模型的常数项 ,即拟合过原点的回归方程。MODEL指令3 对估计细节内容的选择:在“options”部分,可以选择一个或多个(中间用空格分开)参数估计的有关内容及自变量选择的细节信息,其中较常用的有:1)CORRB:打印除估计的参数的相关
18、矩阵,其中第 元素为 与 的相关系数估计;2)COVB:打印出估计的参数的协方差矩阵,即书中的 ,这里MSE即均方误差;MODEL指令3)P:打印出因变量的拟合值,同时还包括因变量的观测值及拟合残差;4)R:打印出有关残差及用于影响性分析的各量,其中包括拟合值的标准差、残差、学生化残差(即残差除以其标准差)及Cook距离(它度量了当删除某组观测值后,参数估计的总变化量)线性回归PROC REG过程nOUTPUT OUT=SAS data set keyword=name ;此语句旨在建立一个包含与估计内容有关的SAS数据集,其中“SAS data set”部分应给出该数据集的名称。此数据集除包
19、括所分析的原SAS数据集的全部内容外,还可在“keyword=name”部分指定下列的一些或全部内容:“*=name”其中*表示以下指令:OUTPUT指令1)PREDICTED(或P):因变量的拟合值;2)RESIDUAL(或R):残差;3)STUDENT:标准化(或学生化)残差,它是用残差除以其标准差而得到;4)L95M:因变量的期望值的95置信区间的置信下限;5)U95M:相应于4)的置信上限;6)L95:因变量真值的95置信区间的置信下限;7)U95:相应于6)的置信上限;OUTPUT指令8)COOKD:Cook距离,用以影响性分析的统计量;9)H:杠杆量,即 ,这里是设计矩阵 的第 行
20、;10)PRESS:即第3章式(3.17)的 值,用以估计第 组观测值对拟合值的影响;11)DFFITS:用以估计第 组观测值对参数估计的影响。例3.1n某公司在各地区销售一种特殊的化妆品。该公司观测了15个城市在某季度内对该化妆品的销售量Y及各地区适合使用该化妆品的人数 和人均收入 ,得到数据如表3.2所示。假设误差服从正态分布 ,试建立 与 ,之间的线性回归方程并研究相应的统计推断问题。地区销售(箱)人口(千人)人均收入(元)11622742450212018032543223375380241312052838567862347616926537827819830088192330245
21、0911619521371055532560112524304020122323724427131442362660141031572088152123702605解解 设 与 ,的观测值之间满足关系 ,其中()相互独立,均服从正态分布 。利用SAS系统中的proc reg过程可得如下分析结果:(1)方差分析表例3.1例3.1我们可根据SAS运算结果得到下表:方差来源 自由度平方和(SS)均方(MS)F值P值回归(R)253844.7164326922.358225679.4660.0001误差(E)1256.883574.74030总和(T)1453901.60000例3.1由上表我们可以得
22、到 的估计值检验假设:的统计量 的 检验的 值为 (在SAS系统中,若检验 值小于或等于0.0001,则均输出为0.0001)。这表明 与 和 的线性回归关系是高度显著的。例3.1参数估计的有关结果参数参数估计标准差t值p值3.4526132.430650491.4200.18090.4960050.0060544481.9240.00010.0091990.000968119.5020.0001例3.1由此结果可知,和 均显著地不为零,即人口数()和人均收入()均对销售量()的影响是高度显著的。若取 ,由于 ,可以求出 和 的置信度为95的置信区间为别为 例3.1可以看到,化妆品销售量与适合
23、于使用该化妆品的人数及人均收入之间有显著的线性关系,且 和 均是很重要的自变量,并且回归方程为例3.1可以利用此回归方程进行进一步的预报,如:该公司预测适合购买此化妆品的人口数为220千人,人均收入为2500元的某城市对该化妆品的销量,即给定 这时预测销量为例3.1拟合值与残差在PROC REG过程中,我们按要求输出了 的拟合值 、残差 及标准化残差 ,可以用于下面残差分析的应用。残差分析n为何我们要进行残差分析?n在拟合一个回归模型之前,我们并不能肯定这个模型适用于所给数据。比如:回归函数的线性假设、误差的正态性和同方差性假设等,有可能不适合所给的数据。因此,我们要在将模型运用于实际之前考察
24、模型对数据的适用性。在这一方面,残差分析非常重要。残差分析n为何残差分析可以考察模型的合理性?n据定义,残差 如果模型正确,可将 近似看做第i次的测量误差。而真正的测量误差 是未知的,在回归分析中,我们通常假设 是独立同正态分布的随机变量,均值为零,常值方差为 。如果拟合的回归模型适合于所给的数据,那么残差基本上应该可以反映未知误差的特性。残差分析n利用残差分析,我们可以知道些什么?n1)回归函数的线性假设的可行性;2)误差项 的等方差假设的合理性;3)误差项独立性假设的合理性;4)误差项正态分布假定的可行性;5)观测值中是否有异常值存在;6)是否在收集数据或模型拟合中遗漏了某些重要的自变量。
25、误差项的正态性检验n通过对残差的正态性作检验,可以了解对误差 的正态性假设的合理性。1)残差正态性的频率检验;2)QQ图检验。残差正态性的频率检验n基本思想:将残差落在某范围的频率与正态分布在该范围的频率(或称为理论频率)相比较,通过二者之间的偏差的大小评估残差的正态性。n在回归模型(3.2)中,若假定 ,则残差正态性的频率检验n如果模型正确,则据模型(3.5)可知均方残差 是 的无偏估计。因为当 较大的时候,可近似认为是取自标准正态分布总体的样本。残差正态性的频率检验n我们知道服从 分布的随机变量取值在 内的概率约为 ,在 内的概率约为0.87,在 内的概率约为0.95等等。因此理论上,点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第03章 回归分析 03 回归 分析
限制150内