DMD-6-回归模型.ppt
1,第九章 回归模型 对于一个工商管理人员来说,相当重要的管理决策能力之一是敏锐地洞察商业或生产中数据的发展趋势,并且在已认识的趋势基础上对未来做出正确的预测。而能够做到这一点的强有力的工具之一就是所谓的“回归模型”。,数 据 模 型 决 策,2,9.1 简单线性回归模型及预测 例9.1 广告花费与销售额的预测 某公司销售额数据 yt(第 t 月的销售额)与 广告花费数据 xt (第 t 月的广告花费)如表。,数 据 模 型 决 策,3,9.1 简单线性回归模型及预测 例9.1 广告花费与销售额的预测 由表中数据可以绘制一张散点图!,数 据 模 型 决 策,4,9.1 简单线性回归模型及预测 从散点图中,你有何发现?,数 据 模 型 决 策,yt 与xt 之间似乎存在不太精确的线性函数关系!,那么,我们能不能想象出(或确定出)一条直线来反映这一关系(或规律)呢?,关键的问题是如何才能 “ 最好地 ” 反映这一关系!,5,9.1 简单线性回归模型及预测 简单线性回归模型(一元线性回归模型):,数 据 模 型 决 策,yt = + xt + t t = 1,2,n 1 ,2 , n , iid ,N(0,),称 y = + x 为线性回归函数(或回归直线), , 是两个重要的参数, 为回归系数。,为了使回归直线能 “ 最好 ” 地反映数据对(x1,y1), (x2,y2) , (xn,yn)所描述的 y 与 x 之间的关系,就需要确定 , 的值,所采用的方法“最小二乘”估计法。,6,9.1 简单线性回归模型及预测 最小二乘估计 , :,数 据 模 型 决 策, =,n i=1 (xi x )(yi y ),n i=1 (xi x )2, =,y - x,7,9.1 简单线性回归模型及预测 由上述分析可以计算得到例 9.1中,数 据 模 型 决 策, = 13.88, = - 998,如果模型成立,即可得回归直线: y = - 998 + 13.88 x,8,9.1 简单线性回归模型及预测,数 据 模 型 决 策,9,9.1 简单线性回归模型及预测 在以上的分析中,我们始终有一个前提 “ 如果模型成立 ”。那么模型究竟能否成立呢? 从管理实际角度再对模型加以定性的思考: 广告效应的 “ 滞后 ” 性! 我们采用另一个线性回归模型: yt = 1 + 1xt-1 (t = 1,2,n) 这样,可以得到另一条回归直线: y = 335.9 + 13.9 x,数 据 模 型 决 策,10,9.1 简单线性回归模型及预测 至此,我们得到了两个线性回归模型: 1、 y = - 998 + 13.88 x 2、 y = 335.9 + 13.9 x 这两个线性回归模型都可以对未知的月销售额进行预测。但是,哪一个模型更有效呢? 解决这一问题的方法是对预测的误差进行比较! 即采用均方残差 MSE 进行比较。,数 据 模 型 决 策,MSE =,1 n,n i=1 (yi yi )2,11,9.1 简单线性回归模型及预测 从两个模型的均方残差 MSE 来考虑,我们应该选择 MSE 较小的模型,即选择 x t-1 与 yt 的模型略好些,直观的含义就是广告具有 “ 滞后 ” 效应。 然而,这两个模型的预测误差都是比较大的,其原因可能是我们仅考虑了一个因素对 yt 的影响。而事实上,x t-2,x t-1 ,xt 等等,乃至可能其他以前月份已发生的广告费支出对 yt 都会产生影响。因此,我们的线性回归模型不得不考虑有多个 “自变量” 的情况这就引出了 “多元线性回归模型”。,数 据 模 型 决 策,12,9.2 多元线性回归 多元线性回归模型:,数 据 模 型 决 策,yi = + 1x1i + 2x2i + + kxki + i i , iid ,N(0,) ( t = 1,2,n),例如,假定 y 为当月的销售额,那么 x1 可以是上月的广告费,x2 可以是产品的价格,x3 可以是市场景气指数, 称 y = + 1x1 + 2x2 + + kxk 多元为线性回归函数,13,9.2 多元线性回归 和一元线性回归的分析类似,重要的是确定模型中的参数 , 1 , 2 , k 的估计。采用的方法仍然是使: 残差平方和 SSE 达到极小!,数 据 模 型 决 策,SSE = n i=1 (yi yi )2,= n i=1 (yi 1x1i 2x2i kxki )2,14,9.2 多元线性回归 现在分析例 9.1 ,我们考虑线性回归模型: yt = + 1xt + 2xt-1 + 3xt-2 + t ( t = 3,4, ,15 ),数 据 模 型 决 策,多元线性回归Microsoft Excel,15,9.2 多元线性回归模型分析 1、回归系数,数 据 模 型 决 策, = 522.1306659,1 = 3.681483641,2 = 4.965806176,3 = 5.19950817,于是有回归方程: yt = 522.1 + 3.681 xt + 4.4.966 xt-1 + 5.2 xt-2,16,9.2 多元线性回归模型分析 2、标准误差 S S 是对 t 所服从的 N(0,)中 的估计:即 = S,数 据 模 型 决 策,3、自由度 df = 观察次数(n)- 自变量个数(k)- 1 4、回归系数的置信区间和标准差 5、t Stat 该项的作用是检验每一个 xj 与 y 的线性关系是否显著,如果检验结果认为 xj 与 y 有显著的线性关系,则模型中保留 xj 项是合理的,否则可以将此项从模型中剔除。 保留或剔除 xj 项可以根据 p-Value 值作简单的判断: p-Value 值较大 剔除 xj 项 p-Value 值较小 保留 xj 项,17,9.2 多元线性回归模型分析 在保留或剔除 xj 项时应该注意以下几点: (1)应该首先注意自变量 xj 的线性项是否应含于模型中,只有当此项工作全部完成后,才对 是否为 0 进行检验。 (2)如果发现某 xj 相应的 p-Value 较大,则应将 xj 项从模型中剔除,且应注意,这种剔除工作应逐次进行(即每次只剔除 p-Value 最大的一项)直到模型中不含 p-Value 较大的项。 对前面的回归模型中,我们剔除 xt 项,重新建立回归模型: yt = 1161.6 + 5.873 xt-1 + 7.945 xt-2,数 据 模 型 决 策,18,9.2 多元线性回归模型分析 6、判别系数 R2 (R 也称为相关系数或复相关系数) 判别系数 R2 的作用是判别因变量 y 与自变量 x 之间的线性关系是否合理(即线性相关性的程度), R2 是一个 0 到 1 之间的数,当它越接近于 1 ,则表明线性模型越拟合于数据,即线性回归模型越合理。当它越接近于 0 ,则表明线性回归模型越不合理。 另外,有一点应该注意,建立多元线性回归模型时,总是力求建立具有较少的、合理的、有意义的个数自变量的简单模型。不要单纯地为了追求高的 R2 值而在模型中引入“ 过多 ”的自变量。,数 据 模 型 决 策,19,9.2 多元线性回归模型分析 下图分别是 R2 = 0.995 , R2 = 0.797 时所对应的图形。,数 据 模 型 决 策,20,9.2 多元线性回归模型分析 7、方差分析 方差分析表是用于检验自变量的线性组合是否对于预测因变量有效,即检验模型是否是线性模型。其检验方法称为: F 检验,检验模型为 H0:1 = 2 = = k = 0 ;对 H1:至少有一个 不为 0 方差分析表中的 F 数值越大,我们就越应该拒绝 H0 而接受 H1: 表中 Significance F 数值给出了 F 数值“ 发生 ”的概率。拒绝 H0 的理论就是:小概率事件在一次实验中“几乎”不可能发生的事实。,数 据 模 型 决 策,21,9.2 多元线性回归模型分析 建立线性回归模型的小结: 在建立一个线性回归模型时:R2 ,F- 检验(方差分析),t- 检验(回归分析)三者都极其重要,其分析缺一不可,否则,强行建立的线性回归模型很难用于解释现象或进行预测。 这一点我们必须牢记!,数 据 模 型 决 策,22,9.3 线性回归模型的有效性 上面我们所做回归分析的所有工作都在一系列假设之下进行的,即线性回归模型成立。但是,倘若这些假设不成立,那么回归模型的有效性就成了问题。 前面的分析,我们在 i , iid ,N(0,) 成立的假设下,检验了 y = + 1x1 + 2x2 + + kxk + 成立的合理性。现在我们要回头来检验关于误差 的假设是否成立。,数 据 模 型 决 策,23,9.3 线性回归模型的有效性 1、关于模型的线性假设 线性回归模型首先作了假设: yi = + 1x1i + 2x2i + + kxki (i = 1,2,n ) 当只有一个自变量时,散点图可以帮助我们直观地检验此假设。但如果有多个自变量时,就无法这样做了。虽然每一个自变量与因变量也可有散点图,但将所有自变量综合在一起时,情况就不同了。如前所述,此时 R2 可以起一定的作用,但是 R2 也有其缺陷。 要判断是否线性问题利用残差图。,数 据 模 型 决 策,24,9.3 线性回归模型的有效性 2、误差项的正态性 在线性回归模型中的另一个重要假设是: i : iid ,N(0,) i 本身是无法观察的,但它可以利用残差 ei = yi yi 进行估计。,数 据 模 型 决 策,而残差所提供的信息使我们能对 i 的正态性进行检验。 常用而有力的一个工具是残差图分析,25,9.3 线性回归模型的有效性 残差图 残差图:以残差为纵坐标,以某一个“合适”变量为横坐标的散点图。 “合适”变量通常选回归值(预测值)y 。,数 据 模 型 决 策,下图是一个多元线性回归模型的残差图和残差直方图:,26,9.3 线性回归模型的有效性 3、异方差性 在线性回归模型中,误差项 i 具有相同的方差 也是一个重要的假设。其原因是回归模型分析中所有的假设检验都要依赖这一假设。考察这一假设通常也是利用残差图来进行。如果残差随 x (或 y )的增大而增加或减少,那就可能蕴涵着残差乃至误差项对于不同的观察值具有不同的方差变化,于是模型中的 i 很可能不是相同方差的。解决的方法常常是对 y 变量实施方差稳定变换后再拟合模型。 常用的这类变换有三种以达到稳定方差的作用:,数 据 模 型 决 策,y ,,Log y ,,1 / y,27,9.3 线性回归模型的有效性 4、自相关性 在回归模型中,我们还假设 1 , 2 , , n 是相互独立的随机变量,如果发生自相关性现象就违背了这一假设。 判断是否存在“自相关”现象,仍然可以根据残差图进行大致的判断。如果以时间为横轴得到的残差图表现出某种趋势规律,或至少不像残差 “相互独立” 时那样在零点线上下起伏无规律地波动,则很可能 1 , 2 , , n 不是相互独立的。 另一种方法是采用 Durbin Watson 检验法对残差的 “自相关” 性进行假设检验。,数 据 模 型 决 策,28,9.3 线性回归模型的有效性 5、共线性 回归分析中很容易发生模型中多个自变量高度相关的现象,这有可能引起最小二乘估计的解的不精确,从而使决策者对预测方程的可信性降低。 一旦确定回归方程有共线性现象时,处理的方法可以: a 、搜集更多的数据以提高精度; b 、从模型中剔除一个或几个预测变量,但此时需要小心行事,因为我们不能完全弄清楚到底哪个预测变量应该被剔除。如果剔除错误,将会导致模型的错误,而使模型中的参数估计发生错误。,数 据 模 型 决 策,29,9.3 线性回归模型的有效性 6、异常点问题 回归模型中,某些对既定模型偏差很大的观察数据称为异常点,它的存在使统计决策受到相当大的影响。然而对异常点的判定准则并无统一标准!,数 据 模 型 决 策,30,9.4 包含属性数据的回归分析 属性信息诸如:季节、地理区域、特殊事件等等。他们将对回归模型有何影响,如何将其具体数量化并融入回归模型呢?这类问题在工商管理领域有着重要的实用价值。 将属性信息转换为定量数据的最简单方法之一 示性函数:,数 据 模 型 决 策,x =,1 某件事发生 0 某件事不发生,31,9.4 包含属性数据的回归分析 例 一家出租影像磁盘的商店从 1984.9 起至 1986.1 按月出租磁盘而获利的数据如表。获利随时间在逐月增加,在1985.6 之前,时间与获利之间有着相当好的线性关系。然而,从1985.6 之后,在它附近又新开了一家同样的商店,因此前后两条直线的斜率有可能不同。,数 据 模 型 决 策,32,9.4 包含属性数据的回归分析,数 据 模 型 决 策,33,9.4 包含属性数据的回归分析,数 据 模 型 决 策,34,9.5 回归模型中的变换 在回归模型的有效性检验中,曾为稳定方差而对因变量 y 实施变换。而变换也常常被应用到自变量 x 上。其目的是为了克服回归模型的假设遇到了某种违反情况或 x 与 y 之间并不存在线性形式的情况下而使它们通过变换在形式上具有线性形式。 常用的变换有:“平方根”、“自然对数” 或 “指数” 等变换。,数 据 模 型 决 策,