第9章回归分析方法.doc
《第9章回归分析方法.doc》由会员分享,可在线阅读,更多相关《第9章回归分析方法.doc(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、, 第九章 回归分析方法 回归分析方法是统计分析的重要组成部分,用回归分析方法来研究建模问题是一种常用的有效方法。什么是回归分析呢?大家知道:数学分析(或高等数学)是研究连续变量之间的关系,泛函分析是研究函数集之间的关系,而回归分析是研究随机变量之间的关系。回归分析方法一般与实际联系比较密切,因为随机变量的取值是随机的,大多数是通过试验得到的,这种模型的准确度(可信度)如何,需通过进一步的统计试验来判断模型中的随机变量(回归变量)的显著性,经过反复地修改模型,直到得到最佳的结果,最后应用于实际中去。 回归分析的主要内容是: (1)从一组数据出发,确定这些变量间的定量关系(回归模型); (2)对
2、模型的可信度进行统计检验; (3)从有关的许多变量中,判断变量的显著性(即哪些是显著的,哪些是不显著的,显著的保留, 不显著的忽略); (4)应用结果是对实际问题做出的判断。回归分析的第一步,是要建立模型,即函数关系,其自变量称为回归变量,因变量称为应变量或响应变量。如果模型中只含有一个回归变量,称为一元回归模型,否则称为多元回归模型(实际中所见的大都是线性回归模型,非线性的一般可以化为线性的来处理,例如:用Taylor展开法作局部线性化),为了大家容易理解,首先讨论一元的情况。9.1 一元线性回归方法 9.1.1 一元线性回归模型 (1)一般形式: 一元回归模型的一般形式记为 并设观测值为,
3、则 (9.1)其中 是未知的待定常数,称为回归系数;是回归变量,可以是随机变量,也可以是一般变量;是随机因素对响应变量所产生的影响-随机误差,也是随机变量。为了便于作估计和假设检验,总是假设,亦即,则随机变量。 (2)对模型的分析假设有一组试验数据,并假设是相互独立的随机变量,则有 其中是相互独立的,且,()。 若用分别表示的估计值,则称为关于的一元线性回归方程。 要研究的问题是: (1)如何根据来求的估计值? (2)如何检验回归方程的可信度呢?要解决的第一个问题,通常采用最小二乘估计,第二个问题采用统计检验的方法。 9.1.2 参数的最小二乘估计 (1)最小二乘法用最小二乘法估计的值,即取的
4、一组估计值使其随机误差的平方和达到最小,即使与的拟合最佳。若记 则 显然,且关于可微,则由多元函数存在极值的必要条件得 , 即 此方程称为正规方程组,求解可以得到:称为的最小二乘估计,其中 , 。 (2)的性质 ; ; . 事实上:,;,。由此可知是的无偏估计。从而可以得到:对固定的有 即是的无偏估计,且有 故,即是的无偏估计。9.1.3 回归方程的显著性检验 前面是根据回归方程求出了估计值,从而有。现在的问题是: 与之间是否确实存在这种关系?即回归方程是否一定有意义?即当变化时,是否为一常数?也就是说是否为0?这就需要对回归方程作显著性检验。 实际上,只要检验是否为真,这就需要建立一个检验的
5、统计量。先考虑总偏差的平方和,即表示之间的差异,将其分解为两个部分: 事实上,由正规方程组知: 即回归平方和为,残差平方和(或剩余平方和)为。 实际上,是由回归变量的变化所引起的误差,它的大小反映了的重要程度,而是由随机误差和其他未加控制的因素所引起的误差。因此,我们现在主要考虑回归平方和在总的平方和中所占的比重,记,称为复相关系数,用的大小来评价模型的有效性。越大,则反映了回归变量与响应变量之间的函数关系越密切,一般01,但要多大才认为函数关系的存在呢?这就需要给出一个临界值,为此引进F统计量。 由于每一个平方和都有一个自由度(free)(即相互独立,且服从的随机变量的个数),用表示。则总偏
6、差平方和的自由度为;回归平方和的自由度为;残差平方和的自由度为,于是的均方为(平方和除以自由度)。 由的性质可以证明:当时, ,即说明当时是误差方差的无偏差估计。在我们的假设下(为独立,同服从标准正态分布),则回归均方与残差均方的比值是F统计量,即在的假设下,给定一个模型的显著水平(一般取0.01或0.05),可通过查表得到F分布的值,记为。如果 则表明是小概率事件,在一次检验中是不会发生的。如果确实算出,则说明的假设不成立,即模型中一次项是必要的,是不可少的。换言之,模型对水平而言是显著的,反之是不显著的。9.1.4 回归方程的拟合检验通过对回归方程的显著性检验,在显著的情况下,即说明对y
7、的影响是主要的,但不能肯定y与的关系一定是线性的,也可能是非线性的,也可能还存在其它的影响因素,为此,就需要在同一个下进行重复试验,检验回归方程的拟合问题。假设对同一个,进行次试验,得到观测数据,即共有组独立观测数据,由此来检验是否为真。为了建立统计量,考虑相应的残差平方和 (利用正规方程组)其中为第组试验数据的平均值。 表示试验中的随机误差平方和,自由度为。表示模型中其它影响因素所产生的误差平方和,称为模型误差平方和(失拟平方和),其自由度为。在回归方程为真的假设下,则有 其中是相互独立的,且()。则即,而与是相互独立的,由-分布的性质可知 因此 可作为检验模型拟合的统计量,即给定一个显著水
8、平,对应地可查表得到F-分布值。如果计算出,则说明模型的拟合是好的,即其它因素所产生的误差不明显,是不显著的。如果计算出,则说明模型的拟合是不好的,即其它因素所产生的误差超过了试验误差,是显著的,需要进一步改进模型。这有两种可能:一种是不是的线性关系;另一种是回归变量的个数不够,需要增加新的变量,究竟属于哪一种需要找出原因加一改进。以上我们讨论了一元线性模型估计和显著性、拟合性的检验方法,对于多元线性模型也是类似的。9.2 多元线性回归方法 9.2.1 多元线性回归模型多元线性回归模型的一般形式为 (9.2)令 (9.3)其中为随机误差,且服从于,均为实际问题的解释变量,是已知函数。假设作了次
9、试验,得到组观测值为 代入(9.3)中可得 其中为第次试验时的随机误差,且相互独立同服从于。该模型关于回归系数是线性的,一般是向量。为了方便,引入矩阵记号: , 其中称为模型设计矩阵,是常数矩阵,与是随机向量,且 (I为阶单位阵)是不可观测的随机误差向量,是回归系数构成的向量,是未知待定的常数向量。下面的问题是如何估计回归系数,检验模型的显著性和拟合程度。9.2.2 回归系数的最小二乘估计选取的一个估计值,记为,使随机误差的平方和达到最小,即 写成分量形式: 则 注意到是非负二次式,是可微的。由多元函数取得极值的必要条件可得,即 整理得 或 称为正规方程组,记称为系数矩阵,称为常数矩阵。如果存
10、在,则称其为相关矩阵。可以证明:对任意给定的,正规方程组总有解,虽然当不满秩时,其解不唯一,但对任意一组解都能使残差平方和最小,即。特别地,当满秩时,即,则正规方程组的解为,即为回归系数的估计值。因为,则也是一个随机向量,且期望为 同理方差为,即是的一个无偏估计。将代入模型中得模型的估计:,它是模型的无偏估计,即,其中。9.2.3 回归模型的显著性检验主要是检验模型是否一定与解释变量有密切的关系,即是否具有(9.2)式的形式。假设不依赖于,即为常数。同一元的情况类似,记实验值的均值为,其总偏差平方和为(之间的差),即 (利用正规方程组)其中为残差平方和,反映的是随机误差和其它未加控制的因素所引
11、起的误差,即是误差向量的估计量的各分量的平方和,且 为回归平方和,是由回归变量的变化引起的误差。 现在主要考虑回归平方和,定义复相关系数为,用R的大小来评价模型的有效性,R越大,则反映了回归变量与响应之间的关系密切,反之亦然。要考查R的大小,需要建立一个F-统计量,首先求出各平方和的自由度,总偏差平方和自由度,回归平方和的自由度为,残差平方和的自由度为。于是相应的均方值为,可以证明:当假设时,由于,则 ,这就说明是的无偏估计,即,且与相互独立,则构造F-统计量: 取一个显著水平(0.01或0.05),可查表得到,计算与比较:当时,认为模型是显著的,则拒绝的成立,即与存在明显的函数关系。当时,认
12、为模型是不显著的,则是成立的,即与不存在明显的函数关系。9.2.4回归模型的拟合性检验在模型的检验显著的情况下,需要进一步地做拟合性检验,目的是检验模型是否一定为(9.2)式所给的形式,即是否还存在其它的影响因素没有考虑到?将回归变量的个观测值按相同(或相近)值分成组,每组的个数记为,显然,相应地也可分为组,即第组的观测值为 。记,则第组的平均值为,根据正规方程组第组的试验随机误差的平方和为 从总的残差平方和中减去,即为模型(9.2)中的其它因素的影响误差,记,亦即 称为模型的误差平方和,其自由度分别为。在模型(9.2)为真的条件下,可以得到 ,且与相互独立,由-分布的性质得,故 即为拟合检验
13、的统计量。 取一个显著水平(0.01或0.05),对应地可查表得到,用数值计算,并与比较:当时,则说明模型的拟合是好的,是不显著的,即模型的省略项造成的误差影响不大。当时,则说明模型的拟合是不好的,是显著的,即模型的省略项造成的误差影响不可忽略,需要增加新的变量。现在的问题是:如何增加新的变量?就是下面的模型选择要解决的问题了。9.3 回归模型的选择方法由上面拟合性检验结果:,当“”成立时拟合性检验是显著的,即未考虑到的因素的影响不可忽略,这就需要引入新的解释变量;当“”成立时拟合性检验是不显著的,即模型中的解释变量已经足够了,但并不是说模型中所有的变量都是必须的,有可能有多余的变量,应该从模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 章回 分析 方法
限制150内