多元线性回归分析42决策模型(共17页).doc
《多元线性回归分析42决策模型(共17页).doc》由会员分享,可在线阅读,更多相关《多元线性回归分析42决策模型(共17页).doc(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上课 题第四章 概率统计模型 4.1多元线性回归分析4.2决策模型教学内容1. 多元线性回归分析2. 随机决策模型的基本原理与解法,及应用举例。教学目标1.掌握多元线性回归分析的基本原理和建模的基本过程。2.能够运用多元回归分析模型解决实际问题并进行模型分析。3.掌握决策模型的计算方法,能够运用决策模型解决实际问题并进行模型分析教学重点1多元线性回归分析的基本原理,基本过程及其计算方法。2.掌握随机决策模型的基本原理和建模的基本过程。3.掌握决策模型的计算方法。4.实际建模训练教学难点1. 多元线性回归分析的基本原理及其数值计算、运用模型解决实际问题2. 随机决策模型的
2、基本原理及其决策准则的确定双语教学内容、安排Linear regression analysis 线性回归分析Multivariate regression analysis 多元回归分析decision analysis 决策分析Decision rule 决策规则Decision tree 决策树教学手段、措施采用多媒体教学的形式。以电子课件为主,粉笔黑板相结合为辅,使学生能够充分利用课堂有效的时间了解尽可能多的相关知识,并结合启发式教学.作业、后记教学过程及教学设计备注 4.1多元线性回归分析一问题提出水泥凝固时放出热量问题:某种水泥在凝固时放出的热是与水泥中下列4种化学成分有关。的成分
3、(%)的成分(%)的成分(%)的成分(%)现记录了13组数据,列在表41中,根据表中的数据,试研究与四种成份的关系。表41编号172666078.52129155274.531156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4在现实生活中,变量与变量之间经常存在一定的关系,一般来说,变量之间的关系可以分为两大类,一类是确定性的关系,这种关系通常用函数来表示。例如,已知圆的
4、半径,那么圆的面积与半径的关系就可用函数关系: 来表示,这时如果取定了的值,的值就会完全确定了。另一类是非确定性关系,例如,人的体重与身高之间的关系就是非确定性关系,一般来说,身高越高,体重越大,但是身高相同的人体重往往是不相同的。再如,钢材的强度与钢材中含某种元素的含量,纤维的拉伸倍数与强度,降雨量、气温、施肥量与农作物的产量等均属于这种关系。变量之间的这种非确定性关系通常称为相关关系。二多元线性回归分析模型为了研究方便,我们考虑一个变量受其他变量影响时,把这变量称为因变量,记为,其他变量称为自变量,记为,这时相关关系可记作 (41)其中为当时,因变量的均值,即称为对的回归函数,为与的偏差,
5、它是随机变量,并假定。回归函数可以是一元函数,也可以是多元函数,即 (42)其中 为元回归函数,统称为多元回归函数。若回归函数中,且是线性函数,则称为是一元线性回归函数;且是多元线性函数,则称其为多元线性回归函数;若回归函数是非线性函数,则称其为非线性回归函数。对非线性回归,经常采用线性化的方法来处理。所以,目前研究最多的是线性回归问题,且假定和均服从正态分布。回归分析的任务就是要求出满足式(42)的回归函数,从而对所研究的相关关系做出所需的预测和控制。多元回归模型的应用是相当广泛的,例如,某种商品的销售量可能受收入水平、风俗习惯、产品质量、价格、宣传广告等多种因素的影响;某种产品的质量可能受
6、生产该产品时的温度、湿度、压力、原材料的质量和有害成分的含量等影响;工人的劳动生产率可能受学历、智力水平、情绪的稳定性和才能等因素的影响;某城市的用水量可能与该城市的人口数及工业总产值有关。诸如此类的关系,可以通过多元回归分析模型进行研究。例如,在水泥凝固时放出热量问题中,可建立线性回归模型 (4-3)其中。而和是未知参数,为了估计这些参数,将表41的值代入模型(43),得线性模型 (4-4)一般地,多元线性回归模型可表示为: (4-5)其中,是自变量,为常数,为回归系数, 皆为未知,统称为回归参数,一旦回归参数确定,则多元线性回归模型就完全确定,一般假定随机误差。为了得到回归参数的估计值,就
7、要对变量进行观测,假设对变量的次独立观测数据为:,则这些观测数据应满足式(45),即有 (4-6)其中,若记,则多元线性回归的数学模型式(46)可以写成矩阵形式 (47)其中。1.参数的最小二乘估计为了获得参的估计,我们采用最小二乘法,即选择,使 (48)达到最小。将对求导数并令其为零,得即。记,则 (49)方程(49)称为正规方程,其中为阶矩阵,一般假定,由线性代数理论可知,为满秩矩阵,它的秩,则正规方程(49)有唯一解,记作 (410)我们来证明(410)式中为参数向量的最小二乘法估计量,现用矩阵形式来叙述其证明步骤。从式(48)知,对任意的则有上述证明过程中应用了如下结果:至此,在时,证
8、明了式(410)中的是的最小二乘法估计量。在实际工作中,常称为经验线性回归方程。2.最小二乘法估计量的性质首先我们在假定的条件下,探讨一下由式(4-10)确定的最小二乘法估计最的性质(1)是的线性无偏估计量。证:由于,每一个都是的线性组合,因而是的线性估计量,此时称是的线性估计量。即,。(2)的协方差矩阵为,即其中证:记,则(3)是的最小方差线性元偏估计,即在所有线性元偏估计类中,有且只有使其方差达到最小。3.多元线性回归方程的显性检验从上面的参数估计过程可以看出,对于一批观察数据 不论它们是否具有线性关系,总可以利用最小二乘法建立起多元线性回归方程但是与是否确实存在相关关系呢?回归方程的效果
9、如何呢?这就要进行“整个回归效果是否显著”的检验。当时,与没有关系,回归模型没有意义,于是我们要检验: 是否成立。若成立,则对没有影响;反之,若不成立,则对有影响,此时与的线性关系显著,也称为整个回归效果显著。但要注意,即使整个回归效果是显著的,也可能只与某几个关系密切(相应的显著不为零),而与另几个关系不密切(相应的为零)。这就是说,多元线性回归除了首先要检验“整个回归是否显著”外,还要逐个检验每一个是否为零,以便分辨出哪些对并无显著影响 ,最后,还要对各个作出区间估计。为了进行检验和区间估计,可以证明以下结论成立:(1),则与独立。记 ,则称为总变差或称为的离差平方和。可进行如下分解:这时
10、 称为残差平方和。称为回归平方和。记,称其为剩余标准差或估计的标准差。由于不变,当然希望越小越好,即越大越好,因此,定义复相关系数。当观察值全都与回归值吻合时, ;当时,在一般情况下,的数值在0和1之间。复相关系数的定义,类似于两个变量时的相关系数的定义,但要注意,复相关系数只取下值。在两个变量时,有正相关与负相关之分,在多个变量时,就没有这一说了,所以复相关系数只取值。(2)在的条件下,且与独立,因此(3) 这里为中第个对角线元素。利用上述几条结论,可进行下列检验、估计和预测。(1) 回归显著性检验(检验)该检验是考察整个回归效果是否显著的。若整个回归效果不显著,即全部回归系数为零。因此,设
11、原假设:。若为真,则而且在不成立时,值有变大的趋势,因此应取右侧否定域,故检验法是当时拒绝原假设,认为回归效果显著;否则认为回归效果不显著。(2) 单个回归系数为零的检验(检验)该检验即某个自变量是否对因变量有显著性影响的检验。在多元回归分析中可能出现与所有自变量的总体是有相关关系的,但与某个特定的则可能无关,即对并不起作用或者已被其他的的作用所代替,为此设个原假设若为真,统计量而当不成立时, 有变大的趋势,因而应取双侧拒绝域,故当时,否定,即认为对是有作用的,若某几个是有作用的,而另几个是不起作用的,则应从回归方程中删除那些不起作用的自变量。单个回归系数是否为零,也可以用检验,即若为真,统计
12、量故当时,拒绝原假设,即认为对的影响是显著的;否则认为对的影响是不显著的。(3) 对的区间估计由于,因而的置信区间为其中(4) 的95%预测区间近似为,其中4.多元线性回归分析模型的推广1) 多项式回归分析模型类似于模型(45),由自变量多项式的随机项组成的回归模型称为多项式回归模型,它的一般形式为:初看模型(413)不是线性回归,因自变量中含有幂函数,但由于未知参数都是线性出现的,因此,令则模型(413)就变成为多元线性归模型:从而多项式回归模型可以用多元线性回归模型的计算公式和检验方法。多项式回归还有许多推广的形式,例如:2) 广义线性回归模型广义线性回归模型 的一般形式为:其中:是一个不
13、含未和参数的一元函数,有反函数:是的不含未知参数的多元函数。广义线性回归模型的回归系数的确定主要是从自变量和回变量以及组观察值出发,用最小二乘法求出的估计,使得达到最小。此时也就是令 则,这样就把广义线性回归模型化为多元线性回归模型。5.MATLAB和Mathematica求解1) MATLAB命令命令格式 b,bint,r,rint,stats=regress(Y,X,alpha),其中输入向量X,Y的排列方式分别为 alpha为显著性水平(缺省时设定为0.05)。输出向量b为回归系数的估计值,即输出向量bint为回归系数估计值的置信区间;输出向量r为残差向量;输出向量rint为残差向量的置
14、信区间;输出向量,它是一个3维向量,用于检验回归模型的统计量,其中第一个分量中的是相关系数,第二个分量是统计量,第三个分量是与统计量对应的概率,当时拒绝原假设,说明回归模型成立。2) Mathematica命令Mathematica中键入命令StatistiLinearre.m,按Shift + Enter键,即可调入线性回归软件包。输入3) 实际问题的求解水泥凝固时放出热量问题在MATLA编辑器中输入以下程序:%水泥放出热量问题ch411% 文件名:ch411.mb,bint,r,rint,stats = regress(y,x,0.05);disp (回归系数估计值)bdisp(回归系数估
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 分析 42 决策 模型 17
限制150内