《第九章 多元回归分析.ppt》由会员分享,可在线阅读,更多相关《第九章 多元回归分析.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章 多元线性回归分析在实际生活中,人们经常要了解、掌握事物之间的相互关系,例如:居民消费水平与年收入之间的关系、消费者对某种商品的需求量与收入水平和商品价格之间的关系等。变量之间的关系分为函数关系和相关关系回归分析就是研究、处理变量之间相关关系的一种数学方法。这种方法将大量观测数据反映的变量与变量之间的相互关系给予定量描述,从而抽象出事物内部本质性、规律性的东西。回归分析有以下几个方面的作用:1、可以确定出几个特定变量之间是否存在相关关系。如存在可以找出它们之间合适的数学表达式。2、可以根据一个或几个变量的值,预测或控制另一个变量的取值,使人们遵循规律,调整事物的发展计划。3、能够进行因素
2、分析,在对于共同影响一个变量的许多因素中,找出哪些是主要因素,哪些是次要因素。第一节 多元线性回归数理统计中讨论了两个变量之间的回归问题,解释变量只与一个可控变量有关,然而在许多实际问题中,影响解释变量的因素往往不是一个,我们称这类回归问题为多元回归分析。一、回归方程的建立一、回归方程的建立设通过调查取得设通过调查取得n组观察值组观察值这些观察值可以表示为一个p元线性函数i=1,2,n为y对 的p元线性回归方程。用用矩阵形式来描述回归问题。n组数据的多元回归模型可表示为:采用最小平方法构造函数所以:整理得:用矩阵表示为:于是上式的矩阵形式就化为:例题:某地区乡镇企业总产出,从业劳动者人数和固定
3、资产原值的资料如下:配合回归直线方程。年份总产出(亿元)Y从业劳动者人数x1固定资产原值(亿元)x21997199819992000200120022003490.6543.4649.9722.3840.4999.01433.02826.52909.32999.72969.63112.93234.73848.1229.6280.2326.3375.5429.3475.7575.0回归方程为 回归方程为:例2:卫生陶瓷产量与城镇住宅建筑面积、医疗卫生机构建筑面积、办公室建筑面积有关,要求根据下列资料建立回归方程。序号卫生陶瓷产量城镇住宅建筑面积医疗卫生机构建筑面积办公建筑面积1234567891
4、011121314151617181920464357104571189101418202422269910171618109910121419212022212833501.41.11.11.01.11.40.80.40.50.91.12.22.22.42.22.32.12.32.42.62.92.83.14.15.04.51.80.60.82.12.14.04.03.64.24.64.04.34.76.0二、回归方程效果的检验二、回归方程效果的检验在对一个具体问题配合出回归方程以后,需要考虑这个方程能否在一定程度上揭示诸多变量之间的内在规律,也就是要对回归方程的效果进行检验。总离差平方和可
5、分解成两部分:即自由度为p的回归平方和 反映了可控变量 重要程度;自由度为n-p-1的剩余平方和 的变动对y的波动,其数值大小反映了可控变量的它反映了调查或实验误差以及其它未控制的因素对调查或实验结果的影响。如果总离差平方和中,回归平方和所占的比重大,线性回归效果就越显著,若剩余平方和等于0,则回归平面就通过了所有的观察点;如果剩余平方和所占比重大,线性回归效果越不好。因变量y与可控变量 的线性关系如何,主要由系数 表现出来,若y与所有可控变量均无关,则必然有 所以,要检验y与 之间是否存在线性关系,只要检验 是否成立即可 若在H0成立的条件下,数理统计已经证明:并且,回归平方和与剩余平方和互
6、相独立,因而检验回归方程的统计量F为:因此,在给定置信度为1-a的前提下,在F分布表中可以查找出 将F值与临界值比较,若 则拒绝H0,说明回归方程显著.三、回归参数的显著性检验在回归方程的显著性检验中,只要有一个可控变量与y之间有线性关系,H0便不能成立,这显然不能把每个自变量 对变量y影响的大小分辨出来。不便于我们y进行预报和控制,这就需要对每个回归系数进行假设检验,很明显,如果某个可控变量xi对y作用不显著,在回归模型中,它前面的系数bi就可以取0,因此,检验自变量xi是否显著,就相当于检验假设H0:i=1,2,3,p由于回归系数biN为 中主对角线中第i+1个元素。所以:在假设H0成立的
7、前提下,就拒绝H0,说明自变量xi对y的影响是显著的。若ti未达到显著标准,可把xi从回归方程中剔除。注意,每次只能剔除一个不显著的次要变量。注意,每次只能剔除一个不显著的次要变量。例例3:检验例:检验例1回归方程和回归系数的显著性。回归方程和回归系数的显著性。方差分析表平方和自由度回归628548.0122S回/2=314274.006 剩余2630.8024S剩/4=657.701总计631178.86取a=0.05 说明回归方程显著,认为乡镇企业总产出与从业人数和固定资产原值有明显的线性关系。自变量X1X2 7.232 5.555由于 所以,应拒绝F0,认为x1,x2都是回归方程的重要变
8、量。四、相关系数与复相关系数四、相关系数与复相关系数于是,可定义多元回归分析中的复相关系数:叫相关指数或者叫可决系数。复相关系数是用来说明y与 之间相关关系密切程度的指标。例例5:计算例:计算例1中的复相关系数中的复相关系数当然,我们也可对相关系数进行检验。相关系数的显著性检验和回归方程的显著性检验是一致的。建立的F统计量:在多变量的情况下,变量之间的相关关系是很复杂的,因为,任意两变量之间都可能存在相关关系。简单相关系数往往不能正确的说明变量之间的真正关系。因为,此时所有的变量都在变化。如果需要真正表明这两个变量之间的相关关系,就必须在除去其它变量影响的情况下,计算他们的相关系数,这就是偏相
9、关系数。偏相关系数就是在多元回归分析中,其它变量被固定后的任意两个变量之间的相关关系。偏相关系数可以根据简单相关系数计算出来。如:在除去 的影响后它们之间的相关系数为 称为 对 的偏相关系数.类似的 只有偏相关系数才能反映出两个变量的本质联系。而简单相关系数可能由于其他因素的影响而反映的是非本质的联系,甚至可能是假象。例例7:计算例:计算例1中除去固定资产后总产出与劳动者人数的偏中除去固定资产后总产出与劳动者人数的偏相关系数相关系数为了给出偏相关系数的表达式,简单相关系数构成的行列式为:则偏相关系数为:为上式的代数余子式。第二节:可化为多元线性回归问题第二节:可化为多元线性回归问题变量之间的内
10、在联系并非总是线性的,有时需要选择适当的非线性函数。函数的选择,没有标准方法,需要根据专业知识、实际经验以及数据特点作具体分析,以确定回归函数的类型,然而有些函数,经过适当的变换,可转化为多元线性回归问题。用多元线性回归的方法求出参数,然后再进行还原即可。(一)多项式函数(二)多元幂函数两边取对数后令:(三)指数函数两边取对数后,令(四)多元对数函数例题;例题;某企业在15年中每年的年产量y和总成本x资料如下:根据资料建立y对x,x2,x3的多项式回归方程。序号总成本(元)产量(件)x x2 x31234567891011121314151000028600195003290052400424
11、00629008630074100100000133900115700154800178720203100100300200400600500700900800100012001100130014001500100009000040000160000360000250000490000810000640000100000014400001210000169000019600002250000100000027000000800000064000000216000000125000000343000000729000000512000000100000000017280000001331000000219700000027440000003375000000由 并且求出16442.5=FF0.05=3.59,说明多项式回归效果显著 li某地2001年到2010年农产品收购额资料如表,配合回归方程 年份序号收购额118722043229426153026349740484689540
限制150内