多元线性回归分析ppt课件.ppt
《多元线性回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《多元线性回归分析ppt课件.ppt(68页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十五章第十五章 多元线性回归分析多元线性回归分析(Multiple Linear Regression) 讲述内容讲述内容第一节第一节 多元线性回归多元线性回归第二节第二节 自变量选择方法自变量选择方法第三节第三节 多元线性回归的应用多元线性回归的应用 及其注意事项及其注意事项 人的人的体重体重与与身高、胸围身高、胸围血压值血压值与与年龄、性别、劳动强度、饮年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史食习惯、吸烟状况、家族史糖尿病人的糖尿病人的血糖血糖与与胰岛素、糖化血红胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,射频治疗仪定向
2、治疗脑肿瘤过程中,脑皮质的脑皮质的毁损半径毁损半径与辐射的与辐射的温度温度、与照、与照射的射的时间时间目的目的:作出以多个自变量估计应变量的多:作出以多个自变量估计应变量的多元线性回归方程。元线性回归方程。资料资料:应变量为定量指标:应变量为定量指标, ,一定是随机的;一定是随机的;自变量全部或大部分为定量指标,可以是自变量全部或大部分为定量指标,可以是随机变动的随机变动的, ,也可以是人为选定的也可以是人为选定的, ,若有少若有少量定性或等级指标需作转换。量定性或等级指标需作转换。用途用途:解释和预报。更精确:解释和预报。更精确第一节第一节 多元线性回归多元线性回归 变量:变量:应变量应变量
3、 1 个,自变量个,自变量m 个,共个,共 m+1 个。个。 样本含量:样本含量:n 数据格式见表数据格式见表15-1 回归模型一般形式:回归模型一般形式:eXXXYmm22110一、多元线性回归模型一、多元线性回归模型表表15-1 多元回归分析数据格式多元回归分析数据格式 条件条件(1)Y与mXXX,21之间具有线性关系。 (2)各例观测值), 2 , 1(niYi相互独立。 (3)残差 e 服从均数为 0、 方差为2的正态分布, 它等价于对任意一组自变量mXXX,21值,应变量 Y 具有相同方差,并且服从正态分布。 两自变量与应变量的散点图一般步骤一般步骤mmXbXbXbbY22110建立
4、回归方程建立回归方程(2)检验并评价回归方程检验并评价回归方程及各自变量的作用大小及各自变量的作用大小 二、多元线性回归方程的建立 例例15-1 27名糖尿病人的血清总胆固名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表蛋白、空腹血糖的测量值列于表15-2中,中,试建立血糖与其它几项指标关系的多元试建立血糖与其它几项指标关系的多元线性回归方程。线性回归方程。表15-2 27名糖尿病人的血糖及有关变量的测量结果 用用 最小二乘法最小二乘法y 2201122()()kkQYYYbb Xb Xb X11 11221121 1222
5、221 122kkYkkYkkkkkkYl bl bl bll bl bl bll bl bl bl01122()kkbYb Xb Xb X求偏导数(一阶)()() , , j=1,2,k()(), 1,2,ijijiijjijjjYjjjXXlXXXXX XinXYlXXYYX Yjkn原 理最小二乘法统计软件包统计软件包最小最小43216382027060351501424094335X.X.X.X.Y三、假设检验及其评价 012:0mH , 1:jH各 (j=1,2, ,m)不全为 0, 0.05 1. 方差分析法方差分析法:残回总SSSSSS残回残回(MSMSmnSSmSSF) 1/(
6、一)对回归方程) 1(mn ,mFF方差分析法可将回归方程中所方差分析法可将回归方程中所有自变量有自变量X1,X2,Xm,作为一个作为一个整体来检验他们与应变量整体来检验他们与应变量Y之之间是否具有线性关系,并对回间是否具有线性关系,并对回归方程的预测或解释能力做出归方程的预测或解释能力做出综合评价。综合评价。变异来源 自由度 SS MS F P 总变异 n-1 SS总 回 归 m SS回 SS回 /m MS回/MS残 残 差 n-m-1 SS残 SS残 /(n-m-1) 表15-4 例15-1的方差分析表 表15-3 多元线性回归方差分析表(0.05)(0.05)SPSS软件输出结果软件输出
7、结果 Model Sum of Squaresdf Mean SquareFSig.Regression ResidualTotal133.7107 88.8412 222.5519 4222633.42774.0382 8.28 0.000102 R,说明自变量mXXX,21能够解释Y变化的百分比,其值愈接近于 1,说明模型对数据的拟合程度愈好。本例 6008. 05519.2227107.1332R 表明血糖含量变异的 60%可由总胆固醇、 甘油三脂、胰岛素和糖化血红蛋白的变化来解释。 21SSSSRSSSS回残总总2. 决定系数决定系数R 2:3.复相关系数复相关系数 可用来度量应变量
8、与多个自变量间的线性相与多个自变量间的线性相关程度,亦即观察值 与估计值 之间的相关程度。Y YY 计算公式:2RR,本例7751060080.R 若m=1自变量,则有| r |R , r 为简单相关系数。 (二)对各自变量的假设检验与评价 指明方程中的每一个自变量对Y的影响含义 回归方程中某一自变量jX的偏回归平方和表示模型中含有其它 m-1 个自变量的条件下该自变量对 Y的回归贡献, 相当于从回归方程中剔除jX后所引起的回归平方和的减少量, 或在 m-1个自变量的基础上新增加jX引起的回归平方和的增加量。 1. 偏回归平方和 在其它自变量存在于回归方在其它自变量存在于回归方程中的程中的下,
9、考察某一自下,考察某一自变量变量Xj对应变量对应变量Y的回归效的回归效应应 )(jXSS回表示偏回归平方和,其值愈大说明相应的自变量愈重要。 ()/1/(1)jjSSXFSSnm回残一般情况下,m-1 个自变量对 Y 的回归平方和由重新建立的新方程得到,而不是简单地把jjXb从有 m 个自变量的方程中剔出后算得。 12 1, 1nm平方和(变异) 回归方程中 包含的自变量 SS回 SS残 4321X,X,X,X 133.7107 88.8412 432X,X,X 133.0978 89.4540 431XX,X 121.7480 100.8038 421XX,X 113.6472 108.90
10、47 321XX,X 105.9168 116.6351 表表15-5 对例对例15-1数据作回归分析的部分中间结果数据作回归分析的部分中间结果 各自变量的偏回归平方和可以通过拟合包含不同各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表自变量的回归方程计算得到,表15-515-5给出了例给出了例15-115-1数数据分析的部分中间结果。据分析的部分中间结果。 11234234()(,)(,) 133.7107-133.0978=0.6129SSXSSXXXXSSX XX回回回 21234134()(,)(,) 133.7107-121.748011.9627SSXSSXX
11、XXSSX XX回回回 31234124()(,)(,) 133.7107-113.647220.0635SSXSSXXXXSSX XX回回回 41234123()(,)(,) 133.7107-105.916827.7939SSXSSXXXXSSX XX回回回 152. 0) 1427( /8412.881 /6129. 01F, 962. 2) 1427/(8412.881 /9627.112F 968. 4) 1427/(8412.881 /0635.203F , 883. 6) 1427/(8412.881 /7939.274F 结结果果2. t 检验法 是一种与偏回归平方和检验完全等
12、价的一种方法。计算公式为jbjjSbt检验假设: H0:0j,jt服从自由度为1mn的 t 分布。如果12mn ,/jt|t |,则在(0.05)水平上拒绝 H0,接受 H1,说明jX与Y有线性回归关系。 jb为偏回归系数的估计值,jbS是jb的标准误。 390036560142401.t 721120420351502.t 229212140270603.t 623224330638204.t 结结 果果结结 论论0742222050.t,/.,074.2|34 tt, P值 均 小 于0.05, 说 明3b和4b有 统 计 学 意义 , 而1b和2b则 没 有 统 计 学 意 义 。 对于
13、同一资料,不同自变量的对于同一资料,不同自变量的t值间可值间可以相互比较,以相互比较,t的绝对值越大,说明该的绝对值越大,说明该自变量对自变量对Y的回归所起的作用越大。的回归所起的作用越大。3标准化回归系数标准化回归系数 自变量取值的单位及其离散程度是不同的,因自变量取值的单位及其离散程度是不同的,因此量纲不同的各回归系数之间不能直接比较大小,此量纲不同的各回归系数之间不能直接比较大小,可对变量进行标准化变换,然后拟合回归方程,这可对变量进行标准化变换,然后拟合回归方程,这样获得的回归系数称为标准化回归系数样获得的回归系数称为标准化回归系数。 变量标准化是变量标准化是将原始数据减去相应变量的均
14、数,将原始数据减去相应变量的均数,然后再除以该变量的标准差。然后再除以该变量的标准差。()jjjjXXXS 计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。 YjjYYjjjjSSbllbb注意:注意: 一般回归系数一般回归系数有单位,用来解释各自有单位,用来解释各自变量对应变量的影响,表示在其它自变量保变量对应变量的影响,表示在其它自变量保持不变时,持不变时, 增加或减少一个单位时增加或减少一个单位时Y Y的平的平均变化量均变化量 。不能用各。不能用各 来比较各来比较各 对对 的影响大小。的影响大小。 标准化回归系数标准化回归系数无单位,用来比较各无单位,用来比较各自
15、变量对应变量的影响大小,自变量对应变量的影响大小, 越大,越大, 对对 的的 影响越大。影响越大。jXjbjXYjb jXY11.5934S ,22.5748S ,33.6706S ,41.8234S ,2.9257YS 0776. 09257. 25934. 11424. 01b 309309257257482351502.b 339509257267063270603.b 397709257282341638204.b 结结论论结果显示, 对血糖影响大小的顺序依次为糖化血红蛋白)(4X、 胰岛素)(3X、 甘油三脂)(2X和总胆固醇)(1X。 第四节 自变量筛选目的目的:使得预报和(或)解
16、释效果好 多元线性回归方程中所包含的自变量是根据专多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。意义的自变量是回归分析的第一步。 选择自变量的基本思路是:尽可能将回归效果选择自变量的基本思路是:尽可能将回归效果显著的自
17、变量选入回归方程中,将作用不显著的特显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。别是与自变量有密切线性关系的自变量排除在外。一、全局择优法目的:根据一些准则建立根据一些准则建立 “最优最优”回归模型回归模型意义:对自变量各种不同的组合所建立 的回归方程进行比较 , 择优选择方法:决定系数决定系数R2的缺点:的缺点: 当回归方程中包含有很多自变量,即当回归方程中包含有很多自变量,即使其中有一些自变量对解释应变量变使其中有一些自变量对解释应变量变异的贡献极小,随着回归方程的自变异的贡献极小,随着回归方程的自变量的增加,量的增加,R2 值表现为只增不减。值
18、表现为只增不减。1校正决定系数2cR选择法,其计算公式为 总残MSMSpnnRRc111)1 (122 n 为样本含量,2R为包含)(mpp个自变量的回归方程的决定系数。2cR的变化规律是:当2R相同时,自变量个数越多2cR越小。所谓“最优”回归方程是指2cR最大者。 2. pC选择法 )1(2)()(pnMSSSCmpp残残 pSS)(残是由)(mpp个自变量作回归 的误差平方和,mMS)(残是从全部 m 个自 变量的回归模型中得到的残差均方。 例15-2 用全局择优法对例15-1数据的自变量进行选择。 方 程 中 的 自 变 量 2cR pC 方 程 中 的 自 变 量 2cR pC X2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 分析 ppt 课件
限制150内