传播方法论调查方法3:多元线性回归分析.ppt
多元线性回归(multiple linear regression)参见郭志刚主编,社会统计分析方法SPSS软件应用第二章,中国人民大学出版社19992023/2/2611(多)个(多)个定距(类)变量定距(类)变量线性关联线性关联1个个定距变量定距变量变量关系变量关系函数关系函数关系统计相关统计相关回归的任务(确定关系)2023/2/262n回归是相关分析的深入n回归分析的结果是建立一个数学模型以表达变量之间的关系在分析观测数据的基础上,确定一个能反映变量之间关系的近似函数表达式2023/2/263注意n回归模型只是整个研究方案中的一环,它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开2023/2/264研究变量间的因果关系研究变量间的因果关系预测预测是否吻合预先构想是否吻合预先构想评价模型拟合度评价模型拟合度求解模型参数求解模型参数2023/2/2652023/2/266(一)回归方程与线性回归方程n两变量x与yn对于确定的xi,yi是随机变量,可计算其均值回归方程是研究自变量不同取值时,y的均值的变化n当因变量y的均值与自变量x呈线性规律时,称线性回归方程n根据x个数不同,分为一元线性回归、多元线性回归2023/2/267关于模型n现实数据=模型+误差n没有误差的不是模型,是复制n设置模型一般而言是希望用简洁的方式表述复杂信息,达到较好的精确度2023/2/268(二)回归方程的建立与最小二乘法n回归分析的目的:找出错误最小的方法来预测因变量的数值n拟合思路:各点到待估直线铅直距离之和为最小最小二乘法 2023/2/269n线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或估计样本以外之个案的数值2023/2/2610n回归系数的意义:nb值的大小表示每增加一个单位的x值,y值的变化有多大2023/2/2611(三)回归方程的检验nF检验2023/2/2612三 多元线性回归模型2023/2/2613(一)回归方程的建立2023/2/2614x及未包括进方程中的其他与x有关的一切因素对y的总影响一元回归系数一元回归系数偏回归系数:除去方程中其他因素对y的共同影响后,某自变量对y的边际影响(二)回归系数的意义(二)回归系数的意义多元回归系数多元回归系数2023/2/2615问题问题需要判别所考察的因素的需要判别所考察的因素的重要程度重要程度解决解决将回归系数标准化将回归系数标准化做法做法1、先将变量标准化,再、先将变量标准化,再 计算计算2、利用回归系数计算、利用回归系数计算2023/2/2616n标准化回归系数的意义可以比较几个自变量对因变量影响程度的大小2023/2/26172023/2/2618(一)确定系数(01)回归方程解释的差异与用y均值解释的差异之比模型中所有变量解释y的变化占总变化的比例2023/2/2619n 是衡量 Y的所有变异中由所有自变量的差异共同解释的比例 n 越高,模型拟合数据的程度就越好。n 当加入新的变量时,只升不降。n 由于常常是随着自变量数目的增加而增加,所以直接比较 没有太大的意义。2023/2/2620(二)调整的确定系数(1:10)(1:5)偏高2023/2/2621(三)方差分析y的总变差平方和回归平方和余差平方和2023/2/2622(一)回归方程的显著性检验(一)回归方程的显著性检验(二)回归系数的显著性检验(二)回归系数的显著性检验(三)回归系数不显著的原因(三)回归系数不显著的原因2023/2/2623实质实质假设假设计算计算H0:B1B2Bk0 (BSS/k)/ESS/(n-k-1)在总体中,X1,Xk的变化都不引起Y的线性变化P与a比较,决定是否拒绝H0检验在a水平统计性显著,并拒绝H0、接受H1我们有相当大的把握断定,统计量 b1,bk不等于0不是由于抽样误差造成的。表述表述检验样本y与x1,xk的线性关系是否显著判断能否肯定总体回归系数中至少有一个不等于0(一)回归方程的显著性检验(一)回归方程的显著性检验2023/2/2624当回归方程检验显著时,可以认为回归方程中至少有一个回归系数是显著的。但并不一定所有回归系数都显著。回归模型希望:保留最重要的变量,删除不显著的变量对每个变量的回归系数进行检验对每个变量的回归系数进行检验(二)回归系数的显著性检验(二)回归系数的显著性检验2023/2/2625(三)回归系数不显著的原因(三)回归系数不显著的原因2023/2/26262023/2/2627虚拟变量n一个变量只有两个可能值1 or 0.对于一个两分的变量:ngender:1.male n 2.female n我们可以重新编码 1=male and 0=female.由此,gender 就变成了一个虚拟变量,表示被访者是否男性.2023/2/2628二分变量(是、否)把二分状态把二分状态看作连续变看作连续变化的过程化的过程将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变以没有进入变量表达的那个类别为参照量表达的那个类别为参照进行解释,说明不同类别间y取值的变化均值的意义均值的意义是编码为是编码为1 1的案例占样的案例占样本的比例本的比例2023/2/2629为什么要在回归分析中引入虚拟变量?n有时我们社会研究的样本数据中观察的个体可以分成不同的组别。n组与组、或群体与群体间的在自变量和应变量的平均数会有差异n在这种情况下,不控制组别特征的回归模型结果会导致 所估计的偏回归系数偏差。n特别是,系数可能低估或者高估一个自变量对应变量的影响强度。2023/2/26302023/2/26312023/2/2632做饭洗衣BBETAsigBBETAsig城乡分组(乡、城)-3.052-0.0270.0000.1780.0020.832年龄0.2000.0300.0005.2E-020.0110.137性别(女、男)-65.050-0.4960.000-46.641-0.4730.000总共上了几年学-0.820-0.0440.0000.1090.0080.348是否在业(不在业、在业)-2.350-0.0110.187-5.147-0.0310.000工作时间(小时)-4.172-0.2240.000-2.847-0.2030.000路途时间(小时)-3.437-0.0370.000-0.992-0.0140.045个人年收入(千元)-6.1E-02-0.0130.121-2.0E-02-0.0050.529夫妻收入差(千元)-4.1E-02-0.0120.145-2.5E-02-0.0090.274夫妻教育程度差(级)-0.376-0.0160.017-0.213-0.0120.0872023/2/2633Spss输出的原始数据2023/2/26342023/2/2635