数据分析教程线性回归分析.pptx
《数据分析教程线性回归分析.pptx》由会员分享,可在线阅读,更多相关《数据分析教程线性回归分析.pptx(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容 线性回归分析的基本概念线性回归的前提条件并能进行验证线性回归分析结果的解释多重共线性的判别和处理用线性回归模型进行预测第1页/共41页回归分析的基本概念第2页/共41页什么是回归分析回归分析是研究变量之间相关关系的一种统计方法 如果两个变量之间的Pearson相关系数绝对值较大,从散点图看出变量间线性关系显著,那么下一步就是应用回归分析的方法来找出变量之间的线性关系。例如,房屋的价格和房屋的面积,地理位置,房龄和房间的个数都有关系。又比如,香烟的销量和许多地理和社会经济因素有关,像消费者的年龄,教育,收入,香烟的价格等。第3页/共41页回归方程回归关系一般用下列方程表示Y=f(X1,
2、X2,Xp)+()Y被称作因变量,或者响应变量;而X1,X2,Xp称作自变量、控制变量、解释变量或者预测变量;而f(.)则称为回归函数,为随机误差或随机干扰,它是一个分布与自变量无关的随机变量,我们常假定它是均值为0的正态变量。第4页/共41页回归分析的分类根据回归函数的形式,回归分析可以分为线性回归和非线性回归:线性回归:Y=0+1 X1+2 X2+p Xp+(y)非线性回归 如果预测变量和响应变量之间有上页()所示的关系,但是不能表示为(y)所示的线性方程的形式,我们称该回归关系为非线性回归。第5页/共41页回归术语对于有一个响应变量的线性回归,当p=1时,我们称为简单线性回归(Simpl
3、e Linear Regression,或称为一元线性回归),当 p2 时我们称为多元线性回归(Multiple Linear Regression)。第6页/共41页回归和相关分析回归分析是在相关分析的基础上,确定了变量之间的相互影响关系之后,准确的超出这种关系的数量方法。因此,一般情况下,相关分析要先于回归分析进行,确定出变量间的关系是线性还是非线性,然后应用相关的回归分析方法。在应用回归分析之前,散点图分析是常用的探索变量之间相关性的方法。第7页/共41页应用回归分析的步骤步骤1:写出研究的问题和分析目标步骤2:选择潜在相关的变量步骤3:收集数据步骤4:选择合适的拟合模型步骤5:模型求解
4、步骤6:模型验证和评价步骤7:应用模型解决研究问题第8页/共41页简单线性回归 简单线性回归的形式为:Y=0+1 X+其中变量X为预测变量,它是可以观测和控制的;Y为因变量或响应变量,它为随机变量;为随机误差。通常假设 N(0,2),且假设与X无关。第9页/共41页回归模型的主要问题进行一元线性回归主要讨论如下问题:(1)利用样本数据对参数0,1和2,和进行点估计,得到经验回归方程(2)检验模型的拟合程度,验证Y与X之间的线性相关的确存在,而不是由于抽样的随机性导致的。(3)利用求得的经验回归方程,通过X对Y进行预测或控制。第10页/共41页简单回归方程的求解 我们希望根据观测值估计出简单回归
5、方程中的待定系数0和1,它们使得回归方程对应的响应变量的误差达到最小,该方法即为最小二乘法。也就是求解0和1,使得 达到最小。把得到的解记为 ,则回归方程为第11页/共41页或者预测误差为SPSS在输出回归系数的估计值的同时还会给出回归系数估计值的标准误差值;SPSS 还可以给出预测值和各种预测误差第12页/共41页 回归方程拟合程度检验回归方程的检验也就是验证两个变量之间的线性关系的确在统计上显著。一般进行如下的假设检验,它包括 1)常数项的t检验 H0:0=0 常数项的估计值的标准误差为 。检验统计量为:第13页/共41页回归系数显著性检验2)回归系数的显著性检验 H0:1=0检验统计量为
6、:第14页/共41页回归的三个平方和我们把拟合值和真实值的差值的平方和称为残差平方和,记为SSE;把由于采用拟合回归直线后预测值较采用响应变量均值提高的部分的平方和称为回归平方和,记为SSR;真实值和响应变量均值的平方和称为总平方和,记为SST。第15页/共41页决定系数R2平方和定义三者之间的关系为:SST=SSR+SSE R2=SSR/SST第16页/共41页R2的解释决定系数R2的大小反映了回归方程能够解释的响应变量总的变差的比例,其值越大,回归方程的拟合程度越高。一般情况下,随着预测变量个数的增大,决定系数的值也变大,因此在多重回归分析中,需要反映回归方程中预测变量的个数,即引入了调整
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 教程 线性 回归
限制150内