线性回归方程的残差分析优秀PPT.ppt
《线性回归方程的残差分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《线性回归方程的残差分析优秀PPT.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1-1-1 1第七章 SPSS的相关分析和回来分析1-1-2 2主要内容主要内容相关分析相关分析线性回来分析线性回来分析回来模型的检验回来模型的检验回来模型的适用性回来模型的适用性非线性回来分析非线性回来分析1-1-3 3 概述概述(一一)相关关系相关关系(1)(1)函数关系函数关系:(:(如如:销售额与销售量销售额与销售量;圆面积和圆圆面积和圆半径半径.).)是事物间的一种一一对应的确定性关系是事物间的一种一一对应的确定性关系.即即:当当一个变量一个变量x x取确定值时取确定值时,另一变量另一变量y y可以依确定可以依确定的关系取一个确定的值的关系取一个确定的值 (2)(2)相关关系(统计关
2、系)相关关系(统计关系):(:(如如:收入和消费收入和消费)事物间的关系不是确定性的事物间的关系不是确定性的.即即:当一个变量当一个变量x x取取确定值时确定值时,另一变量另一变量y y的取值可能有几个的取值可能有几个.一个一个变量的值不能由另一个变量唯一确定变量的值不能由另一个变量唯一确定1-1-4 4概述概述相关关系的常见类型:相关关系的常见类型:线性相关:正线性相关、负线性相关线性相关:正线性相关、负线性相关非线性相关非线性相关 相关关系不象函数关系那样干脆相关关系不象函数关系那样干脆,但却普遍存但却普遍存在在,且有强有弱且有强有弱.如何测度如何测度?1-1-5 5概述概述(二二)相关分
3、析和回来分析的任务相关分析和回来分析的任务探讨对象探讨对象:相关关系相关关系相关分析旨在测度变量间线性关系的强弱程相关分析旨在测度变量间线性关系的强弱程度度.回来分析侧重考察变量之间的数量变更规律回来分析侧重考察变量之间的数量变更规律,并通过确定的数学表达式来描述这种关系并通过确定的数学表达式来描述这种关系,进而确定一个或几个变量的变更对另一进而确定一个或几个变量的变更对另一个变量的影响程度个变量的影响程度.1-1-6 6相关分析相关分析(一一)目的目的 通过样本数据通过样本数据,探讨两变量间线性相关程度的强探讨两变量间线性相关程度的强弱弱.(.(例如例如:投资与收入之间的关系、投资与收入之间
4、的关系、GDPGDP与通与通信需求之间的数量关系)信需求之间的数量关系)(二二)基本方法基本方法 绘制散点图、计算相关系数绘制散点图、计算相关系数1-1-7 7 绘制散点图绘制散点图(一一)散点图散点图 将数据以点的形式绘制在直角平面上将数据以点的形式绘制在直角平面上.比较直观比较直观,可以用来发觉变量间的关系和可能的趋势可以用来发觉变量间的关系和可能的趋势.1-1-8 8绘制散点图绘制散点图(二二)基本操作步骤基本操作步骤(1)(1)菜单选项菜单选项:graphs-scattergraphs-scatter(2)(2)选择散点图类型选择散点图类型:(3)(3)选择选择x x轴和轴和y y轴轴
5、的变量的变量(4)(4)选择分组变量选择分组变量(set markers by):set markers by):分别分别以不同颜以不同颜色点的表示色点的表示(5)(5)选择标记变量选择标记变量(label case by):label case by):散点图上可带散点图上可带有标记变量的值有标记变量的值(如如:省份名称省份名称)1-1-9 9计算相关系数计算相关系数(一一)相关系数相关系数(1)1)作用作用:以精确的相关系数以精确的相关系数(r)r)体现两个变量间的线体现两个变量间的线性关系程度性关系程度.r:-1,+1;r=1:r:-1,+1;r=1:完全正相关完全正相关;r=-1:r=
6、-1:完全负相关完全负相关;r=0:r=0:无线性相关无线性相关;|;|r|0.8:r|0.8:强相关强相关;|r|0.3:r|0.3:弱弱相关相关1-1-1010计算相关系数计算相关系数(一一)相关系数相关系数(2)(2)说明说明:相关系数只是较好地度量两变量间的线性相相关系数只是较好地度量两变量间的线性相关程度关程度,不能描述非线性关系不能描述非线性关系.如如:x x和和y y的取值为的取值为:(-1,-1)(-1,1)(1,-1)(1,1):(-1,-1)(-1,1)(1,-1)(1,1)r=0 r=0 但但 xi2+yi2=2xi2+yi2=2数据中存在极端值时不好数据中存在极端值时不
7、好如如:(1,1)(2,2)(3,3),(4,4),(5,5),(6,1):(1,1)(2,2)(3,3),(4,4),(5,5),(6,1)r=0.33 r=0.33 但总体上表现出但总体上表现出:x=y x=y 应应结合散点结合散点图分析图分析1-1-1111计算相关系数计算相关系数(一一)相关系数相关系数(3)(3)种类种类:简洁线性相关系数简洁线性相关系数(Pearson):(Pearson):针对定距数据针对定距数据.1-1-1212计算相关系数计算相关系数(一一)相关系数相关系数SpearmanSpearman相关系数相关系数:用来度量定序或定类变量间的线性相关关用来度量定序或定类
8、变量间的线性相关关系系(如如:不同年龄段与不同收入段不同年龄段与不同收入段,职称和受教化年份职称和受教化年份)利用秩利用秩(数据的排序次序数据的排序次序).).认为认为:假如假如x x与与y y相关相关,则相应的秩则相应的秩UiUi、ViVi也具有同步性也具有同步性.首先得到两变量中各数据的秩首先得到两变量中各数据的秩(Ui(Ui、Vi),Vi),并计算并计算Di2Di2统计量统计量.计算计算SpearmanSpearman秩相关系数秩相关系数若两变量存在强正相关性若两变量存在强正相关性,则则Di2Di2应较小应较小,秩序相关系数较大秩序相关系数较大.若若两变量存在强负相关性两变量存在强负相关
9、性,则则Di2Di2应较大应较大,秩序相关系数为负秩序相关系数为负,确确定值较大定值较大1-1-1313计算相关系数计算相关系数(一一)相关系数相关系数KendallKendall相关系数相关系数:度量定序定类变量间的线性相关关系度量定序定类变量间的线性相关关系首先计算一样对数目首先计算一样对数目(U)(U)和非一样对数目和非一样对数目(V)(V)如如:对对x x和和y y求秩后为求秩后为:x:2 4 3 5 1 x:2 4 3 5 1 y:3 4 1 5 2 y:3 4 1 5 2x x的秩按自然依次排序后的秩按自然依次排序后:x:1 2 3 4 5 x:1 2 3 4 5 y:2 3 1
10、4 5 y:2 3 1 4 5 然后计算然后计算KendallKendall相关系数相关系数.若两变量存在强相关性若两变量存在强相关性,则则V V较小较小,秩序相关系数较大秩序相关系数较大;若两变量存若两变量存在强负相关性在强负相关性,则则V V较大较大,秩序相关系数为负秩序相关系数为负,确定值较大确定值较大1-1-1414计算相关系数计算相关系数(二二)相关系数检验相关系数检验应对两变量来自的总体是否相关进行统计推断应对两变量来自的总体是否相关进行统计推断.缘由缘由:抽样的随机性、样本容量小等抽样的随机性、样本容量小等(1)H0:(1)H0:两总体零相关两总体零相关(2)(2)构造统计量构造
11、统计量简洁相关系数Spearman系数,大样本 下,近似正态分布kendall系数,大样本 下,近似正态分布1-1-1515计算相关系数计算相关系数(二)相关系数检验(3)计算统计量的值,并得到对应的相伴概率p(4)结论:假如pa,不能拒绝H0.1-1-1616计算相关系数计算相关系数(三)基本操作步骤(1)(1)菜单选项菜单选项:analyze-correlate-bivariate.analyze-correlate-bivariate.(2)(2)选择计算相关系数的变量到选择计算相关系数的变量到variablesvariables框框.(3)(3)选择相关系数选择相关系数(correla
12、tion coefficients).correlation coefficients).(4)(4)显著性检验显著性检验(test of significance)test of significance)n ntow-tailed:tow-tailed:输出双尾输出双尾概率概率P P.n none-tailed:one-tailed:输出单尾概率输出单尾概率P P1-1-1717计算相关系数计算相关系数(四)其他选项statistics选项:仅当计算简洁相关系数时,选择输出哪些统计量.means and standard deviations:均值、标准差;cross-product de
13、viations and covariances:分别输出两变量的离差平方和(sum of square 分母)、两变量的差积和(cross-products分子)、协方差(covariance 以上各个数据除以n-1)1-1-1818计算相关系数计算相关系数(五五)应用举例应用举例利用相关系数分析人均利用相关系数分析人均GDPGDP与移动电话普及率之间与移动电话普及率之间的关系的关系*表示表示t t检验值发生的概率小于等于检验值发生的概率小于等于0.05,0.05,即总体无相即总体无相关的可能性小于关的可能性小于0.05;0.05;*表示表示t t检验值发生的概率小于等于检验值发生的概率小于
14、等于0.01,0.01,即总体无即总体无相关的可能性小于相关的可能性小于0.01;0.01;*比比*,拒绝零假设更牢靠,拒绝零假设更牢靠.1-1-1919计算相关系数计算相关系数(五)应用举例分析固定话费的凹凸是否与年龄、生活水平、文化程度相关.利用秩,通过计算spearman和kendall相关系数进行分析1-1-2020偏相关分析偏相关分析(一一)偏相关系数偏相关系数(1)(1)含义:含义:在限制了其他变量的影响下计算两变量的相关系数。在限制了其他变量的影响下计算两变量的相关系数。虚假相关虚假相关.如如:小学小学1616年级全体学生进行速算竞赛(身年级全体学生进行速算竞赛(身高和分数间的相
15、关受年龄的影响)高和分数间的相关受年龄的影响)探讨商品的需求量和价格、消费者收入之间的关系探讨商品的需求量和价格、消费者收入之间的关系.因因为为:需求量和价格之间的相关关系包含了消费者收需求量和价格之间的相关关系包含了消费者收入对商品需求量的影响;收入对价格也产生影响,入对商品需求量的影响;收入对价格也产生影响,并通过价格变动传递到对商品需求量的影响中。并通过价格变动传递到对商品需求量的影响中。1-1-2121偏相关分析偏相关分析(一)偏相关系数(2)计算方法:1-1-2222偏相关分析偏相关分析(二)基本操作步骤(1).菜单选项:analyze-correlate-partial(2).选择
16、将参与计算的变量到variable框.(3).选择限制变量到controlling for 框。(4)option选项:zero-order correlations:输出简洁相关系数矩阵1-1-2323偏相关分析偏相关分析(三三)应用举例应用举例n n分析文化程度对话费与年龄之间的关系的分析文化程度对话费与年龄之间的关系的影响影响1-1-2424回来分析概述回来分析概述(一一)回来分析理解回来分析理解(1)“(1)“回来回来”的含义的含义galtongalton探讨探讨父亲身高和儿子身高的关系时的独特发探讨探讨父亲身高和儿子身高的关系时的独特发觉觉.(2)(2)回来线的获得方式一回来线的获得
17、方式一:局部平均局部平均 回来曲线上的点给出了相应于每一个回来曲线上的点给出了相应于每一个x(x(父亲父亲)值的值的y(y(儿儿子子)平均数的估计平均数的估计 (3)(3)回来线的获得方式二回来线的获得方式二:拟和函数拟和函数使数据拟合于某条曲线使数据拟合于某条曲线;通过若干参数描述该曲线通过若干参数描述该曲线;利用已知数据在确定的统计准则下找出参数的估计值利用已知数据在确定的统计准则下找出参数的估计值(得到回来曲线的近似得到回来曲线的近似););1-1-2525回来分析概述回来分析概述(二二)回来分析的基本步骤回来分析的基本步骤(1)(1)确定自变量和因变量确定自变量和因变量 (2)(2)从
18、样本数据动身确定变量之间的数学关系式从样本数据动身确定变量之间的数学关系式,并对并对回来方程的各个参数进行估计回来方程的各个参数进行估计.(3)(3)对回来方程进行各种统计检验对回来方程进行各种统计检验.(4)(4)利用回来方程进行预料利用回来方程进行预料.1-1-2626线性回来分析概述线性回来分析概述(三)参数估计的准则目标:回来线上的视察值与预料值之间的距离总和达到最小最小二乘法(利用最小二乘法拟和的回来直线与样本数据点在垂直方向上的偏离程度最低)1-1-2727一元线性回来分析一元线性回来分析(一一)一元回来方程一元回来方程:y=0+1x y=0+1x00为常数项;为常数项;11为为y
19、 y对对x x回来系数,即回来系数,即:x:x每变动一每变动一个单位所引起的个单位所引起的y y的平均变动的平均变动(二二)一元回来分析的步骤一元回来分析的步骤利用样本数据建立回来方程利用样本数据建立回来方程回来方程的拟和优度检验回来方程的拟和优度检验回来方程的显著性检验回来方程的显著性检验(t(t检验和检验和F F检验检验)残差分析残差分析预料预料1-1-2828一元线性回来方程的检验一元线性回来方程的检验(一一)拟和优度检验拟和优度检验:(1)(1)目的目的:检验样本视察点聚集在回来直线四周的密集程检验样本视察点聚集在回来直线四周的密集程度,评价回来方程对样本数据点的拟和程度。度,评价回来
20、方程对样本数据点的拟和程度。(2)思路:因为:因变量取值的变更受两个因素的影响自变量不同取值的影响其他因素的影响如:儿子身高(y)的变更受:父亲身高(x)的影响、其他条件于是:因变量总变差=自变量引起的+其他因素引起的即:因变量总变差=回来方程可说明的+不行说明的可证明:因变量总离差平方和=回来平方和+剩余平方和1-1-2929一元线性回来方程的检验一元线性回来方程的检验(一一)拟和优度检验拟和优度检验:(3)(3)统计量:判定系数统计量:判定系数R2=SSR/SST=1-SSE/SST.R2=SSR/SST=1-SSE/SST.R2R2体现了回来方程所能说明的因变量变差的比例体现了回来方程所
21、能说明的因变量变差的比例;1-R2;1-R2则则体现了因变量总变差中,回来方程所无法说明的比例。体现了因变量总变差中,回来方程所无法说明的比例。R2R2越接近于越接近于1 1,则说明回来平方和占了因变量总变差平方,则说明回来平方和占了因变量总变差平方和的绝大部分比例,因变量的变差主要由自变量的不和的绝大部分比例,因变量的变差主要由自变量的不同取值造成,回来方程对样本数据点拟合得好同取值造成,回来方程对样本数据点拟合得好在一元回来中在一元回来中R2=r2;R2=r2;因此,从这个意义上讲,判定系数因此,从这个意义上讲,判定系数能够比较好地反映回来直线对样本数据的代表程度和能够比较好地反映回来直线
22、对样本数据的代表程度和线性相关性。线性相关性。1-1-3030一元线性回来方程的检验一元线性回来方程的检验(二二)回来方程的显著性检验回来方程的显著性检验(1)(1)目的目的:检验自变量与因变量之间的线性关系检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示是否显著,是否可用线性模型来表示.(2)(2)检验方法检验方法t t检验检验F F检验检验1-1-3131一元线性回来方程的检验一元线性回来方程的检验(三三)回来方程的显著性检验回来方程的显著性检验:t:t检验检验(1)(1)目的目的:检验自变量对因变量的线性影响是否显著检验自变量对因变量的线性影响是否显著.(2)H0:=0(
23、2)H0:=0 即即:回来系数与回来系数与0 0无显著差异无显著差异(3)(3)利用利用t t检验检验,构造构造t t统计量:统计量:其中其中:Sy:Sy是回来方程标准误差是回来方程标准误差(Standard Error)(Standard Error)的估计值,由均的估计值,由均方误差开方后得到,反映了回来方程无法说明样本数据点方误差开方后得到,反映了回来方程无法说明样本数据点的程度或偏离样本数据点的程度的程度或偏离样本数据点的程度假如回来系数的标准误差较小,必定得到一个相对较大的假如回来系数的标准误差较小,必定得到一个相对较大的t t值,值,表明该自变量表明该自变量x x说明因变量线性变更
24、的实力较强。说明因变量线性变更的实力较强。1-1-3232一元线性回来方程的检验一元线性回来方程的检验(三三)回来方程的显著性检验回来方程的显著性检验:t:t检验检验(4)(4)计算计算t t统计量的值和相伴概率统计量的值和相伴概率p p(5)(5)推断推断:相伴概率相伴概率=a:=a:拒绝拒绝H0,H0,即即:回来系数与回来系数与0 0有显著差异,自变有显著差异,自变量与因变量之间存在显著的线性关系量与因变量之间存在显著的线性关系,能够较好的说能够较好的说明说明因变量的变更明说明因变量的变更.反之,不能拒绝反之,不能拒绝H0H0(6)(6)回来系数的区间估计回来系数的区间估计1-1-3333
25、一元线性回来方程的检验一元线性回来方程的检验(四四)回来方程的显著性检验:回来方程的显著性检验:F F检验检验(1)(1)目的目的:检验自变量与因变量之间的线性关系是否显著检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来是否可用线性模型来表示表示.(2)H0:=0(2)H0:=0 即即:回来系数与回来系数与0 0无显著差异无显著差异(3)(3)利用利用F F检验检验,构造构造F F统计量统计量:F=F=平均的回来平方和平均的回来平方和/平均的剩余平方和平均的剩余平方和F(1,n-1-1)F(1,n-1-1)假如假如F F值较大,则说明自变量造成的因变量的线性变动远大于随机因素对因变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 方程 分析 优秀 PPT
限制150内