第14章相关分析和回归分析PPT讲稿.ppt
《第14章相关分析和回归分析PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第14章相关分析和回归分析PPT讲稿.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第14章相关分析和回章相关分析和回归分析归分析第1页,共49页,编辑于2022年,星期日第第1414章章 相关分析和回归分析相关分析和回归分析vv了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念vv了解等级相关的概念了解等级相关的概念了解等级相关的概念了解等级相关的概念vv描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型vv描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型vv了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回
2、归分析时应注意的问题2022/9/162 2第2页,共49页,编辑于2022年,星期日2022/9/163 3开篇案例:数据挖掘在定类变量相关性分析中的应用开篇案例:数据挖掘在定类变量相关性分析中的应用v数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,相关系数往往是被经常采用的工具用以衡量变量与变量之间析时,相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然后决定是否分析这些变量。的关系,然后决定是否分析这些变量。v相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,有相关系数用来描述两个变量或两组变
3、量之间的接近程度的量化指标,有着广泛的应用。着广泛的应用。v数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信息。息。v在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种方法只能给出变量之间是否存在相关性,却不能准确地反映过这种方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相关性的大小。出变量之间相关性的大小。第3页,共49页,编辑于2022年,星期日v于是在用于比较变量之间相关性大小的关系时,这种方法无法提供于是在用于比较变
4、量之间相关性大小的关系时,这种方法无法提供有效的信息,此时可以采用系数法来判断依据某一变量对另外一个有效的信息,此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大小。变量进行预测时的误差大小。v该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一个定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和一个定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对称关系两种计算方式,于是在计算时就要特别注意变量之间的关系。不对称关系两种计算方式,于是在计算时就要特别注意变量之间的关系。v统
5、计软件统计软件SPSS SPSS 没有智能挖掘变量之间关系的功能,所以在使用时局限性很没有智能挖掘变量之间关系的功能,所以在使用时局限性很大,大,2 2 个变量就需要分析个变量就需要分析2 2 次、次、3 3 个变量之间的关系就需要分析个变量之间的关系就需要分析6 6 次,次,4 4 个变量则需要分析个变量则需要分析12 12 次才能得出哪两个变量之间的相关性最强。次才能得出哪两个变量之间的相关性最强。2022/9/164 4第4页,共49页,编辑于2022年,星期日v在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关
6、联分析是使用一种支持度的概念来支持某件商品值不值得分析。分析是使用一种支持度的概念来支持某件商品值不值得分析。v比如假设商品比如假设商品 A A 共出现共出现N N(A A)次、同时商品)次、同时商品B B 共出现共出现N N(B B)次,对于)次,对于N N(A and BA and B)是用来表示)是用来表示A A 和和B B 两种物品同时出现的次数,那么两种物品同时出现的次数,那么A A 和和B B的的支持度即为:支持度即为:N N(A and BA and B)/MIN/MIN(N N(A A),),N N(B B),这样一种支持度的),这样一种支持度的优点是可以全面的挖掘数据内部的信
7、息,即可以更加精细全面地把所有值得优点是可以全面的挖掘数据内部的信息,即可以更加精细全面地把所有值得分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对于分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对于重要数据关系的挖掘。重要数据关系的挖掘。2022/9/165 5第5页,共49页,编辑于2022年,星期日相关分析和回归分析概述相关分析和回归分析概述v相关分析和回归分析都是用于研究变量之间关系的方法,而且相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经常替换使用。两者经常替换使用。v两者还是存在一些差异两者还是存在一些差异 。发给相关分析旨在测定变量间
8、关系紧密的程度,因而关注的是评价对发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评价对象两者之间的相对变动,其中哪个是自变量,哪个是因变量,没有必象两者之间的相对变动,其中哪个是自变量,哪个是因变量,没有必要区分;它们各自单独的变化状况也不用清地加以确定或限制。要区分;它们各自单独的变化状况也不用清地加以确定或限制。回归分析则希望明确建立一个方程关系式,借助一个或多个变量回归分析则希望明确建立一个方程关系式,借助一个或多个变量(自变量自变量)来推测另一个变量来推测另一个变量(因变量因变量)的变化趋势。如果某个或多个自变量本身变的变化趋势。如果某个或多个自变量本身变动也处于不确定中,或者
9、为随机变量,自变量的概率分布情况就必然动也处于不确定中,或者为随机变量,自变量的概率分布情况就必然要通过实验加以确定和限制。要通过实验加以确定和限制。2022/9/166 6第6页,共49页,编辑于2022年,星期日相关分析和回归分析概述相关分析和回归分析概述v简单回归简单回归 :只包括一个自变量和一个因变量的回归分析。:只包括一个自变量和一个因变量的回归分析。v多元回归分析多元回归分析 :包括两个或两个以上自变量的回归分析:包括两个或两个以上自变量的回归分析 。v线性回归线性回归 :变量间的关系可以用一条直线近似表示出来:变量间的关系可以用一条直线近似表示出来 。v曲性回归曲性回归 :变量间
10、的关系是用曲线近似表示出来的:变量间的关系是用曲线近似表示出来的 。2022/9/167 7第7页,共49页,编辑于2022年,星期日2022/9/168 8散点图散点图(scatter diagram)v探讨变量探讨变量x x、y y的相关关系时,常须先做出散点图。的相关关系时,常须先做出散点图。v以数标轴上的点代表以数标轴上的点代表x x、y y的一对观察值,可以直观地考察变量之间联系程度,的一对观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。并且有助于选择合适的估计模型。v正的相关关系(正的相关关系(positive correlationpositive corr
11、elation):自变量:自变量x x增加,因变量增加,因变量y y也也随之增加。随之增加。v负相关系负相关系(negative correlation)(negative correlation):x x增加,增加,y y减少。减少。v无相关(无相关(non-correlationnon-correlation):x x的变化不影响的变化不影响y y的变动。的变动。第8页,共49页,编辑于2022年,星期日2022/9/169 9y0 x正相关正相关y0 x负相关负相关y0 x不相关不相关y0 x曲线相关曲线相关第9页,共49页,编辑于2022年,星期日2022/9/161010相关系数相关
12、系数 v现假定观测到现假定观测到n n个变量个变量x x,y y的组合值,分别为(的组合值,分别为(x1,y1x1,y1)()(x2,y2x2,y2)(xn,ynxn,yn)。)。v容易得到容易得到x x,y y的平均数的平均数 ,。v如果把坐标移到(如果把坐标移到(,),则新坐标为:),则新坐标为:。v在新坐标的第一、第三象限里,在新坐标的第一、第三象限里,xyxy的乘积为的乘积为v 正值;在第二、第四象限晨,它们的乘积正值;在第二、第四象限晨,它们的乘积xyxyv 均为负值。均为负值。v当当x x、y y为正相关时,也就是绝大多数点落于为正相关时,也就是绝大多数点落于v 一、三象限时,一、
13、三象限时,为正;为正;v 若若x,yx,y为负相关,即绝大多数点落于二、四象为负相关,即绝大多数点落于二、四象v 限时,限时,为负;为负;v 若若x x、y y对应的点散布于四个象限,则上值接近于对应的点散布于四个象限,则上值接近于0 0。(,)第10页,共49页,编辑于2022年,星期日2022/9/161111相关系数相关系数v变量的相关可以用变量的相关可以用 来表示来表示 。v -变量变量x x的标准差;的标准差;v -变量变量y y的标准差的标准差;v r r -变量的相关系数变量的相关系数第11页,共49页,编辑于2022年,星期日2022/9/161212相关系数相关系数v为了简化
14、公式,为了简化公式,r r的公式还了演变为:的公式还了演变为:vr r的值在的值在-1-1和和1 1之间变化。之间变化。r=1 完全正相关 0r1 正相关 r=0 不相关-1r0 负相关 r=-1 完全负相关 相关系数表相关系数表第12页,共49页,编辑于2022年,星期日2022/9/161313等级相关等级相关 v无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好坏等;坏等;v有时候即使是精密的
15、数据,也采用等级来测定它们之间的相互关系有时候即使是精密的数据,也采用等级来测定它们之间的相互关系 ,其关系,其关系紧密程度的衡量指标就叫等级相关系数。紧密程度的衡量指标就叫等级相关系数。v在这些等级相关系数中,以司庇而曼在这些等级相关系数中,以司庇而曼(C(CSpearman)Spearman)的等级相关运用最为的等级相关运用最为普遍。其公式为:普遍。其公式为:其中,其中,didi:各对数据的等级差异;:各对数据的等级差异;n n:样本的数据总数。:样本的数据总数。第13页,共49页,编辑于2022年,星期日2022/9/161414v司庇而曼相关系数是针对两个序数变量的;司庇而曼相关系数是
16、针对两个序数变量的;v其中每个变量的数据已按一定标准划分成其中每个变量的数据已按一定标准划分成1 1至至n n个等级;个等级;v如果如果d2id2i的和为的和为0 0,那么,那么rs=1rs=1。也就是说,此时两个变量的等级是等价的;。也就是说,此时两个变量的等级是等价的;vrsrs值由值由+1(+1(完全正相关完全正相关)变化到一变化到一1(1(完全负相关完全负相关),其中若,其中若rs=Ors=O意味着彼此意味着彼此不相关。不相关。第14页,共49页,编辑于2022年,星期日2022/9/161515样本相关系数的分布和测验样本相关系数的分布和测验 v在假定两变量在假定两变量(x,y)(x
17、,y)的组合总体适合于正态分布的组合总体适合于正态分布(三度空间的立体三度空间的立体正态曲面正态曲面)的条件下,的条件下,z z与与y y的相关系数的相关系数r r的抽样分布是随着两个的抽样分布是随着两个因素因素样本单位数样本单位数n n与总体相关系数与总体相关系数p p的不同而变化着。的不同而变化着。v不过总的说来,不过总的说来,r r分布的形态是属于各种各样的。分布的形态是属于各种各样的。v如把总体相关系数如把总体相关系数p p分成三类:分成三类:p=0p=0,p=0.50p=0.50以及以及p=0.90p=0.90,在不,在不同的同的n n条下,条下,r r的分布形态见下图。的分布形态见
18、下图。第15页,共49页,编辑于2022年,星期日2022/9/161616第16页,共49页,编辑于2022年,星期日2022/9/161717样本相关系数的分布和测验样本相关系数的分布和测验v由于由于r r分布的偏态形态,作实际测验的计算时,比较困难,英国著名统计分布的偏态形态,作实际测验的计算时,比较困难,英国著名统计学家埃学家埃爱爱费煦为了补救这种复杂计算的缺陷,用变量费煦为了补救这种复杂计算的缺陷,用变量E E代替代替r r,替代公式为:替代公式为:v其中其中lnln表示以表示以e e为底的自然对数,对为底的自然对数,对E E的变量来说,它的分布接近于的变量来说,它的分布接近于正态分
19、布,因此,就可利用正态分布表作出测验。另外,费煦已正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了经作出了r r与与E E间的变换表格,所以计算就大大地简化了。间的变换表格,所以计算就大大地简化了。第17页,共49页,编辑于2022年,星期日2022/9/161818相关系数相关系数r r的虚无假设的测验以及可信任界限的计算举例的虚无假设的测验以及可信任界限的计算举例v样本为样本为3535对数据时,求出对数据时,求出r r为为0.800.80,试用,试用5 5的显著标准来作出总体的显著标准来作出总体相关系数相关系数p=0.90p=0.90的虚无假设测验。先假定以虚无假设出发,的
20、虚无假设测验。先假定以虚无假设出发,r=0.80r=0.80可能从总体可能从总体p=0.90p=0.90中抽出,如果概率超过中抽出,如果概率超过5 5,就接受这个假设,就接受这个假设,否则,就推翻这个假设。否则,就推翻这个假设。v从附表我们查出,从附表我们查出,r=0.80r=0.80时,时,z=1.099z=1.099,并从同一附表中,找出,并从同一附表中,找出P=0.90P=0.90时,时,mz=1.472mz=1.472,我们知道:,我们知道:第18页,共49页,编辑于2022年,星期日2022/9/161919v由由t t分布近似于正态分布,可以利用正态分布。分布近似于正态分布,可以利
21、用正态分布。v可以利用正态面积表求出在可以利用正态面积表求出在t=t=一一2.112.11左边的概率面积是:左边的概率面积是:A=0.0174A=0.0174;v由于这是两侧测验,所以概率是由于这是两侧测验,所以概率是p=2*(0.0174)=0.0348p=2*(0.0174)=0.0348,这是小于,这是小于5 5的显著水准,所以,拒绝这个假设,也就是的显著水准,所以,拒绝这个假设,也就是r=0.80r=0.80不可能从总体不可能从总体相关系数相关系数p=O.90p=O.90的总体中抽取出来的,也可以说,的总体中抽取出来的,也可以说,P=0.90P=0.90与与r=0.80r=0.80是有
22、是有显著差异的。显著差异的。第19页,共49页,编辑于2022年,星期日2022/9/162020简单回归分析简单回归分析 v回归分析:在由一个或一组非随机变量来估计或预测某一个随机变回归分析:在由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析。量的观察值时,所建立的数学模型及所进行的统计分析。v如果这个模型是线性的就称为线性回归分析如果这个模型是线性的就称为线性回归分析 。v线性回归中最简单的就是两个变量,或者称为简单线性回归。线性回归中最简单的就是两个变量,或者称为简单线性回归。第20页,共49页,编辑于2022年,星期日2022/9/1621
23、21v在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我们在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我们会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,即:会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,即:v 第第f f个地区的销售额水平;个地区的销售额水平;v 第第f f个地区的电视广告时数;个地区的电视广告时数;v 与第与第i i个观察值相关的误差。个观察值相关的误差。误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不
24、可预测的因素以及偏差的度量。行为中不可预测的因素以及偏差的度量。可能性模型在给定可能性模型在给定 、值情况下,值情况下,yiyi与与xixi不是一一对应的关系;所能确定的只是不是一一对应的关系;所能确定的只是某种情况下某种情况下yiyi分布的平均值,而真实值则围绕自己分布的平均值上下波动。分布的平均值,而真实值则围绕自己分布的平均值上下波动。第21页,共49页,编辑于2022年,星期日2022/9/162222最小二乘法最小二乘法v我们最终确定的回归方程是一种确定模型,因而我们希望能找到我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条最能代表真实可能性情况的方程或者说两者偏离最小。
25、一条最能代表真实可能性情况的方程或者说两者偏离最小。v最常见的方法是最小二乘法,而该方法又是以随机误差最常见的方法是最小二乘法,而该方法又是以随机误差符合一符合一定假设为前提的,这些假设条件具体如下:定假设为前提的,这些假设条件具体如下:的均值或期望值为的均值或期望值为0 0;的方差是一个常数而且的方差是一个常数而且的方差与各个自变量无关;的方差与各个自变量无关;彼此之间是相互独立的;彼此之间是相互独立的;彼此之间是相互独立的。彼此之间是相互独立的。第22页,共49页,编辑于2022年,星期日2022/9/162323v回归方程求出的理论估计值记为回归方程求出的理论估计值记为 。v 与真实值与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 14 相关 分析 回归 PPT 讲稿
限制150内