第14章相关分析和回归分析优秀课件.ppt
《第14章相关分析和回归分析优秀课件.ppt》由会员分享,可在线阅读,更多相关《第14章相关分析和回归分析优秀课件.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第14章相关分析和回章相关分析和回归分析归分析第1页,本讲稿共49页第第1414章章 相关分析和回归分析相关分析和回归分析vv了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念vv了解等级相关的概念了解等级相关的概念了解等级相关的概念了解等级相关的概念vv描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型vv描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型vv了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题
2、2023/5/192 2第2页,本讲稿共49页2023/5/193 3开篇案例:数据挖掘在定类变量相关性分析中的应用开篇案例:数据挖掘在定类变量相关性分析中的应用v数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然后决定是否分析这些变量。后决定是否分析这些变量。v相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,有相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,有着广泛的应
3、用。着广泛的应用。v数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信息。的信息。v在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相关性的大小。关性的大小。第3页,本讲稿共49页v于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的信息,于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的
4、信息,此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大小。小。v该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一个该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一个定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对称关定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对称关系两种计算方式,于是在计算时就要特别注意变量之间的关系。系两种计算方式,于是在计算时就要特别注意变量之间的关系。v统计软件统计软件SPSS SPSS 没有智能挖掘变量之间关系的
5、功能,所以在使用时局限没有智能挖掘变量之间关系的功能,所以在使用时局限性很大,性很大,2 2 个变量就需要分析个变量就需要分析2 2 次、次、3 3 个变量之间的关系就需要分析个变量之间的关系就需要分析6 6 次,次,4 4 个变量则需要分析个变量则需要分析12 12 次才能得出哪两个变量之间的相关性最强。次才能得出哪两个变量之间的相关性最强。2023/5/194 4第4页,本讲稿共49页v在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联分析是使用一种支持度的概念来支持某件商品值不值得分析。分析是使用一种支持度的概
6、念来支持某件商品值不值得分析。v比如假设商品比如假设商品 A A 共出现共出现N N(A A)次、同时商品)次、同时商品B B 共出现共出现N N(B B)次,对于)次,对于N N(A and BA and B)是用来表示)是用来表示A A 和和B B 两种物品同时出现的次数,那么两种物品同时出现的次数,那么A A 和和B B的支的支持度即为:持度即为:N N(A and BA and B)/MIN/MIN(N N(A A),),N N(B B),这样一种支持度的优),这样一种支持度的优点是可以全面的挖掘数据内部的信息,即可以更加精细全面地把所有值得点是可以全面的挖掘数据内部的信息,即可以更加
7、精细全面地把所有值得分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对于重要数据关系的挖掘。于重要数据关系的挖掘。2023/5/195 5第5页,本讲稿共49页相关分析和回归分析概述相关分析和回归分析概述v相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经常相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经常替换使用。替换使用。v两者还是存在一些差异两者还是存在一些差异 。发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评价发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评价对象两者之
8、间的相对变动,其中哪个是自变量,哪个是因变量,没对象两者之间的相对变动,其中哪个是自变量,哪个是因变量,没有必要区分;它们各自单独的变化状况也不用清地加以确定或限制。有必要区分;它们各自单独的变化状况也不用清地加以确定或限制。回归分析则希望明确建立一个方程关系式,借助一个或多个变量回归分析则希望明确建立一个方程关系式,借助一个或多个变量(自变量自变量)来推测另一个变量来推测另一个变量(因变量因变量)的变化趋势。如果某个或多个自变量本身变的变化趋势。如果某个或多个自变量本身变动也处于不确定中,或者为随机变量,自变量的概率分布情况就必然要动也处于不确定中,或者为随机变量,自变量的概率分布情况就必然
9、要通过实验加以确定和限制。通过实验加以确定和限制。2023/5/196 6第6页,本讲稿共49页相关分析和回归分析概述相关分析和回归分析概述v简单回归简单回归 :只包括一个自变量和一个因变量的回归分析。:只包括一个自变量和一个因变量的回归分析。v多元回归分析多元回归分析 :包括两个或两个以上自变量的回归分析:包括两个或两个以上自变量的回归分析 。v线性回归线性回归 :变量间的关系可以用一条直线近似表示出来:变量间的关系可以用一条直线近似表示出来 。v曲性回归曲性回归 :变量间的关系是用曲线近似表示出来的:变量间的关系是用曲线近似表示出来的 。2023/5/197 7第7页,本讲稿共49页202
10、3/5/198 8散点图散点图(scatter diagram)v探讨变量探讨变量x x、y y的相关关系时,常须先做出散点图。的相关关系时,常须先做出散点图。v以数标轴上的点代表以数标轴上的点代表x x、y y的一对观察值,可以直观地考察变量之间联系程度,的一对观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。并且有助于选择合适的估计模型。v正的相关关系(正的相关关系(positive correlationpositive correlation):自变量:自变量x x增加,因变量增加,因变量y y也随之也随之增加。增加。v负相关系负相关系(negative corre
11、lation)(negative correlation):x x增加,增加,y y减少。减少。v无相关(无相关(non-correlationnon-correlation):x x的变化不影响的变化不影响y y的变动。的变动。第8页,本讲稿共49页2023/5/199 9y0 x正相关正相关y0 x负相关负相关y0 x不相关不相关y0 x曲线相关曲线相关第9页,本讲稿共49页2023/5/191010相关系数相关系数 v现假定观测到现假定观测到n n个变量个变量x x,y y的组合值,分别为(的组合值,分别为(x1,y1x1,y1)()(x2,y2x2,y2)(xn,ynxn,yn)。)。
12、v容易得到容易得到x x,y y的平均数的平均数 ,。v如果把坐标移到(如果把坐标移到(,),则新坐标为:),则新坐标为:。v在新坐标的第一、第三象限里,在新坐标的第一、第三象限里,xyxy的乘积为的乘积为v 正值;在第二、第四象限晨,它们的乘积正值;在第二、第四象限晨,它们的乘积xyxyv 均为负值。均为负值。v当当x x、y y为正相关时,也就是绝大多数点落于为正相关时,也就是绝大多数点落于v 一、三象限时,一、三象限时,为正;为正;v 若若x,yx,y为负相关,即绝大多数点落于二、四象为负相关,即绝大多数点落于二、四象v 限时,限时,为负;为负;v 若若x x、y y对应的点散布于四个象
13、限,则上值接近于对应的点散布于四个象限,则上值接近于0 0。(,)第10页,本讲稿共49页2023/5/191111相关系数相关系数v变量的相关可以用变量的相关可以用 来表示来表示 。v -变量变量x x的标准差;的标准差;v -变量变量y y的标准差的标准差;v r r -变量的相关系数变量的相关系数第11页,本讲稿共49页2023/5/191212相关系数相关系数v为了简化公式,为了简化公式,r r的公式还了演变为:的公式还了演变为:vr r的值在的值在-1-1和和1 1之间变化。之间变化。r=1 完全正相关 0r1 正相关 r=0 不相关-1r0 负相关 r=-1 完全负相关 相关系数表
14、相关系数表第12页,本讲稿共49页2023/5/191313等级相关等级相关 v无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好坏等;坏等;v有时候即使是精密的数据,也采用等级来测定它们之间的相互关系有时候即使是精密的数据,也采用等级来测定它们之间的相互关系 ,其,其关系紧密程度的衡量指标就叫等级相关系数。关系紧密程度的衡量指标就叫等级相关系数。v在这些等级相关系数中,以司庇而曼在这些等级相关系数
15、中,以司庇而曼(C(CSpearman)Spearman)的等级相关运用最为普的等级相关运用最为普遍。其公式为:遍。其公式为:其中,其中,didi:各对数据的等级差异;:各对数据的等级差异;n n:样本的数据总数。:样本的数据总数。第13页,本讲稿共49页2023/5/191414v司庇而曼相关系数是针对两个序数变量的;司庇而曼相关系数是针对两个序数变量的;v其中每个变量的数据已按一定标准划分成其中每个变量的数据已按一定标准划分成1 1至至n n个等级;个等级;v如果如果d2id2i的和为的和为0 0,那么,那么rs=1rs=1。也就是说,此时两个变量的等级是等价。也就是说,此时两个变量的等级
16、是等价的;的;vrsrs值由值由+1(+1(完全正相关完全正相关)变化到一变化到一1(1(完全负相关完全负相关),其中若,其中若rs=Ors=O意味着彼此意味着彼此不相关。不相关。第14页,本讲稿共49页2023/5/191515样本相关系数的分布和测验样本相关系数的分布和测验 v在假定两变量在假定两变量(x,y)(x,y)的组合总体适合于正态分布的组合总体适合于正态分布(三度空间的立体三度空间的立体正态曲面正态曲面)的条件下,的条件下,z z与与y y的相关系数的相关系数r r的抽样分布是随着两个因的抽样分布是随着两个因素素样本单位数样本单位数n n与总体相关系数与总体相关系数p p的不同而
17、变化着。的不同而变化着。v不过总的说来,不过总的说来,r r分布的形态是属于各种各样的。分布的形态是属于各种各样的。v如把总体相关系数如把总体相关系数p p分成三类:分成三类:p=0p=0,p=0.50p=0.50以及以及p=0.90p=0.90,在不同,在不同的的n n条下,条下,r r的分布形态见下图。的分布形态见下图。第15页,本讲稿共49页2023/5/191616第16页,本讲稿共49页2023/5/191717样本相关系数的分布和测验样本相关系数的分布和测验v由于由于r r分布的偏态形态,作实际测验的计算时,比较困难,英国著名分布的偏态形态,作实际测验的计算时,比较困难,英国著名统
18、计学家埃统计学家埃爱爱费煦为了补救这种复杂计算的缺陷,用变量费煦为了补救这种复杂计算的缺陷,用变量E E代替代替r r,替代公式为:,替代公式为:v其中其中lnln表示以表示以e e为底的自然对数,对为底的自然对数,对E E的变量来说,它的分布接近于正态的变量来说,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了r r与与E E间的变换表格,所以计算就大大地简化了。间的变换表格,所以计算就大大地简化了。第17页,本讲稿共49页2023/5/191818相关系数相关系数r r的虚无假设的测验以及可信任界限的
19、计算举例的虚无假设的测验以及可信任界限的计算举例v样本为样本为3535对数据时,求出对数据时,求出r r为为0.800.80,试用,试用5 5的显著标准来作出总体相的显著标准来作出总体相关系数关系数p=0.90p=0.90的虚无假设测验。先假定以虚无假设出发,的虚无假设测验。先假定以虚无假设出发,r=0.80r=0.80可能可能从总体从总体p=0.90p=0.90中抽出,如果概率超过中抽出,如果概率超过5 5,就接受这个假设,否则,就接受这个假设,否则,就推翻这个假设。就推翻这个假设。v从附表我们查出,从附表我们查出,r=0.80r=0.80时,时,z=1.099z=1.099,并从同一附表中
20、,找出,并从同一附表中,找出P=0.90P=0.90时,时,mz=1.472mz=1.472,我们知道:,我们知道:第18页,本讲稿共49页2023/5/191919v由由t t分布近似于正态分布,可以利用正态分布。分布近似于正态分布,可以利用正态分布。v可以利用正态面积表求出在可以利用正态面积表求出在t=t=一一2.112.11左边的概率面积是:左边的概率面积是:A=0.0174A=0.0174;v由于这是两侧测验,所以概率是由于这是两侧测验,所以概率是p=2*(0.0174)=0.0348p=2*(0.0174)=0.0348,这是小于,这是小于5 5的的显著水准,所以,拒绝这个假设,也就
21、是显著水准,所以,拒绝这个假设,也就是r=0.80r=0.80不可能从总体相关系数不可能从总体相关系数p=O.90p=O.90的总体中抽取出来的,也可以说,的总体中抽取出来的,也可以说,P=0.90P=0.90与与r=0.80r=0.80是有显著是有显著差异的。差异的。第19页,本讲稿共49页2023/5/192020简单回归分析简单回归分析 v回归分析:在由一个或一组非随机变量来估计或预测某一个随机回归分析:在由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析。变量的观察值时,所建立的数学模型及所进行的统计分析。v如果这个模型是线性的就称为线性回归
22、分析如果这个模型是线性的就称为线性回归分析 。v线性回归中最简单的就是两个变量,或者称为简单线性回归。线性回归中最简单的就是两个变量,或者称为简单线性回归。第20页,本讲稿共49页2023/5/192121v在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我们会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,们会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,即:即:v 第第f f个地区的销售额水平;个地区的销售额水平;v 第第f f个地区的电视广告时数;个地区的电视广告时数;v 与第与第i
23、i个观察值相关的误差。个观察值相关的误差。误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。一种人类行为中不可预测的因素以及偏差的度量。可能性模型在给定可能性模型在给定 、值情况下,值情况下,yiyi与与xixi不是一一对应的关系;所能确定的只是某种情不是一一对应的关系;所能确定的只是某种情况下况下yiyi分布的平均值,而真实值则围绕自己分布的平均值上下波动。分布的平均值,而真实值则围绕自己分布的平均值上下波动。第21页,本讲稿共49页2023/5/192222最小
24、二乘法最小二乘法v我们最终确定的回归方程是一种确定模型,因而我们希望能找到我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条最能代表真实可能性情况的方程或者说两者偏离最小。一条最能代表真实可能性情况的方程或者说两者偏离最小。v最常见的方法是最小二乘法,而该方法又是以随机误差最常见的方法是最小二乘法,而该方法又是以随机误差符合一定假设符合一定假设为前提的,这些假设条件具体如下:为前提的,这些假设条件具体如下:的均值或期望值为的均值或期望值为0 0;的方差是一个常数而且的方差是一个常数而且的方差与各个自变量无关;的方差与各个自变量无关;彼此之间是相互独立的;彼此之间是相互独立的;彼此之间
25、是相互独立的。彼此之间是相互独立的。第22页,本讲稿共49页2023/5/192323v回归方程求出的理论估计值记为回归方程求出的理论估计值记为 。v 与真实值与真实值yi yi 存在离差,记为:存在离差,记为:v最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方和最小,即和最小,即 最小。最小。v ,为从样本估出的方程系数值为从样本估出的方程系数值 。v ,为总体系数值。为总体系数值。第23页,本讲稿共49页2023/5/192424结果结果其中其中第24页,本讲稿共49页估计标准差估计标准差v对右图观察发现,尽管直线拟对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 14 相关 分析 回归 优秀 课件
限制150内