第14章相关分析和回归分析精选PPT.ppt





《第14章相关分析和回归分析精选PPT.ppt》由会员分享,可在线阅读,更多相关《第14章相关分析和回归分析精选PPT.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第14章相关分析和回章相关分析和回归分析归分析第1页,此课件共49页哦第第1414章章 相关分析和回归分析相关分析和回归分析vv了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念vv了解等级相关的概念了解等级相关的概念了解等级相关的概念了解等级相关的概念vv描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型vv描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型vv了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问
2、题2022/10/62 2第2页,此课件共49页哦2022/10/63 3开篇案例:数据挖掘在定类变量相关性分析中的应用开篇案例:数据挖掘在定类变量相关性分析中的应用v数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,相数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然后决定关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然后决定是否分析这些变量。是否分析这些变量。v相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,有着广泛的
3、应用。有着广泛的应用。v数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信息。息。v在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相关性的大小。关性的大小。第3页,此课件共49页哦v于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的
4、信息,此时可以采用系数法来判断依据某一变量对另外一个变量进行预测信息,此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大小。时的误差大小。v该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一个定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对个定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对称关系两种计算方式,于是在计算时就要特别注意变量之间的关系。称关系两种计算方式,于是在计算时就要特别注意变量之间的关系。v统计软件统计软件SPSS SPSS 没有智能挖掘变量之间
5、关系的功能,所以在使用时局限没有智能挖掘变量之间关系的功能,所以在使用时局限性很大,性很大,2 2 个变量就需要分析个变量就需要分析2 2 次、次、3 3 个变量之间的关系就需要分析个变量之间的关系就需要分析6 6 次,次,4 4 个变量则需要分析个变量则需要分析12 12 次才能得出哪两个变量之间的相关性最次才能得出哪两个变量之间的相关性最强。强。2022/10/64 4第4页,此课件共49页哦v在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联分析是使用一种支持度的概念来支持某件商品值不值得分析。关联分析是使用一种支
6、持度的概念来支持某件商品值不值得分析。v比如假设商品比如假设商品 A A 共出现共出现N N(A A)次、同时商品)次、同时商品B B 共出现共出现N N(B B)次,对于)次,对于N N(A and BA and B)是用来表示)是用来表示A A 和和B B 两种物品同时出现的次数,那么两种物品同时出现的次数,那么A A 和和B B的的支持度即为:支持度即为:N N(A and BA and B)/MIN/MIN(N N(A A),),N N(B B),这样一种支持度),这样一种支持度的优点是可以全面的挖掘数据内部的信息,即可以更加精细全面地把所的优点是可以全面的挖掘数据内部的信息,即可以更
7、加精细全面地把所有值得分析的数据关系全部呈现出来,否则可能会因为上式中分母的大有值得分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对于重要数据关系的挖掘。小影响对于重要数据关系的挖掘。2022/10/65 5第5页,此课件共49页哦相关分析和回归分析概述相关分析和回归分析概述v相关分析和回归分析都是用于研究变量之间关系的方法,而且相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经常替换使用。两者经常替换使用。v两者还是存在一些差异两者还是存在一些差异 。发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评价对象两者发给相关分析旨在测定变量间关系紧密的程度,因而关注
8、的是评价对象两者之间的相对变动,其中哪个是自变量,哪个是因变量,没有必要区分;它们之间的相对变动,其中哪个是自变量,哪个是因变量,没有必要区分;它们各自单独的变化状况也不用清地加以确定或限制。各自单独的变化状况也不用清地加以确定或限制。回归分析则希望明确建立一个方程关系式,借助一个或多个变量回归分析则希望明确建立一个方程关系式,借助一个或多个变量(自变自变量量)来推测另一个变量来推测另一个变量(因变量因变量)的变化趋势。如果某个或多个自变量本身的变化趋势。如果某个或多个自变量本身变动也处于不确定中,或者为随机变量,自变量的概率分布情况就必然要通变动也处于不确定中,或者为随机变量,自变量的概率分
9、布情况就必然要通过实验加以确定和限制。过实验加以确定和限制。2022/10/66 6第6页,此课件共49页哦相关分析和回归分析概述相关分析和回归分析概述v简单回归简单回归 :只包括一个自变量和一个因变量的回归分析。:只包括一个自变量和一个因变量的回归分析。v多元回归分析多元回归分析 :包括两个或两个以上自变量的回归分析:包括两个或两个以上自变量的回归分析 。v线性回归线性回归 :变量间的关系可以用一条直线近似表示出来:变量间的关系可以用一条直线近似表示出来 。v曲性回归曲性回归 :变量间的关系是用曲线近似表示出来的:变量间的关系是用曲线近似表示出来的 。2022/10/67 7第7页,此课件共
10、49页哦2022/10/68 8散点图散点图(scatter diagram)v探讨变量探讨变量x x、y y的相关关系时,常须先做出散点图。的相关关系时,常须先做出散点图。v以数标轴上的点代表以数标轴上的点代表x x、y y的一对观察值,可以直观地考察变量之间联系的一对观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。程度,并且有助于选择合适的估计模型。v正的相关关系(正的相关关系(positive correlationpositive correlation):自变量:自变量x x增加,因变量增加,因变量y y也随也随之增加。之增加。v负相关系负相关系(negativ
11、e correlation)(negative correlation):x x增加,增加,y y减少。减少。v无相关(无相关(non-correlationnon-correlation):x x的变化不影响的变化不影响y y的变动。的变动。第8页,此课件共49页哦2022/10/69 9y0 x正相关正相关y0 x负相关负相关y0 x不相关不相关y0 x曲线相关曲线相关第9页,此课件共49页哦2022/10/61010相关系数相关系数 v现假定观测到现假定观测到n n个变量个变量x x,y y的组合值,分别为(的组合值,分别为(x1,y1x1,y1)()(x2,y2x2,y2)(xn,yn
12、xn,yn)。)。v容易得到容易得到x x,y y的平均数的平均数 ,。v如果把坐标移到(如果把坐标移到(,),则新坐标为:),则新坐标为:。v在新坐标的第一、第三象限里,在新坐标的第一、第三象限里,xyxy的乘积为的乘积为v 正值;在第二、第四象限晨,它们的乘积正值;在第二、第四象限晨,它们的乘积xyxyv 均为负值。均为负值。v当当x x、y y为正相关时,也就是绝大多数点落于为正相关时,也就是绝大多数点落于v 一、三象限时,一、三象限时,为正;为正;v 若若x,yx,y为负相关,即绝大多数点落于二、四象为负相关,即绝大多数点落于二、四象v 限时,限时,为负;为负;v 若若x x、y y对
13、应的点散布于四个象限,则上值接近于对应的点散布于四个象限,则上值接近于0 0。(,)第10页,此课件共49页哦2022/10/61111相关系数相关系数v变量的相关可以用变量的相关可以用 来表示来表示 。v -变量变量x x的标准差;的标准差;v -变量变量y y的标准差的标准差;v r r -变量的相关系数变量的相关系数第11页,此课件共49页哦2022/10/61212相关系数相关系数v为了简化公式,为了简化公式,r r的公式还了演变为:的公式还了演变为:vr r的值在的值在-1-1和和1 1之间变化。之间变化。r=1 完全正相关 0r1 正相关 r=0 不相关-1r0 负相关 r=-1
14、完全负相关 相关系数表相关系数表第12页,此课件共49页哦2022/10/61313等级相关等级相关 v无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好坏等;味道的好坏等;v有时候即使是精密的数据,也采用等级来测定它们之间的相互关系有时候即使是精密的数据,也采用等级来测定它们之间的相互关系 ,其关,其关系紧密程度的衡量指标就叫等级相关系数。系紧密程度的衡量指标就叫等级相关系数。v在这些等级相关系数中,以司
15、庇而曼在这些等级相关系数中,以司庇而曼(C(CSpearman)Spearman)的等级相关运用最的等级相关运用最为普遍。其公式为:为普遍。其公式为:其中,其中,didi:各对数据的等级差异;:各对数据的等级差异;n n:样本的数据总数。:样本的数据总数。第13页,此课件共49页哦2022/10/61414v司庇而曼相关系数是针对两个序数变量的;司庇而曼相关系数是针对两个序数变量的;v其中每个变量的数据已按一定标准划分成其中每个变量的数据已按一定标准划分成1 1至至n n个等级;个等级;v如果如果d2id2i的和为的和为0 0,那么,那么rs=1rs=1。也就是说,此时两个变量的等级是等价。也
16、就是说,此时两个变量的等级是等价的;的;vrsrs值由值由+1(+1(完全正相关完全正相关)变化到一变化到一1(1(完全负相关完全负相关),其中若,其中若rs=Ors=O意味着彼意味着彼此不相关。此不相关。第14页,此课件共49页哦2022/10/61515样本相关系数的分布和测验样本相关系数的分布和测验 v在假定两变量在假定两变量(x,y)(x,y)的组合总体适合于正态分布的组合总体适合于正态分布(三度空间的立三度空间的立体正态曲面体正态曲面)的条件下,的条件下,z z与与y y的相关系数的相关系数r r的抽样分布是随着两的抽样分布是随着两个因素个因素样本单位数样本单位数n n与总体相关系数
17、与总体相关系数p p的不同而变化着。的不同而变化着。v不过总的说来,不过总的说来,r r分布的形态是属于各种各样的。分布的形态是属于各种各样的。v如把总体相关系数如把总体相关系数p p分成三类:分成三类:p=0p=0,p=0.50p=0.50以及以及p=0.90p=0.90,在不同的,在不同的n n条下,条下,r r的分布形态见下图。的分布形态见下图。第15页,此课件共49页哦2022/10/61616第16页,此课件共49页哦2022/10/61717样本相关系数的分布和测验样本相关系数的分布和测验v由于由于r r分布的偏态形态,作实际测验的计算时,比较困难,英国著分布的偏态形态,作实际测验
18、的计算时,比较困难,英国著名统计学家埃名统计学家埃爱爱费煦为了补救这种复杂计算的缺陷,用变量费煦为了补救这种复杂计算的缺陷,用变量E E代替代替r r,替代公式为:,替代公式为:v其中其中lnln表示以表示以e e为底的自然对数,对为底的自然对数,对E E的变量来说,它的分布接近于的变量来说,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦已正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了经作出了r r与与E E间的变换表格,所以计算就大大地简化了。间的变换表格,所以计算就大大地简化了。第17页,此课件共49页哦2022/10/61818相关系数相关系数r
19、r的虚无假设的测验以及可信任界限的计算举例的虚无假设的测验以及可信任界限的计算举例v样本为样本为3535对数据时,求出对数据时,求出r r为为0.800.80,试用,试用5 5的显著标准来作出总体相关的显著标准来作出总体相关系数系数p=0.90p=0.90的虚无假设测验。先假定以虚无假设出发,的虚无假设测验。先假定以虚无假设出发,r=0.80r=0.80可能可能从总体从总体p=0.90p=0.90中抽出,如果概率超过中抽出,如果概率超过5 5,就接受这个假设,否则,就,就接受这个假设,否则,就推翻这个假设。推翻这个假设。v从附表我们查出,从附表我们查出,r=0.80r=0.80时,时,z=1.
20、099z=1.099,并从同一附表中,找出,并从同一附表中,找出P=0.90P=0.90时,时,mz=1.472mz=1.472,我们知道:,我们知道:第18页,此课件共49页哦2022/10/61919v由由t t分布近似于正态分布,可以利用正态分布。分布近似于正态分布,可以利用正态分布。v可以利用正态面积表求出在可以利用正态面积表求出在t=t=一一2.112.11左边的概率面积是:左边的概率面积是:A=0.0174A=0.0174;v由于这是两侧测验,所以概率是由于这是两侧测验,所以概率是p=2*(0.0174)=0.0348p=2*(0.0174)=0.0348,这是小于,这是小于5 5
21、的显著水准,所以,拒绝这个假设,也就是的显著水准,所以,拒绝这个假设,也就是r=0.80r=0.80不可能从总体相不可能从总体相关系数关系数p=O.90p=O.90的总体中抽取出来的,也可以说,的总体中抽取出来的,也可以说,P=0.90P=0.90与与r=0.80r=0.80是是有显著差异的。有显著差异的。第19页,此课件共49页哦2022/10/62020简单回归分析简单回归分析 v回归分析:在由一个或一组非随机变量来估计或预测某一个随机变回归分析:在由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析。量的观察值时,所建立的数学模型及所进行的统计分
22、析。v如果这个模型是线性的就称为线性回归分析如果这个模型是线性的就称为线性回归分析 。v线性回归中最简单的就是两个变量,或者称为简单线性回归。线性回归中最简单的就是两个变量,或者称为简单线性回归。第20页,此课件共49页哦2022/10/62121v在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我们会在上述方程式中添加一个误差变量,以可能性模型来替点,我们会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,即:代确定方程,即:v 第第f f个地区的销售额水平;个地区的销售额水平;v 第第f f个地区的电视广告时
23、数;个地区的电视广告时数;v 与第与第i i个观察值相关的误差。个观察值相关的误差。误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。一种人类行为中不可预测的因素以及偏差的度量。可能性模型在给定可能性模型在给定 、值情况下,值情况下,yiyi与与xixi不是一一对应的关系;所能确定的只是某种不是一一对应的关系;所能确定的只是某种情况下情况下yiyi分布的平均值,而真实值则围绕自己分布的平均值上下波动。分布的平均值,而真实值则围绕自己分布的平均值上下波动。第21页,此
24、课件共49页哦2022/10/62222最小二乘法最小二乘法v我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条最能我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条最能代表真实可能性情况的方程或者说两者偏离最小。代表真实可能性情况的方程或者说两者偏离最小。v最常见的方法是最小二乘法,而该方法又是以随机误差最常见的方法是最小二乘法,而该方法又是以随机误差符合一符合一定假设为前提的,这些假设条件具体如下:定假设为前提的,这些假设条件具体如下:的均值或期望值为的均值或期望值为0 0;的方差是一个常数而且的方差是一个常数而且的方差与各个自变量无关;的方差与各个自变量无关;彼此之间
25、是相互独立的;彼此之间是相互独立的;彼此之间是相互独立的。彼此之间是相互独立的。第22页,此课件共49页哦2022/10/62323v回归方程求出的理论估计值记为回归方程求出的理论估计值记为 。v 与真实值与真实值yi yi 存在离差,记为:存在离差,记为:v最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方和最小,最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方和最小,即即 最小。最小。v ,为从样本估出的方程系数值为从样本估出的方程系数值 。v ,为总体系数值。为总体系数值。第23页,此课件共49页哦2022/10/62424结果结果其中其中第24页,此课件共49页哦
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 14 相关 分析 回归 精选 PPT

限制150内