07-第7章 相关分析.ppt
第七章第七章 相关分析 第一节第一节 相关分析的意义和任务相关分析的意义和任务 一、相关关系的概念一、相关关系的概念(注意相关关系与函数关系的区别注意相关关系与函数关系的区别)函数关系函数关系 它它反映着现象之间存在着严格的依存关系,反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。个数学表达式反映出来。例例如某种商品的销售额和销售量之间,由于如某种商品的销售额和销售量之间,由于价格因素,所以两者可表现为严格的依存关系。价格因素,所以两者可表现为严格的依存关系。函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 x xy y函数关系(几个例子)n n某种商品的销售额y与销售量x之间的关系可表示为 y=px(p 为单价)n n圆的面积S与半径R之间的关系可表示为S=R2 n n企业的原材料消耗额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系可表示为 y=x1 x2 x3 相关关系相关关系 它它反映着现象之间的数量上不严格的依存关系,反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:系有二个明显特点:1.1.现现象之间确实存在数量上的依存关系,即某一社会象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;经济现象变化要引起另一社会经济现象的变化;2.2.现现象之间的这种依存关系是不严格的,即无法用象之间的这种依存关系是不严格的,即无法用数学公式表示。数学公式表示。商品价格和商品销售量之间,存在着一商品价格和商品销售量之间,存在着一定的依存关系,即商品价格发生变动,商品定的依存关系,即商品价格发生变动,商品的销售量也会随之发生变动。的销售量也会随之发生变动。在在具有相互依存关系的两个变量中,作为具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用根据的变量称自变量,一般用X X表示;发生对表示;发生对应变化的变量称因变量,一般用应变化的变量称因变量,一般用y y表示。表示。例例相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 x xy y相关关系(几个例子)n n父亲身高y与子女身高x之间的关系n n收入水平y与受教育程度x之间的关系n n粮食单位面积产量y与施肥量x1、降雨量x2、温度x3之间的关系n n商品的消费量y与居民收入x之间的关系n n商品销售额y与广告费支出x之间的关系1.1.按按相关关系的性质来分,可分为相关关系的性质来分,可分为:正正相负相关相负相关正相关正相关是指两相关现象变化的方向是一致的。是指两相关现象变化的方向是一致的。负相关负相关是指两相关现象变化的方向是相反的。是指两相关现象变化的方向是相反的。二、相关关系的种类二、相关关系的种类 2.2.按按相关关系涉及的因素多少来分,可分为:相关关系涉及的因素多少来分,可分为:单相关和复相关单相关和复相关。二因素之间的相关关系称二因素之间的相关关系称单相关单相关,即只涉及,即只涉及一个自变量和一个因变量一个自变量和一个因变量。三个或三个以上因素的相关关系称三个或三个以上因素的相关关系称复相关复相关,或,或多元相关,即涉及二个或二个以上的自变量和因变多元相关,即涉及二个或二个以上的自变量和因变量量。3.3.按按相关关系的形式来分,可分为:相关关系的形式来分,可分为:直线相关和曲线相关直线相关和曲线相关 直线相关直线相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值发生变动时,因变量的数值发生变动时,因变量y y随之发生近似于固定比随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。因此称其为直线相关关系。曲线相关曲线相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值发生变动时,因变量的数值发生变动时,因变量y y也随之发生变动,但这也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。为曲线相关关系。4.4.按按相关程度分,可分为:相关程度分,可分为:完全相关、不完全相关和不相关完全相关、不完全相关和不相关 完全相关完全相关就是相关现象之间的关系是完全确定就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。的关系,因而完全相关关系就是函数关系。不相关不相关是指两现象之间在数量上的变化上各自是指两现象之间在数量上的变化上各自独立,互不影响。独立,互不影响。不完全相关不完全相关就是介于完全相关和不相关之间的就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关一种相关关系。相关分析的对象主要是不完全相关关系。关系。三、相关分析的主要内容三、相关分析的主要内容 相关分析的主要任务,概括起来如下相关分析的主要任务,概括起来如下(1 1)确定现象之间有无关系)确定现象之间有无关系(2)2)确定相关关系的表现形式确定相关关系的表现形式 (3 3)确定相关关系的密切程度和方向)确定相关关系的密切程度和方向第二节第二节 相关分析的判断相关分析的判断 一、相关表一、相关表某市1998年 2005年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。序号年份工资性现金支出(万元)x城镇储蓄存款余额(万元)y11998 50012021999 54014032000 62015042001 73020052002 90028062003 97035072004 105045082005 1170510例例1 1二、散点图(scatter diagram)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 二、相关系数二、相关系数 相相关系数是在直线相关条件下,表明两关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综个现象之间相关关系的方向和密切程度的综合性指标。一般用符号合性指标。一般用符号r r表示。表示。r r的测定方法:的测定方法:仍以上例1资料计算:序号年份x(万元)y(万元)11998 500120-310-155 96100 240254805021999 540140-270-135 72900 182253645032000 620150-190-125 36100 156252375042001 730200 -80 -75 6400 5625 600052002 900280 90 5 8100 25 45062003 970350 160 75 25600 562512000720041050450 240175 57600 3062542000820051170510 360235129600 5522584600合计6480 2200-432400155000 253300经过计算,表明该市工资性现金支出与城镇储蓄存款余额之间存在着高度正相关。对对r r的解释如下:的解释如下:(即即r r的特点的特点)(1)(1)r r取正值或负值决定于分子协方差;取正值或负值决定于分子协方差;(2)(2)r r的绝对值,在的绝对值,在0 0与与1 1之间;之间;(3)(3)r r的绝对值大小,可说明现象之间相关关系的紧的绝对值大小,可说明现象之间相关关系的紧密程度。密程度。相关系数的性质(取值及其意义的图解)-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负负负负相关程度增加相关程度增加相关程度增加相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加2.2.简捷法简捷法 资料计算如下:序号年份x(万元)y(万元)x2y2xy11998 500120 250000 14400 6000021999 540140 291600 19600 7500032000 620150 384400 22500 9300042001 730200 532900 4000014600052002 900280 810000 7840025200062003 970350 94090012250033950072004105045011025002025004725008200511705101368900260100596700合计6480 22005681200760000 2035300简单线性相关分析的特点简单线性相关分析的特点 通过对通过对r r的计算方法的讨论,可看出二个明显特点:的计算方法的讨论,可看出二个明显特点:2.2.相相关关系中只能计算出一个相关系数关关系中只能计算出一个相关系数r r。1.1.相相关关系中,两个变量不必定出哪个是自变量,哪关关系中,两个变量不必定出哪个是自变量,哪个是因变量,因此,相关的两个变量都是随机变量;个是因变量,因此,相关的两个变量都是随机变量;第三节第三节 回归分析回归分析(一)回归分析的概念 回归分析实在相关分析的基础上,考察变量之间的数量变化的规律,并通过一定的数学表达式描述它们之间特点的关系,进而确定一个变量或几个变量的变化对另一个特点变量的影响程度趋向中间高度的回归回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及其父母的身高时提出来的。Galton发现身材高的父母,他们的孩子身材也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向平均值靠近的趋势称为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析(二)回归分析与相关分析的区别与联系1.相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化2.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制3.相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 是非随机的确定变量2.回归分析与相关分析的联系v(1)回归分析是相关分析的基础和前提v(2)回归分析是相关分析的深入和继续一、一元线性回归一、一元线性回归(一一)一元线性回归的概念一元线性回归的概念一元线性回归一元线性回归方程的一般形式为:方程的一般形式为:因变量的估计值;因变量的估计值;x x 自变量;自变量;a a 回归直线在回归直线在y y轴上的截距;轴上的截距;b b 回归直线的斜率,称回归系数回归直线的斜率,称回归系数,表明表明x x每增加每增加 一个单位,因变量一个单位,因变量 的平均变化值的平均变化值 b0b0,x x与与y y为正相关为正相关 b0b左脑使用者 右手拇指被押在左手拇指下的-右脑使用者 2.将你的双手交叉环在胸前(揽住自己)再看看你的双手 右手臂压住左手臂的-左脑使用者 左手臂压住右手臂的-右脑使用者 v【右左人-善于体贴他人的传统温婉类型。】能直觉了解对方的心情,并自然和善对应的右左人。虽然无法主动积极的向前,但却会后退一步来迁就人,生性稳重且贴心,给人一股凡事都会好好照顾他人的安心感.不过一旦被拜托过一次,往后就很难再对他人说NO就是最大的缺点。不管自己有多么的痛苦也会为他人鞠躬尽瘁.这种热情堪称天下第一!【右右人-最爱自己的挑战类型。】生性勇往直前,一旦认定就是这个!时就会马上采取行动!这就是好奇心旺盛最爱挑战的右右人。凭着一股气势就能够坦然挑战危险事物的鲁莽一族。但另一方面亦具有被抓住弱点时就很容易被打动的鲜细脆弱一面.。基本上,不听他人的话,会跳着听谈话的内容,也很容易就以主观意识说话。不过也因这般充满个性的缘故而备受众人喜爱,往往能成为人气者唷!v【左左人-认真又酷的完美主义者。】虽颇有女人(男人)味,但却是在这四种类型中最具有男子气概!凡事都能条理分明的理论性思考,会凭着一篇大道理迅速打败他。自尊心极高,正义感也比他人多上一倍。做为朋友是很值得信赖,但若与之为敌就会很棘手的类型。只不过,因生性认真又是完美主义者,常会让初次见面的人留下难以相处的不好印象。【左右人-喜欢照顾人,领导型。】具有静的观察力能看透对方或现场的气氛,但亦具有能体贴入微照顾对方的一面,这就是兼具静与温情的左右人。因生性冷静,颇具男子气概且责任感强烈,像个大姐头般常会受到同性的爱慕。能自然聚集人群并与之俐落相处。只不过,有时也会忍不住太爱照顾他人。相当在意世人如何看待自己,总是保持警觉心。