《统计学相关与回归分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学相关与回归分析幻灯片.ppt(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学相关与回归分析第1页,共51页,编辑于2022年,星期二1第一节 相关分析本节内容一、相关关系的概念二、相关关系的种类三、相关关系的测定四、相关分析中应注意的问题 第2页,共51页,编辑于2022年,星期二21.函数关系函数关系当一个或几个变量取一定的值时,另一个变量有确定当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。值与之相对应,我们称这种关系为确定性的函数关系。例例:某种商品的销售额某种商品的销售额(y y)与销售量与销售量(x x)之间的关系可表示为之间的关系可表示为:y y=p x p x (p p 为单价为单价)圆的面积圆的面积(
2、S)S)与半径之间的关系可表示为与半径之间的关系可表示为:S S=r r2 2 企企业业的的原原材材料料消消耗耗额额(y y)与与产产量量(x x1 1)、单单位位产产量量消消耗耗(x x2 2)、原原材材料料价格价格(x x3 3)之间的关系可表示为之间的关系可表示为:y y=x x1 1 x x2 2 x x3 3 一、相关关系的概念第3页,共51页,编辑于2022年,星期二3 x xy y(1)变量之间是一一对应的确定关系;(2)设有两个变量x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称y 是 x 的函数,记为y
3、y =f f(x x),其中x 称为自变量,y 称为因变量;(3)各观测点落在一条线上.函数关系的特点:第4页,共51页,编辑于2022年,星期二42.相关关系相关关系指变量之间保持着不确定的数量依存关系。即变量间关系不指变量之间保持着不确定的数量依存关系。即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量唯一确定,当变量x取某个值时,变量取某个值时,变量y的取值可能有几的取值可能有几个。个。例:商品的消费量例:商品的消费量(y)y)与居民收入与居民收入(x)x)之间的关系;之间的关系;商品的消费量商品的消费量
4、(y)y)与物价与物价(x)x)之间的关系;之间的关系;商品销售额商品销售额(y)y)与广告费支出与广告费支出(x)x)之间的关系;之间的关系;粮粮食食亩亩产产量量(y)y)与与施施肥肥量量(x x1 1)、降降雨雨量量(x x2 2)、温温度度(x x3 3)之之间间的的关关系;系;收入水平收入水平(y)y)与受教育程度与受教育程度(x)x)之间的关系。之间的关系。第5页,共51页,编辑于2022年,星期二5相关关系的特点:x xy y(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量 x 取某个值时,变量 y 的取值可能有几个;(4)各观测点
5、分布在直线周围。第6页,共51页,编辑于2022年,星期二6具有相关关系的某些现象可表现为因果关系。自变量:是引起某种结果变化的原因,它是可以控制、给定的值,常用x表示;因变量:是自变量变化的引起结果量,它是不确定的值,常用y表示。它们的表现形式有多种:一种原因引起一种结果;多种原因引起一种结果;还有变量之间是互为因果的关系。相关分析时,一般不区分原因和结果。第7页,共51页,编辑于2022年,星期二7二、相关关系的种类 1.1.按相关的程度可分为完全相关、不完全相关和不相关按相关的程度可分为完全相关、不完全相关和不相关n完全相关:当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为
6、为完全相关关系,这种严格的依存关系实际上就是函数关系。n不相关:当两个变量的变化相互独立、互不影响时,称这两个变量不相关(或零相关)。n不完全相关:当变量之间存在不严格的依存关系时,称为不完全相关。不完全相关关系是现实当中相关关系的主要表现形式,是相关分析的主要研究对象。第8页,共51页,编辑于2022年,星期二82.2.按相关的方向可分为正相关和负相关按相关的方向可分为正相关和负相关正相关:当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化时,称为正相关。如家庭收入与家庭支出之间的关系。负相关:当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化时,称为负相
7、关。如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。第9页,共51页,编辑于2022年,星期二93、按相关的形式可分为线性相关和非线性相关按相关的形式可分为线性相关和非线性相关线性相关:当变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就称为线性相关。非线性相关:当变量间的关系不按固定比例变化时,就称之为非线性相关。第10页,共51页,编辑于2022年,星期二104.4.按研究变量的多少可分为单相关、偏相关和复相按研究变量的多少可分为单相关、偏相关和复相关关单相关:两个变量之间的相关,称为单相关。复相关:一个变量与两
8、个或两个以上其他变量之间的相关,称为复相关。偏相关:在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时称其为偏相关。第11页,共51页,编辑于2022年,星期二11三、相关关系的测定 注意:并非所有的变量之间都存在相关关系,因此需要用相关分析方法来识别和判断。相关分析就是借助于图表和分析指标对变量之间的依存关系的密切程度进行测定的过程。定性分析定性分析是依据研究者的理论知识和实践经验,对客观是依据研究者的理论知识和实践经验,对客观是依据研究者的理论知识和实践经验,对客观是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作现象之间是否存在相关关系
9、,以及何种关系作现象之间是否存在相关关系,以及何种关系作现象之间是否存在相关关系,以及何种关系作出判断。出判断。出判断。出判断。定量分析定量分析在定性分析的基础上,通过编制在定性分析的基础上,通过编制在定性分析的基础上,通过编制在定性分析的基础上,通过编制相关表相关表相关表相关表、绘制、绘制、绘制、绘制相关图相关图相关图相关图、计算、计算、计算、计算相关系数相关系数相关系数相关系数等方法,来判断现象之等方法,来判断现象之等方法,来判断现象之等方法,来判断现象之间相关的方向、形态及密切程度。间相关的方向、形态及密切程度。间相关的方向、形态及密切程度。间相关的方向、形态及密切程度。第12页,共51
10、页,编辑于2022年,星期二12(一)相关表:将自变量(一)相关表:将自变量x x的数值按照从小到大的顺序,的数值按照从小到大的顺序,并配合因变量并配合因变量y y的数值一一对应而平行排列的表。的数值一一对应而平行排列的表。(二)相关图(散点图)(二)相关图(散点图)识别变量间相关关系最简单的方法是散点图法。识别变量间相关关系最简单的方法是散点图法。所谓散点图法,就是将所研究变量的观察值以散点的形所谓散点图法,就是将所研究变量的观察值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、来判断变量之
11、间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。相关的方向和相关的程度等。第13页,共51页,编辑于2022年,星期二13【例】在研究我国人均消费水平的问题时,把全国人均消费记为y,把人均国内生产总值(人均GDP)记为x。我国人均国内生产总值与人均消费金额数据 单位:元 年份人均国内生产总值X人均消费金额Y199519961997199819992000200120022003485455766054630865517086765182149101223626412834297231383397360938184089从上表可以看出从上表可以看出X X和和Y Y这两个变量之间存在
12、什么样的相关关系?这两个变量之间存在什么样的相关关系?将上表资料绘制散点图如下:将上表资料绘制散点图如下:第14页,共51页,编辑于2022年,星期二14所绘制的散点图呈现出从左至右的上升趋势,它表明x与y之间存在着一定的正相关关系,即随着人均GDP的上升,人均消费金额也会增加。有时也可通过表格来直接观察变量之间是否存大相关关系。将上表资料绘制散点图如下:将上表资料绘制散点图如下:第15页,共51页,编辑于2022年,星期二15(a)正相关直线相关(b)负相关直线相关(c)正相关曲线相关x与y关系散点图的主要类型第16页,共51页,编辑于2022年,星期二16(d)负相关曲线关系(e)负相关直
13、线相关(相关程度较小)(f)不相关第17页,共51页,编辑于2022年,星期二17(二)相关系数相关图表可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。统计学家卡尔皮尔逊设计了统计指标 相关系数。简单相关系数:在线性条件下说明两个变量之间简单相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简称相关系相关关系密切程度的统计分析指标,简称相关系数。数。根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相相关关系系数数,记记为为;根据样本数据计算的,则称为样本相关系数,记为根据样本数据计算的,则称为样本相关系数,记为 r。将反映两变
14、量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。第18页,共51页,编辑于2022年,星期二18n1、由未分组资料计算相关系数公式:上述公式还可以变换为其它形式,如:第19页,共51页,编辑于2022年,星期二19第20页,共51页,编辑于2022年,星期二20第21页,共51页,编辑于2022年,星期二21【例】根据上述资料,计算人均消费与人均国内生产总值的直线相关系数。第22页,共51页,编辑于2022年,星期二22将上表计算结果代入公式为:相关系数较大,这说明人均消费额与人均国内生产总值高度相关。2、由分组资料计
15、算相关系数的公式为:第23页,共51页,编辑于2022年,星期二23-1.0+1.00-0.5+0.5无线性相关无线性相关负相关程度增加负相关程度增加r正相关程度增加正相关程度增加完全负相关完全负相关完全正相关完全正相关3、相关系数取值及其意义相关系数取值及其意义相关系数的值介于1与+1之间,即1r+1。第24页,共51页,编辑于2022年,星期二24(1)当r0时,表示两变量正相关,r0时,两变量为负相关。(2)当|r|=1时,表示两变量为完全线性相关,即为函数关系。(3)当r=0时,表示两变量间无线性相关关系,它并不意味着与之间不存在其他类型的关系。(4)当0|r|0,说明两变量之间正线性
16、相关;2)所有相关点都为负相关,则 0,说明两变量之间负线性相关;3)在全部相关点中,既有正相关、又有负相关和零相关,这时计算协方差时就会出现正负抵消。抵消的结果为正数,为正相关;为负数就是负相关.第26页,共51页,编辑于2022年,星期二26四、相关分析中应注意的问题(一)相关系数是说明线性联系程度的,相关系数很小的变量间可能存在非线性联系。(二)相关系数不能解释两变量间的因果关系,警惕虚假相关导致的错误结论。有人曾对教师工资提高和酒价上涨的数据计算相关系数,得到的数值比较大,这是否表明教师工资提高导致酒的消费量增加,从而导致酒价上涨呢?经定性分析,事实是由于经济繁荣导致政府普遍增加工资,
17、其中教师工资也随之增加,同时人们收入提高增加了酒的消费导致酒价的上涨,而教师工资增长和酒价之间并没有什么直接关系。(三)不要在相关关系据以成立的数据范围以外,推论这种相关关系仍然保持。第27页,共51页,编辑于2022年,星期二27第二节 一元线性回归分析n本节内容:n一、回归分析的概念及种类n二、一元线性回归模型n三、回归估计标标准误差n四、可线性化的常用曲线类型 第28页,共51页,编辑于2022年,星期二28一、回归分析的概念1、什么是回归分析“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。回归分析通过一个变量或一些变量的变化解释另一变量的变化,即从一组
18、样本数据出发,确定变量之间的数学关系式。第29页,共51页,编辑于2022年,星期二292、相关分析与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。第30页,共51页,编辑于2022年,星期二30二者的区别:(1)相关分析中变量之间的关系是对等的;回归分析中,变量之间的关系是不对等的,将变量划分自变量和因变量。(2)相关分析中变量都必须是随机变量;回归分析中,自变量是给
19、定的,因变量是随机的。(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,相关系数是惟一的。而在回归分析中,对于互为因果的两个变量,则有可能存在两个或多个回归方程。第31页,共51页,编辑于2022年,星期二313、回归分析的种类一个自变量一个自变量一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归第32页,共51页,编辑于2022年,星期二324、回归分析步骤:首先对变量之间的关系进行相关分析,并将变量分
20、为自变量和因变量;其次,找出合适的回归模型(即数学方程式),描述变量间的关系;再次,对回归模型进行统计检验;最后,统计检验通过后,利用回归模型,根据自变量去估计、预测因变量。本节仅讨论一元线性回归分析。第33页,共51页,编辑于2022年,星期二33二、一元线性回归模型如果变量x和y相关,并且从相关图表中可以看出它们之间大致形成一种直线关系,我们就可在相关图上求出一条与各点最相配合的直线。y=a+bx+式中x为自变量,通常由研究者事先选定数值。a为样本回归直线在y轴上的截距;b为样本回归直线的斜率(又称回归系数),它表示当x增加一个单位时y的平均增加数量;为误差项。第34页,共51页,编辑于2
21、022年,星期二341.当只涉及一个自变量时称为一元回归,若因变量 y与自变量x之间为线性关系时称为一元线性回归。2.对于具有线性关系的两个变量,可以用一条直线方程来表示它们之间的关系。3.描述因变量y如何依赖于自变量x和误差项的方程称为回归模型。一元线性回归概念要点一元线性回归概念要点第35页,共51页,编辑于2022年,星期二35在回归分析中,欲使所求回归直线 y=a+bx最适合于实际资料,必须使每个xi对应的指标实测值yi与回归直线确定的估计值yi的离差平方之和为最小。这样便把寻找适当直线问题转化为使 Q(a,b)达到最小条件下求出a、b的问题。如何确定回归直线方程呢?(怎样确定参数a、
22、b)最小值第36页,共51页,编辑于2022年,星期二36满足上述条件的a、b即为所求的未知参数。由化简得(yabx)=0(yabx)x=0即:y=n a+bxxy=ax+bx2因为Q(a,b)是a、b的非负二元函数,所以其最小值无疑是存在的。根据数学中的极值原理,令:第37页,共51页,编辑于2022年,星期二37上述方程组称为标准方程组。解之,得:a=yb x第38页,共51页,编辑于2022年,星期二38将上述结果代入即可确定回归方程式为:y=a+b x这个方程称为在给定样本条件下的一元线性回归方程,对应的直线称为样本回归直线。回归方程对于不同的样本是有差别的,因而,它具有经验的特征,所
23、以在实用上,也将它叫做经验公式。第39页,共51页,编辑于2022年,星期二39教育经费(万元)x在校学生数(万人)y316343373393418455111618202225要求:(1)建立教育经费x与高校学生人数回归直线方程;(2)估计教育经费为500万元时的在校学生数。例:某地高校教育经费x与高校学生人数y连续6年的统计资料如下表。第40页,共51页,编辑于2022年,星期二40回 归 分 析 计 算 表教育经费x在校学生数y xy316343373393418455111618202225347654886714786091961137599856117649139129154449
24、1747242070251212563244004846252298112441098928322210 x2y2第41页,共51页,编辑于2022年,星期二41(1)建立回归直线方程所以回归方程为:Y-17.91+0.0955x(2)当教育经费为500万元时,在校学生数可以为:Y-17.91+0.095550029.84(万人)y=a+b x第42页,共51页,编辑于2022年,星期二42为了简化上述回归系数b的表达形式,引入如下离差乘积的和式:Lxy=(x x)(y y)Lxx=(xx)2于是,回归系数可简化为为了相关性检验的需要,顺便引入关于 y 的离差平方和:Lyy=(y y)2第43
25、页,共51页,编辑于2022年,星期二43三、回归估计标准误差n回归方程的一个重要作用在于根据自变量的已知值估计因变量的理论值(估计值)。而理论值yc与实际值y存在着差距,这就产生了推算结果的准确性问题。如果差距小,说明推算结果的准确性高;反之,则低。n为了度量y的实际水平和估计值离差的一般水平,可计算估计标准误差。n估计标准误差是衡量回归直线代表性大小的统计分析指标,它说明观察值围绕着回归直线的变化程度或分散程度。第44页,共51页,编辑于2022年,星期二44为了度量回归方程的可靠性,通常计算估计标准误差。它度量观察值回绕着回归直线的变化程度或分散程度。通常用Sy代表估计平均误差,其计算公
26、式为:注意,公式中根号内的分母是n2,而不是n。这是由 于Q=(yy)2有 两 个 线 性 关 系 的 约 束,一 是 ,一是 ,因而,Q=(yy)2的自由度为n2。(一)估计标准误差的计算第45页,共51页,编辑于2022年,星期二45上述公式可以简化为下列公式,计算步骤,所得计算结果也相一致。估计标准误差愈大,则数据点围绕回归直线的分散程度就愈大,回归方程的代表性愈小。估计标准误差愈小,则数据点围绕回归直线的分散程度愈小,回归方程的代表愈大,其可靠性愈高。第46页,共51页,编辑于2022年,星期二46根据上例资料,计算估计标准误差为:第47页,共51页,编辑于2022年,星期二47(二)
27、回归估计标准差与一般标准差回归估计标准差与第五章介绍的标准差的计算原理是一致的,两者都是反映平均差异程度和表明代表性的指标。一般标准差反映的是各变量值与其平均数的平均差异程度,表明其平均数对各变量值的代表性强弱;回归标准误差反映的是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值的代表性强弱,其值越小,估计值yc(或回归方程)的代表性越强,用回归方程估计或预测的结果越准确。第48页,共51页,编辑于2022年,星期二48估计标准误差小,相关系数的绝对值就越大,表明现象之间相关关系越密切,如果估计标准误差的值等于0,相关系数的绝对值等于1,表明完全相关。这两个指标在数量上有如下的关系:第49页,共51页,编辑于2022年,星期二49四、可线性化的常用曲线类型(略)n(一)指数函数 n(二)幂函数 n(三)双曲线函数 n(四)对数函数 n(五)S形曲线 第50页,共51页,编辑于2022年,星期二50本章小结:1、相关关系的概念、种类与测定2、回归分析的概念及种类3、一元线性回归模型4、回归估计标标准误差布置第三单元习题。第51页,共51页,编辑于2022年,星期二51
限制150内