相关分析与回归分析教案幻灯片.ppt
相关分析与回归分析教案第1页,共51页,编辑于2022年,星期一章节提纲:1.相关分析概论2.相关关系的测定3.一元线性回归分析4.多元线性回归分析n n学习目标 1 1、了解相关关系的概念及种类、相关分析的概念和内容、了解相关关系的概念及种类、相关分析的概念和内容 2 2、重点掌握简单相关系数的计算方法、重点掌握简单相关系数的计算方法 3 3、掌握回归分析的概念及建立线性回归方程的方法、掌握回归分析的概念及建立线性回归方程的方法 4 4、掌握相关参数的统计检验,能对统计软件回归计算的结、掌握相关参数的统计检验,能对统计软件回归计算的结第2页,共51页,编辑于2022年,星期一第一、二节 相关分析概述相关关系测定 第3页,共51页,编辑于2022年,星期一变量间关系变量间关系血压血压 年龄年龄动物死亡率动物死亡率 毒物剂量毒物剂量体重体重身高身高肺活量肺活量体重体重相关相关:血压和年龄血压和年龄关联的程度如何关联的程度如何?动物死亡率与毒物剂量动物死亡率与毒物剂量关联的程度如何关联的程度如何?回归回归:人群中人群中,平均而言平均而言,血压血压 如何随年龄变化如何随年龄变化?毒性实验中毒性实验中,动物死亡率动物死亡率如何随剂量变化如何随剂量变化?两个随机变量之间的关系回归:如何-即定量的联系,从一个变量来预测另外一个变量一个变量来预测另外一个变量。给定剂量,动物的死亡率,能不能做出预测。都是描述两个随机变量之间的关系。回归回答如何第4页,共51页,编辑于2022年,星期一散点图散点图Fig.7.1收缩压和收缩压和舒张压舒张压(mmHg)(665名名6至至10岁女孩岁女孩)收缩压收缩压舒张压他两的关系都是此长彼长。所以总体趋势总体趋势看得出是向前的。但是给定了一个舒舒张压,但是收缩压可以是高也可以是低。张压,但是收缩压可以是高也可以是低。第5页,共51页,编辑于2022年,星期一指数函数指数函数对数函数对数函数正弦函数正弦函数Y 和和 X之间的函数关系之间的函数关系对应于给定的对应于给定的X值值,相应的相应的Y值是确定的值是确定的.但现在给定一个X值,Y可能是不确定的。(是上页)第6页,共51页,编辑于2022年,星期一 分散集中x不论怎么变,Y都是在一个范围走动,那么X和Y没有什么相关性。没有什么相关性。烧饼,给定一个X,就是一个水平上,X变,y也是一个水平上,也没有关系香蕉,x变大,y从小到到,去曲线关系,不是线性关系。线性相关也几乎是零线性相关也几乎是零,虽然是曲线关系下前三没有相关性上面都是线性相关上面都是线性相关一三是正线性相关,3图相关性好。2,4是负先关性,4负的绝对值绝对值比2好一些。相关性好就是绝对值好些一下研究的都是线性相关,一下研究的都是线性相关,简称相关简称相关第7页,共51页,编辑于2022年,星期一三、相关关系三、相关关系 相关系数是度量两个变量之间线性相关的方向和强度的测度,常用的度量指标是皮尔逊(Pearson)相关系数【专栏】在相关分析中,定性分析或经济理论分析重要吗【专栏】在相关分析中,定性分析或经济理论分析重要吗?correlation coefficient第8页,共51页,编辑于2022年,星期一 相关系数相关系数(Correlation Coefficient)1.总体相关系数总体相关系数(Population correlation coefficient)Pearsons 乘积乘积-矩线性相关系数矩线性相关系数:“两个两个标准化标准化变量之乘积变量之乘积”的总体平均的总体平均-简单相关系数简单相关系数(simple correlation coefficient)-X和和Y的总体协方差的总体协方差相关系数也有总体和样本总体和样本,但一般我们只掌只掌握样本握样本X舒张压Y收缩压x标准化标准化X标准化标准化*Y标准化标准化相乘,相乘,然后取总得平均,在总体里面去平均。总体里面全部人去求平均是总体相关系数。如果去简化sigama x、y是常数,拿出来外面。X-x是离均差,上面就是两个离均差相乘,E是期望。期望就是期望。期望就是求平均的意思,在总体里是求平均的意思,在总体里面的平均的意思面的平均的意思总体里面的协方差算在一块、总体里面的协方差算在一块、舒张压离开平均值舒张压离开平均值多远,多远,收缩压收缩压离开平均值都远,离开平均值都远,相乘一块有多远相乘一块有多远,也叫,也叫监督相关系数监督相关系数一定介于-1和1之间总体均数Ro第9页,共51页,编辑于2022年,星期一去掉n,公式如下:第10页,共51页,编辑于2022年,星期一 2.2.样本相关系数样本相关系数(Sample correlation coefficient)需要用样本来估计相关系数 怎么定义,类似刚才的X(Y)-样本的观察值减去样本的均数,然后相乘。乘积统统加起来。下面不求平均,不然就约掉了-离均差的平方求和乘以离均差的平方求和。样本的离均差乘积求和 离均差平方之和 介于-1和1之间。有可能发生-1和1,但生活中很少发生第11页,共51页,编辑于2022年,星期一度量线性关系的强度和方向度量线性关系的强度和方向:1)r=0-无线性关系无线性关系,或很弱或很弱 2)若绝对值较大若绝对值较大 -线性关系较强线性关系较强 3)符号正负符号正负 -线性关系的方向线性关系的方向 4)+1or-1-完全相关完全相关,实践中少见实践中少见P181第12页,共51页,编辑于2022年,星期一研究父子之间身高的关联性为什么这么来定义?样本样本-判断关联性,求判断关联性,求r样本的离均差乘积之和 X本身的离均差平方之和 Xbar计算出来例子8-1 第13页,共51页,编辑于2022年,星期一第三节第三节 一元线性回归分析一元线性回归分析第14页,共51页,编辑于2022年,星期一第三节 一元线性回归分析 回归分析实质就是通过建立回归分析实质就是通过建立数学方程数学方程,研究因变量与,研究因变量与自变量之间的变动关系,如果分析自变量之间的变动关系,如果分析一个自变量与一一个自变量与一个因变量个因变量的的线性线性关系,称为关系,称为一元线性回归分析一元线性回归分析,如,如果分析果分析两个或两个以上两个或两个以上的自变量与的自变量与一个因变量一个因变量的的线性线性关关系,则称为系,则称为多元线性回归多元线性回归。第15页,共51页,编辑于2022年,星期一一、一元线性回归理论模型一、一元线性回归理论模型一元线性回归模型是用于分析一个自变量一个自变量x与一个因变量与一个因变量y之间线性关系的数学方程,在变量x与y的直角坐标平面上,可以绘制散点图,可以看出所有的散点大致呈线性关系 or在一元线性回归之中,因变量由两个部分组成,一个是 ,其解释了自变量x变动引发的线性变化。另一部分为剩余变动 ,反映了不能为自变量x和因变量y之间的线性关系所解释的其他剩余变动。第16页,共51页,编辑于2022年,星期一根据刚才的那组表。是不是最后会呈这样的图形板书那么我们回到线性方程的知识里面去。用公式来代表,其实就是一个求极值求极值的问题。左边就是 Min(Y-Yheand)2。y-yhead的纵向距离的和最小。y-yhead就是残差就是残差,是一个剩余的部分,是一个估计值。实际的是y,希望你估计值yhead尽量接近你实际得到的指标y,这是最好的。所以残差(剩余残差(剩余的部分)最小的部分)最小。而yhead=(a+bx)带进去,求偏导-最小二乘法拓展但两个自变量呢?是不是一个平面平面。不,是一个三维空间三维空间。三个自变量?四维。多变量和一个y,多维。其实只要知道残差最小就行。同样的原理。二、普通最小二乘估计(ols)第17页,共51页,编辑于2022年,星期一最小平方法最小平方法是测定长期趋势最常用的的方法。它是通过建立数学方程,对元时间序列配合一条较为是测定长期趋势最常用的的方法。它是通过建立数学方程,对元时间序列配合一条较为理想的趋势线,使得原序列中的各实际值和趋势值的离差平方最小。一般最小平方法的统计理想的趋势线,使得原序列中的各实际值和趋势值的离差平方最小。一般最小平方法的统计表达式是:表达式是:式中式中:采用这种趋势要配合直线,也可以配合曲线配合直线,也可以配合曲线,这需要跟原序列所反映的现象变动的特点来确定。趋势形态判断方法比较多,最为简单的就是画散点图画散点图。若散点大致在某一条直线周围若散点大致在某一条直线周围波动,就配合趋势直线;若散点大致在某一条曲线周围波动,就配合趋势曲线。波动,就配合趋势直线;若散点大致在某一条曲线周围波动,就配合趋势曲线。首先介绍直线趋势的配合。首先介绍直线趋势的配合。第18页,共51页,编辑于2022年,星期一(一)直线方程(一)直线方程适用条件:现象发展的各期逐期增长量大体相等现象发展的各期逐期增长量大体相等。年份199019911992199319941995199619971998粮食产量100112125140155168180194206逐期增长量-1213151513121412第19页,共51页,编辑于2022年,星期一即趋势值【(2X+1)】=2(2x+1)*2=8x+4画图,这边,x对应的是时间序号,而Y帽子代表的是发展水平。直线方程公式表示为:上述直线方程式中,a、b为两个未定参数,根据最小平方法的要求第20页,共51页,编辑于2022年,星期一求方程组:例例-某某省省19911998年人口资料如表所示,要求拟合时点的趋势方程,并以此趋势预测年人口资料如表所示,要求拟合时点的趋势方程,并以此趋势预测1999年末的人口数。年末的人口数。8763n=8b求出来都代入到a公式里面yx就是第几年就是第几年第21页,共51页,编辑于2022年,星期一横轴表示时间,纵轴表示元数列的指标数值,坐标原点定在横轴表示时间,纵轴表示元数列的指标数值,坐标原点定在1990年,其序号年,其序号0用来表示,拟合直线趋势方程。用来表示,拟合直线趋势方程。根据上述公式:将将1999年时间序列号年时间序列号9带入配合的趋势方程,可得到带入配合的趋势方程,可得到1999年末某省人口数的趋势年末某省人口数的趋势值(预测值)值(预测值)既,1999年末该省人口数将达到9402.94万人。1990是原点是原点画图第22页,共51页,编辑于2022年,星期一上述方程中的x为时间。为了计算方便,可对其进行假设:当时间项数为奇数时奇数时,可假设x的中间项为0,这时时间项依次排列为:,-3,-2,-1,0,1,2,3,;当时间项数为偶数时,可假设原点0在数列正中相另两个时间的中点,这时时间项依次排列为:,-5,-3,-1,1,3,5,这种设x的方法是要使时间项的正负相抵消,使x=0,则上述联立方程组可简化为:为了方便手工计算,可以把原数列的重点移至坐标原点,使得”x=0“,此时,标准方程可以化为:-3,-2,-1,0,1,2,3相加等于零画图第23页,共51页,编辑于2022年,星期一例如;用简便的方法来计算上面例子。1999年的时间序号应该为9.第24页,共51页,编辑于2022年,星期一年份199019911992199319941995199619971998粮食产量100112125140155168180194206逐期增长量-1213151513121412本例中各期的逐期增长量大体相同期的逐期增长量大体相同,可以配合直线趋势方程。Practic-某地区各年的粮食产量为:Tip:首先判断一下,趋势是怎么样的。第25页,共51页,编辑于2022年,星期一案例:某地区粮食产量直线趋势方程计算年份xyxy1990-4100-400161991-3112-33691992-2125-25041993-1140-140119940155001995116816811996218036041997319458291998420682416合计-138080860第26页,共51页,编辑于2022年,星期一(i)已知:)已知:n对观察值对观察值(X1,Y1),(X2,Y2),(Xn,Yn););(ii)作散点图()作散点图(scatter diagram)(iii)若散点图呈直线趋势,则配一条直线)若散点图呈直线趋势,则配一条直线:求出直线的方程式求出直线的方程式 刚才是X对父子哪怕是有些分散的下面看怎么计算线性回归三步骤线性回归三步骤第27页,共51页,编辑于2022年,星期一什麽是回归?找出反映平均水平的那条直线的方程找出反映平均水平的那条直线的方程100120140160180200220100120140160180200220Fathers heightFathers height(cmcm)Sons height(cm)Y的平均值是如何依赖的平均值是如何依赖X第28页,共51页,编辑于2022年,星期一 给定给定 X的数值的数值,Y 的数值取在在一个平均值的数值取在在一个平均值(y|x)附近 对应与不同对应与不同的的X值值,Y 的平均值座落在一条直线上平均值座落在一条直线上 -回归直线回归直线.y|x 和和 X的关系可用一个线性方程描写的关系可用一个线性方程描写.这样的回归线用方程来表示第29页,共51页,编辑于2022年,星期一三、一元回归的统计检验三、一元回归的统计检验统计检验包括线性关系检验和回归系数检验,具体包括拟合优拟合优度检验、参数显著性检验以及度检验、参数显著性检验以及回归总体线性回归总体线性的显著性检验的显著性检验1、经济意义检验:就是根据模型中各个参数的经济含义,分析各参数的值是否与分析对象的经济含义相符。2、回归标准差检验3、拟合优度检验4、回归系数的显著性检验第30页,共51页,编辑于2022年,星期一3.估计标准误差 用来反映回归直线代表性大小的统计分析指标。回归的残差平方和除以它的自由度来表示,称为剩余方差。标准误差为剩余方差的开方:P318 例9-7 第31页,共51页,编辑于2022年,星期一接下来的内容只做拓展接下来的内容只做拓展第32页,共51页,编辑于2022年,星期一相关系数计算检验的步骤根据公式计算相关系数r值 根据给定的显著性水平,查相关系数检验表,自由度为n-2,得到临界值 统计决策4.相关性检验(r检验)判决系数R2是对变量x与y变量进行回归回归时做出的,用来衡量回归的拟合优度;相关系数r是对变量x与y变量进行相关相关分析时做出的,用以判定变量x与y的线性相关程度。与r的区别:P319例9-8第33页,共51页,编辑于2022年,星期一 r 随样本变化而变化随样本变化而变化,是一个随机变量是一个随机变量 总体的回归系数总体的回归系数 r 问题问题:=0 吗吗?假定假定:X 和和Y 服从服从二元正态分布二元正态分布3.相关系数的统计检验相关系数的统计检验相关系数的统计检验相关系数的统计检验相关系数是从样本里面选出来。用样本的相关系数去推出总体的样本相关系数总体如果样本里r非零(0.几),退出 是零或 是零,但样本里面非零,所以假设检验平面上有x轴和y轴xy服从二元正态分布的话,x本身服从一元真该分布,同理for Y刚才看的是样本,那么我怎么知道这个样本可否推断出总体?第34页,共51页,编辑于2022年,星期一1、离差平方和的分解P316=0总离差平方和总离差平方和TSS回归平方和回归平方和ESS残差平方和残差平方和RSS再回到第一个的拟合优度判断再回到第一个的拟合优度判断第35页,共51页,编辑于2022年,星期一n离差平方和的分解 TSS=RSS+ESS n拟合优度检验拟合优度检验(判决系数R2)也叫判决系数,数值范围为也叫判决系数,数值范围为01之间。之间。若若R2=1,说明全部样本观察值均在估计的回归直线上,观察值,说明全部样本观察值均在估计的回归直线上,观察值yi与与回归值(估算值)完全拟合。回归值(估算值)完全拟合。若若R2-0,完全不拟合,线性模型完全不能解释因变量,完全不拟合,线性模型完全不能解释因变量yi的变动。的变动。R2越接近于越接近于1,拟合程度越好,反之越差。,拟合程度越好,反之越差。P317 例子 9-6第36页,共51页,编辑于2022年,星期一t 检验:是对回归系数的显著性检验 t 检验的基本步骤 提出假设构造t检验统计量,并由样本数据计算t检验值 根据显著性水平,查t分布表,得到临界值 统计决策5.参数的显著性检验参数的显著性检验(t检验检验)P320 t(n-2)l显著性检验包括两个方面:1.回归系数(参数)回归系数(参数)2.整个回归方程整个回归方程第37页,共51页,编辑于2022年,星期一 b 随样本变化而变化随样本变化而变化,是一个随机变量是一个随机变量 总体的回归系数总体的回归系数 b 问题问题:=0 吗吗?2.关于回归的统计推断关于回归的统计推断 20对父子,找出来的规律,不完全等同于客观上父子身高的规律,再测20对父子,可能出来就边了,所以b随着样本变化而变化我们关心不是b是,有了b推测最关系的是,是不是零的。是零的话,线是水平的,代表那就没有办法推测出儿子身高。还有去推断是否为零第38页,共51页,编辑于2022年,星期一统计量统计量回归系数的标准差回归系数的标准差残差的标准差残差的标准差回归系数的回归系数的t 检验检验=0.05样本里面的斜率减去理论上的斜率(H0),=0so 涉及到Sb样本标准误b怎么有标准差?换另外一批数值,有另外一个,随机(样本变动)变动理论上可以推出b随机变动的标准差t如果太大,不太可能太大,一般2.几,3.几就很大了。H0成立的话,t就跑到尾巴里面去了,所以不太可能,拒绝H0因此要涉及计量范围,X的范围要设计得大一些,那么b的变化(Sb)就小些,就不是要做很多分样本,一份就够了,那更能就近真是的(b变异性大师很不好的)。s是反映散点,没有办法改变。能改变的只有Sb的分母(X轴分散度)就像实验和温度,温度散开点,会更好参照。设计回归的时候:设计回归的时候:b的变异性s反应散点下一页解释下一页解释第39页,共51页,编辑于2022年,星期一残差的标准差放在分子,散点分布情况,分母是X的离均差平方之和,反映了父亲身高的变异性,父亲如果有高高唉唉,那么(离均差的平方值)变异性就大。所以b的变异性是和两者有关。b在这里就是斜率在这里就是斜率,斜率怎么会变,翘起来,或者压下去,样本变了。斜率的变异性跟斜率的变异性跟两个因素有关,两个因素有关,散点的分散性散点的分散性,同时和估计身高的分散性身高的分散性(X轴上的分散性)有关。若父亲的高矮千遍一律,斜率变异性怎么样,翘得就低,相反就高(上下两点拉大)敲高。如果是X轴分散,(左右拉大),换一份样本,变化小一些。斜率的离异程度斜率的离异程度s就是残差平方治和最小的那个残差平方之和(已经达到最小)。(分子)再去除以自由度。n-2?推导方程的时候已经用了a和b,用了两个参数。S平方就是方差平方就是方差-残差的变异性S就是残差的标准差,描述去大小,与散点有关,分散度。分散大,残差平方和就大。理论上可以推出b随机变动的标准差s反应散点反应散点回归系数的标准差回归系数的标准差残差的标准差残差的标准差b的变异性的变异性s反应散点反应散点第40页,共51页,编辑于2022年,星期一P320 例子9-9第41页,共51页,编辑于2022年,星期一F检验是对回归总体线性关系是否显著的一种假设检验F检验的基本步骤 提出假设构造F检验统计量,并由样本数据计算F检验值 根据显著性水平,查F分布表,得到临界值 统计决策6.回归总体线性的显著性检验(F检验)P321 例子 9-10第42页,共51页,编辑于2022年,星期一F检验是对整个模型而已的,看是不是自变量系数不全为0,而t检验则是分别针对某个自变量的,看每个自变量是否有显著预测效力。在回归分析中,F检验和t检验各有什么作用?在一元回归里面,F检验与t检验是等价的。其实一样多元则不一样了。P322第43页,共51页,编辑于2022年,星期一 3.回归方程的应用回归方程的应用(1)估计平均值估计平均值 的范围的范围 -平均值的置信区间平均值的置信区间(CI)(2)估计个体值估计个体值 Y 的范围的范围 -个体值的预测区间个体值的预测区间(PI)预测,有两个东西需要预测:1假定给了父亲身高,这类孩子这类孩子的将来的平均水平(不是针对这个父亲他的孩子,而是针对170的这样的父亲,他们的孩子将来平均有多高。(样本量是20个)2.这个父亲,他的儿子这个父亲,他的儿子将来在于什么范围内,这个比较难,特定他的儿子。先说第一件事情样本平均值是有波动的,跟两者有关,一个是样本样本量量,n越大,中间黑线稳定。方差问题。第二个就是自变量拉自变量拉得开不开得开不开。第三个就是x0,例如1米7,你给的身高离开平均身高远不远。如文问我的父亲是两米,离开均值一米六八的大,根号里面大,差异性就大了。X0越靠近xbar,效果越好S和原来散点的分散程度有关confident intervel,平均值的置信区间如果把置信区间画到图上,确定一个x0就可以确定一个y0,就可以出来一个置信区间,再改动一个x0,又有一个y0,又有一个置信区间。图上,换一个x0,就在直线的上下,有一个区间再直线的上下。换一个x0,又可以在直线的上下有一个区间。这个区间,整个的连起来,就可以是里面的虚线,两条虚线像喇叭,中间窄,两头宽。why?X0离开xbar近就窄,远就宽。两条虚线就反映了CI,就是平局值的置信区间。你给我数值父亲180,带劲CI的公式,得到平均儿子有多高,然后不是就这么高了,要加减一个ta,v乘以s根号内的范围,所以就有了这么一个宽度,若是给我1米9,就会再外外,宽一些。我1米7,帮我估算下我的儿子身高多少?怎么考虑?你170,你儿子可能很高,你儿子的身高是在平均值的上下,也可能比较低,在下面的曲线。总言之,如果在上面,会围绕着平均值有一个波动。如果是下线,也是样道理,但范围是更宽。在外边大喇叭口。特定从公式上来说,要估计某个特定个体的y值呢,里边除了刚才(1)的两项,多了一个多了一个1.(围绕平均值有三点的分散性)既是根号里面比它还要宽,多了1.整个就宽一些。总共有两个区间,一个是估计平均值的范围,另一个是估计个体值得范围。平均值范围称为,均数的CI。个体值范围为了区别它,称为预测区间PI。对比一下发现,范围区别(宽度)第44页,共51页,编辑于2022年,星期一第四节 多元回归分析第45页,共51页,编辑于2022年,星期一四、非线性趋势的测定四、非线性趋势的测定当现象的发展呈曲线变动的时候,仍然可以使用最小平方法配合趋势曲线方程。曲线有多样,常见的有二次曲线(抛物线)和指数曲线二次曲线(抛物线)和指数曲线。(一)二次(一)二次曲线趋势测定曲线趋势测定当时间序列中的二级增长量大致相同时(也就是时间序列数据的逐期增长绝对量近似为一常量时,可选择二次曲线模型),皆可以配合二次曲线方程,二次曲线方程一般形式为方程中a,b,c 三个三个待定参数,根据最小方法。代入之后各自求导等于零,可以得到:年份199019911992199319941995199619971998产品产量98810121043108011261179123913071382逐期增长量-2431374653606875二级增长量-7697787第46页,共51页,编辑于2022年,星期一年份199019911992199319941995199619971998产品产量98810121043108011261179123913071382逐期增长量-2431374653606875二级增长量-7697787例如,某工业产品产量增长量指标第47页,共51页,编辑于2022年,星期一案例:某工业产品产量抛物线方程计算表年份xyxy1990-4988-395216158082561991-31012-303699108811992-21043-208644172161993-11080-1080110801199401126000019951117911791117911996212392478449561619973130739219117638119984138255281622112256合计-1035629526070178708y就是发展水平第48页,共51页,编辑于2022年,星期一 式中:a基期水平,b平均发展速度,x时间a、b均为未定参数。求解指数方程时,一般是将指数方程通过取对数转化为直将指数方程通过取对数转化为直线方程线方程,然后按直线方程办法求出参数按直线方程办法求出参数,再对所得结果查反对数还原所得结果查反对数还原。应用条件:现象发展各期的环比增长速度大体相同。(下页)指数曲线的一般方程为:(三)指数曲线方程(三)指数曲线方程第49页,共51页,编辑于2022年,星期一案例:某地区工业净产值指数曲线方程计算年份净产值yx19935.3-50.7243-3.6215250.72695.331519947.2-30.8573-2.571990.85437.150019959.6-10.9823-0.982310.98189.5889199612.911.11061.110611.109212.8197199717.131.23303.699091.236717.2461199823.251.36556.8275251.364223.1313合计75.3-6.27304.461470-75.26757.2/5.3=1.369.6/7.2=1.33环比增长速度相似,判断是指数函数第50页,共51页,编辑于2022年,星期一第51页,共51页,编辑于2022年,星期一