相关分析与回归分析教案精品文稿.ppt
《相关分析与回归分析教案精品文稿.ppt》由会员分享,可在线阅读,更多相关《相关分析与回归分析教案精品文稿.ppt(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、相关分析与回归分析教案第1页,本讲稿共51页章节提纲:1.相关分析概论2.相关关系的测定3.一元线性回归分析4.多元线性回归分析n n学习目标学习目标 1 1、了解相关关系的概念及种类、相关分析的概念和内容、了解相关关系的概念及种类、相关分析的概念和内容 2 2、重点掌握简单相关系数的计算方法、重点掌握简单相关系数的计算方法 3 3、掌握回归分析的概念及建立线性回归方程的方法、掌握回归分析的概念及建立线性回归方程的方法 4 4、掌握相关参数的统计检验,能对统计软件回归计算的结、掌握相关参数的统计检验,能对统计软件回归计算的结第2页,本讲稿共51页第一、二节 相关分析概述相关关系测定 第3页,本
2、讲稿共51页变量间关系变量间关系血压血压 年龄年龄动物死亡率动物死亡率 毒物剂量毒物剂量体重体重身高身高肺活量肺活量体重体重相关相关:血压和年龄血压和年龄关联的程度如何关联的程度如何?动物死亡率与毒物剂量动物死亡率与毒物剂量关联的程度如何关联的程度如何?回归回归:人群中人群中,平均而言平均而言,血压血压 如何随年龄变化如何随年龄变化?毒性实验中毒性实验中,动物死亡率动物死亡率如何随剂量变化如何随剂量变化?两个随机变量之间的关系回归:如何-即定量的联系,从一个变量来预测另外一个变量一个变量来预测另外一个变量。给定剂量,动物的死亡率,能不能做出预测。都是描述两个随机变量之间的关系。回归回答如何第4
3、页,本讲稿共51页散点图散点图Fig.7.1收缩压和收缩压和舒张压舒张压(mmHg)(665名名6至至10岁女孩岁女孩)收缩压收缩压舒张压他两的关系都是此长彼长。所以总体趋势总体趋势看得出是向前的。但是给定了一个舒张压,但是收缩压可以是高也可以是低。舒张压,但是收缩压可以是高也可以是低。第5页,本讲稿共51页指数函数指数函数对数函数对数函数正弦函数正弦函数Y 和和 X之间的函数关系之间的函数关系对应于给定的对应于给定的X值值,相应的相应的Y值是确定的值是确定的.但现在给定一个X值,Y可能是不确定的。(是上页)第6页,本讲稿共51页 分散集中x不论怎么变,Y都是在一个范围走动,那么X和Y没有什么
4、没有什么相关性。相关性。烧饼,给定一个X,就是一个水平上,X变,y也是一个水平上,也没有关系香蕉,x变大,y从小到到,去曲线关系,不是线性关系。线性相关也几乎是零线性相关也几乎是零,虽然是曲线关系下前三没有相关性上面都是线性相关上面都是线性相关一三是正线性相关,3图相关性好。2,4是负先关性,4负的绝对值绝对值比2好一些。相关性好就是绝对值好些一下研究的都是线性相关,简称一下研究的都是线性相关,简称相关相关第7页,本讲稿共51页三、相关关系三、相关关系 相关系数是度量两个变量之间线性相关的方向和强度的测度,常用的度量指标是皮尔逊(Pearson)相关系数【专栏】在相关分析中,定性分析或经济理论
5、分析重要吗【专栏】在相关分析中,定性分析或经济理论分析重要吗?correlation coefficient第8页,本讲稿共51页 相关系数相关系数(Correlation Coefficient)1.总体相关系数总体相关系数(Population correlation coefficient)Pearsons 乘积乘积-矩线性相关系数矩线性相关系数:“两个两个标准化标准化变量之乘积变量之乘积”的总体平均的总体平均-简单相关系数简单相关系数(simple correlation coefficient)-X和和Y的总体协方差的总体协方差相关系数也有总体和样本总体和样本,但一般我们只掌握样只掌
6、握样本本X舒张压Y收缩压x标准化标准化X标准化标准化*Y标准化标准化相乘,相乘,然后取总得平均,在总体里面去平均。总体里面全部人去求平均是总体相关系数。如果去简化sigama x、y是常数,拿出来外面。X-x是离均差,上面就是两个离均差相乘,E是期望。期是期望。期望就是求平均的意思,在总望就是求平均的意思,在总体里面的平均的意思体里面的平均的意思总体里面的协方差算在一块、总体里面的协方差算在一块、舒张压离开平舒张压离开平均值均值多远,多远,收缩压收缩压离开平均值都远,离开平均值都远,相乘一相乘一块有多远块有多远,也叫监督相关系数,也叫监督相关系数一定介于-1和1之间总体均数Ro第9页,本讲稿共
7、51页去掉n,公式如下:第10页,本讲稿共51页 2.2.样本相关系数样本相关系数样本相关系数样本相关系数(Sample correlation coefficient)(Sample correlation coefficient)需要用样本来估计相关系数 怎么定义,类似刚才的X(Y)-样本的观察值减去样本的均数,然后相乘。乘积统统加起来。下面不求平均,不然就约掉了-离均差的平方求和乘以离均差的平方求和。样本的离均差乘积求和 离均差平方之和 介于-1和1之间。有可能发生-1和1,但生活中很少发生第11页,本讲稿共51页度量线性关系的强度和方向度量线性关系的强度和方向:1)r=0-无线性关系无
8、线性关系,或很弱或很弱 2)若绝对值较大若绝对值较大 -线性关系较强线性关系较强 3)符号正负符号正负 -线性关系的方向线性关系的方向 4)+1or-1-完全相关完全相关,实践中少见实践中少见P181第12页,本讲稿共51页研究父子之间身高的关联性为什么这么来定义?样本样本-判断关联性,求判断关联性,求r样本的离均差乘积之和 X本身的离均差平方之和 Xbar计算出来例子8-1 第13页,本讲稿共51页第三节第三节 一元线性回归分析一元线性回归分析第14页,本讲稿共51页第三节 一元线性回归分析 回归分析实质就是通过建立回归分析实质就是通过建立数学方程数学方程,研究因变量与自,研究因变量与自变量
9、之间的变动关系,如果分析变量之间的变动关系,如果分析一个自变量与一个因变一个自变量与一个因变量量的的线性线性关系,称为关系,称为一元线性回归分析一元线性回归分析,如果分析,如果分析两两个或两个以上个或两个以上的自变量与的自变量与一个因变量一个因变量的的线性线性关系,则称关系,则称为为多元线性回归多元线性回归。第15页,本讲稿共51页一、一元线性回归理论模型一、一元线性回归理论模型一元线性回归模型是用于分析一个自变量一个自变量x与一个因变量与一个因变量y之间线性关系的数学方程,在变量x与y的直角坐标平面上,可以绘制散点图,可以看出所有的散点大致呈线性关系 or在一元线性回归之中,因变量由两个部分
10、组成,一个是 ,其解释了自变量x变动引发的线性变化。另一部分为剩余变动 ,反映了不能为自变量x和因变量y之间的线性关系所解释的其他剩余变动。第16页,本讲稿共51页根据刚才的那组表。是不是最后会呈这样的图形板书那么我们回到线性方程的知识里面去。用公式来代表,其实就是一个求极值求极值的问题。左边就是 Min(Y-Yheand)2。y-yhead的纵向距离的和最小。y-yhead就是残差就是残差,是一个剩余的部分,是一个估计值。实际的是y,希望你估计值yhead尽量接近你实际得到的指标y,这是最好的。所以残差(剩余的部分)最小残差(剩余的部分)最小。而yhead=(a+bx)带进去,求偏导-最小二
11、乘法拓展但两个自变量呢?是不是一个平面平面。不,是一个三维三维空间空间。三个自变量?四维。多变量和一个y,多维。其实只要知道残差最小就行。同样的原理。二、普通最小二乘估计(ols)第17页,本讲稿共51页最小平方法最小平方法是测定长期趋势最常用的的方法。它是通过建立数学方程,对元时间序列是测定长期趋势最常用的的方法。它是通过建立数学方程,对元时间序列配合一条较为理想的趋势线,使得原序列中的各实际值和趋势值的离差平方最配合一条较为理想的趋势线,使得原序列中的各实际值和趋势值的离差平方最小。一般最小平方法的统计表达式是:小。一般最小平方法的统计表达式是:式中式中:采用这种趋势要配合直线,也可以配合
12、曲线配合直线,也可以配合曲线,这需要跟原序列所反映的现象变动的特点来确定。趋势形态判断方法比较多,最为简单的就是画散点图画散点图。若散点大致在某一条直线周围波动,就配合趋势直线;若散点大致在某一条若散点大致在某一条直线周围波动,就配合趋势直线;若散点大致在某一条曲线周围波动,就配合趋势曲线。曲线周围波动,就配合趋势曲线。首先介绍直线趋势的配合。首先介绍直线趋势的配合。第18页,本讲稿共51页(一)直线方程(一)直线方程适用条件:现象发展的各期逐期增长量大体相等现象发展的各期逐期增长量大体相等。年份1990 1991 1992 1993 1994 1995 1996 19971998粮食产量10
13、0112125140155168180194206逐期增长量-1213151513121412第19页,本讲稿共51页即趋势值【(2X+1)】=2(2x+1)*2=8x+4画图,这边,x对应的是时间序号,而Y帽子代表的是发展水平。直线方程公式表示为:上述直线方程式中,a、b为两个未定参数,根据最小平方法的要求第20页,本讲稿共51页求方程组:例例-某某省省19911998年人口资料如表所示,要求拟合时点的趋势方程,并以此趋势预测年人口资料如表所示,要求拟合时点的趋势方程,并以此趋势预测1999年末的人口数。年末的人口数。8763n=8b求出来都代入到a公式里面yx就是第几年就是第几年第21页,
14、本讲稿共51页横轴表示时间,纵轴表示元数列的指标数值,坐标原点定在横轴表示时间,纵轴表示元数列的指标数值,坐标原点定在1990年,其序号年,其序号0用来表示,拟合用来表示,拟合直线趋势方程。直线趋势方程。根据上述公式:将将1999年时间序列号年时间序列号9带入配合的趋势方程,可得到带入配合的趋势方程,可得到1999年末某省人口数年末某省人口数的趋势值(预测值)的趋势值(预测值)既,1999年末该省人口数将达到9402.94万人。1990是原点是原点画图第22页,本讲稿共51页上述方程中的x为时间。为了计算方便,可对其进行假设:当时间项数为奇数时奇数时,可假设x的中间项为0,这时时间项依次排列为
15、:,-3,-2,-1,0,1,2,3,;当时间项数为偶数时,可假设原点0在数列正中相另两个时间的中点,这时时间项依次排列为:,-5,-3,-1,1,3,5,这种设x的方法是要使时间项的正负相抵消,使x=0,则上述联立方程组可简化为:为了方便手工计算,可以把原数列的重点移至坐标原点,使得”x=0“,此时,标准方程可以化为:-3,-2,-1,0,1,2,3相加等于零画图第23页,本讲稿共51页例如;用简便的方法来计算上面例子。1999年的时间序号应该为9.第24页,本讲稿共51页年份1990 1991 1992 1993 1994 1995 1996 19971998粮食产量10011212514
16、0155168180194206逐期增长量-1213151513121412本例中各期的逐期增长量大体相同期的逐期增长量大体相同,可以配合直线趋势方程。Practic-某地区各年的粮食产量为:Tip:首先判断一下,趋势是怎么样的。第25页,本讲稿共51页案例:某地区粮食产量直线趋势方程计算年份xyxy1990-4100-400161991-3112-33691992-2125-25041993-1140-140119940155001995116816811996218036041997319458291998420682416合计-138080860第26页,本讲稿共51页(i)已知:)已知
17、:n对观察值对观察值(X1,Y1),(X2,Y2),(Xn,Yn););(ii)作散点图()作散点图(scatter diagram)(iii)若散点图呈直线趋势,则配一条直线)若散点图呈直线趋势,则配一条直线:求出直线的方程式求出直线的方程式 刚才是X对父子哪怕是有些分散的下面看怎么计算线性回归三步骤线性回归三步骤第27页,本讲稿共51页什麽是回归?找出反映平均水平的那条直线的方程找出反映平均水平的那条直线的方程100120140160180200220100120140160180200220Fathers heightFathers height(cmcm)Sons height(cm)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 分析 回归 教案 精品 文稿
限制150内