直线回归与相关分析教学内容.ppt
《直线回归与相关分析教学内容.ppt》由会员分享,可在线阅读,更多相关《直线回归与相关分析教学内容.ppt(135页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、直线回归与相关分析确定的函数关系确定的函数关系确定的函数关系确定的函数关系PV=RT 气体压强S=r2 圆的面积协协变变量量S=a b 长方形面积身高与胸围、体重施肥量与产量溶液的浓度与OD值人类的年龄与血压 温度与幼虫孵化不完全确定的函数关系(相关关系)协协变变量量相相关关变变量量一个变量一个变量的变化受的变化受另一个另一个变量或几个变量变量或几个变量的制约的制约因果关系因果关系平行关系平行关系两个以上变量两个以上变量之间共同之间共同受到另外因素的影响受到另外因素的影响动物的生长速度受遗传、营养等影响子女的身高受父母身高的影响人的身高和体重之间的关系兄弟身高之间的关系 为了确定相关变量之间的
2、关系,首为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点描述这些点,这一组点集称为散点图。图。散点图散点图散点图散点图(scatter diagram)(scatter diagram)(scatter diagram)(scatter diagram)u为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。
3、它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。散点图散点图散点图散点图(scatter diagram)(scatter diagram)两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰 1 2 3 4 5 64321 1 2 3 4 5 64321 1 2 3 4 5 64321正向直线关系负向直线关系曲线关系定性研究回归回归(regerssion)(regerssion)相关相关(correlation)(correlation)定量研究曲线直线型非直线型非直线型变量二元多元多
4、元直线型直线型二元二元直线相关与直线相关与回归分析回归分析第九章第一节第二节第三节回归与相关的概念直线回归直线相关直线回归与相关分析第九章第一节:回归与相关的概念相相关关变变量量因果关系因果关系平行关系平行关系回归分析(回归分析(regression regression analysisanalysis)相关分析(相关分析(correlation correlation analysisanalysis)一个变量的变化受另一个一个变量的变化受另一个变量或几个变量的制约变量或几个变量的制约两个以上变量之间共同受两个以上变量之间共同受到另外因素的影响到另外因素的影响在生物学中,研究两个变量间的关
5、系,在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或主要是为了探求两变量的内在联系,或从一个变量从一个变量X X(可以是随机变量,也可(可以是随机变量,也可以是一般的变量),去推测另一个随机以是一般的变量),去推测另一个随机变量变量Y Y。xy施肥量施肥量(可以严格地人为控制可以严格地人为控制)产量产量如果对如果对x x的每一个可能的值,都有随机变量的每一个可能的值,都有随机变量y y的一个分布相对应,则称随机变量的一个分布相对应,则称随机变量y y对变量对变量x x存在回归存在回归(regression)(regression)关系。关系。自变量(independent
6、variable)因变量(dependent variable)因果关系因果关系一个变量的变化受另一个变量或几个变一个变量的变化受另一个变量或几个变量的制约量的制约在大量测量各种身高人群的体重时会发现,虽然在同在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应有一个确定的体重分布与之相对应;在大量测量各种体重人群的身高时会发现,虽然在同在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都样体重下,身高并不完全一样。但在每一体重下,都有一个
7、确定的身高分布与之相对应有一个确定的身高分布与之相对应;身高与体重之间存在相关关系。X身高身高Y体重体重X体重体重Y身高身高相关关系相关关系第二节:直线回归 Linear Regression一、直线回归方程的建立一、直线回归方程的建立二、直线回归的数学模型和基本假定二、直线回归的数学模型和基本假定三、直线回归的假设检验三、直线回归的假设检验四、直线回归的区间估计四、直线回归的区间估计简单回归简单回归(Simple Regression)一、直线回归方程的建立直线回归就是用来描述一个变量如何依赖于另一个变量温度温度天数天数Y=a+bx直线回归方程(linear regression equat
8、ion)截距截距(intercept)回归截距回归截距斜率斜率(slope)回归系数回归系数(regerssion coefficient)自变量自变量与与x值相对应的依变量值相对应的依变量y的的点点估计值估计值0 xya0,b0a0a0,b0a=0b=0变量变量1变量变量2收集数据收集数据散点图温度天数 X Y平均温度()历期天数(d )11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.7黏虫孵化历期平均温度与历期天数关系图0 01010202030304040101012121414161
9、6181820202222温度温度天数(天)天数(天)()回归直线在平面坐标系中的位置取决于回归直线在平面坐标系中的位置取决于a,ba,b的取值。的取值。y最小最小最小二乘法(method of least square)最小最小为最小值基本性质 X Y平均温度()历期天数(d )11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.70 010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()11.8-20.4用用x x估计估计y
10、 y,存在随机误差,必须根据回归的数,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进学模型对随机误差进行估计,并对回归方程进行检验。行检验。y误差二、数学模型和基本假定yy y的总体平均数的总体平均数因因x x引起引起y y的变异的变异y y的随机误差的随机误差总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差直线回归的数学模型直线回归的数学模型直线回归的数学模型直线回归的数学模型(model of linear regression)(model of linear regression)(model of linear regression)(mode
11、l of linear regression)基本假定x x是没有误差的固定变量,或其误差可以忽是没有误差的固定变量,或其误差可以忽略,而略,而y y是随机变量,且有随机误差。是随机变量,且有随机误差。x x是的任一值对应着一个是的任一值对应着一个y y总体,且作正态总体,且作正态分布,其平均数分布,其平均数+x+x,方差受偶然,方差受偶然因素的影响,不因因素的影响,不因x x的变化而改变。的变化而改变。随机误差随机误差是相互独立的,呈正态分布。是相互独立的,呈正态分布。y三、直线回归的假设检验有意义有意义指导实践指导实践?是否真正存在线性关系是否真正存在线性关系回归关系是否显著回归关系是否显
12、著一、直线回归的变异来源y=a+bxy(x,y)y-yy-yy-y实际值与估计值之差,剩余或残差。y-y估计值与均值之差,它与回归系数的大小有关。检验线性回归系数的显著性,采用检验线性回归系数的显著性,采用t t检验法检验法进行。进行。假 设H H0 0:=0=0H HA A:00检验样本回归系数检验样本回归系数b b是否来自是否来自=0=0的双变的双变量总体,以推断线性回归的显著性。量总体,以推断线性回归的显著性。(三)t检验依变量依变量 y y的平方和,总平方和,的平方和,总平方和,SSSSy y,SS,SS总总回归平方和回归平方和 U U离回归平方和离回归平方和 Q Qy y的离均差,反
13、映了的离均差,反映了y y的总变异程度,称的总变异程度,称为为y y的总平方和。的总平方和。说明未考虑说明未考虑x x与与y y的回归关系时的回归关系时y y的变异。的变异。反映了由于反映了由于y y与与x x间存在直线关系所引起的间存在直线关系所引起的y y的变的变异程度,因异程度,因x x的变异引起的变异引起y y变异的平方和,称为变异的平方和,称为回归平方和。回归平方和。它反映在它反映在y y的总变异中由于的总变异中由于x x与与y y的直线关系,的直线关系,而使而使y y变异减小的部分,在总平方和中可以用变异减小的部分,在总平方和中可以用x x解释的部分。解释的部分。U U值大,说明回
14、归效果好。值大,说明回归效果好。回归平方和回归平方和(regression sum of squares)(regression sum of squares)U U误差因素引起的平方和,反映了除去误差因素引起的平方和,反映了除去x x与与y y的直线的直线回归关系以外的其余因素使回归关系以外的其余因素使y y引起变化的大小。引起变化的大小。反映反映x x对对y y的线性影响之外的一切因素对的线性影响之外的一切因素对y y的变的变异的作用,也就是在总平方和中无法用异的作用,也就是在总平方和中无法用x x解释解释的部分。的部分。离回归平方和离回归平方和误差平方和,剩余平方和误差平方和,剩余平方和
15、(residual sum of squares)(residual sum of squares)Q Q在散点图上,各实测点离回归直线越近,在散点图上,各实测点离回归直线越近,Q Q值值越小,说明直线回归的估计误差越小。越小,说明直线回归的估计误差越小。依变量依变量 y y的平方和,总平方和,的平方和,总平方和,SSSSy y,SS,SS总总回归平方和回归平方和 U U离回归平方和离回归平方和 Q Q直线回归分析中,回归自由度等于自变量直线回归分析中,回归自由度等于自变量的个数,只涉及到的个数,只涉及到1 1个自变量个自变量df回归1df总n-1df离回归n-2Q/n-2Q/n-2离回归离回
16、归标准差标准差回归估计标准误回归估计标准误剩余标准差剩余标准差离回归方差离回归方差总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差:它是:它是y y的本底水平,即的本底水平,即x x对对y y没有任何作用时,没有任何作用时,y y的数量的数量表现。表现。xx:它描述了因变量:它描述了因变量y y的取值改变中,由的取值改变中,由y y与自变量与自变量x x的线的线性关系所引起的部分,即可以由性关系所引起的部分,即可以由x x直接估计的部分。直接估计的部分。误差:它描述了因变量误差:它描述了因变量y y的取值改变由的取值改变由x x以外的可能与以外的可能与y y有有关的随机和非随机
17、因素共同引起的部分,即不能由关的随机和非随机因素共同引起的部分,即不能由x x直接直接估计的部分。估计的部分。两个变量是否存在线性关系,可采用两个变量是否存在线性关系,可采用F F检验检验法进行。法进行。总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差若若x x与与y y间间不存在直线关系不存在直线关系,则总体回归系数,则总体回归系数=0=0;若若x x与与y y间间存在直线关系存在直线关系,则总体回归系数,则总体回归系数00假 设H H0 0:两变量间两变量间无无线性关系线性关系H HA A:两变量间两变量间有有线性关系线性关系在无效假设存在下,回归方差与离回归在无效假设存在
18、下,回归方差与离回归方差的比值服从方差的比值服从F F分布。分布。df1=1df2=n-2H H0 0:黏虫孵化历期平均温度黏虫孵化历期平均温度x x与历期天数与历期天数y y之间之间 不存在不存在线性关系线性关系H HA A:两变量间两变量间有有线性关系线性关系变异来源 df SS s2 F F0.05 F0.01 回归 1 353.6628 353.6628 89.89*5.99 13.74 离回归 6 23.6060 3.9343 总变异 7 377.2688df=n-2回归系数的标准误回归系数的标准误否定否定H H0 0:=0:=0,接受,接受H HA A:0:0,认为黏虫孵,认为黏虫
19、孵化历期平均温度与历期天数间有真实直线化历期平均温度与历期天数间有真实直线回归关系。回归关系。同一概率值同一概率值F F(一尾)值(一尾)值(dfdf1 1=1,df=1,df2 2=n-=n-2 2)t t值(两尾)(值(两尾)(df=n-df=n-2 2)四、直线回归的区间估计点估计点估计四、直线回归的区间估计a和b的置信区间(一)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间(二)y/x 和单个和单个y y观测值置信区间图示观测值置信区间图示(三)(一)a和b的置信区间(一)a和b的置信区间df=2(一)a和b的置信区间总体回归截距总体回归截距的置信区间的置信区间(一
20、)a和b的置信区间总体回归系数总体回归系数 的置信区间的置信区间95%95%的样本回归截的样本回归截距落在该区间内距落在该区间内95%95%的样本回归系的样本回归系数落在该区间内数落在该区间内(二)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间不包含随机误差不包含随机误差由回归方程预测由回归方程预测x x为某一定值时为某一定值时y y的观测值所在区间,则的观测值所在区间,则y y观测值不仅受到观测值不仅受到y y和和b b的影响,也受到随机误差的影响。的影响,也受到随机误差的影响。y y总体的平均数总体的平均数单个单个y y值所在的区间值所在的区间x x点估计点估计(二)y
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 直线 回归 相关 分析 教学内容
限制150内