生物统计学(海大课件) 第七章_回归与相关分析.pdf
《生物统计学(海大课件) 第七章_回归与相关分析.pdf》由会员分享,可在线阅读,更多相关《生物统计学(海大课件) 第七章_回归与相关分析.pdf(130页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、平均数标准差方差分析 多重比较平均数标准差方差分析 多重比较集中点离散程度差异显著性集中点离散程度差异显著性一个变量(产量)施肥量播种密度品种在实际研究中,事物之间的相互关 系涉及在实际研究中,事物之间的相互关 系涉及两个或两个两个或两个以上的变量,只 要其中的一个变量变动了,另一个 变量也会跟着发生变动,这种关系 称为以上的变量,只 要其中的一个变量变动了,另一个 变量也会跟着发生变动,这种关系 称为协变关系协变关系,具有协变关系的变 量称为,具有协变关系的变 量称为协变量协变量。确定的函数关系确定的函数关系确定的函数关系确定的函数关系PV=RT 气体压强S=r2 圆的面积协变量协变量S=a
2、 b 长方形面积身高与胸围、体重施肥量与产量溶液的浓度与OD值人类的年龄与血压温度与幼虫孵化不完全确定的函数关系(相关关系)协变量协变量为了确定相关变量之间的关系,首 先应该收集一些数据,这些数据应 该是成对的,然后在直角坐标系上 描述这些点,这一组点集称为散点 图。为了确定相关变量之间的关系,首 先应该收集一些数据,这些数据应 该是成对的,然后在直角坐标系上 描述这些点,这一组点集称为散点 图。散点图(scatter diagram)散点图(scatter diagram)散点图(scatter diagram)散点图(scatter diagram)散点图散点图(scatter diagr
3、am)散点图散点图(scatter diagram)两个变量间关系的性质(正向协同变化或 负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰1 2 3 4 5 643211 2 3 4 5 643211 2 3 4 5 64321正向直线关系负向直线关系曲线关系定性研究回归(regerssion)相关(correlation)回归(regerssion)相关(correlation)定量研究回归和相关分析回归和相关分析第七章第一节第一节第二节第二节第三节第三节直线回归方程直线回归的假设测验和区间 估计直线相关回归和相关分析第七章相关变量相关变量因果
4、关系因果关系平行关系平行关系回归分析(regression analysis)相关分析(correlation analysis)回归分析(regression analysis)相关分析(correlation analysis)一个变量的变化受另一个 变量或几个变量的制约两个以上变量之间共同受 到另外因素的影响一个变量的变化受另一个 变量或几个变量的制约两个以上变量之间共同受 到另外因素的影响在生物学中,研究两个变量间的关系,主 要是为了探求两变量的内在联系,或从一 个变量X(可以是随机变量,也可以是一般 的变量),去推测另一个随机变量Y。在生物学中,研究两个变量间的关系,主 要是为了探求
5、两变量的内在联系,或从一 个变量X(可以是随机变量,也可以是一般 的变量),去推测另一个随机变量Y。xy施肥量(可以严格地人为控制)产量施肥量(可以严格地人为控制)产量如果对x的每一个可能的值,都有随机变量y 的一个分布相对应,则称随机变量y对变量x 存在回归(regression)关系。如果对x的每一个可能的值,都有随机变量y 的一个分布相对应,则称随机变量y对变量x 存在回归(regression)关系。自变量(independent variable)因变量(dependent variable)因果关系因果关系一个变量的变化受另一个变量或几个变 量的制约一个变量的变化受另一个变量或几个
6、变 量的制约在大量测量各种身高人群的体重时会发现,虽然在同 样身高下,体重并不完全一样。但在每一身高下,都 有一个确定的体重分布与之相对应;在大量测量各种体重人群的身高时会发现,虽然在同 样体重下,身高并不完全一样。但在每一体重下,都 有一个确定的身高分布与之相对应;在大量测量各种身高人群的体重时会发现,虽然在同 样身高下,体重并不完全一样。但在每一身高下,都 有一个确定的体重分布与之相对应;在大量测量各种体重人群的身高时会发现,虽然在同 样体重下,身高并不完全一样。但在每一体重下,都 有一个确定的身高分布与之相对应;身高与体重之间存在相关关系。X身高身高Y体重体重X体重体重Y身高身高相关关系
7、相关关系第一节:直线回归方程第一节:直线回归方程一、直线回归方程的推导二、直线回归方程的计算三、直线回归方程的图示四、直线回归的估计标准误一、直线回归方程的推导二、直线回归方程的计算三、直线回归方程的图示四、直线回归的估计标准误简单回归简单回归(Simple Regression)五、直线回归的数学模型五、直线回归的数学模型一、直线回归方程的推导一、直线回归方程的推导直线回归就是用来描述一个 变量如何依赖于另一个变量温度温度天数天数Y=a+bx直线回归方程(linear regression equation)截距截距(intercept)回归截距回归截距斜率斜率(slope)回归系数回归系数
8、(regerssion coefficient)自变量自变量与与x值相对应的依变量值相对应的依变量y的的点点估计值估计值0 xya0,b0a0a0,b0a=0b=0bxay变量变量1变量变量2收集数据收集数据散点图温度天数X Y平均温度()历期天数(d )11.8 30.114.7 17.315.6 16.716.8 13.617.1 11.918.8 10.719.5 8.320.4 6.7黏虫孵化历期平均温度与历期天数关系图01020304010121416182022温度天数(天)01020304010121416182022温度天数(天)()bxay回归直线在平面坐标系中的位置取决于a
9、,b的取值。回归直线在平面坐标系中的位置取决于a,b的取值。nyy12)(ybxaynnbxayyyQ1212)()(最小最小最小二乘法(method of least square)nnbxayyyQ1212)()(0)(2bxayaQ0)(2xbxaybQ最小最小xbyanxxnyxxyb/)(/)(22xxySSSPxxyyxxb2)()(bxaynyyQ12)(为最小值0)(yy),(yx基本性质基本性质bxayxbya)(xxbyy二、直线回归方程的计算二、直线回归方程的计算X Y平均温度()历期天数(d )11.8 30.114.7 17.315.6 16.716.8 13.617
10、.1 11.918.8 10.719.5 8.320.4 6.77.134x19.23232x3.115y03.20392y8n8375.16nxx4125.14nyy二、直线回归方程的计算二、直线回归方程的计算黏虫孵化期与温度关系1788.55)()(222xxnxxSSx2688.377)()(222yynyySSy6937.139)()()()(yyxxnyxxySPxy5317.2xxySSSPb0400.57xbyaxy5317.20400.57三、直线回归方程的图示三、直线回归方程的图示直线回归图包括回归直线的图象和散点图,它可以醒 目地表示直线回归图包括回归直线的图象和散点图,它
11、可以醒 目地表示x 和和y 的数量关系。的数量关系。方法:制作直线回归图时,首先以x为横坐标,以y为 纵坐标构建直角坐标系(纵、横坐标皆需标明名称和 单位);然后取x坐标上的一个小值x1代入回归方程得 y1,取一个大值x2代入回归方程得 y2,连接坐标点(x1,y1)和(x2,y2)即成一条回归直线。注意:此直线必通过点(,),它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图上。xy01020304010121416182022温度天数(天)01020304010121416182022温度天数(天)()xy5317.20400.5711.8-20.4三、直线回
12、归方程的图示三、直线回归方程的图示xy0018.0 R2=0.9992三、直线回归方程的图示三、直线回归方程的图示Q Q 就是误差的一种度量,称为就是误差的一种度量,称为离回归平方和离回归平方和(sum of squares due to deviation from regression)或(sum of squares due to deviation from regression)或剩余平方和剩余平方和。建立回归方程时用了。建立回归方程时用了a a 和和b b 两个统计数,故两个统计数,故Q Q 的自 由度的自 由度2 n四、直线回归的估计标准误四、直线回归的估计标准误2/nQsxyQ
13、/n-2Q/n-2离回归标准差离回归标准差回归估计标准误回归估计标准误剩余标准差剩余标准差离回归方差离回归方差得=SSy-b(SP)=SSy-b2(SSx)=y2-ay-bxy222nyynQsxyxySSSPSSyyQ22)()(yy)(xxy的总体平均数因x引起y的变异y的y的总体平均数因x引起y的变异y的随机误差随机误差用x估计y,存在随机误差,必须根据回归的数 学模型对随机误差进行估计,并对回归方程进 行检验。用x估计y,存在随机误差,必须根据回归的数 学模型对随机误差进行估计,并对回归方程进 行检验。ybxay误差五、直线回归的数学模型和基本假定五、直线回归的数学模型和基本假定)(x
14、xyyxy总体回归截踞总体回归系数随机误差总体回归截踞总体回归系数随机误差直线回归的数学模型(model of linear regression)直线回归的数学模型(model of linear regression)直线回归的数学模型(model of linear regression)直线回归的数学模型(model of linear regression)基本假定x是没有误差的固定变量,或其误差可以忽 略,而y是随机变量,且有随机误差。x是的任一值对应着一个y总体,且作正态 分布,其平均数+x,方差受偶然 因素的影响,不因x的变化而改变。随机误差是相互独立的,呈正态分布。x是没有误
15、差的固定变量,或其误差可以忽 略,而y是随机变量,且有随机误差。x是的任一值对应着一个y总体,且作正态 分布,其平均数+x,方差受偶然 因素的影响,不因x的变化而改变。随机误差是相互独立的,呈正态分布。ybxayxy第二节、直线回归的假设测验和区间估计第二节、直线回归的假设测验和区间估计一、直线回归的假设测验二、直线回归的区间估计一、直线回归的假设测验二、直线回归的区间估计一、直线回归的假设测验一、直线回归的假设测验bxay有意义指导实践有意义指导实践?是否真正存在线性关系回归关系是否显著是否真正存在线性关系回归关系是否显著 niiyy12)(niiiiyy y y12)()(niiiinii
16、niiiyy y yyy y y11212)(2)()(1.离差平方和的分解与计算:离差平方和的分解与计算:y的离均差,反映了的离均差,反映了y的总变异程度。的总变异程度。niiiiyy y y1)()(xxbyy ii xSSbbSP2 niiiixxbxxbyy1)()(niiniiixxbyyxxb1221)()(xSSSPb 0 bSPbSPniiiniiniiy yyy yy121212)()()(y总变异的平方和总变异的平方和,记作,记作SSy误差因素引起误差因素引起的平方和,称为的平方和,称为离回归平方和离回归平方和,记作记作Qx引起引起y的变异的变异平方和,称为平方和,称为回归
17、平方和回归平方和,记作记作U估计误差越小。越小,说明直线回归的回归效果越好。中占的比重越大,说明在因此有:估计误差越小。越小,说明直线回归的回归效果越好。中占的比重越大,说明在因此有:QSSUQUSSyy niiyy U12)(离回归平方和离回归平方和 USSQy 回归平方和回归平方和 2xSSSPU )(iixxbyy niiyxxby12)(niixxb122)(xSSSPb xSSb2 1 ndfdfdfdfyUQy自由度可表示为:2.自由度的分解与计算:自由度的分解与计算:21ndfdfQU个自变量个自变量:由于直线回归只涉及一由于直线回归只涉及一)2/()2)/()()2(/)(2/
18、2/nQnUSSQsnQQsyxyxy相应自由度离回归平方和离回归方差:相应自由度离回归平方和离回归方差:3.方差的计算:方差的计算:UUsUUsxyxy)(1/)(2/2/相应自由度回归平方和回归方差:相应自由度回归平方和回归方差:标准误,习惯上称为回归估计以下简写成离回归标准误:标准误,习惯上称为回归估计以下简写成离回归标准误:xyxysnQQs/2)(U=bSP=-2.5317(-139.6937)=353.6628Q=SSy-U=377.2688-353.6628=23.6060【例【例7.2】计算例子的资料的回归平方和、离回归平方 和以及回归估计标准误。根据前面计算结果,可得:计算例
19、子的资料的回归平方和、离回归平方 和以及回归估计标准误。根据前面计算结果,可得:98351286060232)(/.nQQsxy假 设H H0 0:两变量间:两变量间无无线性关系H线性关系HA A:两变量间:两变量间有有线性关系线性关系在无效假设存在下,回归方差与离回归 方差的比值服从F分布。在无效假设存在下,回归方差与离回归 方差的比值服从F分布。)2(2/1/nQUnQUFdf1=1df2=n-2)2(nQUF对两个样本是否存在线性关系进行对两个样本是否存在线性关系进行F检验:检验:。,接受,否定性的大小,检验回归显著值与比较计算分布的,值满足自由度为值计算利用公式确定显著性:有线性关系,
20、:两变量间无线性关系假设检验步骤:。,接受,否定性的大小,检验回归显著值与比较计算分布的,值满足自由度为值计算利用公式确定显著性:有线性关系,:两变量间无线性关系假设检验步骤:离回离回AAHHFFFF.FdfdfF.FnQUnQUFFHH.F00 :5 4)2()2/(1/3.2.14.F检验:检验:H0:黏虫孵化历期平均温度黏虫孵化历期平均温度x与历期天数与历期天数y之间之间不存在不存在线性关系线性关系HA:两变量间两变量间有有线性关系变异来源 线性关系变异来源 df SS s2 FF0.05 F0.01回归 回归 1 353.6628 353.6628 89.89*5.99 13.74离回
21、归 离回归 6 23.6060 3.9343总变异 总变异 7 377.2688【例【例7.3】用用F检验的方法检验例资料直线回归关系 的显著性:检验的方法检验例资料直线回归关系 的显著性:t 检验的结果与检验的结果与F检验结果是一样的:检验结果是一样的:5.t 检验:检验:000 :,对:回归系数假设:,对:回归系数假设AHHbsbt xxybSSsxxny ys/22 )-()2()-(回归系数标准误:回归系数标准误:FnQUnQUsSSbsbsbtxyxbb)2(2/0 。,接受否定性:的大小,检验回归显著值与比较计算值计算利用公式分布,确定显著性的值满足自由度为:,对:假设检验步骤:。
22、,接受否定性:的大小,检验回归显著值与比较计算值计算利用公式分布,确定显著性的值满足自由度为:,对:假设检验步骤:AAHH,t|ttt.tnQUtttndftHH.t00|4)2(3.2 2.00 1983512/.nQsxy178855.SSx 53172.b 【例【例7.4】用用t检验的方法检验例资料直线回归关系的 显著性:检验的方法检验例资料直线回归关系的 显著性:6282000ndfHHA:,对:回归系数假设:,对:回归系数假设7073)6(010.t.否定否定H0:=0,接受,接受HA:0,认为黏虫孵化历期 平均温度与历期天数间有真实直线回归关系。,认为黏虫孵化历期 平均温度与历期天
23、数间有真实直线回归关系。489178855/9835153172/.SSsbsbtxxyb489.sbtb898921.n/Q/UF同一概率值同一概率值F(单尾)值(单尾)值(df1=1,df2=n-2)t值(两尾)(值(两尾)(df=n-2)2tF 28704898989t.F二、直线回归的区间估计二、直线回归的区间估计bxayebxay)(xxy点估计点估计点估计点估计二、直线回归的区间估计二、直线回归的区间估计a和b的置信区间(一)y/x 的置信区间和单个y的预测区间的置信区间和单个y的预测区间(二)y/x 和单个y观测值置信区间图示和单个y观测值置信区间图示(三)(一)a和b的置信区间
24、bxayebxay)(xxy(一)a和b的置信区间xbya)1(22/2xxyaSSxnss)1(2/xxyaSSxnssasatdf=2(一)a和b的置信区间aastaLstaL21总体回归截距的置信区间总体回归截距的置信区间)1(2/xxyaSSxnss(一)a和b的置信区间总体回归系数 的置信区间总体回归系数 的置信区间bbstbLstbL21xxybSSss/8375.16nxx9835.12/nQsxy1788.55)()(222xxnxxSSx3009.1)1(2/xxyaSSxnss2670.0/xxybSSss707.3447.2)6(01.0)6(05.0tt2233.608
25、567.5321aastaLstaL8784.11850.321bbstbLstbL3009.1as0400.57a2670.0bs5317.2bxy5317.20400.5795%的样本回归截 距落在该区间内95%的样本回归系 数落在该区间内95%的样本回归截 距落在该区间内95%的样本回归系 数落在该区间内(二)y/x 的置信区间和单个y的预测区间的置信区间和单个y的预测区间xy/)(xxbybxay不包含随机误差由回归方程预测x为某一定值时y的观测值所在区间,则 y观测值不仅受到y和b的影响,也受到随机误差的影响。不包含随机误差由回归方程预测x为某一定值时y的观测值所在区间,则 y观测值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物统计学海大课件 第七章_回归与相关分析 生物 统计学 大课 第七 回归 相关 分析
限制150内