生物统计学(海大课件) 第七章_回归与相关分析.pdf
-
资源ID:69564509
资源大小:1.66MB
全文页数:130页
- 资源格式: PDF
下载积分:15金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
生物统计学(海大课件) 第七章_回归与相关分析.pdf
平均数标准差方差分析 多重比较平均数标准差方差分析 多重比较集中点离散程度差异显著性集中点离散程度差异显著性一个变量(产量)施肥量播种密度品种在实际研究中,事物之间的相互关 系涉及在实际研究中,事物之间的相互关 系涉及两个或两个两个或两个以上的变量,只 要其中的一个变量变动了,另一个 变量也会跟着发生变动,这种关系 称为以上的变量,只 要其中的一个变量变动了,另一个 变量也会跟着发生变动,这种关系 称为协变关系协变关系,具有协变关系的变 量称为,具有协变关系的变 量称为协变量协变量。确定的函数关系确定的函数关系确定的函数关系确定的函数关系PV=RT 气体压强S=r2 圆的面积协变量协变量S=a b 长方形面积身高与胸围、体重施肥量与产量溶液的浓度与OD值人类的年龄与血压温度与幼虫孵化不完全确定的函数关系(相关关系)协变量协变量为了确定相关变量之间的关系,首 先应该收集一些数据,这些数据应 该是成对的,然后在直角坐标系上 描述这些点,这一组点集称为散点 图。为了确定相关变量之间的关系,首 先应该收集一些数据,这些数据应 该是成对的,然后在直角坐标系上 描述这些点,这一组点集称为散点 图。散点图(scatter diagram)散点图(scatter diagram)散点图(scatter diagram)散点图(scatter diagram)散点图散点图(scatter diagram)散点图散点图(scatter diagram)两个变量间关系的性质(正向协同变化或 负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰1 2 3 4 5 643211 2 3 4 5 643211 2 3 4 5 64321正向直线关系负向直线关系曲线关系定性研究回归(regerssion)相关(correlation)回归(regerssion)相关(correlation)定量研究回归和相关分析回归和相关分析第七章第一节第一节第二节第二节第三节第三节直线回归方程直线回归的假设测验和区间 估计直线相关回归和相关分析第七章相关变量相关变量因果关系因果关系平行关系平行关系回归分析(regression analysis)相关分析(correlation analysis)回归分析(regression analysis)相关分析(correlation analysis)一个变量的变化受另一个 变量或几个变量的制约两个以上变量之间共同受 到另外因素的影响一个变量的变化受另一个 变量或几个变量的制约两个以上变量之间共同受 到另外因素的影响在生物学中,研究两个变量间的关系,主 要是为了探求两变量的内在联系,或从一 个变量X(可以是随机变量,也可以是一般 的变量),去推测另一个随机变量Y。在生物学中,研究两个变量间的关系,主 要是为了探求两变量的内在联系,或从一 个变量X(可以是随机变量,也可以是一般 的变量),去推测另一个随机变量Y。xy施肥量(可以严格地人为控制)产量施肥量(可以严格地人为控制)产量如果对x的每一个可能的值,都有随机变量y 的一个分布相对应,则称随机变量y对变量x 存在回归(regression)关系。如果对x的每一个可能的值,都有随机变量y 的一个分布相对应,则称随机变量y对变量x 存在回归(regression)关系。自变量(independent variable)因变量(dependent variable)因果关系因果关系一个变量的变化受另一个变量或几个变 量的制约一个变量的变化受另一个变量或几个变 量的制约在大量测量各种身高人群的体重时会发现,虽然在同 样身高下,体重并不完全一样。但在每一身高下,都 有一个确定的体重分布与之相对应;在大量测量各种体重人群的身高时会发现,虽然在同 样体重下,身高并不完全一样。但在每一体重下,都 有一个确定的身高分布与之相对应;在大量测量各种身高人群的体重时会发现,虽然在同 样身高下,体重并不完全一样。但在每一身高下,都 有一个确定的体重分布与之相对应;在大量测量各种体重人群的身高时会发现,虽然在同 样体重下,身高并不完全一样。但在每一体重下,都 有一个确定的身高分布与之相对应;身高与体重之间存在相关关系。X身高身高Y体重体重X体重体重Y身高身高相关关系相关关系第一节:直线回归方程第一节:直线回归方程一、直线回归方程的推导二、直线回归方程的计算三、直线回归方程的图示四、直线回归的估计标准误一、直线回归方程的推导二、直线回归方程的计算三、直线回归方程的图示四、直线回归的估计标准误简单回归简单回归(Simple Regression)五、直线回归的数学模型五、直线回归的数学模型一、直线回归方程的推导一、直线回归方程的推导直线回归就是用来描述一个 变量如何依赖于另一个变量温度温度天数天数Y=a+bx直线回归方程(linear regression equation)截距截距(intercept)回归截距回归截距斜率斜率(slope)回归系数回归系数(regerssion coefficient)自变量自变量与与x值相对应的依变量值相对应的依变量y的的点点估计值估计值0 xya0,b0a0a0,b0a=0b=0bxay变量变量1变量变量2收集数据收集数据散点图温度天数X Y平均温度()历期天数(d )11.8 30.114.7 17.315.6 16.716.8 13.617.1 11.918.8 10.719.5 8.320.4 6.7黏虫孵化历期平均温度与历期天数关系图01020304010121416182022温度天数(天)01020304010121416182022温度天数(天)()bxay回归直线在平面坐标系中的位置取决于a,b的取值。回归直线在平面坐标系中的位置取决于a,b的取值。nyy12)(ybxaynnbxayyyQ1212)()(最小最小最小二乘法(method of least square)nnbxayyyQ1212)()(0)(2bxayaQ0)(2xbxaybQ最小最小xbyanxxnyxxyb/)(/)(22xxySSSPxxyyxxb2)()(bxaynyyQ12)(为最小值0)(yy),(yx基本性质基本性质bxayxbya)(xxbyy二、直线回归方程的计算二、直线回归方程的计算X Y平均温度()历期天数(d )11.8 30.114.7 17.315.6 16.716.8 13.617.1 11.918.8 10.719.5 8.320.4 6.77.134x19.23232x3.115y03.20392y8n8375.16nxx4125.14nyy二、直线回归方程的计算二、直线回归方程的计算黏虫孵化期与温度关系1788.55)()(222xxnxxSSx2688.377)()(222yynyySSy6937.139)()()()(yyxxnyxxySPxy5317.2xxySSSPb0400.57xbyaxy5317.20400.57三、直线回归方程的图示三、直线回归方程的图示直线回归图包括回归直线的图象和散点图,它可以醒 目地表示直线回归图包括回归直线的图象和散点图,它可以醒 目地表示x 和和y 的数量关系。的数量关系。方法:制作直线回归图时,首先以x为横坐标,以y为 纵坐标构建直角坐标系(纵、横坐标皆需标明名称和 单位);然后取x坐标上的一个小值x1代入回归方程得 y1,取一个大值x2代入回归方程得 y2,连接坐标点(x1,y1)和(x2,y2)即成一条回归直线。注意:此直线必通过点(,),它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图上。xy01020304010121416182022温度天数(天)01020304010121416182022温度天数(天)()xy5317.20400.5711.8-20.4三、直线回归方程的图示三、直线回归方程的图示xy0018.0 R2=0.9992三、直线回归方程的图示三、直线回归方程的图示Q Q 就是误差的一种度量,称为就是误差的一种度量,称为离回归平方和离回归平方和(sum of squares due to deviation from regression)或(sum of squares due to deviation from regression)或剩余平方和剩余平方和。建立回归方程时用了。建立回归方程时用了a a 和和b b 两个统计数,故两个统计数,故Q Q 的自 由度的自 由度2 n四、直线回归的估计标准误四、直线回归的估计标准误2/nQsxyQ/n-2Q/n-2离回归标准差离回归标准差回归估计标准误回归估计标准误剩余标准差剩余标准差离回归方差离回归方差得=SSy-b(SP)=SSy-b2(SSx)=y2-ay-bxy222nyynQsxyxySSSPSSyyQ22)()(yy)(xxy的总体平均数因x引起y的变异y的y的总体平均数因x引起y的变异y的随机误差随机误差用x估计y,存在随机误差,必须根据回归的数 学模型对随机误差进行估计,并对回归方程进 行检验。用x估计y,存在随机误差,必须根据回归的数 学模型对随机误差进行估计,并对回归方程进 行检验。ybxay误差五、直线回归的数学模型和基本假定五、直线回归的数学模型和基本假定)(xxyyxy总体回归截踞总体回归系数随机误差总体回归截踞总体回归系数随机误差直线回归的数学模型(model of linear regression)直线回归的数学模型(model of linear regression)直线回归的数学模型(model of linear regression)直线回归的数学模型(model of linear regression)基本假定x是没有误差的固定变量,或其误差可以忽 略,而y是随机变量,且有随机误差。x是的任一值对应着一个y总体,且作正态 分布,其平均数+x,方差受偶然 因素的影响,不因x的变化而改变。随机误差是相互独立的,呈正态分布。x是没有误差的固定变量,或其误差可以忽 略,而y是随机变量,且有随机误差。x是的任一值对应着一个y总体,且作正态 分布,其平均数+x,方差受偶然 因素的影响,不因x的变化而改变。随机误差是相互独立的,呈正态分布。ybxayxy第二节、直线回归的假设测验和区间估计第二节、直线回归的假设测验和区间估计一、直线回归的假设测验二、直线回归的区间估计一、直线回归的假设测验二、直线回归的区间估计一、直线回归的假设测验一、直线回归的假设测验bxay有意义指导实践有意义指导实践?是否真正存在线性关系回归关系是否显著是否真正存在线性关系回归关系是否显著 niiyy12)(niiiiyy y y12)()(niiiiniiniiiyy y yyy y y11212)(2)()(1.离差平方和的分解与计算:离差平方和的分解与计算:y的离均差,反映了的离均差,反映了y的总变异程度。的总变异程度。niiiiyy y y1)()(xxbyy ii xSSbbSP2 niiiixxbxxbyy1)()(niiniiixxbyyxxb1221)()(xSSSPb 0 bSPbSPniiiniiniiy yyy yy121212)()()(y总变异的平方和总变异的平方和,记作,记作SSy误差因素引起误差因素引起的平方和,称为的平方和,称为离回归平方和离回归平方和,记作记作Qx引起引起y的变异的变异平方和,称为平方和,称为回归平方和回归平方和,记作记作U估计误差越小。越小,说明直线回归的回归效果越好。中占的比重越大,说明在因此有:估计误差越小。越小,说明直线回归的回归效果越好。中占的比重越大,说明在因此有:QSSUQUSSyy niiyy U12)(离回归平方和离回归平方和 USSQy 回归平方和回归平方和 2xSSSPU )(iixxbyy niiyxxby12)(niixxb122)(xSSSPb xSSb2 1 ndfdfdfdfyUQy自由度可表示为:2.自由度的分解与计算:自由度的分解与计算:21ndfdfQU个自变量个自变量:由于直线回归只涉及一由于直线回归只涉及一)2/()2)/()()2(/)(2/2/nQnUSSQsnQQsyxyxy相应自由度离回归平方和离回归方差:相应自由度离回归平方和离回归方差:3.方差的计算:方差的计算:UUsUUsxyxy)(1/)(2/2/相应自由度回归平方和回归方差:相应自由度回归平方和回归方差:标准误,习惯上称为回归估计以下简写成离回归标准误:标准误,习惯上称为回归估计以下简写成离回归标准误:xyxysnQQs/2)(U=bSP=-2.5317(-139.6937)=353.6628Q=SSy-U=377.2688-353.6628=23.6060【例【例7.2】计算例子的资料的回归平方和、离回归平方 和以及回归估计标准误。根据前面计算结果,可得:计算例子的资料的回归平方和、离回归平方 和以及回归估计标准误。根据前面计算结果,可得:98351286060232)(/.nQQsxy假 设H H0 0:两变量间:两变量间无无线性关系H线性关系HA A:两变量间:两变量间有有线性关系线性关系在无效假设存在下,回归方差与离回归 方差的比值服从F分布。在无效假设存在下,回归方差与离回归 方差的比值服从F分布。)2(2/1/nQUnQUFdf1=1df2=n-2)2(nQUF对两个样本是否存在线性关系进行对两个样本是否存在线性关系进行F检验:检验:。,接受,否定性的大小,检验回归显著值与比较计算分布的,值满足自由度为值计算利用公式确定显著性:有线性关系,:两变量间无线性关系假设检验步骤:。,接受,否定性的大小,检验回归显著值与比较计算分布的,值满足自由度为值计算利用公式确定显著性:有线性关系,:两变量间无线性关系假设检验步骤:离回离回AAHHFFFF.FdfdfF.FnQUnQUFFHH.F00 :5 4)2()2/(1/3.2.14.F检验:检验:H0:黏虫孵化历期平均温度黏虫孵化历期平均温度x与历期天数与历期天数y之间之间不存在不存在线性关系线性关系HA:两变量间两变量间有有线性关系变异来源 线性关系变异来源 df SS s2 FF0.05 F0.01回归 回归 1 353.6628 353.6628 89.89*5.99 13.74离回归 离回归 6 23.6060 3.9343总变异 总变异 7 377.2688【例【例7.3】用用F检验的方法检验例资料直线回归关系 的显著性:检验的方法检验例资料直线回归关系 的显著性:t 检验的结果与检验的结果与F检验结果是一样的:检验结果是一样的:5.t 检验:检验:000 :,对:回归系数假设:,对:回归系数假设AHHbsbt xxybSSsxxny ys/22 )-()2()-(回归系数标准误:回归系数标准误:FnQUnQUsSSbsbsbtxyxbb)2(2/0 。,接受否定性:的大小,检验回归显著值与比较计算值计算利用公式分布,确定显著性的值满足自由度为:,对:假设检验步骤:。,接受否定性:的大小,检验回归显著值与比较计算值计算利用公式分布,确定显著性的值满足自由度为:,对:假设检验步骤:AAHH,t|ttt.tnQUtttndftHH.t00|4)2(3.2 2.00 1983512/.nQsxy178855.SSx 53172.b 【例【例7.4】用用t检验的方法检验例资料直线回归关系的 显著性:检验的方法检验例资料直线回归关系的 显著性:6282000ndfHHA:,对:回归系数假设:,对:回归系数假设7073)6(010.t.否定否定H0:=0,接受,接受HA:0,认为黏虫孵化历期 平均温度与历期天数间有真实直线回归关系。,认为黏虫孵化历期 平均温度与历期天数间有真实直线回归关系。489178855/9835153172/.SSsbsbtxxyb489.sbtb898921.n/Q/UF同一概率值同一概率值F(单尾)值(单尾)值(df1=1,df2=n-2)t值(两尾)(值(两尾)(df=n-2)2tF 28704898989t.F二、直线回归的区间估计二、直线回归的区间估计bxayebxay)(xxy点估计点估计点估计点估计二、直线回归的区间估计二、直线回归的区间估计a和b的置信区间(一)y/x 的置信区间和单个y的预测区间的置信区间和单个y的预测区间(二)y/x 和单个y观测值置信区间图示和单个y观测值置信区间图示(三)(一)a和b的置信区间bxayebxay)(xxy(一)a和b的置信区间xbya)1(22/2xxyaSSxnss)1(2/xxyaSSxnssasatdf=2(一)a和b的置信区间aastaLstaL21总体回归截距的置信区间总体回归截距的置信区间)1(2/xxyaSSxnss(一)a和b的置信区间总体回归系数 的置信区间总体回归系数 的置信区间bbstbLstbL21xxybSSss/8375.16nxx9835.12/nQsxy1788.55)()(222xxnxxSSx3009.1)1(2/xxyaSSxnss2670.0/xxybSSss707.3447.2)6(01.0)6(05.0tt2233.608567.5321aastaLstaL8784.11850.321bbstbLstbL3009.1as0400.57a2670.0bs5317.2bxy5317.20400.5795%的样本回归截 距落在该区间内95%的样本回归系 数落在该区间内95%的样本回归截 距落在该区间内95%的样本回归系 数落在该区间内(二)y/x 的置信区间和单个y的预测区间的置信区间和单个y的预测区间xy/)(xxbybxay不包含随机误差由回归方程预测x为某一定值时y的观测值所在区间,则 y观测值不仅受到y和b的影响,也受到随机误差的影响。不包含随机误差由回归方程预测x为某一定值时y的观测值所在区间,则 y观测值不仅受到y和b的影响,也受到随机误差的影响。xy5317.20400.57bxay)(xxyy总体的平均数单个y值所在的区间y总体的平均数单个y值所在的区间x x点估计点估计点估计点估计(二)y/x 的置信区间和单个y的预测区间的置信区间和单个y的预测区间xxyySSxxnss22/2)(1xxyySSxxnss2/)(1yxysyt/df=n-2y总体的平均数单个y值所在的区间y总体的平均数单个y值所在的区间x xy总体的平均数y总体的平均数yystyLstyL21xy/xxyySSxxnss2/)(1黏虫孵化历期平均温度为15时,历期 天数为多少天(取95置信概率)?黏虫孵化历期平均温度为15时,历期 天数为多少天(取95置信概率)?8559.0)(12/xxyySSxxnss0645.1915)5317.2(0400.57bxay1589.219701.1621yystyLstyLxxyySSxxnss22/2)(11xxyySSxxnss2/)(11ysyytdf=n-2y总体的平均数y总体的平均数x x单个y值所在的区间单个y值所在的区间单个y值所在的区间单个y值所在的区间yystyLstyL21yxxyySSxxnss2/)(11某年的历期平均温度为15时,该年的历 期天数为多少天(取95置信概率)?某年的历期平均温度为15时,该年的历 期天数为多少天(取95置信概率)?1603.2)(112/xxyySSxxnss0645.1915)5317.2(0400.57bxay3508.247782.1321yystyLstyL(二)y/x 的置信区间和单个y的预测区间的置信区间和单个y的预测区间1603.2)(112/xxyySSxxnss3508.247782.1321yystyLstyL8559.0)(12/xxyySSxxnss1589.219701.1621yystyLstyL(三)y/x 和单个y观测值置信区间图示和单个y观测值置信区间图示0510152025303591215182105101520253035912151821预测值均值下限均值上限预测值下限预测值上限xxyySSxxnss2/)(11xxyySSxxnss2/)(1xxxSSn正比反比愈靠近 x,对y总体平均值或单个y的 估计值就愈精确,而增大样本含量,扩 大x的取值范围亦可提高精确度。愈靠近 x,对y总体平均值或单个y的 估计值就愈精确,而增大样本含量,扩 大x的取值范围亦可提高精确度。xx/yaSSxnss21aasat 2 ndfaastaLstaL 21,置信区间置信区间xxybSSss/2 ndfbbsbt bbstbLstbL 21,置信区间置信区间不受随机误差的影响不受随机误差的影响xxyy SSxxnss2/)(1y xyy sy t/2 ndfy y sty Lsty L 21,y/x置信区间置信区间受随机误差的影响受随机误差的影响xxyySSxxnss2/)(11yysy yt2 ndfyysty Lsty L 21,y预测区间预测区间作回归分析时要有实际意义。作回归分析时要有实际意义。直线回归注意问题直线回归注意问题不能把毫无关联的两种现象勉强作回归 分析,即便有回归关系也不一定是因果 关系,还必须对两种现象的内在联系有 所认识,即能从专业理论上作出合理解 释或有所依据。不能把毫无关联的两种现象勉强作回归 分析,即便有回归关系也不一定是因果 关系,还必须对两种现象的内在联系有 所认识,即能从专业理论上作出合理解 释或有所依据。进行直线回归分析之前,绘制散点图。进行直线回归分析之前,绘制散点图。直线回归注意问题直线回归注意问题当观察点的分布有直线趋势时,才适宜作直 线回归分析。散点图还能提示资料有无异常值,即对应于 残差绝对值特别大的观测数据。异常点的存 在往往对回归方程中的当观察点的分布有直线趋势时,才适宜作直 线回归分析。散点图还能提示资料有无异常值,即对应于 残差绝对值特别大的观测数据。异常点的存 在往往对回归方程中的a和和b的估计产生较大 的影响。因此,需要复查此异常点的值。的估计产生较大 的影响。因此,需要复查此异常点的值。直线回归的适应范围一般以自变量的 取值为限。直线回归的适应范围一般以自变量的 取值为限。直线回归注意问题直线回归注意问题在自变量范围内求出的估计值,一般称为内 插在自变量范围内求出的估计值,一般称为内 插(interpolation);超过自变量取值范围所计 算出的估计值,称为外延超过自变量取值范围所计 算出的估计值,称为外延(extrapolation)。若无充分理由证明超过自变量取值范围还是 直线,应该避免外延。若无充分理由证明超过自变量取值范围还是 直线,应该避免外延。描述两变量间的描述两变量间的依存依存关系。关系。直线回归的应用直线回归的应用xy5317.20400.57利用回归关系进行利用回归关系进行预测预测(forecast)。(forecast)。直线回归的应用直线回归的应用xy5317.20400.57将自变量作为预报回子,代入方程对预 报量进行估计,其波动范围可按个体y值 容许区间方法计算。将自变量作为预报回子,代入方程对预 报量进行估计,其波动范围可按个体y值 容许区间方法计算。回归方程进行回归方程进行统计控制 统计控制(statistical control).(statistical control).直线回归的应用直线回归的应用NO2浓度浓度Y(NO2 浓度,mg/m3)=-0.064866+0.000133x(车流量,辆小时)第三节:直线相关 第三节:直线相关 Linear Correlation一、相关系数二、相关系数的显著性测验三、决定系数一、相关系数二、相关系数的显著性测验三、决定系数一、相关系数一、相关系数xy线性关系了解x和y相关以及相关的性质相关系数相关类型相关类型正相关负相关零相关IIIIIIIVIIIIIIIVIIIIIIIV),(yx),(yyxxIIIIIIIV0,0:yyxxI0,0:yyxxII0,0:yyxxIII0,0:yyxxIV0)(yyxxIIIIIIIV0)(yyxx0)(yyxxIIIIIIIVIIIIIIIV0)(yyxx)(yyxx直线相关的两个变量的相关程度和性质直线相关的两个变量的相关程度和性质1)(nyyxx乘积和乘积和互变量(1)单位问题(2)x与y本身的变异不影响x与y之间的相关性(1)单位问题(2)x与y本身的变异不影响x与y之间的相关性?1)(nyyxx1)(1)(1)(22nyynxxnyyxxr r22)()()(yyxxyyxx22)()()(yyxxyyxxr两个变量的变异程度两个变量的度量单位两个变量的个数r r可以用来比较不同双变量的相关程度和性质。可以用来比较不同双变量的相关程度和性质。22)()()(yyxxyyxxr22)()()(yxyxyxyx样本总体22)()()(yyxxyyxxr两个变量在相关系数计算 中的地位是两个变量在相关系数计算 中的地位是平等平等的,没有 自变量和依变量之分的,没有 自变量和依变量之分相关回归相关回归区别联系yyyxyxxySSUSSbSPSSSPSSSPSSSSSPryyyxyxxySSUSSbSPSSSPSSSPSSSSSPryyyySSQSSQSSSSUr12r2 决定系数coefficient of determination二、决定系数二、决定系数yyyySSQSSQSSSSUr12变量x引起y变异的回归平方和占y总变异平方和 的比率当SSy固定时,回归平方和U的大小取决于r变量x引起y变异的回归平方和占y总变异平方和 的比率当SSy固定时,回归平方和U的大小取决于r2 2。回归平方和U是由于引入了相关变量而使总平方 和SSy减少的部分。回归平方和U是由于引入了相关变量而使总平方 和SSy减少的部分。12rSSUy说明引入相关的效果好yyyySSQSSQSSSSUr12102 r11r1r1r1r0Q用 y 可以准确预测y值x与y完全相关。完全正相关完全负相关散点图上所有点必在一条直线上。ySSQr120rySSQ 回归一点作用也没有,即 用x的线性函数完全不能预 测y值的变化。1rySSQr12x与y之间不存在直线相关 关系,这时散点图分布紊 乱,没有直线的趋势,但 可能存在非线性关系。IIIIIIIV10 rx的线性函数对预测y值的变化有一定作 用,但不能准确预测,说明y还受其他 因素(包括随机误差)的影响。x的线性函数对预测y值的变化有一定作 用,但不能准确预测,说明y还受其他 因素(包括随机误差)的影响。相关系数相关系数(r)和决定系数和决定系数(r2)的区别的区别(1)除去(1)除去 r =1r =1和和0 0的情况外,的情况外,r r 2 2 r r,这样可 以防止对相关系数所表示的相关程度作夸张的解释。,这样可 以防止对相关系数所表示的相关程度作夸张的解释。(2)r可正可负,r(2)r可正可负,r2 2取正,r取正,r2 2一般只用于表示相关程 度而不表示相关性质。一般只用于表示相关程 度而不表示相关性质。温度天数9682.02688.3771788.556937.139yxxySSSSSPr9374.02r黏虫孵化历期平均温度与历期天数成负相关。x和y的变异有93.74可用二者之间的线性关系 来解释。黏虫孵化历期平均温度与历期天数成负相关。x和y的变异有93.74可用二者之间的线性关系 来解释。二、相关系数的显著性测验二、相关系数的显著性测验r是线性关系强弱的指标2/)()(2/22nyyyynQUF2121ndfdfxSSbU2222)()()(xxxxyyxxU222)()()(xxxxyyxxU2222)()()()(yyyyxxyyxxU222222)()()()()(yyryyyyxxyyxxUH H0 0:=0H:=0HA A:0检验样本回归系数b是否来自=0的双变 量总体,以:0检验样本回归系数b是否来自=0的双变 量总体,以推断线性回归的显著性推断线性回归的显著性。对于相关系数r作显著性检验的无效假设为=0,即测定r来自=0 总体的概率,也 就是判断对于相关系数r作显著性检验的无效假设为=0,即测定r来自=0 总体的概率,也 就是判断r所代表的总体是否存在直线相关r所代表的总体是否存在直线相关。总体相关系数=022)(yyrU22222)()1()()(yyryyryyUSSQy2/)1(2/22nrrnQUF2121ndfdf2)1(2nrrt2 ndf2)1(2nrsr相关系数r的标准误相关系数r的标准误2tF()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断H H0 0:=0;H:=0;HA A:0选取显著水平:0选取显著水平2)1(2nrrsrtr在显著水平上,否定H在显著水平上,否定H0 0,接受 H,接受 HA A;推断r显著。;推断r显著。)2(ntt在显著水平上,接受H在显著水平上,接受H0 0,否定 H,否定 HA A;推断r不显著。;推断r不显著。)2(nttr r经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,这时经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,这时不能用r代表其相关密切程度不能用r代表其相关密切程度。()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断H H0 0:=0;H:=0;HA A:0选取显著水平0.01:0选取显著水平0.0148.91021.09682.02)1(2nrrsrtr否定H否定H0 0,接受H,接受HA A;推断r极显著,黏虫孵化历期温 度与历期天数之间存在着极显著的直线相关关系。;推断r极显著,黏虫孵化历期温 度与历期天数之间存在着极显著的直线相关关系。707.3)6(01.0 tt48.91021.09682.02)1(2nrrsrtr48.91788.55/9835.15317.2/xxybSSsbsbt必然结果bsbt xxyxybSSsxxsxxnyys/22/22)()()2()(22/nbSPSSnQsyxy)2/()(nbSPSSSSbsbtyxb)2/()1(nSSSPSSSPSSSSSSSPyxyxx)2/()1(nSSSSSPSPSSSSSPyxyxrsrnrr)2/()1(2)2/()1(nSSSSSPSPSSSSSSSPyxyxx)2/()(nbSPSSSSbsbtyxb2)1(2nrrsrtr2)1(222nrrt2222tntr22tntrr与t符号相同。)2()2(nnrt相关系数的假设检验可不计算t 值,相关系数的假设检验可不计算t 值,直接从附表8查出df=n-2时 r的临界值。直接从附表8查出df=n-2时 r的临界值。)2(,nrr椰子树的产量数X(个)椰子树的高度Y(尺)X(个)120 121 123 126 128Y(尺)21 23 22 25 248783.07996.0)3(05.0rr椰子树的产果树与树高之间椰子树的产果树与树高之间无无直线相关关系直线相关关系。当样本太小时,即使r值达到0.7996,样本也可能来 自总体相关系数=0的总体。当样本太小时,即使r值达到0.7996,样本也可能来 自总体相关系数=0的总体。不能直观地由r值判断两变数间的相关密切程度。不能直观地由r值判断两变数间的相关密切程度。试验或抽样时,所取的样本容量n大一些,由此 计算出来的r值才能参考价值。试验或抽样时,所取的样本容量n大一些,由此 计算出来的r值才能参考价值。12相关与回归的联系相关与回归的联系回归方程的显著性回归方程的显著性回归系数的显著性回归系数的显著性相关系数的显著性相关系数的显著性一致一致xybxayrbbxay三者同时显著或不显著。r与b的符号一致,由两变量离均差乘积 之和的符号决定。三者同时显著或不显著。r与b的符号一致,由两变量离均差乘积 之和的符号决定。相关与回归的联系相关与回归的联系)2(2/1/nQUnQUFbbsbsbtrrsrsrtrbbxayr:+,两变量间的相互关系是同向变化的。两变量间的相互关系是同向变化的。b:+,x增(减)一个单位,增(减)一个单位,y平均值增(减)平均值增(减)b个单位。个单位。相关与回归的联系相关与回归的联系用回归解释相关。ySSUr2相关与回归的联系相关与回归的联系y关于x的直线回归系数x 关于y的直线回归系数2/)()(xxyyxxbxy2/)()(yyyyxxbyx22/rSSSSSPbbyxxyyxxyyxSSSSyyxxr)(回归相关x是可以精确 测量和严格 控制的变量x是可以精确 测量和严格 控制的变量。y服从正态分布。x服从正态分布。y服从正态分布。y服从正态分布。x服从正态分布。y服从正态分布。xbayxyxy/ybaxyxyx/I型回归II型回归相关与回归的区别相关与回归的区别资料要求xy两变量间依存变化的数量关系两变量间相关关系两变量间依存变化的数量关系两变量间相关关系回归相关相关与回归的区别相关与回归的区别应用xy单向xyxy双向回归系数回归系数与与相关系数相关系数的正负号都由两变量 离均差积之和的符号决定,所以同一资料 的的正负号都由两变量 离均差积之和的符号决定,所以同一资料 的b b与其与其r r的符号相同。的符号相同。回归系数有单位回归系数有单位,形式为(应变量单位/自变量单位),形式为(应变量单位/自变量单位),相关系数没有单位相关系数没有单位。相关系数的范围在-1+1之间相关系数的范围在-1+1之间,而回归系 数没有这种限制。,而回归系 数没有这种限制。有些资料用相关表示较适宜有些资料用相关表示较适宜,比如兄弟与 姐妹间的身长关系、人的身长与前臂长之 间的关系等资料。有些资料用相关和回归都适宜,此时须视 研究需要而定。就一般计算程序来说,是,比如兄弟与 姐妹间的身长关系、人的身长与前臂长之 间的关系等资料。有些资料用相关和回归都适宜,此时须视 研究需要而定。就一般计算程序来说,是先求出相关系数r 并对其进行假设检验先求出相关系数r 并对其进行假设检验,如果r显著并有进行 回归分析之必要,再建立回归方程。,如果r显著并有进行 回归分析之必要,再建立回归方程。作相关与回归分析要有实际意义。作相关与回归分析要有实际意义。作相关与回归分析要有实际意义。作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作相关 或回归分析。不要把毫无关联的两个事物或现象用来作相关 或回归分析。*如儿童身高的增长与小树的增长,作相关分析 是没有实际意义的,如果计算由儿童身高推算 小树高的回归方程则更无实际意义。也许算得 的r、b是显著的,也是没有意义的。如儿童身高的增长与小树的增长,作相关分析 是没有实际意义的,如果计算由儿童身高推算 小树高的回归方程则更无实际意义。也许算得 的r、b是显著的,也是没有意义的。相关分析只是以相关系数来描述两个变量间相互关 系的密切程度和方向,并不能阐明两事物或现象间 存在联系的本质。相关分析只是以相关系数来描述两个变量间相互关 系的密切程度和方向,并不能阐明两事物或现象间 存在联系的本质。对相关分析的作用要正确理解。对相关分析的作用要正确理解。对相关分析的作用要正确理解。对相关分析的作用要正确理解。*相关并不一定就是因果关系相关并不一定就是因果关系,切不可单纯依靠相关 系数或回归系数的显著性,切不可单纯依靠相关 系数或回归系数的显著性“证明证明”因果关系之存在。因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从 理论上加以阐明。但是,当事物间的因果关系未被 认识前,相关分析可为理论研究提供线索。要证明两事物间的因果关系,必须凭籍专业知识从 理论上加以阐明。但是,当事物间的因果关系未被 认识前,相关分析可为理论研究提供线索。适合相关和回归分析的资料通常有两种适合相关和回归分析的资料通常有两种一个变量X是选定的,另一个变Y是从 正态分布的总体