回归与相关分析讲稿.ppt
《回归与相关分析讲稿.ppt》由会员分享,可在线阅读,更多相关《回归与相关分析讲稿.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、回归与相关分析第一页,讲稿共三十三页哦第七章要点提示第七章要点提示 本章对两个变量的相互关系进行分析,是多元统计分析的基本章对两个变量的相互关系进行分析,是多元统计分析的基石。学习时石。学习时首先要求区分首先要求区分“回归回归”术语古今含义的不同之处,充分认术语古今含义的不同之处,充分认识一元线性回归与相关分析的基础地位;识一元线性回归与相关分析的基础地位;熟悉回归关系与相关关系熟悉回归关系与相关关系的本质区别及两者在统计表述方法上的联系(如的本质区别及两者在统计表述方法上的联系(如r与与b在数学意义上的统在数学意义上的统一性)和各自的侧重点;一性)和各自的侧重点;重点掌握直线回归与相关分析的
2、显著性检重点掌握直线回归与相关分析的显著性检验方法和双变量回归模型的协方差分析技术,以便将统计控制手段与试验方法和双变量回归模型的协方差分析技术,以便将统计控制手段与试验控制手段一起综合运用到试验设计和统计分析中去。验控制手段一起综合运用到试验设计和统计分析中去。涉及教材内容:第九章全五节,第十章、第十一章各一节。涉及教材内容:第九章全五节,第十章、第十一章各一节。作业布置:作业布置:教材教材第十、十一章所余三节内容自习第十、十一章所余三节内容自习;教材教材P191 P191 T5、T6、T9;P224 P224 T7。第二页,讲稿共三十三页哦第一节第一节 直线回归直线回归一、回归的含义一、回
3、归的含义 “回归回归”原文为原文为regression,该术语最先由,该术语最先由英国的英国的F.Galton于于1886年左右研究人类身高遗年左右研究人类身高遗传的规律时所作的传的规律时所作的“高尔顿解释高尔顿解释”中使用,详中使用,详情如右图所示:情如右图所示:高尔顿对此所作的解释是:大自然有高尔顿对此所作的解释是:大自然有一种约束机制,使人类身高分布保持某种稳定形态一种约束机制,使人类身高分布保持某种稳定形态而不作两极分化,也就是有而不作两极分化,也就是有回归于中心的作用回归于中心的作用,这个中心值这个中心值即该种族身高在一定历史时期的平即该种族身高在一定历史时期的平均值。均值。现在就现
4、在就“回归回归”所作的定义是:所作的定义是:如果两个变量如果两个变量X和和Y,总是,总是Y随着随着X的变化的变化而变化,且这种而变化,且这种变化关系不可逆变化关系不可逆,则称,则称X和和Y为为回归关系。其中:回归关系。其中:X叫自变量叫自变量dependent variable;Y叫因变叫因变量或依变量量或依变量independent variable。高高:xg 71 72 g (69)64 a矮矮:xa 67 调查调查n 1074个家庭,统计结果:个家庭,统计结果:X 68英寸英寸 69英寸英寸得:得:X 1 (1英寸英寸2.54cm)但分组统计的结果却并非如此但分组统计的结果却并非如此父
5、母为高个子组时,父母为高个子组时,g 721父母为矮个子组时,父母为矮个子组时,a 641 走向指回归的本意走向指回归的本意 走向指回归的今义走向指回归的今义第三页,讲稿共三十三页哦第一节第一节 直线回归直线回归二、建立直线回归方程二、建立直线回归方程 例例7.1 一些夏季害虫的盛发期迟早与春季一些夏季害虫的盛发期迟早与春季温度高低有关。江苏武进县观察温度高低有关。江苏武进县观察1956-1964年年3 月下旬至月下旬至4 月中旬的月中旬的3 段旬均温累积值段旬均温累积值X和一代三化螟盛发期和一代三化螟盛发期Y(5月月10日起算日起算)所得所得结果如下,试予分析。结果如下,试予分析。解解 描散
6、点图描散点图 本例已知害虫盛发期迟早随春季气温的变本例已知害虫盛发期迟早随春季气温的变化而变化,且不可逆,又据散点图反映的化而变化,且不可逆,又据散点图反映的趋势来看,在趋势来看,在3045的温度范围,盛发的温度范围,盛发期天数随值呈下降的线性变化关系。期天数随值呈下降的线性变化关系。故可假定直线回归方程为:故可假定直线回归方程为:y a bx 读作读作“Y依依x直线回归直线回归”30 35 40 45年份195619571958195919601961196219631964X()35.534.131.740.336.840.231.739.244.2333.7Y(d)12169273139
7、170y a bx第四页,讲稿共三十三页哦第一节第一节 直线回归直线回归数据整理数据整理 由原始数据算出由原始数据算出一级数据一级数据6个个:X333.7 Y70 XY2436.4X 212517.49 Y 2794 n9 再由一级数据算出再由一级数据算出二级数据二级数据5个个:SSX X 2 (X)2/n144.64SSY Y 2 (Y)2/n 249.56SP XY X Y/n 159.04 XX/n 37.08 Y/n 7.78计算计算三级数据三级数据 b SP/SSX 1.10 (159.04)144.64 a bX48.55 7.78(1.10)37.08 得所求直线回归方程为:得所
8、求直线回归方程为:y 48.55 1.10 xy 48.55 1.10 x30 35 40 4531.744.2第五页,讲稿共三十三页哦第一节第一节 直线回归直线回归三、直线回归关系的显著性检验三、直线回归关系的显著性检验 将将a bx 代入代入Y a bx 得:得:y b(xx)及及 y b(xx)于是由因变量离均差的两个线性分量:于是由因变量离均差的两个线性分量:(Y)2(Yy)(y )2 可推导出因变量总可推导出因变量总SS的如下分解公式:的如下分解公式:(Y)2(Yy)2(y )2 简写成:简写成:SSY SSQ SSU Q U分别叫分别叫“离回归离回归平方和平方和”与与“回归回归平方
9、和平方和”其计算公式及本例分解结果:其计算公式及本例分解结果:SSUSP2/SSX159.042/144.64 174.89 SSQSSY SSU249.56174.8974.67 故故 F MSU/MSQ 16.4*(F0.01,1,712.25)(174.891)/(74.677)表明双变量直线回归关系极显著表明双变量直线回归关系极显著,所得方程所得方程 y 48.55 1.10 x可用于预测。可用于预测。也可对回归系数进行也可对回归系数进行t-test来证实。来证实。只是要利用只是要利用df(分子分子)1时,时,Ft2的关系的关系推导出回归系数的标准误推导出回归系数的标准误SbSe/SS
10、X其中,其中,Se2SSQ/dfQ 74.677 10.67于是于是t-test的步骤如下:的步骤如下:(1)H0:=0(为回归系数为回归系数b的真值的真值)(2)Sb Se2/SSX 0.2715 10.67144.64 t(b)Sb(-1.1)0.2715-4.05(3)按自由度按自由度 7 查得两尾查得两尾 t0.01=3.50(4)推断:推断:t t0.01 H0 不成立。不成立。可见可见t-test与与F-test的效果完全一致。的效果完全一致。若显著性检验结果不显著若显著性检验结果不显著,则则三选一:三选一:Y与与X没有回归关系;没有回归关系;Y与与X有回归关系,但不是直线回归;有
11、回归关系,但不是直线回归;Y与与X有回归关系,但不是简单回归,有回归关系,但不是简单回归,而是多元回归。而是多元回归。第六页,讲稿共三十三页哦第二节第二节 直线相关直线相关一、相关的含义一、相关的含义 如果两个变量如果两个变量X和和Y,总是,总是X和和Y 相互制约、相互制约、平行变化平行变化,则称,则称X和和Y为相关关系。为相关关系。此时,此时,X和和Y没有严格意义上的自变量和因变没有严格意义上的自变量和因变量之分,既可以说量之分,既可以说Y随着随着X的变化而变化,的变化而变化,也可也可以讲以讲X随着随着Y 的变化而变化。即不存在谁决定的变化而变化。即不存在谁决定谁或谁依赖谁的问题。谁或谁依赖
12、谁的问题。如人或动物的胸围和体重,作物的生物产量和如人或动物的胸围和体重,作物的生物产量和经济产量,树干的胸径与材积等。经济产量,树干的胸径与材积等。可见,相关关系以双向、平行为特征。可见,相关关系以双向、平行为特征。但相关关系如果仅从数学角度看,和回但相关关系如果仅从数学角度看,和回归关系是统一的,因为其双变量变化规律如归关系是统一的,因为其双变量变化规律如果是线性关系的话,也可以由根据果是线性关系的话,也可以由根据“最小二最小二乘法乘法”原理得出的直线方程来表述,所以有原理得出的直线方程来表述,所以有些文献不区分回归关系和相关关系,将二者些文献不区分回归关系和相关关系,将二者笼统地称之笼统
13、地称之“回归回归”或者或者“相关相关”。从统计上讲,相关分析的侧重点和回归从统计上讲,相关分析的侧重点和回归分析不完全一样。分析不完全一样。二、相关系数二、相关系数 前已述及,具有线性回归关系的双变量前已述及,具有线性回归关系的双变量中,中,Y变量的总变异量分解为:变量的总变异量分解为:SSY SSQ SSU Q U 对于具有线性相关关系的双变量,对于具有线性相关关系的双变量,Y变量的总平方和也可以分解成同样的两个分变量的总平方和也可以分解成同样的两个分量,只是分别改称为量,只是分别改称为“非相关平方和非相关平方和”与与“相关相关平方和平方和”于是有:于是有:r SSU/SSY SP/SSX
14、SSY “r”叫叫相关系数相关系数,其绝对值越大,其绝对值越大,SSU所占的比重就越大,在散点图上就表所占的比重就越大,在散点图上就表现为各散点越靠近直线;反之,现为各散点越靠近直线;反之,即即SSQ所占的比重越大,各散点越远离直线。所占的比重越大,各散点越远离直线。并且有以下性质:并且有以下性质:r 的正负和的正负和b一样取决于一样取决于SP的正负;的正负;r0,正相关;正相关;r0,负相关,负相关 r1,1或或r(1,1););决定系数决定系数 r 2bb 或或 r bb第七页,讲稿共三十三页哦第二节第二节 直线相关直线相关三、相关分析举例三、相关分析举例 例例7.2 为研究绵羊胸围(为研
15、究绵羊胸围(cm)和体重()和体重(kg)的相互关系,调查了的相互关系,调查了10只绵羊胸围和体重的对应观只绵羊胸围和体重的对应观察值察值X和和Y,所得结果如下表,试予分析。所得结果如下表,试予分析。解解 描散点图描散点图 本例已知绵羊胸围(本例已知绵羊胸围(X)和体重()和体重(Y)为相)为相关关系,散点图也显示两者的变化规律呈关关系,散点图也显示两者的变化规律呈线性线性正相关正相关,SP0。故可假定直线相关方程为:故可假定直线相关方程为:y a bx 或或 x a b y后一个方程也可写成:后一个方程也可写成:y a b x绵羊12345678910X(cm)687070717171737
16、47676720Y(kg)50606865697271737577680y a bx807468625650第八页,讲稿共三十三页哦第二节第二节 直线相关直线相关数据整理数据整理 由原始数据算出由原始数据算出一级数据一级数据6个个:X720 Y680 XY49123X 251904 Y 246818 n10 再由一级数据算出再由一级数据算出二级数据二级数据5个个:SSX X 2 (X)2/n64SSY Y 2 (Y)2/n 578SP XY X Y/n 163 XX/n 72 Y/n 68计算计算三级数据三级数据 b SP/SSX 16364 2.547 a 72 2.54768 115.4b
17、 SP/SSY 163578 0.282 a 68 0.282 72 52.82 即所求相关方程可以有两个即所求相关方程可以有两个(如右图如右图)r SP/SSX SSY 0.8475r 2bb2.547 0.2820.7192y 52.82 0.282 x76726840 50 60 70 8080706050y 2.547x115.4第九页,讲稿共三十三页哦第二节第二节 直线相关直线相关、直线相关关系的显著性检验、直线相关关系的显著性检验 和直线回归关系的显著性检验原理一样,直和直线回归关系的显著性检验原理一样,直线相关关系的双变量也可导出线相关关系的双变量也可导出Y变量总变量总SS的如下
18、的如下分解公式:分解公式:(Y)2(Yy)2(y )2 简写成:简写成:SSY SSQ SSU Q U分别叫分别叫“非相关非相关平方和平方和”与与“相关相关平方和平方和”其计算公式引用三级数据后简化为:其计算公式引用三级数据后简化为:SSY (1 r 2)SSY r 2 SSY 或者或者 SSX (1 r 2)SSX r 2 SSX SSU r 2 SSY0.7182 578 415 SSQ(1 r 2)SSY 0.2818 578 163 故故 F MSU/MSQ 20.4*(F0.01,1,811.26)(n 2)r 2/(1 r 2)表明双变量直线相关关系极其显著表明双变量直线相关关系极
19、其显著,所得两个直线相关方程都可用于预测。所得两个直线相关方程都可用于预测。也可对回归系数进行也可对回归系数进行t-test来证实。来证实。只是要利用只是要利用df(分子分子)1时,时,Ft2的关系的关系推导出相关系数的标准误:推导出相关系数的标准误:Sr(1 r 2)/(n 2)并且并且Se2SSQ/dfQ 1638 20.4于是于是t-test的步骤如下:的步骤如下:(1)H0:=0(为相关系数为相关系数 r 的真值的真值)(2)Sr 0.28188 0.1877 t(r)Sr0.84750.18774.516(3)按自由度按自由度 8 查得两尾查得两尾 t0.01=3.355(4)推断:
20、推断:t t0.01 H0 不成立。不成立。可见可见t-test与与F-test的效果完全一致。的效果完全一致。若显著性检验结果不显著若显著性检验结果不显著,则则三选一:三选一:Y与与X没有相关关系;没有相关关系;Y与与X有相关关系,但不是直线相关;有相关关系,但不是直线相关;Y与与X有相关关系,但不是简单相关,有相关关系,但不是简单相关,而是复相关。而是复相关。第十页,讲稿共三十三页哦第二节第二节 直线相关直线相关四、回归与相关关系的统一性四、回归与相关关系的统一性 既然相关关系和回归关系的显著性检验原理既然相关关系和回归关系的显著性检验原理一样,那么,不论回归还是相关关系,其检验一样,那么
21、,不论回归还是相关关系,其检验都可用都可用“相关系数相关系数”r 进一步简化如下:即由进一步简化如下:即由 t2 F (n 2)r 2/(1 r 2)解得:解得:r t2/(n 2 t2)于是利用这一关系将各个自由度下的于是利用这一关系将各个自由度下的 t 临临界值界值t0.05和和 t0.01换算出相关系数换算出相关系数r的临界值的临界值r0.05和和 r0.01,从而得到直接用于检验回归或者是相关关系显,从而得到直接用于检验回归或者是相关关系显著性的临界值表著性的临界值表(附表附表10)。如从教材如从教材P376查得查得M2,dfQ8时时 r0.05 0.632,r0.01 0.765今得
22、今得 r 0.8475*r0.01 再由例再由例7.1从从P376查得查得M2,dfQ7时时 r0.05 0.666,r0.01 0.798算得算得“r”0.8371*r0.01 检验效果与检验效果与F-test或者是或者是t-test完全一样。完全一样。例例7.2关于关于体重体重(Y)的的ANOVA表:表:SOV DF SSY MS F F 0.01相关相关 1 415 415 20.4*11.26非相关非相关 8 163 20.4 总总 9 578也可针对也可针对胸围胸围(X)做做ANOVA表:表:SOV DF SSX MS F F 0.01相关相关 1 46 46 20.4*11.26非
23、相关非相关 8 18 2.25 总总 9 64例例7.1只对只对盛发期盛发期(Y)做做ANOVA表:表:SOV DF SSY MS F F 0.01回归回归 1 175 175 16.4*12.25离回归离回归 7 75 10.7 总总 8 250第十一页,讲稿共三十三页哦第三节 多项式回归 例例7.3 观测观测n7块小麦田孕穗期的叶面积指数块小麦田孕穗期的叶面积指数(x)和每和每667m2的籽粒产量的籽粒产量(y)的关系,的关系,得结果如下,试就其数量变化特点建立多项式回归方程并予以分析。得结果如下,试就其数量变化特点建立多项式回归方程并予以分析。解解 先描散点图;先描散点图;初步判断为二次
24、多项式初步判断为二次多项式 通常称之为抛物线;通常称之为抛物线;这种变化关系在农业和这种变化关系在农业和生物学领域普遍存在;生物学领域普遍存在;完成这类实例分析的方完成这类实例分析的方法是法是将曲线单回归的问题通将曲线单回归的问题通过变量代换转化为二元线性过变量代换转化为二元线性回归的问题回归的问题来解决,这也是来解决,这也是完成更高次多项式回归分析完成更高次多项式回归分析的基本点。的基本点。田块1234567 X3.374.124.875.626.377.127.8739.34Y(kg)3493743883954013973842688第十二页,讲稿共三十三页哦y y2 2a ab b1 1
25、x xb b2 2x x2 2的图象的图象 一、确定多项式方程次数的方法b b2 2 0 0 b b2 2 0 0当两个变数间的曲线关系很难确定时,可以使当两个变数间的曲线关系很难确定时,可以使用多项式去逼近,称为多项式回归(用多项式去逼近,称为多项式回归(polynomial regression)。最简单的多项式是二次多项式,其方程为:最简单的多项式是二次多项式,其方程为:y2 ab1xb2x2 它的图象是抛物线。当它的图象是抛物线。当b20时,曲线凹向上,时,曲线凹向上,有一个极小值;有一个极小值;b2 0时,曲线凸向上,有一时,曲线凸向上,有一个极大值,见右图。个极大值,见右图。本本例
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 相关 分析 讲稿
限制150内