《23_变量间的相关关系.ppt》由会员分享,可在线阅读,更多相关《23_变量间的相关关系.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、变量间的相关关系变量间的相关关系2.32.3主要内容2.3.1 变量间的相关关系(线性相关)2.3.2 两个变量的线性相关回归直线两个变量间两个变量间的相关关系的相关关系2.3.1(A)(A)(B)(B)(C)(C)(D)(D)A AB BD DC C1 1、下列各情景分别可以用哪一幅图来近似的刻画、下列各情景分别可以用哪一幅图来近似的刻画 (1 1)汽车紧急刹车(速度与时间的关系)汽车紧急刹车(速度与时间的关系) (2 2)人的身高变化(身高与年龄的关系)人的身高变化(身高与年龄的关系) (3 3)跳高运动员跳跃横杆(高度与时间的关系)跳高运动员跳跃横杆(高度与时间的关系) (4 4)一面冉
2、冉上升的红旗(高度与时间的关系)一面冉冉上升的红旗(高度与时间的关系) t(t(时时) )1 1 3 32 24 48080240240160160320320S(S(千米千米) )(列(列 表)表)所用的时间所用的时间 t t(小时)(小时)1 12 23 3路程路程 s s(千米)(千米) s = 80ts = 80t(图(图 像)像)(关系式)(关系式)80802402401601600 函数是研究两个变量之间的依存关系的一函数是研究两个变量之间的依存关系的一种数量形式种数量形式. .对于两个变量,如果当一个变量对于两个变量,如果当一个变量的取值一定时,另一个变量的取值被惟一确的取值一定
3、时,另一个变量的取值被惟一确定,则这两个变量之间的关系就是一个函数定,则这两个变量之间的关系就是一个函数关系关系. . 思考:在中学校园里,有这样一种说法:思考:在中学校园里,有这样一种说法:“如如果你的数学成绩好,那么你的物理学习就不会有什果你的数学成绩好,那么你的物理学习就不会有什么大问题么大问题. .”按照这种说法,似乎学生的物理成绩与按照这种说法,似乎学生的物理成绩与数学成绩之间存在着某种相关关系,这种说法有没数学成绩之间存在着某种相关关系,这种说法有没有根据呢?有根据呢? 请同学们如实填写下表(在空格中打请同学们如实填写下表(在空格中打“” ) 讨论数学成绩与物理成绩的关系讨论数学成
4、绩与物理成绩的关系. .好好中中差差数学成绩数学成绩物理成绩物理成绩 我们可以发现自己的数学成绩和物理成绩存在我们可以发现自己的数学成绩和物理成绩存在某种关系某种关系.(似乎就是数学好的,物理也好;数学差(似乎就是数学好的,物理也好;数学差的,物理也差,但又不全对的,物理也差,但又不全对.)物理成绩和数学成绩)物理成绩和数学成绩是两个变量,从经验看,由于物理学习要用到比较是两个变量,从经验看,由于物理学习要用到比较多的数学知识和数学方法多的数学知识和数学方法.数学成绩的高低对物理成数学成绩的高低对物理成绩的高低是有一定影响的绩的高低是有一定影响的.但决非唯一因素,还有其但决非唯一因素,还有其它
5、因素,如是否喜欢物理,用在物理学习上的时间它因素,如是否喜欢物理,用在物理学习上的时间等等等等. 总结:不能通过一个人的数学成绩是多少就准总结:不能通过一个人的数学成绩是多少就准确地断定他的物理成绩能达到多少确地断定他的物理成绩能达到多少.但这两个变量但这两个变量是有一定关系的,它们之间是一种不确定性的关系是有一定关系的,它们之间是一种不确定性的关系.如何通过数学成绩的结果对物理成绩进行合理估计如何通过数学成绩的结果对物理成绩进行合理估计有非常重要的现实意义有非常重要的现实意义. 不是函数关系,但这两个变量是有一定关系的,不是函数关系,但这两个变量是有一定关系的,当我们主要考察数学成绩对物理成
6、绩的影响时,就当我们主要考察数学成绩对物理成绩的影响时,就是要考察这两者之间的相关关系是要考察这两者之间的相关关系. .这两个变量是函数关系吗?这两个变量是函数关系吗?练习练习1 1:考察下列问题中两个变量之间的关系:考察下列问题中两个变量之间的关系: (1 1)商品销售收入与广告支出经费;)商品销售收入与广告支出经费; (2 2)粮食产量与施肥量;)粮食产量与施肥量; (3 3)人体内的脂肪含量与年龄)人体内的脂肪含量与年龄. . 这些问题中两个变量之间的关系是函数关系吗?这些问题中两个变量之间的关系是函数关系吗? (1) (1)商品销售收入与广告支出经费之间的关系商品销售收入与广告支出经费
7、之间的关系. .商商品销售收入与广告支出经费有着密切的联系,但商品品销售收入与广告支出经费有着密切的联系,但商品销售收入不仅与广告支出多少有关,还与商品质量销售收入不仅与广告支出多少有关,还与商品质量, , 居民收入,生活环境等因素有关居民收入,生活环境等因素有关. . (2) (2)粮食产量与施肥量之间的关系粮食产量与施肥量之间的关系. .在一定范围内,在一定范围内,施肥量越大,粮食产量就越高施肥量越大,粮食产量就越高. .但是,施肥量并不是决但是,施肥量并不是决定粮食产量的唯一因素,因为粮食产量还要受到土壤定粮食产量的唯一因素,因为粮食产量还要受到土壤质量,降雨量,田间管理水平等因素的影响
8、质量,降雨量,田间管理水平等因素的影响. . (3) (3)人体内的脂肪含量与年龄之间的关系人体内的脂肪含量与年龄之间的关系. .在一定在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增年龄段内,随着年龄的增长,人体内的脂肪含量会增加,但人体内的脂肪含量还与饮食习惯,体育锻炼等加,但人体内的脂肪含量还与饮食习惯,体育锻炼等有关,可能还与个人的先天体质有关有关,可能还与个人的先天体质有关. . 练习练习2 2:“名师出高徒名师出高徒”可以解释为教师的水平可以解释为教师的水平越高,学生的水平就越高,那么学生的学业成绩与越高,学生的水平就越高,那么学生的学业成绩与教师的教学水平之间的关系是函数关系
9、吗?你能举教师的教学水平之间的关系是函数关系吗?你能举出类似的描述生活中两个变量之间的这种关系的成出类似的描述生活中两个变量之间的这种关系的成语吗?语吗? 两个变量之间的关系可能是确定的关系(如:函两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系数关系),或非确定性关系. .上述两个变量之间的关上述两个变量之间的关系是一种非确定性关系,称之为系是一种非确定性关系,称之为相关关系相关关系. . 当自变量取值一定时,因变量也确定,则为确定当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这关系;当自变量取值一定时,因变量带有随机性,这种变量之间
10、的关系称为种变量之间的关系称为相关关系相关关系. .相关关系是一种非相关关系是一种非确定性关系确定性关系. .两个变量两个变量自变量取值一定自变量取值一定因变量带有随机性因变量带有随机性相关关系相关关系相关关系相关关系的概念:的概念:相关关系与函数关系的异同点:相关关系与函数关系的异同点: 相同点:均是指两个变量的关系相同点:均是指两个变量的关系不同点:函数关系是一种确定的关系;而相关关不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系系是一种非确定关系. . 对于一个变量,可以控制其数量大小的变量对于一个变量,可以控制其数量大小的变量称为称为可控变量可控变量,否则称为,否则称为随机
11、变量随机变量,那么相关关,那么相关关系中的两个变量有哪几种类型?系中的两个变量有哪几种类型? (1)(1)一个为可控变量,另一个为随机变量;一个为可控变量,另一个为随机变量;(2)(2)两个都是随机变量两个都是随机变量. . 练习练习3 3:有关法律规定,香烟盒上必须印上:有关法律规定,香烟盒上必须印上“吸烟有害健康吸烟有害健康”的警示语的警示语. .吸烟是否一定会引吸烟是否一定会引起健康问题?你认为起健康问题?你认为“健康问题不一定是由吸烟健康问题不一定是由吸烟引起的,所以可以吸烟引起的,所以可以吸烟”的说法对吗?的说法对吗? 答:从已经掌握的知识来看答:从已经掌握的知识来看 ,吸烟会损害身
12、体,吸烟会损害身体的健康的健康. .但是除了吸烟之外,还有许多其它的随机因但是除了吸烟之外,还有许多其它的随机因素影响身体健康,人体健康是有很多因素共同作用的素影响身体健康,人体健康是有很多因素共同作用的结果结果. .我们可以找到长寿的吸烟者,也更容易发现由我们可以找到长寿的吸烟者,也更容易发现由于吸烟而引发的患病者,所以吸烟不一定引起健康问于吸烟而引发的患病者,所以吸烟不一定引起健康问题题. .但吸烟引起健康问题的可能性大,因此但吸烟引起健康问题的可能性大,因此“健康问健康问题不一定是由吸烟引起的,所以可以吸烟题不一定是由吸烟引起的,所以可以吸烟”的说法是的说法是不对的不对的. . 练习练习
13、4 4:某地区的环境条件适合天鹅栖息繁衍,:某地区的环境条件适合天鹅栖息繁衍,有人统计发现了一个非常有趣的现象,如果村庄附有人统计发现了一个非常有趣的现象,如果村庄附近栖息的天鹅多,那么这个村庄的婴儿出生率也高,近栖息的天鹅多,那么这个村庄的婴儿出生率也高,天鹅少的地方婴儿的出生率低天鹅少的地方婴儿的出生率低. .于是,他就得出一于是,他就得出一个结论:天鹅能够带来孩子,你认为这样得到的结个结论:天鹅能够带来孩子,你认为这样得到的结论可靠吗?如何证明这个结论的可靠性?论可靠吗?如何证明这个结论的可靠性? 答:从现在我们掌握的知识来看,没有发现根答:从现在我们掌握的知识来看,没有发现根据说明据说
14、明“天鹅能够带来孩子天鹅能够带来孩子”,完全可能存在既能,完全可能存在既能吸引天鹅和又使婴儿出生率高的第吸引天鹅和又使婴儿出生率高的第3 3个因素(例如个因素(例如独特的环境因素),即天鹅与婴儿出生率之间没有独特的环境因素),即天鹅与婴儿出生率之间没有直接的关系,因此直接的关系,因此“天鹅能够带来孩子天鹅能够带来孩子”的结论不的结论不可靠可靠. . 而要证实此结论是否可靠,可以通过实验来进而要证实此结论是否可靠,可以通过实验来进行行. .相同的环境下将居民随机地分为两组,一组居相同的环境下将居民随机地分为两组,一组居民和天鹅一起生活(比如家中都饲养天鹅),而另民和天鹅一起生活(比如家中都饲养天
15、鹅),而另一组居民的附近不让天鹅活动,对比两组居民的出一组居民的附近不让天鹅活动,对比两组居民的出生率是否相同生率是否相同. . 探究:在一次对人体脂肪含量和年龄关系的研究探究:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:中,研究人员获得了一组样本数据:年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.
16、533.535.235.234.634.6 根据上述数据,人体的脂肪含量与年龄之间有怎根据上述数据,人体的脂肪含量与年龄之间有怎样的关系?样的关系? 探究:在一次对人体脂肪含量和年龄关系的研究探究:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:中,研究人员获得了一组样本数据: 其中各年龄对应的脂肪数据是这个年龄人群脂肪其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数含量的样本平均数. .年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.
17、2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.6 对某一个人来说,他的体内脂肪含量不一定随对某一个人来说,他的体内脂肪含量不一定随年龄增长而增加或减少,但是如果把很多个体放在年龄增长而增加或减少,但是如果把很多个体放在一起,就可能表现出一定的规律性一起,就可能表现出一定的规律性. . 观察上表中的数据,大体上看,随着年龄的增观察上表中的数据,大体上看,随着年龄的增加,人体脂肪含量怎样变化?加,人体脂肪含量怎样变化?年龄年龄232327273939414145
18、4549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.6年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230
19、.231.431.430.830.833.533.535.235.234.634.6 为了确定年龄和人体脂肪含量之间的更明确的关为了确定年龄和人体脂肪含量之间的更明确的关系,我们需要对数据进行分析系,我们需要对数据进行分析. . 与以前一样,我们可以通过作统计图、表,使我与以前一样,我们可以通过作统计图、表,使我们对两个变量之间的关系有一个直观的印象和判断们对两个变量之间的关系有一个直观的印象和判断. .年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄53
20、53545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.6 为了确定年龄和人体脂肪含量之间的更明确的为了确定年龄和人体脂肪含量之间的更明确的关系,我们需要对数据进行分析关系,我们需要对数据进行分析. . 通过作图可以对两个变量之间的关系有一个直通过作图可以对两个变量之间的关系有一个直观的印象观的印象. .以以x x轴表示年龄,轴表示年龄,y y轴表示脂肪含量,你能轴表示脂肪含量,你能在直角坐标系中描出样本数据对应的图形吗?在直角坐标系中描出样本数据对应的图形吗? 年龄年龄23232
21、72739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.220 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.620 20 4
22、040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄下图叫做散点图,你能描述一下散点图的含义吗?下图叫做散点图,你能描述一下散点图的含义吗? 20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄 在平面直角坐标系中,表示具有相关关系的两在平面直角坐标系中,表示具有相关关系的两个变量的一组数据图形,称为个变量的一组数据图形,称为散点图散点图. . 计算机可以帮助我们作散点图计算机可以帮助我们作散点图. .下图就是用计下图就是用计算机作出来的算机作出来的. . 20 20 40
23、40303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄 观察散点图的大致趋势,人的年龄与人体脂肪含观察散点图的大致趋势,人的年龄与人体脂肪含量具有什么相关关系?量具有什么相关关系? 20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄从散点图可以看出,年龄越大,体内脂肪含量越高从散点图可以看出,年龄越大,体内脂肪含量越高. . 这个图支持了我们从数据表中得出的结论这个图支持了我们从数据表中得出的结论. . 20 20 4040303050501010303020204040脂肪
24、含量脂肪含量) )60600 01010年龄年龄 在上面的散点图中,这些点散布在从左下角到在上面的散点图中,这些点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关们将它称为正相关. .20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄 一般地,如果两个变量成正相关,那么这两个一般地,如果两个变量成正相关,那么这两个变量的变化趋势如何?变量的变化趋势如何? 思考思考1 1:如果两个变量成负相关,从整体上看这:如果两个变量成负相关,从整体上看这两个变量的变化
25、趋势如何?两个变量的变化趋势如何? 一个变量随另一个变量的变大而变小一个变量随另一个变量的变大而变小. . 思考思考3 3:你能列举一些生活中的变量成正相关或:你能列举一些生活中的变量成正相关或负相关的实例吗负相关的实例吗? ? 思考思考2 2:其散点图有什么特点?:其散点图有什么特点? 散点图中的点散布在从左上角到右下角的区域散点图中的点散布在从左上角到右下角的区域. .练习练习1 1:在下列两个变量的关系中,哪些是相关关系?:在下列两个变量的关系中,哪些是相关关系?汽车行驶路程与速度之间的关系;汽车行驶路程与速度之间的关系;作文水平与课外阅读量之间的关系;作文水平与课外阅读量之间的关系;人
26、的身高与年龄之间的关系;人的身高与年龄之间的关系;吸烟吸烟与癌症的发生率之间的关系与癌症的发生率之间的关系. . 练习练习2 2: 一个车间为了规定工时定额,需要确定一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了加工零件所花费的时间,为此做了7 7次试验,收集数据次试验,收集数据如下:如下:零件数零件数x x(个)(个) 1010202030304040505060607070加工时间加工时间y y(minmin)62626868757581819595102102108108 画出数据对应的散点图,并指出销售价格与房屋画出数据对应的散点图,并指出销售价格与房屋面积这两个变量
27、是正相关还是负相关面积这两个变量是正相关还是负相关. . 1 1、对于两个变量之间的关系,有函数关系和相、对于两个变量之间的关系,有函数关系和相关关系两种,其中函数关系是一种确定性关系,相关关系两种,其中函数关系是一种确定性关系,相关关系是一种非确定性关系关关系是一种非确定性关系. . 3 3、散点图能直观反映两个相关变量之间的大致、散点图能直观反映两个相关变量之间的大致变化趋势,可用来判断两个变量之间的相关关系成变化趋势,可用来判断两个变量之间的相关关系成正相关或负相关正相关或负相关. . 2 2、散点图的作法及正、负相关的概念、散点图的作法及正、负相关的概念. .小结小结两个变量的线性相关
28、两个变量的线性相关回归直线回归直线2.3.2 当自变量取值一定时,因变量带有随机性,当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为这种变量之间的关系称为相关关系相关关系. .相关关系是相关关系是一种非确定性关系一种非确定性关系. .2 2、相关关系与函数关系的异同点:、相关关系与函数关系的异同点: 相同点:均是指两个变量的关系相同点:均是指两个变量的关系 不同点:函数关系是一种确定的关系;而相不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系关关系是一种非确定关系. .1 1、相关关系相关关系的概念:的概念: 3 3、在平面直角坐标系中,表示具有相关关系、在平面直角坐标
29、系中,表示具有相关关系的两个变量的一组数据图形,称为的两个变量的一组数据图形,称为散点图散点图. . 正相关的散点图中的点散布在从左下角到右正相关的散点图中的点散布在从左下角到右上角的区域,负相关的散点图中的点散布在从左上角的区域,负相关的散点图中的点散布在从左上角到右下角的区域上角到右下角的区域 4 4、成正相关和负相关的两个相关变量的散、成正相关和负相关的两个相关变量的散点图分别有什么特点?点图分别有什么特点? 探究:观察人体的脂肪含量百分比和年龄的样探究:观察人体的脂肪含量百分比和年龄的样本数据的散点图,这两个相关变量成正相关本数据的散点图,这两个相关变量成正相关. .我们我们需要进一步
30、考虑的问题是,当人的年龄增加时,体需要进一步考虑的问题是,当人的年龄增加时,体内脂肪含量到底是以什么方式增加呢?内脂肪含量到底是以什么方式增加呢?20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄 讨论:有些散点图中的点是杂乱分布的,有讨论:有些散点图中的点是杂乱分布的,有些散点图中的点的分布有一定的规律性,年龄和些散点图中的点的分布有一定的规律性,年龄和人体脂肪含量的样本数据的散点图中的点的分布人体脂肪含
31、量的样本数据的散点图中的点的分布有什么特点?有什么特点? 20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄这些点大致分布在一条直线附近这些点大致分布在一条直线附近. .20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄 如果散点图中的点的分布,从整体上看大致在一条如果散点图中的点的分布,从整体上看大致在一条直线附近,则称这两个变量之间具有直线附近,则称这两个变量之间具有线性相关关系线性相关关系,这,这条直线叫做条直线叫做回归直线回归直线. .并根据回归方
32、程对总体进行估计并根据回归方程对总体进行估计. . 20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄 如果能够求出这条回归直线的方程(简称如果能够求出这条回归直线的方程(简称回回归方程归方程),那么我们就可以比较清楚地了解年龄),那么我们就可以比较清楚地了解年龄与体内脂肪含量的相关性与体内脂肪含量的相关性. .20 20 4040303050501010303020204040脂肪含量脂肪含量) )60600 01010年龄年龄讨论:讨论:1 1、每个同学画的直线相同吗?、每个同学画的直线相同吗?2 2、你认为回归直线有很
33、多条吗?、你认为回归直线有很多条吗?3 3、你可以求出直线方程吗?、你可以求出直线方程吗? 大家的建议都有一定的道理,但总让人感到可大家的建议都有一定的道理,但总让人感到可靠性不强靠性不强. . 回归直线与散点图中各点的位置用数学的方法回归直线与散点图中各点的位置用数学的方法来刻画应具有怎样的关系?来刻画应具有怎样的关系? 从整体上看,各点与此直线最接近,距离最小从整体上看,各点与此直线最接近,距离最小. . 你能解释这句话的含义吗?你能解释这句话的含义吗?(x(x1 1,y,y1 1) )(x(x2 2,y y2 2) )(x(xi i,y yi i) )( (x xn n,y yn n)
34、) 讨论:对一组具有线性相关关系的样本数据:讨论:对一组具有线性相关关系的样本数据:(x(x1 1,y y1 1) ),(x(x2 2,y y2 2) ),( (x xn n,y yn n) ),设其回归方程为设其回归方程为 , ,可以用哪些数量关可以用哪些数量关系来刻画各样本点与回归直线的接近程度?系来刻画各样本点与回归直线的接近程度? abxy(x(x1 1,y,y1 1) )(x(x2 2,y y2 2) )(x(xi i,y yi i) )( (x xn n,y yn n) ) 我们可以用点(我们可以用点(x xi i,y yi i)与这条直线上横坐)与这条直线上横坐标为标为x xi
35、i的点之间的距离来刻画点(的点之间的距离来刻画点(x xi i,y yi i)到直)到直线的远近线的远近. .), 3 , 2 , 1(niabxyii 为了从整体上反映为了从整体上反映n n个样本数据与回归直线的个样本数据与回归直线的接近程度,你认为选用哪个数量关系来刻画比较合接近程度,你认为选用哪个数量关系来刻画比较合适?适? (x(x1 1,y,y1 1) )(x(x2 2,y y2 2) )(x(xi i,y yi i) )( (x xn n,y yn n) ) 用这用这n n个距离之和来刻画各点到直线的个距离之和来刻画各点到直线的“整体距离整体距离”是比较合适的,即可以用是比较合适的
36、,即可以用niiiabxy1表示各点到直线表示各点到直线 的的“整体距整体距离离”. .abxy(x(x1 1,y,y1 1) )(x(x2 2,y y2 2) )(x(xi i,y yi i) )( (x xn n,y yn n) ) 用这用这n n个距离之和来刻画各点到直线的个距离之和来刻画各点到直线的“整体距离整体距离”是比较合适的,即可以用是比较合适的,即可以用niiiabxy1abxyii(x(x1 1,y,y1 1) )(x(x2 2,y y2 2) )(x(xi i,y yi i) )( (x xn n,y yn n) )abxyii 由于绝对值使得计算不方便,在实际应用由于绝对
37、值使得计算不方便,在实际应用中人们更喜欢用中人们更喜欢用2222211abxyabxyabxyQnn(x(x1 1,y,y1 1) )(x(x2 2,y y2 2) )(x(xi i,y yi i) )( (x xn n,y yn n) )abxyii2222211abxyabxyabxyQnn这样,问题就归结为:当这样,问题就归结为:当a a,b b取什么值时取什么值时Q Q最小?即最小?即点到直线点到直线 的的“整体距离整体距离”最小最小. .abxy2222211abxyabxyabxyQnn这样,问题就归结为:当这样,问题就归结为:当a a,b b取什么值时取什么值时Q Q最小?即最小
38、?即点到直线点到直线 的的“整体距离整体距离”最小最小. .abxy 这样通过求此式的最小值而得到回归直线的方这样通过求此式的最小值而得到回归直线的方法,即使得一半数据的点到回归直线的距离的平方法,即使得一半数据的点到回归直线的距离的平方和最小的方法叫做和最小的方法叫做最小二乘法最小二乘法. .根据有关数学原理推导,根据有关数学原理推导,a a,b b的值由下列公式给出的值由下列公式给出niiniiiniiniiixnxyxnyxxxyyxxb1221121xbya 根据最小二乘法的思想和根据最小二乘法的思想和此公式,利用计算器或计算机此公式,利用计算器或计算机可以方便的求得年龄和人体脂可以方
39、便的求得年龄和人体脂肪含量的样本数据的回归方程肪含量的样本数据的回归方程. . 以以ExcelExcel软件为例,用散点图来建立表示人体的软件为例,用散点图来建立表示人体的脂肪含量与年龄的相关关系的线性回归方程,具体脂肪含量与年龄的相关关系的线性回归方程,具体步骤如下:步骤如下: 在在ExcelExcel中选定表示人体的脂肪含量与年龄的中选定表示人体的脂肪含量与年龄的相关关系的散点图,在菜单中选定相关关系的散点图,在菜单中选定“图表图表”中的中的“添添加趋势线加趋势线”选项,弹出选项,弹出“添加趋势线添加趋势线”对话框对话框. . 单击单击“类型类型”标签,选定标签,选定“趋势预测趋势预测/
40、/回归分回归分析类型析类型”中的中的“线性线性”选项,单击选项,单击“确定确定”按钮,得按钮,得到回归直线到回归直线. . 双击回归直线,弹出双击回归直线,弹出“趋势线格式趋势线格式”对话框对话框“. .单击单击“选项选项”标签,选定标签,选定“显示公式显示公式”,最后单击,最后单击“确定确定”按钮,得到回归直线的回归方程按钮,得到回归直线的回归方程. . 试一试:将表中的年龄作为试一试:将表中的年龄作为x x代入上述方程,代入上述方程,看看得出的数值与真实数值之间的关系,从中你体看看得出的数值与真实数值之间的关系,从中你体会到什么?会到什么? 利用回归直线,我们可以进行预测利用回归直线,我们
41、可以进行预测. . 例:为了研究三月下旬的平均气温(例:为了研究三月下旬的平均气温(x x)与四月)与四月二十号前棉花害虫化蛹高峰日(二十号前棉花害虫化蛹高峰日(y y)的关系,某地区)的关系,某地区观察了观察了19961996年至年至20012001年的情况,得到下面的数据年的情况,得到下面的数据 : 年份年份199619961997199719981998199919992000200020012001X X(o oC C)24.424.429.629.632.932.928.728.730.330.328.928.9Y Y(天)(天)19196 61 110101 18 8 (1 1)画
42、出散点图;)画出散点图; (2 2)从散点图中发现三月下旬的平均气温()从散点图中发现三月下旬的平均气温(x x)与四月二十号前棉花害虫化蛹高峰日(与四月二十号前棉花害虫化蛹高峰日(y y)之)之 间间关系的一般规律;关系的一般规律; (3 3)求回归方程;)求回归方程; (4 4)该地区在)该地区在20022002年三月下旬平均气温为年三月下旬平均气温为2727,试估计,试估计20022002年四月化蛹高峰日为几天年四月化蛹高峰日为几天 年份年份199619961997199719981998199919992000200020012001X X(o oC C)24.424.429.629.
43、632.932.928.728.730.330.328.928.9Y Y(天)(天)19196 61 110101 18 8小结小结1 1、求样本数据的线性回归方程,可按下列步骤进行:、求样本数据的线性回归方程,可按下列步骤进行:第一步,计算平均数第一步,计算平均数 , , xy1niiix y21niix第二步,求和第二步,求和 , , 1122211()(),()nniii iiinniiiixx yyxynx ybay bxxxxnx 第三步,计算第三步,计算 第四步,写出回归方程第四步,写出回归方程 abxy 2 2、回归方程被样本数据惟一确定,各样本点大、回归方程被样本数据惟一确定,各样本点大致分布在回归直线附近致分布在回归直线附近. .对同一个总体,不同的样本对同一个总体,不同的样本数据对应不同的回归直线,所以回归直线也具有随数据对应不同的回归直线,所以回归直线也具有随机性机性. . 3 3、对一组样本数据,应先作散点图,在具有线、对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归方程性相关关系的前提下再求回归方程. .如果一组数据不如果一组数据不具有线性相关关系,即不存在回归直线,那么所得具有线性相关关系,即不存在回归直线,那么所得的的“回归方程回归方程”是没有实际意义的是没有实际意义的. .
限制150内