《变量间的相关关系(上课).ppt》由会员分享,可在线阅读,更多相关《变量间的相关关系(上课).ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、变量间的相关关系变量间的相关关系复习引入:问题:函数的定义是什么?问题:函数的定义是什么?设集合设集合A A是一个非空的数集,对是一个非空的数集,对A A内任意实数内任意实数x x,按,按照确定的对应法则照确定的对应法则f f,都有,都有唯一唯一确定的实数值确定的实数值y y与它对与它对应,则这种对应关系叫做集合应,则这种对应关系叫做集合A A上的一个函数上的一个函数.函数关系是一种函数关系是一种确定性确定性关系关系 函数是研究两个变量之间的依存关系的一种数函数是研究两个变量之间的依存关系的一种数量形式量形式.对于两个变量,如果当一个变量的取值一定对于两个变量,如果当一个变量的取值一定时,另一
2、个变量的取值被惟一确定,则这两个变量时,另一个变量的取值被惟一确定,则这两个变量之间的关系就是一个函数关系之间的关系就是一个函数关系.小明小明,你数学成绩不太好你数学成绩不太好,物理怎么样物理怎么样?也不太好啊也不太好啊.学不好数学学不好数学,物理物理也是学不好的也是学不好的?.你认为老师的说法对吗你认为老师的说法对吗?我们在生活中我们在生活中,碰到很多相关关系的问题碰到很多相关关系的问题:数学数学成绩成绩学习学习兴趣兴趣花费花费时间时间其他其他因素因素 我们可以发现自己的数学成绩和物理成绩存在某种关系我们可以发现自己的数学成绩和物理成绩存在某种关系.(似乎就是数(似乎就是数学好的,物理也好;
3、数学差的,物理也差,但又不全对学好的,物理也好;数学差的,物理也差,但又不全对.)物理成绩和数学)物理成绩和数学成绩是两个变量,从经验看,由于物理学习要用到比较多的数学知识和数成绩是两个变量,从经验看,由于物理学习要用到比较多的数学知识和数学方法学方法.数学成绩的高低对物理成绩的高低是有一定影响的数学成绩的高低对物理成绩的高低是有一定影响的.但决非唯一因但决非唯一因素,还有其它因素,如是否喜欢物理,用在物理学习上的时间等等素,还有其它因素,如是否喜欢物理,用在物理学习上的时间等等.n上述数学成绩和物理成绩两个变量之间的关系是一种非确定上述数学成绩和物理成绩两个变量之间的关系是一种非确定性关系,
4、称之为性关系,称之为相关关系相关关系 n 1 1商品销售收入与广告支出经费之间的关商品销售收入与广告支出经费之间的关系系商品销售收入与广告支出经费之间有着密切的联系,商品销售收入与广告支出经费之间有着密切的联系,但商品收入不仅与广告支出多少有关,还与商品质但商品收入不仅与广告支出多少有关,还与商品质量、居民收入等因素量、居民收入等因素有关有关.n 在一定范围内,施肥量越大,粮食产量就在一定范围内,施肥量越大,粮食产量就越高。但是,施肥量并不是决定粮食产量的越高。但是,施肥量并不是决定粮食产量的唯一因素,因为粮食产量还要受到土壤质量、唯一因素,因为粮食产量还要受到土壤质量、降雨量、田间管理水平等
5、因素的影响降雨量、田间管理水平等因素的影响.2 2粮食产量与施肥量之间的关系粮食产量与施肥量之间的关系 n 在一定年龄段内,随着年龄的增长,人在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增加,但人体内的脂肪含体内的脂肪含量会增加,但人体内的脂肪含量还与饮食习惯、体育锻炼等有关,可能还量还与饮食习惯、体育锻炼等有关,可能还与个人的先天体质有关与个人的先天体质有关.3 3人体内脂肪含量与年龄之间的关系人体内脂肪含量与年龄之间的关系 自变量取值一定时,因变量的取值带有一定随机自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做性的两个变量之间的关系,叫做相关关系相关关系.相关
6、关系的概念相关关系的概念1 1、相关关系与函数关系的异同点、相关关系与函数关系的异同点相同点相同点:均是指两个变量的关系:均是指两个变量的关系不同点不同点:函数关系是一种确定的关系,因果关系;而:函数关系是一种确定的关系,因果关系;而相关关系是一种非确定性关系,也可能是伴随关系相关关系是一种非确定性关系,也可能是伴随关系.2 2、联系、联系(1)(1)在一定条件下,函数关系与相关关系可以相互转化在一定条件下,函数关系与相关关系可以相互转化(2)(2)相关关系在现实生活中大量存在,从某种意义上讲,相关关系在现实生活中大量存在,从某种意义上讲,函数关系是一种理想的模型函数关系是一种理想的模型 ,而
7、相关关系更普遍,而相关关系更普遍.1.1.下列关系中下列关系中,是带有随机性相关关系的是是带有随机性相关关系的是 .正方形的边长与面积的关系正方形的边长与面积的关系;水稻产量与施肥量之间的关系水稻产量与施肥量之间的关系;人的身高与年龄之间的关系人的身高与年龄之间的关系;降雪量与交通事故发生之间的关系降雪量与交通事故发生之间的关系.即学即练即学即练2.2.下列两个变量之间的关系哪个不是函数关系()下列两个变量之间的关系哪个不是函数关系()A.A.角度和它的余弦值角度和它的余弦值B.B.正方形边长和面积正方形边长和面积C.C.正边形的边数和它的内角和正边形的边数和它的内角和 D.D.人的年龄和身高
8、人的年龄和身高Dn从已经掌握的知识来看,吸烟会损害身体的健康。从已经掌握的知识来看,吸烟会损害身体的健康。但是除了吸烟之外还有许多其他的随机因素影响身但是除了吸烟之外还有许多其他的随机因素影响身体健康,人体健康是由很多因素共同作用的结果,体健康,人体健康是由很多因素共同作用的结果,我们可以找到长寿的吸烟者,也更容易发现由于吸我们可以找到长寿的吸烟者,也更容易发现由于吸烟而引发的患病者,吸烟与健康是一种相关关系,烟而引发的患病者,吸烟与健康是一种相关关系,所以吸烟不一定引起健康问题所以吸烟不一定引起健康问题。有关法律规定,香烟盒上必须印上有关法律规定,香烟盒上必须印上“吸烟有害吸烟有害健康健康”
9、的警示语。吸烟是否一定会引起健康问题?的警示语。吸烟是否一定会引起健康问题?你认为你认为“健康问题不一定是由吸烟引起的,所以可健康问题不一定是由吸烟引起的,所以可以吸烟以吸烟”的说法对吗?的说法对吗?n但吸烟引起健康问题的可能性大,因此但吸烟引起健康问题的可能性大,因此“健康问题健康问题不一定是由吸烟引起的,所以可以吸烟不一定是由吸烟引起的,所以可以吸烟”的说法是的说法是不对的。不对的。n从已经掌握的知识来看,没有发现根据说明从已经掌握的知识来看,没有发现根据说明“天鹅能够带来天鹅能够带来孩子孩子”,完全可能存在既能吸引天鹅又使婴儿出生率高的第,完全可能存在既能吸引天鹅又使婴儿出生率高的第三个
10、因素(例如独特的环境因素),即天鹅与婴儿出生率之三个因素(例如独特的环境因素),即天鹅与婴儿出生率之间没有直接的关系,因此间没有直接的关系,因此“天鹅能够带来孩子天鹅能够带来孩子”的结论不可的结论不可靠。靠。某地区的环境条件适合天鹅栖息繁衍,有人统某地区的环境条件适合天鹅栖息繁衍,有人统计发现了一个有趣的现象,如果村庄附近栖息的天计发现了一个有趣的现象,如果村庄附近栖息的天鹅多,那么这个村庄的婴儿出生率也高,天鹅少的鹅多,那么这个村庄的婴儿出生率也高,天鹅少的地方婴儿出生率低。于是,他就得出一个结论:天地方婴儿出生率低。于是,他就得出一个结论:天鹅能够带来孩子。你认为这样得到的结论可靠吗?鹅能
11、够带来孩子。你认为这样得到的结论可靠吗?如何证明这个结论的可靠性?如何证明这个结论的可靠性?n而要证实此结论是否可靠,可以通过试验来进行。相同的环而要证实此结论是否可靠,可以通过试验来进行。相同的环境下将居民随机地分为两组,一组居民和天鹅一起生活(比境下将居民随机地分为两组,一组居民和天鹅一起生活(比如家中都饲养天鹅),而另一组居民的附近不让天鹅活动,如家中都饲养天鹅),而另一组居民的附近不让天鹅活动,对比两组居民的出生率是否相同。对比两组居民的出生率是否相同。以上种种问题中的两个变量之间的相关关系以上种种问题中的两个变量之间的相关关系,我们都可以根据自己的生活、学习经验作出相应我们都可以根据
12、自己的生活、学习经验作出相应的判断的判断,然而不管你的经验多么丰富然而不管你的经验多么丰富,如果只凭经如果只凭经验办事验办事,还是很容易出错的还是很容易出错的,我们需要一些更为我们需要一些更为科学的方法来说明问题科学的方法来说明问题.在寻找变量之间相关关系的过程中,统计在寻找变量之间相关关系的过程中,统计学发挥着非常重要的作用学发挥着非常重要的作用.由于变量之间的相关由于变量之间的相关关系带有不确定性,这就需要通过收集大量的关系带有不确定性,这就需要通过收集大量的数据,在对数据进行统计分析的基础上,发现数据,在对数据进行统计分析的基础上,发现其中的规律,从而作出科学的判断其中的规律,从而作出科
13、学的判断.在一次对人体脂肪含量和年龄关系的研究中,研究人员在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:获得了一组样本数据:其中各年龄对应的脂肪数据是这个年龄人群脂肪含量其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数的样本平均数.年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535
14、.235.234.634.6 探究探究年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.6年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄53535
15、45456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.6 对对某一个人某一个人来说,他的体内脂肪含量不一定随来说,他的体内脂肪含量不一定随年龄增长而增加或减少,但是如果把很多个体放在年龄增长而增加或减少,但是如果把很多个体放在一起,就可能表现出一定的规律性一起,就可能表现出一定的规律性.观察上表中的数据,大体上看,随着年龄的增观察上表中的数据,大体上看,随着年龄的增加,人体脂肪含量怎样变化?加,人体脂肪含量怎样变化?为了确定年龄和人体脂肪含量之间的更明确的关为了确定年龄和人体脂肪含量之
16、间的更明确的关系,我们需要对数据进行分析,通过作图可以对两个系,我们需要对数据进行分析,通过作图可以对两个变量之间的关系有一个直观的印象变量之间的关系有一个直观的印象.以以x x轴表示年龄,轴表示年龄,y y轴表示脂肪含量,轴表示脂肪含量,你能在直角坐标系中描出样本数你能在直角坐标系中描出样本数据对应的图形吗?据对应的图形吗?年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630
17、.230.231.431.430.830.833.533.535.235.234.634.620 20 4040303050501010303020204040脂肪含量脂肪含量60600 01010年龄年龄年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.6下图叫做散点图,你能描述一下散
18、点图的含义吗?下图叫做散点图,你能描述一下散点图的含义吗?散点图:将样本中散点图:将样本中n个数据点(个数据点(xi,yi)(i1,2,n)描在平面)描在平面直角坐标系中,以表示具有相关关直角坐标系中,以表示具有相关关系的两个变量的一组数据的图形叫系的两个变量的一组数据的图形叫做散点图做散点图.计算机可以帮助我们作散点图计算机可以帮助我们作散点图.下图就是用计下图就是用计算机作出来的算机作出来的.从散点图可以看出,年龄越大,体内脂肪含量越高从散点图可以看出,年龄越大,体内脂肪含量越高.这个图支持了我们从数据表中得出的结论这个图支持了我们从数据表中得出的结论.n请同学们观察这请同学们观察这4 4
19、幅图,看有什么特点?幅图,看有什么特点?010203040506070809010040506070809011000.20.40.60.811.2-0.200.20.40.60.811.2从散点图从散点图1可以看出因变量随自变量的增大而增大,图中的点可以看出因变量随自变量的增大而增大,图中的点分布在左下角到右上角的区域分布在左下角到右上角的区域从散点图从散点图2可以看出因变量随自变量的增大而减小则称作负相可以看出因变量随自变量的增大而减小则称作负相关,负相关的散点图中的点分布在左上角到右下角的区域关,负相关的散点图中的点分布在左上角到右下角的区域.从散点图从散点图3、4可以看出因变量与自变量
20、不具备相关性可以看出因变量与自变量不具备相关性两个变量两个变量间的相关间的相关关系,可关系,可以借助散以借助散点图直观点图直观判断判断 探究探究 正相关如学习时间与成绩,父母的身高正相关如学习时间与成绩,父母的身高与子女的身高,一个家庭的收入与支出等与子女的身高,一个家庭的收入与支出等.你能列举一些生活中的变量成正相关或你能列举一些生活中的变量成正相关或负相关的实例吗负相关的实例吗?负相关如日用眼时间和视力,负相关如日用眼时间和视力,高原含氧高原含氧量与海拔高度(海平面以上,海拔高度越高,量与海拔高度(海平面以上,海拔高度越高,含氧量越少),含氧量越少),汽车的重量和汽车每消耗一汽车的重量和汽
21、车每消耗一升汽油所行驶的平均路程等升汽油所行驶的平均路程等.思考思考a.a.如果所有的样本点都落在某一如果所有的样本点都落在某一函数曲线上函数曲线上,就用该函数来描述变量之间的关系,就用该函数来描述变量之间的关系,即变量之即变量之间具有间具有函数关系函数关系b.b.如果所有的样本点都落在某一如果所有的样本点都落在某一函数曲线附近函数曲线附近,变量之间就有变量之间就有相关关系相关关系.c.c.如果所有的样本点都落在某一如果所有的样本点都落在某一直线附近直线附近,变量之间就有变量之间就有线性相关关系线性相关关系.散点图:用来判断两个变量是否具有相关关系散点图:用来判断两个变量是否具有相关关系.关于
22、散点图的几点说明关于散点图的几点说明.数学成绩数学成绩例例1 1:5 5个学生的数学和物理成绩如下表:个学生的数学和物理成绩如下表:ABCDE数学数学8075706560物理物理7066686462画出散点图,并判断它们是否有相关关系画出散点图,并判断它们是否有相关关系.由散点图可见,两者之间具有正相关关系由散点图可见,两者之间具有正相关关系.解:解:对具有对具有相关关系相关关系的两个变量进行统计分析的方法的两个变量进行统计分析的方法叫回归分析叫回归分析(1 1)回归分析本质:)回归分析本质:寻找相关关系中非确定性关系寻找相关关系中非确定性关系的的某种确定性某种确定性.(2)回归分析的意义:)
23、回归分析的意义:相关关系到处存在,从某种意相关关系到处存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系义上讲,函数关系是一种理想的关系模型,而相关关系则是一种非常普遍关系则是一种非常普遍关系.研究和学习相关关系,不仅可以研究和学习相关关系,不仅可以使我们能够处理更为广泛的数学问题,还可以使我们对使我们能够处理更为广泛的数学问题,还可以使我们对函数关系的认识再上升到一个新的高度函数关系的认识再上升到一个新的高度.回归分析回归分析当人的年龄增加时,体内脂肪含量也增加,那么它到当人的年龄增加时,体内脂肪含量也增加,那么它到底是以什么方式增加的呢?我们观察年龄和人体脂肪底是以什么方式增加
24、的呢?我们观察年龄和人体脂肪含量的样本数据的散点图中的点的分布有什么特点?含量的样本数据的散点图中的点的分布有什么特点?这些点大致分布在一条直线附近,我们称这两个变量这些点大致分布在一条直线附近,我们称这两个变量之间具有之间具有线性相关关系线性相关关系,这条直线叫做,这条直线叫做回归直线回归直线回归直线回归直线.回归直线一定过回归直线一定过样本中心点样本中心点 只有散点图中的点呈条状集中在某一直线周围的时候,只有散点图中的点呈条状集中在某一直线周围的时候,才可以说两个变量之间具有线性关系,才有两个变量的正线才可以说两个变量之间具有线性关系,才有两个变量的正线性相关和负线性相关的概念,才可以用回
25、归直线来描述两个性相关和负线性相关的概念,才可以用回归直线来描述两个变量之间的关系变量之间的关系.回归直线回归直线如果我们能求出这条回归直线的方程,那么我们就如果我们能求出这条回归直线的方程,那么我们就可以清楚地了解年龄与体内脂肪含量的相关性,那可以清楚地了解年龄与体内脂肪含量的相关性,那么怎样求出这个回归方程呢?么怎样求出这个回归方程呢?方案一:方案一:方案一:方案一:采用测量的方法:先画一条直线,测量出采用测量的方法:先画一条直线,测量出各点到它的距离,然后移动直线,到达一个使距离各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测量出此时直线的斜率和截距,之和最小的位置,测量出
26、此时直线的斜率和截距,就得到回归方程就得到回归方程.整体上最接近整体上最接近 方方方方案二案二案二案二:在图中选取两点画直线,使得直线两侧的点在图中选取两点画直线,使得直线两侧的点的个数基本相同的个数基本相同.方案三方案三方案三方案三:在散点图中多取几组点,确定几条直线的方在散点图中多取几组点,确定几条直线的方程,分别求出各条直线的斜率和截距的平均数,将这程,分别求出各条直线的斜率和截距的平均数,将这两个平均数作为回归方程的斜率和截距两个平均数作为回归方程的斜率和截距.我们上面给出的几种方案虽然又一定的道理,但可我们上面给出的几种方案虽然又一定的道理,但可靠性不强靠性不强.人们经过长期的实践与
27、研究,已经找到了人们经过长期的实践与研究,已经找到了计算回归方程的斜率与截距的一般公式计算回归方程的斜率与截距的一般公式.一般地我们将其方程设为一般地我们将其方程设为 ,其中,其中以上公式的推导较复杂,故不作推导,但它的原理较为以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一方法简单:即各点到该直线的距离的平方和最小,这一方法叫叫最小二乘法最小二乘法.其中其中x x叫叫叫叫解释变量解释变量解释变量解释变量,y y叫叫预报变量预报变量预报变量预报变量.利用利用计算器或计算机计算器或计算机可求得年龄和人体脂肪含量的样本可求得年龄和人体脂肪含量的样本数据的
28、回归方程为数据的回归方程为0.57765-0.448=37.137.1由此我们可以根据一个人的年龄预测其体内脂肪含量由此我们可以根据一个人的年龄预测其体内脂肪含量的百分比的的百分比的回归值回归值.若某人若某人6565岁,则其体内脂肪含量的岁,则其体内脂肪含量的百分比百分比约约为多少?为多少?若某人若某人6565岁,可预测他体内脂肪含量在岁,可预测他体内脂肪含量在37.137.1附近的附近的可能性比较大可能性比较大.但不能说他体内脂肪含量一定是但不能说他体内脂肪含量一定是37.137.1原因:线性回归方程中的截距和斜率都是通过样本原因:线性回归方程中的截距和斜率都是通过样本估估计的计的,存在随机
29、误差,这种误差可以导致预测结果的,存在随机误差,这种误差可以导致预测结果的偏差,即使截距斜率没有误差,也不可能百分百地保偏差,即使截距斜率没有误差,也不可能百分百地保证对应于证对应于x x,预报值,预报值Y Y能等于实际值能等于实际值y y能不能说他体内脂肪含量一定是能不能说他体内脂肪含量一定是37.137.1?思考思考题型题型 回归分析回归分析例例2 某某车车间间为为了了规规定定工工时时定定额额,需需要要确确定定加加工工零零件件所所花花费费的的时时间间,为为此此做做了了四四次次试试验验,根根据据试试验验数数据据得得到到如如下下图图所所示示的的散散点点图图,其其中中x表表示示零零件的个数件的个
30、数,y表示加工时间表示加工时间.(1)求出求出y关于关于x的线性的线性 回归方程回归方程 =bx+a;(2)试预测加工试预测加工10个零个零 件需多长时间?件需多长时间?(1)=3.5,=3.5,所以所以b=0.7,a=-b=3.5-0.73.5=1.05,所以线性回归方程为所以线性回归方程为 =0.7x+1.05.(2)当当x=10时,时,=0.710+1.05=8.05,故加工故加工10个零件大约需个零件大约需8.05小时小时.求求出出回回归归直直线线方方程程后后,往往往往用用来来作作为为现现实实生生产产中中的的变变量量之之间间相相关关关关系系的的近近似似关关系系,从从而而可可用来指导生产
31、实践用来指导生产实践.例例3 3:有一个同学家开了一个小卖部,他为了研究气:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:饮杯数与当天气温的对比表:摄氏温度摄氏温度 -5 0 4 7 12 15 19 23 27 31 36热饮杯数热饮杯数 156 150 132 128 130 116 104 89 93 76 54(1)(1)画出散点图;画出散点图;(2)(2)从散点图中发现气温与热饮销售杯数之间关系的一般从散点图中发现气温与热饮销售杯数之间关系的一般规律;规律;(3)(3)求回
32、归方程;求回归方程;(4)(4)如果某天的气温是如果某天的气温是2 2摄氏度,预测这天卖出的热饮杯数摄氏度,预测这天卖出的热饮杯数.(1)(1)散点图散点图(2)(2)从图从图3-13-1看到,各点散布在从左上角到由下角的看到,各点散布在从左上角到由下角的区域里,因此,气温与热饮销售杯数之间成负相关,区域里,因此,气温与热饮销售杯数之间成负相关,即气温越高,卖出去的热饮杯数越少即气温越高,卖出去的热饮杯数越少.(3)(3)从散点图可以看出,这些点大致分布在一条直从散点图可以看出,这些点大致分布在一条直线的附近,因此利用公式求出回归方程的系数线的附近,因此利用公式求出回归方程的系数.Y=-2.3
33、52x+147.767Y=-2.352x+147.767(4)(4)当当x=2x=2时,时,Y=143.063.Y=143.063.因此,某天的气温为因此,某天的气温为2 2摄摄氏度时,这天大约可以卖出氏度时,这天大约可以卖出143143杯热饮杯热饮.练习练习:观察两相关量得如下数据观察两相关量得如下数据:x x-1-1-2-2-3-3-4-4-5-55 53 34 42 21 1y y-9-9-7-7-5-5-3-3-1-11 15 53 37 79 9求两变量间的回归方程求两变量间的回归方程.123n求和求和求回归方程的一般方法:求回归方程的一般方法:1、列表、列表1、列表、列表2、计算、计算3、求、求 a,b4、代入回归直线方程、代入回归直线方程求回归方程的一般方法:求回归方程的一般方法:基础知识框图表解基础知识框图表解变量间关系变量间关系函数关系函数关系相关关系相关关系 散点图散点图线形相关线形相关线形回归方程线形回归方程课课 堂堂 小小 结结
限制150内