【数学】成对数据的统计相关性 课件-2023-2024学年高二下人教A版(2019)选择性必修第三册.pptx
第八章成对数据的统计分析第八章成对数据的统计分析8.18.1成对数据的统计相关性成对数据的统计相关性8.1.18.1.1变量的相关关系变量的相关关系8.1.28.1.2样本相关系数样本相关系数复习引入(1 1)正方体的体积与棱长)正方体的体积与棱长函数关系:函数关系:(2 2)汽车匀速行驶时的路程与)汽车匀速行驶时的路程与时间时间函数关系:函数关系:复习引入 (3)俗俗话话说说“庄庄稼稼一一枝枝花花,全全靠靠肥肥当当家家”,这这说说明明施施肥肥的的多多少少对对粮粮食的产量影响很大食的产量影响很大,施肥量,施肥量和粮食的产量是确定的函数关系吗和粮食的产量是确定的函数关系吗?那么粮食的产量还受其他因素的影响吗?两个变量间的关系除了可能是函数关系外,还可能是其他关系吗?为了搞清这些问题,我们需要学习本节内容。复习引入 我们知道,一个人的体重与他的身高有关系我们知道,一个人的体重与他的身高有关系.一般而言,个子高的人往往体重值一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小较大,个子矮的人往往体重值较小.但身高并不是决定体重的唯一因素,例如生活中但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素.像这样像这样,两个变量有关系,但又没有确切到可由其中的一个去精确两个变量有关系,但又没有确切到可由其中的一个去精确地地决定另一个的程度,这决定另一个的程度,这种关系称为相关关系种关系称为相关关系.问题问题1 1:上述情境中施肥量与粮食产量之间到底具有怎样的关系?上述情境中施肥量与粮食产量之间到底具有怎样的关系?提示提示:上述两变量间确实存在关系,但又不具备确定性,即上述两变量间确实存在关系,但又不具备确定性,即当当一个一个变量变量取值取值一定时,一定时,另一个另一个变量变量取值带有取值带有随机性随机性概念形成1 1、变量的相关关系:变量的相关关系:两个变量两个变量有关系有关系,但又,但又没有确切没有确切到可由其中的一个去精确地决定另到可由其中的一个去精确地决定另一个的程度,这种关系称为一个的程度,这种关系称为相关关系相关关系.注:注:相关关系是一种不确定性关系;相关关系是一种不确定性关系;相关关系是相对于函数关系而言的相关关系是相对于函数关系而言的.新知探索 两个变量具有相关关系的事例在现实中大量存在两个变量具有相关关系的事例在现实中大量存在.例如例如:新知探索新知探索 数据判断数据判断:两两个变量之间的相关关系的个变量之间的相关关系的确定确定:样本样本数据分析数据分析 建立模型建立模型 估计或估计或推断推断 经验经验判断;判断;新知探索问题问题2 2:在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示和脂肪含量的简单随机样本数据,如表所示.表中每个编号下的年龄和脂肪含量数表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据据都是对同一个体的观测结果,它们构成了成对数据.根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?新知探索 为了更加直观为了更加直观地地描述上述成对数据中描述上述成对数据中脂肪脂肪含量与年龄之间的关系,类似于用直含量与年龄之间的关系,类似于用直方方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征.用横轴表示年龄,纵轴表示脂肪含量,则表中每个编号下的用横轴表示年龄,纵轴表示脂肪含量,则表中每个编号下的成成对样本数据都可用直对样本数据都可用直角坐标系中的点表示出来,由这些点组成了如图所示的统计图角坐标系中的点表示出来,由这些点组成了如图所示的统计图.我们把这样的统计图我们把这样的统计图叫做叫做散点图散点图.概念形成2.散点图散点图把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图散点图观察图,可以发现,观察图,可以发现,这些散点大致落在这些散点大致落在一条从左下角到右上角的直线附近,表一条从左下角到右上角的直线附近,表明随年龄值得增加,相应的脂肪含量值明随年龄值得增加,相应的脂肪含量值呈现增加的趋势呈现增加的趋势.这样,由成对样本数这样,由成对样本数据的分布规律,我们可以推断脂肪含量据的分布规律,我们可以推断脂肪含量和年龄变量之间存在着相关关系和年龄变量之间存在着相关关系.新知探索 如果从整体上看,如果从整体上看,当当一个变量的值增加一个变量的值增加时时,另一个变量的相应值也呈现增加的,另一个变量的相应值也呈现增加的趋势,我们就称之两个变量正相关趋势,我们就称之两个变量正相关;如果如果当当一个变量的值增加一个变量的值增加时时,另一个变量的相,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关应值呈现减小的趋势,则称这两个变量负相关.由由上上图图,能够推断脂肪含量与年龄这两个变量正相关能够推断脂肪含量与年龄这两个变量正相关.3.3.变量相关关系的分类变量相关关系的分类(1)(1)正相关和负相关正相关和负相关 正相关正相关:指的是两个变量有相同的变化趋势指的是两个变量有相同的变化趋势,即从整体上来看一个变量会即从整体上来看一个变量会随着另一个变量变大而变大随着另一个变量变大而变大,点的位置散布在点的位置散布在从左下角到右上角从左下角到右上角的区域。的区域。负相关负相关:指的是两个变量有相反的变化趋势指的是两个变量有相反的变化趋势,即从整体上来看一个变量会随着即从整体上来看一个变量会随着另一个变量变大而变小另一个变量变大而变小,点的位置点的位置散布在散布在从左上角到右下角从左上角到右下角的区域内的区域内(2 2)两两个变量正相关和负相关散点图的特点个变量正相关和负相关散点图的特点概念形成概念形成(3)(3)线性相关和非线性相关线性相关和非线性相关线性相关线性相关 散点图是描述成对数据之间关系的一种直观方法散点图是描述成对数据之间关系的一种直观方法.一般地,如果两个变量的取一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这两个变量线两个变量线性相关性相关oxy非线性相关非线性相关 一般地,如果两个变量具有相关性,但一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非不是线性相关,那么我们就称这两个变量非线性相关或曲线相关线性相关或曲线相关.oxy概念形成散点杂乱无章,散点杂乱无章,无规律可言,看无规律可言,看不出两个变量有不出两个变量有什么相关性什么相关性有相关性有相关性观察散点图中成对样本数据的分布规律,可大致推断两个变量是否存在相关关系、观察散点图中成对样本数据的分布规律,可大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等是正相关还是负相关、是线性相关还是非线性相关等.散点图虽然直观,但无法散点图虽然直观,但无法确切确切(量化量化)地反映地反映成对样本数据的相关类型和相关程度的成对样本数据的相关类型和相关程度的大小大小.例析例例1.1.在下列各个量与量的关系中:在下列各个量与量的关系中:正方体的表面积与棱长之间的关系;正方体的表面积与棱长之间的关系;一块农田的水稻产量与施肥量之间的关一块农田的水稻产量与施肥量之间的关系;系;家庭的收入与支出之间的关系;家庭的收入与支出之间的关系;某户家庭用电量与水费之间的关系某户家庭用电量与水费之间的关系.其中是相关关系的为其中是相关关系的为().().A.A.B.B.C.C.D.D.答案:答案:D.D.解析:解析:正方体的表面积与棱长之间的关系是确定的函数关系;正方体的表面积与棱长之间的关系是确定的函数关系;某户家庭用电量某户家庭用电量与水费之间无任何关系与水费之间无任何关系.中,都是非确定的关系,但自变量取值一定时,因变量中,都是非确定的关系,但自变量取值一定时,因变量的取值带有一定的随机性的取值带有一定的随机性.例析方法技巧:方法技巧:利用变量间相关关系的概念判断量与量之间的关系时,一般是看当一个变量的值利用变量间相关关系的概念判断量与量之间的关系时,一般是看当一个变量的值一定时,另一个变量是否带有确定性,两个变量之间的关系具有确定关系一定时,另一个变量是否带有确定性,两个变量之间的关系具有确定关系函数关函数关系;两个变量之间的关系具有随机性、不确定性系;两个变量之间的关系具有随机性、不确定性相关关系相关关系.例析例例2.2.某种产品的广告支出费某种产品的广告支出费x x与销售金额与销售金额y y之间有如表对应数据之间有如表对应数据(单位单位:百万元百万元):):x x2 24 45 56 68 8y y30304040606050507070画出散点图画出散点图;从散点图中判断销售金额与广告支出费有什么样的关系从散点图中判断销售金额与广告支出费有什么样的关系.解解:以以x x对应的数据为横坐标对应的数据为横坐标,y,y对应的数据对应的数据为纵坐标为纵坐标,所作的散点图如图所示所作的散点图如图所示.解解:从图中可以发现广告支出费与销从图中可以发现广告支出费与销售金额之间具有相关关系售金额之间具有相关关系,并且当广告并且当广告支出费由小变大时支出费由小变大时,销售金额也大多由销售金额也大多由小变大小变大,图中的数据大致分布在某条直图中的数据大致分布在某条直线的附近线的附近,即即x x与与y y呈正相关关系呈正相关关系.例析2.2.判断两个变量具有相关关系的方法判断两个变量具有相关关系的方法(1)(1)根据直观感觉判断,这时要用到已有的知识或学习根据直观感觉判断,这时要用到已有的知识或学习、生活中的经验等生活中的经验等.(2)(2)根据散点图判断,这时要根据散点图判断,这时要由由两个变量相应值的对应关系两个变量相应值的对应关系作作出散点图出散点图,通过观察散通过观察散点图中变量的对应点是否分布在某条曲线的周点图中变量的对应点是否分布在某条曲线的周围围判判定定这两个变量是否具有相关关系这两个变量是否具有相关关系.形数思考思考1 1:能否引入一个适当的:能否引入一个适当的“数字特征数字特征”,来度量样本数据是正相关还是负相关呢?,来度量样本数据是正相关还是负相关呢?新知探索新知探究新知探究平移形数新知探究思考思考2:Lxy的大小一定能度量出成对样本数据的相关程度的大小一定能度量出成对样本数据的相关程度大小大小吗?吗?是不是是不是Lxy越大,两个变量的相关程度越强?越大,两个变量的相关程度越强?Lxy0表明成对样本数据正相关;Lxy(Lxy)1,但单位的改变并不会导致体重与身高之间相关程度的改变.不宜直接用Lxy度量成对样本数据相关程度的大小.为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.新知探究形数Bug:Lxy的大小受数据的度量单位的影响,但单位的改变并不会导致两个变量之间相关程度的改变.新知探究为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.称称r为变量为变量x和变量和变量y的样本的样本(线性线性)相关系数相关系数.新知探究r的正负的正负:反映成对样本数据的变化趋势变量变量x和变量和变量y的样本的样本(线性线性)相关系数相关系数:思考思考3:r的大小的大小能能否刻画否刻画成对样本数成对样本数据的相关程度据的相关程度的强的强弱弱?r的取值范围是的取值范围是什么?什么?强强强强弱弱弱弱新知探究观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,新知探究r的正负的正负:反映成对样本数据的变化趋势变量变量x和变量和变量y的样本的样本(线性线性)相关系数相关系数:r的范围的范围:1r1新知探究思考思考4:当:当|r|=1时,成对样本数据之间具有怎样的关系呢?时,成对样本数据之间具有怎样的关系呢?即此时两个变量之间满足一种线性(函数)关系,即满足完全线性相关.故|r|越接近1时,线性相关程度越强;|r|越接近0时,线性相关程度越弱;若所有样本点(xi,yi)(i1,2,n)都在直线y-2x1上,则这组样本数据的样本相关系数为()新知探究r的正负的正负:反映成对样本数据的变化趋势4、变量、变量x和变量和变量y的样本的样本(线性线性)相关系数相关系数:r的范围的范围:1r1|r|的大小的大小:反映成对样本数据线性相关的程度(即散点集中于某条直线的程度):|r|越接近1:线性相关程度越强;|r|越接近0:线性相关程度越弱.r=0时,只表明成对样本数据间无线性相关关系,但不排除它们有其他相关关系.样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.新知探究r=0.97r=-0.85r=0.24r=-0.05正线性相关程度很强负线性相关程度较强正线性相关程度很弱负线性相关程度极弱r的正负的正负:反映成对样本数据的变化特征r的范围的范围:1r1|r|的大小的大小:反映成对样本数据间线性相关的程度(即散点集中于一条直线的程度):当|r|越接近1时,线性相关程度越强;当|r|越接近0时,线性相关程度越弱.新知探究如如:要确切了解脂肪含量要确切了解脂肪含量y与年龄与年龄x的线性相关程度,需要的线性相关程度,需要调查所有人的年调查所有人的年龄及其龄及其脂肪脂肪含量含量,再将得到的成对数据代入,再将得到的成对数据代入r的的公式公式,计算出相关系数计算出相关系数r.在实际中,获得总体中所有的成对数据往往是不容易的.在有限的总体中,可以利用这两个变量取值的所有成对数据,通过上述公式就可计算出两个变量的相关系数,这个相关系数就能确切地反映变量之间相关关系的正负性及线性相关程度的强弱.通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.思想:用样本估计总体样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.新知探索答案:较高答案:较高.新知探索答案:答案:0.3.0.3.例析例例3 3、对四组数据进行统计、对四组数据进行统计,获得如图所示的散点图获得如图所示的散点图,关于其相关系关于其相关系数的比较数的比较,正确的是正确的是()A.r A.r1 1rr4 40r0r3 3rr2 2 B.rB.r4 4rr1 10r0r3 3rr2 2 C.r C.r4 4rr2 20r0r3 3rr1 1 D.rD.r2 2rr4 40r0r1 1rr3 3例析例例4 4、某厂的生产原料耗费、某厂的生产原料耗费x(x(单位单位:百万元百万元)与销售额与销售额y(y(单位单位:百万元百万元)之之间有如表所示的对应关系间有如表所示的对应关系:x x2 24 46 68 8y y3030404050507070(1)(1)画出画出(x,y)(x,y)的散点图的散点图;(2)(2)计算计算x x与与y y之间的样本相关系数之间的样本相关系数,并刻画它们的相关程度并刻画它们的相关程度.例析解解:(1)(1)画出画出(x,y)(x,y)的散点图如图所示的散点图如图所示.由样本相关系数由样本相关系数r r0.982 7,0.982 7,可以推断生产原料耗费与销售额这两个变量正可以推断生产原料耗费与销售额这两个变量正线性相关线性相关,且相关程度很强且相关程度很强.课堂小结1.1.相关关系:相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确两个变量有关系,但又没有确切到可由其中的一个去精确地地决定另一决定另一个的程度,这种关系称为相关关系个的程度,这种关系称为相关关系.2.2.散点图:散点图:成成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做图叫做散点图散点图.3.3.正相关、负相关:正相关、负相关:如果从整体上看,如果从整体上看,当当一个变量的值增加一个变量的值增加时时,另一个变量的相应,另一个变量的相应值也呈现增加的趋势,我们就称之两个变量正相关值也呈现增加的趋势,我们就称之两个变量正相关;如果如果当当一个变量的值增加一个变量的值增加时时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.4.4.线性相关:线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关条直线附近,我们就称这两个变量线性相关.课堂小结