【高中数学】成对数据的统计相关性课件 2022-2023学年高二数学人教A版(2019)选择性必修第三册.pptx
-
资源ID:90951274
资源大小:690.79KB
全文页数:38页
- 资源格式: PPTX
下载积分:8.8金币
快捷下载
![游客一键下载](/images/hot.gif)
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
【高中数学】成对数据的统计相关性课件 2022-2023学年高二数学人教A版(2019)选择性必修第三册.pptx
第八章 成对数据的统计分析8.1成对数据的统计相关性1.1.结合实例,理解变量的相关关系结合实例,理解变量的相关关系.2.2.了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相关性关性.我们知道,如果变量我们知道,如果变量 y 是变量是变量 x 的函数,那么由的函数,那么由 x 就可以唯一确定就可以唯一确定 y.然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度又达不到函数关系的程度.例如,人的体重与身高存在关系,但由一个人例如,人的体重与身高存在关系,但由一个人的身高并不能确定他的体重值的身高并不能确定他的体重值.那么,该如何刻画这两个变量之间的关系那么,该如何刻画这两个变量之间的关系呢?下面我们就来研究这个问题呢?下面我们就来研究这个问题.我们知道,我们知道,一个人一个人的体重与他的身高有关系的体重与他的身高有关系.一般而言,个子高的人一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小往往体重值较大,个子矮的人往往体重值较小.但身高并不是决定体重的但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素也是影响体重的重要因素.像这样,两个变量有关系,但又没有确切到可像这样,两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为由其中一个去精确地决定另一个的程度,这种关系称为相关关系相关关系.变量的相关关系变量的相关关系两个变量具有相关关系的事例在现实中大量存在两个变量具有相关关系的事例在现实中大量存在.例如:例如:1.1.子女身高子女身高 y 与父亲身高与父亲身高 x 之间的关系;之间的关系;2.2.商品销售收入商品销售收入 y 与广告支出与广告支出 x 之间的关系;之间的关系;3.3.空气污染指数空气污染指数 y 与汽车保有量与汽车保有量 x 之间的关系;之间的关系;4.4.粮食亩产量粮食亩产量 y 与施肥量与施肥量 x 之间的关系之间的关系.对上述各例中两个变量之间的相关关系,我们往往会根据自己以往积对上述各例中两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断累的经验作出推断.“.“经验之中有规律经验之中有规律”,经验的确可以为我们的决策提,经验的确可以为我们的决策提供一定的依据,但仅凭经验推断又有不足供一定的依据,但仅凭经验推断又有不足.因为在相关关系中,变量因为在相关关系中,变量 y 的值不能随变量的值不能随变量 x 的值的确定而唯一确定,的值的确定而唯一确定,所以我们无法直接用函数去描述变量之间的这种关系所以我们无法直接用函数去描述变量之间的这种关系.因此,在研究两个因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或判断从数据中提取信息,并构建适当的模型,再利用模型进行估计或判断.思考思考1 1:在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示一些年龄和脂肪含量的简单随机样本数据,如表所示.表中每个编号下的表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.编号编号1 12 23 34 45 56 67 7年龄年龄/岁岁2323272739394141454549495050脂肪含量脂肪含量/%/%9.59.517.817.821.221.225.925.927.527.526.326.328.228.2编号编号8 89 910101111121213131414年龄年龄/岁岁5353545456565757585860606161脂肪含量脂肪含量/%/%29.629.630.230.231.431.430.830.833.533.535.235.234.634.6根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征样本数据的变化特征.用横轴表示年龄,用横轴表示年龄,纵轴表示脂肪含量,则纵轴表示脂肪含量,则上表上表中每个编中每个编号下的成对样本数据都可用直角坐号下的成对样本数据都可用直角坐标标系中的点表示出来,由这些点组成了系中的点表示出来,由这些点组成了下面下面的统计图,我们把这样的统计图的统计图,我们把这样的统计图叫叫散点图散点图.观察图象可以发现,这些散点大致落在一条从左下角到右上角的直线观察图象可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄的增加,相应的脂肪含量值呈现增加的趋势附近,表明随年龄的增加,相应的脂肪含量值呈现增加的趋势.这样,由这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系在着相关关系.从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量加的趋势,我们就称这两个变量正相关;正相关;当一个变量的值增加时,另一个当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量变量的相应值呈现减少的趋势,则称这两个变量负相关负相关.根据图象,能够推断脂肪含量与年龄这两个变量正相关根据图象,能够推断脂肪含量与年龄这两个变量正相关.散点图是描述成对数据之间关系的一种直观方法散点图是描述成对数据之间关系的一种直观方法.观察图象,从中我观察图象,从中我们不仅可以大致看出脂肪含量和年龄呈现正相关,而且从整体上可以看出们不仅可以大致看出脂肪含量和年龄呈现正相关,而且从整体上可以看出散点落在一条直线附近散点落在一条直线附近.一般地,如果两个变量的取值呈一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量条直线附近,我们就称这两个变量线线性相关性相关.观察下面的散点图,我们发现:观察下面的散点图,我们发现:图图(1)(1)中的散点落在某条曲线附近,而不是落在一条直线附近,说明这两中的散点落在某条曲线附近,而不是落在一条直线附近,说明这两个变量具有相关性,但不是线性相关;个变量具有相关性,但不是线性相关;图图(1)(1)图图(2)(2)图图(3)(3)类似地,图类似地,图(2)(2)中的散点落在一条折线附近,这两个变量也具有相关中的散点落在一条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;图性,但它们既不是正相关,也不是负相关;图(3)(3)中的散点杂乱无章,无中的散点杂乱无章,无规律可言,看不出这两个变量有什么相关性规律可言,看不出这两个变量有什么相关性.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量这两个变量非线性相关或曲线相关非线性相关或曲线相关.例例1.(1.(多选多选)下列关系中,属于相关关系的是下列关系中,属于相关关系的是()A A正方形的边长与面积之间的关系正方形的边长与面积之间的关系B B农作物的产量与施肥量之间的关系农作物的产量与施肥量之间的关系C C出租车费与行驶的里程出租车费与行驶的里程D D降雪量与交通事故的发生率之间的关系降雪量与交通事故的发生率之间的关系BD两个变量是否相关的两种判断方法两个变量是否相关的两种判断方法(1)(1)根据实际经验:借助积累的经验进行分析判断;根据实际经验:借助积累的经验进行分析判断;(2)(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断如果发现点的分布从整体上看大致在一条直线附近,那么观地进行判断如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响这两个变量就是线性相关的,注意不要受个别点的位置的影响 1 1已知相关关系:已知相关关系:正相关,正相关,负相关,负相关,不相关则图不相关则图(1)(2)(3)(1)(2)(3)分别分别反映的两变量间的相关关系是反映的两变量间的相关关系是()A A B B C C D DD 通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关系、是正相关还是负相关、是线性相关还是非线性相关变量是否存在相关系、是正相关还是负相关、是线性相关还是非线性相关等等.散点图虽然直观,但散点图虽然直观,但无法确切无法确切地反映成对样本数据的相关程度,也就地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小无法量化两个变量之间相关程度的大小.能否象引入均值、方差等数字特能否象引入均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的征对单个变量数据进行分析那样,引入一个适当的“数字特征数字特征”,对成对,对成对样本数据的相关程度进行定量分析呢样本数据的相关程度进行定量分析呢?样本相关系数样本相关系数 对于变量对于变量 x 和变量和变量 y,设经过随机抽样获得的成对样本数据为,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),(xn,yn),其中,其中x1,x2,xn 和和 y1,y2,yn.的均值的均值分别为分别为 和和 .为了刻画每个变量的观测数据相对其均值的增减情况,将为了刻画每个变量的观测数据相对其均值的增减情况,将数据以数据以 为零点进行平移,得到平移后的成对数据为为零点进行平移,得到平移后的成对数据为 ,并绘制散点图并绘制散点图.利用上述方法处理脂肪与年龄构成的成对数据,得到下图利用上述方法处理脂肪与年龄构成的成对数据,得到下图.我们发现,我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.一般地,如果变量一般地,如果变量 x 和和 y 正相关,那么关于均值平移后的大多数散点正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图将分布在第一象限、第三象限,对应的成对数据同号的居多,如图(1)(1);如果如果变量变量 x 和和 y 负相关,那么关于均值平移后的大多数散点将分布在第二负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图象限、第四象限,对应的成对数据异号的居多,如图(2).(2).图图(1)(1)图图(2)(2)思考思考2 2:根据上述分析,你能利用正相关变量和负相关变量的成对样本数根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?数字特征吗?从上述讨论得到启发,利用散点从上述讨论得到启发,利用散点 的横、的横、纵坐标是否同号,可以构造一个量纵坐标是否同号,可以构造一个量 一般情形下,一般情形下,表明成对样本数据正相关;表明成对样本数据正相关;表明成对样本表明成对样本数据负相关数据负相关.因为因为 的大小与数据的度量单位有关,所以不宜直接用它度量成对的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小样本数据相关程度的大小.例如,在研究体重与身高之间的相关程度时,例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的如果体重的单位不变,把身高的单位由米改为厘米,则相应的 L 将变为原将变为原来的来的100100倍,但单位的改变并不会导致体重与身高之间相关程度的改变倍,但单位的改变并不会导致体重与身高之间相关程度的改变.为了消除度量单位的影响,需要对数据作进一步的为了消除度量单位的影响,需要对数据作进一步的“标准化标准化”处理处理.我们用我们用 ,分别除分别除 和和 (i=l l,2 2,n),得,得 ,.,.为简单起见,把上述为简单起见,把上述“标准化标准化”处理后的成对数据分别记为处理后的成对数据分别记为 ,.,.仿照仿照 的构造,可以得到的构造,可以得到 我们称我们称 r 为变量为变量 x 和变量和变量 y 的的样本相关系数样本相关系数.这样这样,我,我们们利用成利用成对样对样本数据构造了本数据构造了样样本相关系数本相关系数 r.样样本相关系数是本相关系数是一个描述成一个描述成对样对样本数据的数字特征,它的正本数据的数字特征,它的正负负性可以反映成性可以反映成对样对样本数据的本数据的变变化特征化特征:当当 时时,称,称成成对样对样本数据正相关本数据正相关.这时这时,当其中一个数据的,当其中一个数据的值变值变小小时时,另一个数据的另一个数据的值值通常也通常也变变小小;当其中一个数据的当其中一个数据的值变值变大大时时,另一个数据的,另一个数据的值值通常也通常也变变大大.当当 时时,称,称成成对样对样本数据本数据负负相关相关.这时这时,当其中一个数据的,当其中一个数据的值变值变小小时时,另一个数据的另一个数据的值值通常会通常会变变大大;当其中一个数据的当其中一个数据的值变值变大大时时,另一个数据的,另一个数据的值值通常会通常会变变小小.思考思考3 3:那么,那么,样样本相关系数本相关系数 r 的大小与成的大小与成对样对样本数据的相关程度有什么内本数据的相关程度有什么内在在联联系呢系呢?为为此此,我我们们先考察一下先考察一下 r 的取的取值值范范围围,观观察察 r 的的结结构,构,联联想到二想到二维维(平面平面)向量、三向量、三维维(空空间间)向量数量向量数量积积的坐的坐标标表示,我表示,我们们将向量的将向量的维维数推广到数推广到 n 维维,n 维维向量向量 ,的数量的数量积积仍然定仍然定义为义为 ,其中其中 为为向量向量 ,的的夹夹角角.类类似于平面或空似于平面或空间间向量的坐向量的坐标标表示,表示,对对于向于向量量 和和 ,我们有,我们有 设设“标准化标准化”处理后的成对数据处理后的成对数据 ,.,的第一分量构成的第一分量构成 n 维向量维向量第二分量构成第二分量构成 n 维向量维向量则有则有 因为因为 ,所以样本相关系数,所以样本相关系数其中其中 为向量为向量 和向量和向量 的夹角的夹角.由由 ,可知,可知思考思考4 4:当当 时,成对样本数据之间具有怎样的关系呢?时,成对样本数据之间具有怎样的关系呢?当当 时,时,中的中的 或或,向量,向量 和和 共线共线.由向量的由向量的知识可知,存在实数知识可知,存在实数,使得,使得 ,即,即这表明成对样本数据这表明成对样本数据 都落在直线都落在直线 上上.这时,成对这时,成对样本数据的两个分量之间满足一种线性关系样本数据的两个分量之间满足一种线性关系.由此可见,样本相关系数由此可见,样本相关系数 r 的取值范围为的取值范围为.样本相关系数样本相关系数 r 的绝对值的绝对值大小可以反映成对样本数据之间线性相关的程度:大小可以反映成对样本数据之间线性相关的程度:当当 越接近越接近1 1时,成对样本数据的线性相关程度越强;时,成对样本数据的线性相关程度越强;当当 越接近越接近0 0时,成对样本数据的线性相关程度越弱时,成对样本数据的线性相关程度越弱.下图是不同成对样本数据的散点图和相应的样本相关系数下图是不同成对样本数据的散点图和相应的样本相关系数.综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数而样本相关系数 r 可以反映两个随机变量之间的线性相关程度:可以反映两个随机变量之间的线性相关程度:r 的符号反映了相关关系的正负性;的符号反映了相关关系的正负性;的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.两个变量间的线性相关关系可以通过相关系数两个变量间的线性相关关系可以通过相关系数 r 进行定量分析:进行定量分析:(1)(1)样本相关系数样本相关系数 r 的取值范围为的取值范围为-1-1,1.1.(2)|(2)|r|越接近越接近1 1,成对数据的线性相关程度越强;,成对数据的线性相关程度越强;|r|越接近越接近0 0,成对数据的,成对数据的线性相关程度越弱特别地,当线性相关程度越弱特别地,当|r|1 1时,成对数据的散点落在一条直线时,成对数据的散点落在一条直线上,此时两个变量满足线性关系,但不是相关关系,而是函数关系上,此时两个变量满足线性关系,但不是相关关系,而是函数关系当当 r 0 0时,成对数据之间没有线性相关关系,但不排除它们之间有其他相时,成对数据之间没有线性相关关系,但不排除它们之间有其他相关关系关关系(3)(3)当当 r 0 0时,两变量正相关;当时,两变量正相关;当 r”或或“3 3对对变变量量 x,y,由由观观测测数数据据得得散散点点图图(1)(1);对对变变量量 y,z,由由观观测测数数据据得得散散点图点图(2)(2)由这两个散点图可以由这两个散点图可以判断判断()A A变量变量 x 与与 y 正相关,正相关,x 与与 z 正相关正相关B B变量变量 x 与与 y 正相关,正相关,x 与与 z 负相关负相关C C变量变量 x 与与 y 负相关,负相关,x 与与 z 正相关正相关D D变量变量 x 与与 y 负相关,负相关,x 与与 z 负相关负相关D4 4计算下列成对样本数据的相关系数计算下列成对样本数据的相关系数.(1)(-2(1)(-2,-3)-3),(-1(-1,-1)-1),(0(0,1)1),(1(1,3)3),(2(2,5)5),(3(3,7)7)(2)(0(2)(0,0)0),(1(1,1)1),(2(2,4)4),(3(3,9)9),(4(4,16)16)