艺术生高考数学专题讲义:考点51变量间的相关关系与统计案例700.pdf
-
资源ID:84193377
资源大小:961.82KB
全文页数:14页
- 资源格式: PDF
下载积分:5金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
艺术生高考数学专题讲义:考点51变量间的相关关系与统计案例700.pdf
考点五十一 变量间的相关关系与统计案例 知识梳理 1相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系 2散点图 通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图 3正相关与负相关 从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关 4回归直线方程(1)曲线拟合 从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合(2)线性相关 在两个变量 x 和 y 的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的 (3)最小二乘法 如果有 n 个点(x1,y1),(x2,y2),(xn,yn),可以用y1(abx1)2y2(abx2)2yn(abxn)2来刻画这些点与直线 yabx 的接近程度,使得上式达到最小值的直线 yabx 就是所要求的直线,这种方法称为最小二乘法(4)回归方程 方程 ybxa 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中 a,b 是待定参数 bni1 xi x yi y ni1 xi x 2ni1xiyin x yni1x2in x2,a y b x.说明:回归直线必过样本中心(x,y),但是样本数据不一定在回归直线上,甚至可能所有的样本数据点都不在直线上 5相关系数 相关系数 rni1 xi x yi y ni1 xi x 2ni1 yi y 2 ni1xiyin x yni1x2in x2ni1y2in y2 ;当 r0 时,表明两个变量正相关;当 r2.706 时,有 90%的把握判定变量 A,B 有关联;当 3.841 时,有 95%的把握判定变量 A,B 有关联;当 6.635 时,有 99%的把握判定变量 A,B 有关联 典例剖析 题型一 相关关系判断 例 1 变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量 U与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量 Y 与 X 之间的线性相关系数,r2表示变量 V 与 U 之间的线性相关系数,则_ r2r10 0r2r1 r200;对于变量 V与 U 而言,V 随 U 的增大而减小,故 V 与 U 负相关,即 r20,所以有 r200 时,x 与 y 正相关,当b0 时,x 与 y 负相关,所以一定错误 解题要点 判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱 题型二 回归分析 例 2 已知 x,y 取值如下表:x 0 1 4 5 6 8 y 1.3 1.8 5.6 6.1 7.4 9.3 从所得的散点图分析可知:y 与 x 线性相关,且y0.95xa,则 a_ 答案 1.45 解析 x 01456864,y 1.31.85.66.17.49.365.25,又y0.95xa 过(x,y),5.250.954a,得 a1.45.变式训练 已知 x 与 y 之间的一组数据:x 0 1 2 3 y m 3 5.5 7 已求得关于 y 与 x 的线性回归方程y2.1x0.85,则 m 的值为_ 答案 0.5 解析 x 0123432,y m35.57415.5m4,把(x,y)代入线性回归方程,15.5m42.1320.85,m0.5.解题要点 回归直线方程ybxa必过样本点中心(x,y)利用这一结论,可以快速求出回归方程中的参数 例 3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 x(吨)与相应的生产能耗 y(吨标准煤)的几组对照数据.x 3 4 5 6 y 2.5 3 4 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出 y 关于 x 的线性回归方程ybxa;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产 100 吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:32.5435464.566.5)解析 (1)由题意,作散点图如图 (2)由对照数据,计算得i14xiyi66.5,i14x2i3242526286,x 4.5,y 3.5,b66.544.53.58644.5266.56386810.7,a y bx 3.50.74.50.35,所以回归方程为y0.7x0.35.(3)当 x100 时,y1000.70.3570.35(吨标准煤),预测生产 100 吨甲产品的生产能耗比技改前降低 9070.3519.65(吨标准煤)变式训练 (2015 新课标文)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量y(单位:t)和年利润 z(单位:千元)的影响,对近 8 年的宣传费ix和年销售量1,2,8iy i 数据作了初步处理,得到下面的散点图及一些统计量的值.年宣传费/千元年销售量/t620600580560540520500480565452504846444240383634 x y w i18(xi x)2 i18(wi w)2 i18(xi x)(yi y)i18(wi w)(yi y)46.6 563 6.8 289.8 1.6 1 469 108.8 表中 wi xi,w 18i18wi.(I)根据散点图判断,yabx 与 ycd x哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由)(II)根据(I)的判断结果及表中数据,建立 y 关于 x 的回归方程;(III)已知这种产品的年利润 z 与 x,y 的关系为 z0.2yx.根据(II)的结果回答下列问题:(i)当年宣传费90 x 时,年销售量及年利润的预报值时多少?(ii)当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线 vu 的斜率和截距的最小二乘估计分别为i1n ui u vi v i1n ui u 2,v u.解析 (I)由散点图可以判断,ycd x适宜作为年销售量 y 关于年宣传费 x 的回归方程类型(II)令 w x,先建立 y 关于 w 的线性回归方程,由于 di18 wi w yi y i18 wi w 2108.81.668,c y dw 563686.8100.6,所以y关于w的线性回归方程为y100.668w,因此y关于x的回归方程为y100.668 x.(III)(i)由(II)知,当 x49 时,年销售量 y 的预报值y100.668 49576.6,年利润 z 的预报值z576.60.24966.32.(ii)根据(II)的结果知,年利润 z 的预报值z0.2(100.668 x)xx13.6 x20.12.所以当 x13.626.8,即 x46.24 时,z 取得最大值 故年宣传费为 46.24 千元时,年利润的预报值最大 解题要点 (1)正确运用计算 b,a 的公式和准确的计算,是求线性回归方程的关键(2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值(3)求解回归方程关键是确定回归系数a,b,因求解b的公式计算量太大,一般题目中给出相关的量,如 x,y,i1nx2i,i1nxiyi等,便可直接代入求解充分利用回归直线过样本中心点(x,y),即有 ybxa,可确定a.题型三 相关分析 例 4 有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85 分以下为非优秀统计成绩,得到如下所示的列联表:优秀 非优秀 总计 甲班 10 b 乙班 c 30 总计 105 已知在全部 105 人中随机抽取 1 人,成绩优秀的概率为27,则下列说法正确的是_ 列联表中 c 的值为 30,b 的值为 35 列联表中 c 的值为 15,b 的值为 50 根据列联表中的数据,若按 95%的可靠性要求,能认为“成绩与班级有关系”根据列联表中的数据,若按 95%的可靠性要求,不能认为“成绩与班级有关系”答案 解析 由题意知,成绩优秀的学生数是 30,成绩非优秀的学生数是 75,所以 c20,b45,选项 A、B 错误根据列联表中的数据,得到 22105(10 3020 45)55 50 30 756.1093.841,因此有 95%的把握认为“成绩与班级有关系”变式训练 在研究色盲与性别的关系调查中,调查了男性 480 人,其中有 38 人患色盲,调查的 520 名女性中,有 6 人患色盲(1)根据以上数据建立一个 22 列联表;(2)若认为“性别与患色盲有关系”,求出错的概率 解析 (1)22 列联表如下:患色盲 不患色盲 总计 男 38 442 480 女 6 514 520 总计 44 956 1 000(2)假设 H0:“性别与患色盲没有关系”,根据(1)中 22 列联表中数据,可求得 21 00038514644224805204495627.14,又P(210.828)0.001,即H0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为 0.1%.解题要点 (1)独立性检验的关键是正确列出 22 列联表,并计算出 2的值(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答 当堂练习 1(2015 湖北文)已知变量 x 和 y 满足关系 y0.1x1,变量 y 与 z 正相关下列结论中正确的是_ x 与 y 正相关,x 与 z 负相关 x 与 y 正相关,x 与 z 正相关 x 与 y 负相关,x 与 z 负相关 x 与 y 负相关,x 与 z 正相关 答案 解析 因为 y0.1x1,0.10),所以 z0.1axab,0.1a0,所以 x 与 z 负相关 2(2014湖北卷)根据如下样本数据 x 3 4 5 6 7 8 y 4.0 2.5 0.5 0.5 2.0 3.0 得到的回归方程为ybxa,则_ a0,b0 a0,b0 a0,b0 a0,b0 答案 解析 作出散点图如下:由图象不难得出,回归直线ybxa 的斜率 b0,所以 a0,b6.635,所以选项正确 4下列有关样本相关系数的说法不正确的是_ 相关系数用来衡量变量 x 与 y 之间的线性相关程度|r|1,且|r|越接近于 1,相关程度越大|r|1,且|r|越接近 0,相关程度越小|r|1,且|r|越接近 1,相关程度越小 答案 5两个相关变量满足如下关系:x 10 15 20 25 30 y 1 003 1 005 1 010 1 011 1 014 则两变量的回归方程为_ 答案 y 0.56x997.4 解析 回归直线经过样本中心点(20,1 008.6),经检验只有选项 A 符合题意 课后作业 一、填空题 1在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,n)都在直线 y=12x+1 上,则这组样本数据的样本相关系数为_ 答案 1 解析 根据相关系数的定义可知,当所有样本点都在直线上时,相关系数为 1 2设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是_ y 与 x 具有正的线性相关关系 回归直线过样本点的中心(x,y)若该大学某女生身高增加 1cm,则其体重约增加 0.85kg 若该大学某女生身高为 170cm,则可断定其体重必为 58.79kg 答案 解析 由回归方程为y=0.85x-85.71 知y随x的增大而增大,所以 y 与 x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知()ybxabxybx aybx,所以回归直线过样本点的中心(x,y),利用回归方程可以预测估计总体,所以不正确.3(2015 新课标 II 文)根据下面给出的 2004 年至 2013 年我国二氧化硫排放量(单位:万吨)柱形图以下结论不正确的是_ 逐年比较,2008 年减少二氧化硫排放量的效果最显著 2007 年我国治理二氧化硫排放显现成效 2006 年以来我国二氧化硫年排放量呈减少趋势 2006 年以来我国二氧化硫年排放量与年份正相关 答案 解析 从 2006 年,将每年的二氧化硫排放量与前一年作差比较,得到 2008 年二氧化硫排放量与 2007 年排放量的差最大,选项正确;2007 年二氧化硫排放量较 2006 年降低了很多,选项正确;虽然 2011 年二氧化硫排放量较 2010 年多一些,但自 2006 年以来,整体呈递减趋势,即选项正确;自 2006 年以来我国二氧化硫年排放量与年份负相关,选项错误,故选 4下面是一个 22 列联表 y1 y2 总计 x1 a 21 73 x2 22 25 47 合计 b 46 120 其中 a,b 处填的值分别为_ 答案 52 74 解析 由 a2173,得 a52,a22b,得 b74 5为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用 22列联表进行独立性检验,经计算 K28.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为_ P(K2k0)0.100 0.050 0.025 0.010 0.001 k0 2.706 3.841 5.024 6.635 10.828 答案 99%解析 因为 K28.016.635,所以有 99%以上的把握认为“喜欢乡村音乐与性别有关系”6 下表提供了某厂节能降耗技术改造后在生产 A 产品过程中记录的产量 x(吨)与相应的生产能耗 y(吨)的几组对应数据:x 3 4 5 6 y 2.5 t 4 4.5 根据上表提供的数据,求出 y 关于 x 的线性回归方程为y 0.7x0.35,那么表中 t 的值为_ 答案 3 解析 由 y 0.7 x 0.35 得2.5t44.540.7345640.3511t43.5t3.7(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量的关系,随机抽查了 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最大的变量是_ 表 1 表 2 表 3 表 4 答案 阅读量 解析 通过计算可得,表 1 中的 20.009,表 2 中的 21.769,表 3 中的 21.300,表 4中的 223.481 8已知某车间加工零件的个数 x 与所花费时间 y(h)之间的线性回归方程为y0.01x0.5,则加工 600 个零件大约需要的时间为_ 答案 6.5 h 成绩 性别 不及格 及格 总计 男 6 14 20 女 10 22 32 总计 16 36 52 视力 性别 好 差 总计 男 4 16 20 女 12 20 32 总计 16 36 52 智商 性别 偏高 正常 总计 男 8 12 20 女 8 24 32 总计 16 36 52 阅读量 性别 丰富 不丰富 总计 男 14 6 20 女 2 30 32 总计 16 36 52 解析 将 600 代入线性回归方程y0.01x0.5 中得需要的时间为 6.5 h.9 为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22列联表:理科 文科 合计 男 13 10 23 女 7 20 27 合计 20 30 50 已知 P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到 K2的观测值 k5013201072232720304.844,则认为选修文科与性别有关系出错的可能性约为_ 答案 5%解析 由 K2的观测值 k4.8443.841,故认为选修文科与性别有关系出错的可能性约为 5%.10考古学家通过始祖鸟化石标本发现:其股骨长度 x(cm)与肱骨长度 y(cm)的线性回归方程为y1.197x3.660,由此估计,当股骨长度为 50 cm 时,肱骨长度的估计值为_cm.答案 56.19 解析 根据回归方程y1.197x3.660,将 x50 代入,得 y56.19,则肱骨长度的估计值为 56.19 cm.11已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线的回归方程为_ 答案 y1.23x0.08 解析 设回归直线方程为y1.23xa,由题意得:51.234a,得 a0.08,故回归方程为y1.23x0.08.二、解答题 12 (2013重庆文)从某居民区随机抽取 10 个家庭,获得第 i 个家庭的月收入 xi(单位:千元)与月储蓄 yi(单位:千元)的数据资料,算得i110 xi80,i110yi20,i110 xiyi184,i110 x2i720.(1)求家庭的月储蓄 y 对月收入 x 的线性回归方程 ybxa;(2)判断变量 x 与 y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为 7 千元,预测该家庭的月储蓄 附:线性回归方程 ybxa 中,bi1nxiyin x yi1nx2in x2,a y b x,其中 x,y为样本平均值,线性回归方程也可写为y b xa.解析 (1)由题意知 n10,x 1ni110 xi80108,y 1ni110yi20102,又i110 x2in x2720108280,i110 xiyin x y 184108224,由此得 bi110 xiyin x yi110 x2in x224800.3,a y b x 20.380.4,故所求回归方程为y 0.3x0.4.(2)由于变量 y 的值随 x 的值增加而增加(b0.30),故 x 与 y 之间是正相关(3)将 x7 代入回归方程可以预测该家庭的月储蓄约为 y0.370.41.7 千元 13近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重,大气污染可引起心悸,呼吸困难等心肺疾病,为了解某市心肺疾病是否与性别有关,在某医院随机对入院50 人进行了问卷调查,得到了如下的列联表.患心肺疾病 不患心肺疾病 合计 男 20 5 25 女 10 15 25 合计 30 20 50(1)用分层抽样的方法在患心肺疾病的人群中抽 6 人,其中男性抽多少人?(2)为了研究心肺疾病是否与性别有关,请计算出统计量 K2,并回答有多大把握认为心肺疾病与性别有关?P(K2k)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 2.072 2.706 3.841 5.024 6.635 7.879 10.828 参考公式:K2nadbc2abcdacbd,其中 nabcd.解析 (1)在患心肺疾病人群中抽 6 人,则抽取比例为63015,男性应该抽取 20154 人 (2)K28.333,且 P(K27.879)0.0050.5%,所以有 99.5%的把握认为患心肺疾病与性别有关系