突破2023年高考数学题型之2022年数学高考真题(全国通用)专题37 成对数据的统计问题(含详解).pdf
《突破2023年高考数学题型之2022年数学高考真题(全国通用)专题37 成对数据的统计问题(含详解).pdf》由会员分享,可在线阅读,更多相关《突破2023年高考数学题型之2022年数学高考真题(全国通用)专题37 成对数据的统计问题(含详解).pdf(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、专题3 7成对数据的统计问题【高考真题】1.(2 0 2 2 全国乙理)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了 1 0 棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:n P),得到如下数据:样本号i1234567891 0总和根部横截面积飞0.0 4 0.0 6 0.0 4 0.0 8 0.0 8 0.0 5 0.0 5 0.0 70.0 7 0.0 6 0.6材积量X0.2 5 0.4 0 0.2 2 0.5 4 0.5 10.3 4 0.3 6 0.4 6 0.4 2 0.4 0 3.910 10 10并计算得=0
2、.0 3 8,=1.6 1 5 8.=0.2 4 7 4 .i=l i=l i=l(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.0 1);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为1 8 6 m 2 .已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数1=I “曰 “,7?颉=1.3 7 7.住(玉 与 之(片-反)2V i=i i=i1.解 析(1)样本中1 0 棵这种树木的根部横截面积的平均值=需=0.
3、0 63 9样本中1 0 棵这种树木的材积量的平均值5 =子=0.3 9据此可估计该林区这种树木平均一棵的根部横截面积为0.0 6 m 2,平均一棵的材积量为Q3 9 n?10 10Z(X i-可(凶-5)际r i=l._ i=l _ _ ir v To A-刃2/斗叫停TO V_ _ _ _ _ _ _ _0.2 4 7 4-1 0 x 0.0 6 x 0.3 9 _ _ _ _ _ _ _ _ 0.0 1 3 4 0.0 1 3 4 惭7(0.0 3 8 -1 0 x 0.0 62)(1.6 1 5 8 -1 0 x 0.3 92)V0.0 0 0 1 8 9 6 0.0 1 3 7 7
4、,则 r =0.9 7(3)设该林区这种树木的总材积量的估计值为丫?,又已知树木的材积量与其根部横截面积近似成正比,可 得 耗=三,解之得y=1 2 0 9 m 3.则该林区这种树木的总材积量估计为1 2 0 9 m 3.2.(2 0 2 2新高考I)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了 1 0 0例(称为病例组),同时在未患该疾病的人群中随机调查了 1 0 0人(称为对照组),得到如下数据:不够良好良好病例组4 06 0对照组1 09 0(1)能否有9 9%的把握认为患该疾病群体与未患该疾病群体的卫生
5、习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病P(BA)P(BA)P(少少P(BA)与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(i )证明:R=P(A|8)P(N|月)P(A B)P(A B)(i i)利用该调查数据,给出P(*8),P(川 乃的估计值,并 利 用(i )的结果给出R的估计值.附 长2_ nad-be)2(a +Z?)(c +d)(a +c)S+d)P(K2 k)0.0 5 00.0 1 00.0 0 12.解析(1)由已知k3.8 4 16.6 3 51 0.8 2 8n(ad-
6、bc)2 _ 2 0 0(4 0 x 9 0 -6 0 x 1 0)2(a +)(c +4)(“+c)S +d)-50 x 1 50 x 1 0 0 x 1 0 0又 P I K?2 6.63 5)=0.0 1 ,2 4 6,63 5,所以有9 9%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)因为R =p(g i A)P(BA)_ P(A B)P(A)/(A 8)P(A)P(BA)P(A)P(A B)P(A)P(A B)所以R =P(A B)P(B)P(A B)P(B)P(B)P(A B)P(B)P(A 8)所以K =P(A|B)国)P(A By P(A B)4(),(i i
7、)由已知 P(A|B)=诉,1 0 -60 -90P(A|B)=,又 P(A|B)=,P(A|B)=,1 0 0 1 0 0 1 0 0所以R =P(AB)P(AB)_6P(A|B)P(A|B)-【知识总结】1 .变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一 般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2 .样本相关系数(
8、1)相关系数,的计算变量x和变量y的样本相关系数 的计算公式如下:n _ _Z(.X i-X)8-y )/n _ n _-A/Z(k x)吃y )2 /i=i=(2)相关系数r 的性质当r 0 时,称成对样本数据正相关;当 r 1,-y)附:经验回归直线;=:+中斜率和截距的最小二乘估计公式分别为:-,=7-Z (为 一 X)21=A _b x .3.小 区 门 口有一个熟食摊位,经过一段时间的统计,发现菜品种类和日销售收入之间有一定关系,具体统计数据如下表:(1)建立y 关 于t的线性回归方程;(y 保留整数)(2)根据所求线性回归方程,预测如果希望日销售收入菜品种类r45678910日销售
9、收入y147159171184197210221超过300元,则菜品种类至少多少种?(0-t)8-y)A i=A _ 八_附:线性回归直线的斜率和截距的最小二乘估计公式分别为b=-,a=y b t,i (A-t)2Z=17 _ _ 7 _参考数据:E (ti-t)(y,y)=350,Z (/,t=28.Z=1/=14.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图是一个马拉松跑者的心率y(单位:次/分钟)和配速M单位:分钟/千米)的散点图,图是一次马拉松比赛(全程约42千米)前3 000名跑者成绩
10、(单位:分钟)的频率分布直方图.y 与 x 的关系,求 y 与x 的线性回归方程;(1)由散点图看出,可用线性回归模型拟合(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.A A A“.Xiyi-n x-y E(x,x)(y,j)参考公式:用最小二乘法求线性回归方程旷=法+4的系数:人-二-二-X jn x2 E(%,x)2A A 一a=y-b x.参考数据:=135.5.某机构为研究某种图书每册的成本费M单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.o1()15 20
11、 25 30 35 40 45 5()印刷数号工/千册XyU8 Z(XL X )2i=l8 X(即 X )i=l(yi y)8 (出一U )2/=8 一X(L U )i=l(y-y)1 5.2 53.6 30.2 6 92 0 8 5.5-2 3 0.30.7 8 77.0 4 9表中H,=7 由(1)根据散点图判断y a+b x 与 y=c+(哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立了关于x的经验回归方程(回归系数的结果精确到0.0 1).(3)若该图书每册的定价为
12、1 0 元,则至少应该印刷多少册才能使销售利润不低于7 8 8 4 0 元?(假设能够全部售出.结果精确到1)A A A附:对于一组数据(口 l,I),(幻 2,2),(叫,),其经脸回归直线9 夕 G的斜率和截距的最小E(助)(5一 D )A f=|A _ A _二乘估计分别为=-,a=JpM.n _Z(6 9,C O )2尸I6.艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(H I V 病毒)引起,它把人体免疫系统中最重要的 C D 4 T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒累计(1)请根据该统计表,画出这八年我国艾滋病病毒累计感染人数的折线图;(
13、2)请用相关系数说明:能用线性回归模型拟合y 与 x 的关系;(3)建立y 关于x 的回归方程(系数精确到0.0 1),预测2024年我国艾滋病病毒累计感染人数.参考数据:痔 心 6.48;,以=449.6,x,y=2 319.5,yj(JC,7)2=42,y j(y/y)2=462s (x,x Xy,y)参考公式:相关系数/=/-(为 一 x 喀(j,y)2AAA A(Xi X)(y,y)A _ A_回归方程:y=6 x+“中,b=-二-,a=y bx.备(X L 1)27.近年来,高铁的发展逐渐改变了人们的出行方式,我国20162020年高铁运营里程的数据如下表所示.年份201620172
14、01820192020年份代码X12345高铁运营里程y(万千米)1.92.22.52.93.5(1)若 X与y 具有线性相关关系,求 y 关于X的线性回归方程;(2)每一年与前一年的高铁运营里程之差即为该年新增的里程,根据这五年的数据,若用20172020年每年新增里程的频率代替之后每年新增相应里程的概率,求 2024年中国高铁运营里程大于或等于5 万千米的概率.A A A Xiyi-nx y附:线性回归方程y=“+b x 中斜率和截距的最小二乘估计公式分别为:方=号-二 ix jn x21=1a=y-b x .8.每年春天,婺源的油菜花海吸引数十万游客纷至沓来,油菜花成为“中国最美乡村”的
15、特色景观,三月,婺源篁岭油菜花海进入最佳观赏期.现统计了近七年每年(2015年用x=l 表示,2016年用x=2 表示)来篁岭旅游的人次y(单位:万人次)相关数据,如下表所示:X1234567y29333644485259A A A(1)若 y 关于x 具有较强的线性相关关系,求 y 关于x 的线性回归方程、=云+。,并预测2022年来篁岭旅游的人次;(2)为维持旅游秩序,今需A,B,C,D 四位公务员去各景区值班,已知A,B,C 去篁岭值班的概率均为2东。去篁岭值班的概率为本1 且每位公务员是否去篁岭值班不受影响,用 X 表示此4 人中去篁岭值班的人数,求X的分布列与均值.E(X L x )
16、(yi-y)A j*A _ A _参考公式:b=-,a y-b x.Z(X L x )2i=l7 7 _ _参考数据:ZB=301,Z(x,x)(j,y)=140.1=1 尸 i9.研究机构对某校学生往返校时间的统计资料表明:该校学生居住地到学校的距离x(单位:千米)和学生花费在上学路上的时间M单位:分钟)有如下的统计数据:到学校的距离x(千米)1.82.63.14.35.56.1花费的时间y(分钟)17.819.627.53 1.33 6.043.2由统计资料表明y 与 x具有线性相关关系.(1)判断y 与 X的相关程度;(相关系数 的绝对值大于0.75时,认为两个变量相关程度很强,精确到0
17、.01)(2)求线性回归方程=源+2(精确到0.01);A A A(3)将y/y,=764.3 6,Z x (第一 y)=80.3 0,Z(x )2=14.3 0,V(j;-y)2/=1 i=l i=产 ;=1=471.65,6 _ 6 _X(为-x)2X y)2=82.13.10.随着中美贸易战的不断升级,越来越多的国家科技巨头加大了科技研发投入的力度.中华技术有限公司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入M亿元)与科技升级直接收益M亿元)的数据统计如下:序号123456789101112X2346810132122232425y13223 142505658
18、68.56867.56666A八 L当 017时,确定y 与 x 满足的线性回归方程为丫=-0.7x+a.(1)根据下列表格中的数据,比较当0 xW17时模型、的相关指数R2的大小,并选择拟合精度更高、更可靠的模型,预测对“麒麟”手机芯片科技升级的投入为17亿元时的直接收益回归模型模型模型回归方程f=4.1x+11.8=21.35-14.47 A石 Gf)2182.479.2“八C石 8 一卅 _(附:刻画回归效果的相关指数代=1一-,7174.1)石 y y(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5 亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿
19、元时公司实际收益的大小;n _ _ n _ _AAA“百 孙 E(x,x)(y,y)(附:用 最 小 二 乘 法 求 线 性 回 归 方 程 的 系 数:-二-,田一 X 2(为 一 X)2A A a=y-b x)(3)科技升级后,“麒麟”芯片的效率X 大幅提高,经实际试验得X 大致服从正态分布M0.52,0.012).公司对科技升级团队的奖励方案如下:若芯片的效率不超过50%,不予奖励;若芯片的效率超过50%但不超过5 3%,每部芯片奖励2 元;若芯片的效率超过53%,每部芯片奖励4 元,记 丫 为每部芯片获得的奖励,求 E(Y)(精确到0.01).(附:若随机变量 XN(,r)(0),则
20、P a KXW+7)=0.682 7,尸”,一27乂+2 k)0.0 500.0 1 00.0 0 12.解析(1)由已知k3.84 16.63 51 0.82 8n(ad-bc)2 _ 2 0 0(4 0 x 9 0 -60 x 1 0)2(a+)(c +4)(“+c)S+d)-50 x 1 50 x 1 0 0 x 1 0 0又 PI K?2 6.63 5)=0.0 1 ,2 4 6,63 5,所以有9 9%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)因为R=p(g i A)P(BA)_ P(A B)P(A)/(A 8)P(A)P(BA)P(A)P(A B)P(A)P(A
21、 B)所以R=P(A B)P(B)P(A B)P(B)P(B)P(A B)P(B)P(A 8)所以K =P(A|B)国)P(A By P(A B)4(),(i i)由已知 P(A|B)=诉,1 0 -60 -9 0P(A|B)=,又 P(A|B)=,P(A|B)=,1 0 0 1 0 0 1 0 0所以R=P(AB)P(AB)_6P(A|B)P(A|B)-【知识总结】1 .变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散
22、点落在一条直线附近,我们就称这两个变量线性相关.一 般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2 .样本相关系数(1)相关系数,的计算变量x和变量y的样本相关系数 的计算公式如下:n _ _Z(.X i-X)8-y )/n _ n _-A/Z(k x)吃y )2 /i=i=(2)相关系数r 的性质当r 0 时,称成对样本数据正相关;当 r 30 0,解得,1 6.2 8,所以菜品种类至少1 7 种.4 .配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图
23、是一个马拉松跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图是一次马拉松比赛(全程约4 2千米)前3 0 0 0 名跑者成绩(单位:分钟)的频率分布直方图.图图(1)由散点图看出,可用线性回归模型拟合y与 x的关系,求 y与 x的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在16 0 左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.A A A 八 x-y E (x,x )(y,y )参考公式:用 最 小 二 乘 法 求 线 性 回 归 方 程 的 系 数:-二一=一 -二-/第一“X 2.2(X,X)2A A 一a=y-h x .参考数据:y =1
24、3 5.4.解 析(1)由散点图中数据和参考数据得三=45+5+;+7 +7,=6,=13 5,5 _ _Z(X,x)(y,y)A _一 1.5 x 3 6+(-l)x 3 0+0 x(-5)+lx(-2 6)+1.5 3 5)b=j _ =(-1.5)2+(-1)2+02+12+1.52E(k X )2d=y-f t 7 =13 5-(-2 5)x 6=2 8 5,所以y与x的线性回归方程为Q=-25X+285.(2)将 y=16 0 代入回归方程得x=5,所以该跑者跑完马拉松全程所花的时间为4 2 x 5=2 10(分钟).从马拉松比赛前3()0 0 名跑者成绩的频率分布直方图可知成绩好于
25、2 10 分钟的累计频率为0.(X)0 8 x 5 0+0.0 0 2 4 x(2 10 -2 0 0)=0.0 6 4,有 6.4%的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是0.0 6 4 x 3 0 0 0=19 2.5.某机构为研究某种图书每册的成本费),(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.05052、11o 5 10 15 20 25 30 35 40 45 50印刷数埴.r/T册Xy8 _E(Xi X)28 _Z(为一X)/=1(,一 y)8 y(W/-u)2/=18 一y(%-u)i=l 8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 突破2023年高考数学题型之2022年数学高考真题全国通用专题37 成对数据的统计问题含详解 突破 2023 年高 数学 题型 2022 高考 全国 通用 专题 37 成对 数据 统计 问题 详解
链接地址:https://www.taowenge.com/p-90916198.html
限制150内