第23练 统计与成对数据的统计分析.docx
第23练 统计与成对数据的统计分析专项典题精练1高考汇编. (2017全国HI)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2014年1 月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.2014 年2015 年2016 年根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月份D.各年1月至6月的月接待游客量相对 7月至12月,波动性更小,变化比较平稳答案A解析 由折线图,7月份后月接待游客量减少,A错误.1 .(多选)(2021 新高考全国I)有一组样本数据为,必,修,由这组数据得到新样本数据V,2,,为,其中y=Xj+c(i=l,2,叫c为非零常数,则()A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同答案CD 解析 设样本数据为,尤2,,儿的平均数、中位数、标准差、极差分别为x , m, K依题意得,新样本数据?,”,为的平均数、中位数、标准差、极差分别为九+c,根+。, o, t,因为cWO,所以C, D正确.3.(多选)(2021 .新高考全国H)下列统计量中,能度量样本为,必 ,儿的离散程度的是() A.样本X1,X2,X的标准差B.样本为,X2,%的中位数C.样本乃,孙,x的极差对此新闻事件的关注程度,从该校高三学生中随机抽取了 100名学生进行调查,调查样本中 有40名女生.下图是根据样本的调查结果绘制的等高堆积条形图(阴影区域表示关注“嫦娥 五号”的部分).频率l.(M)0.70().5()女生男生性别完成下面的2义2列联表,并依据小概率值。=0.05的独立性检验,能否认为对“嫦娥五号” 的关注程度与性别有关?关注男女合计没关注合计若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦 娥五号”新闻关注的人数为随机变量X,求X的分布列及均值.附:(a+b)(c+d)(a+c)(b+d)'其中a0.1500.1000.0500.0100.005Xa2.0722.7063.8416.6357.879关注没关注合计男303060女122840合计4258100零假设为儿:对“嫦娥五号”的关注程度与性别无关.根据列联表中数据,得100X(30X2812X30)2 80042X58X40X60203心 3.941>3.841=祀.05,依据小概率值。=0.05的独立性检验,推断为不成立,即认为对“嫦娥五号”的关注程度与性别有关.因为随机选一名高三女生,对此事关注的概率P=12 340 10'又因为X3(3,高,所以随机变量X的分布列为X0123P3431 0004411 0001891 000271 000E(X) np=Q.练后疑难精讲考情分析高考近几年考查热点,主要考查线性回归分析和独立性检验,以实际应用题的 形式出现,题目阅读量大,难度中档.一、用样本估计总体【核心提炼】1 .统计中的四个数据特征:众数:在样本数据中,出现次数最多的那个数据.中位数:在样本数据中,将数据按从小到大顺序排列,位于最中间的数据.如果数据的个 数为偶数,就取中间两个数据的平均数作为中位数.平均数:样本数据的算术平均数,即7=3为+&+/).(4)方差与标准差:1 2=(1- X )2 + (X2 X )2-1F(x- X )2,S=q、K%l % )2 + (X2 x )2-1X )2.2 .频率分布直方图的两个结论:频率小长方形的面积=组距义启=频率.各小长方形的面积之和等于1.【练后反馈】错题整理:题号1234561012正误二、回归分析【核心提炼】A AA.经验回归直线y=Zzx+经过样本点的中心(三,7),若x取某一个值,代入经验回归方程A AAy=bx+a中,可求出y的估计值.1 .样本相关系数:当>0时,称成对样本数据正相关;当K0时,称成对样本数据负相关.当闭>0.75时,称成对样本数据具有较强的线性相关关系.【练后反馈】题号8111415正误错题整理:三、独立性检验【核心提炼】1.独立性检验的一般步骤根据样本数据列成2X2列联表;根据公式下4M2172;小不计算/的值;a+/?)(c+a)(a+c)(b+a)A查表比较Z2与临界值的大小关系,作统计判断.2. /的值越大,对应假设事件为成立(两类变量相互独立)的概率越小,%不成立的概率越大.【练后反馈】题号791316正误错题整理:易错对点精补l.Tl补偿(多选)(2021 福州一中模拟)刘女士的网店经营坚果类食品,2020年各月份的收入、 支出(单位:百元)情况的统计如图所示,下列说法中正确的是()A. 4至5月份的收入的变化率与11至12月份的收入的变化率相同B.支出最高值与支出最低值的比是5 : 1C.第三季度月平均收入为5 000元D.利润最高的月份是3月份和10月份答案ACD 解析 对于A选项,4至5月份的收入的变化率为*=20,11至12月份的收入的变化 率为普?=-20,因而两个变化率相同,所以A项正确.对于B选项,支出最高值是2月份的60百元,支出最低值是5月份的10百元,故支出最高 值与支出最低值的比是6: 1,故B项错误.对于C选项,第三季度的7,8,9月每个月的收入分别为40百元,50百元,60百元,故第三季度的平均收入为40+今+6。= 50(百元)故C选项正确.对于D选项,利润最高的月份是3月份和10月份都是30百元,故D项正确.2.T9补偿(2021.蚌埠模拟)某校随机调查了 110名不同的高中生是否喜欢篮球,得到如下的 列联表:力女喜欢篮球4020不喜欢篮球2030附:附:n(ad- be?(a+A)(c+c)(b+J),a0.0500.0100.0013.8416.63510.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“喜欢篮球与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“喜欢篮球与性别无关”C依据小概率值。=0.01的独立性检验认为“喜欢篮球与性别有关”D.依据小概率值。= 0.01的独立性检验认为“喜欢篮球与性别无关” 答案c立 I 皿=小 o 110X(40X30-20X20)2解析 由题意得 /=-6ox5OX6OX5O7.822>6.635=x(),oio,6. 635<7.822< 10.828,因此可以依据小概率值a=0.01的独立性检验,认为“喜欢篮球与性别有关”.3.T12补偿(2021 .兰州模拟)“学习强国”学习平台是由中共中央宣传部主管,以习近平新 时代中国特色社会主义思想和党的十九大精神为主要内容,立足全体党员、面向全社会的优 质平台.2019年1月1日,“学习强国”学习平台在全国上线,某单位组织全体党员登录学习, 统计学习积分得到的频率分布直方图如图所示.若学习积分在单位:万分)的人数是 32人,则该单位共有 名党员,若学习积分超过2万分的党员可获得“学习达人”称号,则该单位有 名党员能获得该称号.答案80 8解析 由频率分布直方图可知,该单位学习积分在1, L5)内的党员所占的频率为0.8义0.5 =0.4,32 所以该单位的党员总人数为羔=80,该单位学习积分超过2万分的党员所占的频率为0.2X0.5=(M,因此该单位能获得“学习达人”称号的党员人数为80X0.1=8.4.lT14补偿(2021长沙模拟)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元) 之间有如下对应数据:X24568y2040607080根据上表,利用最小二乘法求得y关于x的经验回归方程为y="+1.5,据此预测,当投入10万元时,销售额的估计值为 万元.答案106.5一 1解析由题意得x =7(2+4+5 + 6+8) = 5, =1(20+40+60+70+80) = 54, J, A所以 54=5/7+1.5,A所以 b=10.5,A所以 y=10.5x+l.5,A当 x=10 时,y=10.5X 10+1.5=106.5.5.T15补偿(2021张家口模拟)某电器企业统计了近10年的年利润额y(千万元)与投入的年广告费用M十万元)的相关数据,散点图如图,对数据作出如下处理:令出=m即,仍=始凶, 得到相关数据如表所示:10/=110%z=i10 %i=10 上山 i=30.5151546.5年利润额/千万元1()8 .64- 2:lililllllllllll.()1 2 4 6 8 1() 12 14 16 18 20 22 24 26 28 3(). 广告费用/十万元(1)从>=租我心0, k>0),y=cx2+dx+e三个函数中选择一个作为年广告费用x和年利润额y的回归类型,判断哪个类型符合,不必说明理由;根据中选择的回归类型,求出y与x的经验回归方程;(3)预计要使年利润额突破1亿,下一年应至少投入多少广告费用?(结果保留到万元)参考数据:3.67 8 8,3.678 83 49.787. en _Z (L t )8 - y )A AA i参考公式:经验回归方程丁 =。+初中斜率和截距的最小二乘估计公式分别为人=n 一 Z Qi- t )2 /=1解(1)由散点图知,年广告费用x和年利润额y的回归类型并不是直线型的,而是曲线型的, 且y与1呈正相关.所以选择回归类型更好.(2)对y=m两边取自然对数,得 In y=ln m+Mn x9因为 o=lny, w=ln x,贝1o=ln/n+Z4, 由表中数据得,io 30.510X1.5XL5 1Z =46.5-10X1.5X1.5 = 3,£ 房一10 u 2/=!” 1所以 In m= v k u =1.5 2X 1.5=1,所以m=e, 所以年广告费用x和年利润额y的经验回归方程为y=ex§.(3)由,知y=e令 y= e户 >10,得户 >3.678 8,所以 x>3.67883q49,787,所以x"49.8(十万元).故下一年应至少投入498万元广告费用.D.样本为,X2,X的平均数答案AC解析由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位 数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数 的定义可知,平均数考查的是数据的集中趋势.4. (2021 全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户 家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间 答案C 解析对于A,根据频率分布直方图可知,家庭年收入低于4.5万元的农户比率约为。02+ 0.04)XlX100% = 6%,故A正确;对于B,根据频率分布直方图可知,家庭年收入不低于 10.5万元的农户比率约为(0.04 + 0.02+0.02+0.02)XlX100%=10%,故B正确;对于C,根 据频率分布直方图可知,该地农户家庭年收入的平均值约为3X0.02 + 4X0.04 + 5X0.10 + 6X0.14 + 7X0.20 + 8X0.20 + 9X0.10+10X0.10+11 X0.04+12X0.02+13X0.02+14X0.02 = 7.68(万元),故C错误;对于D,根据频率分布直方图可知,家庭年收入介于4.5万元至 8.5万元之间的农户比率约为(0.10+0.14+率20+0.20)X1 X100%=64%>50%,故D正确.5. (2019全国H)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10 个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经 停该站高铁列车所有车次的平均正点率的估计值为.10X0.97 + 20X0.98+10X0.9910+20+10答案0.98 解析 经停该站高铁列车所有车次的平均正点率的估计值为= 0.98.6. (2014.江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位: cm),所得数据均在区间80,130上,其频率分布直方图如图所示,则在抽测的60株树木中,株树木的底部周长小于100 cm.底部局长/cm答案24 解析 底部周长在80,90)的频率为0.015X 10 = 0.15,底部周长在90,100)的频率为0.025义10=0.25, 样本容量为60,所以树木的底部周长小于100cm的株数为(0.15 + 0.25)X60=24.7.(2021 ,全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为 了比较两台机床产品的质量,分别用两台机床各生产了 200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400甲机床、乙机床生产的产品中一级品的频率分别是多少?依据小概率值a=0.01的独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有 差异?a0.0500.0100.001Xa3.8416.63510.828n=a b cd.附:4正黑篝E= 0.75,乙机床生产的产= 0.75,乙机床生产的产解(1)根据题表中数据知,甲机床生产的产品中一级品的频率是提120品中一级品的频率是端=06 零假设为H():甲机床的产品质量与乙机床的产品质量没有差异.旧皿时土工,乙近gr,日,400X(150X80120X50)2 400根据延表 中 的数据可付/=_onn vonnv -10.256>6.635 =xo.oio.,UU A,UU A z /U A 1 JUJy依据小概率值a=0.01的独立性检验,推断Ho不成立, 即认为甲机床的产品质量与乙机床的产品质量有差异.8.(2016全国ni)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图./V .( /V ( ri' rl .8.64 2.0.8 11 1 1 1A 1 o注:年份代码17分别对应年份2008-2014.由折线图看出,可用线性回归模型拟合y与,的关系,请用样本相关系数加以说明; 建立y关于t的经验回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:77/ 7参考数据:Z>7=9.32, Z砂,=40.17,、/ZCvl y )2 = 055,于处2.646./=i/=1 / 产1E (方t )Gl y ) i=参考公式:样本相关系数r=一,A / S (。 t )2Z (y y )2 / i=i=经验回归方程产” + 4中斜率和截距的最小二乘估计公式分别为Z (介一 t )8- y )A l= 1AAb=, ci= y -b t .n 一£ (ti t)2i=l解(1)由折线图中数据和附注中参考数据得t =4,£&一 t y=28, a / ECy/- y )2=o.55.77 72 89E (ti- t )8- y )="t E>7=40.17-4X9.32 = 2.89, r%0 55X2X2 6460,99, i=li=z=l*因为y与1的样本相关系数近似为0.99,说明y与,的线性相关程度相当高,从而可以用线性 回归模型拟合y与1的关系.7-E(L t )8 y )9 32人 尸12 89(2)由 y = 1.331 及(1)得6 = 2g 0.103,£("-7)2 i=a= y -b t 1.331-0.103X40.92.所以y关于/的经验回归方程为y=0.92+0.1(kA将2016年对应的t=9代入经验回归方程得y=0.92+0.10X9=L82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.模拟精选9. (2021 盐城模拟)某词汇研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计得下方的2义2列联表.则根据列联表可知()年轻人非年轻人合计经常用流行用语12525150不常用流行用语351550合计16040200参考公式:独立性检验统计量/=讲炭篝篇宙,其中十计" 下面的临界值表供参考:a0.150.100.050.0250.0100.0050.001Xa2.0722.7063.8415.0246.6357.87910.828A.依据小概率值a=0.05的独立性检验,认为“经常用流行用语”与“年轻人”有关系B.依据小概率值a=0.05的独立性检验,认为“经常用流行用语”与“年轻人”没有关系C.依据小概率值。=0.025的独立性检验,认为“经常用流行用语”与“年轻人”有关系D.依据小概率值。=0.025的独立性检验,认为“经常用流行用语”与“年轻人”没有关系答案A4.167>3.841 =xo.o5,200X(125X 15 25X35)2 160X40X50X150依据小概率值。=0.05的独立性检验,认为经常用流行语与年轻人有关系.10.(多选X2021 .日照模拟)某保险公司为客户定制了 5个险种:甲,一年期短险;乙,两全 保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险,各种保险按相关约定进行参保 与理赔.该保险公司对5个险种参保客户进行抽样调查,得出如下的统计图例:参保人数比例654321°182)3。714253 54 周岁以上不同年龄段人均参保费用XM)MX) MM) MM)XM) MK)MX)().55().55比例用该样本估计总体,以下四个选项正确的是()A. 54周岁以上参保人数最少1829周岁人群参保总费用最少B. 丁险种更受参保人青睐30周岁以上的人群约占参保人群的20%答案AC解析 对于A,由扇形图可知,54周岁以上参保人数最少,故选项A正确;对于B,由折线图可知,1829周岁人群人均参保费用最少,但是由扇形图知参保人数并不 是最少的,所以参保总费用不是最少,故选项B错误;对于C,由柱状图可知,丁险种参保比例最高,故选项C正确;对于D,由扇形图可知,30周岁以上的人群约占参保人群的80%,故选项D错误.11 . (2021 南昌模拟)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率武每 分钟鸣叫的次数)与气温),(单位:)存在着较强的线性相关关系.某地观测人员根据下表的 观测数据,建立了 y关于x的经验回归方程;=0.25x+kx(次数/分钟)2030405060M)2527.52932.536则当蟋蟀每分钟鸣叫52次时,该地当时的气温预报值为(A. 33 B. 34 C. 35 D. 35.5答案A解析20+30+40+50+60 x =7= 40, 25+27.5 + 29 + 32.5 + 36y =w=30,因为样本点中心(x, y)在经验回归直线上,所以将(40,30)代入了=0.25%十总 得30=0.25X40+鼠 解得=20, 所以 y=0.25x+20, 当 x=52 时,y=0.25X52+20=33.12 .(多选)(2021 漳州模拟)在第一次全市高三年级统考后,某数学老师为了解本班学生的本 次数学考试情况,将全班50名学生的数学成绩绘制成频率分布直方图.已知该班级学生的数 学成绩全部介于65到145之间(满分150分),将数学成绩按如下方式分成八组:第一组65,75), 第二组75,85),,第八组135,145,按上述分组方法得到的频率分布直方图的一部分, 如图所示,则下列结论正确的是()频率 组距0.006().(XH°65 75 85 95 105 115 125 135 145A.第七组的频率为0.008B.该班级数学成绩的中位数的估计值为101C.该班级数学成绩的平均分的估计值大于95D.该班级数学成绩的方差的估计值大于26答案BCD解析 A项,设第七组的频率为羽 则10义(0.004+0.012 + 0.016+0.03 + 0.02+0.006+0.004) +x= 1,得x=0.08,错误;B 项,由 10X(0.004+0.012+0.016+0.03)=0.62>0.5>10X(0.004+0.012+0.016) = 0.32 知, 中位数在95,105)区间,若中位数为羽 则10X(0.004+0.012+0.016) + (工-95)<0.03 = 0.5, 解得x=101,正确;C 项,由题图知,70X0.04+ 80X0.12+ 90X0.16+ 100X0.3+ 110X0.2+ 120X0.06 + 130X0.08 +140X0.04 =102,正确;D 项,? =102)2 = (70- 102)2X0.04 + (80-102)2X0.12 + (90- 102)2X 0.16 + (100- 102)2X0.3 + (110-102)2X0.2 + (120102)2X0.06 + (130102)2*0.08 + (140 102)2X0.04 = 276,正确.13. 为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了 如下2X2列联表:喜爱打篮球不喜爱打篮球合计男生20525女生101525合计302050则在犯错误的概率不超过 的前提下,认为喜爱打篮球与性别有关(请用百分数表示).a0.1000.0500.0100.0050.001Xa2.7063.8416.6357.87910.828 =。+ /? +。+2.参考公式及数据.z芍上、八冬激用 z m+)(c+的(+c)s+m,答案0.5%解析因为/=50X(30050)225 义 25 * 30 义 2。=8333>*0.005,则在犯错误的概率不超过0.5%的前提下,认为喜爱打篮球与性别有关.14. (2021 广州模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行 了 5次试验,这5次试验的数据如表:零件数x(个)1020304050加工时间y(min)62a758189若用最小二乘法求得经验回归方程为y=0.67x+54.9,则a的值为答案68解析由已知x解析由已知x10+20+30+40+50c=30,2+a5 IIIiiiiIIIIIIIIII LL±1Illi11111IIII111l-T-T-T-;IIII1111L_4_l11i ;62+75 + 81+89 y =61 +2 I ci所以 61+=0.67义30+54.9, =68.15. (2021.兰州模拟)某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度x 时相对应产卵数个数为y的8组数 据,为了对数据进行分析,他们绘制了如下散点图:产卵(个)3(2250200150 1(M)50051() 15 20 25 30 35 40温4七)(1)根据散点图,甲、乙两位同学分别用 >=法+。和z=dx+c(其中z=lny)两种模型进行回归 分析,试判断这两位同学得到的回归方程中,哪一个的决定系数改更接近1;(给出判断即可, 不必说明理由)根据的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分 析的模型,并利用下表中数据,计算该模型的经验回归方程;(方程表示为y=/U)的形式,最 后计算结果保留两位小数)XyZ8Z=18AiZi i=8i=26723.311 8717575 722据测算,若此种昆虫的产卵数超过et则会发生虫害.研究性学习小组的同学通过查阅气 象资料得知近期当地温度维持在25 左右,试利用中的经验回归方程预测近期当地是否 会发生虫害. A AA附:对于一组数据(1,01), (2,。2),(劭,%),其经验回归直线0=仪+。的斜率和截距U VA i= 1AA 的最小二乘估计分别为£=, a= v p u .itZ房一 u2 i=l解(1)乙同学模型的决定系数W更接近1.(2)根据的结论,应选择z=+c作为经验回归方程,根据公式,88 x zA 757 - 8X26X3.3二一=5 722-8X262 0-225x 2i=iAAc=7 -dx 3.3-0.225 X 26= -2.55, z0.23x2.55,故y关于X的经验回归方程为;=e°.23L2.55.(3)当尤=25 时,y=e()-23x-2-55 = e3-2<e4,因此近期当地不会发生虫害.16. (2021淮南模拟)中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发 展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携 带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生