专题10.1 统计与统计案例(精讲)-2021年新高考数学一轮复习学与练(解析版).docx
-
资源ID:4163082
资源大小:640.80KB
全文页数:30页
- 资源格式: DOCX
下载积分:15金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
专题10.1 统计与统计案例(精讲)-2021年新高考数学一轮复习学与练(解析版).docx
专题10.1 统计与统计案例【考纲要求】1.抽样(1)简单随机抽样通过实例,了解简单随机抽样的含义及其解决问题的过程,掌握两种简单随机抽样方法:抽签法和随机数法会计算样本均值和样本方差,了解样本与总体的关系(2)分层随机抽样通过实例,了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法结合具体实例,掌握分层随机抽样的样本均值和样本方差(3)抽样方法的选择在简单的实际情境中,能根据实际问题的特点,设计恰当的抽样方法解决问题2.统计图表能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性3.用样本估计总体(1)结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义(2)结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义(3)结合实例,能用样本估计总体的取值规律.4.成对数据的统计相关性(1)结合实例,了解样本相关系数的统计含义(2)结合实例,会通过相关系数比较多组成对数据的相关性5.一元线性回归模型(1)结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法(2)针对实际问题,会用一元线性回归模型进行预测6.22列联表(1)通过实例,理解22列联表的统计意义(2)通过实例,了解22列联表独立性检验及其应用.【知识清单】知识点一随机抽样与用样本估计总体1简单随机抽样(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样这样抽取的样本,叫做简单随机样本(2)常用方法:抽签法和随机数法2分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样(2)分层抽样的应用范围当总体是由差异明显的几个部分组成时,往往选用分层抽样3频率分布直方图(1)纵轴表示,即小长方形的高;(2)小长方形的面积组距频率;(3)各个小方形的面积总和等于1.4频率分布表的画法第一步:求极差,决定组数和组距,组距;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表5条形图、折线图及扇形图(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图6中位数、众数、平均数的定义(1)中位数将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数(2)众数一组数据中出现次数最多的数据叫做这组数据的众数(3)平均数一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,xn的平均数(x1x2xn)7样本的数字特征如果有n个数据x1,x2,xn,那么这n个数的(1)标准差.(2)方差常用结论1频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和(3)中位数的估计值的左边和右边的小矩形的面积和是相等的2平均数、方差的公式推广(1)若数据x1,x2,xn的平均数为,则mx1a,mx2a,mx3a,mxna的平均数是ma.(2)若数据x1,x2,xn的方差为s2,则数据ax1b,ax2b,axnb的方差为a2s2.知识点二变量间的相关关系与统计案例1变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关2两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线(2)回归方程为x,其中, (3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法(4)相关系数:当r0时,表明两个变量正相关;当r0时,表明两个变量负相关r的绝对值越接近于1,表明两个变量的线性相关性越强r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常|r|大于0.75时,认为两个变量有很强的线性相关性3独立性检验(1)22列联表设X,Y为两个变量,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(22列联表)如下:y1y2总计x1ababx2cdcd总计acbdabcd(2)独立性检验利用随机变量K2(也可表示为2)的观测值 (其中nabcd为样本容量)来判断“两个变量有关系”的方法称为独立性检验独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断常用结论1求解回归方程的关键是确定回归系数,应充分利用回归直线过样本中心点(,)2根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大3根据回归方程计算的值,仅是一个预报值,不是真实发生的值【考点梳理】考点一 统计数据与图表在实际问题中的应用【典例1】(2017全国高考真题(理)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是( )A月接待游客量逐月增加B年接待游客量逐年增加C各年的月接待游客量高峰期大致在7,8月D各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳【答案】A【解析】对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.【典例2】(2018全国高考真题(文)某地区经过一年的新农村建设,农村的经济收入增加了一倍实现翻番为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例得到如下饼图:则下面结论中不正确的是A新农村建设后,种植收入减少B新农村建设后,其他收入增加了一倍以上C新农村建设后,养殖收入增加了一倍D新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半【答案】A【解析】首先设出新农村建设前的经济收入为M,根据题意,得到新农村建设后的经济收入为2M,之后从图中各项收入所占的比例,得到其对应的收入是多少,从而可以比较其大小,并且得到其相应的关系,从而得出正确的选项.详解:设新农村建设前的收入为M,而新农村建设后的收入为2M,则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A项不正确;新农村建设前其他收入我0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项正确;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项正确;新农村建设后,养殖收入与第三产业收入的综合占经济收入的,所以超过了经济收入的一半,所以D正确;故选A.【规律方法】条形图、折线图及扇形图(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图【变式探究】1.(2020西城北京铁路二中高三期中)我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,给出下列四个结论: 第3天至第11天复工复产指数均超过80%; 这11天期间,复产指数增量大于复工指数的增量; 第9天至第11天复产指数增量大于复工指数的增量; 第1天至第3天复工指数的方差大于第2天至第4天复工指数的方差其中所有正确结论的序号是_【答案】【解析】由图像可得,第3天至第11天复工复产指数均超过80%,故正确;由图像可得,第1天复产指数与复工指数的差大于第11天复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故错误;由图像可得,第9天至第11天复产指数增量大于复工指数的增量;故正确;由图像可得,第1天至第3天复工指数波动较小,第2天至第4天复工指数波动较大,所以第1天至第3天复工指数的方差小于第2天至第4天复工指数的方差,故错误.故答案为:2(多选)(2019贵州省适应性考试)2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高条形图:根据图中(35岁以上含35岁)的信息,下列结论中一定正确的是()A样本中男性比女性更关注地铁1号线全线开通B样本中多数女性是35岁以上C样本中35岁以下的男性人数比35岁以上的女性人数多D样本中35岁以上的人对地铁1号线的开通关注度更高【答案】ABD【解析】设等高条形图对应22列联表如下:35岁以上35岁以下总计男性acac女性bdbd总计abcdabcd根据第1个等高条形图可知,35岁以上男性比35岁以上女性多,即a>b;35岁以下男性比35岁以下女性多,即c>d.根据第2个等高条形图可知,男性中35岁以上的比35岁以下的多,即a>c;女性中35岁以下的比35岁以下的多,即b>d.对于A,男性人数为ac,女性人数为bd,因为a>b,c>d,所以ac>bd,所以A正确;对于B,35岁以上女性人数为b,35岁以下女性人数为d,因为b>d,所以B正确;对于C,35岁以下男性人数为c,35岁以上女性人数为b,无法从图中直接判断b与c的大小关系,所以C不一定正确;对于D,35岁以上的人数为ab,35岁以下的人数为cd,因为a>c,b>d,所以ab>cd,所以D正确故选A、B、D.考点二 抽样方法【典例3】(2020横峰中学高三其他(理)某中学高二年级共有学生2400人,为了解他们的身体状况,用分层抽样的方法从中抽取一个容量为80的样本,若样本中共有男生42人,则该校高二年级共有女生( )A1260B1230C1200D1140【答案】D【解析】设女生总人数为:人,由分层抽样的方法可得:抽取女生人数为:人,所以,解得:故选:D【典例4】(2019山东省泰安实验中学高一开学考试)总体由编号为01,02,29,30的30个个体组成,现从中9抽取一个容量为6的样本,请以随机数表第1行第3列开始,向右读取,则选出来的第6个个体的编号为( )70 29 17 12 13 40 33 12 38 26 13 89 51 0356 62 18 37 35 96 83 50 87 75 97 12 55 93A12B13C03D40【答案】C【解析】从随机数表第行第列开始由左到右依次选取两个数字中小于30的编号依次为29,17,12,13,26,03,则第6个个体的编号为26故选C【总结提升】1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的2. 分层抽样的前提和遵循的两条原则(1)前提:分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占比例抽取(2)遵循的两条原则:将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比3. 两种抽样方法的特点、联系及适用范围类别共同点各自特点联系适用范围简单随机抽样抽样过程中每个个体被抽到的可能性相等;每次抽出个体后不再将它放回,即不放回抽样从总体中逐个抽取总体个数较少分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样总体由差异明显的几部分组成【变式探究】1.(2019绥德中学高二月考(文)高二年级有男生560人,女生420人,为了解学生职业规划,现用分层抽样的方法从该年级全体学生中抽取一个容量为280人的样本,则此样本中男生人数为( )A120B160C280D400【答案】B【解析】有男生560人,女生420人,年级共有,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,每个个体被抽到的概率是,要从男生中抽取,故选:B2.下列抽取样本的方式属于简单随机抽样的个数为()从无限多个个体中抽取100个个体作为样本盒子里共有80个零件,从中选出5个零件进行质量检验在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里从20件玩具中一次性抽取3件进行质量检验某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛A0B1 C2 D3【答案】A【解析】不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;不是简单随机抽样因为它是有放回抽样;不是简单随机抽样因为这是“一次性”抽取,而不是“逐个”抽取;不是简单随机抽样因为不是等可能抽样故选A【易错提醒】1应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀一般地,当总体容量和样本容量都较小时可用抽签法(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去2分层抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算(3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比”考点三 频率分布直方图的应用【典例5】(2020天津高考真题)从一批零件中抽取80个,测量其直径(单位:),将所得数据分为9组:,并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间内的个数为( )A10B18C20D36【答案】B【解析】根据直方图,直径落在区间之间的零件频率为:,则区间内零件的个数为:.故选:B.【典例6】(2019全国高考真题(理)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成两组,每组100只,其中组小鼠给服甲离子溶液,组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记为事件:“乙离子残留在体内的百分比不低于”,根据直方图得到的估计值为.(1)求乙离子残留百分比直方图中的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).【答案】(1) ,;(2) ,.【解析】 (1)由题得,解得,由,解得.(2)由甲离子的直方图可得,甲离子残留百分比的平均值为,乙离子残留百分比的平均值为【规律方法】(1)在频率分布直方图中,各小长方形的面积表示相应各组的频率,所有小长方形的面积的和等于1;(2)组距频率;(3)频率,此关系式的变形为样本容量,样本容量频率频数【变式探究】1.(2020海南高三期中)为了评估某家快递公司的服务质量,某评估小组进行了客户满意度调查,从该公司参与调查的客户中随机抽取500名客户的评分,评分均在区间上,分组为,其频率分布直方图如图所示.规定评分在60分以下表示对该公司的服务质量不满意,则这500名客户中对该公司的服务质量不满意的客户的人数为( )A15B16C17D18【答案】A【解析】由频率分布直方图可知,评分在区间上的频率为,所以评分在区间上的客户有(人),即对该公司的服务质量不满意的客户有15人.故选:A2. (2017北京,文17)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:20,30),30,40),80,90,并整理得到如下频率分布直方图:()从总体的400名学生中随机抽取一人,估计其分数小于70的概率;()已知样本中分数小于40的学生有5人,试估计总体中分数在区间40,50)内的人数;()已知样本中有一半男生的分数学.科网不小于70,且样本中分数不小于70的男女生人数相等试估计总体中男生和女生人数的比例【答案】()0.4;()5人;().【解析】()根据频率分布直方图可知,样本中分数不小于70的频率为,所以样本中分数小于70的频率为.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.()根据题意,样本中分数不小于50的频率为,分数在区间内的人数为.学科%网所以总体中分数在区间内的人数估计为.【易错提醒】频率分布直方图的纵坐标是,而不是频率考点四 用样本的数字特征估计总体的数字特征【典例7】(2020全国高考真题(理)在一组样本数据中,1,2,3,4出现的频率分别为,且,则下面四种情形中,对应样本的标准差最大的一组是( )ABCD【答案】B【解析】对于A选项,该组数据的平均数为,方差为;对于B选项,该组数据的平均数为,方差为;对于C选项,该组数据的平均数为,方差为;对于D选项,该组数据的平均数为,方差为.因此,B选项这一组的标准差最大.故选:B.【典例8】(2019年高考全国卷文)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表的分组企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表)(精确到0.01)附:【答案】(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%;(2)这类企业产值增长率的平均数与标准差的估计值分别为30%,17%【解析】(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为产值负增长的企业频率为用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%(2),所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%【总结提升】(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征【变式探究】1. (2019全国高考真题(理)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是A中位数B平均数C方差D极差【答案】A【解析】设9位评委评分按从小到大排列为则原始中位数为,去掉最低分,最高分,后剩余,中位数仍为,A正确原始平均数,后来平均数平均数受极端值影响较大,与不一定相同,B不正确由易知,C不正确原极差,后来极差可能相等可能变小,D不正确2.(2020全国高考真题(文)设一组样本数据x1,x2,xn的方差为0.01,则数据10x1,10x2,10xn的方差为( )A0.01B0.1C1D10【答案】C【解析】因为数据的方差是数据的方差的倍,所以所求数据方差为故选:C【总结提升】1.众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小(2)方差的简化计算公式:s2(xxx)n 2或写成s2(xxx)2,即方差等于原数据平方的平均数减去平均数的平方2.主要命题角度:(1)样本的数字特征与频率分布直方图交汇(2)样本的数字特征与茎叶图交汇在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等(3)样本的数字特征与优化决策问题交汇:利用样本的数字特征解决优化决策问题的依据平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定用样本估计总体就是利用样本的数字特征来描述总体的数字特征考点五 相关关系的判断【典例9】对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图如图,对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图如图.由这两个散点图可以判断()A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关【答案】C【解析】由散点图可得两组数据均线性相关,且图的线性回归方程斜率为负,图的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关【典例10】(2020云南师大附中高二期中)已知变量和满足关系,变量与负相关下列结论正确的是( )A与负相关,与负相关B与负相关,与正相关C与正相关,与负相关D与正相关,与正相关【答案】C【解析】因为变量和满足关系,所以和正相关,又因为与负相关,设,所以,可得,所以与负相关,所以与正相关,与负相关,故选:C【总结提升】判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.【变式探究】(2019郑州市第一次质量预测)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A利润率与人均销售额成正相关关系B利润率与人均销售额成负相关关系C利润率与人均销售额成正比例函数关系D利润率与人均销售额成反比例函数关系【答案】A【解析】画出利润率与人均销售额的散点图,如图由图可知利润率与人均销售额成正相关关系,故选A.考点六 线性回归方程、回归分析【典例11】(2018全国高考真题(文)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图 为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型根据2000年至2016年的数据(时间变量的值依次为)建立模型:;根据2010年至2016年的数据(时间变量的值依次为)建立模型: (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由【答案】(1)利用模型预测值为226.1,利用模型预测值为256.5,(2)利用模型得到的预测值更可靠【解析】(1)利用模型,该地区2018年的环境基础设施投资额的预测值为 =30.4+13.519=226.1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为=99+17.59=256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠【典例12】(2020全国高考真题(理)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=,1.414.【答案】(1);(2);(3)详见解析【解析】(1)样区野生动物平均数为,地块数为200,该地区这种野生动物的估计值为(2)样本(i=1,2,20)的相关系数为(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.【总结提升】一、线性回归分析问题的类型及解题方法1求线性回归方程(1)利用公式,求出回归系数,.(2)待定系数法:利用回归直线过样本点的中心求系数2利用回归方程进行预测,把线性回归方程看作一次函数,求函数值3利用回归直线判断正、负相关,决定正相关还是负相关的是系数.二、模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好(2)相关指数R2越大,模型的拟合效果越好(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强【变式探究】1. (2017山东高考真题(理)为了研究某班学生的脚长(单位厘米)和身高(单位厘米)的关系,从该班随机抽取名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为已知,该班某学生的脚长为,据此估计其身高为( )ABCD【答案】C【解析】由已知,, 故选C.2.(2020河南郑州一中高三期中(文)新型冠状病毒肺炎COVID-19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.下表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.日期代码x12345678累计确诊人数y .481631517197122为了分析该国累计感染人数的变化趋势,小王同学分别用两杆模型:,对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差):经过计算得,其中,.(1)根据残差图,比较模型,的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?附:回归直线的斜率和截距的最小二乘估计公式分别为:,【答案】(1)选择模型,理由见解析;(2);(3)157人.【解析】(1)选择模型.理由如下:根据残差图可以看出,模型的估计值和真实值相对比较接近,模型的残差相对较大一些,所以模型的拟合效果相对较好(2)由(1),知y关于x的回归方程为,令,则.由所给数据得:,.,y关于x的回归方程为(3)将代入上式,得(人)所以预测该地区第9天新型冠状病毒感染确诊的累计人数为157人.【总结提升】一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)(4)按一定规则(如最小二乘法)估计回归方程中的参数(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)若存在异常,则检查数据是否有误,或模型是否合适等考点七 独立性检验【典例13】(2019全国高考真题(文)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:P(K2k)0.0500.0100.001k3.8416.63510.828【答案】(1);(2)能有的把握认为男、女顾客对该商场服务的评价有差异.【解析】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,所以男顾客对商场服务满意率估计为,50名女顾客对商场满意的有30人,所以女顾客对商场服务满意率估计为,(2)由列联表可知,所以能有的把握认为男、女顾客对该商场服务的评价有差异.【典例14】(2017全国高考真题(文)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下: (1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量50kg箱产量50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣