2019届高考数学大一轮复习讲义:第十章 统计与统计案例 第2讲 统计图表、数据的数字特征、用样本估计总体.2 .doc
10.2统计图表、用样本估计总体最新考纲考情考向分析1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点2.理解样本数据标准差的意义和作用,会计算数据标准差3.能从样本数据中提取基本的数字特征(如平均数,标准差),并做出合理的解释4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.主要考查平均数,方差的计算以及茎叶图与频率分布直方图的简单应用;题型以选择题和填空题为主,出现解答题时经常与概率相结合,难度为中低档.1统计图表统计图表是表达和分析数据的重要工具,常用的统计图表有条形统计图、扇形统计图、折线统计图、茎叶图等2数据的数字特征(1)众数、中位数、平均数众数:在一组数据中,出现次数最多的数据叫作这组数据的众数中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数平均数:样本数据的算术平均数,即(x1x2xn)在频率分布直方图中,中位数左边和右边的直方图的面积应该相等(2)样本方差、标准差标准差s,其中xn是样本数据的第n项,n是样本容量,是平均数标准差是刻画数据的离散程度的特征数,样本方差是标准差的平方通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差3用样本估计总体(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的数字特征估计总体的数字特征(2)在频率分布直方图中,纵轴表示,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.(3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图(4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且可以随时记录,方便表示与比较知识拓展1频率分布直方图的特点(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示,频率组距.(2)在频率分布直方图中,各小长方形的面积总和等于1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观2平均数、方差的公式推广(1)若数据x1,x2,xn的平均数为,那么mx1a,mx2a,mx3a,mxna的平均数是ma.(2)数据x1,x2,xn的方差为s2.数据x1a,x2a,xna的方差也为s2;数据ax1,ax2,axn的方差为a2s2.题组一思考辨析1判断下列结论是否正确(请在括号中打“”或“”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势()(2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论()(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了()(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次()(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数()(6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的()题组二教材改编2一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为()A4 B8 C12 D16答案B解析设频数为n,则0.25,n328.3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是()A91.5和91.5 B91.5和92C91和91.5 D92和92答案A解析这组数据由小到大排列为87,89,90,91,92,93,94,96,中位数是91.5,平均数91.5.4如图是100位居民月均用水量的频率分布直方图,则月均用水量为2,2.5)范围内的居民有_人答案25解析0.50.510025.题组三易错自纠5若数据x1,x2,x3,xn的平均数5,方差s22,则数据3x11,3x21,3x31,3xn1的平均数和方差分别为()A5,2 B16,2C16,18 D16,9答案C解析x1,x2,x3,xn的平均数为5,5,135116,x1,x2,x3,xn的方差为2,3x11,3x21,3x31,3xn1的方差是32218.6为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分的中位数为m,众数为n,平均数为,则m,n,的大小关系为_(用“<”连接)答案n<m<解析由图可知,30名学生得分的中位数为第15个数和第16个数(分别为5,6)的平均数,即m5.5;又5出现次数最多,故n5;5.97.故n<m<.题型一茎叶图的应用1(2017山东)如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件)若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为()A3,5 B5,5 C3,7 D5,7答案A解析甲组数据的中位数为65,由甲,乙两组数据的中位数相等,得y5.又甲、乙两组数据的平均值相等,(5665627470x)(5961676578),x3.故选A.2(2018郑州质检)为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示如图所示据此可估计该校上学期400名教师中,使用多媒体进行教学次数在16,30)内的人数为()A100 B160 C200 D280答案B解析观察茎叶图,抽取的20名教师中使用多媒体教学次数在16,30)内的有8人,所以该区间段的频率为0.4,因此全校400名教师使用多媒体教学次数在16,30)内的有4000.4160(人)思维升华茎叶图的优缺点由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示其缺点是当样本容量较大时,作图较烦琐题型二频率分布直方图的绘制与应用命题点1用频率分布直方图求频率、频数典例 (2016山东)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30)根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A56 B60 C120 D140答案D解析设所求人数为N,则N2.5(0.160.080.04)200140,故选D.命题点2用频率分布直方图估计总体典例 (2016四川)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照0,0.5),0.5,1),4,4.5)分成9组,制成了如图所示的频率分布直方图(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数解(1)由频率分布直方图可知,月均用水量在0,0.5)的频率为0.080.50.04.同理,在0.5,1),1.5,2),2,2.5),3,3.5),3.5,4),4,4.5)等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1(0.040.080.210.250.060.040.02)0.5a0.5a,解得a0.30.(2)估计全市居民中月均用水量不低于3吨的人数为3.6万理由如下:由(1)知,100位居民中月均用水量不低于3吨的频率为0.060.040.020.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 0000.1236 000.(3)设中位数为x吨因为前5组的频率之和为0.040.080.150.210.250.73>0.5.而前4组的频率之和为0040.080.150.210.48<0.5.所以2x<2.5.由0.50(x2)0.50.48,解得x2.04.故可估计居民月均用水量的中位数为2.04吨思维升华 (1)准确理解频率分布直方图的数据特点,频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆(2)在很多题目中,频率分布直方图中各小长方形的面积之和为1,是解题的关键,常利用频率分布直方图估计总体分布跟踪训练(2017北京)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:20,30),30,40),80,90),并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等试估计总体中男生和女生人数的比例解(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.020.04)100.6,所以样本中分数小于70的频率为10.60.4,所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.010.020.040.02)100.9,分数在区间40,50)内的人数为1001000.955,所以总体中分数在区间40,50)内的人数估计为40020.(3)由题意可知,样本中分数不小于70的学生人数为(0.020.04)1010060,所以样本中分数不小于70的男生人数为6030,所以样本中的男生人数为30260,女生人数为1006040,所以样本中男生和女生人数的比例为604032,所以根据分层抽样原理,估计总体中男生和女生人数的比例为32.题型三用样本的数字特征估计总体的数字特征典例 (1)某市有210名初中生参加数学竞赛预赛,随机调阅了60名学生的答卷,成绩如表:成绩1分2分3分4分5分6分7分8分9分10分人数分布0006152112330求样本的平均成绩和标准差(精确到0.01分);若规定预赛成绩在7分或7分以上的学生参加复赛,试估计有多少名学生可以进入复赛解(465156217128393)6,s26(46)215(56)221(66)212(76)23(86)23(96)21.5.s1.22,故样本的平均成绩为6分,标准差约为1.22分在60名选手中,有123318(名)学生预赛成绩在7分或7分以上,210人中有21063(名)学生的预赛成绩在7分或7分以上,故大约有63名学生可以参加复赛(2)甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图:分别求出两人得分的平均数与方差;根据图和上面算得的结果,对两人的训练成绩作出评价解由图像可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分甲13;乙13,s(1013)2(1313)2(1213)2(1413)2(1613)24;s(1313)2(1413)2(1213)2(1213)2(1413)20.8.由s>s,可知乙的成绩较稳定从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高思维升华平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小跟踪训练 (2018福建漳平质检)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a,b),(a,),(a,b),(,b),(,),(a,b),(a,b),(a,),(,b),(a,),(,),(a,b),(a,),(,b),(a,b),其中a,分别表示甲组研发成功和失败;b,分别表示乙组研发成功和失败(1)若某组成功研发一种新产品,则给该组记1分,否则记0分试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率解(1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,其平均数甲;方差为s.乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数乙;方差为s.因为甲>乙,s<s,所以甲组的研发水平优于乙组(2)记恰有一组研发成功为事件E,在所抽得的15个结果中,恰有一组研发成功的结果是(a,),(,b),(a,),(,b),(a,),(a,),(,b),共7个因此事件E发生的频率为.用频率估计概率,即得所求概率为P(E).高考中频率分布直方图的应用考点分析频率分布直方图是高考考查的热点,考查频率很高,题型有选择题,填空题,也有解答题,难度为中低档用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致通过频率分布表和频率分布直方图可以对总体作出估计频率分布直方图的纵坐标为频率/组距,每一个小长方形的面积表示样本个体落在该区间内的频率;条形图的纵坐标为频数或频率,把直方图视为条形图是常见的错误典例 (12分)某城市100户居民的月平均用电量(单位:度),以160,180),180,200),200,220),220,240),240,260),260,280),280,300)分组的频率分布直方图如图(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为220,240),240,260),260,280),280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在220,240)的用户中应抽取多少户?规范解答解(1)由(0.0020.009 50.0110.012 5x0.0050.002 5)201,得x0.007 5,所以直方图中x的值是0.007 5.2分(2)月平均用电量的众数是230.4分因为(0.0020.009 50.011)200.45<0.5,所以月平均用电量的中位数在220,240)内,设中位数为a,由(0.0020.009 50.011)200.012 5(a220)0.5,得a224,所以月平均用电量的中位数是224.8分(3)月平均用电量为220,240)的用户有0.012 52010025(户),月平均用电量为240,260)的用户有0.007 52010015(户),月平均用电量为260,280)的用户有0.0052010010(户),月平均用电量为280,300)的用户有0.002 5201005(户),抽取比例为,所以月平均用电量在220,240)的用户中应抽取255(户)12分1(2017全国)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图根据该折线图,下列结论错误的是()A月接待游客量逐月增加B年接待游客量逐年增加C各年的月接待游客量高峰期大致在7,8月D各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案A解析对于选项A,由图易知,月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知,年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确故选A.2某市2017年各月的平均气温(C)数据的茎叶图如下:0891258200338312则这组数据的中位数是()A19 B20 C21.5 D23答案B解析从茎叶图知所有数据为8,9,12,15,18,20,20,23,23,28,31,32,中间两个数为20,20,故中位数为20,故选B.3(2016全国)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图图中A点表示十月的平均最高气温约为15,B点表示四月的平均最低气温约为5.下面叙述不正确的是()A各月的平均最低气温都在0以上B七月的平均温差比一月的平均温差大C三月和十一月的平均最高气温基本相同D平均最高气温高于20的月份有5个答案D解析由题意知,平均最高气温高于20的有七月,八月,故选D.4(2018青岛即墨模拟)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为12,13),13,14),14,15),15,16),16,17),将其按从左到右的顺序分别编号为第一组,第二组,第五组,如图是根据试验数据制成的频率分布直方图已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A6 B8 C12 D18答案C解析志愿者的总人数为50,所以第三组人数为500.3618,有疗效的人数为18612.5(2017长沙适应性考试)某校开展“爱我母校,爱我家乡”摄影比赛,七位评委为甲,乙两名选手的作品打出的分数的茎叶图如图所示(其中m为数字09中的一个),去掉一个最高分和一个最低分后,甲,乙两名选手得分的平均数分别为a1,a2,则一定有()Aa1>a2Ba2>a1Ca1a2Da1,a2的大小与m的值有关答案B解析由茎叶图知,a18084,a28085,故选B.6在“南安一中校园歌手大赛”比赛现场上,七位评委为某选手打出的分数的茎叶图如图,则去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为()A85和6.8 B85和1.6C86和6.8 D86和1.6答案A解析剩余的数据为83,83,84,85,90,平均分85,所以方差为s2(8385)2(8385)2(8485)2(8585)2(9085)26.8.7已知样本数据x1,x2,xn的平均数5,则样本数据2x11,2x21,2xn1的平均数为_答案11解析由x1,x2,xn的平均数5,得2x11,2x21,2xn1的平均数为2125111.8从甲、乙、丙三个厂家生产的同一种产品中抽取8件产品,对其使用寿命(单位:年)进行追踪调查的结果如下:甲:3,4,5,6,8,8,8,10;乙:4,6,6,6,8,9,12,13;丙:3,3,4,7,9,10,11,12.三个厂家广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数甲:_;乙:_;丙:_.答案众数平均数中位数解析甲的众数为8,乙的平均数为8,丙的中位数为8.9(2018郑州模拟)某电子商务公司对10 000名网络购物者2016年度的消费情况进行统计,发现消费金额(单位:万元)都在区间0.3,0.9)内,其频率分布直方图如图所示:(1)直方图中的a_;(2)在这些购物者中,消费金额在区间0.5,0.9内的购物者的人数为_答案(1)3(2)6 000解析由频率分布直方图及频率和等于1,可得0.20.10.80.11.50.120.12.50.1a0.11,解得a3.于是消费金额在区间0.5,0.9)内的频率为0.20.10.80.120.130.10.6,所以消费金额在区间0.5,0.9内的购物者的人数为0.610 0006 000.10某校女子篮球队7名运动员身高(单位:cm)分布的茎叶图如图,已知记录的平均身高为175 cm,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x,那么x的值为_答案2解析170(12x451011)175,(33x)5,即33x35,解得x2.11某学校随机抽取部分新生调查其上学所需时间(单位:分钟),并将所得数据绘制成频率分布直方图(如图),其中,上学所需时间的范围是0,100,样本数据分组为0,20),20,40),40,60),60,80),80,100),则(1)图中的x_;(2)若上学所需时间不少于1小时的学生可申请在学校住宿,则该校600名新生中估计有_名学生可以申请住宿答案(1)0.012 5(2)72解析(1)由频率分布直方图知20x120(0.0250.006 50.0030.003),解得x0.012 5.(2)上学时间不少于1小时的学生的频率为0.12,因此估计有0.1260072(人)可以申请住宿12(2016北京)某市民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替,当w3时,估计该市居民该月的人均水费解(1)如题图所示,用水量在0.5,3)的频率的和为(0.20.30.40.50.3)0.50.85.用水量小于等于3立方米的频率为0.85,又w为整数,为使80%以上的居民在该月的用水价格为4元/立方米,w至少定为3.(2)当w3时,该市居民该月的人均水费估计为(0.110.151.50.220.252.50.153)40.15340.05(3.53)0.05(43)0.05(4.53)107.21.81.510.5(元)即当w3时该市居民该月的人均水费估计为10.5元13(2017全国)为评估一种农作物的种植效果,选了n块地作试验田这n块地的亩产量(单位:kg)分别为x1,x2,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()Ax1,x2,xn的平均数Bx1,x2,xn的标准差Cx1,x2,xn的最大值Dx1,x2,xn的中位数答案B解析因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差故选B.14某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表A地区用户满意度评分的频率分布直方图图B地区用户满意度评分的频数分布表满意度评分分组50,60)60,70)70,80)80,90)90,100)频数2814106(1)在图中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);B地区用户满意度评分的频率分布直方图图(2)根据用户满意度评分,将用户的满意度分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意估计哪个地区用户的满意度等级为不满意的概率大?说明理由解(1)作出频率分布直方图如图:通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散(2)A地区用户的满意度等级为不满意的概率大记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”由直方图得P(CA)的估计值为(0.010.020.03)100.6,P(CB)的估计值为(0.0050.02)100.25.所以A地区用户的满意度等级为不满意的概率大15为了普及环保知识,增强环保意识,某大学有300名员工参加环保知识测试,按年龄分组:第1组25,30),第2组30,35),第3组35,40),第4组40,45),第5组45,50),得到的频率分布直方图如图所示现在要从第1,3,4组中用分层抽样的方法抽取16人,则在第4组中抽取的人数为_答案6解析根据频率分布直方图得,第1,3,4组的频率之比为143,所以用分层抽样的方法抽取16人时,在第4组中应抽取的人数为166.16(2018洛阳质检)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得到如下频数分布表:质量指标值分组75,85)85,95)95,105)105,115)115,125)频数62638228(1)作出这些数据的频率分布直方图;(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解(1)样本数据的分布直方图如图所示:(2)质量指标值的样本平均数为800.06900.261000.381100.221200.08100.质量指标值的样本方差为s2(20)20.06(10)20.2600.381020.222020.08104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.380.220.080.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定