人教版高中数学 2.2.1用样本的频率分布估计总体分布课件 新人教必修3.ppt
问题提出问题提出1.1.随机抽样有哪几种基本的抽样方法?随机抽样有哪几种基本的抽样方法?2.2.随机抽样是收集数据的方法,如何通随机抽样是收集数据的方法,如何通过样本数据所包含的信息,估计总体的过样本数据所包含的信息,估计总体的基本特征,即用样本估计总体,是我们基本特征,即用样本估计总体,是我们需要进一步学习的内容需要进一步学习的内容.简单随机抽样、系统抽样、分层抽样简单随机抽样、系统抽样、分层抽样.2021/8/9 星期一12.2.1 用样本的频率分布估计总体分布2021/8/9 星期一2频数:在总体(或样本)中,某个个体出现的次数叫做这个个体的频数。频率:某个个体的频数与总体(或样本)中所含个体的数量的比叫做这个个体的频率。性质:在总体(或样本)中,各个个体的频率之和等于1。2021/8/9 星期一3【问题问题】我国是世界上严重缺水的国家我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居居民生活用水定额管理,即确定一个居民月用水量标准民月用水量标准a a,用水量不超过,用水量不超过a a的部的部分按平价收费,超出分按平价收费,超出a a的部分按议价收费的部分按议价收费.通过抽样调查,获得通过抽样调查,获得100100位居民位居民20072007年的年的月均用水量如下表(单位:月均用水量如下表(单位:t t):):2021/8/9 星期一43.1 3.1 2.5 2.5 2.0 2.0 2.0 2.0 1.5 1.5 1.0 1.0 1.6 1.6 1.8 1.8 1.9 1.9 1.6 1.6 3.4 3.4 2.6 2.6 2.2 2.2 2.2 2.2 1.5 1.5 1.2 1.2 0.2 0.2 0.4 0.4 0.3 0.3 0.4 0.4 3.2 3.2 2.7 2.7 2.3 2.3 2.1 2.1 1.6 1.6 1.2 1.2 3.7 3.7 1.5 1.5 0.5 0.5 3.8 3.8 3.3 3.3 2.8 2.8 2.3 2.3 2.2 2.2 1.7 1.7 1.3 1.3 3.6 3.6 1.7 1.7 0.6 0.6 4.1 4.1 3.2 3.2 2.9 2.9 2.4 2.4 2.3 2.3 1.8 1.8 1.4 1.4 3.5 3.5 1.9 1.9 0.8 0.8 4.3 4.3 3.0 3.0 2.9 2.9 2.4 2.4 2.4 2.4 1.9 1.9 1.3 1.3 1.4 1.4 1.8 1.8 0.7 0.7 2.0 2.0 2.5 2.5 2.8 2.8 2.3 2.3 2.3 2.3 1.8 1.8 1.3 1.3 1.3 1.3 1.6 1.6 0.9 0.9 2.3 2.3 2.6 2.6 2.7 2.7 2.4 2.4 2.1 2.1 1.7 1.7 1.4 1.4 1.2 1.2 1.5 1.5 0.5 0.5 2.4 2.4 2.5 2.5 2.6 2.6 2.3 2.3 2.1 2.1 1.6 1.6 1.0 1.0 1.0 1.0 1.7 1.7 0.8 0.8 2.4 2.4 2.8 2.8 2.5 2.5 2.2 2.2 2.0 2.0 1.5 1.5 1.0 1.0 1.2 1.2 1.8 1.8 0.6 0.6 2.2 2.2 通过抽样我们得到了100户居民的某年的月平均用水量2021/8/9 星期一5为了确定一个比较合理的标准a,必须先了解全市居民的日常用水量的分布情况。通过抽样调查了解居民的用水情况。课本66页表2-12021/8/9 星期一6思考思考1 1:上述上述100100个数据中的最大值和最个数据中的最大值和最小值分别是什么?由此说明样本数据的小值分别是什么?由此说明样本数据的变化范围是什么?变化范围是什么?思考思考2 2:样本数据中的最大值和最小值样本数据中的最大值和最小值的差称为的差称为极差极差.如果将上述如果将上述100100个数据个数据按组距为按组距为0.50.5进行分组,那么这些数据进行分组,那么这些数据共分为多少组?共分为多少组?0.20.24.34.3(4.3-0.24.3-0.2)0.5=8.20.5=8.22021/8/9 星期一7思考思考3 3:以组距为以组距为0.50.5进行分组,上述进行分组,上述100100个数据共分为个数据共分为9 9组,各组数据的取值范围组,各组数据的取值范围可以如何设定?可以如何设定?思考思考4 4:如何统计上述如何统计上述100100个数据在各组个数据在各组中的频数?如何计算样本数据在各组中中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出的频率?你能将这些数据用表格反映出来吗?来吗?00,0.50.5),),0.50.5,1 1),),11,1.51.5),),44,4.5.4.5.2021/8/9 星期一8分组分组频数累计(划记)频数累计(划记)频数频数0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3)3,3.5)3.5,4)4,4.5合计频数累计(划记)频数累计(划记)正正正正正正正正丅正正正正正正正正丅频数频数48152225146421004.4.画画频数频数分布表分布表2021/8/9 星期一9思考思考5 5:上表称为样本数据的上表称为样本数据的频率分布表频率分布表,由此可以推测该市全体居民月均用水量由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了用水量标准提供参考依据,这里体现了一种什么统计思想?一种什么统计思想?用样本的频率分布估计总体分布用样本的频率分布估计总体分布.2021/8/9 星期一10思考思考6 6:如果市政府希望如果市政府希望85%85%左右的居民每月左右的居民每月的用水量不超过标准,根据上述频率分布表,的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即你对制定居民月用水量标准(即a a的取值)的取值)有何建议?有何建议?88%88%的居民月用水量在的居民月用水量在3t 3t以下,可建议取以下,可建议取a=3.a=3.思考思考7 7:在实际中,取在实际中,取a=3ta=3t一定能保证一定能保证85%85%以以上的居民用水不超标吗?哪些环节可能会导上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?致结论出现偏差?2021/8/9 星期一11所得到的结论的统计意义3t这个标准一定能保证85%以上的居民用水不超标吗?不一定!原因1、样本只是总体的代表,并且具有随机性,不同的样本所得到的频率分布表和直方图是不同的。原因2、明年的用水情况与今年不可能完全一样,但应该大致一样。2021/8/9 星期一12所得到的结论的统计意义一般的,统计得到的结果,是对于总体较为合理的估计或预测,但其误差应该控制在合理的范围之内。也正因为这样,统计结果的好坏,往往需要进一步的评价,或通过理论方法的检验,或通过实际应用的检验。2021/8/9 星期一13思考思考8 8:对样本数据进行分组,其组数对样本数据进行分组,其组数是由哪些因素确定的?是由哪些因素确定的?对样本数据进行分组,组距的确定没有固定的对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的标准,组数太多或太少,都会影响我们了解数据的分布情况分布情况.数据分组的组数与样本容量有关,一般数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多样本容量越大,所分组数越多.按统计原理,若样按统计原理,若样本的容量为本的容量为n n,分组数一般在(,分组数一般在(1+3.3lg1+3.3lgn n)附近选)附近选取取.当样本容量不超过当样本容量不超过100100时,按照数据的多少,常时,按照数据的多少,常分成分成5 51212组组.2021/8/9 星期一14思考思考9 9:一般地,列出一组样本数据的频率分一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?布表可以分哪几个步骤进行?第一步,求极差第一步,求极差.(极差(极差=样本数据中最大值与最小值的差)样本数据中最大值与最小值的差)第二步,决定组距与组数第二步,决定组距与组数.(设(设k=k=极差极差组距,若组距,若k k为整数,则组为整数,则组数数=k=k,否则,组数,否则,组数=k+1=k+1)第三步,确定分点,将数据分组第三步,确定分点,将数据分组.第四步,统计频数,计算频率,制成表格第四步,统计频数,计算频率,制成表格.(频数(频数=样本数据落在各小组内的个数,样本数据落在各小组内的个数,频率频率=频数频数样本容量)样本容量)2021/8/9 星期一15月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O思考思考1 1:为了直观反映样本数据在各组中为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:的有关信息用下面的图形表示:2021/8/9 星期一16上图称为上图称为频率分布直方图频率分布直方图,其中横轴表,其中横轴表示月均用水量,纵轴表示频率示月均用水量,纵轴表示频率/组距组距.频率分布直方图中各小长方形的频率分布直方图中各小长方形的宽度宽度和和高度在数量上有何特点?高度在数量上有何特点?宽度:宽度:组距组距高度:高度:频率频率组距组距月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O2021/8/9 星期一17思考思考2 2:频率分布直方图中各小长方形的频率分布直方图中各小长方形的面积表示什么?各小长方形的面积之和面积表示什么?各小长方形的面积之和为多少?为多少?各小长方形的面积各小长方形的面积=频率频率各小长方形的面积之和各小长方形的面积之和=1 1月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O2021/8/9 星期一18思考思考3 3:频率分布直方图非常直观地表明了样本数频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出太清楚的数据模式,但原始数据不能在图中表示出来来.你能根据上述频率分布直方图指出居民月均用你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?水量的一些数据特点吗?月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O2021/8/9 星期一19(1 1)居民月均用水量的分布是)居民月均用水量的分布是“山峰山峰”状的,而状的,而且是且是“单峰单峰”的;的;(2 2)大部分居民的月均用水量集中在一个中间值)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;附近,只有少数居民的月均用水量很多或很少;(3 3)居民月均用水量的分布有一定的对称性等)居民月均用水量的分布有一定的对称性等.月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O2021/8/9 星期一20思考思考5 5:对一组给定的样本数据,频率分布直方图对一组给定的样本数据,频率分布直方图的外观形状与哪些因素有关?在居民月均用水量样的外观形状与哪些因素有关?在居民月均用水量样本中,你能以本中,你能以1 1为组距画频率分布直方图吗?为组距画频率分布直方图吗?与分组数(或组距)及坐标系的单位长与分组数(或组距)及坐标系的单位长度有关度有关.月均用水量月均用水量/t频率频率组距组距0.40.40.30.30.20.20.10.11 2 3 4 5 1 2 3 4 5 O2021/8/9 星期一21 总结画频率分布直方图频率分布直方图的操作步骤1.求求极差极差,即数据中最大值与最小值的差,即数据中最大值与最小值的差2.决定决定组距与组数组距与组数 组数组数=极差极差/组距组距3.将将数据分组数据分组,通常对组内数值所在区间,取通常对组内数值所在区间,取左闭右开左闭右开区间区间,最后一组取闭区间最后一组取闭区间4.登记登记频数频数,计算计算频率和频率组距频率和频率组距,列出列出频率频率分布表分布表5.画出画出频率分布直方图频率分布直方图(纵轴表示(纵轴表示频率组频率组距距)2021/8/9 星期一22频率分布表和频率分布直方图在带给我们许多新的信息的同时,也丢失了一些信息,如原始数据不能在分布表和直方图中很好地体现出来。频率分布直方图的优缺点是什么?频率分布直方图的优缺点是什么?2021/8/9 星期一23全优81页限时规范训练2021/8/9 星期一241为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为24171593,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?全优39页变式训练2021/8/9 星期一25【解析】(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:2021/8/9 星期一264.某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为20,40),40,60),60,80),80,100)若低于60分的人数是15人,则该班的学生人数是()A45B50C55D60解析:成绩低于60分有第一、二组数据,在频率分布直方图中,对应矩形的高分别为0.005,0.01,每组数据的组距为20,则成绩低于60分的频率P=(0.005+0.010)20=0.3,又低于60分的人数是15人,全优40页基础夯实2021/8/9 星期一276.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示:(1)直方图中x的值为_;(2)在这些用户中,用电量落在区间100,250)内的户数为_解析:(1)依题意及频率分布直方图知,0.002450+0.003650+0.006050+x50+0.002450+0.001250=1,解得x=0.0044全优41页能力提升2021/8/9 星期一286.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示:(1)直方图中x的值为_;(2)在这些用户中,用电量落在区间100,250)内的户数为_解得x=0.0044(2)样本数据落在100,150)内的频率为0.003650=0.18,样本数据落在150,200)内的频率为0.00650=0.3样本数据落在200,250)内的频率为0.004450=0.22,故在这些用户中,用电量落在区间100,250)内的户数为(0.18+0.30+0.22)100=702021/8/9 星期一298.如图,从参加环保知识竞赛的学生中抽出60名,将其成绩(均为整数)整理后画出的频率分布直方图如下:观察图形,回答下列问题:(1)求:79.5-89.5这一组数据的频数、频率;(2)求:本次竞赛的及格率(60分及以上为及格)。解:(1)频率为:0.02510=0.25,频数:600.25=15;(2)0.01510+0.0310+0.02510+0.00510=0.75。全优41页能力提升2021/8/9 星期一30思考思考1 1:在城市居民月均用水量样本数据在城市居民月均用水量样本数据的频率分布直方图中,各组数据的平均的频率分布直方图中,各组数据的平均值大致是哪些数?值大致是哪些数?月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O2021/8/9 星期一31思考思考2 2:在频率分布直方图中,依次连接各小长方在频率分布直方图中,依次连接各小长方形上端的中点,就得到一条折线,这条折线称为形上端的中点,就得到一条折线,这条折线称为频频率分布折线图率分布折线图.你认为频率分布折线图能大致反映你认为频率分布折线图能大致反映样本数据的频率分布吗?样本数据的频率分布吗?月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O2021/8/9 星期一32思考思考3 3:当总体中的个体数很多时(如抽样调查全当总体中的个体数很多时(如抽样调查全国城市居民月均用水量),随着样本容量的增加,国城市居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?应的频率分布折线图会发生什么变化吗?月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O2021/8/9 星期一33频率频率组距组距产品产品尺寸尺寸(mm)ab 当样本容量无限增大,分组的组距无限缩小,那么当样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近一条光滑曲线频率分布直方图就会无限接近一条光滑曲线总体密总体密度曲线度曲线区间区间 在总体内取值的概率在总体内取值的概率总体密度曲线总体密度曲线总体密度曲线总体密度曲线2021/8/9 星期一34 用用样样本本分分布布直直方方图图去去估估计计相相应应的的总总体体分分布布时时,一一般般样样本本容容量量越越大大,频频率率分分布布直直方方图图就就会会无无限限接接近近总总体体密密度度曲曲线线,就就越越精精确确地地反反映映了了总总体体的的分分布布规规律律,即即越越精精确确地地反反映映了了总总体在各个范围内取值百分比。体在各个范围内取值百分比。总总体体密密度度曲曲线线反反映映了了总总体体在在各各个个范范围围内内取取值值的的百百分分比比,精精确确地地反反映映了了总总体体的的分分布布规规律律。是是研研究究总总体体分分布布的的工具工具.总体密度曲线总体密度曲线2021/8/9 星期一35思考:对于一个总体,如果存在总体密度曲线,这思考:对于一个总体,如果存在总体密度曲线,这条曲线是否惟一?条曲线是否惟一?频率分布表、频率分布直方图和折线图的主要频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况以用茎叶图来表示样本数据的分布情况.由由于于样样本本是是随随机机的的,不不同同的的样样本本得得到到的的不不同同频频率率分分布布折折线线图图;即即使使对对与与同同一一样样本本,不不同同的的分分组组情情况况得得到到的的也也不不同同频频率率分分布布折折线线图图。频频率率分分布布折折线线图图是是随随着着样样本本容容量量和和分分组组情情况况变变化化而变化的。而变化的。2021/8/9 星期一36某赛季甲、乙两名篮球运动员每场比赛得分的原某赛季甲、乙两名篮球运动员每场比赛得分的原始记录为:始记录为:甲运动员的得分:甲运动员的得分:13 51 23 8 26 38 16 13 51 23 8 26 38 16 33 14 28 3933 14 28 39乙运动员的得分:乙运动员的得分:49 24 12 31 50 31 44 49 24 12 31 50 31 44 36 15 37 25 36 3936 15 37 25 36 39我们可以画出我们可以画出茎叶图茎叶图,也就是中间的数表示十,也就是中间的数表示十位数,旁边的数表示两个人得分的个位数,就位数,旁边的数表示两个人得分的个位数,就象一棵树的茎与叶子一样,能更直观地看出这象一棵树的茎与叶子一样,能更直观地看出这两个人的得分情况。两个人的得分情况。茎叶图茎叶图2021/8/9 星期一37甲甲乙乙0123452 55 41 6 1 6 7 94 9 084 6 336 843 8 9 1(1)甲运动员得分:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39(2)乙运动员得分乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39茎叶图茎叶图 叶就是从茎的旁边生长出来的数,表示得分的个位数。茎是指中间的一列数,表示得分的十位数2021/8/9 星期一38 茎叶图不仅能够保留原始数据,而且能够茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况。展示数据的分布情况。从运动员的成绩的分布来看,乙运动员的从运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定。的发挥更稳定。在样本数据较少时,用茎叶图表示数据的在样本数据较少时,用茎叶图表示数据的效果较好。它不但可以保留所有信息,而且可效果较好。它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来以随时纪录,这对数据的纪录和表示都能带来方便。但当样本数据较多时,茎叶图就显得不方便。但当样本数据较多时,茎叶图就显得不太方便。因为每一个数据都要在茎叶图中占据太方便。因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长。一个空间,如果数据很多,枝叶就会很长。2021/8/9 星期一39画茎叶图的步骤:画茎叶图的步骤:1.将将每每个个数数据据分分为为茎茎(高高位位)和和叶叶(低低位位)两两部部分分,在在此此例例中中,茎茎为为十十位位上上的的数数字字,叶叶为为个个位位上上的的数数字。字。2.将最小茎和最大茎之间的数按大小次序排成一列。将最小茎和最大茎之间的数按大小次序排成一列。3.将将各各个个数数据据的的叶叶按按读读数数次次序序(或或按按大大小小次次序序)写写在其茎的左(右)侧。在其茎的左(右)侧。2021/8/9 星期一40思考:思考:对于样本数据:对于样本数据:3.13.1,2.5,2.02.5,2.0,0.80.8,1.51.5,1.01.0,4.34.3,2.72.7,3.13.1,3.53.5,用茎叶图如何表示?,用茎叶图如何表示?0123480 50 5 71 1 53茎茎叶叶2021/8/9 星期一41【例2】某赛季甲、乙两名篮球运动员每场得分情况如下:甲的得分:12,15,24,25,31,31,36,37,36,39,44,49,50.乙的得分:8,13,14,16,23,26,28,33,38,39,51,9,17.(1)用茎叶图表示上面的数据(2)根据你所画的茎叶图,分析甲、乙运动员的得分情况【解析】(1)如图所示的茎叶图中,中间的数字表示两位运动员得分的十位数,两边的数字分别表示两个人各场比赛得分的个位数全优39页典例剖析2021/8/9 星期一42【例2】某赛季甲、乙两名篮球运动员每场得分情况如下:甲的得分:12,15,24,25,31,31,36,37,36,39,44,49,50.乙的得分:8,13,14,16,23,26,28,33,38,39,51,9,17.(1)用茎叶图表示上面的数据(2)根据你所画的茎叶图,分析甲、乙运动员的得分情况(2)从茎叶图上可以看出:甲运动员的得分比较集中在茎为3的一行,且大致关于这一行对称,中位数是36;乙运动员的得分主要分散在四行,中位数是23.所以甲运动员的发挥比较稳定,总体得分情况比乙运动员好2021/8/9 星期一43