人教版高中数学 2.2.1用样本的频率分布估计总体分布(1)课件 新人教A必修3.ppt
2.2 用样本估计总体2.2.1 用样本的频率分布估计总体分布2021/8/9 星期一11.1.通过实例体会分布的意义和作用通过实例体会分布的意义和作用.2.2.在表示样本数据的过程中,学会列频率分布表,画频率在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图分布直方图、频率折线图和茎叶图.(重点重点)3.3.通过实例体会频率分布直方图、频率折线图、茎叶图的通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计确地做出总体估计.(难点难点)2021/8/9 星期一2我国是世界上严重缺水的国家之一,城市缺水问题较为突出我国是世界上严重缺水的国家之一,城市缺水问题较为突出.20002000年全国主要城市中缺水情况排在前年全国主要城市中缺水情况排在前1010位的城市位的城市2021/8/9 星期一3 某市政府为了节约生活用水,计划在本市试行居某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准民生活用水定额管理,即确定一个居民月用水量标准a a,用水量不超过用水量不超过a a的部分按平价收费,超过的部分按平价收费,超过a a的部分按的部分按议价收费议价收费.(1)(1)如果希望大部分居民的日常生活不受影响,那如果希望大部分居民的日常生活不受影响,那 么标准么标准a a定为多少比较合理呢?定为多少比较合理呢?(2)为了较合理地确定这个标准,你认为需要做为了较合理地确定这个标准,你认为需要做 哪些工作?哪些工作?2021/8/9 星期一4频率分布表和频率分布直方图频率分布表和频率分布直方图(1 1)求极差(一组数据中的最大值与最小值的差)求极差(一组数据中的最大值与最小值的差).例如,例如,4.3-0.2=4.14.3-0.2=4.1,说明样本数据的变化范围是,说明样本数据的变化范围是4.1(t).4.1(t).(2 2)决定组距与组数)决定组距与组数.设设k=k=极差极差组距,若组距,若k k为整数,则组数为整数,则组数=k=k,否则,组数,否则,组数=k+1.=k+1.2021/8/9 星期一5为方便起见,组距的选择应力求为方便起见,组距的选择应力求“取整取整”.在本问题中,如在本问题中,如果取组距为果取组距为0.50.5(t)t),那么,那么组数组数=极差极差组距组距=4.1 0.5=8.2=4.1 0.5=8.2,因此可以将数据分为因此可以将数据分为9 9组,这个组数是比较合适的,于是取组,这个组数是比较合适的,于是取组距为组距为0.50.5,组数为,组数为9.9.2021/8/9 星期一6(4 4)列频率分布表)列频率分布表.计算各小组的频率,作出下面的计算各小组的频率,作出下面的频率分布表频率分布表.(频数(频数=样样本数据落在各小组内的个数本数据落在各小组内的个数,频率频率=频数频数样本容量)样本容量)(3 3)将数据分组)将数据分组.以组距为以组距为0.50.5将数据分组时,可以分成以下将数据分组时,可以分成以下9 9组:组:0,0.5),0.5,1),0,0.5),0.5,1),4,4.5.,4,4.5.2021/8/9 星期一7列频率分布表列频率分布表:分组分组频数累计频数累计频数频数频率频率0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3)3,3.5)3.5,4)4,4.5合计合计48152225146420.040.080.150.220.250.140.060.041001.00频率频率=样本容量样本容量频数频数注意频数的合计应是样本容量,频率合计应是注意频数的合计应是样本容量,频率合计应是1.1.0.02频率频率/组距组距0.080.080.160.160.300.300.440.440.500.500.280.280.120.120.080.080.040.04频率分布表一般分频率分布表一般分“分组分组”,“频数频数累计累计”(可省),(可省),“频数频数”,“频率频率”,“,“频率频率/组距组距”五列,最后一五列,最后一行是合计行是合计2021/8/9 星期一8(5)(5)画频率分布直方图画频率分布直方图.根据频率分布表可以得到如图所示的频率分布直方图根据频率分布表可以得到如图所示的频率分布直方图:月均用月均用水量水量/t0.100.200.300.400.50O频率频率/组距组距0.511.52.53.54.52342021/8/9 星期一9提升总结:频率分布直方图的画法提升总结:频率分布直方图的画法第一步:第一步:画平面直角坐标系画平面直角坐标系.第二步:第二步:在横轴上均匀标出各组分点,在纵轴上标出单在横轴上均匀标出各组分点,在纵轴上标出单位长度位长度.第三步:第三步:以组距为宽,各组的频率与组距的商为高,分以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形别画出各组对应的小长方形.频率分布是指一个样本数据在各个小范围内所占比例的大频率分布是指一个样本数据在各个小范围内所占比例的大小小.一般用频率分布直方图来反映样本的频率分布一般用频率分布直方图来反映样本的频率分布.2021/8/9 星期一10月均用水量月均用水量/t频率频率/组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O各组的频率在图中哪里显示出来?各组的频率在图中哪里显示出来?各小长方形的面积各小长方形的面积=频率频率.各小长方体的面积之和是否为定值?各小长方体的面积之和是否为定值?各小长方形的面积之和为各小长方形的面积之和为1.1.宽度:组距宽度:组距高度:高度:频率频率组距组距2021/8/9 星期一11月均用水量月均用水量/t0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O 你能根据上述频率分布直方图指出居民月均用水量的你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?一些数据特点吗?频率频率/组距组距2021/8/9 星期一12(1 1)居民月均用水量的分布是呈)居民月均用水量的分布是呈“山峰山峰”状的,而且是状的,而且是“单峰单峰”的;的;(2 2)大部分居民的月均用水量集中在一个中间值附近,)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;只有少数居民的月均用水量很多或很少;(3 3)居民月均用水量的分布有一定的对称性)居民月均用水量的分布有一定的对称性.频率分布直方图非常直观地表明了样本数据的分布情况,频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来原始数据不能在图中表示出来.2021/8/9 星期一13 如果市政府希望如果市政府希望85%85%左右的居民每月的用水量不超过左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准标准,根据上述频率分布表,你对制定居民月用水量标准(即(即a a的取值)有何建议?的取值)有何建议?88%88%的居民在的居民在3t3t以下,标准可定为以下,标准可定为3t.3t.在实际中,取在实际中,取a=3ta=3t一定能保证一定能保证85%85%以上的居民用水不超标吗以上的居民用水不超标吗?在实践中,对统计结论是需要进行评价的在实践中,对统计结论是需要进行评价的.2021/8/9 星期一14频率分布直方图如下频率分布直方图如下:月均用水量月均用水量/t/t0.100.200.300.400.500.511.5 22.533.544.5连接频率分布直方图中各连接频率分布直方图中各小长方形上端的中点小长方形上端的中点,得到得到频率分布折线图频率分布折线图.o频率频率/组距组距2021/8/9 星期一15利用样本频率分布对总体分布进行相应估计利用样本频率分布对总体分布进行相应估计:(1 1)上例的样本容量为)上例的样本容量为100100,如果增至,如果增至1 0001 000,其频率,其频率分布直方图的情况会有什么变化?假如增至分布直方图的情况会有什么变化?假如增至10 00010 000呢?呢?(2 2)样本容量越大,这种估计越精确)样本容量越大,这种估计越精确.(3 3)当样本容量无限增大,组距无限缩小,那么频率)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线分布直方图就会无限接近于一条光滑曲线总体密度总体密度曲线曲线.2021/8/9 星期一16总体密度曲线总体密度曲线月均用月均用水量水量/tab(图中阴影部分的面积,表示总体在区间(图中阴影部分的面积,表示总体在区间(a,b)a,b)内内取值的百分比)取值的百分比).o频率频率/组距组距2021/8/9 星期一17总体密度曲线总体密度曲线总体密度曲线反映了总体在各个范围内取值的百分比,总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律,是研究总体分布的工具精确地反映了总体的分布规律,是研究总体分布的工具.用样本频率分布直方图去估计相应的总体分布时,一用样本频率分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值的百分比映了总体在各个范围内取值的百分比.2021/8/9 星期一18茎叶图茎叶图某赛季甲、乙两名篮球运动员每场比赛得分的原始记录某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:如下:甲运动员得分:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.49,24,12,31,50,31,44,36,15,37,25,36,39.2021/8/9 星期一19茎叶图茎叶图甲甲乙乙0123452 55 41 6 1 6 7 94 9 084 6 336 83 8 9 1叶就是从茎的叶就是从茎的旁边生长出来旁边生长出来的数,表示得的数,表示得分的个位数字分的个位数字茎是指中间茎是指中间的一列数,的一列数,表示得分的表示得分的十位数字十位数字2021/8/9 星期一20 从运动员的成绩的分布来看,乙运动员的成绩更好;从运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定峰值附近,说明乙运动员的发挥更稳定.2021/8/9 星期一21茎叶图的优、缺点:茎叶图的优、缺点:在样本数据较少时,用茎叶图表示数据的效果较好在样本数据较少时,用茎叶图表示数据的效果较好.它不但它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来方便示都能带来方便.但当样本数据较多时,茎叶图就显得不太方便但当样本数据较多时,茎叶图就显得不太方便.因为每一个因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长很长.2021/8/9 星期一221.1.将样本容量为将样本容量为100100的数据按从大到小的顺序分为的数据按从大到小的顺序分为8 8组如下表:组如下表:9 91212131315151414141413131010频数频数8 87 76 65 54 43 32 21 1组号组号则第三组的频率为(则第三组的频率为()(A)0.14 (B)1/14 (C)0.03 (D)3/14(A)0.14 (B)1/14 (C)0.03 (D)3/142021/8/9 星期一232.2.将一个容量为将一个容量为5050的样本数据分组后的样本数据分组后,组距和频数如下组距和频数如下:12.512.5,15.515.5),;),;15.515.5,18.518.5),),8 8;18.518.5,21.521.5),),9 9;21.521.5,24.524.5),),1111;24.524.5,27.527.5),),1 1;27.527.5,30.530.5),),6 6;30.530.5,33.533.5,3 3则估计小于或等于则估计小于或等于3030的数据大约占总体的(的数据大约占总体的()(A)(A)(B)(B)(C)(C)(D)(D)2021/8/9 星期一243.3.某地区为了了解知识分子的年龄结构,随机抽样某地区为了了解知识分子的年龄结构,随机抽样5050名,其名,其年龄分别如下:年龄分别如下:4242,3838,2929,3636,4141,4343,5454,4343,3434,4444,4040,5959,3939,4242,4444,5050,3737,4444,4545,2929,4848,4545,5353,4848,3737,2828,4646,5050,3737,4444,4242,3939,5151,5252,6262,4747,5959,4646,4545,6767,5353,4949,6565,4747,5454,6363,5757,4343,4646,58.58.(1)(1)列出样本频率分布表;列出样本频率分布表;(2)(2)画出频率分布直方图;画出频率分布直方图;(3)(3)估计年龄在估计年龄在3232岁岁5252岁的知识分子所占的比例约是多少岁的知识分子所占的比例约是多少.2021/8/9 星期一25【解析解析】(1)(1)极差为极差为67-28=3967-28=39,取组距为,取组距为5 5,分为,分为8 8组组.分分 组组 频数频数 频率频率 2727,3232)3 0.063 0.06 3232,3737)3 0.063 0.06 3737,4242)9 0.189 0.18 4242,4747)16 0.3216 0.32 4747,5252)7 0.147 0.14 5252,5757)5 0.105 0.10 5757,6262)4 0.084 0.08 6262,67 3 0.0667 3 0.06 合合 计计 50 1.0050 1.00样本频率分布表:样本频率分布表:2021/8/9 星期一26(2 2)样本频率分布直方图:)样本频率分布直方图:年龄年龄0.060.060.050.050.040.040.030.030.020.020.010.0127 32 37 42 47 52 57 62 6727 32 37 42 47 52 57 62 67O O(3 3)因为)因为0.06+0.18+0.32+0.14=0.70.06+0.18+0.32+0.14=0.7,故年龄在,故年龄在3232岁岁5252岁的知识分子约占岁的知识分子约占70%.70%.频率频率/组距组距2021/8/9 星期一271.1.总体分布指的是总体取值的频率分布规律,由于总总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布估计总体的分布.2.2.总体的分布分两种情况:当总体中的个体取值很少时,总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图布,方法是用频率分布表或频率分布直方图.2021/8/9 星期一28即使一次次的跌倒,我们依然成长.跌倒只是我们成长道路上的一个小小的插曲.2021/8/9 星期一29