9.2.1 总体取值规律的估计—山东省滕州市第一中学人教版高中数学新教材必修第二册课件(共33张PPT).ppt
9.2 9.2 用样本估计总体用样本估计总体9.2.1总体取值规律的估计本资料分享自高中数学同步资源大全QQ群483122854 专注收集同步资源期待你的加入与分享联系QQ309000116加入百度网盘群2500G一线老师必备资料一键转存,自动更新,一劳永逸讲课人:邢启强2一个统计小故事的启示一个统计小故事的启示新课引入新课引入讲课人:邢启强3一个统计小故事的启示一个统计小故事的启示这位统计学家在分析问题的时候,能够做到不被表面现象所迷惑,在获取数据之后,择合适的工具对数据进行整理和直观描述,在此基础上,通过数据分析,找出数据蕴含的信息,进而得到了正确的统计分析结果。新课引入新课引入收集数据是为了寻找数据中蕴含的信息,因为实际问题中数据多而且杂乱,往往无法直接从原始数据中发现规律所以需要根据问题的背景特点,选择合适的统计图表对数据进行整理和直观描述,在此基础上,通过数据分析,找出数据中蕴含的信息,就可以用这些信息来解决实际问题了下面我们讨论对随机抽样获取的数据的处理方法.讲课人:邢启强41.1.随机抽样有哪几种基本的抽样方法?随机抽样有哪几种基本的抽样方法?简单随机抽样、分层抽样简单随机抽样、分层抽样.温故知新温故知新 前面研究学习了两种抽样方法来收集数据,还知道了一些常见的获取数据的途径,数据收集后,必须从中寻找包含的信息,以使我们能通过样本的规律估计总体的规律,解决相应的实际问题。但由于数据多而杂,所以需要通过一定的方法去处理数据。可以通过表、图、计算方法来分析数据,进而对总体做出相应的估计。讲课人:邢启强5学习新知学习新知问题1我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望确定一个比较合理的标准,以使大部分居民如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,用户的水费支出不受影响,你认为需要做哪些工作?你认为需要做哪些工作?讲课人:邢启强6假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:1):学习新知学习新知9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.02.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.52.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.92.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.4 22.43.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.022.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.95.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.75.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.35.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.87.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6从这组数据你能发现什么信息呢?如果将这组数据从小到大排序,容易发现,这组数据的最小值是1.3t,最大值是28.0t,其他在1.3t至28.0t之间.讲课人:邢启强7学习新知学习新知 我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择频率分布表(frequency distribution table)和频率分布直方图(frequency distribution histogram)来整理和表示数据,与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图讲课人:邢启强8学习新知学习新知1.求极差:极差为一组数据中最大值与最小值的差.样本观测数据的最小值是1.3t,最大值是28.0t,极差为28.0-1.3=26.7这说明样本观测数据的变化范围是26.7t.讲课人:邢启强9学习新知学习新知2.决定组距与组数:合适的组距与组数对发现数据分布规律有重要意义.数太多或太少,都会影响我们了解数据的分布情况.数据分组可以是等距的,也可以是不等距的,要根据数据的特点而定。有时为了方便,往往按等距分组,或者除了第一和最后的两段,其余各段按等距分组讲课人:邢启强10组距与与组数的确定没有固定的标准.数据分组的组数与数据的个数有关,一般数据的个数越多,所分组数也越多,当样本容量不超过100时,常分成512组.为方便起见,一般取等长组距,并且组距应力求“取整”分组时可以先确定组距,也可以先确定组数,如果我们取所有组距为3,则学习新知学习新知讲课人:邢启强11学习新知学习新知3.将数据分组:由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值,例如,可以取区间为1.2,28.2,按如下方式把样本观测数据以组距3分为9组:1.2,4.2),4.2,7.2),.,25.2,28.2.4.列频率分布表计算各小组的频率,例如第一小组的频率作出频率分布表讲课人:邢启强12学习新知学习新知讲课人:邢启强13月均用水量月均用水量/t0.020.040.060.080.101.24.2 7.2 10.2 13.2 16.219.2 22.2 25.2 28.2 00.12频率频率/组距组距学习新知学习新知5.画频率分布直方图根据频率分布表画出如图所示的频率分布直方图频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度讲课人:邢启强14样本数据的频率分布直方图是根据频率分布表画出来的样本数据的频率分布直方图是根据频率分布表画出来的,一般地一般地,频率分布直方图的作图步骤如何?频率分布直方图的作图步骤如何?第一步,画平面直角坐标系第一步,画平面直角坐标系.第二步,在横轴上均匀标出各组分点,在纵第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度轴上标出单位长度.第三步,以组距为宽,各组的频率与组距的商为第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形高,分别画出各组对应的小长方形.学习新知学习新知讲课人:邢启强15学习新知学习新知频率分布直方图与频数分布直方图有什么区别?通过调查或实验收集到的数据一般数量较大且无序,为了得到有用的信息,就需要对数据进行分类(组)整理,利用统计表(或图)表示数据的特征.数据是对客观现象计量的结果,按照计量的精确程度可以大致分为两类.第一类,只能对事物的属性进行分类第一类,只能对事物的属性进行分类.例如,性别分男、女,商品分不同品牌,等级成绩分为优、良、及格和不及格,民意调查中对某观点的态度分为同意、中立、不同意,视力情况分为正常、轻度近视、中度近视、重度近视等.各类别可以用字母表示或数字表示,对此类数据的整理就是列频数分布表,记录各类别出现的频数,计算百分比.用条形图直观表示各类数据的频数,用扇形图表示各类数据所占的百分比大小.第二类,计量结果表现为数值第二类,计量结果表现为数值,例如,考试成绩,中学生的身高或体重,居民家庭的收入,居民家庭月用电量等.对这类连续数据的整理需要按数据个数的多少,进行适当的分组(不重不漏),统计各组的频数,计算百分比,用直方图表示数据的分布状况.讲课人:邢启强16学习新知学习新知 观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?(1)从频率分布表中可以清楚地看出,样本观测数据落在各个小组的比例大小,例如,月均用水量在区间4.2,7.2)内的居民用户最多,在区间1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等.讲课人:邢启强17学习新知学习新知 观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?(2)从频率分布直方图能直观的表明数据分布的形状和总体趋势.从上图容易看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”,这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在区间1.2,7.2)最为集中,少数居民用户的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势.有了样本观测数据的频率分布,我们可以用它估计总体的取值规律讲课人:邢启强18学习新知学习新知 根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域.这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的.需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解.分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分市直方图.观察图形,你发现不同的组数对于直方图呈现数据分市规律有什么影响?讲课人:邢启强19学习新知学习新知分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分市直方图.观察图形,你发现不同的组数对于直方图呈现数据分市规律有什么影响?从图中可以看出,同一组数据,组数不同,得到的直方图形状也不尽相同,会给人以不同的频率分布印象有时会影响人们对总体的判断当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,会依赖样本数据,稳定性差,由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.讲课人:邢启强20学习新知学习新知讲课人:邢启强21 例例 某地区为了了解知识分子的年龄结构,某地区为了了解知识分子的年龄结构,随机抽样随机抽样5050名,其年龄分别如下:名,其年龄分别如下:4242,3838,2929,3636,4141,4343,5454,4343,3434,4444,4040,5959,3939,4242,4444,5050,3737,4444,4545,2929,4848,4545,5353,4848,3737,2828,4646,5050,3737,4444,4242,3939,5151,5252,6262,4747,5959,4646,4545,6767,5353,4949,6565,4747,5454,6363,5757,4343,4646,58.58.(1)(1)列出样本频率分布表;列出样本频率分布表;(2)(2)画出频率分布直方图;画出频率分布直方图;(3)(3)估计年龄在估计年龄在32325252岁的知识分子所占的比例约是多少岁的知识分子所占的比例约是多少.典型例题典型例题讲课人:邢启强22(1)(1)极差为极差为67-28=3967-28=39,取组距为,取组距为5 5,分为,分为8 8组组.分分 组组 频数频数 频率频率 2727,3232)3 0.063 0.06 32 32,3737)3 0.063 0.06 37 37,4242)9 0.189 0.18 42 42,4747)16 0.3216 0.32 47 47,5252)7 0.147 0.14 52 52,5757)5 0.105 0.10 57 57,6262)4 0.084 0.08 62 62,6767)3 0.063 0.06 合合 计计 50 1.0050 1.00样本频率分布表:样本频率分布表:讲课人:邢启强23(2 2)样本频率分布直方图:)样本频率分布直方图:年龄年龄0.060.060.050.050.040.040.030.030.020.020.010.0127 32 37 42 47 52 57 62 6727 32 37 42 47 52 57 62 67频率频率组距组距O(3 3)因为)因为0.06+0.18+0.32+0.14=0.70.06+0.18+0.32+0.14=0.7,故年龄在故年龄在32325252岁的知识分子约占岁的知识分子约占70%.70%.讲课人:邢启强24巩固练习巩固练习讲课人:邢启强25巩固练习巩固练习讲课人:邢启强260.030.050.07体重体重(kg)频率频率/组距组距54.5 58.5 62.5 66.5 70.5 74.5 巩固练习巩固练习讲课人:邢启强27巩固练习巩固练习讲课人:邢启强28巩固练习巩固练习讲课人:邢启强29巩固练习巩固练习 7为了让学生了解环保知识,增强环保意识,为了让学生了解环保知识,增强环保意识,某中学举行了一次某中学举行了一次“环保知识竞赛环保知识竞赛”,共有,共有900名学生参加了名学生参加了这次竞赛为了解本次竞赛成绩情况,从中抽取了部分学生这次竞赛为了解本次竞赛成绩情况,从中抽取了部分学生的成绩的成绩(得分均为整数,满分为得分均为整数,满分为100分分)进行统计请你根据尚进行统计请你根据尚未完成的频率分布表和频率分布直方图,解答下列问题:未完成的频率分布表和频率分布直方图,解答下列问题:分分组组频频数数频频率率50.5,60.5)40.0860.5,70.5)0.1670.5,80.5)1080.5,90.5)160.3290.5,100.5合合计计50(1)填充频率分布表的空格填充频率分布表的空格(将答案直接填在表格内将答案直接填在表格内);(2)补全频率分布直方图补全频率分布直方图讲课人:邢启强30分组分组频数频数频率频率50.5,60.5)40.0860.5,70.5)80.1670.5,80.5)100.2080.5,90.5)160.3290.5,100.5120.24合计合计501.00频率分布直方图频率分布直方图频率分布表频率分布表讲课人:邢启强318.对“小康县”的经济评价标准如下:年人均收入不小于7 000元;年人均食品支出不大于收入的35%.某县有40万人,调查数据如下:巩固练习巩固练习年人均收入/元)02 0004 0006 0008 00010 00012 00016 000人数/万人63556753则该县()A.是小康县B.达到标准,未达到标准,不是小康县C.达到标准,未达到标准,不是小康县D.两个标准都未达到,不是小康县B讲课人:邢启强32课堂小结课堂小结讲课人:邢启强331.1.频率分布是指一个样本数据在各个小范围内所占比例频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律的大小,总体分布是指总体取值的频率分布规律.我们通我们通常用样本的频率分布表或频率分布直方图去估计总体的常用样本的频率分布表或频率分布直方图去估计总体的分布分布.2.2.频率分布表和频率分布直方图,是对相同数据的两种不频率分布表和频率分布直方图,是对相同数据的两种不同表达方式同表达方式.用紧凑的表格改变数据的排列方式和构成形用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况式,可展示数据的分布情况.通过作图既可以从数据中提通过作图既可以从数据中提取信息,又可以利用图形传递信息取信息,又可以利用图形传递信息.3.3.样本数据的频率分布表和频率分布直方图,是通过样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,并由此估计总体的分布情况的频率分布情况,并由此估计总体的分布情况.课堂小结课堂小结