用样本估计总体(一)ppt课件.pptx
《用样本估计总体(一)ppt课件.pptx》由会员分享,可在线阅读,更多相关《用样本估计总体(一)ppt课件.pptx(82页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、为天地立心为生民立命为往圣继绝学为万世开太平横渠四句 如何从样本数据中提取基本信如何从样本数据中提取基本信息来估计总体的情况呢?息来估计总体的情况呢?抽样是统计的第一步,抽样是统计的第一步,接下来就要对样本进行分析。接下来就要对样本进行分析。2.2 2.2 用样本估计总体用样本估计总体一、用样本的频率分布估计总体的分布一、用样本的频率分布估计总体的分布二、用样本的数字特征估计总体的特征二、用样本的数字特征估计总体的特征平均数、中位数、众数、平均数、中位数、众数、极差、方差、标准差极差、方差、标准差频率分布表、频率分布直方图、频率分布表、频率分布直方图、频率折线图、频率折线图、下表给出下表给出1
2、00100位居民的月均用水量表位居民的月均用水量表 上面这100个数据比较散乱,从中很难看出居民用水量的分布情况,必须对数据进行整理我们可以用:频率分布直方图频率分布表第一步第一步: : 求极差求极差: ( (数据组中最大值与最小值的差距数据组中最大值与最小值的差距) ) 最大值最大值= 4.3 = 4.3 最小值最小值= 0.2 = 0.2 所以极差所以极差= 4.3-0.2 = 4.1= 4.3-0.2 = 4.1第二步第二步: : 决定组距与组数决定组距与组数: : (注意取整)(注意取整) 当样本容量不超过当样本容量不超过100100时时, , 按照数据的多少按照数据的多少, , 常常
3、分成分成512512组组. .为方便组距的选择应力求为方便组距的选择应力求“取整取整”. . 本题如果组距为本题如果组距为0.5(t). 0.5(t). 则则 4.18.20.5极差组数=组距第三步第三步: : 将数据分组:将数据分组:( ( 给出组的界限给出组的界限) ) 所以将数据分成所以将数据分成9 9组较合适组较合适. . 0, 0.5), 0.5, 1), 1, 1.5),4, 4.5) 共共9组组. 第四步第四步: : 列频率分布表列频率分布表. . 分组分组频数频数频率频率频率频率/组距组距0-0.5)40.5-1)8 1-1.5)15 1.5-2)22 2-2.5)25 2.5
4、-3)15 3-3.5)5 3.5-4)4 4-4.5)2合计合计100组距组距=0.5=0.5 0.040.080.080.160.30.150.440.220.250.512.000.020.040.040.080.10.30.150.05 为了直观反映样本数据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O 为了直观反映样本数据在各组中的为了直观反映
5、样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O 为了直观反映样本数据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O 为了直观反映样本数
6、据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O 为了直观反映样本数据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5
7、 O 为了直观反映样本数据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O 为了直观反映样本数据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5
8、 3 3.5 4 4.5 O 为了直观反映样本数据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O 为了直观反映样本数据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5
9、 1 1.5 2 2.5 3 3.5 4 4.5 O 为了直观反映样本数据在各组中的为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:关信息用下面的图形表示: 月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O00.10.20.30.40.50.6 0.5 1 1.5 2 2.5 3 3.5 4 4.5频率频率/ /组距组距 月均用水量月均用水量/t/t ( (组距组距=0.5)=0.5) 0.080.160.30.440.50.30.10.
10、080.04小长方形的面小长方形的面积积=?=?小长方形的面小长方形的面积总和积总和=?=?月均用水月均用水量居量居民人数最民人数最多的多的在哪个区间在哪个区间? ?第五步第五步: : 画出频率分布直方图画出频率分布直方图. 同样一组数据同样一组数据, ,如果组距不同如果组距不同, ,横轴、纵轴的单位横轴、纵轴的单位不同不同, ,得到的图的形状也会不同得到的图的形状也会不同. .不同的形状给人以不不同的形状给人以不同的印象同的印象, ,这种印象有时会影响我们对总体的判断这种印象有时会影响我们对总体的判断. .分分别以别以1 1和和0.10.1为组距重新作图为组距重新作图, ,然后谈谈你对图的印
11、象然后谈谈你对图的印象. .频率分布直方图的特征:频率分布直方图的特征:1.频频率分布直率分布直方图频率分布表更直观方图频率分布表更直观地地反映了样本的分布规律反映了样本的分布规律.2.从从频率分布直方图得不出原始的数频率分布直方图得不出原始的数据内容,把数据表示成直方图后,据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。原有的具体数据信息就被抹掉了。 如如果当地政府希望使果当地政府希望使85%85%以上的居民每以上的居民每月的用水量不超出标准,根据频率分布表月的用水量不超出标准,根据频率分布表2-22-2和频率分布直方图和频率分布直方图2.2-12.2-1,你能对制定月用水量标准
12、提出建议吗你能对制定月用水量标准提出建议吗 ?88%88%的居民月用水量在的居民月用水量在3t 3t以下,以下,可建议取可建议取a=3.a=3. 小结小结: : 画频率分布直方图的步骤画频率分布直方图的步骤: : 第一步第一步: 求极差求极差: (数据组中最大值与最小值的差距数据组中最大值与最小值的差距) 第二步第二步: 决定组距与组数决定组距与组数: (强调取整)(强调取整) 第三步第三步: 将数据分组将数据分组 ( 给出组的界限给出组的界限) 第四步第四步: 列频率分布表列频率分布表. (包括分组、频数、频率(包括分组、频数、频率、频、频率率/组距组距) 第五步第五步: 画频率分布直方图画
13、频率分布直方图(在频率分布表的基础上(在频率分布表的基础上绘制,横坐标为样本数据尺寸,纵坐标为频率绘制,横坐标为样本数据尺寸,纵坐标为频率/组距组距.) 组距组距:指每个小组的两个端点的距离指每个小组的两个端点的距离组数组数:将数据分组,当数据在将数据分组,当数据在100个以内时,个以内时, 按数据多少常分按数据多少常分5-12组。组。注意注意第几组频数(1)第几组频率样本容量(2)纵坐标为纵坐标为:频率组距练习:练习: 例例 某地区为了了解知识分子的年龄结构,某地区为了了解知识分子的年龄结构,随机抽样随机抽样5050名,其年龄分别如下:名,其年龄分别如下: 4242,3838,2929,36
14、36,4141,4343,5454,4343,3434,4444, 4040,5959,3939,4242,4444,5050,3737,4444,4545,2929, 4848,4545,5353,4848,3737,2828,4646,5050,3737,4444, 4242,3939,5151,5252,6262,4747,5959,4646,4545,6767, 5353,4949,6565,4747,5454,6363,5757,4343,4646,58.58.(1)(1)列出样本频率分布表;列出样本频率分布表; (2)(2)画出频率分布直方图;画出频率分布直方图;(3)(3)估计年
15、龄在估计年龄在32325252岁的知识分子所占的比例岁的知识分子所占的比例约是多少约是多少. .(1)(1)极差为极差为67-28=3967-28=39,取组距为,取组距为5 5,分为,分为8 8组组. . 分分 组组 频数频数 频率频率 2727,3232) 3 0.063 0.06 32 32,3737) 3 0.063 0.06 37 37,4242) 9 0.189 0.18 42 42,4747) 16 0.3216 0.32 47 47,5252) 7 0.147 0.14 52 52,5757) 5 0.105 0.10 57 57,6262) 4 0.084 0.08 62 6
16、2,6767) 3 0.063 0.06 合合 计计 50 1.0050 1.00样本频率分布表:样本频率分布表:(2 2)样本频率分布直方图:)样本频率分布直方图:年龄年龄0.060.060.050.050.040.040.030.030.020.020.010.0127 32 37 42 47 52 57 62 6727 32 37 42 47 52 57 62 67频率频率组距组距O(3 3)因为)因为0.06+0.18+0.32+0.14=0.70.06+0.18+0.32+0.14=0.7, 故年龄在故年龄在32325252岁的知识分子约占岁的知识分子约占70%.70%.课堂练习课堂
17、练习2(2006年全国卷年全国卷II)一个社会调查机构就某地居民一个社会调查机构就某地居民的月收入调查了的月收入调查了10 000人,并根据所得数据画了样人,并根据所得数据画了样本的频率分布直方图本的频率分布直方图(如下图如下图).为了分析居民的收入为了分析居民的收入与年龄、学历、职业等方面的关系,要从这与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出人中再用分层抽样方法抽出100人作进一步调查,人作进一步调查,则在则在2500,3000(元元)月收入段应抽出月收入段应抽出_人人.0.00010.00020.00030.00040.0005月收入月收入(元元)频率频率
18、/组距组距251000 1500 2000 2500 3000 3500 4000频率组距课堂练习课堂练习0.30.14.34.54.74.95.1视力视力频率频率/组距组距A. 0.27,78B. 0.27,83C. 2.7,78D. 2.7,83A频率分布直方图如下频率分布直方图如下:月均用水量月均用水量/t频率频率组距组距0.100.200.300.400.500.511.5 22.533.544.5连接频率分布直方图连接频率分布直方图中各小长方形上端的中各小长方形上端的中点中点,得到得到频率分布折频率分布折线图线图频率分布折线图频率分布折线图 由于样本是随机的,不同的样本的由于样本是随
19、机的,不同的样本的得到的频率分布折线图不同,即使对于得到的频率分布折线图不同,即使对于同一样本,不同的分组情况得到的频率同一样本,不同的分组情况得到的频率分布折线图也不同,频率分布折线图是分布折线图也不同,频率分布折线图是随着随着样本的容量样本的容量和和分组情况分组情况的变化而变的变化而变化的。化的。利用样本频分布对总体分布进行相应估计利用样本频分布对总体分布进行相应估计(3)当样本容量无限增大,组距无限缩小,)当样本容量无限增大,组距无限缩小,那么频率折线图就会无限接近于一条光滑曲那么频率折线图就会无限接近于一条光滑曲线线总体密度曲线总体密度曲线。(2)样本容量越大,这种估计越精确。)样本容
20、量越大,这种估计越精确。(1)上例的样本容量为)上例的样本容量为100,如果增至,如果增至1000,其频率分布直方图的情况会有什么变化?假如增其频率分布直方图的情况会有什么变化?假如增至至10000呢?呢?总体密度曲线总体密度曲线频率频率组距组距月均用月均用水量水量/tab (图中阴影部分的面积,表示总体在(图中阴影部分的面积,表示总体在某个区间某个区间 (a, b) 内取值的百分比)。内取值的百分比)。 用样本分布直方图去估计相应的总体分布时,用样本分布直方图去估计相应的总体分布时,一般样本容量越大,一般样本容量越大,频率分布直方图频率分布直方图就会无限接就会无限接近近总体密度曲线总体密度曲
21、线,就越精确地反映了总体的分布,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值规律,即越精确地反映了总体在各个范围内取值百分比。百分比。 总体密度曲线反映了总体在各个范围内取值的总体密度曲线反映了总体在各个范围内取值的百分比百分比,精确地反映了总体的分布规律。是研究总精确地反映了总体的分布规律。是研究总体分布的工具体分布的工具.总体密度曲线总体密度曲线并非所有的总体都存在密度曲线,如一些离散型总体并非所有的总体都存在密度曲线,如一些离散型总体不能由样本折线图得到准确的总体密度曲线不能由样本折线图得到准确的总体密度曲线随堂训练随堂训练6.6.如图是总体密度曲线,下列说法正确
22、的是如图是总体密度曲线,下列说法正确的是( )( )(A A)组距越大,频率分布折线图越接近于它)组距越大,频率分布折线图越接近于它(B B)样本容量越小,频率分布折线图越接近于它)样本容量越小,频率分布折线图越接近于它(C C)阴影部分的面积代表总体在)阴影部分的面积代表总体在(a,b)(a,b)内取值的百分比内取值的百分比(D D)阴影部分的平均高度代表总体在()阴影部分的平均高度代表总体在(a,b)a,b)内取值的百分比内取值的百分比c茎叶图茎叶图 某赛季甲、乙两名篮球运动员每场比赛某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:得分的原始记录如下:甲运动员得分:甲运动员得分:13
23、, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39乙运动员得分:乙运动员得分: 49, 24, 12, 31, 50, 31, 44, 36, 15, 37, 25,36, 39 小小 结结 图形图形 优点优点 缺点缺点频率分布频率分布 1)易表示)易表示大量数据大量数据 丢失一些丢失一些直方图直方图 2)直观直观地表明分布地地表明分布地 情况情况 信息信息 几种表示频率分布的方法的优点与不足几种表示频率分布的方法的优点与不足1.频率分布表频率分布表在数量表示上比较确切,但不够直在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便。观、形象,分析数
24、据分布的总体态势不太方便。2.频率分布直方图频率分布直方图能够很容易地表示大量数据,能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式。但是从直方在分布表中看不清楚的数据模式。但是从直方图本身得不出原始的数据内容。图本身得不出原始的数据内容。3.频率分布折线图频率分布折线图的优点是它反映了数据的变化的优点是它反映了数据的变化趋势。如果样本容量不断增大,分组的组距不断趋势。如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体分布的密度曲线。缩小,那么折线图就趋向于总体分布的密度曲线。4.用用茎叶图茎叶
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 样本 估计 总体 ppt 课件
限制150内