三种抽样方法的概念和一般步骤.docx
本节授课核心:三种抽样方法的概念和一般步骤一:情景引入1.要考察某公司生产的500袋装牛奶的质量是否达标,现从中抽取60袋进行检验,则总体是 ?总体个数N是 ?样本是 ?样本个数n ?500袋牛奶,500,60袋牛奶,602如何判断一锅汤的味道的好坏?A 全部喝完 B 舀上面油多的一勺汤品尝 C舀下面味道重的一勺汤品尝 D搅拌均匀后再随机舀一勺汤品尝D思考:要获取一个有代表性的好的样本,关键是 。使总体内的各个个体被抽到的机会都相等二、新课:(一)简单随机抽样1思考:例1要在我们班选出五个人去参加劳动,怎样选才是最公平的呢?2简单随机数法的概念: P583简单随机抽样必须具备下列特点:(1)总体个数N是 限的。 有(2)样本个数n 总体的个数N。 不大于(3) 放回的抽样。 不(4)每个个体被抽到的机会 . 相等4简单随机抽样的方法有 和 抽签法和随机数法5既学即练:(1)下列抽样的方式是否属于简单随机抽样?为什么? A.从无限多个个体中抽取50个个体作为样本. B.箱子里共有100个零件,从中选出10个零件进行质量检验,在抽样操作中,从中任意取出一个零件进行质量检验后,再把它放回箱子.错(2)为了了解全校240名学生的身高情况,从中抽取40名学生进行测量,下列说法正确的是A总体是240 B、个体是每一个学生C、样本是40名学生 D、样本容量是40D(3)从3名男生、2名女生中随机抽取2人,检查数学成绩,则抽到的均为女生的可能性是 。1/10(二)系统抽样1思考:例2我校为了了解高一年级学生对教师教学的意见,打算从高一年级的500名学生中抽取50名进行调查.你怎样进行操作呢?P602系统抽样概念:P603进行系统抽样的步骤: , , 和 P60编号,分段,确定起始个体的编号L,抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。4既学即练:(1)下列抽样中不是系统抽样的是 ( )A、从标有115号的15号的15个小球中任选3个作为样本,按从小号到大号排序,随机确定起点i,以后为i+5, i+10(超过15则从1再数起)号入样B工厂生产的产品,用传关带将产品送入包装车间前,检验人员从传送带上每隔五分钟抽一件产品检验C、搞某一市场调查,规定在商场门口随机抽一个人进行询问,直到调查到事先规定的调查人数为止D、电影院调查观众的某一指标,通知每排(每排人数相等)座位号为14的观众留下来座谈C不是系统抽样,因为事先不知道总体,抽样方法不能保证每个个体按事先规定的概率入样。(三)分层抽样1思考:例3假设某地区有高中生2400人,初中生10900人,小学生11000人,此地教育部门为了了解本地区中小学的近视情况及其形成原因,要从本地区的小学生中抽取1%的学生进行调查,你认为应当怎样抽取样本?高中生24人,初中生109人,小学生110人2分层抽样定义:P633分层抽样的步骤: , , 和 .(1)分层:按某种特征将总体分成若干部分。(2)按比例确定每层抽取个体的个数。(3)各层分别按简单随机抽样的方法抽取。(4)综合每层抽样,组成样本。4分层抽样应遵循以下要求:(1)分层遵循不重复、不遗漏的原则。(2)在各层中进行简单随机抽样,每层样本数量与每层个体数量的比与这层个体数量与总体容量的比相等。5既学即练:(1)分层抽样又称类型抽样,即将相似的个体归入一类(层),然后每层抽取若干个体构成样本,所以分层抽样为保证每个个体等可能入样,必须进行 ( ) A、每层等可能抽样 B、每层不等可能抽样 C、所有层按同一抽样比等可能抽样C(2)如果采用分层抽样,从个体数为N的总体中抽取一个容量为n样本,那么每个个体被抽到的可能性为 ( )A B. C. D.C(3)某高中共有900人,其中高一年级300人,高二年级200人,高三年级400人,现采用分层抽样抽取容量为45的样本,那么高一、高二、高三各年级抽取的人数分别为( )A.15,5,25 B.15,15,15 C.10,5,30 D.15,10,20D(4)某中学高一年级有学生600人,高二年级有学生450人,高三年级有学生750人,每个学生被抽到的可能性均为0.2,若该校取一个容量为n的样本,则n= 。360(四) 简单随机抽样、系统抽样、分层抽样的比较类 别共同点各自特点联 系适 用范 围简 单随 机抽 样(1)抽样过程中每个个体被抽到的可能性相等(2)每次抽出个体后不再将它放回,即不放回抽样从总体中逐个抽取总体个数较少将总体均分成几部 分,按预先制定的规则在各部分抽取在起始部分采样时采用简随机抽样总体个数较多系 统抽 样将总体分成几层,分层进行抽取分层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成分 层抽 样五体验探究:1、某单位有老年人28人,中年人54人,青年人81人,为了调查他们的身体情况,需从他们中抽取一个容量为36的样本,则适合的抽取方法是 ( )A简单随机抽样B系统抽样C分层抽样D先从老人中剔除1人,然后再分层抽样D2、某校有500名学生,其中O型血的有200人,A型血的人有125人,B型血的有125人,AB型血的有50人,为了研究血型与色弱的关系,要从中抽取一个20人的样本,按分层抽样,O型血应抽取的人数为 8 人,A型血应抽取的人数为 人,B型血应抽取的人数为 人,AB型血应抽取的人数为 2 人。8,5,5,23从编号为150的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A5,10,15,20,25 B、3,13,23,33,43C1,2,3,4,5 D、2,4,6,16,32B4、一个地区共有5个乡镇,人口3万人,其中人口比例为3:2:5:2:3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程。60,40,100,40,60二、新课:(一)频率分布直方图的作法:1探究:P67确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费. 如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢 ?为了较为合理地确定出这个标准,需要做哪些工作?给出100位居民的月均用水量表,讨论:如何分析数据?2频率分布表和频率分布图,是从各个小组数据在样本容量中 的角度,来表示数据分布的规律。所占比例大小一频率分布的概念:频率分布是指一个样本数据在各个小范围内所占 。比例大小一般用频率分布直方图反映样本的频率分布。其一般步骤为: , , , 和 (1)求极差(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布直方图3动手作图以课本P68制定居民用水标准问题为例,经过以上几个步骤画出频率分布直方图。4既学即练:(1)频率分布直方图2.2-1纵坐标表示 ?(2)直方图是用 表示在各个区间内取值的频率,小长方形面积的和为 . 面积,1(3)频率分布直方图2.2-1表示每月用水量在1吨到3吨之间的居民所占比例是 076(4)如果当地政府希望使88%以上的居民每月的用水量不超出标准,根据频率分布表2-2和频率分布直方图2.2-1,那么制定月用水量标准是 吨?3(二)频率分布折线图、总体密度曲线1定义频率分布折线图:2定义总体密度曲线:3既学即练:(1)下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位) ()列出样本频率分布表()画出频率分布直方图;()估计身高小于134的人数占总人数的百分比.解:()样本频率分布表如下:()其频率分布直方图如下:122126130134138142146150158154身高(cm)o0.010.020.030.040.050.060.07频率/组距(3)由样本频率分布表可知身高小于134cm 的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134cm的人数占总人数的19%.(2)为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.()第二小组的频率是多少?样本容量是多少?90100110120130140150次数o0.0040.0080.0120.0160.0200.0240.028频率/组距0.0320.036()若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?()在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由。分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小因此第二小组的频率为:又因为频率=所以(2)由图可估计该学校高一学生的达标率约为(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内。三茎叶图茎叶图的概念:当数据是两位有效数字时,用中间的数字表示 ,即第一个有效数字,两边的数字表示 ,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。十位数、个位数2茎叶图的特征:()用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。()茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。3既学即练:试将下列两组数据制作出茎叶图,并计算两组数据的平均数和方差. 甲得分:13 ,51,23,8,26,38,16,33,14,25,39, 乙得分:49,24,12,31,60,31,44,36,15,37,24同步(一)、众数、中位数、平均数1已知数据:10,11,12,12,13,13,13,14,15, 根据初中所学的知识,中位数是、众数是、平均数是13,13,1262在样本数据的频率分布直方图中是众数。最高的矩形的中点3在频率分布直方图中,矩形的 大小正好表示对应组的频率的大小,即中位数左边和右边的直方图的相等。小矩形的面积,面积相等4估计平均数:频率分布直方图中每个小矩形的乘以小矩形之和面积,底边中点的横坐标5众数、中位数、平均数都是对数据中心位置的描述,可以作为总体相应特征的估计. 样本众数易计算,但只能表达样本数据中的很少一部分信息,不一定唯一;中位数仅利用了数据中排在中间数据的信息,与数据的排列位置有关;平均数受样本中的每一个数据的影响,绝对值越大的数据,对平均数的影响也越大三者相比,平均数代表了数据更多的信息,描述了数据的平均水平,是一组数据的“重心”.(二)、标准差、方差标准差考察样本数据的分散程度的大小,最常用的统计量是标准差。标准差是,一般用s表示。标准差是样本数据到平均数的一种平均距离其计算公式为:。2(1)标准差用来表示,标准差越大,数据的离散程度就,也就越. 数据的离散程度,大,分散(2)标准差为的样本数据的特点是数据相等(3)几乎包含了所有样本数据.(4)习惯用标准差的平方方差来表示数据的分散程度,即. 两者都是描述一组数据围绕平均数波动的大小,实际应用中比较广泛的是标准差.周末练习同步P.23P.26的(1)(16) P.62P.66的(1)(19)变量之间的相关关系一创设情境:1某种笔记本每个5元,买 x1,2,3,4个笔记本的钱数记为y(元),试写出以x为自变量的函数y的解析式,并画出这个函数的图像函数的解析式为y=5x,x1,2,3,4它的图象由4个孤立点A (1, 5)B (2, 10)C (3, 15)D (4, 20)组成2关于“名师出高徒”解释正确的是( )A教师的水平越高,则学生的成绩一定越好B学生的成绩越好,则教师的水平越高C从总体来看教师的水平越高,则学生的成绩越好的可能性更大D教师的水平越高与学生的成绩越好没有关系C二、讲授新课:(一)相关关系的概念1函数关系:两个变量之间的关系是_ _的关系(当自变量取值一定时,因变量也确定,则为确定关系)。确定2.相关关系的概念:两个变量之间的关系是_ _的关系。(当自变量取值一定时,因变量带有随机性),这种变量之间的关系称为相关关系。相关关系是一种非确定性关系。非确定性(二)散点图例1出示例题:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:年龄23273841454950脂肪9.517.821.225.927.526.328.2年龄53545657586061脂肪29.630.231.430.833.535.234.6分析数据:大体上来看,随着年龄的增加,人体中脂肪的百分比也在增加。我们可以作散点图来进一步分析。2散点图的概念:将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图。(1)如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有_关系函数(2)如果所有的样本点都落在某一函数曲线附近,变量之间就有_关系。相关(3). 如果所有的样本点都落在某一直线附近,变量之间就有_关系。线形相关3正相关与负相关概念:(1)如果散点图中的点散布在从_到_ _的区域内,称为正相关。左下角,右上角(2)如果散点图中的点散布在从_到_ _的区域内,称为负相关。左上角,右下角(三).回归直线:1从例1散点图上可以看出,这些点大致分布在通过散点图中心的一条直线附近。如果散点图中的点的分布从整体上看大致在一条直线附近,我们就称这这两个变量之间具有线形相关关系,直线叫_,直线方程叫_。回归直线,回归直线方程2提问:怎样确定这条直线呢?P91(讨论:1.选择能反映直线变化的两个点。2. 在图中放上一根细绳,使得上面和下面点的个数相同或基本相同。3. 多取几组点对,确定几条直线方程。再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距。)。教师:分别分析各方法的可靠性。3回归直线的求法(1)求回归直线,关键是使得样本数据的点_。到它的距离的平方和最小(2)回归公式见课本P.92例2三点的线性回归方程是()A B C D D4求线性回归方程的步骤:(1)计算平均数、,(2)计算与的积,求(3)计算,(4)将上述有关结果代入公式,求,写出回归直线方程例3有一间商店,为了研究气温对冰箕淋销售的影响。经过统计,得到一个卖出的冰箕淋与当天气温的对比表。气温-50412192123273136冰箕淋个数2102675104143128132145156(1)画出散点图。(2)求回归方程。(3)如果气温是25,预测这天卖出的冰箕淋个数。点评:对一组数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数的计算公式,算出由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误,求线性回归方程的步骤:计算平均数;计算与的积,求;计算;将结果代入公式求;用求;写出回归直线方程 (07#18)(本小题满分12分) 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗(吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:)18解:(1)如下图(2)325435464566.5,4.5,3.5,3.50.74.50.35故线性回归方程为y0.7x0.35(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.71000.3570.35,故耗能减少了9070.3519.65(吨)补充作业:1一个车间为了规定工时定额,需要确定加工零件所花费的时间为此进行了10次试验,测得数据如下:零件个数(个)102030405060708090100加工时间(分)626875818995102108115122请判断与是否具有线性相关关系,如果与具有线性相关关系,求线性回归方程2已知10只狗的血球体积及红血球数的测量值如下:454246484235584039506.536.309.527.506.995.909.496.206.598.72(血球体积),(红血球数,百万)(1)画出上表的散点图;(2)求出回归直线度且画出图形练习1一个车间为了规定工时定额,需要确定加工零件所花费的时间为此进行了10次试验,测得数据如下:零件个数(个)102030405060708090100加工时间(分)626875818995102108115122请判断与是否具有线性相关关系,如果与具有线性相关关系,求线性回归方程解:在直角坐标系中画出数据的散点图,直观判断散点在一条直线附近,故具有线性相关关系由测得的数据表可知:所求线性回归方程为2已知10只狗的血球体积及红血球数的测量值如下:454246484235584039506.536.309.527.506.995.909.496.206.598.72(血球体积),(红血球数,百万)(1)画出上表的散点图;(2)求出回归直线度且画出图形解:(1)图略(2) =设回归直线方程为,则,= 所以所求回归直线的方程为 图形:(略)3以下是收集到的新房屋销售价格与房屋的大小的数据:房屋大小()80105110115135销售价格(万元)18.42221.624.829.2(1)画出数据的散点图;(2)用最小二乘法估计求线性回归方程,并在散点图中加上回归直线;(3)计算此时和的值,并作比较解:(1)图略(2)所以,线性回归方程为(3),由此可知,求得的是函数取最小值的值