高中数学必修3统计复习学案.pdf
统计统计一、随机抽样一、随机抽样(一)简单随机抽样(一)简单随机抽样:1、定义:一般的,设一个总体含有N 个个体,从中地抽取n 个个体作为样本(n N),如果每次抽取时总体内的各个个体被抽到的,就把这种抽样方法叫做简单随机抽样说明:简单随机抽样必须具备下列特点:2统计的有关概念:总体:个体:样本:样本容量:总体容量:3最常用的简单随机抽样方法有_;_4 抽签法步骤:(1);(2);(3);(4);随机数表法步骤:(1);(2);(3);5抽签法的优点是,但是当总体的容量非常大时,费时费力不方便,可能导致抽样的不公平6随机数表是由_这 10 个数字组成的数表,并且表中的每一位置出现各个数字的可能性_基础训练基础训练:1关于简单随机抽样的特点,有以下几种说法,其中不正确的是A要求总体的个数有限B从总体中逐个抽取C它是一种不放回抽样D每个个体被抽到的机会不一样,与先后顺序有关2为了分析该校1000 名学生的期末成绩,从中抽取100 名学生的成绩单,则100 名学生的成绩单是 A总体B个体C总体的一个样本D样本容量4从总数为 N 的一批零件中抽取一个容量为 30 的样本,若每个零件被抽取的可能性为 25%,则N 为 A150B200C100D1205为了解学校 240 名学生的身高情况,从中抽取40 名学生进行测量,则样本容量是_8某学校为了调查学生的学习情况,由每班随机抽取5 名学生进行调查,若(1)班有50 名学生,将每一学生编号从 01 到 50 止请从随机数表的第2 行第 6 列(下表为随机数表的前5 行)开始,依次向右,直到取足样本,则抽取样本的是03 47 43 73 86 36 96 47 36 61 46 98 63 71 62 33 26 16 80 45 60 11 14 10 9597 74 24 67 62 42 81 14 57 20 42 53 32 37 32 27 07 36 07 51 24 51 79 89 7316 76 62 27 66 56 50 26 71 07 32 90 79 78 53 13 55 38 58 59 88 97 54 14 1012 56 85 99 26 96 96 68 27 31 05 03 72 93 15 57 12 10 14 21 88 26 49 81 7655 59 56 35 64 38 54 82 46 22 31 62 43 09 90 06 18 44 32 53 23 83 01 30 30(二)(二)系统抽样系统抽样1 定义:当总体中的个体数较多时,可将总体分成的几个部分,然后预先制定的规则,从每一部分,得到所需要的样本,这样的抽样叫系统抽样由于抽样的间隔相等,因此系统抽样也被称作。在进行大规模的抽样调查时,系统抽样比简单抽样要方便。2系统抽样的步骤:(1)采用随机的方式将总体中的个体(2)为将整个的编号进行分段,要确定分段的间隔k当Nn是整数时,;当Nn不是整数时,通过从总体中剔除些个体使剩下的总体中的个体N 能被 n 整除,这时(3)在第一段用确定起始的个体编号l(4)按照事先确定的规则(将l加上间隔k)抽取样本:l,l k,l 2k,基础训练基础训练1、为了解 1200 名学生对学校某项教改试验的意见,打算从中抽取一个容量为30 的样本,考虑采用系统抽样,则分段的间隔k 为()A、40B、30C、20D、122、为了了解参加一次知识竞赛的 1252 名学生的成绩,决定采用系统抽样的方法抽取一个容量为50 的样本,那么总体中应随机剔除的个体数目()A、2B、4C、5D、63、用系统抽样的方法从个体数为1003 的总体中抽取一个容量为50 的样本,在整个抽样过程中每个个体被抽到的可能性为()A、1/1000 B、1/1003 C、50/1003D、50/1000(三)分层抽样(三)分层抽样1 定义:当已知总体由_的几部分组成时,为了使样本更能充分地反映总体的情况,常将总体中个体按某种特征分成若干个的几部分,每一部分叫做在各层中按层在总体中所占_进行抽样,这种抽样叫做_2分层抽样的步骤:(1)将总体按一定的进行分层;(2)计算各层中与的比;(3)按各层确定各层应抽取的个体数量;(4)在每层进行抽样,组成样本基础训练基础训练1某高中共有 900 人,其中高一年级 300 人,高二年级 200 人,高三年级 400 人,现采用分层抽样抽取容量为 45 的样本,那么高一、高二、高三各年级抽取的人数分别为()A15,5,25B15,15,15C10,5,30D15,10,202(2009XX 卷文)某单位共有老、中、青职工 430 人,其中青年职工 160 人,中年职工人数是老年职工人数的 2 倍为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工 32 人,则该样本中的老年职工人数为(A)9(B)18(C)27(D)363 3(2008XX 高考)某林场有树苗 30000 棵,其中松树苗 4000 棵为调查树苗的生长情况,采用分层抽样的方法抽取一个容量为150 的样本,则样本中松树苗的数量为()A30B25C20D154XX 大众汽车厂生产了A、B、C 三种不同型号的小轿车,产量分别1 200辆、6 000辆、2 000辆,为检验这三种型号的轿车质量,现在从中抽取46 辆进行检验,那么应采用_抽样方法,其中 B 型号车应抽查_辆5(2010 潍坊高一检测)某大型超市销售的乳类商品有四种,纯奶、酸奶、婴幼儿奶粉、成人奶粉,且纯奶、酸奶、婴幼儿奶粉、成人奶粉分别有30 种、10 种、35 种、25 种不同的品牌,现采用分层抽样的方法从中抽取一个容量为 n 的样本进行三聚氰胺检测,若抽取的婴幼儿奶粉的品牌数是 14,则 n=二、用样本估计总体:二、用样本估计总体:(一)用样本的频率分布估计总体的分布(一)用样本的频率分布估计总体的分布1 1、频率分布表当总体很大或不便获得时,可以用样本的频率分布估计总体的频率分布,我们把反映的表格称为频率分布表2、绘制频率分布直方图的一般步骤为:(1)计算,即一组数据中最大值与最小值的差;(2)决定;1 组距与组数的确定没有确切的标准,将数据分组时组数应力求合适,以使数据的发布规律能较清楚地呈现出来2组数与样本容量有关,一般样本容量越大,分的组数也越多,当样本容量为100 时,常分 812组3组距的选择组距=,组距的选择力求取整,如果极差不利于分组(不能被组数整除)可适当增大极差,如在左右两端各增加适当的X 围(尽量使两端增加的量相同)(3)决定;(4)列;一般为四列:分组、个数累计、频数、频率最后一行是合计,其中频数合计应是,频率合计是(5)绘制频率分布直方图为将频率分布直方图中的结果直观形象的表示出来,画图时,应以横轴表 示 分 组,纵 轴 表 示,其 相 应 组 距 上 的 频 率 等 于 该 组 上 的 长 方 形 的 面 积,即 每 个小长方形的面积 组距频率组距,且各小长方形的面积的总和等于 3频率分布折线图连接频率分布直方图中的中点,就得到频率分布折线图4总体密度曲线随着样本容量的增加,作图时所分的组数也在增加,组距减小,相应的图会越来越接近于一条,统计中称之为总体密度曲线,它反映了总体在各个X 围内取值的百分比基础训练基础训练1将一个容量为n 的样本分成若干组,已知某组的频数和频率分别为40 和 0125,则 n 的值为()(A)640(B)320(C)240(D)1602一个容量为 32 的样本,已知某组样本的频率为00625,则该组样本的频数为()A 2B4C6D83为了了解某地区高三学生的身体发育情况,抽查了该地区100 名年龄为 175 岁18 岁的男生体重(kg),得到频率分布直方图,如图,据图可得这 100 名学生中体重在565,645)kg 的学生人数是()(A)20(B)30(C)40(D)504 4(2010XX2010XX 文)文)将容量为 n 的样本中的数据分成 6 组,绘制频率分布直方图若第一组至第六组数据的频率之比为 2:3:4:6:4:1,且前三组数据的频数之和等于27,则 n 等于(二)(二)用样本的数字特征估计总体的数字特征用样本的数字特征估计总体的数字特征一、众数、中位数、平均数1众数一组数据中重复出现次数的数称为这组数的众数2 中位数把一组数据按从小到大的顺序排列,把处于最中间位置的那个数称为这组数据的中位数(1)当数据个数为奇数时,中位数是按从小到大的顺序排列的的那个数(2)当数据个数为偶数时,中位数是按从小到大的顺序排列的最中间两个数的3 平均数如果有 n 个数x1,x2,x3,xn,那么叫这 n 个数的平均数4实际问题中求得的众数、中位数、平均数应带上单位二、标准差、方差1数据的离散程度可用极差、来描述样本方差描述了一组数据围绕平均数波动的大小一般地,设样本的数据为x1,x2,x3,xn,样本的平均数为x,则定义s2,s2表示方差2为了得到以样本数据的单位表示的波动幅度,通常要求出样本方差的算术平方根s=,s表示样本标准差不要漏写单位三、如何从频率分布直方图中估计众数、中位数、平均数呢?众数:最高矩形的中点中位数:左右两边直方图的面积相等平均数:频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和基础训练基础训练1.下列说法正确的是A在两组数据中,平均数较大的一组方差较大B 平均数反映数据的集中趋势,方差则反映数据离平均数的波动大小C 方差的求法是求出各个数据与平均数的差的平方后再求和D在记录两个人射击环数的两组数据中,方差大的表示射击水平高2一个样本数据按从小到大的顺序排列为13,14,19,x,23,27,28,31,其中位数为 22,则 x=A21B22C20D233 3(2010XX2010XX 文)文)在某项体育比赛中,七位裁判为一选手打出的分数如下:90899095939493去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为(A)92,2(B)92,28(C)93,2(D)93,284样本 101,98,102,100,99 的标准差为A2B0C1D25一组数据的每一数据都减去80,得一组新数据,若求得新数据的平均数是12,方差为44,则原来数据的平均数和方差分别是、6甲、乙、丙、丁四人参加射击项目选拔赛,成绩如下:甲乙丙丁平均环数8588888方差35352187则加奥运会的最佳人选是三、变量间的相关关系三、变量间的相关关系1 1相关关系的概念相关关系的概念在实际问题中,变量之间的常见关系有两类:一类是,变量之间的关系可以用函数表示。例如正方形的面积 S 与其边长x之间的函数关系S x2;一类是,变量之间有一定的联系,但不能完全用函数来表达。例如一块农田的水稻产量与施肥量的关系相关关系:两个变量之间的关系叫做相关关系。相关关系与函数关系的异同点:相同点:不同点:2 2求回归直线方程的思想方法求回归直线方程的思想方法观察散点图的特征,发现各点大致分布在一条直线的附近,思考:类似图中的直线可画几条?分析,最能代表变量x 与 y 之间关系的直线的特征:即n 个偏差的平方和最小,其过程简要分析如下:bx a,其中 a、b 是待定系数。设所求的直线方程为ynxiyi nxyi11b nx 其中22x nxnii1a y bx1nxi,y yini1i1n以上方法称为最小二乘法。巩固练习:给出施化肥量对水稻产量影响的试验数据:施化肥量15x水稻产量330y(1)画出上表的散点图;(2)求出回归直线并且画出图形202530354045345365405445450455