统计与统计案例精选.doc
统计与统计案例 篇一:统计与统计案例 统计与统计案例 一、 完全解读考纲 考点整合 1、几个根本概念:(1)总体:;(2)个体:;(3)样本:;(4)样本容量:。 2、简单随机抽样:(1)定义:设一个总体含有N个个体,从中逐一不放回地抽取n个个体作为样本(n?N),假设每次抽取时总体内的各个个体被抽到的时机都相等,就把这种抽样方法叫做简单随机抽样;(2)最常用的简单随机抽样的方法: 3、系统抽样:(1)定义:当总体中的个数较多时,可将总体分成平衡的几个部分,然后按照预先定出的规那么,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样);(2)步骤:假设要沉着量为N的总体中抽取容量为n的样本,先将总体的N个个体编号;确定分段间隔k,对编号进展分段,当 NN 是整数时,取k?;nn 在第1段用确定第一个个体编号l(l?k);按照一定的规那么抽取样本,通常是将l加上间隔k得到第2个个体编号l?k,再加k得到第3个个体编号l?2k,依次进展下去,第 n 个个体编号为,直到获取整个样本。 4、分层抽样:(1)定义:在抽样时,将总体分成互不相交的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样;(2)分层抽样的应用范围:当总体是由差异明显的几部分组成时,往往选用分层抽样。 例1、某次有70000名学生参加,为了理解这70000名考生的数学成绩,从中抽取1000名考生的数学成绩进展统计分析,在这个征询题中,有以下四种说法:1000名考生是总体的一个样本;可用1000名考生数学成绩的平均数区可能总体平均数;70000名考生的数学成绩是总体;样本容量是1000。其中正确的说法有( ) A、1种;B、2种;C、3种;D、4种 例2、一个总体中有100个个体,随机编号为0,1,2,?,99,依编号顺序平均分成10个小组,组号依次为1,2,3,?,10。现用系统抽样方法抽取一个容量为10的样本,规定假设在第1组随机抽取的号码为m,那么在第k小组中抽取的号码个位数字与m?k的个位数字一样,假设m?6,那么在第7组中的抽取的号码是。 例3、某中学高中部有三个年级,其中高三年级有600人,采纳分层抽样的方法抽取一个容量为45的样本,已经明白高一年级抽取15人,高二年级抽取10人,那么高中部一共有多少人?5、用样本的数字特征可能总体的数字特征: (1)众数、中位数:在一组数据中出现的数据叫做这组数据的众数;将一组数据按从大到小(或从小到大)陈列,处在上的一个数据(或中间两个数据的平均数)叫做这组数据的中位数; (2)平均数和方差:假设这n个数据是x1,x2,?,xn,那么 叫做这n个数据平均数;假设这n个数据是x1,x2,?,xn,那么叫做这n个数据方差,同时,叫做这n个数据标准差。 6、频率分布直方图、折线图与茎叶图: 样本中所有数据(或数据组)的频率和样本容量的比,确实是该数据的频率;所有数据(或数据组)的频率的分布变化规律叫做频率分布,可以用频率分布直方图、折线图、茎叶图来表示。频率分布直方图,详细作法如下 求(即一组数据中最大值与最小值的差);决定; 将数据 ;列 ;画 。 注:频率分布直方图中小长方形的面积组距× 频率 频率。 组距 例4 为了理解初三学生女生身高情况,某中学对初三女生身高进展了一次测量,所得数据整理后列出了频率分布表如下: 例5 有关部门从甲、乙两个城市所有的自动售货机中分别随机抽取了16台,记录下一上午各自的销售情况:(单位:元) 甲:18,8,10,43,5,30,10,22,6,27,25,58,14,18,30,41;(1)求出表中m,n,M,N表示的数分别是多少? (2)画出频率分布直方图; (3)全体女生中身高在哪组范围内的人数最多? 乙:22,31,32,42,20,27,48,23,38,43,12,34,18,10,34,23。 (1)请写出这两组数据的茎叶图; (2)将这两组数据进展比较分析,你能得到什么结论? 7、线性回归方程与回归直线 1、线性相关:从散点图上看,假设这些点从整体上看大致分布在一条直线附近,称这两个变量之间具有线性相关关系,这条直线叫回归直线 2、最小二乘法:使得样本数据的点到回归直线的间隔之和最小的方法: ?bx?a,b,a叫回归系3、回归方程:两个具有线性相关关系的的变量,其线性回归方程y 数.其中b? ?xy ii?1 n n i ?nxy ,a?y?bx.点(x,y)叫回归直线的样本中心点. ?x i?1 2i ?nx 2 留意:回归直线一定通过样本的中心点。 8、独立性检验: (1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量,例如:是否吸烟,宗教信仰,国籍等; (2)列出两个变量的频数表,称为列联表; (3)一般地,假设有两个分类变量X和Y,它们的值域分别是x1,x2和y1,y2,其样本频数列联表(称为2×2列联表)为: n(ad?bc)2 K?(其中n?a? (a?b)(c?d)(a?c)(b?d) 2 2 ,这种用K来确定在多大程度上可以认为“两个分类变量有关系”b?c?d为样本容量) 的方法称为两个分类变量的独立性检验。 当K2?3.841时,有95%的把握说事件A与B有关;当K2?6.635时,有99%的把握说 事件A与B有关;当K2?3.841时,认为事件A与B无关。 例6 下表提供了某厂节能降耗技术改造后消费甲产品过程中记录的产量x(吨)与相应的消费能耗y(吨标准煤)的几组对照数据。(1)请画出上表数据的散点图; ?a?; (2)请按照上表提供的数据,用最小二乘法求出y关于x的线性回归方程y?bx (3)已经明白该厂技改前100吨甲产品的消费能耗为90吨标准煤,试按照(2)求出的线性回归方程,预测消费100吨甲产品的消费能耗比技改前降低多少吨标准煤? (参考数值:3?2.5?4?3?5?4?6?4.5?66.5) 例7 有甲乙两个班级进展数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表:已经明白在全部105人中随机抽取1人为优秀的概率为(1)请完成上面的列联表; 。 7 (2)按照列联表的数据,假设按95的可靠性要求,能否认为“成绩与班级有关系”?二、把握命题规律 题型调查 题型1以实际征询题为背景,对抽样方法、统计图表、样本的数字特征进展调查 1、用系统抽样法(按等间隔的规那么),要从160名学生中抽取容量为20的样本,将160名学生从1160编号按编号顺序平均分成20组(18号,916号,?,153160号),假设第16组应抽出的号码为125,那么第一组中按此抽签方法确定的号码是( ) A7 B5 C4 D3 2、某校共有学生2 000名,各年级男、女学生人数如下表已经明白在全校学生中随机抽取1名,抽到二年级女生的概率是0.19,现用分层抽样的方法在全校抽取64名学生,那么应在三年级抽取的学生人数为( )A.24 B18 C3、(2012·合肥模拟)A,B两名同学在5次数学考试中的成绩统计茎叶图如图947所示,假设A,B两人的平均成绩分别是XA,XB,那么以下结论正确的选项( ) AXAXB,B比A成绩稳定 BXAXB,B比A成绩稳定 CXAXB,A比B成绩稳定 DXAXB,A比B成绩稳定 4、某校100名学生的数学测试成绩分布直方图如图948所示,分数不低于a即为优秀,假设优秀的人数为20人,那么a的可能值是( ) 图948 A130 B140 C134 D137 题型2 统计与概率综合调查 5、(2012·郑州质检)某中学共有1000名学生参加了该地区高三第一次质量检测的数学考试,数学成绩如下表所示: 篇二:高中数学知识点之统计及统计案例分析 统计概率 新泰一中 闫辉 例1 在开展的综合实践活动中,某班进展了小制造评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如下列图),已经明白从左到右各长方形高的比为234641,第三组的频数为12,请解答以下征询题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件? (3)通过评比,第四组和第六组分别有10件、2件作品获奖,征询这两组哪组获奖率高? 解 (1)依题意知第三组的频率为 4 2?3?4?6?4?1 = 15 , 又由于第三组的频数为12, 本次活动的参评作品数为 121=60. 5 (2)按照频率分布直方图,可以看出第四组上交的作品数量最多,共有60× 6 2?3?4?6?4?1 =18(件). (3)第四组的获奖率是10=518 9 , 第六组上交的作品数量为 60× 1 2?3?4?6?4?1 =3(件), 第六组的获奖率为2=63 9 ,显然第六组的获奖率高. 例2(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98, 99; 乙:110, 115, 90, 85, 75, 115, 110. (1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示; (3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)由于间隔时间一样,故是系统抽样. (2)茎叶图如下: 选校网 专业大全 历年 上万张大学图片 大学视频 院校库 2分 5分 (3)甲车间: 平均值: 1= 17 (102+101+99+98+103+98+99)=100, 17 7分 9分 方差:s12=乙车间: (102-100)2+(101-100)2+?+(99-100)23.428 6. 平均值:2=方差:s2= 2 17 (110+115+90+85+75+115+110)=100, 2 2 2 11分 13分 14分 17 (110-100)+(115-100)+?+(110-100)228.571 4. 1=2,s12s22,甲车间产品稳定. 1.为了理解小学生的体能情况,抽取了某小学同年级部分学生进展跳绳测试,将所得数据整理后,画出频率分布直方图如下列图,已经明白图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5. (1)求第四小组的频率; (2)参加这次测试的学生人数是多少? (3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 那么有n= 第一小组频数第一小组频率 =5÷0.1=50(人). (3)由于0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,因此学生跳绳次数的中位数落在第三小组内. 2.从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分) 40,50),2;50,60),3;60,70),10;70,80),15; 80,90),12;90,100,8. (1)列出样本的频率分布表; (2)画出频率分布直方图; (3)可能成绩在60,90)分的学生比例; (4)可能成绩在85分以下的学生比例. 选校网 专业大全 历年分数线 上万张大学图片 大学视频 院校库解 (1)频率分布表如下: (2)频率分布直方图如下列图. (3)成绩在60,90)的学生比例即为学生成绩在60,90)的频率,即为(0.20+0.30+0.24)×100%=74%. (4)成绩在85分以下的学生比例即为学生成绩缺乏85分的频率. 设相应的频率为b. 由 b?0.600.84?0.6085?80 = 90?80 ,故b=0.72. 可能成绩在85分以下的学生约占72%. 一、填空题的说法中不正确的选项 . 直方图的高表示取某数的频率 直方图的高表示该组上的个体在样本中出现的频率 直方图的高表示该组上的个体数与组距的比值 直方图的高表示该组上的个体在样本中出现的频率与组距的比值 2.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分的频率分布直方图. 设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学 生人数为y,那么从频率分布直方图中可分析出x和y分别为 . 答案 0.9,35 3.(2009·启东质检)为理解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力率分布直方图如下列图,由于不慎,部分数据丧失,但明白前四组的频数成等比数列,后六组数列,设最大频率为a,视 力在4.6到5.0之间的学生数为b,那么a,b的值分别为 . 选校网 专业大全 历年分数线 上万张大学图片 大学视频 院校库 情况,得到频的频数成等差答案 0.27,78 4.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如下列图,假设甲、乙两人的平均成绩 分别是x甲、x乙,那么x甲x乙, 比 稳定. 答案 乙 甲 二、解答题 5.在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进展整小组的频数是40. 理后分成五 组,绘制如下列图的频率分布直方图.已经明白图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二 (1)求第二小组的频率,并补全这个频率分布直方图; (2)求这两个班参赛的学生人数是多少? (3)这两个班参赛学生的成绩的中位数应落在第几小组内?(不必说明理由) 解 (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05. 第二小组的频率为: 1.00-(0.30+0.15+0.10+0.05)=0.40. 的高= 频率组距 = =0.04.那么补全的直方图如下列图. (2)设九年级两个班参赛的学生人数为x人. 第二小组的频数为40人,频率为0.40, 40x =0.40,解得x=100(人). 因此九年级两个班参赛的学生人数为100人. (3)由于0.3×100=30,0.4×100=40,0.15×100=15,0.10×100=10,0.05×100=5, 即第一、第二、第三、第四、第五小组的频数分别为30,40,15,10,5,因此九年级两个班参赛学生的成绩的中位数应落在第二小组内. 6.为了理解学生的体能情况,某校抽取部分学生进展一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如下列图),图中从左到右各小长方形面积之比为24171593,第二小组频数为12. 选校网 专业大全 历年分数线 上万张大学图片 大学视频 院校库(1)第二小组的频率是多少?样本容量是多少? (2)假设次数在110以上(含110次)为达标,试可能该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的方式反映了数据落在各小组内的频率大小, 因此第二小组的频率为: 4 2?4?17?15?9?3 =0.08. , 又由于频率= 第二小组频数样本容量第二小组频数第二小组频率 因此样本容量=150. (2)由图可可能该学校高一学生的达标率约为 17?15?9?32?4?17?15?9?3 ×100%=88%. (3)由已经明白可得各小组的频数依次为6,12,51,45,27,9,因此前三组的频数之和为69,前四组的频数之和为114,因此跳绳次数的中位数落在第四小组内. 7.某赛季甲、乙两名篮球运发动每场竞赛得分情况如下: 甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50; 乙的得分:8,13,14,16,23,26,28,33,38,39,59. (1)制造茎叶图,并对两名运发动的成绩进展比较; (2)计算上述两组数据的平均数和方差,并比较两名运发动的成绩和稳定性;(3)能否说明甲的成绩一定比乙好,为什么? 解 (1)制造茎叶图如下: 从茎叶图上可看出,甲运发动发挥比较稳定,总体得分情况比乙好. 选校网 专业大全 历年分数线 上万张大学图片 大学视频 院校库篇三:统计与统计案例 第4讲 统计与统计案例 1随机抽样 (1)简单随机抽样特点是从总体中逐一抽取适用范围:总体中的个体较少 (2)系统抽样特点是将总体均分成几部分,按事先确定的规那么在各部分中抽取适用范围:总体中的个体数较多 (3)分层抽样特点是将总体分成几层,分层进展抽取适用范围:总体由差异明显的几部分组成 2常用的统计图表 (1)频率分布直方图 小长方形的面积组距× 频率 频率; 组距 各小长方形的面积之和等于1; 频率1 小长方形的高,所有小长方形的高的和为组距组距(2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好 3用样本的数字特征可能总体的数字特征 (1)众数、中位数、平均数(2)方差:s2(x1x)2(x2xx1,x2和y1,y2的分类变量X和Y,其样本频数列联表是 2 2 n?adbc?2 那么K()其中nabcd为样本容量) ?ab?cd?ac?bd? 热点一 抽样方法 例1 (1)(2013·陕西)某单位有840名职工,现采纳系统抽样方法抽取42人做征询卷调查,将840人按1,2,?,840随机编号,那么抽取的42人中,编号落入区间481,720的人数为( ) A11 B12 C13 D14 (2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已经明白从学生中抽取的人数为150,那么该学校的教师人数是_ (1)某校高一、分别有学生人数为495,493,482,现采纳系统抽样方法, 抽取49人做征询卷调查,将高一、高二、高三学生依次随机按1,2,3,?,1 470编号,假设第1组由简单随机抽样方法抽取的号码为23,那么高二应抽取的学生人数为( ) A15 B16 C17D18 (2)(2014·广东)已经明白某地区中小学生人数和近视情况分别如图和图所示为理解该地区中小学生的近视构成缘故,用分层抽样的方法抽取2%的学生进展调查,那么样本容量和抽取的高中生近视人数分别为( ) A200,20 B100,20 C200,10 D100,10热点二 用样本可能总体 例2 (1)(2014·山东)为了研究某药品的疗效,选取假设干名志愿者进展临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为12,13),13,14),14,15),15,16),16,17,将其按从左到右的顺序分别编号为第一组,第二组,?,第五组,如图是按照试验数据制成的频率分布直方图已经明白第一组与第二组共有20人,第三组中没有疗效的有6人,那么第三组中有疗效的人数为() A6B8 C12 D18 (1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进展统计,其频 率分布直方图如下列图,已经明白9时至10时的销售额为2.5万元,那么11时至12时的销售额为_万元 (2)(2014·陕西)设样本数据x1,x2,?,x10的均值和方差分别为1和4,假设yixia(a为非零常数,i1,2,?,10),那么y1,y2,?,y10的均值和方差分别为( ) A1a,4C1,4 热点三 统计案例 例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y和房屋的面积x的数据.B1a,4a D1,4a 按照上表可得线性回归方程ybxa中的b0.196 2,那么面积为150 m2的房屋的销售价格约为_万元 (2)(2014·江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,那么与性别有关联的可能性最大的变量是( ) 表1 表4 A.成绩 B视力(1)已经明白x、y取值如下表: (2)某研究机构为了研究人的脚的大小与身高之间的关系,随机抽测了20人,假设“身高大于175厘米”的为“高个”,“身高小于等于175厘米”的为“非高个”,“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为“非大脚”得以下2×2列联表: 那么在犯错误的概率不超过 (附: P(K2k) k ) 1随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例” 2用样本可能总体 (1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1. (2)众数、中位数及平均数的异同:众数、中位数及平均数都是描绘一组数据集中趋势的量,平均数是最重要的量 (3)当总体的个体数较少时,可直截了当分析总体取值的频率分布规律而得到总体分布;当总体容量特别大时,通常从总体中抽取一个样本,分析它的频率分布,以此可能总体分布 1n1n 总体期望的可能,计算样本平均值xx.总体方差(标准差)的可能:方差 (x单位:cm),所得数据均在区间80,130上,其频率分布直方图如下列图,那么在抽测的60株树木中,有_株树木的底部周长小于100 cm.