中位数平均数众数方差精选PPT.ppt
关于中位数平均数众数方差第1页,讲稿共36张,创作于星期一1频率分布直方图频率分布直方图 在在频频率分布直方率分布直方图图中,中,纵轴纵轴表示表示,数据落在各小,数据落在各小组组内的内的频频 率用率用表示,所有表示,所有长长方形面方形面积积之和之和.提示:提示:注意频率分布条形图和频率分布直方图是两个不同的概念虽然它们的注意频率分布条形图和频率分布直方图是两个不同的概念虽然它们的 横轴表示的内容是相同的,但是频率分布条形图的纵轴横轴表示的内容是相同的,但是频率分布条形图的纵轴(矩形的高矩形的高)表示频率;频表示频率;频 率分布直方图的纵轴率分布直方图的纵轴(矩形的高矩形的高)表示频率与组距的比值,其相应组距上的频率等表示频率与组距的比值,其相应组距上的频率等 于该组距上的矩形的面积于该组距上的矩形的面积频频率与率与组组距的比距的比值值小小长长方形的面方形的面积积等于等于1第2页,讲稿共36张,创作于星期一2频率分布折线图和总体密度曲线频率分布折线图和总体密度曲线 (1)频频率分布折率分布折线图线图:连连接接频频率分布直方率分布直方图图中各小中各小长长方形上端的方形上端的 ,就得就得频频率分布折率分布折线图线图 (2)总总体密度曲体密度曲线线:随着:随着样样本容量的增加,作本容量的增加,作图时图时所有的所有的组组数增加,数增加,减减 小,相小,相应应的的频频率分布折率分布折线图线图会越来越接近于一条光滑曲会越来越接近于一条光滑曲线线,即,即总总体密度曲体密度曲线线 中点中点组组距距3茎叶图茎叶图当当样样本数据本数据较较少少时时,茎叶,茎叶图图表示数据的效果表示数据的效果较较好,一是从好,一是从统计图统计图上没有上没有 丢丢失,二是方便失,二是方便记录记录与表示,但当与表示,但当样样本数据本数据较较多或数据位数多或数据位数较较多多时时,茎叶,茎叶图图就不就不太方便了太方便了原始原始数据数据第3页,讲稿共36张,创作于星期一4众数、中位数、平均数众数、中位数、平均数 (1)在一在一组组数据中,出数据中,出现现次数次数 的数据叫做的数据叫做这组这组数据的众数数据的众数 (2)将一将一组组数据按大小依次排列,把数据按大小依次排列,把处处在在 位置的一个数据位置的一个数据(或中或中间间两个数据的平两个数据的平 均数均数)叫做叫做这组这组数据的中位数数据的中位数 (3)如果有如果有n个数个数x1,x2,xn,那么,那么 叫做叫做这这n个数的平均数个数的平均数较较多多中中间间5标准差和方差标准差和方差(1)标标准差是准差是样样本数据到平均数的一种本数据到平均数的一种 (2)s.(3)方差:方差:(xn是是样样本数据,本数据,n是是样样本容量,本容量,是是样样本平均数本平均数)平均距离平均距离第4页,讲稿共36张,创作于星期一【思考思考】总体平均数与总体方差分别反映了总体的什么特征,有哪些区别?总体平均数与总体方差分别反映了总体的什么特征,有哪些区别?答案答案:总体平均数即总体期望值,是反映总体平均水平的一个值;而总体:总体平均数即总体期望值,是反映总体平均水平的一个值;而总体方差是反映总体的波动情况的一个量,二者反映的角度不同,不可相互比方差是反映总体的波动情况的一个量,二者反映的角度不同,不可相互比较,但有些问题在总体期望值差距不大时,可考虑用总体方差进一步区分较,但有些问题在总体期望值差距不大时,可考虑用总体方差进一步区分第5页,讲稿共36张,创作于星期一1(2009福建卷福建卷)一个容量一个容量为为100的的样样本,其数据的分本,其数据的分组组与各与各组组的的频频数如下:数如下:则样则样本数据落在本数据落在(10,40上的上的频频率率为为()A0.13 B0.39 C0.52 D0.64 解析:解析:由列表可知样本数据落在由列表可知样本数据落在(10,40上的频数为上的频数为52,故其频率为,故其频率为0.52.答案:答案:C组别组别(0,10(10,20(20,30(30,40(40,50(50,60(60,70频频数数1213241516137第6页,讲稿共36张,创作于星期一2.右右图图是根据是根据山山东统计东统计年年鉴鉴2007中的中的资资料作成的料作成的1997年至年至2006年我省年我省 城城镇镇居民百居民百户户家庭人口数的茎叶家庭人口数的茎叶图图图图中左中左边边的数字从左到右分的数字从左到右分别别表示表示 城城镇镇居民百居民百户户家庭人口数的百位数字和十位数字,右家庭人口数的百位数字和十位数字,右边边的数字表示城的数字表示城镇镇 居民百居民百户户家庭人口数的个位数字从家庭人口数的个位数字从图图中可以得到中可以得到1997年至年至2006年我省年我省 城城镇镇居民百居民百户户家庭人口数的平均数家庭人口数的平均数为为()A304.6 B303.6 C302.6 D301.6 解析:解析:303.6.答案:答案:B 第7页,讲稿共36张,创作于星期一3从某从某项综项综合能力合能力测试测试中抽取中抽取100人的成人的成绩绩,统计统计如表,如表,则这则这100人成人成绩绩的的标标准差准差 为为()A.B.C3 D.解析:解析:由标准差公式计算可得由标准差公式计算可得 答案:答案:B分数分数54321人数人数2010303010第8页,讲稿共36张,创作于星期一4(2009湖北卷湖北卷)如如图图是是样样本容量本容量为为200的的频频率率 分布直方分布直方图图 根据根据样样本的本的频频率分布直方率分布直方图图估估计计,样样本数据落在本数据落在6,10)内的内的频频数数为为_,数据落在数据落在2,10)内的概率内的概率约为约为_ 解析:解析:2000.08464;(0.020.08)40.4.答案:答案:640.4第9页,讲稿共36张,创作于星期一5:甲、乙两台机床同时加工直径为甲、乙两台机床同时加工直径为10 mm的零件,为了检验产品的的零件,为了检验产品的质量,从产品中各随机抽取质量,从产品中各随机抽取6件进行测量,测得数据如下件进行测量,测得数据如下(单位单位mm)甲甲:99,100,98,100,100,103乙乙:99,100,102,99,100,100(1)分别计算上述两组数据的平均数和方差;分别计算上述两组数据的平均数和方差;(2)根据根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求的计算结果,说明哪一台机床加工的这种零件更符合要求第10页,讲稿共36张,创作于星期一思维点拨:思维点拨:已知一组数据已知一组数据x1,x2,xn,其平均数为,其平均数为 ,方差为,方差为标准差为标准差为解:解:(1)(99100)2(100100)2(98100)2(100100)2(100100)2(103100)2 第11页,讲稿共36张,创作于星期一 (99100)2(100100)2(102100)2(99100)2(100100)2(100100)21.(2)因因为为,说说明甲机床加工零件波明甲机床加工零件波动动比比较较大,因此乙机床加工零件更大,因此乙机床加工零件更符合要求符合要求第12页,讲稿共36张,创作于星期一1平均数与方差都是重要的数字特征,是对总体的一种简平均数与方差都是重要的数字特征,是对总体的一种简 明的描述,它们所反映的情况有着重要的实际意义,明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准平均数、中位数、众数描述其集中趋势,方差和标准 差描述波动大小差描述波动大小附注:第13页,讲稿共36张,创作于星期一2平均数、方差的公式推广平均数、方差的公式推广 (1)若数据若数据x1,x2,xn的平均数为的平均数为 ,那么,那么mx1a,mx2a,mx3a,mxna的平均数是的平均数是m a.(2)数据数据x1,x2,xn的方差为的方差为s2.s2 数据数据x1a,x2a,xna的方差也为的方差也为s2;数据数据ax1,ax2,axn的方差为的方差为a2s2.第14页,讲稿共36张,创作于星期一 二二、众数、中位数、平均数众数、中位数、平均数与频率分布直方图的关系与频率分布直方图的关系 1、众数在样本数据的频率分布直方图中,众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。就是最高矩形的中点的横坐标。例如,在上一节调查的例如,在上一节调查的100位居民的月均位居民的月均用水量的问题中,从这些样本数据的频率分布用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是直方图可以看出,月均用水量的众数是2.25t.如如图所示:图所示:第15页,讲稿共36张,创作于星期一频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)第16页,讲稿共36张,创作于星期一 2、在样本中,有在样本中,有50的个体小于或等于中位的个体小于或等于中位数,也有数,也有50的个体大于或等于中位数的个体大于或等于中位数,因此,因此,在频率分布直方图中,中位数左边和右边的直在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为的估计值,此数据值为2.02t.第17页,讲稿共36张,创作于星期一频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)第18页,讲稿共36张,创作于星期一说明说明:2.02这个中位数的估计值这个中位数的估计值,与样本的与样本的中位数值中位数值2.0不一样不一样,这是因为样本数据这是因为样本数据的频率分布直方图的频率分布直方图,只是直观地表明分布只是直观地表明分布的形状的形状,但是从直方图本身得不出原始的数但是从直方图本身得不出原始的数据内容据内容,所以由频率分布直方图得到的中位所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一数估计值往往与样本的实际中位数值不一致致.第19页,讲稿共36张,创作于星期一 3、平均数是频率分布直方图的平均数是频率分布直方图的“重心重心”.是直方图的平衡点是直方图的平衡点.n 个样本数据的平均数由个样本数据的平均数由公式公式:X=值为:在频率分布直方图中每个小矩形值为:在频率分布直方图中每个小矩形度面积乘以小矩形的底边中点的横坐标度面积乘以小矩形的底边中点的横坐标之和之和第20页,讲稿共36张,创作于星期一三三 三种数字特征的优缺点三种数字特征的优缺点 1、众数体现了样本数据的最大集中点,、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观但它对其它数据信息的忽视使得无法客观地反映总体特征地反映总体特征.如上例中众数是如上例中众数是2.25t,它它告诉我们告诉我们,月均用水量为月均用水量为2.25t的居民数比的居民数比月均用水量为其它数值的居民数多月均用水量为其它数值的居民数多,但它并但它并没有告诉我们多多少没有告诉我们多多少.第22页,讲稿共36张,创作于星期一 2、中位数是样本数据所占频率的等、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为某一用户月均用水量为10t,那么它所占频,那么它所占频率为率为0.01,几乎不影响中位数几乎不影响中位数,但显然这一但显然这一极端值是不能忽视的。极端值是不能忽视的。第23页,讲稿共36张,创作于星期一 3、由于平均数与每一个样本的数据、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此不具有的性质。也正因如此,与众数、中,与众数、中位数比较起来,平均数可以反映出更多的位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估据中的极端值的影响较大,使平均数在估计时可靠性降低。计时可靠性降低。第24页,讲稿共36张,创作于星期一在频率分布直方图中,中位数、众数与平均数如何确定?在频率分布直方图中,中位数、众数与平均数如何确定?提示:提示:在频率分布直方图中,中位数左边和右边的直在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值,而平均方图的面积相等,由此可以估计中位数的值,而平均数的估计值等于频率分布直方图中每个小矩形的面积数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和乘以小矩形底边中点的横坐标之和.众数是最高的矩形众数是最高的矩形的中点的横坐标的中点的横坐标.第25页,讲稿共36张,创作于星期一1(2009年上海高考)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”,根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是()A甲地:总体均值为3,中位数为4B乙地:总体均值为1,总体方差大于0C丙地:中位数为2,众数为3D丁地:总体均值为2,总体方差为3第26页,讲稿共36张,创作于星期一【解析解析】由于甲地总体均值为3,中位数为4,即中间两个数(第5、6天)人数的平均数为4,因此后面的人数可以大于7,故甲地不符合乙地中总体均值为1,因此这10天的感染人数总和为10,又由于方差大于0,故这10天中不可能每天都是1,可以有一天大于7,故乙地不符合丙地中中位数为2,众数为3,3出现的最多,并且可以出现8,故丙地不符合故丁地符合【答案答案】D第27页,讲稿共36张,创作于星期一2:(2009安徽高考安徽高考)某良种培育基地正在培育一种小麦新品种某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种将其与原有的一个优良品种B进行对照试验两种小麦各种植进行对照试验两种小麦各种植了了25亩,所得亩产数据亩,所得亩产数据(单位:千克单位:千克)如下:如下:品种品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)完成数据的茎叶图;完成数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种通过观察茎叶图,对品种A与与B的亩产量及其稳定性进行比较,写出统计结论的亩产量及其稳定性进行比较,写出统计结论第28页,讲稿共36张,创作于星期一【解解】(1)第29页,讲稿共36张,创作于星期一(2)由于每个品种的数据都只有由于每个品种的数据都只有25个,样本不大,画茎叶图很方个,样本不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数便于比较,没有任何信息损失,而且还可以随时记录新的数据据(3)通过观察茎叶图可以看出:通过观察茎叶图可以看出:品种品种A的亩产平均数的亩产平均数(或均值或均值)比比品种品种B高;高;品种品种A的亩产标准差的亩产标准差(或方差或方差)比品种比品种B大,故品种大,故品种A的的亩产稳定性较差亩产稳定性较差第30页,讲稿共36张,创作于星期一3从甲、乙两品种的棉花中各抽测了从甲、乙两品种的棉花中各抽测了25根棉花的纤维长度根棉花的纤维长度 (单位:单位:mm),结果如下:,结果如下:甲品种:甲品种:271273280285285287292294295 301303303307308310314319323 325325328331334337352 乙品种:乙品种:284292295304306307312313315 315316318318320322322324327 32933133333633734335609海南宁夏第31页,讲稿共36张,创作于星期一由以上数据设计了如下茎叶图:由以上数据设计了如下茎叶图:根据茎叶图,对甲、乙两品种棉花的纤维长度作比较,根据茎叶图,对甲、乙两品种棉花的纤维长度作比较,写出两个统计结论:写出两个统计结论:第32页,讲稿共36张,创作于星期一解:解:可从以下几个结论中任意写出两个可从以下几个结论中任意写出两个乙品种棉花的纤维平均长度大于甲品种棉花的纤维平均长乙品种棉花的纤维平均长度大于甲品种棉花的纤维平均长度度(或:乙品种棉花的纤维长度普遍大于甲品种棉花的纤维长度或:乙品种棉花的纤维长度普遍大于甲品种棉花的纤维长度)甲品种棉花的纤维长度较乙品种棉花的纤维长度更分散甲品种棉花的纤维长度较乙品种棉花的纤维长度更分散(或:乙或:乙品种棉花的纤维长度较甲品种棉花的纤维长度更集中品种棉花的纤维长度较甲品种棉花的纤维长度更集中(稳定稳定)甲品甲品种棉花的纤维长度的分散程度比乙品种棉花的纤维长度的分种棉花的纤维长度的分散程度比乙品种棉花的纤维长度的分散程度更大散程度更大)甲品种棉花的纤维长度的中位数为甲品种棉花的纤维长度的中位数为307 mm,乙品种棉花的,乙品种棉花的纤维长度的中位数为纤维长度的中位数为318 mm.乙品种棉花的纤维长度基本上是对称的,而且大多集中在中乙品种棉花的纤维长度基本上是对称的,而且大多集中在中间间(均值附近均值附近)甲品种棉花的纤维长度除一个特殊值甲品种棉花的纤维长度除一个特殊值352外,也外,也大致对称,其分布较均匀大致对称,其分布较均匀.第33页,讲稿共36张,创作于星期一4.(2009广东高考广东高考)随机抽取某中学甲、乙两班各随机抽取某中学甲、乙两班各10名同学,名同学,测量他们的身高测量他们的身高(单位:单位:cm),获得身高数据的茎叶图如图:,获得身高数据的茎叶图如图:(1)根据茎叶图判断哪个班的平均身高较高;根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差;计算甲班的样本方差;第34页,讲稿共36张,创作于星期一解解(1)乙班的平均身高较高乙班的平均身高较高(可由茎叶图判断或计算得出可由茎叶图判断或计算得出)(2)因为甲班的平均身高为因为甲班的平均身高为所以甲班的样本方差所以甲班的样本方差 21222922221272820257.2.第35页,讲稿共36张,创作于星期一感谢大家观看第36页,讲稿共36张,创作于星期一