用频率分布直方图估计三个特征数精.ppt
用频率分布直方图估计三个特征数第1页,本讲稿共14页平均数平均数:一组数据的算术平均数一组数据的算术平均数,即即 x=一一 众数、中位数、平均数的概念众数、中位数、平均数的概念 中位数中位数:将一组数据按大小依次排列,把:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数据的平均数)叫做这组数据的中位数 众数众数:在一组数据中,出现次数最多的:在一组数据中,出现次数最多的数据叫做这组数据的众数数据叫做这组数据的众数 第2页,本讲稿共14页例例1.在一次射击比赛中甲乙两人各射击在一次射击比赛中甲乙两人各射击10次次,射中环数如下射中环数如下:环数环数 6 7 8 9 10 甲次数甲次数 1 2 4 2 1 乙次数乙次数 2 3 3 2 分别求甲分别求甲,乙二者的众数乙二者的众数,中位数中位数,平均数平均数第3页,本讲稿共14页二二.茎叶图中的三数问题茎叶图中的三数问题甲甲乙乙123 9 80 1 3 2 0 1 1 59 7 1 1 4 2 4 0 2 0 甲的众数甲的众数 中位数中位数 平均数平均数.乙的众数乙的众数 中位数中位数 平均数平均数.第4页,本讲稿共14页三、众数、中位数、平均数与频率众数、中位数、平均数与频率分布直方图的关系分布直方图的关系 1、众数在样本数据的频率分布直方图中,就众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。是最高矩形的中点的横坐标。例如,在上一节调查的例如,在上一节调查的100位居民的月均位居民的月均用水量的问题中,从这些样本数据的频率分用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是布直方图可以看出,月均用水量的众数是2.25t.如图所示:如图所示:第5页,本讲稿共14页频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)第6页,本讲稿共14页 2、在样本中,有在样本中,有50的个体小于或等于中位的个体小于或等于中位数,也有数,也有50的个体大于或等于中位数的个体大于或等于中位数,因此,因此,在频率分布直方图中,中位数左边和右边的直方在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计下图中虚线代表居民月均用水量的中位数的估计值,此数据值为值,此数据值为2.02t.第7页,本讲稿共14页频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量月平均用水量(t)第8页,本讲稿共14页 2.02这个中位数的估计值这个中位数的估计值,与样本的中与样本的中位数值位数值2.0不一样不一样,这是因为样本数据的频这是因为样本数据的频率分布直方图率分布直方图,只是直观地表明分布的形只是直观地表明分布的形状状,但是从直方图本身得不出原始的数据但是从直方图本身得不出原始的数据内容内容,所以由频率分布直方图得到的中位所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一数估计值往往与样本的实际中位数值不一致致.2.02这个中位数的估计值这个中位数的估计值,与样本的中与样本的中位数值位数值2.0不一样不一样,你能解释其中的原因吗?你能解释其中的原因吗?第9页,本讲稿共14页 3、平均数是频率分布直方图的平均数是频率分布直方图的“重心重心”.是直方图的平衡点是直方图的平衡点.n 个样本数据的平均数个样本数据的平均数由公式由公式:X=给出给出.下图显示了居民月均用水量的平均数下图显示了居民月均用水量的平均数:x=1.973第10页,本讲稿共14页频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)第11页,本讲稿共14页三三 三种数字特征的优缺点三种数字特征的优缺点 1、众数体现了样本数据的最大集中点,、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观但它对其它数据信息的忽视使得无法客观地反映总体特征地反映总体特征.如上例中众数是如上例中众数是2.25t,它它告诉我们告诉我们,月均用水量为月均用水量为2.25t的居民数比的居民数比月均用水量为其它数值的居民数多月均用水量为其它数值的居民数多,但它但它并没有告诉我们多多少并没有告诉我们多多少.第12页,本讲稿共14页 2、中位数是样本数据所占频率的、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为假设有某一用户月均用水量为10t,那,那么它所占频率为么它所占频率为0.01,几乎不影响中位几乎不影响中位数数,但显然这一极端值是不能忽视的。但显然这一极端值是不能忽视的。第13页,本讲稿共14页 3、由于平均数与每一个样本的数、由于平均数与每一个样本的数据有关,据有关,所以任何一个样本数据的改变都所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数会引起平均数的改变,这是众数、中位数都不具有的性质都不具有的性质。也正因如此。也正因如此,与众数、,与众数、中位数比较起来,平均数可以反映出更多中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在数据中的极端值的影响较大,使平均数在估计时可靠性降低。估计时可靠性降低。第14页,本讲稿共14页