ch统计分布的数值特征实用.pptx
《ch统计分布的数值特征实用.pptx》由会员分享,可在线阅读,更多相关《ch统计分布的数值特征实用.pptx(96页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 介绍如何将一个现象分布的特征,提炼出来。以及这些特征值有什么作用?怎样计算?Ch4 主要内容Ch4 统计分布的数值特征4.1 数值平均数4.2 位置平均数4.3 分布的离散程度4.4 分布的偏度和峰度第1页/共96页Ch4 学习要求1,掌握统计平均数的计算及作用2,掌握分布的离散程度指标的作用及计算3,掌握分布的偏度和峰度的计算Ch4 统计分布的数值特征4.1 数值平均数4.2 位置平均数4.3 分布的离散程度4.4 分布的偏度和峰度第2页/共96页Ch4 统计分布的数值特征4.1 统计平均数数值平均数4.2 统计平均数位置平均数4.3 分布的离散程度4.4 分布的偏度和峰度统计学原理第3页
2、/共96页4.1 数值平均数统计平均数概述图41 统计平均数概述统计平均数静态、分布平均数数列平均数动态、序时平均数数值平均数位置平均数算术平均数调和平均数几何平均数中位数众数其他分位数Ch4 统计分布的数值特征4.1 数值平均数4.2 位置平均数4.3 分布的离散程度4.4 分布的偏度和峰度第4页/共96页4.1 数值平均数4.1.1 算术平均数4.1.2 调和平均数4.1.3 几何平均数Ch4 统计分布的数值特征4.1 数值平均数4.2 位置平均数4.3 分布的离散程度4.4 分布的偏度和峰度返回第5页/共96页算术平均数,是算术级数数列 x1,x2,x3,xn-1,xn;的平均数。所谓算
3、术级数,就是指同质总体各单位之间,数量标志值的差异变动,往往是独立的或者不相关的。算术平均数是最常用的一种统计平均数。它的理论公式是标志变量的算术平均数=标志总量/总体单位数(4.1.1)算术平均数的具体计算方法,根据标志数列的分布特点确定:简单算术平均数方法和加权算术平均数方法。不论采用什么方法计算算术平均数,其计算内容在概念上必须满足理论公式(4.1.1)。4.1.1 算术平均数 Ch4 统计分布的数值特征 4.1 数值平均数第6页/共96页一、简单算术平均数对未分组整理的算术级数数列 x1,x2,x3,xn-1,xn;其标志序列总量为x1+x2+x3+xn-1+xn,总体单位数为n,则数
4、据序列分布的算术平均数(4.1.2)该方法主要适用于,在总体单位数很少,而且已知各单位数量标志值的情况下,可直接将各单位的数量标志值相加,求出标志总量,再除以总体单位数,得出平均数。这种计算平均数的方法,称为简单算术平均数方法。4.1.1 算术平均数 Ch4 统计分布的数值特征 4.1 数值平均数第7页/共96页【例4-1】观察某路口在若干个10分钟内的车流量,资料记录如下:26,26,38,24,32,22,15,33,19,26,21,29,16,20,34,24,27,30,31,33。试计算该路口在10分钟内的车流量强度。解:车流量强度就是平均车流量。观察了20个10分钟,每10分钟当
5、成一个时间段,每个时间段记录了一个车流量数据。因此,这20个时间段的平均车流量为通过这个结果,我们对该路口的车流量规律,有了一个大致的了解,即每10分钟平均通过26.3辆。4.1.1 算术平均数 Ch4 统计分布的数值特征 4.1 数值平均数第8页/共96页二、加权算术平均数 加权算术平均数,主要适用于分组数据的平均数计算。分组数据一般也有两种:一种是单变量分组数据;另一种是组距式变量分组数据。这两种数据资料条件,其计算方法,当然也有两种。4.1.1 算术平均数 Ch4 统计分布的数值特征 4.1 数值平均数第9页/共96页如果分组整理后的分布为单变量分布。设整理后的标志数据序列xi及相应的频
6、数序列fi为于是,标志数据序列xi的算术平均数为(4.1.3)此称为加权算术平均公式。可以证明,当f1=f2=fn时,加权算术平均公式,将化为简单算术平均公式。4.1.1 算术平均数 Ch4 统计分布的数值特征 4.1 数值平均数组数i标志变量xi频数fi1x1f12x2f23x3f3n-1xn-1f n-1nxnf n-合计f表41单变量分组表第10页/共96页【例4-2】对某公司员工工资数据进行整理,结果如下:计算该公司人平均月工资。(p54)解:4.1.1 算术平均数 Ch4 统计分布的数值特征 4.1 数值平均数组数i工资变量xi频数fi总工资xi fi1x1=800f1=58005=
7、40002x2=1000f2=10100010=100003x3=1200f3=20120020=240004x4=1500f4=715007=105005x5=2000f5=520005=100006x6=2500f6=325003=7500-合计f=5066000表42单公司员工工资分组计算表第11页/共96页于是,可得解:4.1.1 算术平均数 Ch4 统计分布的数值特征 4.1 数值平均数图42 某公司员工工资分布竖线图20000频数(人)工资5101501000300020第12页/共96页4.4.1 算术平均数如果整理后的分布为组距变量分布,则必须用组中值变量代替组距变量xi。设数
8、据组中值变量序列及相应的频数序列fi为则组距变量的算术平均数,可用下式估计(4.1.4)其中:(4.1.5)组数i分组标志变量xi组中值频数fi频率1 L1U1 f1.2 L2U2 f2.3L3U3 f3.n LnUn fn.-合计 f表43某标志组距变量分组表Ch4 统计分布的数值特征 4.1 数值平均数第13页/共96页4.1.1 算术平均数【例4-3】以上下班的前后30分钟为一个观察时段,连续观察了50个工作日,得到某路口的车流量数据分布如下表。试计算其日平均车流量强度。组数i车流量变量xi日数fi组中值日车流量总数fi1105110f1=3107.5107.53=322.5211011
9、5 f2=5112.5112.55=562.53115120 f3=8117.5117.58=9404120125 f4=14122.5122.514=17155125130 f5=10127.5127.510=12756130135 f5=6132.5132.56=7957135140 f5=4137.5137.54=550-合计f=50-6160表44 某路口日平均车流量计算表Ch4 统计分布的数值特征 4.1 数值平均数第14页/共96页4.1.1 算术平均数解:上表是50个工作日车流量的分布情况,只能作大概估计其日平均车流量数。方法是计算其各组的组中值,用其组中值变量代替各组的一般水平
10、,然后进行加权求平均。即同时,我们也整理得到了该路口比较准确的车流量分布规律。Ch4 统计分布的数值特征 4.1 数值平均数图43 某路口车流量分布f(x).x14013012011051015123.21000第15页/共96页4.1.1 算术平均数三、算术平均数的数学性质各变量值与算术平均数的离差之和为零。(4.1.6)各变量值与算术平均数的离差的平方和最小。(4.1.7)两个独立的同质变量代数和的平均数,等于各变量平均数的代数和。(4.1.8)两个独立的同质变量乘积的平均数,等于各变量平均数的乘积。(4.1.9)Ch4 统计分布的数值特征 4.1 数值平均数返回第16页/共96页4.1.
11、2 调和平均数调和平均数H调和平均数,也叫标志变量的倒数的算术平均数的倒数,它是算术平均数的另一种表现形式。在实际工作中,由于所获得的数据不同,有时不能直接采取算术平均公式计算平均数,这就需要使用调和平均的形式,来计算平均数。调和平均数的计算方法,也是根据数列的分布特点确定。通常采用两种形式:简单调和平均数和加权调和平均数。Ch4 统计分布的数值特征 4.1 数值平均数第17页/共96页4.1.2 调和平均数一、加权调和平均数 为了更好地理解调和平均数与调和平均数的应用场合,我们看下面的例子。【例4-4】某蔬菜批发市场三种蔬菜日成交数量数据如下。计算三种蔬菜的日平均批发价格。表45 某市场蔬菜
12、日成交数据分组表 Ch4 统计分布的数值特征 4.1 数值平均数组数i蔬菜名称批发价格xi成交金mi=xifi1a1.280002b0.5125003c0.86400-合计36900第18页/共96页4.1.2 调和平均数解:从平均批发价格的概念上看,其计算方法应该是:平均批发价格=成交金额/成交量;它的公式也应该是一个批发价格xi的加权平均公式。但是,成交量fi未知。所以必须将各组的成交量fi换算出来。利用mi=xifi关系,有fi=mi/xi,即表46 三种蔬菜的日批发数据及调和平均数计算表则三种蔬菜的日平均批发价格为 Ch4 统计分布的数值特征 4.1 数值平均数组数i蔬菜名称批发价格x
13、i成交金额mi=xifi成交量fi=mi/xi1a1.21800018000/1.2=150002b0.51250012500/0.5=250003c0.864006400/0.8=8000-合计3690048000第19页/共96页4.1.2 调和平均数一、加权调和平均数因此,我们令 (4.1.10)为在某些特殊条件下的平均数计算方法,这种方法就是调和方法,其中(4.1.10)式就为加权调和平均公式。Ch4 统计分布的数值特征 4.1 数值平均数第20页/共96页4.1.2 调和平均数三、调和平均数与算术平均数的关系:在mi=xifi条件下,可以证明,调和平均公式与算术公式是等价的。调和平均
14、数,是算术平均数的一种变化形式。Ch4 统计分布的数值特征 4.1 数值平均数是由于使用了不同的数据第21页/共96页4.1.2 调和平均数二、简单调和平均数加权调和平均公式,适用于各组的标志变量代表值xi已知,且已知各组的标志总量mi。但是如果各组的标志总量m1=m2=mn。则调和平均公式可化为(4.1.11)令yi=1/xi,又由于yi=1/xi,就是标志变量xi的倒数。则(4.1.11)可化为(4.1.12)于是也可以说,调和平均数,是标志变量的倒数的算术平均数的倒数。公式(4.1.11)式也叫简单调和平均公式。它的适用条件是,已知各组的标志变量代表值xi,且各组的标志总量mi恰好相等。
15、Ch4 统计分布的数值特征 4.1 数值平均数第22页/共96页4.1.2 调和平均数调和平均数,有着比算术平均数更好的使用空间。比如,欲了解某商品的市场变化规律,就必须收集市场逐日的商品价格,但逐日的商品价格资料搜集,是非常困难的,因为你必须了解每日各个市场,不同时间的价格资料和成交量资料,这种要求不仅困难而且也不可行。因此,在大多数情况下,逐日的商品价格资料收集,是采用市场抽样的方法。【例4-5】市场抽样。指派一个调查员到市场上去购买某商品,抽样理论可以证明,在完全随机的情况下,调查员的购买成本,就是市场的销售价格;调查员依次在三个不同的市场,购买了某商品,每次消费1元钱;其获得的资料如下
16、:Ch4 统计分布的数值特征 4.1 数值平均数组数i蔬菜名称批发价格xi成交金额mi=xifi1a1.212b0.513c0.81-合计3第23页/共96页4.1.2 调和平均数求该商品的日平均销售价格。解:抽样理论可以证明,在完全随机的情况下,调查员的购买成本就是市场的销售价格;而该日的购买价格=消费金额/购买数量。已知,消费金额=1+1+1=3;而购买数量=1/1.2+1/1.5+1/1.3。因此有即,该商品该日的平均销售价格为1.322034元。显然,这里该日的平均销售价格计算,使用了简单调和平均公式。如果考虑到各个市场的价格差异对消费者消费欲望的影响,则调整各市场的消费金额,便可以将
17、计算推广到加权调和平均公式。Ch4 统计分布的数值特征 4.1 数值平均数返回第24页/共96页4.1.3 几何平均数算术平均数或调和平均数的计算,各个标志变量值xi是独立不相干的。如果xi是非独立和相关的,则标志变量xi数列的平均数计算,就不能再采用算术方法或调和方法,而必须使用其他方法。几何平均数,是几何级数的平均数。它的xi数列特点是,xi=x0Gi,i=1,2,.,n,标志变量xi的每一项值的变化,基本与该值的前后项有关,存在时间上相互衔接的比率关系,xi数列是一个几何级数数列。例如,流水线上的产品合格率数列,在复利条件下的本利率数列变动,等等,都是几何级数数列。几何平均数的计算方法,
18、也是根据数列的分布特点确定:简单几何平均公式和加权几何平均公式。Ch4 统计分布的数值特征 4.1 数值平均数第25页/共96页4.1.3 几何平均数一、简单几何平均公式简单几何平均数是n个变量值乘积的n次方根。具体地说,如果有xi数列 x1,x2,x3,xn-1,xn;满足几何级数变化的要求,则xi数列的平均数 (4.1.13)Ch4 统计分布的数值特征 4.1 数值平均数第26页/共96页4.1.3 几何平均数【例4-6】某产品的完整生产过程,要经过3道流水作业工序,这3道工序的产品合格率,分别为80%,90%,95%。求整个生产流程的产品总平均合格率。解:因为,任意一道工序的产品合格与否
19、,都与上一道工序有关。设流水作业的初级投入为y,每个工序的产品平均合格率都为G,则整个生产流程的产品总合格率R=yG G G/y=G3;80%,90%,95%是流水作业的状态合格率,同样有整个生产流程的产品总合格率R=80%90%95%=G3。于是即,整个生产流程的产品总平均合格率为88.1%。Ch4 统计分布的数值特征 4.1 数值平均数第27页/共96页4.1.3 几何平均数【例4-7】一位投资者持有一种股票。1996年,1997年,1998年,1999年的收益率分别为4.5%,2.0%,3.5%,5.4%。求投资者这4年的年平均收益率。解:本题的正确答案是年平均收益而非原因是在按复利计算
20、收益的条件下,只有益本率1+r才具有几何平均数性质;于是Ch4 统计分布的数值特征 4.1 数值平均数第28页/共96页4.1.3 几何平均数二、加权几何平均公式如果几个变量值出现的次数不同时,计算其平均数应该采用加权几何平均方法(4.1.14)该公式的导出,类似于对几何级数数列(x1,x1);(x2,x2);(x3,x3);,;(xn,xn);f1个,f2个,f3个,.,fn个;求简单几何平均数。Ch4 统计分布的数值特征 4.1 数值平均数第29页/共96页4.1.3 几何平均数【例4-8】某项为期20年的投资,其收益按复利计算,前10年的年利率为10%,中间5年的年利率为8%,最后5年的
21、年利率为6%。求这20年的年平均收益率。解:本题的正确答案是年平均收益而非原因是,在按复利计算收益的条件下,只有益本率1+r才具有几何平均数性质;于是即这20年的年平均收益率为8.47%。Ch4 统计分布的数值特征 4.1 数值平均数返回第30页/共96页4.2 位置平均数4.2.1 众数Mo4.2.2 中位数Me 4.2.3 其它分位数4.2.4 各种平均数的比较Ch4 统计分布的数值特征4.1 数值平均数4.2 位置平均数4.3 分布的离散程度4.4 分布的偏度和峰度返回第31页/共96页4.2.1 众数Mo众数是统计数列中,出现次数最多的变量值或者标志值;由于众数与分布的频数fi有关,不
22、受极端值的影响,因此,可作为现象一般水平的代表值。理论上,确定众数,必须编制相应变量分布序列。众数确定:一、品质数列和单项式变量数列的众数确定。二、组距式变量数列的众数确定。Ch4 统计分布的数值特征 4.2 位置平均数第32页/共96页4.2.1 众数Mo一、品质数列、单项式变量数列的众数确定。方法非常简单。由Maxfi,(4.2.1)求Mo组i,i对应的xi就是该数列的众数,Mo=xi。Ch4 统计分布的数值特征 4.2 位置平均数I see!第33页/共96页【例4-9】在某城市随机调查了200个市民,整理后得到其关注的广告变量频数分布。求分布的众数。解:这里的变量为“广告变量”,这是个
23、定类变量,不同类型的广告就是变量值。由于在所调查的200人中,关注 商 品 广 告 的 人 最 多,为112人,占 总 调 查 人 数 的56%,因此,众数属于“商品广告”这一类别,i=1,即Mo=x1=“商品广告”。组数i广告类型分组xi人数fi1商品广告1122服务广告513金融广告94房地产广告165招生招聘广告106其他广告2-合计200市民关注的广告类型频数分布4.2.1 众数MoCh4 统计分布的数值特征 4.2 位置平均数第34页/共96页【例4-10】在某城市随机调查了300户居民,整理后得到其对住房状况评价的频数分布。求分布的众数。解:这里的变量为“回答变量”,这是个定序变量
24、,不同类型的回答就是变量值。由于在所调查的300人中,对住房表示不满意的人最多,为108人,占总调查人数的36%,因此,众数属于“不满意”这一类别,i=2,即Mo=x2=“不满意”。市民对住房状况的评价频数分布组数i回答类型分组xi户数fi1非常不满意242不满意1083一般934满意455非常满意30-合计3004.2.1 众数MoCh4 统计分布的数值特征 4.2 位置平均数图44 居民对住房评价的累计分布不满意一般满意非常不满意非常满意300100200SS第35页/共96页【例4-11】表36是某班学生按年龄分组表。计算其年龄众数。解:由 Maxfi求 i,Maxfi=16,i=3,所
25、以Mo=x3=20。即众数为20岁。组数i年龄变量xi(岁)人数(人)fi人数比重(%)118814.552191221.813201629.094211120.00522814.55合计55100.00表36 某班学生按年龄分组表图45 某班学生年龄分布竖线图206频数(人)频率%年龄8101214161718 1921 22 232418.1821.8225.4529.0914.551832.724.2.1 众数MoCh4 统计分布的数值特征 4.2 位置平均数第36页/共96页二、组距式变量数列的众数确定。方法则复杂一些。其步骤是:由Maxfi求众数组i:“Li Ui”,该组的上、下限,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ch 统计 分布 数值 特征 实用
限制150内