《第四章统计描述精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章统计描述精选文档.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章统计描述1本讲稿第一页,共七十页第一节 集中趋势的测度n集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。2本讲稿第二页,共七十页一、算术平均数n算术平均数,是集中趋势测度中最重要的一种,它是所有平均数中应用最广泛的平均数。n算术平均数一般就称为平均数或均值。其定义是:观察值的总和除以观察值个数的商。3本讲稿第三页,共七十页(一)简单算术平均数n根据未经分组整理的原始数据计算的均值。设一组数据为x1,x1,xn,则简单算术平均数的计算公式如下:4本讲稿第四页,共七十页例4.1 据某人才服务中心调查,从事IT行业的从业人员年薪在40000-550
2、00元之间,表4-1的数据是IT从业人员年薪的一个样本:表4-1 24名IT从业人员年薪资料表491004930048700486005120050300499505100049000488004940049800472005140048900499005180048650513504960051300546005340051900计算IT从业人员的平均年薪。根据公式计算如下:5本讲稿第五页,共七十页 (二)加权算术平均数n 根据分组整理的数据计算的算术平均数。其计算公式为:式中:f 代表各组变量值出现的频数。6本讲稿第六页,共七十页 例4.2:以表4-2为例,计算人均日产量。表4-2 某企业
3、50名工人加工零件均值计算表按零件数分组组中值x频数fxf105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.0 1715.01275.0795.0550.0合 计506160.0平均日产量7本讲稿第七页,共七十页 (三)算术平均数性质(三)算术平均数性质n1、各变量值与其算术平均数的离差之和等于零,即=0;n2、各变量值与其算术平均数的离差平方和最小,即=min。8本讲稿第八页,共七十页二、调和平均数n调和平均数是根据标志值的倒数计算出来的平均指
4、标,其意义与算术平均数一致。可以这样理解,调和平均数是在数据来源不同的情况下计算算术平均数的一种方法,调和平均数都可以通过数据转换,调整成算术平均数进行计算。9本讲稿第九页,共七十页(一)调和平均数的计算方法n与算术平均数类似,调和平均数也有简单的和加权的两种形式,其计算公式分别为:10本讲稿第十页,共七十页例4.4:假定有A、B两家公司员工的月工资资料如表4-4的前三列。试分别计算其平均工资。表4-4 两公司员工工资情况表月工资x(元)工资总额m(元)员工人数f=m/x(人)A公司B公司A公司B公司80010001600合计4800070000320001500004000040000400
5、0012000060702015050402511511本讲稿第十一页,共七十页现在,我们计算A公司的平均工资,得到:对于B公司,固然也可以采用加权调和平均数公式来计算其平均工资:12本讲稿第十二页,共七十页(二)调和平均数特点n1、调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。n2、只要有一个变量值为零,就不能计算调和平均数。n3、当组距数列有开口组时,其组中值即使按相邻组距计算了,假定性也很大,这时,调和平均数的代表性就很不可靠。n4、调和平均数应用的范围较小。13本讲稿第十三页,共七十页三、几何平均数n几何平均数也称几何均值,它是n个变量值乘积的n次方根。根据统计资料
6、的不同,几何平均数也有简单几何平均数和加权几何平均数之分。14本讲稿第十四页,共七十页(一)简单几何平均数n直接将n项变量连乘,然后对其连乘积开n次方根所得的平均数即为简单几何平均数。它是几何平均数的常用形式。计算公式为:n式中:G代表几何平均数,代表连乘符号15本讲稿第十五页,共七十页例4.6:某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,整个流水生产线产品的平均合格率为:16本讲稿第十六页,共七十页(二)加权几何平均数n与算术平均数一样,当资料中的某些变量值重复出现时,相应地,简单几何平均数就变成了加权几何平均数。计算公式为:式中:fi代表各个
7、变量值出现的次数。17本讲稿第十七页,共七十页例4.7:某工商银行某项投资年利率是按复利计算的。20年的利率分配如表4-6,计算20年的平均年利率。表4-6 投资年利率分组表年限年利率(%)本利率(%)xi年数(个)fi第1年51051第2年至第4年81083第5年至第15年1511511第16年至第20年181185合 计20按公式计算20年的平均年利率:即20年的平均年利率为114.14%-1=14.14%18本讲稿第十八页,共七十页(三)几何平均数特点n1、几何平均数受极端值的影响较算术平均数小。n2、如果变量值有负值,计算出的几何平均数就会成为负数或虚数。n3、它仅适用于具有等比或近似
8、等比关系的数据。n4、几何平均数的对数是各变量值对数的算术平均数。19本讲稿第十九页,共七十页四、众数n众数是一组数据中出现次数最多的变量值,一般用M0表示。众数一般用来表示分类数据的集中趋势,当然也可用来测度顺序数据和数值型数据的集中趋势。众数的计算方法依据原数据是否分组有所不同。只有在数据量较大的情况下,众数才有意义。20本讲稿第二十页,共七十页例4.9:下表为某家电商场的顾客满意度调查数据,对总共100名顾客调查的数据如下。计算“评价等级”的众数。表4-8 顾客满意度调查频数分布表评价等级频数频率非常满意1414.00%满意2121.00%一般3232.00%不满意1818.00%非常不
9、满意1515.00%合计100100.00%这里的“评价等级”是顺序数据。在总共100名的被调查顾客中,选择“一般”的人最多,因此“评价等级”的众数为“一般”。21本讲稿第二十一页,共七十页例4.10:某班抽取10名学生的年龄数据如下。计算年龄的众数。20 21 20 21 22 19 21 21 23 20 年龄中出现次数最多的是21,因此众数M0=21,21可代表10名学生年龄的平均水平。22本讲稿第二十二页,共七十页表4-9日产量(件)工人人数(人)107011100123801315014100合计800日产量“12”出现次数最多,因此日产量的众数为12。12代表大多数工人所能达到的日
10、产量水平,可作为该企业日产量标准的参考值。例4.11:某企业某日工人的日产量资料如下表。计算工人日产量的众数。23本讲稿第二十三页,共七十页24本讲稿第二十四页,共七十页(众数的不唯一性众数的不唯一性)10 5 9 12 6 86 5 9 8 5 525 28 28 36 42 42无众数无众数一个众数一个众数复众数复众数25本讲稿第二十五页,共七十页组距式分组数据,则只能按一定的方法来推算众数的近似值。计算公式为 式中:L众数所在组下限;U众数所在组上限;1众数所在组次数与其下限的邻组次数之差;2众数所在组次数与其上限的邻组次数之差;d众数所在组组距。详详见见课课本本例例题题4 4.1 12
11、 226本讲稿第二十六页,共七十页五、中位数n中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。中位数用Me表示。27本讲稿第二十七页,共七十页中位数的计算n确定中位数,必须将总体各单位的标志值按大小顺序排列,最好是编制出变量数列。这里有两种情况:28本讲稿第二十八页,共七十页1、对于未分组的原始资料,首先必须将标志值按大小排序。中位数就可以按下面的方式确定:例如,根据例4.2的数据,计算50名工人日加工零件数的中位数。中位数的位置在(50+1)/2=25.5,中位数在第25个数值(123)和第26个数值(123)之间,即Me=(123+123)/2=123
12、(件)。29本讲稿第二十九页,共七十页2、由分组资料确定中位数n由组距数列确定中位数,应先按的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。30本讲稿第三十页,共七十页式中:Me中位数;L中位数所在组下限;U中位数所在组上限;fm为中位数所在组的次数;总次数;d中位数所在组的组距;Sm1中位数所在组以下的累计次数;Sm+1中位数所在组以上的累计次数。31本讲稿第三十一页,共七十页六、分位数nK(K=4、10、100等)分位数是指将一列数据K等分的各种数。K分位数用于测量数据的相对位置,反映数据的相对大小。把一列数据按从小到大的顺序排完后,计算第一K分位数的方法是:n式中N为
13、数据总个数n最常见的分位数包括四分位数、十分位数和百分位数。32本讲稿第三十二页,共七十页七、截尾均值 n截尾均值是指在一个数列中,去掉两端的极端值后所计算的算术平均数,也称为切尾均值。33本讲稿第三十三页,共七十页八、众数、中位数和算术平均数的比较n在次数分布完全对称时,算术平均数、众数和中位数都是同一数值;在尾巴拖在右边的正偏态(或右偏态)分布中,众数最小,中位数适中,算术平均数最大;在尾巴拖在左边的负偏态(或左偏态)分布中,众数最大,中位数适中,算术平均数最小,见课本图形。34本讲稿第三十四页,共七十页35本讲稿第三十五页,共七十页 例题:例题:服装店销售情况:服装店销售情况:型号型号
14、XXL XL L M S数量数量/件件 2 4 12 10 9求这组数据的众数和中位数求这组数据的众数和中位数 L M36本讲稿第三十六页,共七十页第二节 离中趋势的测度n离中趋势又称为离散趋势,通过一系列变异指标来测度。变异指标是反映总体各单位标志值的差别大小程度的综合指标,又称标志变动度。n一般来讲,数据分布越分散,变异指标越大,平均指标的代表性越小;数据分布越集中,变异指标越小,平均指标的代表性越大。常用的变异指标有:异众比率、全距、平均差、方差和标准差、离散系数。37本讲稿第三十七页,共七十页一、异众比率n异众比率是对分类数据离散程度的测度,反映众数的代表性。异众比率越小,众数的代表性
15、越好。异众比率的计算方法为:非众数组的频数占总频数的比率。38本讲稿第三十八页,共七十页例4.14:表4-12是不同品牌饮料的频数分布,计算异众比率。表4.12饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁 露露15119690.300.220.180.120.183022181218众数为“可口可乐”,总共50人当中,购买其他品牌饮料的人数是35,即异众比率=35/50=0.7,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好39本讲稿第三十九页,共七十页40本讲稿第四十页,共七十页练习题 1.已知数列1,1,0,2,3,1,2,0,5,5
16、其众数是(),中位数是(),异众比率是()。11.570%先排序0,0,1,1,1,2,2,3,5,541本讲稿第四十一页,共七十页二、全距、内距二、全距、内距42本讲稿第四十二页,共七十页(一)全距(一)全距n全距也称为极差,是指总体各单位的两个极全距也称为极差,是指总体各单位的两个极端标志值之差,即:端标志值之差,即:nR最大标志值最小标志值最大标志值最小标志值n因此,全距(因此,全距(R)可反映总体标志值的差异)可反映总体标志值的差异范围。范围。43本讲稿第四十三页,共七十页 例4.15:有两个学习小组的统计学开始成绩分别为:第一组:60,70,80,90,100 第二组:78,79,8
17、0,81,82很明显,两个小组的考试成绩平均分都是80分,但是哪一组的分数比较集中呢?如果用全距指标来衡量,则有R甲1006040(分)R乙82784(分)这说明第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。根据组距计算极差,是测定标志变动度的一种简单方法,但受极端值的影响,因而它往往不能充分反映社会经济现象的离散程度。44本讲稿第四十四页,共七十页(二)内距n内距是上四分位数与下四分位数之差,也称为四分位差,反映了中间50%数据的离散程度。内距的取值比较稳定,不受极端值的影响,可用于衡量中位数的代表性。在实际应用中,内距往往和全距搭配使用,这样可以比较全面的反映全部数据的波动
18、情况。45本讲稿第四十五页,共七十页三、平均差n平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大,则表示标志变动度越大,反之则表示标志变动度越小。n在资料未分组的情况下,平均差的计算公式为:A.D=A.D=在资料已分组的情况下,要用加权平均差公式:A.D=46本讲稿第四十六页,共七十页四、方差与标准差n方差和标准差是测度数据变异程度的最重要、最常用的指标。方差是各个数据与其算术平均数的离差平方的平均数,通常以2表示。方差的计量单位和量纲不便于从经济意义上进行解释,所以实际统计工作中多用方差的算术平方根标准差来测度统计数据的差异程度
19、。标准差又称均方差,一般用表示。47本讲稿第四十七页,共七十页 (一)总体方差和标准差(一)总体方差和标准差n 设总体方差为,对于未经分组整理的原始设总体方差为,对于未经分组整理的原始数据,方差的计算公式为:数据,方差的计算公式为:n对于分组数据,方差的计算公式为:对于分组数据,方差的计算公式为:48本讲稿第四十八页,共七十页方差的平方根即为标准差,其方差的平方根即为标准差,其相应的计算公式为:相应的计算公式为:n未分组数据:未分组数据:n分组数据:分组数据:49本讲稿第四十九页,共七十页(二)样本方差和标准差n样本方差与总体方差在计算上的区别是:总体方差是用数据个数或总频数去除离差平方和,而
20、样本方差则是用样本数据个数或总频数减1去除离差平方和,其中样本数据个数减1即n1称为自由度。设样本方差为,根据未分组数据和分组数据计算样本方差的公式分别为:50本讲稿第五十页,共七十页未分组数据:分组数据:未分组数据:分组数据:51本讲稿第五十一页,共七十页例4.17:考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如下:3.433.453.433.483.523.503.39 3.483.413.383.493.453.513.50根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关闭?解:根据已知数据
21、,计算因此,该机器工作正常。52本讲稿第五十二页,共七十页某校从甲、乙两名优秀选手中选某校从甲、乙两名优秀选手中选1名选手参加全市中学生名选手参加全市中学生田径百米比赛,该校预先对这两名选手测试了田径百米比赛,该校预先对这两名选手测试了8次,次,测试成绩如下表:甲测试成绩如下表:甲 乙成绩分别如下:乙成绩分别如下:12.1 12.2 13 12.5 13.1 12.5 12.4 12.2 12 12.4 12.8 13 12.2 12.8 12.3 12.5 根据测试成绩,派哪一位选手参加比赛更好?为什么?根据测试成绩,派哪一位选手参加比赛更好?为什么?53本讲稿第五十三页,共七十页n解析:此
22、题要用样本的方差的大小来衡量甲、乙解析:此题要用样本的方差的大小来衡量甲、乙两名选手百米赛成绩的稳定性,方差较小的稳定两名选手百米赛成绩的稳定性,方差较小的稳定性强些性强些n甲乙平均成绩甲乙平均成绩=12.5n =0.12n =0.10 成绩稳定成绩稳定54本讲稿第五十四页,共七十页是非标志的平均数和标准差是非标志的平均数和标准差是非标志:是非标志:只具有肯定或否定两种。只具有肯定或否定两种。变量变量变量值变量值(x)次数(次数(f)是是非非10n1n2合计合计n55本讲稿第五十五页,共七十页设设p为具有某种性质的单位数在总体中的比率为具有某种性质的单位数在总体中的比率 P=n1/N;q=n2
23、/N;p+q=1方差:方差:标准差:标准差:离散系数:离散系数:平均数平均数56本讲稿第五十六页,共七十页五、离散系数n对于平均水平不同或计量单位不同的不同组别的变量值,是不能直接用上述离散程度的测度值直接进行比较的。为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。n离散系数通常是就标准差来计算的,因此,也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为:57本讲稿第五十七页,共七十页 nV和Vs分别表示总体离散系数和样本离散系数。58本讲稿第五十八页,共七十页例4.18:某管理局抽查了所属的8家企业,其产品销售数
24、据如表4-14所示。试比较产品销售额与销售利润的离散程度。表4-14企业编号 产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.059本讲稿第五十九页,共七十页解:由于销售额与利润额的数据水平不同,不能直接用标准差进行比较,需要计算离散系数。由表中数据计算得计算结果表明,V1 0为右偏分布;偏态系数 0为尖峰分布;峰态系数 0为扁平分布。67本讲稿第六十七页,共七十页例4.20:下表为某电脑销售公司连续120天的电脑销售量数据的频数分布表,根据表中数据计算偏态与峰态系数。表4.
25、16 某电脑公司销售量偏态及峰态系数计算表按销售量份组(台)组中值频数140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845合计120计算得偏态系数为0.448,峰态系数为-0.306。偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数。偏态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布68本讲稿第六十八页,共七十页第四节 EXCEL描述统计功能n EXCEL具有十分强大而且非常易于使用的数据统计和预测工具,可通过EXCEL提供的统计函数或加载宏来完成描述性统计。详见课本操作。69本讲稿第六十九页,共七十页本章小结n1、集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。反映集中趋势的指标主要有:算术平均数、调和平均数、几何平均数、中位数、众数、截尾均值。n2、离中趋势反映总体各单位标志值的差别大小程度的综合指标,说明标志值的分散程度或离中趋势。常用的衡量离中趋势指标有:异众比率、全距、平均差、方差和标准差、离散系数。n3、偏态衡量数据分布的偏斜程度,峰态衡量数据分布的扁平程度。70本讲稿第七十页,共七十页
限制150内