《应用统计学》第3章:统计数据的描述度量.ppt
本章主要介绍以下 3类综合统计指标:l度量中心(集中)趋势的平均指标l度量离散程度(变异性)的指标l度量偏斜程度的指标l度量两种数值变量关系的指标 第第3章章 统计数据的描述度量统计数据的描述度量1 常用的这类指标有以下五种:算术平均数、中位数、众数、四分位数、几何平均数、五数汇总和箱线图。3.1 度量集中趋势的指标度量集中趋势的指标2(1)基本公式:)基本公式:1.算术平均数算术平均数3(1)简单算术平均数简单算术平均数(2)算术平均数的计算)算术平均数的计算 n 总体单位总数;xi 第 i 个单位的标志值。(2)加权算术平均数加权算术平均数 xi 第 i 组的代表值(组中值或该组变量值);f i 第 i 组的频数。4使使用用 Excel 函函数求加权算术平均数数求加权算术平均数 利用 Excel“数学和三角函数”中的SUMPRODUCT 函数可以方便地计算出分组数据的加权算术平均数。语法规则:语法规则:格式:SUMPRODUCT(,)功能:返回两个或多个区域中对应元素乘积之和。例例:利用比特啤酒公司各销售点分组频数分布数据,求各销售点的平均销售量。52.几何平均数几何平均数 当统计资料是各时期的发展速度等前后期的两两比环数据,要求每时期的平均发展速度时,就需要使用几何平均数。几何平均数是 n 个数连乘积的 n 次方根。(1)简单几何平均数简单几何平均数 (2)加权几何平均数加权几何平均数f i 各比率出现的频数 6例例:某公司原料成本随时间增长的情况如下表求原料成本的平均年增长率。解一解一:解二解二:年平均增长率=1.0688-1=6.88%7(3)使用)使用 Excel 求几何平均数求几何平均数 可以使用 Excel 统计函数中的 GEOMEAN 函数返回几何平均数。语法规则:格式:GEOMEAN(,)功能:返回所有参数中数据的几何平均数。8 将总体各单位标志值按由小到大的顺序排列后处于中间位置的标志值称为中位数中位数,记为Me。中位数是一种位置平均数,不受极端数据的影响。当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。比如有 5 笔付款:9元,10元,10元,11元,60元 付款的均值为 20 元,显然这并不是一个很好的代表值,而中位数 Me=10 元则更能代表平均每笔的付款数。3.中位数中位数9 (1)使用使用 Excel 的统计函数返回的统计函数返回未分组数据的中位数未分组数据的中位数 可以使用 Excel 统计函数中的 MEDIAN 函数返回未分组数据的中位数。格式:MEDIAN(,)功能:返回所有参数中数据的中位数。10(2)分组数据中位数的确定分组数据中位数的确定 对于分组数据的统计资料,中位数要用插值法来估算。(1)计算各组的累计频数;(2)确定中位数所在的组 是累计频数首次包含中位数位次f/2的组。其中:L 中位数所在组的下限;Sm-1 中位数所在组前一组的累计频数;fm 中位数所在组的频数;d 中位数所在组的组距。11例:计算下表数据的中位数解解:f/2=27.5,中位数在“15-25”的组中,124.众数众数 是总体中出现次数最多的标志值,记为M 0。众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。但并非所有数据集合都有众数,也可能存在多个众数。在某些情况下,众数是一个较好的代表值。例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。又如,当要了解大多数家庭的收入状况时,也要用到众数。13(1)未分组数据众数的确定未分组数据众数的确定在数据量很大的时候,可以使用 Excel 统计函数中的 MODE 函数返回众数。格式:MODE(,)功能:返回所有参数中数据的众数。14(2)分组数据众数的确定分组数据众数的确定对于分组数据的统计资料,众数也要用插值法来估算。(1)确定众数所在的组 对于等距分组,众数组是频数最高的组;(2)使用以下插值公式计算其中:L 众数组的下限1 众数组与前一组的频数之差2 众数组与后一组的频数之差 d 众数组的组距12众数Ld15例例:计算下表数据的众数解:解:众数组是“15-25”的组,则 16算术平均数、中位数和众数间的关系算术平均数、中位数和众数间的关系 0 xf(Me,M0)0 xfMeM00 xfMeM02.频数分布为右偏态 时,众数小于中位数,算术平均数大于中位数。3.频数分布为左偏态时,众数大于中位数,算术平均数小于中位数。1.频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同。17补充习题补充习题补充题3:某地区私营企业注册资金分组资料如下,求该地区私营企业注册资金的平均数、中位数和众数。18 补充题3答案f/2=143/2=71.5,中位数所在组为“100150”的组,众数组为“100150”的组,195.四分位数四分位数(概念要点概念要点)1.集中趋势的测度值之一集中趋势的测度值之一2.排序后处于排序后处于25%和和75%位置上的值位置上的值 3.不受极端值的影响不受极端值的影响 4.可可用用于于定定序序数数据据,也也可可用用于于数数值值型型数数据据,但不能用于定类数据但不能用于定类数据QQL LQQMMQQU U25%25%25%25%20未分组数据:未分组数据:组距分组数据:组距分组数据:下四分位数下四分位数(QQL L)位置位置 =N+N+1 14 4上四分位数上四分位数(QQU U)位置位置 =3(3(N+N+1)1)4 4下四分位数下四分位数(QQL L)位置位置 =N N4 4上四分位数上四分位数(QQL L)位置位置 =3N3N4 4四分位数位置的确定四分位数位置的确定21数值型未分组数据的四分位数数值型未分组数据的四分位数(7个数据的算个数据的算例例)原始数据原始数据:23 21 30 32 28 25 26排排 序序:21 23 25 26 28 30 32位位 置置:1 2 3 4 5 6 7 N+N+1 1QL=237+7+1 1QQL L位置位置 =4 4=4 4=2=2QQU U位置位置 =3(3(N+N+1)1)4 43(73(7+1)1)4 4 =6=6QU=3022数值型未分组数据的四分位数数值型未分组数据的四分位数(6个数据的算例个数据的算例)原始数据原始数据:23 21 30 28 25 26排排 序序:21 23 25 26 28 30位位 置置:1 2 3 4 5 6QQL L=21+0.75(23-21)=21+0.75(23-21)=22.522.5QQL L位置位置 =N+N+1 14 4=6+6+1 14 4=1.75=1.75QQU U位置位置 =3(3(N+N+1)1)4 43(63(6+1)1)4 4=5.25=5.25QQU U=28+0.25(30-28)=28+0.25(30-28)=28.528.523数值型分组数据的四分位数数值型分组数据的四分位数上四分位数上四分位数上四分位数上四分位数:下四分位数下四分位数下四分位数下四分位数:24数值型分组数据的四分位数数值型分组数据的四分位数QL位置位置50/412.5QU位置位置350/437.5表表 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50【例例例例】根根根根据据据据表表表表中中中中的的的的数数数数据据据据,计计计计算算算算5050名名名名工工工工人人人人日日日日加加加加工工工工零零零零件件件件数数数数的的的的四四四四分位数分位数分位数分位数25使用使用Excel统计函数中的统计函数中的QUARTILE函数函数 在数据量很大的时候,可以使用Excel统计函数中的QUARTILE函数返回四分位数,语法规则如下:格式:QUARTILE(数据集,第nthquart分位数)功能:返回不同nthquart的四分位数。如果nthquart等于函数QUARTILE的返回值0最小值1第一四分位数(第25 个百分点值)2中位数(第 50个百分点值)3第三四分位数(第 75 个百分点值)4最大值266.五数汇总和箱线图五数汇总和箱线图 五数汇总包括最小值、第一分位数、中位数、第三分位数和最大值这样五个数据,即 箱线图(亦称箱须图)提供了基于五数汇总的几何图形 27箱线图和四种不同类型分布图的联系箱线图和四种不同类型分布图的联系 c)右偏分布a)钟形分布b)左偏分布d)矩形分布28x频数 要分析总体的分布规律,仅了解中心趋势指标是不够的,还需要了解数据的离散程度或差异状况。几个总体可以有相同的均值,但取值情况却可以相差很大。变异指标就是用来表示数据离散程度特征的。变异指标主要有:极差、平均差、标准差和变异系数。3.2 度量离散程度的指标度量离散程度的指标29【案例案例】道格拉斯公司应如何选择供应商道格拉斯公司应如何选择供应商 道森公司和克拉克公司是道格拉斯公司的两家供货商。两家供货商都表示大约需要10个工作日交付定货。下表是两家供应商定货交付时间的历史数据。今后道格拉斯公司应选择哪家供应商供货?301.极差极差 极差也称全距,是一组数据的最大值和最小值之差,通常记为R。显然,一组数据的差异越大,其极差也越大。极差是最简单的变异指标,它广泛应用于产品质量管理中控制质量的差异,一旦发现超过控制范围,就采取措施加以纠正,以保证产品质量的稳定。但极差有很大的局限性,它仅考虑了两个极端的数据,没有利用其余数据的信息,因而是一种比较粗糙的变异指标。312.平均差平均差 平均差是各数据与其均值离差绝对值的算术平均数,通常记为A.D。平均差越大,反映数据间的差异越大。但由于使用了绝对值,其数学性质很差,因而很少使用。323.四分位差四分位差1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU-QL4.反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性334.方差和标准差方差和标准差 方差和标准差是应用得最为广泛的变异指标。标准差是方差的算术平方根,也称均方差或根方差。应注意总体方差、标准差与样本方差、标准差是有区别的。(1)总体方差和总体标准差总体方差和总体标准差 总体方差是各总体数据与其均值离差平方的均值,记为 2,总体标准差记为。34(2)样本方差与样本标准样本方差与样本标准差差 样本方差记为 S 2,样本标准差记为 S,在推断统计中,它们分别是总体方差和标准差的优良估计。其中:n 为样本容量,Xi 为样本观察值为样本均值。35未分组数据方差和标准差的计算未分组数据方差和标准差的计算方差和标准差的手工计算非常烦琐,只要求掌握以下两种方法。使用计算器的统计功能使用计算器的统计功能(SD或STAT功能)使用使用 Excel 的统计函数的统计函数VARP(,)功能:返回所有参数中数据的总体方差。STDEVP(,)功能:返回所有参数中数据的总体标准差。VAR(,)功能:返回所有参数中数据的样本方差。STDEV(,)功能:返回所有参数中数据的样本标准差。365.变异系数变异系数当需要比较不同总体的离散程度时,如果使用的度量单位不同,或它们在数量级上相差很大,则用绝对数值表示的方差和标准差就缺乏可比性,此时就应使用相对变异指标(变异系数)。例如,对汽车发动机的汽缸而言,0.05毫米的标准差就很大了,但对建筑工程而言则可完全忽略不记。相对变异指标中最重要的是标准差系数标准差系数,是标准差与均值之比,记为V。376.Z值值极端值是远离均值的量。Z值有助于定义极端值。Z值越大,数据远离均值的距离越大。Z值记为,是数据与均值的差再除以标准差。其计算公式如下:通常,Z值小于3.0或大于+3.0时,认为数据中含有极端值。38 总体分布的特征不仅与均值和变异指标有关,而且与分布的偏斜程度有关,如对称分布、右偏分布和左偏分布。这种分布形态上的数量特征,往往具有重要的社会经济意义。偏度系数是度量偏斜程度的指标,主要有以下两种计算方法:一、用标准差为单位计量的偏度系数 该偏度系数记为SK,计算公式为 SK是无量纲的量,取值通常在-3+3之间,其绝对值越大,表明偏斜程度越大。当分布呈右偏态时,SK0,故也称正偏态;当分布为左偏态时,SK0,故也称负偏态。3.3 度量偏斜程度的指标度量偏斜程度的指标39二、二、使用三阶中心矩计量的偏度系数使用三阶中心矩计量的偏度系数 该偏度系数是用三阶中心矩除以标准差的三次方来度量偏斜程度,记为,计算公式为 称为三阶中心矩。偏度系数 可以适用任何数据。和SK的计算方法 不同,因此根据同一资料计算的结果也不相同。可以使用Excel统计函数中的SKEW函数返回数据的偏度系数,语法规则如下:格式:SKEW(,)功能:返回所有参数中数据的偏度系数。401.协方差:协方差测试了两数值变量(和)的线性联系,表示为Cov(X,Y)。其计算用下列公式表示。2.相关系数:相关系数测定了两数值变量间的线性相关强度。相关系数的值从完全负相关1到完全正相关+1。3.4 度量两种数值变量关系的指标度量两种数值变量关系的指标41使用使用 Excel 求各种统计指标求各种统计指标 当数据量很大时,手工计算统计指标是非常烦琐的,尤其是标准差、方差数等的计算量很大。使用Excel【工具】“数据分析”“描述统计”功能,可以方便地计算出各种综合统计指标。42