商务统计第三章集中趋势和离中趋势精品文稿.ppt
商务统计第三章集中商务统计第三章集中趋势和离中趋势趋势和离中趋势第1页,本讲稿共49页第四章 集中趋势和离中趋势 4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状第2页,本讲稿共49页重点:集中趋势、离中趋势的计量集中趋势、离中趋势的计量难点:偏态、峰度的计量偏态、峰度的计量第3页,本讲稿共49页1.1.简单算术平均数简单算术平均数 计算公式计算公式:它是反映数据集中的主要测度它是反映数据集中的主要测度。4.1 集中趋势的计算集中趋势的计算 集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置。一、算术平均(也叫均值)第4页,本讲稿共49页 算术平均的统计含义:算术平均数是同质总体各数据算术平均的统计含义:算术平均数是同质总体各数据算术平均的统计含义:算术平均数是同质总体各数据算术平均的统计含义:算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的稳定数值。反映数据集中偶然性、随机性特征互相抵消后的稳定数值。反映数据集中偶然性、随机性特征互相抵消后的稳定数值。反映数据集中偶然性、随机性特征互相抵消后的稳定数值。反映数据集中的特征。的特征。的特征。的特征。例例 某生产班组某生产班组1111个工人的日产零件数分别为:个工人的日产零件数分别为:1515,1717,1919,2020,2222,2626,3030。求该生产班组工人的平均日产零件数。求该生产班组工人的平均日产零件数。2222解:解:第5页,本讲稿共49页 算术平均值的性质一算术平均值的性质一算术平均值的性质一算术平均值的性质一:数据观察值与均值的离差值之和数据观察值与均值的离差值之和数据观察值与均值的离差值之和数据观察值与均值的离差值之和为零为零为零为零.此性质表明均值是各数值的重心 算术平均值的性质二:算术平均值的性质二:算术平均值的性质二:算术平均值的性质二:观察值与均值的离差平方和最观察值与均值的离差平方和最观察值与均值的离差平方和最观察值与均值的离差平方和最小。小。小。小。为任意数为任意数 故用算术平均值来预测作为估计值,误差平方和故用算术平均值来预测作为估计值,误差平方和故用算术平均值来预测作为估计值,误差平方和故用算术平均值来预测作为估计值,误差平方和最小。最小。最小。最小。第6页,本讲稿共49页数列数列:1,2,2,3 :1,2,2,3 平均数为平均数为2 2数列数列:1,2,2,5 :1,2,2,5 平均数为平均数为2.52.5数列数列:1,2,2,7 :1,2,2,7 平均数为平均数为3 3均值的缺点:均值易受极端值的影响,某个极端大值或极端均值易受极端值的影响,某个极端大值或极端小值都会影响均值的代表性。同时还影响其对集中趋势测度的小值都会影响均值的代表性。同时还影响其对集中趋势测度的准确性。准确性。第7页,本讲稿共49页2.2.加权算术平均数加权算术平均数 如果数据是分组资料,经过整理形成了次数分配,如果数据是分组资料,经过整理形成了次数分配,由于各组次数不同,要用次数作权数计算加权算术平由于各组次数不同,要用次数作权数计算加权算术平均数。均数。则均值的计算公式为:则均值的计算公式为:其中其中Xi 表示第表示第i 组的组中值,组的组中值,fi表示第表示第i组的次数。组的次数。第8页,本讲稿共49页工人一周生产零件数工人一周生产零件数工人数工人数fi组中值组中值xixifi60以下以下75538560-702165136570-802575187580-901985161590以上以上895760合计合计80-6000例:某单位80工人一周生产零件数的分组统计资料如下表:第9页,本讲稿共49页二、中位数二、中位数 将数据观察值将数据观察值x x1 1,x,x2 2,x,xn n按其变量值由小到大的顺序按其变量值由小到大的顺序排列,排列,处于数列中点位置的数值就是中位数(处于数列中点位置的数值就是中位数(M Me e)。中位数的确定方法:中位数的确定方法:如果数据个数为如果数据个数为奇数奇数,则处于则处于(n+1)/2n+1)/2位置的标志位置的标志值是中位数。值是中位数。如果数据个数为如果数据个数为偶数偶数,则处于则处于n/2n/2、n/2+1n/2+1的两个标志的两个标志值的平均数为中位数。值的平均数为中位数。第10页,本讲稿共49页如果是组距分组资料,公式为:如果是组距分组资料,公式为:中位数是中位数是n/2n/2位置上的数值,设落在第位置上的数值,设落在第i i组组,L Li i是中位数所在组的下限,是中位数所在组的下限,f fi i是中位数所在组的次数。是中位数所在组的次数。F Fi-1i-1是中位数所在组的前一组的累积次数是中位数所在组的前一组的累积次数 U Ui i-L-Li i是中位数所在组的组距是中位数所在组的组距 =上限上限-下限下限向上累积向上累积向下累积向下累积第11页,本讲稿共49页某单位80工人一周生产零件数分组统计资料如下:工人一周生工人一周生产零件数产零件数工人数工人数fi组中值组中值xixifi向上累计频向上累计频数数向下累计频向下累计频数数60以下75538578060-7021651365287370-8025751875535280-9019851615722790以上895760808合计80-6000-第12页,本讲稿共49页 中位数是位置平均数,不受极端值的影响。各个数值相对其中位数是位置平均数,不受极端值的影响。各个数值相对其中位数的绝对离差之和为最小。中位数的绝对离差之和为最小。不足:中位数确定时只与中间位置的相关数据有关,而不考虑不足:中位数确定时只与中间位置的相关数据有关,而不考虑其它数值的大小,缺乏敏感性;计算复杂。其它数值的大小,缺乏敏感性;计算复杂。第13页,本讲稿共49页三、众三、众 数数众数是一组资料中出现次数最多的那个数值,也反映数据集众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度(中的程度(M M0 0 )。)。未分组资料,未分组资料,M M0 0就是出现次数最多的变量值。就是出现次数最多的变量值。2020,1515,1818,2020,2020,2222,2020,23232020,2020,1515,1919,1919,2020,1919,25251010,1111,1313,1616,1515,25 25,8 8,1212第14页,本讲稿共49页分组资料:在等距分组的情况下,频数最多的组是众数组,分组资料:在等距分组的情况下,频数最多的组是众数组,分组资料:在等距分组的情况下,频数最多的组是众数组,分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。在该组内确定众数。在该组内确定众数。在该组内确定众数。设众数在第设众数在第i i组,则组,则 L Li i是众数所在组的下限,是众数所在组的下限,U Ui i是众数所在组的上限;是众数所在组的上限;f fi i是众数所在组的次数。是众数所在组的次数。d di i=U=Ui i-L-Li i是中位数所在组的组距是中位数所在组的组距 =上限上限-下限下限第15页,本讲稿共49页某单位80工人一周生产零件数分组统计资料如下:工人一周生工人一周生产零件数产零件数工人数工人数fi组中值组中值xixifi向上累计频向上累计频数数向下累计频向下累计频数数60以下75538578060-7021651365287370-8025751875535280-9019851615722790以上895760808合计80-6000-第16页,本讲稿共49页第17页,本讲稿共49页在在在在Excel中中中中AVERAGEAVERAGE()()计算算术平均数计算算术平均数利用利用SUMSUM()函数和()函数和SUMPRODUCTSUMPRODUCT()函数求加权算术平均。()函数求加权算术平均。MEDIANMEDIAN()()计算中位数计算中位数MODEMODE()()计算众数计算众数第18页,本讲稿共49页四、均值、中位数、众数三者之间的关系四、均值、中位数、众数三者之间的关系XfXfXf(对称分布对称分布)正偏态分布(右)正偏态分布(右)负偏态分布负偏态分布(左)左)均值是数据分布的平衡点或重心,中位数把这个分布划均值是数据分布的平衡点或重心,中位数把这个分布划分为两半,众数正好是分布的顶端。分为两半,众数正好是分布的顶端。第19页,本讲稿共49页在偏斜不大时,中位数大约位于均值与众数的在偏斜不大时,中位数大约位于均值与众数的1/3处。处。算术平均数适用于定距变量(或数值变量、定量算术平均数适用于定距变量(或数值变量、定量变量),中位数适用于定序变量,众数则适用于定类变变量),中位数适用于定序变量,众数则适用于定类变量(或定性变量)量(或定性变量)第20页,本讲稿共49页五、集中趋势的其它测度量五、集中趋势的其它测度量1.1.分位数:四分位数、十分位数、百分位数。分位数:四分位数、十分位数、百分位数。分位数的计算:分位数的计算:(1 1)将资料按大小顺序排列;)将资料按大小顺序排列;(2 2)求出分位数所在位置)求出分位数所在位置i i;(3 3)若)若i i为整数,则所求分位数为该位置上的数值;若为整数,则所求分位数为该位置上的数值;若i i为非整数,则取第为非整数,则取第i i与第与第i+1i+1位置的两个数值的平均数为所求分位数。位置的两个数值的平均数为所求分位数。(4 4)若资料为分组数据,则各分位数可按下式计算:)若资料为分组数据,则各分位数可按下式计算:K Ki i表示第表示第i i个个K K分位数;分位数;L Li i表示第表示第i i个个K K分位数所在组的下限;分位数所在组的下限;N N表表示数据总个数;示数据总个数;F Fi-1i-1表示第表示第i i个个K K分位数所在组的前一组的累积次数;分位数所在组的前一组的累积次数;f fi i是第是第i i个个K K分位数所在组的次数。分位数所在组的次数。d di i=U=Ui i-L-Li i是第是第i i个个K K分位数所在组的组分位数所在组的组距。距。第21页,本讲稿共49页其中其中 表示中位数的位置取整。这样计算出的四分位数的表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间位置,要么是整数,要么在两个数之间0.50.5的位置上的位置上四分位数的位置确定方法:四分位数的位置确定方法:方法方法1:定义算法:定义算法方法方法2:以中位数为中心,从两端再计算中位数,公式:以中位数为中心,从两端再计算中位数,公式:第22页,本讲稿共49页方法方法3 Excel给出的四分位数位置的确定方法给出的四分位数位置的确定方法 无论哪种算法,如果位置是整数,四分位数就是该无论哪种算法,如果位置是整数,四分位数就是该位置对应的值;如果是在位置对应的值;如果是在0.50.5的位置上,则取该位置两的位置上,则取该位置两侧值的平均数;如果在侧值的平均数;如果在0.250.25或或0.750.75位置上,则四分位数位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的等于该位置的下侧值加上按比例分摊位置两侧数值的差值。差值。第23页,本讲稿共49页【例例】:9个家庭的人均月收入数据个家庭的人均月收入数据(3种方法计算种方法计算)原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630 排排 序序:750 780 850 960 1080 1250 1500 1630 2000 位位 置置:1 2 3 4 5 6 7 8 9方法方法1:方法方法2:所以所以QL为从最小值数第为从最小值数第3个数值,即个数值,即850元;元;Qu为从最大值为从最大值数第数第3个数值,即个数值,即1500元;元;第24页,本讲稿共49页方法方法3 Excel方法方法所以所以Q QL L为第为第3 3个数值,即个数值,即850850元;元;Q Qu u为为7 7个数值,即个数值,即15001500元;元;可见三种方法计算的四分位数不完全相同。但对他们的可见三种方法计算的四分位数不完全相同。但对他们的解释是一样的,即排序数据中,至少解释是一样的,即排序数据中,至少25%25%的数据小于等于的数据小于等于Q QL L,至少,至少75%75%的数据小于等于的数据小于等于Q Qu u。原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630 排排 序序:750 780 850 960 1080 1250 1500 1630 2000 位位 置置:1 2 3 4 5 6 7 8 9第25页,本讲稿共49页2.2.几何平均数几何平均数公式为:公式为:用于计算平均比率或平均速度。包括用于计算平均比率或平均速度。包括 (1 1)对比率进行平均;)对比率进行平均;(2 2)测定生产或经济变量的时间序列的平均增长率。)测定生产或经济变量的时间序列的平均增长率。举例:将一笔钱存入银行,存期举例:将一笔钱存入银行,存期1010年,以复利计息,年,以复利计息,1010年年的利率分配是:第的利率分配是:第1 1年至第年至第2 2年为年为5%5%、第、第3 3年至年至5 5年为年为8%8%、第第6 6年至第年至第8 8年为年为10%10%、第、第9 9年至第年至第1010年年12%12%,计算平均年利,计算平均年利率。率。第26页,本讲稿共49页 注意:当观测值有一项为注意:当观测值有一项为0 0或负值时,不易计算几何或负值时,不易计算几何平均数。平均数。第27页,本讲稿共49页3.3.调和平均值调和平均值调和平均值调和平均值调和平均值是观察值倒数之平均数的倒数,也称倒调和平均值是观察值倒数之平均数的倒数,也称倒数平均数。用数平均数。用 表示:表示:(1 1)具有倒数性质)具有倒数性质 例如某人前例如某人前1010公里以时速公里以时速5050公里行驶,后公里行驶,后1010公里以公里以3030公公里时速行驶。这里时速行驶。这2020公里花了公里花了0.5330.533小时,所以平均时速小时,所以平均时速第28页,本讲稿共49页(2 2)总体单位数未知时,例)总体单位数未知时,例4.114.11(7171)加权调和平均数加权调和平均数应用条件:资料经过分组,各组次数不同。应用条件:资料经过分组,各组次数不同。第29页,本讲稿共49页算术平均、几何平均、调和平均三者关系算术平均、几何平均、调和平均三者关系三者均属于均值体系三者均属于均值体系算术平均值是直接对观测值进行平均;几何平算术平均值是直接对观测值进行平均;几何平均值是对观察值对数后的平均;调和平均值是均值是对观察值对数后的平均;调和平均值是对观察值取倒数后平均;一般情况下,有如下对观察值取倒数后平均;一般情况下,有如下关系关系:第30页,本讲稿共49页在在Excel中中QUARTILEQUARTILE()()计算四分位数计算四分位数PERCENTILEPERCENTILE()()计算百分位数计算百分位数GEOMEAN()GEOMEAN()计算几何平均数计算几何平均数HARMEAN()HARMEAN()计算简单调和平均数计算简单调和平均数第31页,本讲稿共49页4.2 离中趋势的计算离中趋势的计算离中趋势是数据分布的又一特征,它表明变量值的差异离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。或离散程度。离中趋势测度经常用到的指标有:极差、方差和标准差、离中趋势测度经常用到的指标有:极差、方差和标准差、四分位差等,它们也被称为变异指标。四分位差等,它们也被称为变异指标。一、一、极差极差 极差也称为全距,是一组数据的最大值和最小值的极差也称为全距,是一组数据的最大值和最小值的差:差:缺点:缺点:易受极端值的影响。易受极端值的影响。全距值越小,数据变动范围越小,平均数的代表性全距值越小,数据变动范围越小,平均数的代表性越高;全距值越大,数据数据变动范围越大,平均数的越高;全距值越大,数据数据变动范围越大,平均数的代表性越低。代表性越低。第32页,本讲稿共49页二、平均差二、平均差1、平均差是指数据值与其均值之差的绝对值的算术平均、平均差是指数据值与其均值之差的绝对值的算术平均值,用符号值,用符号AD表示。计算公式:表示。计算公式:2、优点:完整地反映了全部数据的分散程度,计算方法、优点:完整地反映了全部数据的分散程度,计算方法简单;简单;缺点:易受极值影响,绝对值计算不方便。缺点:易受极值影响,绝对值计算不方便。分组数据:分组数据:未分组数据:未分组数据:平均差越大,平均差越大,平均数代表性越低;平均数代表性越低;平均差愈小,平均数代表性越高平均差愈小,平均数代表性越高第33页,本讲稿共49页三、三、方差与标准差方差与标准差总体方差是观察值与其均值离差平方和的均值;总体方差是观察值与其均值离差平方和的均值;总体标准差是总体方差的正平方根;总体标准差是总体方差的正平方根;第34页,本讲稿共49页 如果计算总体方差的资料是次数分配数据,在计算如果计算总体方差的资料是次数分配数据,在计算如果计算总体方差的资料是次数分配数据,在计算如果计算总体方差的资料是次数分配数据,在计算总体方差时要将各组权数考虑进去,有如下公式:总体方差时要将各组权数考虑进去,有如下公式:总体方差时要将各组权数考虑进去,有如下公式:总体方差时要将各组权数考虑进去,有如下公式:总体方差的另一种表达方式:总体方差的另一种表达方式:总体方差愈大,数据的变动程度愈大,总体方差愈小,总体方差愈大,数据的变动程度愈大,总体方差愈小,数据的变动程度愈小。数据的变动程度愈小。第35页,本讲稿共49页样本方差与样本标准差样本方差与样本标准差当样本数据个数足够大时,样本方差与总体方差很接近当样本数据个数足够大时,样本方差与总体方差很接近在在ExcelExcel中中 MaxMax()()-min-min()()计算极差计算极差 AVEDEVAVEDEV()()计算平均差计算平均差 VARPVARP()()计算总体方差计算总体方差 VARVAR()()计算样本方差计算样本方差 STDEVPSTDEVP()()计算总体标准差计算总体标准差 STDEVSTDEV()()计算样本标准差计算样本标准差第36页,本讲稿共49页四、四、四、四、ChebishevChebishev定理与经验法则定理与经验法则定理与经验法则定理与经验法则1.Chebishev定理:定理:对任何一组资料,观测值落于均值左右对任何一组资料,观测值落于均值左右k个标准差的区间内的比例,至少为(个标准差的区间内的比例,至少为(1-1/k2)。)。Chebishev定理适用于任何形状的次数分布资料,但此区间是一个比较保定理适用于任何形状的次数分布资料,但此区间是一个比较保守的估计值。守的估计值。2.经验法则:经验法则:当资料分布呈对称形状时,有:当资料分布呈对称形状时,有:(1)约有)约有68%的观测值落于的观测值落于 的区间内;的区间内;(2)约有)约有95%的观测值落于的观测值落于 的区间内;的区间内;(3)约有)约有97%的观测值落于的观测值落于 的区间内;的区间内;第37页,本讲稿共49页五、相对离中趋势五、相对离中趋势五、相对离中趋势五、相对离中趋势变异系数变异系数变异系数变异系数定义:变异系数又称离散系数,是标准差与均值的比值。定义:变异系数又称离散系数,是标准差与均值的比值。公式:公式:对数据相对离散程度的测度对数据相对离散程度的测度消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较第38页,本讲稿共49页例:例:C.V.甲3007.52.5%乙40092.25%从从上看,甲的上看,甲的 更具代表性,通过更具代表性,通过C.V.,乙不但,乙不但 高,高,而且各地块产量比甲农场稳定,因此乙的而且各地块产量比甲农场稳定,因此乙的 最具有最具有代表性。代表性。第39页,本讲稿共49页【例】评价哪名运动员的发挥更稳定评价哪名运动员的发挥更稳定发发挥挥比比较较稳稳定定的的运运动动员员是是塞塞尔尔维维亚亚的的亚亚斯斯娜娜舍舍卡卡里里奇奇和和中中国国的的郭郭文文珺珺,发发挥挥不不稳稳定定的的运运动动员员是是蒙蒙古古的的卓卓格格巴巴德德拉拉赫赫蒙赫珠勒和波兰的莱万多夫斯卡蒙赫珠勒和波兰的莱万多夫斯卡萨贡萨贡第40页,本讲稿共49页六、离中趋势的其它测度量六、离中趋势的其它测度量 1.四分位差四分位差 四分位差是第三个四分位值与第一个四分位值之差四分位差是第三个四分位值与第一个四分位值之差的二分之一。用的二分之一。用Q.D.表示。表示。意义:意义:剔除了极端值,说明剔除了极端值,说明50%数据分布的范围;数据分布的范围;与中位数配合说明数据分布是否对称。与中位数配合说明数据分布是否对称。若分布对称,则若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2若不相等,则是非对称的。若不相等,则是非对称的。第41页,本讲稿共49页2.异众比率异众比率 异众比率异众比率指非众数值的次数之和占总次数的比指非众数值的次数之和占总次数的比重,用重,用VM0表示。表示。fM0 为众数值次数,为众数值次数,n为总次数为总次数 含义:含义:异众比率数值越大,说明众数的代表性越低,异众比率数值越大,说明众数的代表性越低,即观测值差异较大;异众比率数值越小,说明众数即观测值差异较大;异众比率数值越小,说明众数的代表性越高,即观测值差异较小。的代表性越高,即观测值差异较小。第42页,本讲稿共49页3.3.平均差系数平均差系数平均差系数平均差系数第43页,本讲稿共49页4.3 数据的分布形状数据的分布形状一、偏斜度一、偏斜度 偏斜度是对数据分布在平均数两侧的偏移方偏斜度是对数据分布在平均数两侧的偏移方向和偏移程度所作的描述。向和偏移程度所作的描述。1.Pearson偏态系数偏态系数偏态系数以平均数与众数之差除以标准差来衡量偏偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用斜程度,用SK表示。其计算公式为:表示。其计算公式为:当当SK=0时时,呈对称分布呈对称分布;当当SK0时时,分布是右偏分布是右偏(正偏)的(正偏)的;当当SK0SK0时,时,表示频数分布比正态分布更集中,分布呈尖峰状态,表示频数分布比正态分布更集中,分布呈尖峰状态,K3)(K K=3)=3)(K K3)EXCEL中,用函数中,用函数kurt()求偏斜度()求偏斜度第48页,本讲稿共49页数据的描述统计量数据的描述统计量数据特征数据特征水平水平差异差异分布形状分布形状中位数和分位数中位数和分位数众数众数极差和四分位差极差和四分位差偏态系数偏态系数方差或标准差方差或标准差峰态系数峰态系数平均数平均数变异系数变异系数第49页,本讲稿共49页