《应用统计学经济与管理中的数据分析3.pdf》由会员分享,可在线阅读,更多相关《应用统计学经济与管理中的数据分析3.pdf(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 统计数据分布特征的描述统计数据分布特征的描述 数据分布集中趋势的测度数据分布集中趋势的测度 数据分布离散程度的测度数据分布离散程度的测度 集中趋势与离散程度的综合运用集中趋势与离散程度的综合运用 数据分布偏态和峰度的测度数据分布偏态和峰度的测度 3.1 数据分布集中趋势的测度数据分布集中趋势的测度(Measures of Central Tendency)数值平均数:算术平均数数值平均数:算术平均数 数值平均数:调和平均数数值平均数:调和平均数 数值平均数:几何平均数数值平均数:几何平均数 位置平均数:众数位置平均数:众数 位置平均数:中位数位置平均数:中位数 众数、中位数和平均
2、数的比较众数、中位数和平均数的比较 相对位置:百分位数相对位置:百分位数 3-3 定义:一个数据集的算术平均数,称为平均数,定义:一个数据集的算术平均数,称为平均数,也称为均值(也称为均值(mean)。)。优点:最简单、最常用的数据集中趋势代表值。缺点:容易受极端数值的影响。均值的解释:数据集分布“质量中心”。nxxxnii1观察值个数值之和所有一、数值平均数:算术平均数(一、数值平均数:算术平均数(arithmetic mean)3-4 数据形成了频数分布,假定各组数据在组中是均匀分布的,均值近似值近似值的计算公式 xi频数分布中各组组中值频数分布中各组组中值,fi 各组的频数(权数),k分
3、组的组数。1 122111kiikkikkiiiif xf xf xf xxff3-5 从统计思想看,均值反映了一组数据的“重心”,是数据高低相抵,误差正负相抵后客观事物必然性数量特征的一种反映。均值有两个非常重要的性质:均值有两个非常重要的性质:各个变量值与均值的离差之和为零,即 各变量值与其均值的离差平方和最小,即 min)(12niixx0)(1niixx3-6 也称为倒数平均数,均值的一种变形。例:例:三个西瓜批发市场数据,计算三个市场的平均批发价格。41800合计74000.74丙204000.68乙140000.70甲成交额(元)xifi批发价格(元/公斤)xi市场41800合计7
4、4000.74丙204000.68乙140000.70甲成交额(元)xifi批发价格(元/公斤)xi市场xffxfxxfxHniiniiiniiiiniii11111313110.697(/)iiiiiiix fHx fx元 公斤二、数值平均数:调和平均数(二、数值平均数:调和平均数(Harmonic Mean)3-7 定义:时间上相互衔接的比率或速度的平均数。定义:时间上相互衔接的比率或速度的平均数。其中:xi为各期发展速度或各个比率。一般取对数计算,是均值的一种变形。nniinnxxxxG121niinxlognxlogxlogxlognGlog12111三、数值平均数:几何平均数(三、数
5、值平均数:几何平均数(Geometric Mean)3-8 例:例:某钢厂2004年的钢产量为100万吨,2005年的钢产量为110万吨,2006年为132吨,2007年为165吨。试求该钢厂20052007年钢产量的年平均发展速度。例:例:某产品要经过三道工序才能加工完成,每道工序均经过工序检验。已知在第一道工序上的加工合格率为95%,在第二道工序上的加工合格率为90%,在第三道工序上的加工合格率为98%,求三道工序的平均合格率。33123110%120%125%118.17%Gxxxx3312395%90%98%94.275%Gxxxx3-9 众数:一组数据集中出现频数最多的观测值。众数:
6、一组数据集中出现频数最多的观测值。众数适用于数量数据,也适用于品质数据。例如:服装、鞋帽生产、公交车辆的调度。众数是一个位置代表值,它不会受到极端数值(即最大值与最小值)的影响。四四、位置平均数:众数位置平均数:众数(Mode)3-10 中位数:一组数据集按大小依次排序后,处于中位数:一组数据集按大小依次排序后,处于中间位置上的观测值。中间位置上的观测值。将n个数据x1,x2,xn按大小排序:)()2()1(nxxx 为偶数为奇数n,xxn,xxnnn212221五五、位置平均数:中位数位置平均数:中位数(Median)3-11 例:例:某居民楼里20户居民3月份的电费数据如下:(单位:元)2
7、5,33,35,39,46,47,48,50,54,56,58,60,62,65,67,67,68,70,70,75 计算:Mode=67、70 Median=(56+58)/2=57 Mean=54.75 问题:哪个值更具有代问题:哪个值更具有代表性?表性?电费数据电费数据 Stem-and-Leaf Plot Frequency Stem&Leaf 1.00 2.5 3.00 3.359 3.00 4.678 4.00 5.0468 6.00 6.025778 3.00 7.005 Stem width:10 Each leaf:1 case(s)六六、众数众数、中位数中位数、平均数的比较
8、平均数的比较 3-12 oeMMx对称分布对称分布 左偏分布左偏分布 右偏分布右偏分布 定性变量定性变量:最好采用众数描述集中趋势。定量变量:定量变量:(讨论钟形分布)(讨论钟形分布)当数据呈现对称分布或近似对称分布时,应当选择平均数作为集中趋势的代表值。平均数具有优良的数学性质。当数据呈现偏斜分布时,应当选择中位数作为集中趋势的代表值。oeMMxxMMeo3-13 定义:设定义:设x1,x2,xn为按递增(或递减)排列的为按递增(或递减)排列的数据集,将全部数据等分为四等分。数据集,将全部数据等分为四等分。Q1第一四分位,即第第一四分位,即第25百分位数百分位数 Q2第二四分位,即第第二四分
9、位,即第50百分位数百分位数 Q3第三四分位,即第第三四分位,即第75百分位数百分位数 七七、相对位置:四分位数相对位置:四分位数(Quartile)3-14 确定四分位数:确定四分位数:以递增顺序排列原数据(即从小到大排列)计算项次数i 计算Q1,取p=25;计算Q2,取p=50;计算Q3,取p=75。若i为整数,则取第i、i+1项的平均值;若i为非整数,则取i向上取整。npi1003.2 数据分布离散程度的测度数据分布离散程度的测度(Measures of Data Variation)品质数据:异众比率品质数据:异众比率 数量数据:极差数量数据:极差 数量数据:四分位差数量数据:四分位差
10、 数量数据:方差数量数据:方差 数量数据:标准差数量数据:标准差 数量数据:变异系数数量数据:变异系数 3-16 定义:非众数组的频数占总频数的比例。定义:非众数组的频数占总频数的比例。用于测度众数对一组数据的代表程度。Vr越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;反之,Vr越小,众数的代表性越好。1rV 众数组的频数各组频数和一一、品质数据:异众变化率品质数据:异众变化率(Variation Ratio)3-17 定义:数据集中最大值与最小值之差定义:数据集中最大值与最小值之差。计算方法简单,但只利用了一组数据两端的信息,不能反映中间数据的分散状况,是一个不敏感的离散趋势
11、测定值。最小值最大值R二二、数量数据:极差数量数据:极差(Range)3-18 定义:与集中趋势代表值中四分位数相对应定义:与集中趋势代表值中四分位数相对应的离散程度代表值,是两个四分位数之差。的离散程度代表值,是两个四分位数之差。Qd反映的是中间50%数值大小的差异。Qd越小,说明中间数据越集中;反之,Qd越大,说明中间的数据越分散。31dQQQ三三、数量数据:四分位差数量数据:四分位差(Quartile Deviation)3-19 离差(离差(deviation):观察值与均值之差。):观察值与均值之差。方差:数据集中所有观察值的离差平方和的方差:数据集中所有观察值的离差平方和的“平均值
12、”“平均值”。方差是以均值为中心,提取了全部数据中的离差信息,这就使得它在反映离散程度方面更加全面。而且均值具有各变量值与其离差平方和为最小,也保证了方差在说明均值代表性方面的良好性质。nixxdii,2,1四四、数量数据:方差数量数据:方差(Variance)3-20 kiikiiifxxf1122)(1)(1122kiikiiifxxfs1)(122nxxsniinxxnii122)(未分组数据未分组数据 分组数据分组数据 总体总体方差方差 样本样本方差方差 样本方差算式的分母用样本方差算式的分母用n-1而非而非n,是为了数学,是为了数学上得到较好的总体方差估计量,称为自由度。上得到较好的
13、总体方差估计量,称为自由度。3-21 标准差:由标准差:由n个样本观测值组成的数据集,其个样本观测值组成的数据集,其标准差等于方差的平方根。标准差等于方差的平方根。总体标准差 样本标准差 标准差和方差都是以均值为中心描述分布的离散程度,因而与均值有同样的弱点,它们都容易受到极端数值的影响。22ss 五五、数量数据:标准差数量数据:标准差(Standard Deviation)3-22 例:例:甲、乙两人打靶,各击五发,命中靶环资料如下:甲:4、5、6、7、8 乙:3、10、7、4、6 问题:谁的水平发挥稳定?问题:谁的水平发挥稳定?表明乙每次击中环数之间的差异平均说来更大一些,因此,甲击中环数
14、的均值代表性更高。说明甲的水平发挥更稳定。(环)(环)乙甲66xx甲乙ss(环)(环)乙甲794.2)1()(581.1)1()(22nxxsnxxsii3-23 211925.42,()(1)71.618nniiiixxnsxxn21111929.0,()(1)72.026kkkkiiiiiiiiiixx ffsxxff未分组未分组 分分 组组 寿命组限组中值(xi)频数(fi)xifi(xi-929)2fi750-800775177523716800-8508254330043264850-900875121050034992900-9509251816650288950-10009758
15、7800169281000-1050102544100368641050-1100107511075213161100-115011252225076832合计5046450254200均值标准差929.0071.30223-24 例:现有内地和沿海两个城市的居民人均年收例:现有内地和沿海两个城市的居民人均年收入资料如下:入资料如下:人均年收入 收入标准差 变异系数 甲城市 6000元 150元 2.5 乙城市 12000元 180元 1.5 分析:从标准差看,乙城市的人均年收入两倍于甲城市,而且收入的差距大于甲城市;从变异系数看,乙城市的实际收入差距相对于它的平均收入来说低于甲城市。用变异系
16、数来衡量和比较两个城市收入分配状况更具实际意义。3-25 标准差是以均值为中心计算出来的 若均值相同,标准差可以直接说明均值代表性的高低;若均值水平不同,就不能直接使用标准差进行比较。此外,如果两组数据的计量单位不同,也不能用标准差进行直接对比。100V标准差变异系数()均值六、数量数据:变异系数(六、数量数据:变异系数(Coefficient of Variation)3.3 集中趋势与离散程度的综合运用集中趋势与离散程度的综合运用 标准分数标准分数 经验规则与切比雪夫定理经验规则与切比雪夫定理 异常值检测异常值检测 3-27 设有n个观测值x1,x2,xn,计算得到其平均数 和标准差s,则
17、 z分数将原始数据进行线性变换,给出了一组数据中各数值的相对位置。z0,则表示测定值大于平均数;z0,则表示测定值小于平均数;z0,则表示测定值等于平均数。xiixxzsz分数分数()0()1E zD z一、标准分数(一、标准分数(Standard Score)3-28 例:例:在某城市随机抽取9个家庭,调查得到每个家庭的人均月收入数据。家庭编号i123456789人均月收入xi(元)15007507891080850960200012501630 xi与平均数的离差(元)299-451-412-121-351-24179949429z分数0.694-1.047-0.957-0.281-0.8
18、15-0.560 1.8560.1140.996收入最高,人均月收收入最高,人均月收入比平均数高入比平均数高1.856倍倍的标准差。的标准差。收入最低,人均月收收入最低,人均月收入比平均数低入比平均数低1.047倍的标准差。倍的标准差。3-29 经验规则(经验规则(empirical rule):(钟形近似对称分布)(钟形近似对称分布)如果样本数据具有均值为 ,标准差为s的钟形分布,则落入以下三个区间内的观测值个数占总观测值总数的比率如下:xsxsx2sx370%100%95%二、经验规则与切比雪夫定理二、经验规则与切比雪夫定理 3-30 例:例:有些预定了酒店客房而没有住店的旅客,往往未能及
19、时取消预订。称这样的旅客为“未露面者”。为了防止未露面者和取消预定太晚者给酒店带来损失,酒店一般采取超员预订客房的方法。下表来自于一家有500个客房的大型酒店的30天样本数据,分析酒店每天至少可以超员预订多少客房?18 16 16 16 14 18 16 18 14 1915 199 20 10 10 12 14 18 1214 14 17 12 18 13 15 13 15 1930天中每天未露面者人数02321234989051331594522133152945213315.sx.s,.x根据经验规则,根据经验规则,95%可靠可靠性情形下,每天至少可以性情形下,每天至少可以超定超定9个客
20、房,最多可超定个客房,最多可超定21个客房。个客房。样本数据直方图024689101112 1314 1516 1718 1920未露面人数频数3-31 切比雪夫定理(切比雪夫定理(chebysheffs theorem):):(任意分布)(任意分布)样本数据集的均值为 ,标准差为s,则落入以下两个区间的样本观测值个数所占比率为:xsx2sx3至少至少75%落在落在 至少至少89%落在落在 至少至少94%落在落在 4xs3-32 离群数据(离群数据(outlier):):数据集中某个观测值与其余观测值相比异常的大或异常的小。离群数据离群数据 33zzsxxz三、异常值检测三、异常值检测 3.4
21、 数据分布偏态与峰度的测度数据分布偏态与峰度的测度(Measures of Skewness&Kurtosis)偏态偏态 峰度峰度 3-34 反映以平均值为中心的分布的不对称程度,反映以平均值为中心的分布的不对称程度,同时也能反映集中趋势指标的代表性。同时也能反映集中趋势指标的代表性。Sk的绝对值越大,表示偏斜程度越大。的绝对值越大,表示偏斜程度越大。未分组未分组 偏态偏态 系数系数 11505000500150121313.sn(nxxnSniik高度右偏高度右偏 中度右偏中度右偏 适度右偏适度右偏 对称对称 适度左偏适度左偏 中度左偏中度左偏 高度左偏高度左偏 一、偏态(一、偏态(Skew
22、ness)3-35 反映与正态分布相比某一分布的尖锐度或平坦反映与正态分布相比某一分布的尖锐度或平坦度。度。42 21140(1)()3()(1)0(1)(2)(3)0nniiiiun nxxxxnKnnns 尖峰分布正态分布扁平分布正态分布正态分布 正态分布正态分布 尖峰分布尖峰分布 扁平分布扁平分布 峰度系数峰度系数 未分组未分组 二、峰度(二、峰度(Kurtosis)3-36 50只灯泡的耐用时数数据如下:(单位:小时)只灯泡的耐用时数数据如下:(单位:小时)2.0%8.0%24.0%36.0%16.0%8.0%2.0%4.0%0%5%10%15%20%25%30%35%40%750-8
23、00800-850850-900900-950950-10001000-10501050-11001100-1150耐用时数组限(小时)比率尖峰尖峰 中度右偏中度右偏 7988008168188218508528538548648648668868868908938959009009009059169189199209249269269279289289389469469499509549679789789819999991000100610271040105011001120平均925.42标准误差10.12832中位数922众数900标准差71.61806方差5129.147峰度0.415
24、744偏度0.535498区域322最小值798最大值1120求和46271观测数50最大(1)1120最小(1)798本章小结本章小结 一、一、数据分布特征的综合度量包括三个方面的内容:一数据分布特征的综合度量包括三个方面的内容:一是数据分布的集中趋势,反映数据的聚集程度;二是数据是数据分布的集中趋势,反映数据的聚集程度;二是数据分布的离散趋势,反映数据的变异程度;三是数据分布的分布的离散趋势,反映数据的变异程度;三是数据分布的偏态和峰度,反映数据分布的形状。偏态和峰度,反映数据分布的形状。二、二、描述集中趋势的特征量为平均数,平均数因为计算描述集中趋势的特征量为平均数,平均数因为计算方法的
25、不同可以分为数值平均数和位置平均数两类。数值方法的不同可以分为数值平均数和位置平均数两类。数值平均数主要有算术平均数、调和平均数和几何平均数。位平均数主要有算术平均数、调和平均数和几何平均数。位置平均数主要有众数、中位数和四分位数。置平均数主要有众数、中位数和四分位数。三、三、描述数据离散程度的特征量,主要有异众比率、极描述数据离散程度的特征量,主要有异众比率、极差、四分位差、方差、标准差、变异系数等。差、四分位差、方差、标准差、变异系数等。本章小结本章小结 四、四、平均数和标准差的综合运用方法,如平均数和标准差的综合运用方法,如z分数、经验分数、经验规则和切比雪夫定理,可以获得各个观测值在整个数据规则和切比雪夫定理,可以获得各个观测值在整个数据集中的相对位置,并可以用来检测一组数据中是否存在集中的相对位置,并可以用来检测一组数据中是否存在离群数据。离群数据。五、五、偏态是对数据分布以均值为中心的分布对称性的偏态是对数据分布以均值为中心的分布对称性的测度。描述偏态的特征量是偏态系数;峰度是对数据分测度。描述偏态的特征量是偏态系数;峰度是对数据分布尖峰和扁平程度的测度,描述峰度的特征量是峰度系布尖峰和扁平程度的测度,描述峰度的特征量是峰度系数。数。
限制150内