《分布特征测度.ppt》由会员分享,可在线阅读,更多相关《分布特征测度.ppt(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第4章 分布特征测度 第一节 分布中心第二节 离散程度第三节 偏度与峰度第四节 相关程度1中央财经大学统计学院 2006 数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值离散系数离散系数方差和标准差方差和标准差峰峰 度度平均差平均差极差极差偏偏 态态LocationDispersionShape2中央财经大学统计学院 2006 4.1 分布中心(集中趋势的测度)l分布中心测度的意义l分布中心测度指标l均值、中位数和众数的关系3中央财经大学统计学院 2006 一、分布中心测度的意义l随机变量的分布中心是随机变量一切取值的一个代
2、表,可以用来反映其数值的一般水平。l随机变量的分布中心可以揭示随机变量一切取值的次数分布在直角坐标系内的集中位置,可以用来反映随机变量分布密度曲线的中心位置,即对称中心或尖峰位置。4中央财经大学统计学院 2006 二、集中趋势的侧度指标l常用的集中趋势的测度指标:l算术平均数l调和平均数l几何平均数l中位数l众数l集中趋势:一组数据向其中心值靠拢的倾向和程度。l集中趋势测度:寻找数据水平的代表值或中心值。5中央财经大学统计学院 2006 1 算术平均数(均值,Arithmetic Mean)l总体均值:常用 表示。l 简单平均数(未分组数据):l加权平均数(分组数据):设Xi为各组组中值,各组
3、权数为Fi,则6中央财经大学统计学院 2006 样本均值l简单算术平均数:l对分组资料:(常常简记为 )7中央财经大学统计学院 2006 影响平均数大小的因素l简单算术平均数的大小只与变量值的大小有关。l加权算术平均数受各组组中值(变量值)大小,以及各组变量值出现的频数(权数)的影响。l权数也可以看作各组次数比重大小:以及8中央财经大学统计学院 2006 算术平均数(例子)l某企业的工会随机调查了20名工人2005年6月加班的小时数,结果如下:l该组数据算术平均数等于(13+18+12)/20=11.6(小时)。13181215715512177121091312196711129中央财经大学
4、统计学院 2006 加权算术平均数(例子)l在前面的例子中,假设我们只得到了分组后的资料:l该组数据算术平均数等于245/20=12.25(小时)。分组分组人数人数5-105-106 610-1510-159 915-2015-205 5合计合计2020分组人数组中值xf5-1067.54510-15912.5112.515-20517.587.5合计20-24510中央财经大学统计学院 2006 关于计算结果的说明l根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。l只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。11中
5、央财经大学统计学院 2006 算术平均数的性质l1、所有的定量数据都有算术平均数。l2、计算算术平均数时使用了所有数据。l3、一组数只有一个均值。l4、各变量值与均值的离差之和等于零。假设假设4 4个股票经纪个股票经纪人的年收入分别为人的年收入分别为6290062900,6250062500,6080060800,12000001200000美美元元l缺点:l易受极端值的影响。l严格来说无法根据有开口组的分组数据计算算术平均数。12中央财经大学统计学院 2006 2 调和平均数(Harmonic mean)l也称倒数平均数,等于变量值倒数的算术平均数的倒数。l以 加权的公式:13中央财经大学统
6、计学院 2006 l例 某种水果的价格为:早上3.0元/公斤,中午2.0元/公斤,晚上1.6元/公斤。某人早中晚各买1元和各买1斤,该种水果的平均价格相同吗?14中央财经大学统计学院 2006 调和平均数:例子批次购进价格(元/公斤)x购买金额(元)M第一批第二批2.503.0015001200 合计2700某大型超市购进了两批苹果,价格和购买金额某大型超市购进了两批苹果,价格和购买金额如下,计算苹果的平均价格。如下,计算苹果的平均价格。15中央财经大学统计学院 2006 3 几何平均数(geometric mean)l等于n 个变量值乘积的 n 次方根。l常用于计算平均的比率、增长率等。简单
7、几何平均数简单几何平均数 加权几何平均数加权几何平均数 可看作是均值的一种变形可看作是均值的一种变形16中央财经大学统计学院 2006 几何平均数(例子)某化肥生产企业2000年-2003年的水泥产量的年增长率为9%,12%,15%,18%,求4年的年平均增长率。年平均增长率113.5%-1=13.5%17中央财经大学统计学院 2006 4 中位数(Median)l一组数据按大小顺序排列后,处在数列中点位置的数值,典型的位置平均数。l特点:l对一组数据是唯一的。l不受极端值的影响。l对开口组可以计算(若中位数不在开口组)。l主要用于顺序数据,也可用数值型数据,但不能用于分类数据。18中央财经大
8、学统计学院 2006 中位数计算:原始数据ln为奇数时等于第(n+1)/2个数。ln为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数中位数=51,2,5,9,11,18中位数中位数=(5+9)/2=719中央财经大学统计学院 2006 中位数的计算:分组资料*l对分组资料的一种计算方法是:20中央财经大学统计学院 2006 中位数的计算:例子*l根据考试成绩的数据计算考试成绩的中位数。成成绩绩频频数数累计频数累计频数60以下以下3360-7081170-80122380-90153890以上以上442合合计计42-第第21个个数所在数所在的组的组21中央财经大学统计学院
9、2006 5 众数(Mode)l一组数据中出现次数最多的变量值,也是一种位置平均数。l主要特点:l不受极端值的影响。l对有开口组的数据可以计算。l有的数据无众数或有多个众数。l对未分组定量资料很少使用。22中央财经大学统计学院 2006 众数的不惟一性众数众数无众数无众数众数众数 1众数众数223中央财经大学统计学院 2006 l计算等距分组数据的众数有两种方法:l1、lL:众数所在组的下限l1:众数组与前一组频数的差l2:众数组与后一组频数的差ld:众数组的组距l2、也可以用众数所在组的组中值估计分组数据的众数。众数的计算:分组资料*L12Mo24中央财经大学统计学院 2006 众数的计算:
10、分组资料*,例子l1、众数所在的组:80-90。l2、或者:众数等于众数所在组的组中值85。成绩频数60以下360-70870-801280-901590以上4合计4225中央财经大学统计学院 2006 三、众数、中位数和算术平均数的关系对称分布对称分布 均值均值=中位数中位数=众数众数分配为钟形、轻微不对称的经验公式:分配为钟形、轻微不对称的经验公式:左偏分布左偏分布均值均值 中位数中位数 众数众数右偏分布右偏分布众数众数 中位数中位数均值均值26中央财经大学统计学院 2006 小结:众数、中位数、平均数的特点l算术平均数:l易受极端值影响(使用了全部数据)l数学性质优良.主要用于数值型数据
11、l数据对称分布或接近对称分布时应用l中位数:位置平均数l不受极端值影响l数据分布偏斜程度较大时应用;主要用于顺序数据l众数:位置平均数l不受极端值影响l不具有惟一性l数据分布偏斜程度较大时应用;主要用于分类数据27中央财经大学统计学院 2006 数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型分类数据 顺序数据间隔数据比率数据适用的测度值众数中位数均值均值众数众数调和平均数中位数几何平均数 中位数众数28中央财经大学统计学院 2006 4.2 离中趋势(测度)数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值离散
12、系数方差和标准差峰峰 度度四分位距 极极 差差偏偏 态态LocationDispersionShape29中央财经大学统计学院 2006 离中趋势l反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。l不同类型的数据有不同的离散程度测度指标。l常用指标:l*异众比率l*四分位距l全距(极差)l平均差 l方差和标准差l变异系数30中央财经大学统计学院 2006 1 异众比率(异众比率(Variation Ratio)*l非众数组的频数占总频数的比率,主要用于衡量分类数据的离散程度l可以反映众数的代表性:异众比率越小,众数的代表性就越强。31中央财经大学统计学院
13、 2006 异众比率计算(分类数据)洗发水品牌频数百分比(%)海飞丝 飘柔 伊卡璐 夏士莲 潘婷 其它1511 9 6 5430221812188合计50100l50个人购买的洗发水的品牌分布如左表。l数据的众数为“海飞丝”。l异众比率等于1-30%=70%l异众比率较大,说明用“海飞丝”代表消费者购买洗发水品牌的状况,其代表性不是很好。32中央财经大学统计学院 2006 2 全距(Range)l全距也称极差,是一组数据的最大值与最小值之差。lR=最大值-最小值l组距分组数据可根据最高组上限-最低组下限计算。l受极端值的影响。全距=?2,5,6,7,8,9,10,12,15,16,2033中央
14、财经大学统计学院 2006 l等于上四分位数与下四分位数之差l反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。l不受极端值的影响。l可以用于衡量中位数的代表性。3 四分位距(Inter-Quartile Range,IQR)2,5,6,7,8,9,10,12,15,16,20Q1=6,Q2=9,Q3=1534中央财经大学统计学院 2006 4 平均差 (Mean Deviation)l一组数据值与其均值之差的绝对值的平均数。l也称为平均绝对差(Mean Absolute Deviation,MAD)。l利用全部数据计算,容易受极端值的影响 l主要用于数值型的数据l数学性质较差,使
15、用受到了影响 35中央财经大学统计学院 2006 l方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。l总体方差和样本方差的符号不同,计算公式也不一样。l是反映定量数据离散程度的最常用的指标。5 方差和标准差36中央财经大学统计学院 2006 总体方差和标准差的计算公式方差 标准差 未分组数据分组数据 37中央财经大学统计学院 2006 样本方差和标准差的计算公式方差 标准差 未分组数据分组数据 样本方差用自由度(n-1)去除38中央财经大学统计学院 2006 l自由度:一组数据中可以自由取值的数据的个数。l当样本数据的个数为 n 时,若样本均值 确定后,只有n-1
16、个数据可以自由取值。l例如,样本有3个数值,如果已知 =5,则其中只有两个数据可以自由取值。比如x1=6,x2=7,那么x3必然取2,而不能取其他值l样本方差用自由度去除,从实际应用角度看是因为当用样本方差去估计总体方差2时,它是2的无偏估计量。样本方差:为什么用n-1?39中央财经大学统计学院 2006 平均差和标准差(例子)l某工会随机调查了5名工人上月的加班时间如下表,平均加班时间为13小时。计算数据的平均差和标准差。加班小时数加班小时数绝对离差离差平方13130018185251212111515247 7636合计合计1466加班小时数13181215740中央财经大学统计学院 20
17、06 6 离散系数(Coefficient of Variation)l标准差与其相应的均值之比,表示为百分数。l特点:l反映了相对于均值的相对离散程度;l可用于比较计量单位不同的数据的离散程度;l计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。41中央财经大学统计学院 2006 离散系数:例子l对30名经理人员的调查表明年平均收入=$500,000,标准差=$50,000。l对30名工人的调查表明平均收入=$32,000,标准差=$5,000。l离散系数:l经理人员:l工人:l虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人
18、。42中央财经大学统计学院 2006 4.3 数据分布的偏态与峰度数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值离散系数方差和标准差峰峰 度度四分位距 极极 差差偏偏 态态LocationDispersionShape43中央财经大学统计学院 2006 偏态和峰度的类型偏态偏态偏态偏态左偏分布左偏分布右偏分布右偏分布正态分布正态分布正态分布正态分布扁平分布扁平分布峰态峰态尖峰分布尖峰分布44中央财经大学统计学院 2006 1 偏态及其测定(Skewness)l 数据分布的不对称性称作偏态。l偏态系数就是对数据分布的不对称性(
19、即偏斜程度)的测度。l偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:45中央财经大学统计学院 2006 偏态系数的含义左偏分布左偏分布(也称负偏分布也称负偏分布):偏态系数偏态系数 SK 0;偏态系数的;偏态系数的绝对值越大,偏斜越严重。绝对值越大,偏斜越严重。数据向右边数据向右边延伸得更多延伸得更多对称分布:偏态系数对称分布:偏态系数=0。46中央财经大学统计学院 2006 直观偏度系数l利用描述随机变量分布中心的不同指标之间的直观关系而确定的测度随机变量分布偏斜程度的指标。1)皮尔逊偏度系数 算术平均数与众数之间的离差对标准差的比率,称为皮尔逊偏度系数。公式为:4
20、7中央财经大学统计学院 2006 直观偏度系数l皮尔逊偏度系数的数值在-33的范围内。l皮尔逊偏度系数的绝对值越接近3,随机变量分布的偏斜程度越大;皮尔逊偏度系数的绝对值越接近0,随机变量分布的偏斜程度就越小。48中央财经大学统计学院 2006 直观偏度系数2)鲍莱偏度系数l公式为:其中,和 分别为下四分位数和上四分位数,为中位数。l鲍莱偏度系数的数值在-11之间。其绝对值越接近于1,随机变量分布的偏斜程度越大;其绝对值越接近于0,随机变量分布的偏斜程度越小。49中央财经大学统计学院 2006 矩偏度系数l矩偏度系数是利用随机变量分布的矩而确定的测度随机变量分布偏斜程度的指标。l随机变量分布的
21、矩有原点矩和中心矩两种。1)简单平均法的矩偏度系数计算公式为:l原点矩 l中心矩50中央财经大学统计学院 2006 矩偏度系数2)加权平均法的矩偏度系数计算公式为:l原点矩l中心矩51中央财经大学统计学院 2006 2 峰度及峰度系数(Kurtosis)l峰度:数据分布的扁平或尖峰程度。l峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。l峰度系数的构造,需要利用观测变量取值的四阶中心矩来进行。将随机变量的四阶中心矩与其标准差的四次方相除,所得比率即为峰度系数,其计算公式为:l统计软件(如Excel等)中常用以下公式计算:52中央财经大学统计学院 2006 峰度系数
22、的含义扁平分布扁平分布尖峰分布尖峰分布峰度系数峰度系数K0,与正,与正态分布相比该分布一态分布相比该分布一般为尖峰、肥尾,肩般为尖峰、肥尾,肩部较瘦。部较瘦。均值和方差均值和方差相同的正态相同的正态分布分布 注意:由于采用了不同的计算公式,有的软件的计算结果为:注意:由于采用了不同的计算公式,有的软件的计算结果为:正态分布正态分布K=3,扁平分布,扁平分布K3。53中央财经大学统计学院 2006 数据类型与离散程度测度值数据类型和所适用的离散程度测度值数据类型定类数据 定序数据数值型数据适用的测度值异众比率四分位距 方差或标准差 异众比率 离散系数(比较时用)平均差 全距 四分位距 异众比率5
23、4中央财经大学统计学院 2006 4.4 相关程度相关程度 1 协方差协方差l协方差是两个随机变量成对观测值偏差乘积的算术平均数。l协方差可以反映所考察的两个随机变量之间相关关系的方向和密度程度。l计算公式为:l举例见P9655中央财经大学统计学院 2006 2 相关系数相关系数 l相关系数是两个随机变量的协方差对其两标准差之积的比率,是专门用来测定两个随机变量线形相关方向和密切程度的相对指标。l对于两个变量的理论分布,相关系数通常用 表示,其计算公式为:l对于样本观测资料,相关系数通常用 表示,公式为:56中央财经大学统计学院 2006 Z值和异常值检测 Z Score and Outlie
24、rs 1 Z值l也称标准化值,等于变量值与其平均数的离差除也称标准化值,等于变量值与其平均数的离差除以标准差,用以标准差,用Z表示。表示。Z值的均值等于值的均值等于0,标准差,标准差等于等于1。l是对某一个值在一组数据中相对位置的度量。是对某一个值在一组数据中相对位置的度量。lz0说明观测值大于均值。说明观测值大于均值。l z0说明观测值小于均值。说明观测值小于均值。lz=1.2说明观测值比均值大说明观测值比均值大1.2倍的标准差。倍的标准差。57中央财经大学统计学院 2006 工人加班时间的标准化值工人加班时间的标准化值加班小时数1300.00 1851.23 12-1-0.25 1520.
25、49 7-6-1.48 工人加班时间工人加班时间的数据,的数据,均值等于均值等于13,s=4.06。58中央财经大学统计学院 2006 切比雪夫定理(Chebyshevs Theorem)l对于任意分布形态的数据,至少有1-1/k2的数据落在均值加减k个标准差的范围内。其中k是大于1的任意值,但不一定是整数。l对于k=2,3,4,该不等式的含义是l至少有75%的数据落在均值加减2个标准差的范围内l至少有89%的数据落在均值加减3个标准差的范围内l至少有94%的数据落在均值加减4个标准差的范围内59中央财经大学统计学院 2006 数据为钟型对称分布时的经验法则l经验法则:当一组数据为经验法则:当
26、一组数据为钟型对称分布钟型对称分布时,时,l约有约有68%的数据在均值加减的数据在均值加减1个标准差的范围内个标准差的范围内l约有约有95%的数据在均值加减的数据在均值加减2个标准差的范围内个标准差的范围内l几乎所有数据几乎所有数据(99.7%)都都在均值加减在均值加减3个标准差的范围个标准差的范围内内l例如,如果数据的均值例如,如果数据的均值=100,标准差,标准差=10,则:,则:60中央财经大学统计学院 2006 2 异常值检测与处理l一组数据中特别大或特别小,与其他数据不相一致的数值称异常值或离群点(outliers)。lZ值可以用于检测异常值:在均值加减3个标准差范围外的数据点为异常
27、值或离群点。l对异常值应根据具体情况,区别对待:l可能是录入错误,应该加以修正;l这个数据值可能不应该包括在样本中;l可能是完全由随机因素造成的,应该保留该数据。61中央财经大学统计学院 2006 小结(1)l1.集中趋势是一组数据向其中心值靠拢的倾向和程度。常用测度指标有:算术平均数、调和平均数、几何平均数、众数、中位数、分位数等。l2.离中趋势反映的是一组数据中各观测值之间的差异或离散程度。即反映各变量值远离其中心值的程度(离散程度)。常用测度指标包括异众比率,四分位差,极差,平均差,方差和标准差,离散系数等。62中央财经大学统计学院 2006 小结(2)l3.数据分布的偏态与峰度,是对数据分布的形状是否对称,偏斜的程度及分布的峰度这些特征的测度。*Z分数也称标准分数,或标准化值,是变量值与其平均数的离差除以标准差的值。Z分数主要用于对变量的标准化处理。可用于判断一组数据是否有离群点。63
限制150内