数据分布特征的测度.pptx
第1节 集中趋势的量度 集中趋势(Central tendency)是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。分类数据:众数顺序数据:中位数和分位数数值型数据:均值第1页/共57页集中趋势(Central tendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据第2页/共57页均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据第3页/共57页一、算术平均数(Arithmetic mean)(一)简单算术平均数例:有5名工人生产的零件数分别为:15、16、17、18、19,平均零件数为多少?解:(件)第4页/共57页(二)加权算术平均数基本公式影响加权算术平均数的因素:变量值和权数选择权数的原则:变量值与其乘积是具有实际经济意义的标志总量。加权算术平均数与简单算术平均数的关系:当 时,第5页/共57页 例:计算某车间工人平均工资(单项式)某班组工人平均工资的计算(单项式数列)解:(元)工资(x)工人数(f)工资总额(xf)50021000530421207408592086054300102011020合计2014360第6页/共57页按零件数分组(个)组中值(x)人数(f)xf506055844060706520130070807512900合计402640例:计算某车间工人加工零件平均数(组距式数列)解:(件)第7页/共57页权数对均值的影响 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:考试成绩(x):0 20 100 人数分布(f):1 1 8 乙组:考试成绩(x):0 20 100 人数分布(f):8 1 1第8页/共57页均值的数学性质1.各变量值与均值的离差之和等于零 2.2.各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小第9页/共57页例:某市场某蔬菜销售价格早晨为1.00元,中午为0.5元,晚上为0.2元。在下列两种情况下分别计算平均价格(1)早午晚各买1斤(2)早午晚各买1元。简单调和平均数加权调和平均数二、调和平均数(倒数平均数 Harmonic mean)第10页/共57页 例题分析某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)x成交额成交额(元元)M成交量成交量(公斤公斤)f甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计3690048000【例例】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,计计算算三三种种蔬蔬菜菜该该日日的平均批发价格的平均批发价格第11页/共57页练习1:某管理局所属的15个企业,2000年按其生产某产品平均单位成本的高低分组资料如下,试计算平均单位成本。按平均单位成本分组(元/件)企业数(个)各组产量在总产量中所占的比重(%)101212141418276224038合计15100第12页/共57页试指出那个厂的总平均成本高,其原因何在?品种单位成本(元)总成本一厂二厂甲乙丙152030210030001500322515001500练习2:有两个工厂生产三种产品的单位成本和总成本资料如下:第13页/共57页练习3:计算某地区工业企业产值平均计划完成程度计划完成%企业数(个)计划产值(万元)90以下7140901002231010011057165011012026710120以上340合计1152850第14页/共57页平均数计算方法的选择设则 (已知m、f)(已知x、f)(已知x、m)原来只是计算原来只是计算时使用了不同时使用了不同的数据!的数据!第15页/共57页三、几何平均数(Geometric mean)例1:一位投资者持有一种股票,1997,1998,1999,2000收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。例2:某企业四个车间流水作业生产某产品。一车间产品合格率为99%,二车间为95%,三车间为92%,四车间为90%,计算该企业的平均产品合格率。算术平均数、调和平均数、几何平均数之间的关系算术平均数几何平均数调和平均数第16页/共57页练习:求平均年利率 投资银行某笔投资是的年利率是按复利计算的,25年利率分配时(按时间数序):有一年是3%,有4年为4%,有8年为8%,有10年为10%,有2年为15%。求平均年利率。第17页/共57页四、众数(Mode)众数是一组数据中出现次数最多的变量值 无众数或复众数 主要用于分类数据,也可用于顺序数据和数值型数据对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数。对于组距数列,若众数组相邻两组次数相等,则众数组的组中值就是众数;若众数组上一组的次数较多,则众数在众数组内靠近上限;若众数组下一组的次数较多,则众数在众数组内靠近下限。计算公式:第18页/共57页例:分类数据的众数不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100解解:这这里里的的变变量量为为“饮饮料料品品牌牌”,这这是是个个分分类类变变量量,不不同同类类型型的的饮饮料料就就是是变变量量值值 在在所所调调查查的的5050人人中中,购购买买可可口口可可乐乐的的人人数数最最多多,为为1515人人,占占总总被被调调查查人人数数的的30%30%,因因此此众众数数为为“可口可乐可口可乐”这一品牌,即这一品牌,即 MMo o可口可乐可口可乐第19页/共57页例:顺序数据的众数解解:这这里里的的数数据据为为顺顺序序数数据。变量为据。变量为“回答类别回答类别”甲甲城城市市中中对对住住房房表表示示不不 满满 意意 的的 户户 数数 最最 多多,为为108108户户,因因此此众众数数为为“不不满意满意”这一类别,即这一类别,即 MMo o不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510合计合计300100.0第20页/共57页五、中位数(Median)中位数是一组数据按一定顺序排列后,处于中间位置上的变量值。主要用于顺序数据,也可用数值型数据,但不能用于主要用于顺序数据,也可用数值型数据,但不能用于分类数据。分类数据。对于未分组数据,中位数位置=(n+1)/2对于单项式分组数据,中位数位置=对于组距数列,确定中位数组之后,可按以下公式计算中位数:第21页/共57页例:顺序数据的中位数解解:中中 位位 数数 的的 位位 置置 为为 300/2300/2150150 从从累累计计频频数数看看,中中位位数数在在“一一般般”这这一组别中。因此一组别中。因此 Me=一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第22页/共57页例:数值型数据某地农户收入众数、中位数年收入(元)农户数农户数累计向上累计向下累计5006006007007008008009009001000100011001100120012001300240480105060027021012030240720177023702640285029703000300027602280123063036015030合计3000第23页/共57页解:因第3组次数最多,故其为众数组。=755.9(元)中位数位置=1500,所以第三组为中位数组。=774.3(元)第24页/共57页六、中位数、众数、算术平均数之间的关系在同一变量数据集合中如果变量值分布呈对称型,则算术平均数、中位数和众数三者相等;若不对称,则中位数必居中,算术平均数和众数分列两侧。右偏 左偏第25页/共57页练习1:某企业工人工资等级的中位数和众数的计算级别12345678人数223861967020135第26页/共57页练习2:计算工人完成生产定额的中位数和众数完成生产定额(%)工人数(人)9010051001101311012016120130261301402014015015合计95第27页/共57页第二节 离散程度的测度(标志变异指标)标志变异指标的作用 衡量平均数代表性的大小 反映社会经活动过程的均衡性和节奏性例:1、有两个小组工人工资资料如下:甲:50 60 70 80 90 乙:60 65 70 75 80 哪一组工人工资平均数的代表性大?第28页/共57页2、某企业计划完成情况如表,哪个车间生产过程均衡?计划数实际完成上旬中旬下旬全月数量 比重%数量比重%数量比重%数量比重%甲车间乙车间120120382031.716.7404033.333.342603550120120100100第29页/共57页数值型数据的离中趋势测度一、极差(全距Range)极差(R)=最大标志值-最小标志值如前例中,对于组距数列极差也可以近似表示为:R=最高组上限值-最低组下限值如农户收入例中,R=1300-500=800(元)第30页/共57页简单平均式如两组工人工资平均差二、平均差第31页/共57页月工资额X工人数f工资总额Xf离差离差绝对值5060708090305070302015003000490024001800-18-82122218821222540400140360440合计200136001880加权平均式例:第32页/共57页例:对成年和幼儿身高进行调查资料如下:成年组(厘米):161 163 165 167 169幼儿组(厘米):73 74 75 76 77哪一组平均身高的代表性更大?第33页/共57页第34页/共57页三、方差(Variance)Variance)及标准差(Standard deviation)(Standard deviation)简单平均式例:第35页/共57页加权平均式方差 =标准差第36页/共57页例:某企业工人日加工零件的个数如下表,计算工人日加工零件的标准差按零件数分组(个)组中值(X)人数(f)105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计503100.5第37页/共57页解:第38页/共57页样本方差和标准差(simple variance and standard deviation)未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n-1n-1n-1去除去除去除!第39页/共57页 四、离散系数(变异系数或标准差系数)消除了数据水平高低和计量单位的影响第40页/共57页例:甲、乙两商店营业员及销售额的分组资料如下甲商店乙商店组中值x人数fxf组中值x人数fxf253545556531296754204053307684321441176253545556528647036033026051228896784合计3012302520合计2010201680试问两个商店营业员平均销售额的代表性哪个大?为什么?第41页/共57页解第42页/共57页用“是”、“否”或“有”、“无”来表示的标志是非标志。总体单位数用N来表示。表示具有所研究标志值的单位数,表示不具有所研究标志的单位数。是非标志(比例)的标准差是非标志的平均数第43页/共57页五、标准化数值(Z-Score)标准化数值是一个数据在数据集中相对位置的测度。计算公式为 标准化数值就是数据值偏离平均数标准差的个数。正的z值表示观察值位于平均数右侧,负的z值表示观察值位于平均数左侧。根据经验法则,对于钟形分布,几乎所有的数据都在偏离平均数3个标准差范围之内。因此,标准化数值低于-3或高于3的数据值就是异常值,也称为离群点。第44页/共57页1、假设下面数据是A公司和B公司的供货天数:A:11 10 9 10 11 11 10 11 10 10B:8 10 13 7 10 11 10 7 15 12 利用全距和标准差来证明A公司供货时间上更具有一致性和可靠性。2、下面数据是某大学田径队的队员跑400米和1500米的时间(分钟)400米:0.92 0.98 1.04 0.90 0.991500米:4.52 4.35 4.60 4.70 4.50一名教练看了以上样本后断言,400米耗时更具有一致性。对不对?为什么?练习:第45页/共57页分类数据离中趋势测度异众比率(variation ratio)1.对分类数据离散程度的测度2.非众数组的频数占总频数的比率3.计算公式为 4.4.用于衡量众数的代表性用于衡量众数的代表性第46页/共57页例:计算异众比率解:解:在在所所调调查查的的5050人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,异异众众比比率率比比较较大大。因因此此,用用“可可口口可可乐乐”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,其代表性不是很好其代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100第47页/共57页顺序数据离中趋势测度四分位差(quartile deviation)1.对顺序数据离散程度的测度2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性第48页/共57页例:计算四分位差解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2,2,一一般般为为3,3,满满意意为为 4,4,非常满意为非常满意为5 5 已知已知 QQL L=不满意不满意 =2 2 QQU U =一般一般 =3 3四分位差:四分位差:QQDD =QQU U =QQL L =3 2 3 2 =1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第49页/共57页数据类型与离散程度测度值数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值数据类型数据类型分类数据分类数据 顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差 方差或标准差方差或标准差 异众比率异众比率 离散系数(比较时用)离散系数(比较时用)平均差平均差 极差极差 四分位差四分位差 异众比率异众比率第50页/共57页集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度就是对这些分布特征的近一步描述。第3 3节 偏度与峰度的测定第51页/共57页一、偏度及其测定 如果次数分布是完全对称的,叫对称分布;如果次数分布不是完全对称的,就称为偏态分布。所谓偏度,就是指次数分布的非对称程度,以偏态系数来表示。0,说明是右偏第52页/共57页二、峰度及其测定峰度是分布集中趋势高峰的形状。它通常是与正态分 布相比而言的。若分布形状比正态分布更瘦更高,叫尖峰分布。若分布形状比正态分布更矮更胖,叫平顶分布。测定峰度的指标是峰度系数=3为正态分布3为尖峰分布第53页/共57页例:计算农户收入的偏态系数和峰度系数第54页/共57页数据的特征和测度数据的特征和测度分布的形状离散程度集中趋势众众众 数数数中位数中位数中位数均均均 值值值离散系数离散系数离散系数方差方差方差峰峰峰 度度度标准差标准差标准差极差极差极差偏偏偏 态态态第55页/共57页本章小结1.数据水平的概括性度量2.数据离散程度的概括性度量3.数据分布形状的测度4.用Excel计算描述统计量第56页/共57页感谢您的观看!第57页/共57页