第四章集中趋势测量法课件.ppt
第四章第四章集中趋势测量法集中趋势测量法主要内容算术平均数中位数众数几何平均数和调和平均数1集中趋势图示集中趋势集中趋势集中趋势集中趋势(位置位置位置位置)2集中趋势(Central tendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据3统计分析统计分析首先要解决的问题,就是寻求首先要解决的问题,就是寻求一个简单数值以代表搜集所得的资料。一个简单数值以代表搜集所得的资料。平均指标平均指标就是表明同质总体在一定条件就是表明同质总体在一定条件下某一数量标志所达到的一般水平。下某一数量标志所达到的一般水平。平均指标平均指标把总体各单位之间的差异加以把总体各单位之间的差异加以抽象概括,其中个别标志值的偶然性被抽象概括,其中个别标志值的偶然性被相互抵消,从而反映出总体分布的集中相互抵消,从而反映出总体分布的集中趋势。趋势。4下面是一个小故事:一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?5挠头的数值挠头的数值公司公司员工的月薪如下:工的月薪如下:员工工经理理副副经理理职员A职员B职员C职员D职员E职员F职员G月薪月薪(元)(元)600040001700130012001100110011005006我们有三种方法选择集中趋势:(1)根据频数:哪个变量值出现次数越多,就选择哪个变量值,比如民主决策的表决机制。(2)根据居中:比如一个城镇居民的生活水平,居中的是小康家庭,那么就用小康家庭来代表该城镇的生活水平。(3)根据平均:用平均数来代表变量的平均水平。7集中趋势的测度集中趋势的测度一、算术平均数(均值)一、算术平均数(均值)(mean)1.集中趋势的测度值之一集中趋势的测度值之一2.最常用的测度值最常用的测度值3.一组数据的均衡点所在一组数据的均衡点所在4.易受极端值的影响易受极端值的影响5.用于数值型数据,不能用于分类数据和顺用于数值型数据,不能用于分类数据和顺序数据序数据8简单均值(simple mean)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(x xN N)样本均值样本均值样本均值样本均值总体均值总体均值总体均值总体均值9加权均值(weighted mean)设各组的组中值为:设各组的组中值为:MM1 1,MM2 2,MMk k 相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k样本样本样本样本加权均值加权均值总体总体总体总体加权均值加权均值10频数分布表的编制频数分布表的编制(实例)(实例)某某某某 生生生生 产产产产 车车车车 间间间间 5050名名名名工工工工人人人人日日日日加加加加工工工工零零零零件件件件数数数数如如如如下下下下(单单单单位位位位:个个个个)。试试试试采采采采用用用用单单单单变变变变量量量量值值值值对对对对数数数数据据据据进进进进行分组。行分组。行分组。行分组。11某车间某车间50名工人日加工零件均值计算表名工人日加工零件均值计算表按零件数分组按零件数分组组中值(组中值(Xi)频数(频数(Fi)XiFi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计合计506160.012加权均值加权均值 (例题分析例题分析)在过去的几年里,许多公司参与到长途电话行业的竞争中。在过去的几年里,许多公司参与到长途电话行业的竞争中。某公司想知道新客户与本公司签约后的第一个月的帐单情况。某公司想知道新客户与本公司签约后的第一个月的帐单情况。因此,该公司记录了因此,该公司记录了5050个固定电话新客户第一个月的电话清单,个固定电话新客户第一个月的电话清单,根据此表资料计算平均电话费用。根据此表资料计算平均电话费用。电话费用(元)用(元)户数(户)组中值20元以下元以下2102020-4083024040-60165080060-802070140080元以上元以上490360合合计50282013加权均值加权均值(例题分析例题分析)14算术平均数的性质算术平均数的性质各变量值与算术平均数的离差之和等于各变量值与算术平均数的离差之和等于0。各变量值对算术平均数的平方和,小于它们对任各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和何他数偏差的平方和算术平均数受抽样变动影响较小。算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。不能进行算术平均数的计算。受极端值影响较大。受极端值影响较大。15二、调和平均数(harmonic mean)1.均值的另一种表现形式2.易受极端值的影响3.计算公式为原来只是计算时使用了不同的数据!16调和平均数调和平均数(算例)【例例例例】某某某某蔬蔬蔬蔬菜菜菜菜批批批批发发发发市市市市场场场场三三三三种种种种蔬蔬蔬蔬菜菜菜菜的的的的日日日日成成成成交交交交数数数数据据据据如如如如表表表表4-24-2,计计计计算算算算三种蔬菜该日的平均批发价格三种蔬菜该日的平均批发价格三种蔬菜该日的平均批发价格三种蔬菜该日的平均批发价格某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)Xi成交额成交额(元元)XiFi成交量成交量(公斤公斤)Fi甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计369004800017三、几何平均数三、几何平均数(geometric mean)1.集中趋势的测度值之一集中趋势的测度值之一2.N 个变量值乘积的个变量值乘积的N 次方根次方根3.适用于特殊的数据适用于特殊的数据4.主要用于计算平均发展速度主要用于计算平均发展速度6.6.可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形l 5.计算公式为计算公式为18几何平均数几何平均数(算例算例)【例例】一一位位投投资资者者持持有有一一种种股股票票,1996年年、1997年年、1998年年和和1999年年收收益益率率分分别别为为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率。平均收益率平均收益率103.6%-1=3.6%103.6%-1=3.6%19四、位置平均数四、位置平均数众数众数(mode)1.集中趋势的测度值之一集中趋势的测度值之一2.出现次数最多的变量值出现次数最多的变量值3.不受极端值的影响不受极端值的影响4.可能没有众数或有几个众数可能没有众数或有几个众数20众数(不唯一性)无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 59 8 55多于一个众数多于一个众数原始数据:25 282836 42422122甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积向下累积向下累积户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意不满意不满意一般一般满意满意非常满意非常满意24108934530836311510241322252703008447590100300276168753010092562510合计合计300100.0231.单项数列确定众数。单项数列确定众数。只需要直接判断哪一组的次数最多,该组的变只需要直接判断哪一组的次数最多,该组的变量值即为众数,用量值即为众数,用M Mo o表示。表示。2.2.组距式分组资料计算众数组距式分组资料计算众数 在组距式分组资料中,众数的计算就带有一定在组距式分组资料中,众数的计算就带有一定的假定性。先根据数列次数最多的组确定为众数所的假定性。先根据数列次数最多的组确定为众数所在组,再利用插补法求其众数近似值。形成了两个在组,再利用插补法求其众数近似值。形成了两个计算公式,即上限公式和下限公式:计算公式,即上限公式和下限公式:2425式中:式中:Mo表示众数表示众数 L表示众数所在组的下限表示众数所在组的下限 U表示众数所在组的上限表示众数所在组的上限 1是众数所在组的次数是众数所在组的次数f2与其下限邻近组的次数与其下限邻近组的次数f1之差之差 2是众数所在组的次数是众数所在组的次数f2与其上限邻近组的次数与其上限邻近组的次数f3之差之差 i表示众数所在组的组距表示众数所在组的组距 M MMoooM MMoooM MMooo26某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计5027五、中位数五、中位数(median)1.集中趋势的测度值之一集中趋势的测度值之一2.排序后处于中间位置上的值排序后处于中间位置上的值3.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响4.主要用于顺序数据,也可用数值型数据,但主要用于顺序数据,也可用数值型数据,但主要用于顺序数据,也可用数值型数据,但主要用于顺序数据,也可用数值型数据,但不能用于分类数据不能用于分类数据不能用于分类数据不能用于分类数据5.各变量值与中位数的离差绝对值之和最小,各变量值与中位数的离差绝对值之和最小,各变量值与中位数的离差绝对值之和最小,各变量值与中位数的离差绝对值之和最小,即即即即281.1.未分组资料确定中位数未分组资料确定中位数 在资料未分组情况下,将总体各单位的标志值在资料未分组情况下,将总体各单位的标志值按其大小顺序排列,确定标志值数列的中间位置点,按其大小顺序排列,确定标志值数列的中间位置点,即中位数位置即中位数位置(N+1)/2当N为奇数时当N为偶数时292.2.单项式分配数列的中位数计算单项式分配数列的中位数计算 在单项式分配数列情况下,先计算各组的累计次数,在单项式分配数列情况下,先计算各组的累计次数,然后根据中点的位次然后根据中点的位次(f/2)所在的组来确定中位数所在组所在的组来确定中位数所在组,中中位数所在组的标志值就是中位数。位数所在组的标志值就是中位数。按日产量分组按日产量分组(件件)工人数工人数(人人)累计次数累计次数(以以下下)xff 4 567898 22423817 3 8 30 72110127130合计合计130303.3.组距式分组资料的中位数计算组距式分组资料的中位数计算 对于组距数列资料,首先要确定中位数所在组,对于组距数列资料,首先要确定中位数所在组,再利用其上限公式或下限公式计算:再利用其上限公式或下限公式计算:31式中:式中:Me为中位数;为中位数;i为中位数所在组的组距;为中位数所在组的组距;L为中位数所在组的下限;为中位数所在组的下限;U为中位数所在组的上限;为中位数所在组的上限;fm为中位数所在组的次数;为中位数所在组的次数;Sm-1为中位数组下限的邻近组及以下各组的累计次数;为中位数组下限的邻近组及以下各组的累计次数;Sm+1为中位数组上限的邻近组及以上各组的累计次数为中位数组上限的邻近组及以上各组的累计次数32某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计5033六、四分位数六、四分位数(quartile)1.集中趋势的测度值之一集中趋势的测度值之一2.排序后处于排序后处于25%和和75%位置上的值位置上的值3.3.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响4.4.主要用于顺序数据,也可用于数值型数据,但不主要用于顺序数据,也可用于数值型数据,但不主要用于顺序数据,也可用于数值型数据,但不主要用于顺序数据,也可用于数值型数据,但不能用于分类数据能用于分类数据能用于分类数据能用于分类数据QQL LQQMMQQU U25%25%25%25%34四分位数位置的确定四分位数位置的确定未分组数据未分组数据未分组数据未分组数据下四分位数下四分位数下四分位数下四分位数(QQL L)位置位置位置位置=N+N+1 14 4上四分位数上四分位数上四分位数上四分位数(QQU U)位置位置位置位置=3(3(N+N+1)1)4 4组距分组数据组距分组数据组距分组数据组距分组数据下四分位数下四分位数下四分位数下四分位数(QQL L)位置位置位置位置=N N4 4上四分位数上四分位数上四分位数上四分位数(QQL L)位置位置位置位置=3N3N4 435数值型未分组数据的四分位数数值型未分组数据的四分位数(7个数据的算例个数据的算例)原始数据原始数据:23 21 30 32 28 25 26排排序序:21 23 25 26 28 30 32位位置置:1 2 3 4 5 6 7 7+7+1 1QQL L位置位置=4 4=4 4=2=2QQU U位置位置=3(3(N+N+1)1)4 43(73(7+1)1)4 4=6=6QL=23QU QU=30=3036数值型未分组数据的四分位数数值型未分组数据的四分位数(6个数据的算例个数据的算例)原始数据原始数据:23 21 30 28 25 26排排序序:21 23 25 26 28 30位位置置:1 2 34 5 6QQL L位置位置=N+N+1 14 4=6+6+1 14 4=1.75=1.75QQU U位置位置=3(3(N+N+1)1)4 43(63(6+1)1)4 4=5.25=5.25QQL L=21+0.75(23-21)=21+0.75(23-21)=22.522.5Q QU U=28+0.25(30-28)=28+0.25(30-28)=28.528.537数值型分组数据的四分位数(计算示例)计算计算计算计算5050名工人日加工零件数的四分位数名工人日加工零件数的四分位数名工人日加工零件数的四分位数名工人日加工零件数的四分位数某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数1051101101151151201201251251301301351351403 35 58 8141410106 64 43 38 8161630304040464650合计合计5038QL位置位置50/412.5QUQU位置位置位置位置350/4350/437.537.539众数、中位数和均值的关系众数、中位数和均值的关系根据英国统计学家皮尔逊的经验,在轻微偏态情根据英国统计学家皮尔逊的经验,在轻微偏态情况下,算术平均数与中位数的距离约为算术平况下,算术平均数与中位数的距离约为算术平均数与众数距离的均数与众数距离的1/3,即有:,即有:左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数 均值均值均值均值均值均值对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数 2(Mex)=MoMe40众数、中位数和均值的特点和应用众数、中位数和均值的特点和应用1.众数众数不受极端值影响不受极端值影响具有不唯一性具有不唯一性数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.中位数中位数不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.均值均值易受极端值影响易受极端值影响数学性质优良数学性质优良数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用41关于集中趋势的一个故事吉斯莫先生有一个小工厂,生产超级小玩意儿。管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。现在吉斯莫先生正在接见萨姆,谈工作问题。42吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。萨姆工作了几天之后,要求见厂长。萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。43吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。44萨姆:每周100元又是怎么回事呢?吉斯莫:那称为众数,是大多数人挣的工资。吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。萨姆:好,现在我可懂了。我我辞职!45第一节第一节算术平均数算术平均数(MEAN)用总体标志总量除以总体单位数即得用总体标志总量除以总体单位数即得算术平均数(算术平均数(Arithematicmean)。)。算术平均数是反映集中趋算术平均数是反映集中趋势最常用、最基本的平均指标,势最常用、最基本的平均指标,也被称为均值。它只适用于定也被称为均值。它只适用于定距以上的变量。距以上的变量。46例:某小区例:某小区350户家庭共有居民户家庭共有居民1190人。在人。在这个例子中,家庭总数这个例子中,家庭总数350户是总体单位数,居户是总体单位数,居民总数民总数1190人是该总体的标志总量。根据算术人是该总体的标志总量。根据算术平均数的定义平均数的定义户均人口户均人口3.4(人)(人)471.对于未分组资料对于未分组资料 注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是1,2,3,N,N是总体单位数。是总体单位数。例例求求74、85、69、9l、87、74、69这些数字的这些数字的算术平均数。算术平均数。解解78.4 482.对于分组资料对于分组资料注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是1,2,3,n,n是组数,而不是总体单位数。是组数,而不是总体单位数。很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值(X)大小的影大小的影响,而且受各组单位数响,而且受各组单位数(频数频数)的影响。由于对于总体的影的影响。由于对于总体的影响要由频数响要由频数(f)大小所决定,所以大小所决定,所以f 也被称为权数。值得也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一种表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。加权式。49 例例求下表求下表(单项数列单项数列)所示数据的算术平所示数据的算术平均数均数。人口数(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.0050对于对于组距数列组距数列,要用每一组的组中值权充该,要用每一组的组中值权充该组统一的变量值。组统一的变量值。513.算术平均数的性质算术平均数的性质各变量值与算术平均数的离差之和等于各变量值与算术平均数的离差之和等于0。各变量值对算术平均数的平方和,小于它们对任各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和何他数偏差的平方和算术平均数受抽样变动影响较小。算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。不能进行算术平均数的计算。受极端值影响较大。受极端值影响较大。52第二节 中位数(Median)把总体单位某一数量标志的各个数值按大小把总体单位某一数量标志的各个数值按大小把总体单位某一数量标志的各个数值按大小把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,顺序排列,位于正中处的变量值,即为中位数,顺序排列,位于正中处的变量值,即为中位数,顺序排列,位于正中处的变量值,即为中位数,用用用用MMd d表示。表示。表示。表示。M Md d可用于定序、定距、定比资料。可用于定序、定距、定比资料。531.对未分组资料对未分组资料(1)(1)、先把所有数据按大小顺序排、先把所有数据按大小顺序排、先把所有数据按大小顺序排、先把所有数据按大小顺序排列,如果总体单位数为奇数,则取列,如果总体单位数为奇数,则取列,如果总体单位数为奇数,则取列,如果总体单位数为奇数,则取第(第(第(第(N+1N+1)/2/2 位上的变量值为中位位上的变量值为中位位上的变量值为中位位上的变量值为中位数数数数;(2 2)、如果总体单位数为偶数。)、如果总体单位数为偶数。)、如果总体单位数为偶数。)、如果总体单位数为偶数。因为居中的数值不存在,按惯例,因为居中的数值不存在,按惯例,因为居中的数值不存在,按惯例,因为居中的数值不存在,按惯例,取第取第取第取第 N/2 N/2位和第(位和第(位和第(位和第(N+1N+1)/2/2 位上的位上的位上的位上的两个变量值的平均作为中位数。两个变量值的平均作为中位数。两个变量值的平均作为中位数。两个变量值的平均作为中位数。54例 求54,65,78,66,43这些数字的中位数。例、求54,65,78,66,43,38 这些数字的中位数。你会吗?55 2.对于分组资料对于分组资料 (1)单项数列单项数列 根据根据N/2在累计频数分布中找到中位数所在组,在累计频数分布中找到中位数所在组,该组变量值就是该组变量值就是MMd d。中位数56(2)组距数列组距数列按中位数所在组的下限:按中位数所在组的上限:当根据组距数列求中位数时,要采用所谓的比当根据组距数列求中位数时,要采用所谓的比例插值法:先根据例插值法:先根据N N2 2在累计频数分布中找到中位在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数再用以下任何一种方法求出中位数(注意:此处用注意:此处用的是向上累计的是向上累计)。57某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50583.中位数的性质中位数的性质 (1)各变量值对中位数之差的绝对值总和,各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。小于它们对任何其他数的绝对值总和。(2)中位数不受极端值的影响。中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得分组资料有不确定组距时,仍可求得中位数。中位数。(4)中位数受抽样变动的影响较算术平均中位数受抽样变动的影响较算术平均数略大。数略大。59 4.四分位数四分位数中位数所有单位被等分为两部分,因而被称为二分中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位数,我们还可求出位数。类似于求中位数,我们还可求出四分位数、十分四分位数、十分位数、百分位数。位数、百分位数。将总体中的各单位分割成相等的四部分,则这三个将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分位数。若以分割的变量值就是四分位数。若以Q1、Q2、Q3分别代表分别代表第一、第二、第三四分位数。第一、第二、第三四分位数。Q2即中位数,即中位数,Q1、Q3的算的算法分别是法分别是60四分位数(位置的确定)未分组数据:未分组数据:61顺序数据的四分位数(例题分析)解:解:Q QL L位置位置=(300)/4 (300)/4=7575 Q QU U位置位置 =(3300)/4(3300)/4 =225225 从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“一般一般”这一组别中。因此这一组别中。因此 Q QL L =不满意不满意 Q QU U =一般一般某企业员工对管理水平评价的频数分布回答类别企业人数 (人)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计30062数值型未分组数据的四分位数(算例)【例】:一个部门【例】:一个部门1月份9个人的收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排序序:750 780 850 960 1080 1250 1500 1630 2000位位置置:1 23 4 5 6 78 963数值型未分组数据的四分位数(算例)【例】:一个部门【例】:一个部门1月份10个人的收入数据原始数据原始数据:1500 750 780 660 1080 850 960 2000 1250 1630排排序序:660750 780 850 960 1080 1250 1500 1630 2000位位置置:1 23 4 5 6 7 89 10 64请从下表中指出第一四分位数和第三四分请从下表中指出第一四分位数和第三四分位数位数65数值型分组数据的四分位数(计算示例)计算计算50名工人日加工零件数的四分位数名工人日加工零件数的四分位数某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数1051101101151151201201251251301301351351403 35 58 8141410106 64 43 38 8161630304040464650合计合计5066QL位置位置50/412.5QUQU位置位置位置位置350/4350/437.537.567第三节第三节众数众数(Mode)众数是在一组资料中,出现次数众数是在一组资料中,出现次数众数是在一组资料中,出现次数众数是在一组资料中,出现次数(或频或频或频或频数数数数)呈现出呈现出呈现出呈现出“峰峰峰峰”值的那些变量值,用值的那些变量值,用值的那些变量值,用值的那些变量值,用MMo o表示。表示。表示。表示。众数只与次数有关,可以用于定类、定序、众数只与次数有关,可以用于定类、定序、定距、定比资料。定距、定比资料。68 1.对于未分组资料对于未分组资料 直接观察 首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。69 2.对于分组资料对于分组资料单项式:单项式:观察频数分布(或频率分布)组距式:组距式:Lo为众数组下限;为众数组频数与前一组频数之差;为众数组频数与后一组频数之差;ho为众数组组距。70式中:式中:Mo表示众数表示众数 L表示众数所在组的下限表示众数所在组的下限 U表示众数所在组的上限表示众数所在组的上限 1是众数所在组的次数是众数所在组的次数f2与其下限邻近组的次数与其下限邻近组的次数f1之差之差 2是众数所在组的次数是众数所在组的次数f2与其上限邻近组的次数与其上限邻近组的次数f3之差之差 h0表示众数所在组的组距表示众数所在组的组距 M MMoooM MMoooM MMooo71人口数(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00求下表中的众数求下表中的众数众众数数72某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计5073(1)众数仅受上下相邻两组频数大小的影响,不受极众数仅受上下相邻两组频数大小的影响,不受极端值影响,对开口组仍可计算众数;端值影响,对开口组仍可计算众数;(2)受抽样变动影响大;受抽样变动影响大;(3)众数不唯一确定。众数不唯一确定。(4)众数标示为其峰值所对应的变量值,能很容易区众数标示为其峰值所对应的变量值,能很容易区分出单峰、多峰。因而具有明显偏态集中趋势的频数分分出单峰、多峰。因而具有明显偏态集中趋势的频数分布,用众数最合适。布,用众数最合适。3.众数的性质众数的性质74分类数据的众数(例题分析)某地区居民关注汽车品牌的频数分布 汽车品牌人数(人)比例频率(%)别克 福特 马自达 标志 现代 吉利112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100解解:这这里里的的变变量量为为“汽汽车车品品牌牌”,这这是是个个分分类类变变量量,不不同同品品牌牌的的汽汽车车就就是是变变量量值值 在在所所调调查查的的200200人人当当中中,关关注注别别克克的的人人数数最最多多,为为112112人人,占占总总被被调调查查人人数数的的56%56%,因因此此众众数数为为“别别克克”这一类别,即这一类别,即 MMo o别克别克75顺序数据的众数(例题分析)解解解解:这这这这里里里里的的的的数数数数据据据据为为为为顺顺顺顺序序序序数数数数据据据据。变变变变量量量量为为为为“回答类别回答类别回答类别回答类别”某某某某企企企企业业业业员员员员工工工工对对对对管管管管理理理理水水水水平平平平表表表表示示示示不不不不满满满满意意意意的的的的 人人人人 数数数数 最最最最 多多多多,为为为为108108人人人人,因因因因 此此此此 众众众众 数数数数为为为为“不不不不满满满满意意意意”这这这这一一一一类类类类别,即别,即别,即别,即 M Mo o不满意不满意不满意不满意某企业员工对管理水平评价的频数分布回答类别企业人数 (人)百分比 (%)非常不满意 不满意 一般 满意 非常满意24108934530836311510合计300100.076众数(不唯一性)无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 59 8 55多于一个众数多于一个众数原始数据:25 28 28 36 42 4277第四节 几何平均数、调和平均数(了解)1.几何平均数几何平均数Mg(geometricmean)N个变量值连乘积的个变量值连乘积的N次方根。次方根。(不能有变量值为不能有变量值为0)。适用于:)。适用于:(1)计算某种比率的平均数;计算某种比率的平均数;(2)计算大计算大致具有几何级数关系的一组数字的平均数,如经济指标致具有几何级数关系的一组数字的平均数,如经济指标的平均发展速度。的平均发展速度。(1)简单几何平均数)简单几何平均数对数式:对数式:78(2)加权几何平均数加权几何平均数对数式:对数式:应该指出,用以计算几何平均数的各项数值必须应该指出,用以计算几何平均数的各项数值必须大于大于0,否则就不能计算几何平均数或计算结果无实,否则就不能计算几何平均数或计算结果无实际意义。际意义。79例例求求3,9,27,81,243这些数字的几何平均这些数字的几何平均数。数。解解(1)(2)80几何平均数(例题分析1)某某产品需品需经过三道工序三道工序连续加工才能完成,已知三道工加工才能完成,已知三道工序制品的合格率分序制品的合格率分别为95%95%、90%90%、98%98%,求三道工序的平均,求三道工序的平均合格率。合格率。由于由于产品是由三道工序品是由三道工序连续加工完成的,第二道工序加加工完成的,第二道工序加工的是第一道工序完工的合格制品,第三道工序加工的又是工的是第一道工序完工的合格制品,第三道工序加工的又是第二道工序完工的合格制品,因此,三道工序第二道工序完工的合格制品,因此,三道工序总合格率是三合格率是三道工序相道工序相应合格率的合格率的连乘乘积,求平均合格率,求平均合格率应当用几何平均当用几何平均法。法。则三道工序平均合格率三道工序平均合格率为:81几何平均数几何平均数(算例算例)一一位位投投资资者者持持有有一一种种股股票票,1996年年、1997年年、1998年年和和1999年年收收益益率率分分别别为为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率。平均收益率平均收益率103.6%-1=3.6%103.6%-1=3.6%822.调和平均数调和平均数Mh(harmonicmean)N个变量值倒数算术平均数的倒数,也称倒数平均个变量值倒数算术平均数的倒数,也称倒数平均数。数。适用于适用于:掌握的情况是总体标志总量而缺少总体:掌握的情况是总体标志总量而缺少总体单位数的资料时。单位数的资料时。简单调和平均数简单调和平均数加权调和平均数加权调和平均数833.各种平均数的关系(1)当总体呈正态分布时:当总体呈正态分布时:(2)当总体呈偏态分布时:中位数总在均数和众数之间当总体呈偏态分布时:中位数总在均数和众数之间正偏:正偏:负偏:负偏:(注:(注:和和合称位置平均数)合称位置平均数)(3)皮尔逊发现,在钟形分布的偏态不大显著时,皮尔逊发现,在钟形分布的偏态不大显著时,、三者大致构成一个比较固定的关系:三者大致构成一个比较固定的关系:(4)、和和合称数值平均数合称数值平均数84众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值85868788在调查一家企业时,这家企业的业主的月薪是2700元,该业主的回答是我厂的工资水平是934元,代表该企业工人的工会负责人说工资水平是800元,而税务检查人员说工资水平是900元,这三种答案都是依据下表中的数据得到的,那么哪一种合适呢?月薪(元)人数(人)2700 2000 1500 1000 900 800 70011231823 2合计 5089