[高等教育]第3章数据分布特征的描述.ppt
《[高等教育]第3章数据分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《[高等教育]第3章数据分布特征的描述.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、高等教育高等教育第第3章章 数据数据分布特征的描述分布特征的描述3-2第一节第一节 统计变量集中趋势的测定统计变量集中趋势的测定第二节第二节 统计变量离散程度的测定统计变量离散程度的测定n第三节第三节 变量分布的偏度与峰度变量分布的偏度与峰度3-3n统计数据经过整理和显示后,对数据分布的形状和特征统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个就可以有一个大致大致的了解。为进一步掌握数据分布的特的了解。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。布特征的各个代表值。n对一组数据分布的特征
2、,可以从对一组数据分布的特征,可以从三个方面三个方面进行测度和描进行测度和描述:一是分布的述:一是分布的集中集中趋势,反映各数据向其中心值靠拢趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的和聚集的程度;二是分布的离散离散程度,反映各数据远离程度,反映各数据远离中心值的趋势;三是分布中心值的趋势;三是分布偏态和峰态偏态和峰态,反映数据分布的,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面。形状。这三个方面分别反映了数据分布特征的不同侧面。3-41 统计变量集中趋势的测定统计变量集中趋势的测定3-5一、测定集中趋势的指标及其作用一、测定集中趋势的指标及其作用n集中趋势集中趋
3、势(Central tendency)n较大和较小的观测值出现的频率比较低,大多数较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。出向中心聚集或靠拢的态势。n测度集中趋势的指标有两大类:测度集中趋势的指标有两大类:n数值平均数数值平均数是根据全部数据计算得到的代表值,主要是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数;有算术平均数、调和平均数及几何平均数;n位置代表值位置代表值根据数据所处位置直接观察、或根据与特根据数据所处位置直接观察、或根据与特定位置有关的部分数
4、据来确定的代表值,主要有众数和中定位置有关的部分数据来确定的代表值,主要有众数和中位数。位数。3-6测定集中趋势指标的作用测定集中趋势指标的作用1反映变量分布的反映变量分布的集中趋势和一般水平集中趋势和一般水平。n如用平均工资了解职工工资分布的中心,反映职工工如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。资的一般水平。2可用来可用来比较比较同一现象在同一现象在不同不同空间或空间或不同不同阶段的发展水平。阶段的发展水平。n不受总体规模大小的影响,不受总体规模大小的影响,n在一定程度上使偶然因素的影响相互抵消。在一定程度上使偶然因素的影响相互抵消。3可用来分析现象之间的可用来分析现象
5、之间的依存关系依存关系。n如研究劳动者的文化程度与收入的关系如研究劳动者的文化程度与收入的关系4平均指标也是平均指标也是统计推断统计推断中的一个重要统计量,是进行统中的一个重要统计量,是进行统计推断的基础。计推断的基础。 3-7二、数值平均数二、数值平均数(一)算术平均数(一)算术平均数(均值)(均值)n一组数据的总和除以这组数据的项数所得的结果一组数据的总和除以这组数据的项数所得的结果;n最常用的数值平均数。最常用的数值平均数。 1简单算术平均数简单算术平均数n把每项数据直接加总后除以它们的项数。把每项数据直接加总后除以它们的项数。 n通常用于对通常用于对未分组未分组的数据计算算术平均数。的
6、数据计算算术平均数。n计算公式:计算公式:nxnxnxxxxniin121.3-8分分组组例例 3-1 表表 3-23-2年龄年龄人数(人)人数(人)x xf f22224 42525101030305 550501 1合计合计2020表表 3-13-1男性男性女性女性222222222222222225252525252525252525252525252525252525253030303030303030505030309 .26205382030.2250303025252525252222n解:解:采用简单算术平均法计算,即全体采用简单算术平均法计算,即全体队员的平均年龄为(单位:周
7、岁):队员的平均年龄为(单位:周岁):75.31450302522若采用简单平均:若采用简单平均:n分组数据不能简单分组数据不能简单平均平均 !因为各组变!因为各组变量值的次数不等!量值的次数不等!3-92加权算术平均数加权算术平均数n加权算术平均数的加权算术平均数的计算公式计算公式:fxfffxffffxfxfxxniiniiinnn11212211.9 .2620538151041505301025422xn正确的计算是:正确的计算是:n加权加权为了体现各变量值轻重不同的影响作用,为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的对各个变量值赋予不尽相同的权数权数(fi ).3
8、-10权数权数(fi ,也称权重),也称权重)n权数权数指在计算总体平均数或综合水平的过指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。程中对各个数据起着权衡轻重作用的变量。n可以是绝对数形式,也可以是比重形式(如频可以是绝对数形式,也可以是比重形式(如频率)来表示。率)来表示。n事实上比重权数更能够直接表明权数的权衡轻重作事实上比重权数更能够直接表明权数的权衡轻重作用的实质。用的实质。n当权数完全相等(当权数完全相等(f1 =f2 = fn)时,加权算术)时,加权算术平均数就成了简单算术平均数。平均数就成了简单算术平均数。ffxx3-113由组距数列计算算术平均数由组距
9、数列计算算术平均数 要点:要点:n各组变量值用组中值各组变量值用组中值来代表。来代表。n假定条件是各组内数假定条件是各组内数据呈均匀分布或对称据呈均匀分布或对称分布。分布。n计算结果是计算结果是近似值近似值 .表表3 33 3节能灯泡的使用寿命的分组数据节能灯泡的使用寿命的分组数据使用寿命使用寿命(小时) 组中组中值值 ( (x) )数量数量(f)XfXf 频率频率 (f/f)f/f)(Xf/ f)10001000以下以下900218000.020 181000-12001000-12001100888000.080 881200-14001200-1400130016208000.160 2
10、081400-16001400-1600150035525000.350 5251600-18001600-1800170023391000.230 3911800-20001800-2000190012228000.120 22820002000以上以上2100484000.040 84合合 计计1001542001.000 1542解:平均使用寿命为:解:平均使用寿命为: 154210015420011niiniiiffxx3-124对相对数求算术平均数对相对数求算术平均数n由于各个相对数的对比基础不同,采用简单由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。算术平均通
11、常不合理,需要加权。表表 3-43-4企 业流通费用率()商品销售额(万元)流通费用(万元)甲161600256乙104750475丙124000480合 计11.70048103501211%7 .11%10010350121140004750160040001247501016001611niiniiiffxxn权数的选择必须符权数的选择必须符合该相对数本身的合该相对数本身的计算公式。计算公式。n权数通常为该相对权数通常为该相对数的分母指标。数的分母指标。 3-135算术平均数的主要数学性质算术平均数的主要数学性质(1)算术平均数与变量值个数的乘)算术平均数与变量值个数的乘积等于各个变量值
12、的总和。积等于各个变量值的总和。 (2)各变量值与算术平均数)各变量值与算术平均数的离差之总和等于零。的离差之总和等于零。(3)各变量值与算术平均)各变量值与算术平均数的离差平方之总和为数的离差平方之总和为最小。最小。 niixxn10)1niixx(min)12niixx(3-14(二)调和平均数(二)调和平均数(Harmonic mean)n调和平均数调和平均数也称为倒数平均数。也称为倒数平均数。n各变量值的倒数(各变量值的倒数(1/xi)的算术平均数的倒数)的算术平均数的倒数.n其计算公式为:其计算公式为:niiiniinnnnnnHxmmxmxmxmmmmmmmmxmxmxx11221
13、121212211.1.1113-15(续)(续)n调和平均数是算术平均数的变形,在实际工作中,调和平均数是算术平均数的变形,在实际工作中,由于所获得的数据的不同,有时不能直接采用均值由于所获得的数据的不同,有时不能直接采用均值的计算公式来计算平均数,这就需要使用调和平均的计算公式来计算平均数,这就需要使用调和平均数的形式进行计算,二者实质上是相同的,而仅有数的形式进行计算,二者实质上是相同的,而仅有形式上的区别。即当已知各组变量值形式上的区别。即当已知各组变量值 xi 和算术平均和算术平均数的分子数据(数的分子数据(xi fi)而)而缺乏缺乏其分母数据(其分母数据(fi)时,)时,加权算术平
14、均数通常可变形为调和平均数形式来计加权算术平均数通常可变形为调和平均数形式来计算。算。n需要注意的是,当数据中出现需要注意的是,当数据中出现“0”时不宜计算调和时不宜计算调和平均数。平均数。3-16表表 3-4企 业流通费用率()流通费用(万元)甲16256乙10475丙12480合 计11.7004812117 .11100103501211124801047516256480475256)()(1111niiiiniiiniiniiixfxfxffxx3-17(三)几何平均数(三)几何平均数(Geometric mean)n几何平均数几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。
15、次方根。n简单几何平均数简单几何平均数nniinnGxxxxx121.n加权几何平均数加权几何平均数niiikkfnififfffkffGxxxxx1212!1).(21.n适用于适用于各个变量值之间存在连乘积关系的场合。各个变量值之间存在连乘积关系的场合。n主要用于计算现象的平均发展速度,主要用于计算现象的平均发展速度,n也适用于对某些具有环比性质的比率求平均也适用于对某些具有环比性质的比率求平均. 3-18【例【例3-5】n某企业产品的加工要顺次经过前后衔接的五道工序。某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为本月该企业各加工工序的合格率分别为88、8
16、5、90、92、96,试求这五道工序的平均合格率。,试求这五道工序的平均合格率。n解:解:本例中各工序的合格率具有环比的性质,企业本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:所求的平均合格率应为:%31.90%9692%90%85885Gx3-193-20%91.114%120%116%109321nnmxxxG3-21三、众数与中位数三、众数与中位数(一)众数(一)众数(Mode)n众数是一组数据中出现频数最多、频率最高众数是一组数据中出现频数最多、频率最高的变量值的变量值,常用,常
17、用 Mo 表示。表示。n如表如表3-2中年龄的众数值中年龄的众数值MO25。n众数代表的是最常见、最普遍的状况,是对众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量现象集中趋势的度量。n可用来测度定性变量的集中趋势;可用来测度定性变量的集中趋势;n销售量最大的产品颜色是销售量最大的产品颜色是“白色白色”,则有,则有M0“白色白色”n可以度量定量变量的集中趋势。可以度量定量变量的集中趋势。n从分布曲线的角度看,众数就是变量分布曲线的最高从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。峰所对应的变量值。 xMOf(x)3-22n从分布的角度看,众数是具有明显集中趋势点的数从
18、分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的变量值即为值,一组数据分布的最高峰点所对应的变量值即为众数。当然,如果数据的分布没有明显的集中趋势众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数,见峰点,也可以有两个众数,见P55图图3-1。 3-233-24组距数列中众数的确定组距数列中众数的确定n先找到众数组。先找到众数组。n在等距数列中,众数组就是次数最多的组;在等距数列中,众数组就是次数最多的组;n在异距数列中,众数组应是频数密度最大的组。在异距数列中,
19、众数组应是频数密度最大的组。n根据众数组与其相邻两组的次数差来推算。根据众数组与其相邻两组的次数差来推算。n其近似公式为:其近似公式为:OOMMOdLM211下限公式:下限公式: 上限公式:上限公式: OOMMOdUM2123-25(二)中位数(二)中位数(Median)n中位数中位数是将数据由小到大排列后位置居中的数是将数据由小到大排列后位置居中的数值。值。n根据未分组数据计算中位数时,要先对数据进根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为:行排序,然后确定中位数的位置,其公式为: 中位数位置中位数位置n若项数为奇数,则居于中间位置的那个标志值若项数为奇数
20、,则居于中间位置的那个标志值即为中位数。若项数为偶数,则居于中间位置即为中位数。若项数为偶数,则居于中间位置的两项数值的平均数即为中位数。的两项数值的平均数即为中位数。x Mef(x)50%50%21n3-26521921n位置3-275 . 5211021n位置102021080960中位数3-28由由组距数据组距数据计算中位数计算中位数n先确定中位数组,即中间位置(用先确定中位数组,即中间位置(用f/2来计算)来计算)所在的组。所在的组。n假定中位数组内次数均匀分布(次数与变量值假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。的区间大小成比例),近似推算中位
21、数的值。n计算公式为:计算公式为:MeMeMeMeedfSfLM12MeMeMeMeedfSfUM12下限公式:下限公式: 上限公式:上限公式: 3-29四分位数、十分位数和百分位数四分位数、十分位数和百分位数n四分位数四分位数是将数据由小到大排序后,位于全部数据是将数据由小到大排序后,位于全部数据1/4位置上的数值。位置上的数值。n十分位数十分位数是将数据由小到大排序后,位于全部数据是将数据由小到大排序后,位于全部数据1/10位置上的数值。位置上的数值。n百分位数百分位数是将数据由小到大排序后,位于全部数据是将数据由小到大排序后,位于全部数据1/100位置上的数值。位置上的数值。n中位数也就
22、是第二个四分位数、第五个十分位数、第五十中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。个百分位数。n分位数与其它指标结合,可以更详细地反映数据的分位数与其它指标结合,可以更详细地反映数据的分布特征。分布特征。3-30n四分位数,四分位数,“四分位点四分位点”,是通过三个点将全部数,是通过三个点将全部数据等分为四部分,其中每部分包含据等分为四部分,其中每部分包含25的数据,处的数据,处在分位点上的数值就是四分位数。在分位点上的数值就是四分位数。下四分位数 中位数 上四分位数4) 1(341nQnQUL位置位置3-315 . 74) 19( 35 . 2419位置位置ULQQ156
23、52163015008152850780ULQQ3-325 .1532)15001630(25. 015005 .772)750780(75. 0750ULQQ25. 84) 110(375. 24110位置位置ULQQ3-33由由组距数据组距数据计算四分位数计算四分位数n计算公式为:计算公式为:434fQfQUL位置位置3-34箱线图(箱线图(box plot)n箱线图箱线图由一组数据的最小值(由一组数据的最小值(xmin)、下四分位数)、下四分位数(QL)、中位数、中位数(Me)、上四分位数、上四分位数(QU)、最大值(、最大值(xmax)等五个数值来绘成。等五个数值来绘成。n利用箱线图可
24、以观察数据分布的范围、中心位置和利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。对称性等特征,还可以进行多组数据分布的比较。xmin QL Me QU xmax3-35(三)众数、中位数和算术平均数的比较(三)众数、中位数和算术平均数的比较1.算术平均数综合反映了全部数据的信息,众数和中算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在而且算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件:具有惟一性,但计算和应用众数
25、有两个前提条件:n(1)数据项数众多;)数据项数众多;n(2)数据具有明显的集中趋势。)数据具有明显的集中趋势。 3.算术平均数只能用于定量(数值型)数据,中位数算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据(类型、计量层次)的数据3-36(续)(续)n4.算术平均数要受数据中算术平均数要受数据中极端值极端值的影响。而众的影响。而众数和中位数都不受极端值的影响。数和中位数都不受极端值的影响。n为了排除极端值的干扰,可计算切尾均值,即去为了排除极端值的干扰,可计算切尾均值,即去掉数据中最
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高等教育 高等教育第3章 数据分布特征的描述 数据 分布 特征 描述
限制150内