第三章数据分布特征的描述教案论文自然科学文章_高等教育-大学课件.pdf
-
资源ID:95387474
资源大小:1.71MB
全文页数:27页
- 资源格式: PDF
下载积分:4.3金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
第三章数据分布特征的描述教案论文自然科学文章_高等教育-大学课件.pdf
学习好资料 欢迎下载 第三章 数据分布特征的描述(一)教学目的 通过本章的学习,使同学们正确理解各种指标的概念及计算方法,学会运用相应的统计指标对数据的分布特征进行分析说明。(二)基本要求 使学生熟练掌握数据分布特征的描述方法。(三)教学要点 1、集中趋势的测度指标及其计算方法;2、离散趋势的测度指标及其计算方法;3、总体分布的偏度与峰度的测度。(四)教学时数 910 课时(五)学习内容 本章共分三节:第一节 数据分布集中趋势的测定 一、定类数据集中趋势的测度众数(Mode)(一)概念要点 众数是指一组数据中出现次数最多的变量值,用oM表示。从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。1.集中趋势的测度值之一 2.出现次数最多的变量值 3.不受极端值的影响 4.可能没有众数或有几个众数 5.主要用于定类数据,也可用于定序数据和数值型数据 众数的不唯一性:无众数原始数据:10 5 9 12 6 8 一个众数原始数据:6 5 9 8 5 5 多于一个众数原始数据:25 28 28 36 42 42(二)众数的计算 根据未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下的理解:设众数组的频数为mf,众数前一组的频数为1f,众数后一组的频数为1f。当众数相邻两组的频数相等时,即1f=1f,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即1f1f,则众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即1f1f,则众数会向其后一组靠,学习好资料 欢迎下载 众数大于其组中值。基于这种思路,借助于几何图形而导出的分组数据众数的计算公式如下:下限公式:111112()()mommffMLdLdffff (3.1)上限公式:121112()()mommffMUdUdffff (3.2)式中:L表示众数所在组的下限;U表示众数所在组的上限;d表示众数所在组的组距。例 3.1 现利用表 3.1 1 资料计算 3000 户农民家庭年人均收入的众数。表 3.1 某地区农民家庭收入资料 从表 3.1 中的数据可以看出,出现频数最多的是 1050,即众数组为 14001600 这一组mf=1050,1f=480,1f=600,根据(3.1)式可得众数为:10504801400200(1050480)(1050600)oM =1511.8(元)利用上述公式计算众数时是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性就会很差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。二、定序数据集中趋势的测度中位数和分位数(一)概念要点 中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。1.集中趋势的测度值之一 2.排序后处于中间位置上的值 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 3.不受极端值的影响 4.主要用于定序数据,也可用数值型数据,但不能用于定类数据 5.各变量值与中位数的离差绝对值之和最小,即 (3.3)(二)中位数的计算 根据未分组资料和分组资料都可确定中位数。有三种情况:1.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:123nxxxx 则中位数就可以按下面的方式确定:Me=12nx,当 n 为奇数 (3.4)Me=1222nnxx,当 n 为偶数 (3.5)2.对于单项式变量数列资料,由于变量值以及序列化,故中位数可以直接按下面的方式确定:12fx,当f为奇数 (3.6)Me=1222ffxx,当f为偶数 (3.7)3对于组距式变量数列,确定中位数也需要分两步进行:(1)从变量数列的累计频数栏中找出第2f个单位所在的组,即“中位数组”,该组的上、下限就规定了中位数的可能取值范围;(2)假定在中位数组内的各单位是均匀分布的,就可利用下面的公式计算中位数的近似值:min1ieimin1nieiMX计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 12MeMeMeMefsMeLdf (3.8)12MeMeMeMefsUdf(3.9)上面两式分别称作中位数的“下限公式”。式中,1Mes是到中位数组前面一组为止的向上累计频数,1Mes则是到中位数组后面一组为止的向下累计频数;Med=MeUMeL为中位数组的组距。(三)分位数 中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)等。它们分别是用 3 个点、9个点和 99 个点将数据四等分、10 等分和 100 等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。一组数据排序后处于 25和 75位置上的值,称为四分位数,也称四分位点。四分位数是通过三个点将全部数据等分为四部分,其中每部分包含 25的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在 25位置上的数值(下四分位数)和处在 75位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。1.四分位数位置的确定 设下四分位数为 QL,上四分位数为,对于未分组的原始数据,各四分位数的位置分别为:(1)未分组数据:un+13(n+1)Q44LQ位置位置 当四分位数的位置不在某一个位置上时,可根据四分位数的位置,按比例分摊四分位数两侧的差值。例 3.2 在某城市中随机抽取 9 个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算人均月收入的四分位数。解:Ln+19+1Q=2.544的位置,即 QL在第 2 个数值(780)和第 3 个数值(850)之间 0.5 的位置上,因此 QL(780850)2815(元)计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 U3(n+1)3(9+1)Q=7.544的位置,即 QU在第 7 个数值(1500)和第 8 个数值(1630)之间 0.5 的位置上,因此 QU(15001630)21565(元)QL和 QU之间包含了 50%的数据,因此,我们可以说有一半的家庭人均月收入在 8151565 元之间。(2)组距分组数据:4fQL位置 43fQU位置 数值型分组数据的四分位数(计算公式)()(3.10)(3.10)三、数值型数据集中趋势的测度(一)算术平均数 算术平均数(Arithmetic mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。计算公式为:总体单位总量总体标志总量算术平均数 很多社会经济现象,总体标志总量常常是总体单位变量值的算术总和。例如,工人工资总额是总体中每个工人工资的总和,某地区小麦总产量是所有耕地小麦产量的总和。在总体标志总量和总体单位总量的基础上,就可以计算平均指标。算术平均数与强度相对数都是两个总量指标的比值,也都是有名数,都反映了相互联系的两个现象之间的数量对比关系,计算方法也非常相似。但它们却是两个性质不同的统计指标,主要区别有两点:其一,子项指标与母项指标的关系不同。平均数的子项指标与母项指标属于同一个统计总体,是同一统计总体的总体标志总量与总体单位总量的比值,而强度相对数则是来自两个不同总体但有联系的总量指标之比;其二,算术平均数的子项指标(标志总量)随着母项指标(总体单位数)的变动而变动,二者互相适应,而强度相对数的子项指标同母项指标之间不存在这样的关系。LL4LLLLLfSQLif下四分位数:上四分位数 UUU34UUUUUfSQLif计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 算术平均数在统计学中具有重要的地位,是集中趋势的最主要度量值,通常用x(读作xbar)表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。1.简单算术平均数(Simple arithmetic mean)未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设统计数据为12,x x,nx,则算术平均数x的计算公式为:121ninixxxxxnn (3.11)例 3.3 某班级 40 名同学统计学的考试成绩原始资料如表 3.1 2 所示。表 3.2 40名同学统计学原始成绩 该班 40 名同学统计学的平均成绩为:64707875308977.234040X(分)2.加权算术平均数(Weighted arithmetic mean)根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据被分成k组,各组的变量值为12,x x,kx,各组变量值的次数或频数分别为12,ff,kf,则加权的算术平均数为:11221121kiikkikkiix fx fx fx fxffff (3.12)例 3.4 根据例 3.3 提供的 40 名同学的统计学成绩原始资料分组整理如表 3.1 3,根据此表资料计算平均成绩。表 3.3 40名同学统计学成绩汇总表 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 根据(3.12)式得 11306076.540KiiiKiix fxf(分)根据(3.12)式计算的平均成绩是 76.5 分,而与根据(3.11)式计算的平均成绩 77.23分相比,相差 0.73 分,显然 77.23 分是准确的平均成绩,因为(3.11)式所用的是原始数据的全部信息。而(3.12)式是用各组的组中值代表各组的实际数据,使用代表值时是假定各组数据在各组中是均匀分布的,但实际情况与这一假定会有一定的偏差,使得利用分组资料计算的平均数与实际的平均值会产生误差,它是实际平均值的近似值。加权算术平均数其数值的大小,不仅受各组变量值(ix)大小的影响,而且受各组变量值出现的频数即权数(if)大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。实际上,我们将(3.12)式变形为下面的形式,就更能清楚地看出这一点。1111KiiKiiiKKiiiiix ffxxff (3.13)由(3.13)式可以清楚地看出,加权算术平均数受各组变量值(ix)和各组权数即频率iiff大小的影响。频率越大,相应的变量值计入平均数的份额也越大,对平均数的影响就越大;反之,频率越小,相应的变量值计入平均数的份额也越小,对平均数的影响就越小。这就是权数权衡轻重作用的实质。当我们掌握的权数不是各组变量值出现的频数,而是频率时,可直接根据(4.3.3)式计算算术平均数。如例 3.2,根据各组的频数计算的频率分别为:0.05、0.2、0.4、0.25、0.1,各组频率之和为 1,则用频率计算的加权算术平均数为:计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 1155 0.0565 0.275 0.485 0.2595 0.1KiiKiiifxxf 76.5(分)从计算结果看,用频率加权计算的结果与用频数加权计算的结果是一致的。需要指出的是,当各组变量值出现的频数(if)或频率iiff相等时,权数的作用就消失了,这就意味着各组变量值对总平均的结果所起的作用是一样的,此时,加权算术平均数就等于简单算术平均数。在实际生活中,我们也会经常遇到由相对数计算平均数的情况。一般地说,求相对数的平均数应采用加权平均的方法,此时,用于加权平均的权数不再是频数或频率,而应根据相对数的含义,选择适当的权数。下面举一个实例说明。例 3.5 某公司所属 10 个企业资金利润率分组资料如表 3.4,要求计算该公司 10 个企业的平均利润率。表 3.4 某公司所属 10 个企业资金利润率分组资料 该例子的平均对象是各企业的资金利润率,表中的企业数虽然是次数或频数,但却不是合适的权数。要正确计算公司 10 个企业的平均资金利润率,因为资金利润率=利润总额/资金总额,所以计算平均资金利润率需要以资金总额为权数,才能符合该指标的性质。因此,该公司 10 个企业的平均利润率为:115%4010%8015%14031=11.9%4080140260KiiiKiix fxf 算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,算术平均数是一组数据的重心所在,它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性的结果。例如每年分季度的观测数据,各年同季的数据由于受一些偶然性随机因素的影响,其数值表现出一定的差异性,但将各年同季的数据加以平均,计算的算术平均数,就消除了一些随机因素的影响,反映出季节变动必然性的数量特征。再如,对同一事物进行多次测量,由于测量误差所致,或者其它因素的偶然影响,使得测量结果不一致,但利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物固有的数量特征。另外,算术平均数具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,同时也体现了算术平均数的统计思想。各变量值与其算术平均数的离差之和等于零,即 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 1()0niixx 或 1()0kiiixx f 各变量值与其算术平均数的离差平方和最小,即 21()minniixx(最小)或 21()minkiiixxf(最小)(二)调和平均数(Harmonic mean)在实际工作中,经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。为了方便调和平均数的概念和计算方法的说明,我们先看一个简单的例子。例 3.6 市场上早、中、晚蔬菜的价格分别是早晨:0.67公斤/元,中午 0.5 公斤/元,晚上 0.4 公斤/元。现在,我们分别按四种方法在购买蔬菜,分别计算平均价格(不管按什么方法购买,平均价格都应该等于花费的现金除所买蔬菜的数量):第一种买法:早、中、晚各买一公斤 则蔬菜平均价格为:nxX34.05.067.0=0.523(元/公斤)第二种买法:早晨买 1 公斤,中午买 2 公斤,晚上买 3 公斤 则蔬菜平均价格为:ffxX=32134.025.0167.0=0.523(元/公斤)第三种买法:早、中、晚各买一元 在这种情况下,计算蔬菜平均价格比上述两种方法稍微复杂一些,我们得先计算出一元钱所购买蔬菜的数量,然后再计算蔬菜的平均价格。要计算蔬菜的平均价格,首先应该计算出早、中、晚各花费 1 元钱所购买蔬菜的数量:其中:早晨购买蔬菜的数量=67.01=1.5(公斤);中午购买蔬菜的数量=5.01=2(公斤);晚上购买蔬菜的数量=4.01=2.5(公斤)。蔬菜平均价格为:5.05.225.134.015.0167.01111X(元/公斤)这种计算平均指标的方法同算术平均法有很大的不同,由于资料中缺乏总体单位总量,所以,就不可能直接用算术平均的方法计算平均指标。为了达到计算目的,首先要用变量值的倒数计算出总体单位总量来,然后再计算平均指标,调和平均数法因此而得名,也正是由于这个原因,调和平均数又称为倒数平均数。第四种买法,早晨买 1,中午买 2,晚上买 3 元钱 和第三种买法一样,我们还是得先计算出早晨、中午和晚上所购买蔬菜的数量,然后再计算平均价格。计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 早晨购买蔬菜的数量=67.01=1.5(公斤);中午购买蔬菜的数量=5.04=4(公斤);晚上购买蔬菜的数量=4.03=7.5(公斤)。蔬菜平均价格为:46.05.745.164.035.0267.01321X=(元/公斤)在上述计算平均价格的过程中,早、中、晚三个时段购买蔬菜所花费的现金是计算平均价格的权数,这种方法我们称为加权调和平均法。由以上分析过程得出调和平均数的定义:调和平均数是各个变量值倒数的算术平均数的倒数,习惯上用(H)表示。计算公式为:简单调和平均数:kjjnxnnxxxH1211111 (3.14)加权调和平均数 12112112KikiKkiikimmmmHmmmmxxxx (3.15)在实际工作中,调和平均数通常是作为算术平均数的变形使用的,也就是由于受所掌握资料的限制,有时不能直接采用算术平均数的计算公式计算平均数,这就需要使用调和平均数的形式进行计算。为了更好地理解调和平均数的应用场合,我们看下面的例子。例 3.6 某商品有三种不同的规格,销售单价与销售量如表 3.5 所示,求这三种不同规格商品的平均销售单价。表 3.5 某商品三种规格的销售数据 从平均价格的实际意义看,其计算方法应该是:销售量销售额平均价格 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 根据题中给出的原始数据(三种规格的销售单价和销售量),可以求出销售额(xf)数据,因此计算平均价格在形式上采用的是加权算术平均数公式,即 11737233.51220KiiiKiix fxf(元/件)如果已知的不是销售量数据,而是销售额,如表 3.1 6 所示,就应改变计算方法。表 3.6 某商品三种规格的销售数据 根据表 3.6 给出的原始数据(三种规格的销售单价与销售额)计算平均价格时,就无法直接采用加权算术平均数形式。这时,需要根据销售单价和销售额数据先求出销售量数据,再用总销售额除以总销售量即得平均价格,即加权调和平均。根据表 4.3.5 的数据,代入(4.3.5)式得平均价格为:11737233.51220KKiiiiimHmx(元)这与采用加权算术平均数公式的计算结果完全相等。事实上,(4.3.5)式只是加权算术平均数的另一种表现形式,式中im(销售额)实际上是销售单价ix与销售量if的乘积,即im=ixif,这从下面的式中可以清楚地看出来。111111KKKiiiiiiiiKKKiiiiiiiiimx fx fHxmx ffxx 由此可见,调和平均数和算术平均数在本质上是一致的,惟一的区别是计算时使用了不同的数据。在实际应用时,可掌握这样的原则,当计算算术平均数其分子资料未知时,就采用加权算术平均数计算平均数,分母资料未知时,就采用加权调和平均数计算平均数。(三)几何平均数(Geometric mean)几何平均数是n个变量值乘积的n次方根。可分为简单几何平均数和加权几何平均数,计算公式分别为:简单平均平均数 121nnnniiGx xxx (3.16)计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 加权几何平均数 1211121kkiikiiikffffffkiiGxxxx (3.17)式中,为连乘符号。几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度。当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。例 3.7 某产品需经三个车间连续加工,已知三个车间制品的合格率分别为 95%、90%、98%,求三个车间平均合格率。由于产品是由三个车间连续加工完成的,第二个车间加工的是第一个车间完工的合格制品,第三车间加工的又是第二车间完工的合格制品,因此,三个车间总合格率是三个车间相应合格率的连乘积,求平均合格率就不能采用算术平均法,而应当用几何平均法。则三个车间平均合格率为:3195%90%98%94.28%nniiGx 例 3.8 某地区 GDP 19911995 年平均发展速度为 107.2%,19961998 年平均发展速度为 108.7%,19992000 年平均发展速度为 110%,求该地区 19912000 年间的平均发展速度。由于总速度是各年发展速度连乘形成的,该资料提供的各时段的平均发展速度所代表的时间长度又有所不同,所以根据该资料求平均发展速度需用加权的几何平均法。所要求的平均发展速度为:11053211.0721.0871.1kiiikffiiGx=1.082(或 108.2%)三、平均数之间的关系(一)算术平均数、调和平均数和几何平均数的关系 算术平均数、调和平均数和几何平均数都是数值平均数,即都是根据所有数据计算的。如果从纯数量关系上考察,这三种平均数的关系如下:1.当一组数据中所有数据不尽相同时,据此计算的三种平均数的结果为:算术平均数最大,调和平均数最小,几何平均数居中。它们的关系用公式表示即为:XGH。当一组数据中出现极端值时,通过这种关系我们不难看出,极端值对这三种平均数的影响程度是有差别的,它对算术平均数的影响最大,对几何平均数的影响次之,对调和平均数的影响最小。2.当一组数据中所有的数据都相同时,据此计算的三种平均数相等,即:XGH。三种数值平均数的这种关系是纯数学意义上的。当然,在实际应用中,采用何种平均数应取决于现象的客观性质和研究目的。就是说,适宜用算术平均数计算的,就不能用调和平均数或几何平均数计算,反之亦然。算术平均数是应用最为广泛的一种平均数,因为其计算方法是与许多社会经济现象的数量关系相符合的,即许多社会经济现象总体各单位的标志值计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 之和等于总体的标志总量,且这种方法易理解并具有优良的数学性质。调和平均数在实际应用中,通常是作为算术平均数的变形使用的,即利用调和平均数的形式来计算算术平均数。几何平均数适合于对一些特殊数据如比率、速度等的平均。(二)算术平均数与众数、中位数的关系 算术平均数与众数、中位数的关系取决于频数分布的状况。它们的关系如下:1.当数据具有单一众数且频数分布对称时,算术平均数与众数、中位数三者完全相等,即0eXMM,这一关系如图 3.1 所示。2.当频数分布呈现右偏态时,说明数据存在最大值,必然拉动算术平均数向极大值一方靠,则三者之间的关系为XeM0M,这一关系如图 3.2。3.当频数分布呈现左偏态时,说明数据存在最小值,必然拉动算术平均数向极小值一方靠,而众数和中位数由于是位置平均数,不受极值的影响,因此,三者之间的关系为XeM0M,这一关系如图 3.3。从上面的分析我们可以看出,当频数分布出现偏态时,极端值对算术平均数产生很大的影响,而对众数、中位数没有影响,此时,用众数、中位数作为一组数据的中心值比算术平均数有较高的代表性。算术平均数与众数、中位数如果从数值上的关系看,当频数分布的偏斜程度不是很大时,无论是左偏还是右偏,众数与中位数的距离约为算术平均数与中位数的距离的两倍,即 eoMM=2eXM (3.18)根据上述关系,可以得出:3()32oeeMXXMMX (3.19)对于一组数据,在已知两个代表值的情况下,可根据上式推算出另一代表值。0MXMe 图 3.1 平均数关系图 XMMe0 右偏分布 图 3.2 平均数关系图 0MMXe 左偏分布 图 3.3 平均数关系图 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 例 3.9 根据某城市住户家庭月收入的抽样调查资料算得众数为 2043 元,中位数为2271 元,问算术平均数为多少?其分布呈何形态?由已知资料,推算样本的算术平均数为:33 22712043238522eoMMx(元)因为 2385 2271 2043 即有 XeM0M 所以,该城市住户家庭月收入分布呈右偏态分布。第二节 数据分布离散趋势的测定 描述一组数据离散程度常用异众比率、四分位差、极差、平均差、方差和标准差(含比率的标准差)、变异系数等。一、变异指标含义 平均指标是统计总体中各单位某一数量标志的一般水平,反映了总体分布的集中趋势。集中趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。而这种聚集的程度显然有强弱之分,这与各变量值的差异有着密切的联系。变量值的差异越大,数值的集中趋势越弱,变量值的差异越小,数据的集中趋势越强。因此,要全面描述数据的分布特征,除了要对数据集中趋势加以度量外,还要对数据的差异程度进行度量。数据的差异程度就是各变量值远离其中心值的程度,因此也称为离中趋势。(一)变异指标的概念 在统计研究中,通常把一组数值之间的差异程度叫做标志变动度。测定标志变动度大小的指标叫做标志变异指标。标志变动度与标志变异指标在数值上成正比。如果说平均指标说明总体分布的集中趋势的话,标志变异指标则说明总体分布的离中趋势。(二)变异指标的作用 变异指标是描述数据分布的一个很重要的特征值,因此,它在统计分析、统计推断中具有很重要的作用。具体可以概括为以下几点:1.反映总体各单位变量值分布的均衡性 一般来说,标志变异指标数值越大,总体各单位变量值分布的离散趋势越高、均衡性越低,反之,变量值分布的的离散趋势越低、均衡性就越高。2.判断平均指标对总体各单位变量值代表性的高低 平均指标作为总体各单位某一数量标志的代表值,其代表性的高低与总体差异程度有直接关系:总体的标志变异指标值愈大,平均数的代表性愈低;反之,标志变异指标值愈小,平均数代表性愈高。另一方面,平均指标代表性的高低同总体各单位变量值分布的均衡性也有直接关系:总体各单位变量值分布的均衡性越高,平均指标代表性就越高;反之,总体各单位变量值分布的均衡性越低,平均指标代表性就越低。3.在实际工作中,借助标志变异指标还可以对社会经济活动过程的节奏性和均衡性进行评价 4.标志变异指标是衡量风险大小的重要指标。(三)变异指标的类型 根据所依据数据类型的不同,变异指标有异众比率、四分位差、全距、平均差、方差和标准差、离散系数等。二、定类数据离散趋势的测度异众比率 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 非众数组的频数占总频数的比率(variation ratio),称为异众比率,用rV表示。异众比率的计算公式为:1immriifffVff (3.18)式中:if为变量值的总频数;mf为众数组的频数 异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。异众比率主要用于测度分类数据的离散程度,当然,对于顺序数据也可以计算异众比率。例 3.10 一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对 50 名顾客购买饮料的品牌进行了纪录。整理得 不同品牌饮料的频数分布资料如表 4.4.1 所示,要求根据资料计算异众比率。表 3.7 50名顾客购买饮料统计表 解:50 1510.770%50immriifffVff 计算结果说明在所调查的 50 人当中,购买其他品牌饮料的人数占 70%,异众比率比较大。因此,用“可口可乐”来代表消费者购买饮料品牌的状况,其代表性不是很好。此外,利用异众比率还可以对不同总体或样本的离散程度进行比较。假定我们在另一个超市对统一问题抽查了 100 人,购买