统计-第五章-变异指标课件.ppt
第五章第五章 离中趋势测量法离中趋势测量法 主要内容主要内容:(:(1)变异指标;)变异指标;(2)全距;)全距;(3)平均差、标准差和标准分;)平均差、标准差和标准分;(4)绝对离势)绝对离势和相对离势;(和相对离势;(5)偏度。)偏度。离中趋势v所谓离中趋势离中趋势,是指数列中各变量值之间的差距和离散程度。v例如有例如有A、B、C、D四组学生各四组学生各5人的成绩如人的成绩如下:下:A组:组:60,60,60,60,60 B组:组:58,59,60,61,62 C组:组:40,50,60,70,80 D组:组:80,80,80,80,80 数据显示,平均数相同,离势可能不同;数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。平均数不同,离势可能相同。变异指标v离中趋势用变异度指标来衡量.v变异度指标又称标志变动度指标,是综合反映总体各单位标志值及其分布的差异程度的指标。v变异指标变异指标与平均指标相对应,从另一个侧面反映了与平均指标相对应,从另一个侧面反映了总体的特征。总体的特征。变异指标的作用v其主要作用是:v(1)说明平均数的代表性。在相同平均数的情况下。离势小,平均数的代表性高;离势大,平均数代表性低。v(2)反映经济活动过程的均衡性、节奏性或稳定性。变异指标如按数量关系来分有以下两类;v凡用绝对数来表达的变异指标,统称绝对离势凡用绝对数来表达的变异指标,统称绝对离势;v凡用相对数来表达的变异指标,统称相对离势凡用相对数来表达的变异指标,统称相对离势;主要有极差、平均差、四分位差、标准差等。主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。第一节第一节 全距全距1.全距全距(Range)对于未分组资料或者单项式分组资料对于未分组资料或者单项式分组资料 R=Xmax Xmin 例求74,84,69,91,87,74,69这些数字的全距。解把数字按顺序重新排列:69,69,74,74,84,87,91,显然有 R=Xmax Xmin 916922全距(全距(全距(全距(R R):最大值和最小值之差。也叫):最大值和最小值之差。也叫):最大值和最小值之差。也叫):最大值和最小值之差。也叫极差极差极差极差。全距越大,表示变动越大。全距越大,表示变动越大。全距越大,表示变动越大。全距越大,表示变动越大。运用上述方法计算左边数列的全距对分组资料,不能确知最大值和最小值,求全距:对分组资料,不能确知最大值和最小值,求全距:对分组资料,不能确知最大值和最小值,求全距:对分组资料,不能确知最大值和最小值,求全距:(1 1)用组值最大组的组中值减去最小组的组中值)用组值最大组的组中值减去最小组的组中值 (2 2)用组值最大组的上限减去最小组的下限)用组值最大组的上限减去最小组的下限 (3 3)用组值最大组的组中值减去最小组的下限;)用组值最大组的组中值减去最小组的下限;或最大组的上限减去最小组的组中值或最大组的上限减去最小组的组中值(常用的办法)优点:优点:缺点:缺点:计算简单、计算简单、计算简单、计算简单、直观。直观。直观。直观。(1 1)受极端值影响大;)受极端值影响大;)受极端值影响大;)受极端值影响大;(2 2)没有量度中间各个单位间没有量度中间各个单位间没有量度中间各个单位间没有量度中间各个单位间的差异性,数据利用率低,信息丧的差异性,数据利用率低,信息丧的差异性,数据利用率低,信息丧的差异性,数据利用率低,信息丧失严重;失严重;失严重;失严重;(3 3)受抽样变动影响大,大样)受抽样变动影响大,大样)受抽样变动影响大,大样)受抽样变动影响大,大样本全距比小样本全距大。因为大样本全距比小样本全距大。因为大样本全距比小样本全距大。因为大样本全距比小样本全距大。因为大样本更可能包含最极端的值本更可能包含最极端的值本更可能包含最极端的值本更可能包含最极端的值.第二节第二节 平均差平均差(Mean absolute deviation)v要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。v平均差是平均差是各变量值与算术平均数(中位数)的离差绝对值的算术平均数.v由于各变量值与其算术平均数离差的代数和的值为0,所以采取算绝对值的办法;v能够全面反应一组数据的离散程度;能够全面反应一组数据的离散程度;v数学性质较差,实际运用的比较少;数学性质较差,实际运用的比较少;计算方法1.对于未分组资料对于未分组资料 A D=2.对于分组资料对于分组资料 A D=例1v1、试分别以算术平均数为基准,试分别以算术平均数为基准,v求求85,69,69,74,87,91,74这些数字这些数字的平均差。的平均差。例2:根据下表求平均差某车间某车间50名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组组中值组中值(Xi)频数频数(f)|Xi-X|Xi-X|f105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计合计50312 练习:练习:试以算术平均数为基准,求下表所示数据的平均差。试以算术平均数为基准,求下表所示数据的平均差。计算左边数列的平均差平均差的性质平均差的性质v(1)虽然是变异指标,但是从算法上仍属于算术平均数;v(2)受抽样变动影响小、受极端值影响大、对于不确定组距要经过特殊处理;v(3)平均差不能用于其它的代数运算,理论意义不能给予很好的说明,标准差、方差的应用更好;v(4)使用的范围比较小;第三节第三节 标准差(标准差(standard deviation)各变量值对其算术平均数的离各变量值对其算术平均数的离各变量值对其算术平均数的离各变量值对其算术平均数的离差平方的算术平均数的平方根,又差平方的算术平均数的平方根,又差平方的算术平均数的平方根,又差平方的算术平均数的平方根,又称称称称均方差均方差,用用用用S S表示。表示。表示。表示。即克服平均差带有绝对值的缺即克服平均差带有绝对值的缺即克服平均差带有绝对值的缺即克服平均差带有绝对值的缺点,又保留其综合平均的优点。点,又保留其综合平均的优点。点,又保留其综合平均的优点。点,又保留其综合平均的优点。最常用的测度值,反应了各变量值最常用的测度值,反应了各变量值最常用的测度值,反应了各变量值最常用的测度值,反应了各变量值和均值的平均差异和均值的平均差异和均值的平均差异和均值的平均差异计算方法v对于未分组资料 求72、81、86、69、57这些数字的标准差。2.对于分组资料对于分组资料 计算左边数列的标准差 例例 调查大一男生调查大一男生60人的身高情况如下表所示,求人的身高情况如下表所示,求他们身高的标准差。他们身高的标准差。解解 因为是分组资料,计算标准差运用加权式,并因为是分组资料,计算标准差运用加权式,并参见下表参见下表练习v假设一个班的成绩分布如下,求标准差分数分数人数人数60分以下260-70570-801080-902090-1003v标准差是反映总体各单位标志值的离散状况和差异程度的最佳测度。v(1)以算术平均数为基准计算的标准差比以其他任何数值为基准计算的标准差要小。(为什么?)v“最小二乘方最小二乘方”性质性质各变量值对算术平均数的离差的平方和,必定小于他们对任何其他数偏差的平方和。v(2)它将总体中各单位标志值的差异全包括在内,受抽样变动影响小。但在受极端值影响以及处理不确定组距方面,缺点同算术平均数。v(3)标准差同平均差一样,虽然都是变异指标,但是就其计算的数学方法来看,仍然是属于算术平均数;v(4)受抽样变动的影响小,受极端值影响,处理开放组距时要经过特殊处理3.3.标准差的性质标准差的性质标准差的性质标准差的性质方差方差v值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。v所谓方差方差,即标准差的平方,它直接写成 。v 也常被称为变异数。标准分(standardscore)以离差和标准差的比值来测定变量以离差和标准差的比值来测定变量 与与 的的相对位置。使原来不能直接比较的离差标准化,可相对位置。使原来不能直接比较的离差标准化,可以相互比较,加、减、平均。以相互比较,加、减、平均。(1 1)Z Z是和是和是和是和X X一一对应的变量值;一一对应的变量值;一一对应的变量值;一一对应的变量值;(2 2)Z Z分数没有单位,是一个不受原资料单位影响分数没有单位,是一个不受原资料单位影响分数没有单位,是一个不受原资料单位影响分数没有单位,是一个不受原资料单位影响的相对数,所以可以用于不同单位资料的比较;的相对数,所以可以用于不同单位资料的比较;的相对数,所以可以用于不同单位资料的比较;的相对数,所以可以用于不同单位资料的比较;(3 3)Z Z分数实际表达了变量值距总体均值有几个标分数实际表达了变量值距总体均值有几个标分数实际表达了变量值距总体均值有几个标分数实际表达了变量值距总体均值有几个标准差。准差。准差。准差。Z分数也有标准正态变量之称。按分数也有标准正态变量之称。按Z值大小编制值大小编制出的正态分布表,其用途十分广泛。出的正态分布表,其用途十分广泛。Z分数的性质:分数的性质:Z Z Z Z分数之和等于分数之和等于分数之和等于分数之和等于0 0 0 0Z Z分数的算术平均数等于分数的算术平均数等于分数的算术平均数等于分数的算术平均数等于0 0Z Z分数的标准差等于分数的标准差等于分数的标准差等于分数的标准差等于1 1,方差也等于,方差也等于,方差也等于,方差也等于1 1三定则及其应用v社会经济统计是研究大量社会经济现象数量方面的。在大量观察下,许多现象总体内的次数分布呈正态分布,即以平均数为中心,中间大,两头小的分布状态。数理统计证明,在正态分布情况下:v可包括总体单位数的68.27%v可包括总体单位数的95.45%v可包括总体单位数的99.73%v这就是“三定则”。当计算出平均数和标准差之后,便可利用三定则来推断次数分配的状况。例子:v某车间100个工人日产量资料,已经计算出平均日产量=42.5件,标准差=8.87件,试推断日产量分布情况.v有68.27%工人日产量在33.63到51.37之间;有95.45%工人的日产量在24.76到60.24之间;有99.73%工人的日产量在15.89到69.11之间。第四节第四节 相对离势相对离势上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝对离势。但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不相同的资料的参差程度,离势的绝对指标则很可能导致某些错误结论。所以,我们还得了解和学习相对离势。相对离势相对离势v凡是用相对数来表达的变异指标,统称为相对离势,主要有异众比率、标准差系数、平均差系数等;比较具有不同单位的资料的参差程度;比较单位虽然相同而均值不相同的资料的参差程度;要想实现计量单位不同或者平均水平不一计量单位不同或者平均水平不一的对象之间的直接比较:绝对离势/平均指标相对离势;1.变异系数变异系数v绝对离势统计量与其算术平均数的比率,用绝对离势统计量与其算术平均数的比率,用V表示。变异系数是最具有代表性的相对离势。表示。变异系数是最具有代表性的相对离势。v全距系数v平均差系数v标准差系数v全距系数全距系数是众数据的全距与其算术平均数之比,其计算公式是v平均差系数平均差系数是众数据的平均差与其算术平均数之比,其计算公式是v标准差系数标准差系数是众数据的标准差与其算术平均数之比,其计算公式是2、异众比率(概念要点)v1.离散程度的测度值之一离散程度的测度值之一v2.非众数组的频数占总频数的比率非众数组的频数占总频数的比率v3.计算公式为计算公式为4.4.用于衡量众数的代表性用于衡量众数的代表性5.5.不仅用于定距变量不仅用于定距变量,还可以用于定类与定序变量还可以用于定类与定序变量.异众比率(例题)某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型人数人数(人人)频率频率(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告1125191610256.025.54.58.05.01.0合计合计200100根据下表中的数据,计算异众比率根据下表中的数据,计算异众比率解:解:解:解:在在所所调调查查的的200200人人当当中中,关关注注非非商商品品广广告告的的人人数数占占44%44%,异异众众比比率率还还是是比比较较大大。因因此此,用用“商商品品广广告告”来来反反映映城城市市居居民民对对广广告告关关注注的的一一般般趋趋势势,其其代代表表性性不不是是很很好好 V Vr r=200-112200-112200200 =1-=1-112 112 200 200 =0.44=44%=0.44=44%例1v某项调查发现,现今三口之家的家庭最多(32%),求异众比率。v某开发商根据这一报导,将房屋的户型大部分都设计为适合三口之家居住的样式和面积,你认为如何呢?例2v设为测体重,得到成人组和婴儿组各100人的两个抽样总体。成人组平均体重为65千克,全距为10千克;婴儿组平均体重为4千克,全距为2.5千克。v能否认为成人组体重的离势比婴儿组体重的离势大?例3v对一个群体测量身高和体重,平均身高为170.2厘米,身高标准差为5.30厘米;平均体重为70千克,体重标准差为4.77千克。v比较身高和体重的离散程度。第五节偏态系数变异指标离中趋势平均指标集中趋势偏度偏斜情况(1)偏度的概念v反映总体次数分布偏斜程度的指标(2)偏度的种类:右偏分布(正偏)左偏分布(负偏)(3)偏度的测算:算术平均数与众数比较法、动差法vA.偏度算术平均数众数若偏度0,则右偏;若偏度0,则左偏v 偏态系数偏态系数 我们在前面讨论统计图时已经对频数分布的正态和我们在前面讨论统计图时已经对频数分布的正态和偏态有所认识。我们又看到了算术平均数与中位数、众偏态有所认识。我们又看到了算术平均数与中位数、众数之间存在的关系:当总体呈对称分布时,、数之间存在的关系:当总体呈对称分布时,、三者完全相等;当总体呈不对称的偏态分布时,它们之三者完全相等;当总体呈不对称的偏态分布时,它们之间存在着数量间存在着数量(位置位置)的差异。因此,偏态可由的差异。因此,偏态可由与与的差来表示,即的差来表示,即 偏态系数偏态系数为了使不同数列的偏态值可比,同为了使不同数列的偏态值可比,同样可计算偏态的相对数,即偏态样可计算偏态的相对数,即偏态系数,用系数,用 来表示来表示(1)0,对称分布(正态分布);(2)3,极端右偏;(3)3,极端左偏;例例 甲车间甲车间300300工人,日产量资料如表所示:工人,日产量资料如表所示:日产量(件)工人数(人)50以下1150-601360-707070-8012080-905090-10030100-1105110以上1合计300求偏态系数。求偏态系数。22500115525285042509000455071549545200160045001200050000700052009900组中值组中值x x455565758595105115 表明甲车间日产量的分布右偏,偏斜程度为0.07。其偏态系数较小,说明工人日产量的众数接近平均数水平。练习:某企业职工的数据如右图,求数据的分布形态,以及其偏度?月工资(X)职工人数(f)51010101540152080202520数据的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态集中趋势集中趋势习题v一、填空一、填空v1对收集来的数据,数值最大者和最小者之差叫作(对收集来的数据,数值最大者和最小者之差叫作(),又称之为(又称之为()。)。v2各变量值对其算术平均数各变量值对其算术平均数(或中位数或中位数)离差绝对值的算术平均数,称之离差绝对值的算术平均数,称之为(为()。)。v3全距由于没有度量(全距由于没有度量()之间的变异性,所以数据资料的利用率很)之间的变异性,所以数据资料的利用率很低。低。v4用绝对离势除以均值得到的相对指标,即为(用绝对离势除以均值得到的相对指标,即为()。)。v5所谓(所谓(),是指非众数的频数与总体单位数的比值),是指非众数的频数与总体单位数的比值v6偏斜系数是以标准差为单位的算术平均数与众数的离差,其取值一般偏斜系数是以标准差为单位的算术平均数与众数的离差,其取值一般在(在()之间。偏斜系数为)之间。偏斜系数为0表示(表示(),偏斜系数为),偏斜系数为+3或或-3则表示则表示极右或极左偏态。极右或极左偏态。v7 7、某学生两次统计课作业的分数为:、某学生两次统计课作业的分数为:3 3分、分、5 5分,那么其两次作业的平均分,那么其两次作业的平均分数为(分数为()分,离差之和为()分,离差之和为()分,方差为()分,方差为()分,标准差为()分,标准差为()分分二、不定项选择1、全距的优点是:A、资料的利用率很高;B、受抽样变动的影响微小;C、计算简单便于直观;D、受极端数值的影响不大;2、关于平均差的性质,下面不正确的描述是:A、受极端值影响大;B、受抽样变动影响微小;C、适合于代数运算;D、有不确定组距时,不经过特殊处理不能够运算;3、标准差系数抽象了()A、总体指标数值大小的影响;B、总体单位数多少的影响;C、标志变异程度的影响;D、平均水平高低对离中趋势的影响;4、不同总体间的标准不能进行简单对比,是因为()A、平均数不一致;B、计量单位不一致;C、标准差不一致;D、总体单位数不一致;5、在下列指标中,易受极端值影响的有(),受抽样变动大的有()A、平均差;B、标准差;C、算术平均数;D、众数;E、全距;6、在下列变异指标中,就其数学方法来看,仍属于算术平均数的有()A、全距;B、标准差;C、异众比率;D、平均差;v7下面资料中哪个厂子的平均工资代表性意义最大(),哪个厂子最小()。v平均工资(元)职工人数工资标准差(元)vA、甲厂1083469.80vB、乙厂9653011.40vC、丙厂12821012.10vD、丁厂841759.60v8对比两个计量单位不同的变量数列标志值的离散程度,应使用()vA平均数B全距C均方差系数D标准差E平均差系数v9比较两个性质不同的变量数列的平均数的代表性大小,必须计算()vA标准差B平均差C全距D标准差系数v10设有甲乙两个变量数列,甲数列的平均数和标准差分别为20和2.5,乙数列的平均数和标准差分别为50和5.2,这些数据说明()A、甲数列的稳定性高于乙数列B、甲数列的稳定性低于乙数列C、甲乙两数列的稳定性相同D、甲乙两数列的稳定性无法比较v11某企业1994年职工平均工资为5200元,标准差为110元,1998年职工平均工资增长了40%,标准差扩大到150元。职工平均工资的相对变异()vA增大B减小C不变D不能比较v12凡用绝对数来表达的变异指标,统称绝对离势,主要有()vA极差B平均差C四分位差D标准差E标准差系数v13凡用相对数来表达的变异指标,统称相对离势,主要有()vA标准差B异众比率C标准差系数D平均差系数E全距系数v14若甲组平均数乙组标准差,由此可推断:()vA乙组平均数的代表性好于甲组;B乙组的标志均衡性比甲组好;vC甲组平均数的代表性好于乙组;D甲组的标志均衡性比乙组好;vE甲组的标志变动度比乙组大。v15比较不同企业的同种产品质量水平的稳定性时,可选用()vA极差B标准差C平均数D众数E标准差系数三、计算题v1、有5个数据,它们之和为385,它们的平方和为36015,试问这5个数据标准差和标准差系数为多少?v2、已知算术平均数为1000,标准差系数为25.6%,则标准差为多少?v3、已知算术平均数为12,各变量值平方的算术平均数为169,则标准差系数为多少?v4、已知标准差为3,各变量值平方的平均数为25,则平均数为多少?作业v1、某年级学生一次考试成绩分布如下,试求学生成绩分布的全距、平均差、标准差和标准差系数。成绩(分)学生数(人)50-601560-701870-803080-902090-1006v2、有一组正数组成的数列,N=20,=10,S=2,现从中减去一个为5的数,试求新数列分布的平均数和标准差。v3、根据下述变量数列,计算偏度系数。产量(个)工人数(人)30以下1230-502450-703070-9014合计80