2022年第五章离散趋势测量 .pdf
第五章离散趋势测量一、基本概念1、离散趋势反映一组数据中各数值与中心值偏离的程度。中心趋势的各种测量值是对数据水平的一个概括性度量, 但是如果数据离散程度大,集中趋势测量值对数据的代表性就差,这时候需要离散趋势测量值对数据的离散程度进行测量。2、质性差异指数(IQV )质性差异指数是实际观察到的变异量和依数据可能有的最大变异量之间的比值,其数值是介于 0 与 1 中间,用IQV 表示。3、极差极差是一组数据中最大值与最小值的差值,也称为全距。通常用R 表示极差。极差是一组数据中最大值和最小值的差值,因而, 极差只适用于数值型数据,但是不适合定类数据和定序数据离散趋势的测量。极差越大说明数据的离散程度越大。4、四分位差四分位差是上四分位数和下四分位数之差,也称为内距或者四分间距。四分位差反映了中间 50%数据的离散程度,如果数值越小,说明离散程度越小,中间50%数据集中性越好;相反,如果四分位差越大,则说明离散程度越大,中间数据的集中性越差。5、平均差平均差就是一组数据中每一个数据与这组数据均值之差的绝对值之和的平均,也称为平均离差,通常用Md 表示。 平均差也只适用于数值型数据离散趋势的测量,而不适用于定类数据和定序数据。6、方差方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。7、标准差标准差是方差的平方根,用于测量数值型数据离散趋势。标准差克服了方差面临的夸大离散程度、不容易解释的问题。与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。在实际中,标准差使用更为普遍。8、离散系数离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。离散系数是测量数据离散程度的相对指标,通常用Vs适用于数值型数据离散程度的测量。二、基本方法1、质性差异指数的计算IQV 的计算公式为:IQV=1222KNfNK精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 5 页其中,k 为分类数据的类别数或者组数,N 是样本容量,2f是各组频数平方的总和。IQV 0 时,数据之同构型最高或变化最小,一定是所有个案都集中在一个类别中。而IQV 1 时,是全部个案平均的分配在各类别时。2、极差与四分位差的计算如果用 Xmax 和 Xmin 分别表示一组数据的最大值和最小值,那么极差可以用下面公式表示: R=minmaxXX用 QL 表示下四分位数,QU 表示上四分位数,Qd 表示四分位差, 那么四分位差可以用下面公式表示:LUdQQQ从某个班级随机抽取11 位同学,调查期末考试英语成绩,11 位同学成绩分别为:98,87, 90,89,87, 95,83,72,91,93,85。计算 11 位学生英语成绩的极差和四分位差。(1)首先,我们找出最大值和最小值,分别为98 和 72,然后根据公式计算极差:R=minmaxXX=9872=26(分)(2)首先排序: 72, 83,85, 87, 87, 89, 90, 91, 93, 95, 98 ,计算上四分位数和下四分位数:上四分位数的位置=3* (n+1) /4=3* (11+1)/4=9,即UQ=93 下四分位数的位置=( n+1)/4=(11+1)/4=3,即LQ=85 然后计算四分位差LUdQQQ=93-85=8 3、平均差的计算(1)未分组数据平均差的计算首先计算均值,然后在计算平均差时可以按照定义进行计算,公式为:nXXMd具体步骤:首先计算所有数据的均值X; 然后计算每个数据X 与均值X之差的绝对值,并进行加总;最后求各离差绝对值iXX加总之和的平均值,即除以数据个数。以前面例子为例,计算11 位同学期末英语成绩的的平均差。首先计算均值:X=NXXXN.21=(98+87+90+89+87+95+83+72+91+93+85 ) 11 89(分)精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 5 页然后计算各离差绝对值的加总和:XX=9889+ 8789+9089 +8989+8789+95 89+8389+7289+9189+ 9389+8589=53(分)最后求离差绝对值的平均:Md=53114.8(分)即 11 位同学期末英语考试成绩的平均差为4.8 分。(2)分组数据平均差的计算与计算均值类似,利用各组组中值和频数来计算平均差,公式为:nfXXMiid*具体步骤:首先计算所有数据的均值X;然后计算各小组组中值iX与均值X之差的绝对值;再求各组组中值与均值离差绝对值与小组频数if的乘积iXX*if;最后求各小组iXX*if加总之和的平均值。4、方差和标准差的计算(1)未分组数据方差和标准差的计算首先计算均值,然后在计算方差时可以按照定义进行计算,公式为:nxxnii122具体步骤: 首先计算所有数据的均值X;然后计算各数值X 与均值X之差的平方, 并进行加总;最后求各离差平方和的平均值,即除以数据个数。计算出方差之后,对其开方即可得到标准差,公式为:nxxi2假如某维修部门连续8 周维修电脑的台数分别为5 台、 18 台、 17 台、 8 台、 10 台、 4台、 20 台和 6 台,计算每周维修电脑数量的方差和标准差。首先计算每周维修电脑数量的均值:X=NXXXN.21=(5+18+17+8+10+4+20+6 ) 8 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 5 页=11(台)然后根据公式计算方差:nxxnii122=35.75最后计算标准差:nxxi2=5.98(台)即该维修部门平均每周修电脑11 台,其标准差为5.98 台。(2)分组数据方差和标准差的计算与计算均值类似,利用各组组中值和频数来计算方差,公式为:nfxMkiii122具体步骤:首先计算所有数据的均值X;然后计算各小组组中值iX与均值X之差的平方;再求各组组中值与均值离差平方与小组频数if的乘积;最后对上一步结果进行加总并求平均值即可。在求出方差后将其开方便得到标准差,公式为:iiiffxM25、离散系数的计算离散系数的定义中已经说明,它是标准差与均值的比值,其公式为:Vs=均值标准差离散系数越大,说明数据的离散程度也就越大,相反,离散系数越小,数据的离散程度就越小。假设有甲、乙两人同时打靶,各大10 靶,甲平均每靶为8 环,标准差为2;乙平均每靶 9 环,标准差为3,那么甲、乙两人打靶的稳定性水平的更好呢?甲: Vs=82=4 乙: Vs=93=3 由此可见,乙的离散系数小于甲,所以说乙打靶的稳定性更好。三、其他重点难点1、质性差异指数的特点质性差异指数的作用是求出各个类别之间在理论上最多的可能差异中实际上出现了多少差异。它利用所有类别频数信息,因而代表性较强。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 5 页2、极差与四分位差的特点极差计算简单,所需信息少,易于理解。但是容易受极端值影响,极差只利用了最大值和最小值两个数值,不能准确的反映出中间数据的特点。四分位差计算简单、易于理解, 不受极端值的影响,这是四分位差的优点之一。对于数值型数据,计算了中间50%数据的极差,不仅反应了所有数据的离散程度,同时反映出中间 50%数据的离散程度和集中程度。3、平均差的特点平均差意义比较明确、易懂, 利用了所有数据的信息,能比较全面准确的反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;相反,平均差越小,数据的离散程度越小。平均差在计算时采用了各数值与均值之差的绝对值,避免了各差值正、负抵消导致最终离差之和为0 的问题,但这也给计算带来不便。4、方差和标准差的特点(1)方差和标准差包括了所有数据的信息,反应灵敏,每个数据取值的变化,方差或标准差都随之变化。(2)方差和标准差容易计算,而且计算严密确定,但是当数据很多时,计算量很大,因而多使用计算工具或者软件进行。(3)方差和标准差适合代数运算,而且由于标准差是量纲的,因而更便于不同群体之间离散趋势的比较。除上述之外,方差还具有可加性特点,它是对一组数据中造成各种变异的总和的测量,能利用其可加性分解并确定出属于不同来源的变异性(如组间、 组内等 )并可进一步说明每种变异对总结果的影响, 是以后统计推论部分常用的统计特征数。这在以后章节中会有所涉及。5、离散系数的特点离散系数的计算是以标准差和均值为基础,因而离散系数包括所有数据信息,因而其代表性较好, 但是只要其中一个数据变化,离散系数就跟随变化。离散系数消除了变量值水平高低和计量单位不同对离散程度的影响,它的主要作用是比较不同总体或样本数据的离散程度,在实际中应用广泛。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 5 页