第三章数据分布特征的描述分解优秀PPT.ppt
2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组1n第一节第一节 集中趋势集中趋势数值平均数数值平均数n其次节其次节 集中趋势集中趋势位置平均数位置平均数n第三节第三节 离中趋势的测度离中趋势的测度n第四节第四节 偏度与峰度的偏度与峰度的 测度测度第三章第三章 数据分布特征的描述数据分布特征的描述2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组2本章重点与难点本章重点与难点n重点重点:n 了解和驾驭算术平均数、众数、中位了解和驾驭算术平均数、众数、中位数、方差、标准差、标准分数的含义及数、方差、标准差、标准分数的含义及其计算方法;正确运用离散系数比较不其计算方法;正确运用离散系数比较不同均值的代表性。同均值的代表性。n难点难点:n 是偏度和峰度的含义及其计算方法。是偏度和峰度的含义及其计算方法。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组3学习目标学习目标n 正确理解平均指标与变异指标的概念的、正确理解平均指标与变异指标的概念的、意义与作用,明确其种类和区分;驾驭平均意义与作用,明确其种类和区分;驾驭平均指标和变异指标的计算方法,以及应用的原指标和变异指标的计算方法,以及应用的原则和条件;驾驭偏度和峰度的含义及其计算则和条件;驾驭偏度和峰度的含义及其计算方法;了解各种分位数的概念与意义。方法;了解各种分位数的概念与意义。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组4数据分布的特征数据分布的特征:n n一、集中趋势一、集中趋势:反映数据向其中心靠拢或反映数据向其中心靠拢或 聚集聚集 n n 程度;程度;n n二、离中趋势;数据远离中心的趋势二、离中趋势;数据远离中心的趋势(又称离散又称离散n n 程度程度);n n三、偏态和峰态;偏态是对数据分布对称性的度三、偏态和峰态;偏态是对数据分布对称性的度n n 量;峰度是指数据分布的平峰或尖峰程度量;峰度是指数据分布的平峰或尖峰程度n n (形态)。(形态)。2022/11/55数据分布的特征数据分布的特征集中趋势集中趋势:反映反映数据向其中心数据向其中心靠拢或聚集程靠拢或聚集程度度(位置位置)偏态和峰态;偏偏态和峰态;偏态:反映数据偏态:反映数据偏斜程度;峰度:斜程度;峰度:数据分布的平峰数据分布的平峰或尖峰程度(或尖峰程度(形形状状)离中趋势;数据离中趋势;数据远离中心的趋势远离中心的趋势 (分散程度分散程度分散程度分散程度)2022/11/56数据分布特征的测度数据分布特征的测度n1.集中趋势集中趋势n算术平均数、调和平均数算术平均数、调和平均数、几何平均数、几何平均数、众数和中位数。众数和中位数。n2.离散程度离散程度n全距、异众比率、四分位差、平均差、方全距、异众比率、四分位差、平均差、方差和标准差、离散系数、标准分数。差和标准差、离散系数、标准分数。n3.分布的形态分布的形态n 偏态系数、峰态系数。偏态系数、峰态系数。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组7第一节 集中趋势数值平均数 p75p75n一、算术平均数一、算术平均数n二、调和平均数二、调和平均数n三、几何平均数三、几何平均数数数值值型型数数据据的的平平均均数数2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组8集集 中中 趋趋 势势(central tendency)1.一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是找寻数据水平的代表值或中心值测度集中趋势就是找寻数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.留意:低层次数据的测度方法也适用于高层次的数据,留意:低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层次的数据。但高层次数据的测度方法往往不适用于低层次的数据。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组9一、算术平均数一、算术平均数n 均值(算术平均数)定义:将一组数据相加后除均值(算术平均数)定义:将一组数据相加后除以数据的个数所得到的一个数值,称为算术平均数以数据的个数所得到的一个数值,称为算术平均数(average)或均值()或均值(mean)。n 算术平均数,算术平均数,又有简洁算术平均数和加权平均数又有简洁算术平均数和加权平均数之分。之分。n 算术平均数公式的应用条件(算术平均数公式的应用条件(1)各变量值相互独)各变量值相互独立;(立;(2)变量名称和计量单位相同;()变量名称和计量单位相同;(3)截面数)截面数据。据。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组10 一、算术平均数一、算术平均数 设一组数据为设一组数据为设一组数据为设一组数据为:x x1 1,x x2 2,x xn n 未分组数据 各组的组中值为各组的组中值为各组的组中值为各组的组中值为:x x1 1,x x2 2,x xk k 组距分组数据组距分组数据 相应的频数为相应的频数为相应的频数为相应的频数为:f f1 1,f f2 2,f fk k简洁算术平均数简洁算术平均数简洁算术平均数简洁算术平均数加权算术平均数加权算术平均数加权算术平均数加权算术平均数 2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组11【例【例3.13.1】依据表】依据表3-13-1中的数据,计算职工通信费用支出中的数据,计算职工通信费用支出额平均水平额平均水平 。p72p72解:解:2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组12 身高身高 组中值组中值 人数人数 比重比重 (cm)xi(cm)fi(人)(人)(%)150-155 152.5 3 3.61 155-160 157.5 11 13.25 160-165 162.5 34 40.96 165-170 167.5 24 28.92 170以上以上 172.5 11 13.25 总计总计 -83 100.00 例例3.2 分组资料均值的计算分组资料均值的计算:某年级某年级83名女生身高资料名女生身高资料组距数据组距数据次数次数f频率频率f/f变量值变量值x加权算加权算术平均术平均数数2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组13【例例3.33.3】依据整理得表依据整理得表3-43-4中的数据,中的数据,计算职工通信费计算职工通信费用支出额平均水平用支出额平均水平。p74解:解:或或2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组14 计算算术平均数,计算算术平均数,留意:留意:n用各组的组中值代表其实际数据计算算术平均数用各组的组中值代表其实际数据计算算术平均数时,通常假定各组数据在组内是匀整分布的,相时,通常假定各组数据在组内是匀整分布的,相应的组中值近似等于各组的平均数。应的组中值近似等于各组的平均数。n权数:衡量变量值相对重要性的数值。权数:衡量变量值相对重要性的数值。n各个变量值的权数要起作用必需具备两个条件:各个变量值的权数要起作用必需具备两个条件:n一是各个变量值之间有差异;一是各个变量值之间有差异;n二是各个变量值的权数有差异。二是各个变量值的权数有差异。n简洁算术平均数是加权算术平均数在权数相等时简洁算术平均数是加权算术平均数在权数相等时的特例。的特例。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组15 算术平均数的性质算术平均数的性质 p75-76n 1各变量值与其算术平均数的离差之和各变量值与其算术平均数的离差之和等于零,即等于零,即 2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组16算术平均数的性质算术平均数的性质2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组171.集中趋势的最常用测度值;集中趋势的最常用测度值;2.一组数据的均衡点所在;一组数据的均衡点所在;3.易受极端值的影响;易受极端值的影响;4.由组距分组资料计算的均值有近似值性质;由组距分组资料计算的均值有近似值性质;5.5、用于数值型数据,不能用于分类数据和、用于数值型数据,不能用于分类数据和依次数据依次数据算术平均数(均值)特征:算术平均数(均值)特征:2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组18 二、调和平均数二、调和平均数 n 调和平均数也称调和平均数也称“倒数平均数倒数平均数”,它是对变量,它是对变量的倒数求平均,然后再取倒数而得到的平均数,的倒数求平均,然后再取倒数而得到的平均数,以以 表示。表示。n 依据驾驭的资料不同,调和平均数也有简洁依据驾驭的资料不同,调和平均数也有简洁调和平均数和加权平均数两种形式。调和平均数和加权平均数两种形式。n其计其计n算公算公n式为:式为:n2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组19 例题分析例题分析【例【例3.4 3.4 假设甲、乙、丙三种苹果的价格分别为假设甲、乙、丙三种苹果的价格分别为每斤每斤2.42.4元、元、1.81.8元及元及1.51.5元(元(1 1)若三种苹果各买)若三种苹果各买1 1元,试问所购苹果的平均价格又为多少?(元,试问所购苹果的平均价格又为多少?(2 2)假如甲、乙、丙三种苹果分别购买假如甲、乙、丙三种苹果分别购买5 5元、元、8 8元和元和1010元,试问其平均价格为多少?元,试问其平均价格为多少?解:计算解:计算平均价格的是用所付金额除以所购数量。平均价格的是用所付金额除以所购数量。平均价格的是用所付金额除以所购数量。平均价格的是用所付金额除以所购数量。(1 1)(2 2)2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组20 计算调和平均数计算调和平均数,留意:,留意:从数学定义角度看算术平均数与调和平均数是从数学定义角度看算术平均数与调和平均数是不一样的,但在社会经济应用领域,调和平均数事不一样的,但在社会经济应用领域,调和平均数事实上只是算术平均数的另一种表现形式,二者本质实上只是算术平均数的另一种表现形式,二者本质上是一样的,唯一的区分是计算时运用了不同的数上是一样的,唯一的区分是计算时运用了不同的数据。据。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组21三、几何平均数三、几何平均数(geometric mean)p78n几何平均数也称几何均值,它是几何平均数也称几何均值,它是n个变量值乘积个变量值乘积的的n次方根。次方根。n几何平均法是计算平均比率或平均发展速度最适几何平均法是计算平均比率或平均发展速度最适用的一种方法。用的一种方法。n假如分布数列中各变量值呈几何级数变更或频率假如分布数列中各变量值呈几何级数变更或频率分布极不对称,也常接受几何平均法来计算平均分布极不对称,也常接受几何平均法来计算平均数。数。n依据统计资料的不同,几何平均数也有简洁几何依据统计资料的不同,几何平均数也有简洁几何平均数和加权几何平均数之分。平均数和加权几何平均数之分。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组22几何平均数的计算公式几何平均数的计算公式 用途用途用途用途:适用于对比率数据的平均。主要用于计算适用于对比率数据的平均。主要用于计算平均发展速度、平均增长率、平均比率平均发展速度、平均增长率、平均比率n对于未分组的资料,几何平均数的计算公式为对于未分组的资料,几何平均数的计算公式为2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组23例题分析例题分析n【例例3.7】已知某市已知某市20082012年国内生产总值的发展速度年国内生产总值的发展速度(以上年为(以上年为100)依次分别为)依次分别为112%、108%、114%、116%和和113%。试计算这。试计算这5年国内生产总值的平均发展速度。年国内生产总值的平均发展速度。假如已知的是各年的增长速度,要计算若干年的平均假如已知的是各年的增长速度,要计算若干年的平均增长速度,则须要先将增长率加上增长速度,则须要先将增长率加上100%得到发展速度,得到发展速度,再依据上述方法计算平均发展速度,最终用平均发展速再依据上述方法计算平均发展速度,最终用平均发展速度减度减100%则得到平均增长速度。则得到平均增长速度。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组24例题分析例题分析【例例3.8】甲投资银行某项投资的年利率是按复利甲投资银行某项投资的年利率是按复利计算的,若将过去计算的,若将过去20年的年利率资料如表年的年利率资料如表3-8所示所示.要求:试计算要求:试计算20年的平均年利率。年的平均年利率。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组25应用几何平均数时留意应用几何平均数时留意n几何平均数在实际应用中受到很多限制;几何平均数在实际应用中受到很多限制;n假如被平均的变量值中有一个为零,则不能计假如被平均的变量值中有一个为零,则不能计算几何平均数;算几何平均数;n假如变量值为负数,开偶次根会形成虚根,失假如变量值为负数,开偶次根会形成虚根,失去意义;去意义;n几何平均数在实际应用中的范围比算术平均数几何平均数在实际应用中的范围比算术平均数要窄。要窄。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组26其次节其次节 集中趋势集中趋势位置平均数位置平均数 p80n一、众数一、众数 Mon二、中位数二、中位数Men三、四分位数三、四分位数QU、QL2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组27集中趋势集中趋势位置平均数位置平均数n位置平均数:依据总体中处于特殊位置位置平均数:依据总体中处于特殊位置上的个别单位或部分单位的标记值来确上的个别单位或部分单位的标记值来确定的代表值;定的代表值;n对于整个总体来说,具有特别直观的代对于整个总体来说,具有特别直观的代表性,常用来反映分布的集中趋势;表性,常用来反映分布的集中趋势;n常用的位置平均数有众数和中位数。常用的位置平均数有众数和中位数。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组28一、众数一、众数 p80n(一)(一)众数的含义众数的含义n众数众数是指一组数据中出现次数是指一组数据中出现次数最多的变量最多的变量值值,用,用 表示。表示。n众数直观地说明分布的集中趋势,并用它众数直观地说明分布的集中趋势,并用它作为反映变量值一般水平的代表值。作为反映变量值一般水平的代表值。n在某些场合只有众数才适合作为总体的代在某些场合只有众数才适合作为总体的代表值。表值。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组29(二)(二)众数的计算方法众数的计算方法n1视察法求众数视察法求众数n假如数据已按单个变量值整理成频率分布表假如数据已按单个变量值整理成频率分布表或者是分类数据表,则次数出现最多或频率或者是分类数据表,则次数出现最多或频率最大的那个变量值即为众数。最大的那个变量值即为众数。n【例【例3.9】某制鞋厂要了解消费者最须要哪某制鞋厂要了解消费者最须要哪种型号的男皮鞋,调查了某百货商场种型号的男皮鞋,调查了某百货商场2009年年3月男皮鞋的销售状况,得到资料如表月男皮鞋的销售状况,得到资料如表3-9所所示。示。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组30众数的计算众数的计算-例题分析例题分析要求:试依据上表资料计算男皮鞋销售量的众数。要求:试依据上表资料计算男皮鞋销售量的众数。解:销售量最多的是规格为解:销售量最多的是规格为25.5厘米的鞋号,销售量厘米的鞋号,销售量320双,占双,占32%,故,故众数为众数为25.5公分公分。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组31众数的计算众数的计算-例题分析例题分析 p81【例【例3.10】某高校电影院在支配某高校电影院在支配2010年影片放映支配时,分别年影片放映支配时,分别按性别随机抽取按性别随机抽取200名男女学生,登记其对影片类型的取向。统名男女学生,登记其对影片类型的取向。统计结果如表计结果如表3-10所示。要求:试分析学生对影片取向的集中趋势。所示。要求:试分析学生对影片取向的集中趋势。n解:解:7种类型的影片中,男生最宠爱看动作片,人数为种类型的影片中,男生最宠爱看动作片,人数为48人,占人,占24%,众数即为动作片这种影片类型;女生最,众数即为动作片这种影片类型;女生最宠爱看言情片,人数为宠爱看言情片,人数为46人,占人,占23%,众数即为言情片,众数即为言情片这种影片类型;男女生对影片类型的取向,综合而言是动这种影片类型;男女生对影片类型的取向,综合而言是动作片,众数为动作片这种影片类型。作片,众数为动作片这种影片类型。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组32数值型数据众数的确定方法数值型数据众数的确定方法 单变量值分组资料单变量值分组资料某年级某年级83名女生身高资料名女生身高资料 身高身高 人数人数(CM)(人)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高身高 人数人数(CM)(人)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计总计总计总计 8383 STATSTAT众数2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组33 留意:留意:n 众数不仅适用于测度依次数据和众数不仅适用于测度依次数据和数值型数据的集中趋势,而且适用数值型数据的集中趋势,而且适用于测度不能计算平均数的分类数据于测度不能计算平均数的分类数据的集中趋势。的集中趋势。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组34众数的计算方法众数的计算方法n2插值法求众数插值法求众数n 对于组距分组形成的分布数列,当频率分对于组距分组形成的分布数列,当频率分布属于完全对称分布,而众数所在组的变布属于完全对称分布,而众数所在组的变量值分布比较匀整时,可用视察法求众数,量值分布比较匀整时,可用视察法求众数,即以众数组的组中值作为所求的众数。即以众数组的组中值作为所求的众数。n完全对称分布不存在,众数组前后各组的完全对称分布不存在,众数组前后各组的次数不确定相等,众数就不等于组中值,次数不确定相等,众数就不等于组中值,因此须要接受插值法求众数。因此须要接受插值法求众数。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组35组距分组数据,众数的计算步骤组距分组数据,众数的计算步骤n1、先找到众数所在的组;、先找到众数所在的组;n2、按该组次数与前后相邻两组分布次数之差所、按该组次数与前后相邻两组分布次数之差所占的比重来推算众数值。占的比重来推算众数值。n假如众数组前一组的次数大于后一组的次数,则假如众数组前一组的次数大于后一组的次数,则众数值小于其所在组的组中值;反之,众数值则众数值小于其所在组的组中值;反之,众数值则大于其所在组的组中值;大于其所在组的组中值;n若众数组前后相邻组的次数相等,则众数值等于若众数组前后相邻组的次数相等,则众数值等于其所在组的组中值。其所在组的组中值。n3、计算众数有上限和下限公式之分。、计算众数有上限和下限公式之分。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组36众数的计算方法众数的计算方法2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组37 身高身高 人数人数 比重比重 (CM)(人)(人)(%)150-155 3 3.61 155-160 11 13.25 160-165 34 40.96 165-170 24 28.92 170以上以上 11 13.25 总计总计 83 100某年级某年级83名女生身高资料名女生身高资料数值型数据众数的确定方法数值型数据众数的确定方法 组距分组资料组距分组资料STATSTAT众数组众数组2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组38 众数的特点众数的特点n1众数不受分布数列的极大或微小值的众数不受分布数列的极大或微小值的影响,众数对分布数列有好的代表性。影响,众数对分布数列有好的代表性。n2数据的分布没有明显的集中趋势或最数据的分布没有明显的集中趋势或最高峰点,众数可能不存在;高峰点,众数可能不存在;n3.有两个或多个高峰点,可以有两个或多有两个或多个高峰点,可以有两个或多个众数。众数不具有唯一性。个众数。众数不具有唯一性。n4众数缺乏敏感性。众数缺乏敏感性。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组39二、中位数二、中位数 Me p83n(一)(一)中位数的含义中位数的含义n中位数是将数据按大小依次排列起来,形中位数是将数据按大小依次排列起来,形成一个数列,居于数列中间位置的那个变成一个数列,居于数列中间位置的那个变量值称为中位数。中位数用量值称为中位数。中位数用Me表示。表示。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组40中位数的计算中位数的计算中位数概念:排序后处于中间位置上的值中位数概念:排序后处于中间位置上的值1依据未分组数据计算中位数。依据未分组数据计算中位数。Me50%50%2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组41例题分析例题分析【例【例3.12】某班第一、二两个小组统计学期末考某班第一、二两个小组统计学期末考试成果排序结果如表试成果排序结果如表3-12所示。要求:分别计所示。要求:分别计算两小组成果的中位数算两小组成果的中位数解:两个学习小组的考试成果已经分别按由低到高排列。解:两个学习小组的考试成果已经分别按由低到高排列。第一小组有第一小组有7个学生,第个学生,第4位为中位数的位置,位为中位数的位置,Me=75.其次小组有其次小组有8个学生,中位数的位置处于第四和第五个个学生,中位数的位置处于第四和第五个学生之间。学生之间。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组42中位数的计算中位数的计算n2由分组资料确定中位数由分组资料确定中位数 n假如由组距数列确定中位数,应先按的公式假如由组距数列确定中位数,应先按的公式求出中位数所在组的位置,然后再按下限公求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。式或上限公式确定中位数。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组43组距分组数据中位组距分组数据中位数的确定方法数的确定方法 身高身高 fi人数人数 累计累计 (CM)(人)(人)人数人数 150-155 3 3 155-160 11 14 160-165 34 48 165-170 24 72 170以上以上 11 83 总计总计 83 某年级某年级83名女生身高资料名女生身高资料STATSTAT中位数组中位数组2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组44 中位数的特点中位数的特点n1不受分布数列的极大或微小值影响。不受分布数列的极大或微小值影响。n2有些离散型变量的单项式数列,当次数有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。分布偏态时,中位数的代表性会受到影响。n3中位数缺乏敏感性。中位数缺乏敏感性。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组45三、三、四分位数四分位数 p85n 中位数是依据其在数列中所处的位置来中位数是依据其在数列中所处的位置来确定的一个平均数,作为各变量值的一个代确定的一个平均数,作为各变量值的一个代表值,以反映分布数列的集中趋势。表值,以反映分布数列的集中趋势。n 为了进一步了解一组数据分布的内部结为了进一步了解一组数据分布的内部结构,视察变量值在各个区间的一般水平,还构,视察变量值在各个区间的一般水平,还可以计算四分位数、特别位数和百分位数。可以计算四分位数、特别位数和百分位数。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组46 四分位数四分位数n四分位数是通过四分位数是通过3个点将全部数据等分为个点将全部数据等分为四个部分,其中每部分包含四个部分,其中每部分包含25%的数据。的数据。n QQL LMeMeQQU U25%25%25%25%处于处于处于处于 25%25%和和和和75%75%位置上的值即位置上的值即位置上的值即位置上的值即 四分位数四分位数四分位数四分位数特点:不受极端值的影响特点:不受极端值的影响要要用用于于依依次次数数据据,也也可可用用于于数数值值型型数数据据,但但不不能用于分类数据(各种分位数可由能用于分类数据(各种分位数可由spss计算)计算)2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组47四分位数的计算四分位数的计算n1.依据未分组数据计算四分位数时,先对数据进行依据未分组数据计算四分位数时,先对数据进行排序,然后再确定四分位数所在的位置排序,然后再确定四分位数所在的位置n当四分位数的位置不是整数时,可依据四分位数的位当四分位数的位置不是整数时,可依据四分位数的位置,按比例分摊四分位数所在位置两侧变量值之差的置,按比例分摊四分位数所在位置两侧变量值之差的数值。数值。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组48四分位数的计算四分位数的计算例题分析例题分析n【例【例3.14】将例将例3.12中两个学习小组的统计学考试中两个学习小组的统计学考试n成果合并如下:成果合并如下:要求:要求:(1)计算前)计算前15个学生统计学考试成果的四分位数;个学生统计学考试成果的四分位数;(2)假如增加一个学生的成果)假如增加一个学生的成果95分,试计算分,试计算16个学生个学生统计学考试成果的四分位数。统计学考试成果的四分位数。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组49四分位数的计算四分位数的计算例题分析例题分析2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组50四分位数的计算四分位数的计算n2.依据组距数列计算四分位数依据组距数列计算四分位数 2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组51四分位数的计算四分位数的计算2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组52 算术平均数简评算术平均数简评n算术平均数:算术平均数:n 算术平均数符合上述六个条件,算术平均数符合上述六个条件,应用范围最广。应用范围最广。n 易受极端值的影响。易受极端值的影响。n 当分布数列中存在开口组时,会当分布数列中存在开口组时,会影响平均数的精确性。影响平均数的精确性。n 算术平均数适用于数值型数据。算术平均数适用于数值型数据。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组53(三)(三)众数、中位数和算术平均数的关系众数、中位数和算术平均数的关系 在数据分布呈完全对称的正态分布时,算术在数据分布呈完全对称的正态分布时,算术平均数、众数和中位数三者相等。平均数、众数和中位数三者相等。n 在次数分布非对称时,算术平均数、众数和在次数分布非对称时,算术平均数、众数和中位数三者不相等,但具有相对固定的关系。中位数三者不相等,但具有相对固定的关系。n 在尾巴拖在右边的正偏态(或右偏态)分布在尾巴拖在右边的正偏态(或右偏态)分布中,众数最小,中位数适中,算术平均数最大。中,众数最小,中位数适中,算术平均数最大。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组54 众数、中位数和平均数的关系众数、中位数和平均数的关系 左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值对何种数据而言的?对何种数据而言的?2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组55第三节第三节 离中趋势的测度离中趋势的测度 p851.数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明白集中趋势测度值的代表性从另一个侧面说明白集中趋势测度值的代表性4.留意:留意:5.数数据据的的离离散散程程度度越越大大,集集中中趋趋势势的的测测度度对对该该组组数数据据的的代代表表性性越越差差;数数据据的的离离散散程程度度越越小小,集中趋势的测度值对该组数据的代表性越好。集中趋势的测度值对该组数据的代表性越好。6.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组56下面是两个总体关于下面是两个总体关于年龄分布年龄分布的数据的数据,相对而言相对而言,那个总体那个总体的年龄分布分散的年龄分布分散,差异大些差异大些?n46、47、48、49、50、n51、52、53、54n8、15、20、30、50n70、80、85、92总体1总体22022/11/5版权全部版权全部 BY 统计学课程组统计学课程组57离中趋势;数据远离中趋势;数据远离中趋势;数据远离中趋势;数据远离中心的趋势离中心的趋势离中心的趋势离中心的趋势 (分散程度分散程度分散程度分散程度)总体总体总体总体2 2总体总体12022/11/558n数值型数据:数值型数据:n 全距全距(或称极差或称极差)(range)n 平均差(平均差(mean deviation)n 方差和标准差(方差和标准差(Variance and standardn deviation)n 相对离散程度:离散系数(相对离散程度:离散系数(Coefficient of n Variation)n分类数据:异众比率(分类数据:异众比率(variation ratio)n依次数据:四分位差(依次数据:四分位差(quartile range)离散程度的测度离散程度的测度2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组59一、全距(一、全距(RangeRange)全距全距也称为极差,是指一组数据的最大值也称为极差,是指一组数据的最大值与最小值之差,用与最小值之差,用R表示。表示。n即:即:R最大变量值最小变量值最大变量值最小变量值n 没有开口组的没有开口组的组距分布数列计算全距组距分布数列计算全距,可以用最,可以用最大组的上限值减去最小组的下限值,得到全距的近大组的上限值减去最小组的下限值,得到全距的近似值。似值。n全距可以反映一组数据的差异范围。全距可以反映一组数据的差异范围。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组60全距的计算全距的计算【例【例3.16】表】表3-14是两组人口关于年龄分布的数据是两组人口关于年龄分布的数据,要求计算全距。要求计算全距。解:第一组全距解:第一组全距 其次组全距其次组全距 留意:假如组距分布数列中有开口组,则不能计算全距。留意:假如组距分布数列中有开口组,则不能计算全距。全距计算简洁,易理解,易受极端值的影响全距计算简洁,易理解,易受极端值的影响;不能反映中间数据分散不能反映中间数据分散状况,不能精确描述数据的分散程度。状况,不能精确描述数据的分散程度。2022/11/561 二、异众比率二、异众比率(variation ratio)非众数组的频数占总频数的比率非众数组的频数占总频数的比率计算公式为 用于用于 对分类数据离散程度的测度对分类数据离散程度的测度 用于衡量众数的代表性用于衡量众数的代表性2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组62异众比率异众比率n 异众比率主要用于衡量众数对一组数据的代表程异众比率主要用于衡量众数对一组数据的代表程度。度。n 异众比率越大,说明非众数组的频数占总频数的异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;比重越大,众数的代表性就越差;n 异众比率越小,说明非众数组的频数占总频数的异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。比重越小,众数的代表性越好。n 异众比率适合测度分类数据、测度依次数据和数异众比率适合测度分类数据、测度依次数据和数值型数据的离散程度。值型数据的离散程度。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组63异众比率的应用异众比率的应用 p89n【例【例3.17】依据例依据例3.10的数据计算学生对影片取向的的数据计算学生对影片取向的异众比率。异众比率。n【解】【解】依据公式得依据公式得n说明:比较上面的三个异众比率,全部样本学生的异说明:比较上面的三个异众比率,全部样本学生的异众比率最大,说明其众数的代表性最差;男生的异众众比率最大,说明其众数的代表性最差;男生的异众比率略小于女生的异众比率,说明男生对影片取向的比率略小于女生的异众比率,说明男生对影片取向的众数的代表性略好于女生对影片取向的众数的代表性。众数的代表性略好于女生对影片取向的众数的代表性。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组64三、四分位差三、四分位差 p89 留意:留意:上四分位数与下四分位数之差上四分位数与下四分位数之差 Qd=QU QL反映了中间反映了中间50%数据的离散程度数据的离散程度对依次数据离散程度的测度对依次数据离散程度的测度不受极端值的影响不受极端值的影响用于衡量中位数的代表性用于衡量中位数的代表性2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组65四分位差的应用四分位差的应用留意:四分位差不易受极端值的影响,可以测量含有开留意:四分位差不易受极端值的影响,可以测量含有开口组的数据分布的差异程度,但不能反映全部变量值口组的数据分布的差异程度,但不能反映全部变量值的差异程度。的差异程度。【例】依据前面例3.16中两组人口年龄的四分位差:结论:第一、其次组的中位数均为结论:第一、其次组的中位数均为结论:第一、其次组的中位数均为结论:第一、其次组的中位数均为5050岁,但其代表性不同。岁,但其代表性不同。岁,但其代表性不同。岁,但其代表性不同。第一小组的中位数代表性相对高些,因为相对而言,四分位差小,第一小组的中位数代表性相对高些,因为相对而言,四分位差小,第一小组的中位数代表性相对高些,因为相对而言,四分位差小,第一小组的中位数代表性相对高些,因为相对而言,四分位差小,数据分布集中。其次组年龄中位数代表性低些,因为该组年龄差异数据分布集中。其次组年龄中位数代表性低些,因为该组年龄差异数据分布集中。其次组年龄中位数代表性低些,因为该组年龄差异数据分布集中。其次组年龄中位数代表性低些,因为该组年龄差异大,年龄分布相对分散。大,年龄分布相对分散。大,年龄分布相对分散。大,年龄分布相对分散。2022/11/5版权全部版权全部 BY 统计学课程组统计学课程组66四、平均差(四、平均差(Average Deviation)n平均差就是各个变量值与其算术平均数离差的确定平均差就是各个变量值与其算术平均数离差的确定值的平均数,以值的平均数,以AD表示。它综合反映了各变量值的表示。它综合反映了各变量值的变动程度,是各个离差的代表值。变动程度,是各个离差的代表值。n平均差越大,则表示变量值的离散程度越大,说明平均差越大,则表示变量值的离散程度越大,说明平均数的代表性越小;平均差越小,则表示变量值平均数的代表性越小;平均