最新大学统计学 第3章 数据分布特征的描述ppt课件.ppt
《最新大学统计学 第3章 数据分布特征的描述ppt课件.ppt》由会员分享,可在线阅读,更多相关《最新大学统计学 第3章 数据分布特征的描述ppt课件.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大学统计学大学统计学 第第3章章 数据分布特数据分布特征的描述征的描述第三章第三章 数据分布特征的描述数据分布特征的描述n第一节第一节 统计变量集中趋势的测定统计变量集中趋势的测定n第二节第二节 统计变量离散程度的测定统计变量离散程度的测定n第三节第三节 变量分布的偏度与峰度变量分布的偏度与峰度权数权数(fi,也称权重),也称权重)n权数权数指在计算总体平均数或综合水平的过指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。程中对各个数据起着权衡轻重作用的变量。n可以是绝对数形式,也可以是比重形式(如频可以是绝对数形式,也可以是比重形式(如频率)来表示。率)来表示。n事实上比
2、重权数更能够直接表明权数的权衡轻重作事实上比重权数更能够直接表明权数的权衡轻重作用的实质。用的实质。n当权数完全相等(当权数完全相等(f1=f2=fn)时,加权算术)时,加权算术平均数就成了简单算术平均数。平均数就成了简单算术平均数。3由组距数列计算算术平均数由组距数列计算算术平均数 要点:要点:n各组变量值用组中值各组变量值用组中值来代表。来代表。n假定条件是各组内数假定条件是各组内数据呈均匀分布或对称据呈均匀分布或对称分布。分布。n计算结果是近似值计算结果是近似值.表表3 33 3节能灯泡的使用寿命的分组数据节能灯泡的使用寿命的分组数据使用寿命使用寿命(小时)组中组中值值 (x)数量数量(
3、f)XfXf 频率频率 (f/ff/f)(Xf/f)10001000以下以下900218000.020 181000-12001000-12001100888000.080 881200-14001200-1400130016208000.160 2081400-16001400-1600150035525000.350 5251600-18001600-1800170023391000.230 3911800-20001800-2000190012228000.120 22820002000以上以上2100484000.040 84合合 计计1001542001.000 1542解:平均使用
4、寿命为:解:平均使用寿命为:4对相对数求算术平均数对相对数求算术平均数n由于各个相对数的对比基础不同,采用简单由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。算术平均通常不合理,需要加权。表表 3-43-4企 业流通费用率()商品销售额(万元)流通费用(万元)甲161600256乙104750475丙124000480合 计11.70048103501211n权数的选择必须符权数的选择必须符合该相对数本身的合该相对数本身的计算公式。计算公式。n权数通常为该相对权数通常为该相对数的分母指标。数的分母指标。5算术平均数的主要数学性质算术平均数的主要数学性质(1)算术平均数与变量
5、值个数的乘)算术平均数与变量值个数的乘积等于各个变量值的总和。积等于各个变量值的总和。(2)各变量值与算术平均数)各变量值与算术平均数的离差之总和等于零。的离差之总和等于零。(3)各变量值与算术平均)各变量值与算术平均数的离差平方之总和为数的离差平方之总和为最小。最小。(二)调和平均数(二)调和平均数(Harmonic mean)n调和平均数调和平均数也称为倒数平均数。也称为倒数平均数。n各变量值的倒数(各变量值的倒数(1/xi)的算术平均数的倒数)的算术平均数的倒数.n其计算公式为:其计算公式为:(续)(续)n社会经济统计中所应用的调和平均数通常是社会经济统计中所应用的调和平均数通常是加权算
6、术平均数的变形,加权算术平均数的变形,n已知各组变量值已知各组变量值 xi 和(和(xi fi)而缺乏)而缺乏 fi 时,加权算时,加权算术平均数通常可变形为调和平均数形式来计算。术平均数通常可变形为调和平均数形式来计算。n【例例3-4】解:解:(三)几何平均数(三)几何平均数(Geometric mean)n几何平均数几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。次方根。n简单几何平均数简单几何平均数n加权几何平均数加权几何平均数n适用于适用于各个变量值之间存在连乘积关系的场合。各个变量值之间存在连乘积关系的场合。n主要用于计算现象的平均发展速度,主要用于计算现象的平均发展速度,n
7、也适用于对某些具有环比性质的比率求平均也适用于对某些具有环比性质的比率求平均.【例例3-5】n某企业产品的加工要顺次经过前后衔接的五某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分道工序。本月该企业各加工工序的合格率分别为别为88、85、90、92、96,试求,试求这五道工序的平均合格率。这五道工序的平均合格率。n解:解:本例中各工序的合格率具有环比的性质,本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:乘积。所以,所求的平均合格率应为:n例:某笔投资的年利率是按复利计
8、算的。25年的年利率分配是:1年为3%,4年为4%,8年为8%,10年为10%,2年为15%。求平均年利率?n解:n问:如果是按单利计算呢?三、众数与中位数三、众数与中位数(一)众数(一)众数(Mode)n众数是一组数据中出现频数最多、频率最高众数是一组数据中出现频数最多、频率最高的变量值的变量值,常用,常用 M0 表示。表示。n如表如表3-2中年龄的众数值中年龄的众数值MO25。n众数代表的是最常见、最普遍的状况,是对众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量现象集中趋势的度量。n可用来测度定性变量的集中趋势;可用来测度定性变量的集中趋势;n销售量最大的产品颜色是销售量最大的产
9、品颜色是“白色白色”,则有,则有M0“白色白色”n可以度量定量变量的集中趋势。可以度量定量变量的集中趋势。n从分布曲线的角度看,众数就是变量分布曲线的最高从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。峰所对应的变量值。xMOf(x)组距数列中众数的确定组距数列中众数的确定n先找到众数组。先找到众数组。n在等距数列中,众数组就是次数最多的组;在等距数列中,众数组就是次数最多的组;n在异距数列中,众数组应是频数密度最大的组。在异距数列中,众数组应是频数密度最大的组。n根据众数组与其相邻两组的次数差来推算。根据众数组与其相邻两组的次数差来推算。n其近似公式为:其近似公式为:下限公式
10、:下限公式:上限公式:上限公式:(二)中位数(二)中位数(Median)n中位数中位数是将数据由小到大排列后位置居中的数是将数据由小到大排列后位置居中的数值。值。n由未分组数据计算中位数由未分组数据计算中位数n若数据项数是奇数,则正好位于中间的数若数据项数是奇数,则正好位于中间的数值就是中位数;值就是中位数;n如如5人收入为人收入为:1200,1450,1500,1500,1600,2000元,则元,则收入的中位数收入的中位数 Me=1500。n若数据项数是偶数,则取居中两个数值的若数据项数是偶数,则取居中两个数值的平均数为中位数平均数为中位数.n如如6人收入为人收入为:1200,1450,1
11、500,1600,1800,2000元,则收入的中位数元,则收入的中位数 Me=1550。x Mef(x)50%50%由组距数据计算中位数由组距数据计算中位数n先确定中位数组,即中间位置(用先确定中位数组,即中间位置(用f/2来计算)来计算)所在的组。所在的组。n假定中位数组内次数均匀分布(次数与变量值假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。的区间大小成比例),近似推算中位数的值。n计算公式为:计算公式为:下限公式:下限公式:上限公式:上限公式:n例:某地区某年农民年收入的分布数列:n解:众数所在组是解:众数所在组是700800,代入公式:,代入公式:n
12、讨论:讨论:1)众数组的次数与相邻组的次数相等,则)众数组的次数与相邻组的次数相等,则Mo=?n 2)众数组下限前一组次数小于上限,则)众数组下限前一组次数小于上限,则Mo偏向上偏向上限还是下限?相反又如何?限还是下限?相反又如何?2)中位数的位置为)中位数的位置为3000/2=1500,240+480+1050正正好大于好大于1500,中位数所在组是第三组,中位数所在组是第三组 四分位数、十分位数和百分位数四分位数、十分位数和百分位数n四分位数四分位数是将数据由小到大排序后,位于全部数据是将数据由小到大排序后,位于全部数据1/4位置上的数值。位置上的数值。n十分位数十分位数是将数据由小到大排
13、序后,位于全部数据是将数据由小到大排序后,位于全部数据1/10位置上的数值。位置上的数值。n百分位数百分位数是将数据由小到大排序后,位于全部数据是将数据由小到大排序后,位于全部数据1/100位置上的数值。位置上的数值。n中位数也就是第二个四分位数、第五个十分位数、第五十中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。个百分位数。n分位数与其它指标结合,可以更详细地反映数据的分位数与其它指标结合,可以更详细地反映数据的分布特征。分布特征。箱线图(箱线图(boxplot)n箱线图箱线图由一组数据的最小值(由一组数据的最小值(xmin)、第一四)、第一四分位数分位数(Q1)、中位数、中
14、位数(Me)、第三四分位数、第三四分位数(Q3)、最大值(最大值(xmax)等五个数值来绘成。)等五个数值来绘成。n利用箱线图可以观察数据分布的范围、中心利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据位置和对称性等特征,还可以进行多组数据分布的比较。分布的比较。xmin Q1 Me Q3 xmax(三)众数、中位数和算术平均数的比较(三)众数、中位数和算术平均数的比较1.算术平均数综合反映了全部数据的信息,众数算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在
15、算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个而且具有惟一性,但计算和应用众数有两个前提条件:前提条件:n(1)数据项数众多;)数据项数众多;n(2)数据具有明显的集中趋势。)数据具有明显的集中趋势。3.算术平均数只能用于定量(数值型)数据,中算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据于所有形式(类型、计量层次)的数据(续)(续)n4.算术平均数要受数据中极端值的影响。而众算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。数和中位数都不受
16、极端值的影响。n为了排除极端值的干扰,可计算切尾均值,即去为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值掉数据中最大和最小的若干项数值后计算的均值.n切尾均值是将均值与中位数取长补短的结果。切尾均值是将均值与中位数取长补短的结果。n5.算术平均数可以推算总体的有关总量指标,算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。而中位数和众数则不宜用作此类推算。算术平均数和众数、中位数的数量关系算术平均数和众数、中位数的数量关系n在对称分布中,三者相等在对称分布中,三者相等.即:即:均值均值=Me=Mo;x MeMe xn在左偏分布中,一般
17、有:在左偏分布中,一般有:均值均值MeMon在右偏分布中,一般有:在右偏分布中,一般有:Mo Me 均值均值。n皮尔生经验公式:在轻微偏态时,皮尔生经验公式:在轻微偏态时,三者的近似关系:三者的近似关系:第二节第二节 统计变量离散程度的测定统计变量离散程度的测定n一、测定离散程度的指标及其作用一、测定离散程度的指标及其作用n二、极差、四分位差和平均差二、极差、四分位差和平均差n三、方差和标准差三、方差和标准差n四、离散系数四、离散系数n五、异众比率五、异众比率 一则笑话一则笑话n如果你一只脚放在摄氏如果你一只脚放在摄氏 1 度的水里,另一只度的水里,另一只脚放在摄氏脚放在摄氏 79 度的水里,
18、平均水温度的水里,平均水温 40 度,度,你一定感觉很舒服你一定感觉很舒服?n显然,只了解变量的集中趋势是不够的!显然,只了解变量的集中趋势是不够的!一、测定离散程度的指标及其作用一、测定离散程度的指标及其作用n1.说明数据的分散程度,反映变量的稳定性、说明数据的分散程度,反映变量的稳定性、均衡性。均衡性。n数据之间差异越大,变量的稳定性或均衡性越差。数据之间差异越大,变量的稳定性或均衡性越差。n2.衡量平均数的代表性。衡量平均数的代表性。n离散程度越大,平均数的代表性就越小。离散程度越大,平均数的代表性就越小。n3.统计推断的重要依据统计推断的重要依据n判别统计推断前提条件是否成立,判别统计
19、推断前提条件是否成立,n衡量推断效果好坏的重要尺度。衡量推断效果好坏的重要尺度。二、极差、四分位差和平均差二、极差、四分位差和平均差(一)极差(一)极差(Range)n极差是一组数据的最大值(极差是一组数据的最大值(xmax)与最小值)与最小值(xmin)之差,通常用)之差,通常用 R 表示。表示。n对于总体数据而言,极差也就是变量变化的范围或对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为幅度大小,故也称为全距全距。n组距数列中,极差组距数列中,极差最高组的上限最高组的上限-最低组的下限。最低组的下限。n优缺点:计算简便、含义直观、容易理解。它未考优缺点:计算简便、含义直观、容
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新大学统计学 第3章 数据分布特征的描述ppt课件 最新 大学 统计学 数据 分布 特征 描述 ppt 课件
限制150内