第三章数据分布特征的描述教案论文自然科学文章_高等教育-大学课件.pdf
《第三章数据分布特征的描述教案论文自然科学文章_高等教育-大学课件.pdf》由会员分享,可在线阅读,更多相关《第三章数据分布特征的描述教案论文自然科学文章_高等教育-大学课件.pdf(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习好资料 欢迎下载 第三章 数据分布特征的描述(一)教学目的 通过本章的学习,使同学们正确理解各种指标的概念及计算方法,学会运用相应的统计指标对数据的分布特征进行分析说明。(二)基本要求 使学生熟练掌握数据分布特征的描述方法。(三)教学要点 1、集中趋势的测度指标及其计算方法;2、离散趋势的测度指标及其计算方法;3、总体分布的偏度与峰度的测度。(四)教学时数 910 课时(五)学习内容 本章共分三节:第一节 数据分布集中趋势的测定 一、定类数据集中趋势的测度众数(Mode)(一)概念要点 众数是指一组数据中出现次数最多的变量值,用oM表示。从变量分布的角度看,众数是具有明显集中趋势点的数值,
2、一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。1.集中趋势的测度值之一 2.出现次数最多的变量值 3.不受极端值的影响 4.可能没有众数或有几个众数 5.主要用于定类数据,也可用于定序数据和数值型数据 众数的不唯一性:无众数原始数据:10 5 9 12 6 8 一个众数原始数据:6 5 9 8 5 5 多于一个众数原始数据:25 28 28 36 42 42(二)众数的计算 根据未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。对于组距分组数据,众数的数值与其相邻
3、两组的频数分布有一定的关系,这种关系可作如下的理解:设众数组的频数为mf,众数前一组的频数为1f,众数后一组的频数为1f。当众数相邻两组的频数相等时,即1f=1f,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即1f1f,则众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即1f1f,则众数会向其后一组靠,学习好资料 欢迎下载 众数大于其组中值。基于这种思路,借助于几何图形而导出的分组数据众数的计算公式如下:下限公式:111112()()mommffMLdLdffff (3.1)上限公式:121112()()mommffMUdUdff
4、ff (3.2)式中:L表示众数所在组的下限;U表示众数所在组的上限;d表示众数所在组的组距。例 3.1 现利用表 3.1 1 资料计算 3000 户农民家庭年人均收入的众数。表 3.1 某地区农民家庭收入资料 从表 3.1 中的数据可以看出,出现频数最多的是 1050,即众数组为 14001600 这一组mf=1050,1f=480,1f=600,根据(3.1)式可得众数为:10504801400200(1050480)(1050600)oM =1511.8(元)利用上述公式计算众数时是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性就会很
5、差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。二、定序数据集中趋势的测度中位数和分位数(一)概念要点 中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。1.集中趋势的测度值之一 2.排序后处于中间位置上的值 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具
6、有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 3.不受极端值的影响 4.主要用于定序数据,也可用数值型数据,但不能用于定类数据 5.各变量值与中位数的离差绝对值之和最小,即 (3.3)(二)中位数的计算 根据未分组资料和分组资料都可确定中位数。有三种情况:1.对于未分组的原始资料,首先必须将
7、标志值按大小排序。设排序的结果为:123nxxxx 则中位数就可以按下面的方式确定:Me=12nx,当 n 为奇数 (3.4)Me=1222nnxx,当 n 为偶数 (3.5)2.对于单项式变量数列资料,由于变量值以及序列化,故中位数可以直接按下面的方式确定:12fx,当f为奇数 (3.6)Me=1222ffxx,当f为偶数 (3.7)3对于组距式变量数列,确定中位数也需要分两步进行:(1)从变量数列的累计频数栏中找出第2f个单位所在的组,即“中位数组”,该组的上、下限就规定了中位数的可能取值范围;(2)假定在中位数组内的各单位是均匀分布的,就可利用下面的公式计算中位数的近似值:min1iei
8、min1nieiMX计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需
9、找出出现次数最多的变量值即学习好资料 欢迎下载 12MeMeMeMefsMeLdf (3.8)12MeMeMeMefsUdf(3.9)上面两式分别称作中位数的“下限公式”。式中,1Mes是到中位数组前面一组为止的向上累计频数,1Mes则是到中位数组后面一组为止的向下累计频数;Med=MeUMeL为中位数组的组距。(三)分位数 中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)等。它们分别是用 3 个点、9个点和 99 个点将数据四等分、10 等分和 100 等分后各分位点上的值。这里只介绍四分位数的
10、计算,其他分位数与之类似。一组数据排序后处于 25和 75位置上的值,称为四分位数,也称四分位点。四分位数是通过三个点将全部数据等分为四部分,其中每部分包含 25的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在 25位置上的数值(下四分位数)和处在 75位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。1.四分位数位置的确定 设下四分位数为 QL,上四分位数为,对于未分组的原始数据,各四分位数的位置分别为:(1)未分组数据:un+13(n+1)Q44LQ位置位置 当四分位数的位置不在某一个位
11、置上时,可根据四分位数的位置,按比例分摊四分位数两侧的差值。例 3.2 在某城市中随机抽取 9 个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算人均月收入的四分位数。解:Ln+19+1Q=2.544的位置,即 QL在第 2 个数值(780)和第 3 个数值(850)之间 0.5 的位置上,因此 QL(780850)2815(元)计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法
12、总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 U3(n+1)3(9+1)Q=7.544的位置,即 QU在第 7 个数值(1500)和第 8 个数值(1630)之间 0.5 的位置上,因此 QU
13、(15001630)21565(元)QL和 QU之间包含了 50%的数据,因此,我们可以说有一半的家庭人均月收入在 8151565 元之间。(2)组距分组数据:4fQL位置 43fQU位置 数值型分组数据的四分位数(计算公式)()(3.10)(3.10)三、数值型数据集中趋势的测度(一)算术平均数 算术平均数(Arithmetic mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。计算公式为:总体单位总量总体标志总量算术平均数 很多社会经济现象,总体标志总量常常是总体单位变量值的算术总和。例如,工人工资总额是总体中每个工人工资的总和,某地
14、区小麦总产量是所有耕地小麦产量的总和。在总体标志总量和总体单位总量的基础上,就可以计算平均指标。算术平均数与强度相对数都是两个总量指标的比值,也都是有名数,都反映了相互联系的两个现象之间的数量对比关系,计算方法也非常相似。但它们却是两个性质不同的统计指标,主要区别有两点:其一,子项指标与母项指标的关系不同。平均数的子项指标与母项指标属于同一个统计总体,是同一统计总体的总体标志总量与总体单位总量的比值,而强度相对数则是来自两个不同总体但有联系的总量指标之比;其二,算术平均数的子项指标(标志总量)随着母项指标(总体单位数)的变动而变动,二者互相适应,而强度相对数的子项指标同母项指标之间不存在这样的
15、关系。LL4LLLLLfSQLif下四分位数:上四分位数 UUU34UUUUUfSQLif计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数
16、原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 算术平均数在统计学中具有重要的地位,是集中趋势的最主要度量值,通常用x(读作xbar)表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。1.简单算术平均数(Simple arithmetic mean)未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设统计数据为12,x x,nx,则算术平均数x的计算公式为:121ninixxxxxnn (3.11)例 3.3 某班级 40 名同学统计学的考试成绩原始资料如表 3
17、.1 2 所示。表 3.2 40名同学统计学原始成绩 该班 40 名同学统计学的平均成绩为:64707875308977.234040X(分)2.加权算术平均数(Weighted arithmetic mean)根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据被分成k组,各组的变量值为12,x x,kx,各组变量值的次数或频数分别为12,ff,kf,则加权的算术平均数为:11221121kiikkikkiix fx fx fx fxffff (3.12)例 3.4 根据例 3.3 提供的 40 名同学的统计学成绩原始资料分组整理如表 3.
18、1 3,根据此表资料计算平均成绩。表 3.3 40名同学统计学成绩汇总表 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的
19、计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 根据(3.12)式得 11306076.540KiiiKiix fxf(分)根据(3.12)式计算的平均成绩是 76.5 分,而与根据(3.11)式计算的平均成绩 77.23分相比,相差 0.73 分,显然 77.23 分是准确的平均成绩,因为(3.11)式所用的是原始数据的全部信息。而(3.12)式是用各组的组中值代表各组的实际数据,使用代表值时是假定各组数据在各组中是均匀分布的,但实际情况与这一假定会有一定的偏差,使得利用分组资料计算的平均数与实际的平均值会产生误差,它是实际平均值的近似值
20、。加权算术平均数其数值的大小,不仅受各组变量值(ix)大小的影响,而且受各组变量值出现的频数即权数(if)大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。实际上,我们将(3.12)式变形为下面的形式,就更能清楚地看出这一点。1111KiiKiiiKKiiiiix ffxxff (3.13)由(3.13)式可以清楚地看出,加权算术平均数受各组变量值(ix)和各组权数即频率iiff大小的影响。频率越大,相应的变量值计入平均数的份额也越大,对平均数的影响就越大;反之,频率越小,相应的变量值计入平均数的份额也越小,对平均数的影响就越小。这就
21、是权数权衡轻重作用的实质。当我们掌握的权数不是各组变量值出现的频数,而是频率时,可直接根据(4.3.3)式计算算术平均数。如例 3.2,根据各组的频数计算的频率分别为:0.05、0.2、0.4、0.25、0.1,各组频率之和为 1,则用频率计算的加权算术平均数为:计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数值一组数据分布的最高峰点所对应的数值即为众
22、数当然如果数据的分布没有明显的集中趋势或最高峰点众数也可以不存在如果个众数主要用于定类数据也可用于定序数据和数值型数据众数的不唯一性无众数原始数据一个众数原始数据多于一个众数原始数据二众数的计算根据未分组数据或单变量值分组数据计算众数时我们只需找出出现次数最多的变量值即学习好资料 欢迎下载 1155 0.0565 0.275 0.485 0.2595 0.1KiiKiiifxxf 76.5(分)从计算结果看,用频率加权计算的结果与用频数加权计算的结果是一致的。需要指出的是,当各组变量值出现的频数(if)或频率iiff相等时,权数的作用就消失了,这就意味着各组变量值对总平均的结果所起的作用是一样
23、的,此时,加权算术平均数就等于简单算术平均数。在实际生活中,我们也会经常遇到由相对数计算平均数的情况。一般地说,求相对数的平均数应采用加权平均的方法,此时,用于加权平均的权数不再是频数或频率,而应根据相对数的含义,选择适当的权数。下面举一个实例说明。例 3.5 某公司所属 10 个企业资金利润率分组资料如表 3.4,要求计算该公司 10 个企业的平均利润率。表 3.4 某公司所属 10 个企业资金利润率分组资料 该例子的平均对象是各企业的资金利润率,表中的企业数虽然是次数或频数,但却不是合适的权数。要正确计算公司 10 个企业的平均资金利润率,因为资金利润率=利润总额/资金总额,所以计算平均资
24、金利润率需要以资金总额为权数,才能符合该指标的性质。因此,该公司 10 个企业的平均利润率为:115%4010%8015%14031=11.9%4080140260KiiiKiix fxf 算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,算术平均数是一组数据的重心所在,它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性的结果。例如每年分季度的观测数据,各年同季的数据由于受一些偶然性随机因素的影响,其数值表现出一定的差异性,但将各年同季的数据加以平均,计算的算术平均数,就消除了一些随机因素的影响,反映出季节变动必然性的数量特征。再如,对同一事物进行多
25、次测量,由于测量误差所致,或者其它因素的偶然影响,使得测量结果不一致,但利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物固有的数量特征。另外,算术平均数具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,同时也体现了算术平均数的统计思想。各变量值与其算术平均数的离差之和等于零,即 计算方法学会运用相应的统计指标对数据的分布特征进行分析说明二基本要求使学生熟练掌握数据分布特征的描述方法三教学要点集中趋势的测度指标及其计算方法离散趋势的测度指标及其计算方法总体分布的偏度与峰度的测度四点众数是指一组数据中出现次数最多的变量值用表示从变量分布的角度看众数是具有明显集中趋势点的数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 数据 分布 特征 描述 教案 论文 自然科学 文章 高等教育 大学 课件
限制150内