数据分布特征的测度教学.ppt
《数据分布特征的测度教学.ppt》由会员分享,可在线阅读,更多相关《数据分布特征的测度教学.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 数据分布特征的测度数据分布特征的测度学习目标学习目标w掌握众数、中位数的概念、特点及其计算方法;w了解四分位数概念;w掌握算术平均数、调和平均数、几何平均数的概念、特点及计算方法;w了解异众比率、四分位差、全距、方差及标准差的概念、及计算方法;w了解偏度和峰度的意义;w能够区分各种指标的应用场合,根据不同数据类型运用不同测度指标。主要内容主要内容:集中趋势的测度集中趋势的测度1离散程度的测度离散程度的测度 2 偏态与峰度的测度偏态与峰度的测度 3众数四分位数中位数平均数偏度峰度方差和标准差全距异众比率四分位差离散系数数据的特征和测度集中趋势离散程度分布的形状第一节 集中趋势的测度
2、 众数中位数四分位数平均数 概念概念 在次数分布数列中,就是出现次数最多的变量值,用 表示。主要用于测度定类数据的集中趋势,当然也适用于作为定序数据以及定距和定比数据集中趋势的测度值。一、众数一、众数 计算众数的方法计算众数的方法(1)单项分配数列的众数计算方法)单项分配数列的众数计算方法 出现次数最多的那一组变量值就是众数出现次数最多的那一组变量值就是众数 w某商场某日连续销售15双皮鞋的尺码组成情况如下:38,37,38,40,40,41,40,42,44,40,41,39,40,40,43w出现次数最多的数是40,40就是某商场某日销售皮鞋尺码的众数。(2)组距分配数列的众数计算方法 第
3、一步:根据分配数列次数最多的组 确定为众数所在组。第二步:根据该组与前后相邻两组 分配次数的关系推算众数。众数与相邻两组的关系示意图众数与相邻两组的关系示意图 ,众数组的组中值即为众数的值。,众数会向其前一组靠,众数小于其组中值 ,众数会向其后一组靠,众数大于其组中值 M MMooof fff ff-1-1-1f ff+1+1+1M MMoooM MMooo其中,L,U分别表示众数所在组的下限值和上限值,i表示众数组的组距。w根据上述关系,可以利用相似三角形推导出组距分配数列的众数的计算公式如下:下限公式:上限公式:w某乡3000农户按人均年纯收入分组的资料如下表,试计算其众数。人均年纯收入(
4、元)农户数2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030合计3000w从表中可以看出,众数所在的组为4000-5000,出现的最多次数为1050。按下限公式计算众数:按上限公式计算众数:众数的优缺点众数的优缺点优点优点 容易理解,容易理解,不受极值影响不受极值影响 缺点缺点 灵敏度和计算功能差灵敏度和计算功能差 稳定性差稳定性差 具有不唯一性具有不唯一性二、中位数和四分位数二、中位数和四分位数(一)中位数(一)中位数 概念概念 是指对样本数据由小到
5、大排序后,处于中间位置是指对样本数据由小到大排序后,处于中间位置上的变量值,用上的变量值,用 表示。表示。是一个位置代表值,它主要用于测度定序数据的是一个位置代表值,它主要用于测度定序数据的集中趋势,当然也适用于定距数据和定比数据的集中趋势,当然也适用于定距数据和定比数据的集中趋势,但不适用于定类数据。集中趋势,但不适用于定类数据。计算中位数的方法计算中位数的方法(1)变量值未分组情况下:总体单位数n是奇数,中间位置的变 量值是中位数。总体单位数n是偶数,中间位置的两个变量值的算术平均数为中位数。(2)变量值分组情况下:下限公式:上限公式:w某乡人均年纯收入中位数计算表如下某乡人均年纯收入中位
6、数计算表如下:年人均纯收入(元)农户数向上累计向下累计2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030240720177023702640285029703000300027602280123063036015030合计3000w按下限公式计算中位数:w按上限公式计算中位数:优缺点优缺点 优点优点 容易理解,容易理解,不受极值影响不受极值影响 适宜于开口组资料和些不能用数适宜于开口组资料和些不能用数字测定的事物字测定的事物缺点缺点 灵敏度和计算功能差
7、灵敏度和计算功能差 间断数间断数Me(二)四分位数(二)四分位数 中位数是从中间点将全部数据分为两部分。与中位数类中位数是从中间点将全部数据分为两部分。与中位数类似的还有四分位数、十分位数、百分位数、四分位数就似的还有四分位数、十分位数、百分位数、四分位数就是对数据集合四等分的三个数值,其中的第二个四分位是对数据集合四等分的三个数值,其中的第二个四分位数即为中位数。例如某数据集合有数即为中位数。例如某数据集合有101项数据,则第项数据,则第26项、项、51项、项、76项三个数据可以把数据集合分为数目相等项三个数据可以把数据集合分为数目相等的四个等分,这三个数就分别是第一、第二、第三四分的四个等
8、分,这三个数就分别是第一、第二、第三四分位数,其中第一个四分位数称为上四分位数,第三个四位数,其中第一个四分位数称为上四分位数,第三个四分位数称为下四分位数,第二个四分位数就为中位数。分位数称为下四分位数,第二个四分位数就为中位数。三、数值平均数:算术平均数、调和平三、数值平均数:算术平均数、调和平均数、几何平均数均数、几何平均数 算术平均数算术平均数主要适用于定居数据和定比数据,但不适用于定类数据和定序数据 1、简单算术平均数2、加权算术平均数原始数据被分为k组,各组的组中值为各组变量值出现的频数分别为 w某中学100名高中一年级男生身高(单位:厘米)的频数分布如下表。求该校高一男生的平均身
9、高。身高155160 160165 165170 170175 175180 180185人数 2 8 28 36 18 8当我们掌握的不是各组变量值出现的频数,而是当我们掌握的不是各组变量值出现的频数,而是频率时,也可直接根据上式计算均值频率时,也可直接根据上式计算均值 请注意!调和平均数调和平均数该式与加权算术平均数公式的计算结果完全一致。实际上,上式只是加权算术平均数的另一种表现形式。由此可见,调和平均数实际上是算术平均数的一种变由此可见,调和平均数实际上是算术平均数的一种变形,二者在本质上是一致的,唯一的区别就是计算时形,二者在本质上是一致的,唯一的区别就是计算时使用了不同的数据。使用
10、了不同的数据。只适用于定比数据,不适用于定距数据 几何平均数几何平均数 是是n项变量值连乘积的项变量值连乘积的n次方根。次方根。适合于计算现象的平均比率或平均速度,反应适合于计算现象的平均比率或平均速度,反应现象增长率的平均水平。现象增长率的平均水平。因此,凡是现象的变量值的连乘积等于因此,凡是现象的变量值的连乘积等于总比率或总速度,都可以使用几何平均总比率或总速度,都可以使用几何平均数来计算平均比率或平均速度。数来计算平均比率或平均速度。1、简单几何平均数、简单几何平均数 适用于计算未分组数列的平均比率或平均速度。1994-19981994-1998年我国工业品的产量分别是上年的年我国工业品
11、的产量分别是上年的107.6%107.6%、102.5%102.5%、100.6%100.6%、102.7%102.7%、102.2%102.2%,计算这,计算这5 5年的平均发展速度。年的平均发展速度。2、加权几何平均数、加权几何平均数 对于分组数列,应该采用加权几何平均数计算其平均比率或平均速度。某投资银行某投资银行2525年的年利率分别是:年的年利率分别是:1 1年年3%3%,4 4年年5%5%,8 8年年8%8%,1010年年10%10%,2 2年年15%15%,求平均年利率。,求平均年利率。第二节第二节 离散程度的测度离散程度的测度离散系数离散系数异众比率异众比率四分位差四分位差全距
12、全距方差和标准差方差和标准差一、异众比率一、异众比率 是非众数的次数与全部个案数目的比率是非众数的次数与全部个案数目的比率,用用 表示。表示。异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。为众数的频数,为变量值的总频数。二、四分位差二、四分位差 概念概念 也称为内距或四分间距,它是上四分位数与下四也称为内距或四分间距,它是上四分位数与下四分位数之差,是对定序及定序以上测量尺度的变分位数之差,是对定序及定序以上测量尺度的变量离散程度的测量指标。量离散程度的测量指标。计算方法计算方法 求出上四分位数和下四分位数的位置 计算这两个四分位数之差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布 特征 测度 教学
限制150内