数据分布特征的描述.pptx
《数据分布特征的描述.pptx》由会员分享,可在线阅读,更多相关《数据分布特征的描述.pptx(82页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分布的特征数据分布的特征:一、集中趋势:反映数据向其中心靠拢或 聚集程度;二、离中趋势;数据远离中心的趋势(又称离散程度);三、偏态和峰态;偏态是对数据分布对称性的度量;峰度是指数据分布的平峰或尖峰程度(形状)。第1页/共82页数据分布的特征集中趋势集中趋势:反映反映数据向其中心数据向其中心靠拢或聚集程靠拢或聚集程度度 (位置位置)偏态和峰态;偏偏态和峰态;偏态:反映数据偏态:反映数据偏斜程度;峰度:斜程度;峰度:数据分布的平峰数据分布的平峰或尖峰程度或尖峰程度(形(形状)状)离中趋势;数据离中趋势;数据远离中心的趋势远离中心的趋势 (分散程度分散程度)第2页/共82页数据分布特征的测度数
2、据特征的测度众众众 数数数中位数中位数中位数平均数平均数平均数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差峰峰峰 态态态四分位差四分位差四分位差异众比率异众比率异众比率偏偏偏 态态态分布的形状集中趋势离中趋势第3页/共82页集中趋势的度量分类数据-众数顺序数据-中位数和分位数数值型数据-均值 众数、中位数和均值的关系第4页/共82页集 中 趋 势(central tendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值注意:低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层
3、次的数据。第5页/共82页分类数据-众数一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据(spss计算)第6页/共82页注意:众数(不惟一性不惟一性)无众数原始数据:10 5 9 12 6 8一个众数原始数据:6 5 9 8 5 5多于一个众数原始数据:25 28 28 36 42 42第7页/共82页分类数据的众数(例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升
4、冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解解:这这里里的的变变量量为为“饮饮料料品品牌牌”,这这是是个个分分类类变变量量,不不同同类类型型的的饮饮料料就是变量值就是变量值 所所调调查查的的5050人人中中,购购买买可可口口可可乐乐的的人人数数最最多多,为为1515人人,占占总总被被调调查查人人数数的的30%30%,因因此此众众数数为为“可可口口可可乐乐”这这一一品品牌牌,即即 MMo o可口可乐可口可乐第8页/共82页顺序数据的众数(例题分析例题分析)解解:这这里里的的数数据
5、据为为顺顺序序数数据据。变变量量为为“回回答类别答类别”甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这这一类别,即一类别,即 MMo o不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0第9页/共82页数值
6、型数据众数的确定方法数值型数据众数的确定方法 单变量值分组资料单变量值分组资料某年级某年级83名女生身高资料名女生身高资料 身高身高 人数人数(CM)(人)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高身高 人数人数(CM)(人)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计总计总计总计 8383 STATSTAT第10页/共82页 身高身高 人数人数 比重比重 (CM)(人)(人)(%)160-165 34 40.
7、96 170以上以上 总计总计 83 100某年级某年级83名女生身高资料名女生身高资料数值型数据众数的确定方法数值型数据众数的确定方法 组距分组资料组距分组资料STATSTAT第11页/共82页众数的计算方法总结:1、观察法(例题分析)2、插值法P76(例题分析)u所谓插值法就是先找到众数所在的组,然后按该组次数与前后相邻两组分布次数之差所占的比重推算众数值。第12页/共82页例3.1 某车间实行计件工资,2005年10月120名工人的月工资资料如下表所示:要求:试计算月工资的众数。月工资(元)人数(人)比重(%)由小到大累计次数由大到小累计次数800以下1512.5015120800-10
8、002520.83401051000-1200 4840.0088801200-1400 2016.67108321400-1600 1210.0012012合计120100.00第13页/共82页解:从上表中我们可以看出,月工资变量值中最大的字数为48人,即众数组为1000-1200这一组。根据公式,可得:第14页/共82页众数的特点众数是以它在所有变量值中所处的位置确定的一个代表值,它不受分布数列的极大或极小值的影响,从而增强了众数对分布数列的代表性。众数有可能不存在,也可能存在多个;众数缺乏敏感性。第15页/共82页3.1.2 顺序数据-中位数 和分位数 1中位数:概念:排序后处于中间位
9、置上的值MMe e50%50%特点:不受极端值的影响特点:不受极端值的影响 主要用于顺序数据,也可主要用于顺序数据,也可 用数值型数据,用数值型数据,但不能用于分类数据但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即第16页/共82页顺序数据的中位数(例题分析例题分析)解:解:中位数的位置为中位数的位置为 300/2300/2150150 从从累累计计频频数数看看,中中位位数数在在“一一般般”这这一组别中一组别中 中位数为中位数为 Me=一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布
10、甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300第17页/共82页未分组数值型数据的中位数(奇数个数据的算例)n【例】9个家庭的人均月收入数据n原始数据:1500 750 780 1080 850 960 2000 1250 1630n排 序:750 780 850 960 1080 1250 1500 1630 2000n位 置:1 2 3 4 5 6 7 8 9中位数 1080第18页/共82页未
11、分组数值型数据的中位数(偶数个数据的算例)n【例】:10个家庭的人均月收入数据n排 序:660 750 780 850 960 1080 1250 1500 1630 2000n位 置:1 2 3 4 5 6 7 8 9 10 第19页/共82页组距分组数据中组距分组数据中位数的确定方法位数的确定方法 身高身高 fi人数人数 累计累计 (CM)(人)(人)人数人数 150-155 3 3 155-160 11 14 160-165 34 48 165-170 24 72 170以上以上 11 83 总计总计 83 某年级某年级83名女生身高资料名女生身高资料STATSTAT第20页/共82页中
12、位数的计算方法:1、根据未分组数据计算中位数u对于没分组数据,首先要排序,然后根据所在位置确定中位数。第21页/共82页2、由分组资料确定中位数:第22页/共82页例3.2 某车间实行计件工资,2005年10月120名工人的月工资资料如下表所示:要求:试计算月工资的中位数。月工资(元)人数(人)比重(%)由小到大累计次数由大到小累计次数800以下1512.5015120800-10002520.83401051000-1200 4840.0088801200-1400 2016.67108321400-1600 1210.0012012合计120100.00第23页/共82页解:第24页/共8
13、2页2.顺序数据-分位数二分位数(中位数)、四分位数、十分位数和百分位数等。其中主要有四分位数。排位处于 25%和75%位置上的值即 四分位数不受极端值的影响要用于顺序数据,也可用于数值型数据,但不能用于分类数据(各种分位数可由spss计算)QQL LQQMMQQU U25%25%25%25%第25页/共82页四分位数的位置下四分位数上四分位数第26页/共82页例两个学习小组的统计学考试成绩合并如下:要求:(1)计算前15个学生统计学考试成绩的四分位数;(2)如果增加一个学生的成绩为95分,试计算16个学生统计学考试成绩的四分位数。序号12345678成绩(分)5861 64687274757
14、6序号910 111213141516成绩(分)7878 8285868690-第27页/共82页解(1)QL的位置=N+1/4=15+1/4=4,即QL在第4个位置上,相应的变量值68分就是下四分位数。Qu的位置=3(N+1)/4=3(15+1/4=12,即Qu在第12个位置上,相应的变量值85分就是上四分位数。(2)QL的位置,即QL QL在第个位置上,采用分割法,得:QL=X4+0.25x(X5-X4)=68+0.25x(72-68)=69(分)同理,可得(分)第28页/共82页3.1.3 数值型数据-平均数1.平均数(均值)均值(算术平均数)定义:全部变量值均值(算术平均数)定义:全部
15、变量值之和与变量值个数相除所得的商。通常之和与变量值个数相除所得的商。通常也称为平均数(也称为平均数(average)或均值()或均值(mean又有简单算数平均数和加权平均数之分又有简单算数平均数和加权平均数之分STATSTAT平均数的定义平均数的定义-变量值的一般水平。有算术均值、调变量值的一般水平。有算术均值、调 和均值和几何均值。和均值和几何均值。第29页/共82页简单算术平均数与加权算术平均数的计算(simple mean/weighted mean)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(未分组数据)未分组数据)各组的组中值为:各组的组中值为:MM1 1
16、,MM2 2,MMk k (组距分组数据)相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k简单算术均值简单算术均值加权算术均值加权算术均值第30页/共82页未分组资料算术平均数的计算:未分组资料算术平均数的计算:算术平均数算术平均数=某变量值总量某变量值总量变量值总数变量值总数数据个数数据个数 nSTATSTAT简单算术平均数简单算术平均数设有数据:设有数据:第31页/共82页 身高身高 组中值组中值 人数人数 比比重重 (cm)xi(cm)fi(人)(人)(%)160-165 162.5 34 40.96 170以上以上 总计总计 -83 100 分组资料均值的计算:分组
17、资料均值的计算:某年级某年级83名女生身高资料名女生身高资料组距数据组距数据次数次数f频率频率f/f变量值变量值xSTATSTAT加权算加权算术平均术平均数数第32页/共82页集中趋势的最常用测度值;一组数据的均衡点所在;易受极端值的影响;各变量值与其均值的离差之和等于零;由组距分组资料计算的均值有近似值性质;用于数值型数据,不能用于分类数据和顺序数据算术平均数(均值)特征:第33页/共82页2.平均数的另一种表现形式:调和平均数 注意:是均值的另一种表现形式 易受极端值的影响计计算公式为原来只是计算时使用了不同的数据!第34页/共82页调和平均数(例题分析)某日三种蔬菜的批发成交数据某日三种
18、蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)Mi(已知)已知)成交额成交额(元元)Mi fi(已知)(已知)成交量成交量(公斤公斤)fi甲甲乙乙丙丙1.200.500.801800012500 64001500025000 8000合计合计3690048000【例例】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,计计算算三三种种蔬蔬菜菜该该日的平均批发价格日的平均批发价格第35页/共82页3.几何平均数(geometric mean)概念:n 个变量值乘积的 n 次方根用途:适用于对比率数据的平均 主要用于计算平均发展速度、平均增长率、平均比率计算
19、公式为:可看作是均值的一种变形可看作是均值的一种变形第36页/共82页几何平均数(例题分析)n 【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。年平均增长率年平均增长率114.91%-1=114.91%-1=14.91%14.91%第37页/共82页3.1.4 众数、中位数和平均数的关系左偏分布左偏分布左偏分布均值均值均值 中位数中位数中位数 众数众数众数对称分布对称分布对称分布 均值均值均值=中位数中位数中位数=众数众数众数右偏分布右偏分布右
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布 特征 描述
限制150内