第4章 数据分布特征的度量课件.ppt
《第4章 数据分布特征的度量课件.ppt》由会员分享,可在线阅读,更多相关《第4章 数据分布特征的度量课件.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、4.1 4.1 集中趋势的度量集中趋势的度量 4.2 4.2 离散程度的度量离散程度的度量4.3 4.3 偏态与峰态的度量偏态与峰态的度量第第4章章 数据分布特征的度量数据分布特征的度量 学习目标学习目标集中趋势各测度值的计算方法集中趋势各测度值的计算方法集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合离散程度各测度值的计算方法离散程度各测度值的计算方法离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合偏态与峰态的测度方法偏态与峰态的测度方法用用ExcelExcel计算描述统计量并进行分析计算描述统计量并进行分析数据分布的特征数据分布的特征4.1 4.1 集中趋势
2、的度量集中趋势的度量4.1.1 4.1.1 众数众数4.1.2 4.1.2 中位数和分位数中位数和分位数4.1.3 4.1.3 平均数平均数4.1.4 4.1.4 众数、中位数和平均数的比较众数、中位数和平均数的比较集中趋势集中趋势众数众数(mode)(mode) 一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值适合于数据量较多时使用适合于数据量较多时使用不受极端值的影响不受极端值的影响一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和主要用于分类数据,也可用于顺序数据和数值型数据数值型数据众数众数( (不惟一性不惟一性) ) 无众
3、数无众数原始数据:10 5 9 12 6 8分类数据的众数分类数据的众数 ( (例题分析例题分析) )不同饮料品牌的频数分布不同饮料品牌的频数分布饮料品牌饮料品牌频数频数汇源果汁汇源果汁百事可乐百事可乐可口可乐可口可乐娃哈哈娃哈哈15203530合计合计100顺序数据的众数顺序数据的众数 ( (例题分析例题分析) )甲城市家庭对住房状况评价的频数甲城市家庭对住房状况评价的频数分布分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0
4、1.由众数的定义可知,在单项数列的情形求众由众数的定义可知,在单项数列的情形求众数,只需通过观察,找出频数最多的变量值,数,只需通过观察,找出频数最多的变量值,则该变量值即为众数。则该变量值即为众数。2.在组距数列的条件下,则要先确定众数所在在组距数列的条件下,则要先确定众数所在组,然后按下面的近似公式计算。组,然后按下面的近似公式计算。数值型数据的众数数值型数据的众数112oMLd 数值型数据的众数数值型数据的众数 ( (例题分析例题分析) )某企业职工月工资资料表职工月工资职工月工资(元)(元)职工人数(人)职工人数(人)8001000101000120020120014005014001
5、600301600180010合计合计120解:解:确定众数组。由于12001400组频数最多,故该组即为众数组。根据近似公式计算众数值。101250 201200200(50 20) (50 30)301200200 1320( )30 20MLd 元中位数中位数(median)(median)按大小排序后处于中间位置上的值按大小排序后处于中间位置上的值e1minniixM中位数中位数( (位置和数值的确定位置和数值的确定) )12n中位数位置1212212nennxnMxxn为奇数为偶数顺序数据的中位数顺序数据的中位数 ( (例题分析例题分析) )甲城市家庭对住房状况评价的频数分布甲城市家
6、庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据的中位数数值型数据的中位数 (9(9个数据的算例个数据的算例) )【例】【例】 9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4
7、5 6 7 8 9191522n位置数值型数据的中位数数值型数据的中位数 (10(10个数据的算例个数据的算例) )【例】:【例】:1010个家庭的人均月收入数据个家庭的人均月收入数据排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 11015.522n位置960108010202中位数数值型数据的中位数数值型数据的中位数 ( (分组数据的算例分组数据的算例) )xf身高(身高( cm)人数(人)人数(人)某班级学生身高资料表某班级学生身高资料表身高身高( cm)人数人数(人)(人)人数
8、累积人数累积向上累积向上累积向下累积向下累积16016517017518018524563126111720212119151041合计合计21解解:确定中位数位次:确定中位数组:按人数向上累积(或向下累积)知,中位数在第三组。确定中位数:中位数组只有唯一的变量值170cm,故它就是所求的中位数。121 11122f数值型数据的中位数数值型数据的中位数 ( (组距数列组距数列) )在组距数列的情况下,确定中位数组后,由于这时中位在组距数列的情况下,确定中位数组后,由于这时中位数组是一区间,可用下面的近似公式计算中位数:数组是一区间,可用下面的近似公式计算中位数:12memfSMLdf数值型数据
9、的中位数数值型数据的中位数 ( (分组数据的算例分组数据的算例) ) 某企业职工月工资资料某企业职工月工资资料职工月工资职工月工资(元)(元)职工人数职工人数(人)(人)向上累积向上累积8001000101010001200203012001400508014001600301101600180010120合计合计120确定中位数位次。确定中位数组。从向上累积栏中,找出首个大于等于中位数位次60的组,该组即为中位数组,因此中位数组为12001400元。按近似公式计算中位数值。1206022f121203021200200501320()memfSMLdf元四分位数四分位数(quartile)(
10、quartile)排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值四分位数四分位数( (位置的确定及计算位置的确定及计算) )1Q14n 3Q3(1)4n的位次的位次=,的位次的位次= 第第i i个四分位数可按如下近似公式计算:个四分位数可按如下近似公式计算: 14(1,2,3)miiiimiifSQLdif顺序数据的四分位数顺序数据的四分位数 ( (例题分析例题分析) )甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意
11、 24108 93 45 30 24132225270300合计合计300数值型数据的四分位数数值型数据的四分位数 (9(9个数据的算例个数据的算例) )【例】:【例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9139 13(9 1)2.57.544QQ位置位置13780 8501500 1630815156522QQ数值型数据:平均数(简单平均数
12、)数值型数据:平均数(简单平均数)121ninixxxxxnn121NiNixxxxNN1 122112kiikkikx fx fx fx fxfffn1 122112kiikkikx fx fx fx ffffN数值型数据:平均数(加权平均数)数值型数据:平均数(加权平均数)122200185120kiiix fxn某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)xi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195
13、205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200加权平均数加权平均数( (权数对均值的影响权数对均值的影响) ) 甲乙两组各有甲乙两组各有1010名学生,考试成绩及其分布数据如下名学生,考试成绩及其分布数据如下: : 甲组:甲组: 考试成绩(考试成绩(x ): 0 20 100 人数分布(人数分布(f ):): 1 1 8 乙组:乙组: 考试成绩(考试成绩(x): 0 20 100 人数分布(人数分布(f ):): 8 1 110 120 1 100 882()10niixx
14、n 甲分10 820 1 100 112()10niixxn 乙分平均数平均数( (数学性质数学性质) )1.各变量值与平均数的离差之和等于零21()minniixx1() 0niixx中位数和平均数数学性质的验证中位数和平均数数学性质的验证几何平均数几何平均数(geometric mean)(geometric mean) n 个变量值乘积的个变量值乘积的 n 次方根次方根适用于对比率数据的平均适用于对比率数据的平均主要用于计算平均增长率主要用于计算平均增长率计算公式为计算公式为121nnnniiGxxxx几何平均数几何平均数 ( (例题分析例题分析) ) 【例】某水泥生产企业某水泥生产企业
15、19991999年的水泥产量为年的水泥产量为100100万万吨,吨,20002000年与年与19991999年相比增长率为年相比增长率为9%9%,20012001年年与与20002000年相比增长率为年相比增长率为16%16%,20022002年与年与20012001年相年相比增长率为比增长率为20%20%。求各年的年平均增长率。求各年的年平均增长率123109%116%120%114.91%nnGxxx几何平均数几何平均数 ( (例题分析例题分析) ) 【例】【例】一位投资者购持有一种股票,在一位投资者购持有一种股票,在20002000、20012001、20022002和和20032003
16、年收益率分别为年收益率分别为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率 4104.5%102.1%125.5%101.9%18.0787%G 4.5%2.1%25.5% 1.9%48.5%G 众数、中位数和平均数的关系众数、中位数和平均数的关系众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用众数众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数中位数不受极端值影响数据分布偏斜程度较大时应用平均数平均数易受极端值影响数学性质优良数据对称分布或接近对称分布
17、时应用数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类数据类型型分类数据分类数据 顺序数据顺序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数平均数平均数平均数平均数四分位数四分位数众数众数几何平均数几何平均数众数众数中位数中位数 中位数中位数四分位数四分位数四分位数四分位数众数众数4.2 4.2 离散程度的度量离散程度的度量4.2.1 分类数据:异众比率分类数据:异众比率4.2.2 顺序数据:四分位差顺序数据:四分位差4.2.3 数值型数据:方差和标准差数值型数据:方差和标准差4.2.4 相
18、对离散程度:离散系数相对离散程度:离散系数离中趋势离中趋势异众比率异众比率1.1.对分类数据离散程度的测度对分类数据离散程度的测度2.2.非众数组的频数占总频数的比例非众数组的频数占总频数的比例3.3.计算公式为计算公式为1immriifffVff 异众比率异众比率 ( (例题分析例题分析) )501550151500.770%rv不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计
19、合计501100四分位差四分位差(quartile deviation)(quartile deviation)对顺序数据离散程度的测度对顺序数据离散程度的测度也称为内距或四分间距也称为内距或四分间距上四分位数与下四分位数之差上四分位数与下四分位数之差 Q Qd d = = Q Q3 3 Q Q1 1反映了中间反映了中间50%50%数据的离散程度数据的离散程度不受极端值的影响不受极端值的影响用于衡量中位数的代表性用于衡量中位数的代表性四分位差四分位差 ( (例题分析例题分析) )甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4章 数据分布特征的度量课件 数据 分布 特征 度量 课件
限制150内