第4章-数据分布特征的度量ppt课件(全).ppt
《第4章-数据分布特征的度量ppt课件(全).ppt》由会员分享,可在线阅读,更多相关《第4章-数据分布特征的度量ppt课件(全).ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、4.1 4.1 集中趋势的度量集中趋势的度量 4.2 4.2 离散程度的度量离散程度的度量4.3 4.3 偏态与峰态的度量偏态与峰态的度量第第4章章 数据分布特征的度量数据分布特征的度量 学习目标学习目标1.1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法2.2.集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合3.3.离散程度各测度值的计算方法离散程度各测度值的计算方法4.4.离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合5.5.偏态与峰态的测度方法偏态与峰态的测度方法6.6.用用ExcelExcel计算描述统计量并进行分析计算描述统计量并进行分析数据
2、分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势(分散程度分散程度分散程度分散程度)4.1 4.1 集中趋势的度量集中趋势的度量4.1.1 4.1.1 众数众数4.1.2 4.1.2 中位数和分位数中位数和分位数4.1.3 4.1.3 平均数平均数4.1.4 4.1.4 众数、中位数和平均数的比较众数、中位数和平均数的比较集中趋势集中趋势1.1.一一一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度组数据向其中心
3、值靠拢的倾向和程度2.2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.低层次数据的测度值适用于高层次的测量数据,但低层次数据的测度值适用于高层次的测量数据,但低层次数据的测度值适用于高层次的测量数据,但低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据高层次数据的测度值
4、并不适用于低层次的测量数据高层次数据的测度值并不适用于低层次的测量数据高层次数据的测度值并不适用于低层次的测量数据众数众数(mode)(mode)1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.适合于数据量较多时使用适合于数据量较多时使用3.不受极端值的影响不受极端值的影响4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和主要用于分类数据,也可用于顺序数据和数值型数据数值型数据众数众数(不惟一性不惟一性)无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数一个众数一个众数原始数据原始数据:6 :6 5 5
5、 5 5 9 8 9 8 5 55 55 55 5多于一个众数多于一个众数多于一个众数多于一个众数原始数据原始数据:25 :25 28 28 28 28 36 36 42 4242 42分类数据的众数分类数据的众数(例题分析例题分析)解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“饮饮饮饮料料料料品品品品牌牌牌牌”,这这这这是是是是个个个个分分分分类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就是变量值就是变量值就是变量值就是变量值 所所所所调调调调查查查查的的的的100100人人人人中中中中,购购购购买买买买可可可可口口口口可可可可乐乐乐乐的的
6、的的人人人人数数数数最最最最多多多多,为为为为3535人人人人,占占占占被被被被调调调调查查查查总总总总人人人人数数数数的的的的35%35%,因因因因此此此此众众众众数数数数为为为为“可可可可口口口口可可可可乐乐乐乐”这这这这一一一一品牌,即品牌,即品牌,即品牌,即 MMo o可口可乐可口可乐可口可乐可口可乐不同不同饮饮料品牌的料品牌的频频数分布数分布饮饮料品牌料品牌频频数数汇汇源果汁源果汁百事可百事可乐乐可口可可口可乐乐娃哈哈娃哈哈15203530合合计计100顺序数据的众数顺序数据的众数(例题分析例题分析)解解解解:这这这这里里里里的的的的数数数数据据据据为为为为顺顺顺顺序序序序数数数数据
7、据据据。变变变变量量量量为为为为“回回回回答类别答类别答类别答类别”甲甲甲甲城城城城市市市市中中中中对对对对住住住住房房房房表表表表示示示示不不不不满满满满意意意意的的的的户户户户数数数数最最最最多多多多,为为为为108108户户户户,因因因因此此此此众众众众数数数数为为为为“不不不不满满满满意意意意”这这这这一类别,即一类别,即一类别,即一类别,即 M Mo o不满意不满意不满意不满意甲城市家庭对住房状况评价的频数甲城市家庭对住房状况评价的频数分布分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 2
8、4108 93 45 30 836311510合计合计300100.01.由众数的定义可知,在单项数列的情形求众由众数的定义可知,在单项数列的情形求众数,只需通过观察,找出频数最多的变量值,数,只需通过观察,找出频数最多的变量值,则该变量值即为众数。则该变量值即为众数。2.在组距数列的条件下,则要先确定众数所在在组距数列的条件下,则要先确定众数所在组,然后按下面的近似公式计算。组,然后按下面的近似公式计算。数值型数据的众数数值型数据的众数数值型数据的众数数值型数据的众数(例题分析例题分析)某企业职工月工资资料表职职工月工工月工资资(元)(元)职职工人数(人)工人数(人)800100010100
9、0120020120014005014001600301600180010合合计计120解:解:确定众数组。由于12001400组频数最多,故该组即为众数组。根据近似公式计算众数值。中位数中位数(median)(median)1.按大小排序后处于中间位置上的值按大小排序后处于中间位置上的值MMe e50%50%2.2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.3.主要用于顺序数据,也可用数值型数据,但不能用于主要用于顺序数据,也可用数值型数据,但不能用于主要用于顺序数据,也可用数值型数据,但不能用于主要用于顺序数据,也可用数值型数据,但不能用于分类数据分类数据分类数据
10、分类数据4.4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即中位数中位数(位置和数值的确定位置和数值的确定)位置确定位置确定位置确定位置确定数值确定数值确定数值确定数值确定顺序数据的中位数顺序数据的中位数(例题分析例题分析)解:中位数的位置为解:中位数的位置为解:中位数的位置为解:中位数的位置为 (300+1)/2 (300+1)/2150.5150.5 从从从从累累累累计计计计频频频频数数数数看看看看,中中中中位位位位数数数数在在在在“一一一一般般般般”这这这这一组别中一组别中
11、一组别中一组别中 中位数为中位数为中位数为中位数为 Me=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据的中位数数值型数据的中位数(9(9个数据的算例个数据的算例)【例】【例】9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780
12、 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数中位数中位数 1080 1080 1080 1080数值型数据的中位数数值型数据的中位数(10(10个数据的算例个数据的算例)【例】:【例】:1010个家庭的人均月收入数据个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 数值型数据的中位数数值型数据的中位数(分组数据的算例分组数据的算例)身高(身高(cm)人数(人)人数(人)某班某班级级学生身高学
13、生身高资资料表料表身高(身高(cm)人数人数(人)(人)人数累人数累积积向上累向上累积积向下累向下累积积16016517017518018524563126111720212119151041合合计计21解解:确定中位数位次:确定中位数组:按人数向上累积(或向下累积)知,中位数在第三组。确定中位数:中位数组只有唯一的变量值170cm,故它就是所求的中位数。数值型数据的中位数数值型数据的中位数(组距数列组距数列)在组距数列的情况下,确定中位数组后,由于这时中位在组距数列的情况下,确定中位数组后,由于这时中位数组是一区间,可用下面的近似公式计算中位数:数组是一区间,可用下面的近似公式计算中位数:数
14、值型数据的中位数数值型数据的中位数(分组数据的算例分组数据的算例)某企某企业职业职工月工工月工资资资资料料职职工月工工月工资资(元)(元)职职工人数工人数(人)(人)向上累向上累积积8001000101010001200203012001400508014001600301101600180010120合合计计120确定中位数位次。确定中位数组。从向上累积栏中,找出首个大于等于中位数位次60的组,该组即为中位数组,因此中位数组为12001400元。按近似公式计算中位数值。四分位数四分位数(quartile)(quartile)1.1.排序后处于排序后处于25%25%和和75%75%位置上的值位
15、置上的值2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.主主主主要要要要用用用用于于于于顺顺顺顺序序序序数数数数据据据据,也也也也可可可可用用用用于于于于数数数数值值值值型型型型数数数数据据据据,但不能用于分类数据但不能用于分类数据但不能用于分类数据但不能用于分类数据QQ1 1QQ2 2QQ3 325%25%25%25%四分位数四分位数(位置的确定及计算位置的确定及计算)的位次的位次=,的位次的位次=第第i i个四分位数可按如下近似公式计算:个四分位数可按如下近似公式计算:顺序数据的四分位数顺序数据的四分位数(例题分析例题分析)解:解:解:解:Q Q1 1位置位置位置位
16、置=(300)/4 (300)/4=7575 Q Q3 3位置位置位置位置 =(3300)/4(3300)/4 =225225 从从从从累累累累计计计计频频频频数数数数看看看看,Q Q1 1在在在在“不不不不满意满意满意满意”这一组别中;这一组别中;这一组别中;这一组别中;Q Q3 3在在在在“一般一般一般一般”这一组别中这一组别中这一组别中这一组别中 四分位数为四分位数为四分位数为四分位数为 Q Q1 1 =不满意不满意不满意不满意 QQ3 3 =一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数
17、 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据的四分位数数值型数据的四分位数(9(9个数据的算例个数据的算例)【例】:【例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9数值型数据:平均数(简单平均数)数值型数据:平均数(简单平均数)设一组数据为
18、:设一组数据为:设一组数据为:设一组数据为:x x x x1 1 1 1,x x x x2 2 2 2,x x x xn n n n(总体数据总体数据总体数据总体数据x x x xN N N N)样本平均数样本平均数样本平均数样本平均数总体平均数总体平均数总体平均数总体平均数设各组的组中值为:设各组的组中值为:设各组的组中值为:设各组的组中值为:x x1 1,x x2 2,x xk k 相应的频数为:相应的频数为:相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k样本加权平均样本加权平均样本加权平均样本加权平均总体加权平均总体加权平均总体加权平均总体加权平均数值型数据:平均数
19、(加权平均数)数值型数据:平均数(加权平均数)加权平均数加权平均数(例题分析例题分析)某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)xi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200加权平均数加权平均数(权数对均值的影响权数对均值的影响)甲乙两组各
20、有甲乙两组各有1010名学生,考试成绩及其分布数据如下名学生,考试成绩及其分布数据如下:甲组:甲组:考试成绩(考试成绩(x):0 20 100 人数分布(人数分布(f):):1 1 8 乙组:乙组:考试成绩(考试成绩(x):0 20 100 人数分布(人数分布(f):):8 1 1平均数平均数(数学性质数学性质)1.各变量值与平均数的离差之和等于零 2.各变量值与平均数的离差平方和最小中位数和平均数数学性质的验证中位数和平均数数学性质的验证几何平均数几何平均数(geometric mean)(geometric mean)1.n 个变量值乘积的个变量值乘积的 n 次方根次方根2.适用于对比率数
21、据的平均适用于对比率数据的平均3.主要用于计算平均增长率主要用于计算平均增长率4.计算公式为计算公式为5.5.可看作是平均数的一种变形可看作是平均数的一种变形可看作是平均数的一种变形可看作是平均数的一种变形几何平均数几何平均数(例题分析例题分析)【例】某某水水泥泥生生产产企企业业19991999年年的的水水泥泥产产量量为为100100万万吨吨,20002000年年与与19991999年年相相比比增增长长率率为为9%9%,20012001年年与与20002000年年相相比比增增长长率率为为16%16%,20022002年年与与20012001年年相相比比增长率为增长率为20%20%。求各年的年平
22、均增长率。求各年的年平均增长率年平均增长率年平均增长率114.91%-1=14.91%114.91%-1=14.91%几何平均数几何平均数(例题分析例题分析)【例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在20002000、20012001、20022002和和20032003年年收收益益率率分分别别为为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均:几何平均:几何平均:几何平均:几何平均:众数、中位数和平均数的关系众数、中位数和平均数的关系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布 特征 度量 ppt 课件
限制150内