数据分布特征的测度幻灯片.ppt
《数据分布特征的测度幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据分布特征的测度幻灯片.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分布特征的测度数据分布特征的测度第1页,共81页,编辑于2022年,星期六数据分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)第2页,共81页,编辑于2022年,星期六数据分布特征的测度数据分布特征的测度数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差
2、和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 态态态态态态四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态第3页,共81页,编辑于2022年,星期六集中趋势集中趋势(Central tendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.低层次数据的测度值适用于高层次
3、的测量数据,但高层次数据低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据的测度值并不适用于低层次的测量数据第4页,共81页,编辑于2022年,星期六第第 4 章章 数据分布特征的测度数据分布特征的测度4.1 集中趋势的测度集中趋势的测度 4.2 离散程度的测度离散程度的测度4.3 偏态与峰态的测度偏态与峰态的测度第5页,共81页,编辑于2022年,星期六4.1 集中趋势的测度集中趋势的测度一一.分类数据:众数分类数据:众数二二.顺序数据:中位数和分位数顺序数据:中位数和分位数三三.数值型数据:均值数值型数据:均值四四.众数、中位数和均值的比较众数、中位数
4、和均值的比较第6页,共81页,编辑于2022年,星期六分类数据:众数分类数据:众数第7页,共81页,编辑于2022年,星期六众数众数(mode)1.出现次数最多的变量值2.不受极端值的影响3.一组数据可能没有众数或有几个众数4.主要用于分类数据,也可用于顺序数据和数值型数据第8页,共81页,编辑于2022年,星期六众数众数(不唯一性不唯一性)无众数无众数无众数无众数原始数据原始数据:10 5 9 12 6 8 8一个众数一个众数原始数据原始数据:6 :6 7 7 9 8 9 8 7 77 7多于一个众数多于一个众数多于一个众数多于一个众数原始数据:25 28 2828 28 3131 3636
5、 36 36 4242第9页,共81页,编辑于2022年,星期六分类数据的众数分类数据的众数 (例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100解解解解:这这里里的的变变量量为为“饮饮料料品品牌牌”,这这是是个个分分类类变变量量,不不同同类类型的饮料就是变量值型的饮料就是变量值 在在所所调调查查的的5050人人
6、中中,购购买买可可口口可可乐乐的的人人数数最最多多,为为1515人人,占占总总被被调调查查人人数数的的30%30%,因因此此众众数数为为“可可口口可可乐乐”这这一一品品牌,即牌,即 MMo o可口可乐可口可乐可口可乐可口可乐第10页,共81页,编辑于2022年,星期六顺序数据的众数顺序数据的众数 (例题分析例题分析)解解解解:这这里里的的数数据据为为顺顺序序数数据据。变变量量为为“回回答类别答类别”甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这这一一类类别,即别,即 MMo o不满意不满意不满意不满意甲城市家庭
7、对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510合计合计300100.0返回返回第11页,共81页,编辑于2022年,星期六顺序数据:中位数和分位数顺序数据:中位数和分位数第12页,共81页,编辑于2022年,星期六中位数中位数(median)1.1.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%2.2.不受极端值的影
8、响不受极端值的影响3.3.主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用于分类数据于分类数据4.4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即第13页,共81页,编辑于2022年,星期六中位数中位数(位置的确定位置的确定)原始数据:原始数据:原始数据:原始数据:顺序数据:顺序数据:顺序数据:顺序数据:第14页,共81页,编辑于2022年,星期六顺序数据的中位数顺序数据的中位数 (例题分析例题分析)解解解解:中中 位位 数数 的的 位位 置置 为为 300/2300/2150150 从从累累计计频频数数看看,中中位位
9、数数在在“一一般般”这这一一组组别中。因此别中。因此 MMe=一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第15页,共81页,编辑于2022年,星期六数值型数据的中位数数值型数据的中位数(9个数据的算例个数据的算例)【例例】:9 9个家庭的人均月收入数据原始数据原始数据原始数据原始数据:15
10、00 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序:750 780 850 960 750 780 850 960 10801080 1250 1500 1630 2000 1250 1500 1630 2000位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数 1080第16页,共81页,编辑于2022年,星期六数值型数据的中位数数值型数据的中位数(10个数据的算例个数据的算例)【例例例例】:10个家庭的人均月收入数据
11、个家庭的人均月收入数据排排排排 序序序序:660660 750 780 850 750 780 850 960 1080960 1080 1250 1500 1630 2000 1250 1500 1630 2000位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 6 7 8 9 10 7 8 9 10 第17页,共81页,编辑于2022年,星期六四分位数四分位数(quartile)1.1.排序后处于排序后处于25%和和75%75%位置上的值位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%第18页,共8
12、1页,编辑于2022年,星期六四分位数位置的确定四分位数位置的确定(原理:原理:P81P82)原始数据:原始数据:顺序数据:顺序数据:顺序数据:顺序数据:第19页,共81页,编辑于2022年,星期六顺序数据的四分位数顺序数据的四分位数 (例题分析例题分析)解:解:解:解:Q QL L位置位置=(300)/4 (300)/4=7575 Q QU U位置位置 =(3300)/4(3300)/4 =225225 从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“一般一般”这一组别中。因此这一组别中。因此 Q QL L =不满意不满意不满意不满意 Q Q
13、U U =一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第20页,共81页,编辑于2022年,星期六数值型数据的四分位数数值型数据的四分位数【例例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000
14、 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序:750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置:1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9第21页,共81页,编辑于2022年,星期六数值型数据:均值数值型数据:均值第22页,共81页,编辑于2022年,星期六均值均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值
15、的影响5.用于数值型数据,不能用于分类数据和顺序数据第23页,共81页,编辑于2022年,星期六简单均值与加权均值简单均值与加权均值(simple mean/weighted mean)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n各组的组中值为:各组的组中值为:MM1 1,MM2 2,MMk k 相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k简单均值简单均值简单均值简单均值加权均值加权均值加权均值加权均值第24页,共81页,编辑于2022年,星期六已改至此!已改至此!某电脑公司销售量数据分组表某电脑公司销售量数据分组表某电脑公司销售量数据分组表某电
16、脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计合计12022200加权均值加权均值 (例题分析例题分析)第25页,共81页,编辑于2022年,星期六加权均值加权均值(权数对均值的影响权数对均值的影响)甲乙两组各有甲乙两组各有1010名学生,他们的考试成绩及其分布
17、数据如下名学生,他们的考试成绩及其分布数据如下 甲组:甲组:甲组:甲组:考试成绩(考试成绩(考试成绩(考试成绩(x x):0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(f f):):):):1 1 81 1 8 乙组:乙组:乙组:乙组:考试成绩(考试成绩(考试成绩(考试成绩(x x):0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(f f):):):):8 1 18 1 1第26页,共81页,编辑于2022年,星期六均值均值(重点:数学性质重点:数学性质)1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小第27页,共
18、81页,编辑于2022年,星期六调和平均数调和平均数(harmonic mean)1.均值的另一种表现形式2.易受极端值的影响3.计算公式为第28页,共81页,编辑于2022年,星期六调和平均数调和平均数 (例题分析例题分析)【例例例例】某某集集贸贸市市场场白白菜菜的的价价格格,早早市市每每斤斤1 1元元,午午市市每每斤斤0.950.95元元,晚晚市每斤市每斤0.80.8元,若早中晚各买一元钱,其平均价格多少元?元,若早中晚各买一元钱,其平均价格多少元?【例】如早中晚各买3元、2元、1元,则其平均价格为多少元?第29页,共81页,编辑于2022年,星期六几何平均数几何平均数(geometric
19、 mean)1.1.n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2.2.适用于对比率数据的平均适用于对比率数据的平均3.3.主要用于计算平均增长率主要用于计算平均增长率4.4.计算公式为计算公式为5.5.可看作是均值的一种变形可看作是均值的一种变形第30页,共81页,编辑于2022年,星期六几何平均数几何平均数 (例题分析例题分析)【例例例例】某某水水泥泥生生产产企企业业20072007年年的的水水泥泥产产量量为为100100万万吨吨,20082008年年与与20072007年年相相比比增增长长率率为为9%9%,20092009年年与与20082008年年相相比比增增长长率率为为
20、16%16%,20102010年年与与20092009年年相相比比增增长长率率为为20%20%。求各年的年平均增长率。求各年的年平均增长率。年平均增长率年平均增长率114.91%-1=114.91%-1=14.91%14.91%第31页,共81页,编辑于2022年,星期六几何平均数几何平均数 (例题分析例题分析)【例例例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在20072007、20082008、20092009和和20102010年年收收益益率率分分别别为为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计算该投资者在这四年内的平均收益率。计算该投
21、资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均:几何平均:几何平均:几何平均:几何平均:返回第32页,共81页,编辑于2022年,星期六众数、中位数和均值的比较众数、中位数和均值的比较第33页,共81页,编辑于2022年,星期六众数、中位数和均值的关系众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分
22、布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值第34页,共81页,编辑于2022年,星期六众数、中位数和均值的众数、中位数和均值的特点和应用特点和应用1.1.众数众数n n不受极端值影响不受极端值影响n n具有不唯一性具有不唯一性n n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.2.中位数中位数n n不受极端值影响不受极端值影响n n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.3.均值均值n n易受极端值影响易受极端值影响n n数学性质优良数学性质优良n n数据对称分布或接近对称分布时应用数据对称分布或接近对称分
23、布时应用第35页,共81页,编辑于2022年,星期六数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据间隔数据间隔数据比率数据比率数据适适用用的的测测度度值值众数众数众数众数中位数中位数中位数中位数均值均值均值均值均值均值均值均值四分位数四分位数四分位数四分位数众数众数众数众数调和平均数调和平均数调和平均数调和平均数众数众数众数众数中位数中位数中位数中位数几何平均数几何平均数几何平均数几何平均数四分位数四分位数四分位数四
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布 特征 测度 幻灯片
限制150内