第4章数据分布精选文档.ppt
《第4章数据分布精选文档.ppt》由会员分享,可在线阅读,更多相关《第4章数据分布精选文档.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第4章数据分布本讲稿第一页,共九十页第 4 章 数据分布特征的测度4.1 集中趋势的测度集中趋势的测度 4.2 离散程度的测度离散程度的测度4.3 偏态与峰度的测度偏态与峰度的测度本讲稿第二页,共九十页学习目标1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法2.集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合3.离散程度各测度值的计算方法离散程度各测度值的计算方法4.离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合5.偏态与峰态的测度方法偏态与峰态的测度方法6.用用Excel计算描述统计量并进行分析计算描述统计量并进行分析本讲稿第三页,共九十页数据分布的
2、特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)本讲稿第四页,共九十页数据分布特征的测度数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 态态态态态态四分位差四分位差四分位差四分位差四分位差四分位
3、差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态本讲稿第五页,共九十页4.1 集中趋势的测度集中趋势的测度一一.分类数据:众数分类数据:众数二二.顺序数据:中位数和分位数顺序数据:中位数和分位数三三.数值型数据:均值数值型数据:均值四四.众数、中位数和均值的比较众数、中位数和均值的比较本讲稿第六页,共九十页分类数据:众数本讲稿第七页,共九十页众数(mode)1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.适合于数据量较多时使用适合于数据量较多时使用3.不受极端值的影响不受极端值的影响4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个
4、众数5.主要用于分类数据,也可用于顺序数据和主要用于分类数据,也可用于顺序数据和数值型数据数值型数据本讲稿第八页,共九十页众数(不惟一性)n无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 55 5多于一个众数多于一个众数原始数据:25 :25 28 28 36 42 42本讲稿第九页,共九十页分类数据的众数(例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120
5、.183022181218合计合计501100解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“饮饮饮饮料料料料品品品品牌牌牌牌”,这这这这是是是是个个个个分分分分类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就是变量值就是变量值就是变量值就是变量值 所所所所调调调调查查查查的的的的5050人人人人中中中中,购购购购买买买买可可可可口口口口可可可可乐乐乐乐的的的的人人人人数数数数最最最最多多多多,为为为为1515人人人人,占占占占总总总总被被被被调调调调查查查查人人人人数数数数的的的的30%30%,因因因因此此此此众众众众数数数数为为为为“可口可乐
6、可口可乐可口可乐可口可乐”这一品牌,即这一品牌,即这一品牌,即这一品牌,即 MMo o可口可乐可口可乐可口可乐可口可乐本讲稿第十页,共九十页顺序数据的众数(例题分析)解解解解:这这里里的的数数据据为为顺顺序序数数据据。变变量量为为“回回答类别答类别”甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这这一一类类别别,即即 MMo o不满意不满意不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不
7、满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0本讲稿第十一页,共九十页n1一组数据中出现频数最多的变量值称为一组数据中出现频数最多的变量值称为 ()nA众数众数 B中位数中位数 C四分位数四分位数 D平均数平均数n2下列关于众数的叙述中,不正确的是下列关于众数的叙述中,不正确的是 ()nA一组数据可能存在多个众数一组数据可能存在多个众数 B众数主要适用于分众数主要适用于分类数据类数据 nC一组数据的众数是唯一的一组数据的众数是唯一的 D众数不受极端值的影响众数不受极端值的影响n.链接链接数据集中与离散数据集中与离散等距数列众
8、数等距数列众数.shs本讲稿第十二页,共九十页顺序数据:中位数和分位数本讲稿第十三页,共九十页中位数(median)1.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用于分类数据于分类数据于分类数据于分类数据4.4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最
9、小,即各变量值与中位数的离差绝对值之和最小,即本讲稿第十四页,共九十页中位数(位置的确定)原始数据:原始数据:顺序数据:顺序数据:顺序数据:顺序数据:本讲稿第十五页,共九十页顺序数据的中位数(例题分析)解:解:解:解:中位数的位置为中位数的位置为中位数的位置为中位数的位置为 300/2300/2150150 从从从从累累累累计计计计频频频频数数数数看看看看,中中中中位位位位数在数在数在数在“一般一般一般一般”这一组别中这一组别中这一组别中这一组别中 中位数为中位数为中位数为中位数为 MMe=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市
10、户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300本讲稿第十六页,共九十页数值型数据的中位数数值型数据的中位数(9个数据的算例个数据的算例)n【例例】9个家庭的人均月收入数据个家庭的人均月收入数据(n为奇数时)为奇数时)原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数
11、 1080本讲稿第十七页,共九十页数值型数据的中位数(10个数据的算例)【例例】:10个家庭的人均月收入数据(n为偶数时)排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10 本讲稿第十八页,共九十页四分位数(quartile)1.排序后处于排序后处于25%和和75%位置上的值位置上的值2.不受极端值的影响不受极端值的影响3.主主主主要要要要用用用用于于于于顺顺顺顺序序序序数数数数据据据据,也也也也可可可可用用用用于于于于数数数数值值值值型型型型数数数数据据据据,但但但但不不不不能能能能用于分类数据用于
12、分类数据用于分类数据用于分类数据QLQMQU25%25%25%25%本讲稿第十九页,共九十页四分位数(位置的确定)原始数据:原始数据:顺序数据:顺序数据:本讲稿第二十页,共九十页顺序数据的四分位数顺序数据的四分位数(例题分析)解:解:解:解:Q QL L位置位置位置位置=(300)/4 (300)/4=7575 Q QU U位置位置位置位置 =(3300)/4(3300)/4 =225225 从累计频数看,从累计频数看,从累计频数看,从累计频数看,Q QL L在在在在“不不不不满意满意满意满意”这一组别中;这一组别中;这一组别中;这一组别中;Q QU U在在在在“一般一般一般一般”这一组别中这
13、一组别中这一组别中这一组别中 四分位数为四分位数为四分位数为四分位数为 Q QL L =不满意不满意不满意不满意 QQU U =一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300本讲稿第二十一页,共九十页数值型数据的四分位数数值型数据的四分位数(9个数据的算例个数据的算例)【例例】:9个家庭的人均月收入数据(个家庭的人均月收入数据(n为奇数为奇数)原始数
14、据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9本讲稿第二十二页,共九十页数值型数据的四分位数数值型数据的四分位数(10个数据的算例个数据的算例)【例例】:10个家庭的人均月收入数据(个家庭的人均月收入数据(n为偶数)为偶数)排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 本讲稿第二十三页,共九十页3一组数据排序后处于中间位置
15、上的变量值一组数据排序后处于中间位置上的变量值称为称为 (B )A.众数众数 B.中位数中位数 C.四分位数四分位数 D平均数平均数4一组数据排序后处于一组数据排序后处于25和和75位置上位置上的值称为的值称为 (C )nA.众数众数 B.中位数中位数C.四分位数四分位数 D.平均数平均数本讲稿第二十四页,共九十页数值型数据:平均数本讲稿第二十五页,共九十页平均数(mean)1.集中趋势的最常用测度值集中趋势的最常用测度值2.一组数据的均衡点所在一组数据的均衡点所在3.体现了数据的必然性特征体现了数据的必然性特征4.易受极端值的影响(举例)易受极端值的影响(举例)5.用于数值型数据,不能用于分
16、类数据和顺序用于数值型数据,不能用于分类数据和顺序数据数据本讲稿第二十六页,共九十页简单均值(Simple mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(xN N)样本均值样本均值总体均值总体均值本讲稿第二十七页,共九十页加权均值(Weighted mean)设各组的组中值为:设各组的组中值为:设各组的组中值为:设各组的组中值为:MM1 1,M2 2,Mk k (mid-valuemid-value)相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k(frequencyfrequency)样本加权均值样本加权均值总
17、体加权均值总体加权均值本讲稿第二十八页,共九十页已改至此!已改至此!某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200加权平均数加权平均数(例题分析例题分析)本讲稿第二十九页,共九十页加权平均数(权数对
18、均值的影响)n 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下n 甲组:甲组:考试成绩(考试成绩(x):0 20 100n 人数分布(人数分布(f):):1 1 8n 乙组:乙组:考试成绩(考试成绩(x):0 20 100n 人数分布(人数分布(f):):8 1 1本讲稿第三十页,共九十页几何平均数(geometric mean)1.n 个变量值乘积的个变量值乘积的 n 次方根次方根2.适用于对比率数据的平均适用于对比率数据的平均3.主要用于计算平均增长率主要用于计算平均增长率4.计算公式为计算公式为本讲稿第三十一页,共九十页几何平均数(例题分析)【例例】一一位位投投资资者者购购持持有
19、有一一种种股股票票,在在2000、2001、2002和和2003年年收收益益率率分分别别为为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均:几何平均:几何平均:几何平均:几何平均:本讲稿第三十二页,共九十页.链接数据集中与离散调和平均.shs本讲稿第三十三页,共九十页1.n个变量值乘积的个变量值乘积的n次方根称为次方根称为 ()nA众数众数 B中位数中位数nC四分位数四分位数 D几何平均数几何平均数本讲稿第三十四页,共九十页众数、中位数和平均数的比较本讲稿第三十五页,共九十页众数、中位数和
20、平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值本讲稿第三十六页,共九十页众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.众数众数n不受极端值影响不受极端值影响n具有不惟一性具有不惟一性n数据分布偏斜程度较大
21、时应用数据分布偏斜程度较大时应用2.中位数中位数n不受极端值影响不受极端值影响n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.平均数平均数n易受极端值影响易受极端值影响n数学性质优良数学性质优良n数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用本讲稿第三十七页,共九十页数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据间隔数据间隔数据比率数据比率数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数
22、几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数本讲稿第三十八页,共九十页4.2 离散程度的度量离散程度的度量4.2.1 分类数据:异众比率分类数据:异众比率4.2.2 顺序数据:四分位差顺序数据:四分位差4.2.3 数值型数据:方差和标准差数值型数据:方差和标准差4.2.4 相对位置的度量:标准分数相对位置的度量:标准分数4.2.5 相对离散程度:离散系数相对离散程度:离散系数本讲稿第三十九页,共九十页离中趋势1.1.数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其
23、中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值本讲稿第四十页,共九十页分类数据:异众比率本讲稿第四十一页,共九十页异众比率(variation ratio)n1.对分类数据离散程度的测度对分类数据离散程度的测度n2.非
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布 精选 文档
限制150内