第4章数据分布精选文档.ppt
第4章数据分布本讲稿第一页,共九十页第 4 章 数据分布特征的测度4.1 集中趋势的测度集中趋势的测度 4.2 离散程度的测度离散程度的测度4.3 偏态与峰度的测度偏态与峰度的测度本讲稿第二页,共九十页学习目标1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法2.集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合3.离散程度各测度值的计算方法离散程度各测度值的计算方法4.离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合5.偏态与峰态的测度方法偏态与峰态的测度方法6.用用Excel计算描述统计量并进行分析计算描述统计量并进行分析本讲稿第三页,共九十页数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)本讲稿第四页,共九十页数据分布特征的测度数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 态态态态态态四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态本讲稿第五页,共九十页4.1 集中趋势的测度集中趋势的测度一一.分类数据:众数分类数据:众数二二.顺序数据:中位数和分位数顺序数据:中位数和分位数三三.数值型数据:均值数值型数据:均值四四.众数、中位数和均值的比较众数、中位数和均值的比较本讲稿第六页,共九十页分类数据:众数本讲稿第七页,共九十页众数(mode)1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.适合于数据量较多时使用适合于数据量较多时使用3.不受极端值的影响不受极端值的影响4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和主要用于分类数据,也可用于顺序数据和数值型数据数值型数据本讲稿第八页,共九十页众数(不惟一性)n无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 55 5多于一个众数多于一个众数原始数据:25 :25 28 28 36 42 42本讲稿第九页,共九十页分类数据的众数(例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“饮饮饮饮料料料料品品品品牌牌牌牌”,这这这这是是是是个个个个分分分分类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就是变量值就是变量值就是变量值就是变量值 所所所所调调调调查查查查的的的的5050人人人人中中中中,购购购购买买买买可可可可口口口口可可可可乐乐乐乐的的的的人人人人数数数数最最最最多多多多,为为为为1515人人人人,占占占占总总总总被被被被调调调调查查查查人人人人数数数数的的的的30%30%,因因因因此此此此众众众众数数数数为为为为“可口可乐可口可乐可口可乐可口可乐”这一品牌,即这一品牌,即这一品牌,即这一品牌,即 MMo o可口可乐可口可乐可口可乐可口可乐本讲稿第十页,共九十页顺序数据的众数(例题分析)解解解解:这这里里的的数数据据为为顺顺序序数数据据。变变量量为为“回回答类别答类别”甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这这一一类类别别,即即 MMo o不满意不满意不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0本讲稿第十一页,共九十页n1一组数据中出现频数最多的变量值称为一组数据中出现频数最多的变量值称为 ()nA众数众数 B中位数中位数 C四分位数四分位数 D平均数平均数n2下列关于众数的叙述中,不正确的是下列关于众数的叙述中,不正确的是 ()nA一组数据可能存在多个众数一组数据可能存在多个众数 B众数主要适用于分众数主要适用于分类数据类数据 nC一组数据的众数是唯一的一组数据的众数是唯一的 D众数不受极端值的影响众数不受极端值的影响n.链接链接数据集中与离散数据集中与离散等距数列众数等距数列众数.shs本讲稿第十二页,共九十页顺序数据:中位数和分位数本讲稿第十三页,共九十页中位数(median)1.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用于分类数据于分类数据于分类数据于分类数据4.4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即本讲稿第十四页,共九十页中位数(位置的确定)原始数据:原始数据:顺序数据:顺序数据:顺序数据:顺序数据:本讲稿第十五页,共九十页顺序数据的中位数(例题分析)解:解:解:解:中位数的位置为中位数的位置为中位数的位置为中位数的位置为 300/2300/2150150 从从从从累累累累计计计计频频频频数数数数看看看看,中中中中位位位位数在数在数在数在“一般一般一般一般”这一组别中这一组别中这一组别中这一组别中 中位数为中位数为中位数为中位数为 MMe=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300本讲稿第十六页,共九十页数值型数据的中位数数值型数据的中位数(9个数据的算例个数据的算例)n【例例】9个家庭的人均月收入数据个家庭的人均月收入数据(n为奇数时)为奇数时)原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数 1080本讲稿第十七页,共九十页数值型数据的中位数(10个数据的算例)【例例】:10个家庭的人均月收入数据(n为偶数时)排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10 本讲稿第十八页,共九十页四分位数(quartile)1.排序后处于排序后处于25%和和75%位置上的值位置上的值2.不受极端值的影响不受极端值的影响3.主主主主要要要要用用用用于于于于顺顺顺顺序序序序数数数数据据据据,也也也也可可可可用用用用于于于于数数数数值值值值型型型型数数数数据据据据,但但但但不不不不能能能能用于分类数据用于分类数据用于分类数据用于分类数据QLQMQU25%25%25%25%本讲稿第十九页,共九十页四分位数(位置的确定)原始数据:原始数据:顺序数据:顺序数据:本讲稿第二十页,共九十页顺序数据的四分位数顺序数据的四分位数(例题分析)解:解:解:解:Q QL L位置位置位置位置=(300)/4 (300)/4=7575 Q QU U位置位置位置位置 =(3300)/4(3300)/4 =225225 从累计频数看,从累计频数看,从累计频数看,从累计频数看,Q QL L在在在在“不不不不满意满意满意满意”这一组别中;这一组别中;这一组别中;这一组别中;Q QU U在在在在“一般一般一般一般”这一组别中这一组别中这一组别中这一组别中 四分位数为四分位数为四分位数为四分位数为 Q QL L =不满意不满意不满意不满意 QQU U =一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300本讲稿第二十一页,共九十页数值型数据的四分位数数值型数据的四分位数(9个数据的算例个数据的算例)【例例】:9个家庭的人均月收入数据(个家庭的人均月收入数据(n为奇数为奇数)原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9本讲稿第二十二页,共九十页数值型数据的四分位数数值型数据的四分位数(10个数据的算例个数据的算例)【例例】:10个家庭的人均月收入数据(个家庭的人均月收入数据(n为偶数)为偶数)排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 本讲稿第二十三页,共九十页3一组数据排序后处于中间位置上的变量值一组数据排序后处于中间位置上的变量值称为称为 (B )A.众数众数 B.中位数中位数 C.四分位数四分位数 D平均数平均数4一组数据排序后处于一组数据排序后处于25和和75位置上位置上的值称为的值称为 (C )nA.众数众数 B.中位数中位数C.四分位数四分位数 D.平均数平均数本讲稿第二十四页,共九十页数值型数据:平均数本讲稿第二十五页,共九十页平均数(mean)1.集中趋势的最常用测度值集中趋势的最常用测度值2.一组数据的均衡点所在一组数据的均衡点所在3.体现了数据的必然性特征体现了数据的必然性特征4.易受极端值的影响(举例)易受极端值的影响(举例)5.用于数值型数据,不能用于分类数据和顺序用于数值型数据,不能用于分类数据和顺序数据数据本讲稿第二十六页,共九十页简单均值(Simple mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(xN N)样本均值样本均值总体均值总体均值本讲稿第二十七页,共九十页加权均值(Weighted mean)设各组的组中值为:设各组的组中值为:设各组的组中值为:设各组的组中值为:MM1 1,M2 2,Mk k (mid-valuemid-value)相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k(frequencyfrequency)样本加权均值样本加权均值总体加权均值总体加权均值本讲稿第二十八页,共九十页已改至此!已改至此!某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200加权平均数加权平均数(例题分析例题分析)本讲稿第二十九页,共九十页加权平均数(权数对均值的影响)n 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下n 甲组:甲组:考试成绩(考试成绩(x):0 20 100n 人数分布(人数分布(f):):1 1 8n 乙组:乙组:考试成绩(考试成绩(x):0 20 100n 人数分布(人数分布(f):):8 1 1本讲稿第三十页,共九十页几何平均数(geometric mean)1.n 个变量值乘积的个变量值乘积的 n 次方根次方根2.适用于对比率数据的平均适用于对比率数据的平均3.主要用于计算平均增长率主要用于计算平均增长率4.计算公式为计算公式为本讲稿第三十一页,共九十页几何平均数(例题分析)【例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在2000、2001、2002和和2003年年收收益益率率分分别别为为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均:几何平均:几何平均:几何平均:几何平均:本讲稿第三十二页,共九十页.链接数据集中与离散调和平均.shs本讲稿第三十三页,共九十页1.n个变量值乘积的个变量值乘积的n次方根称为次方根称为 ()nA众数众数 B中位数中位数nC四分位数四分位数 D几何平均数几何平均数本讲稿第三十四页,共九十页众数、中位数和平均数的比较本讲稿第三十五页,共九十页众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值本讲稿第三十六页,共九十页众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.众数众数n不受极端值影响不受极端值影响n具有不惟一性具有不惟一性n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.中位数中位数n不受极端值影响不受极端值影响n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.平均数平均数n易受极端值影响易受极端值影响n数学性质优良数学性质优良n数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用本讲稿第三十七页,共九十页数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据间隔数据间隔数据比率数据比率数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数本讲稿第三十八页,共九十页4.2 离散程度的度量离散程度的度量4.2.1 分类数据:异众比率分类数据:异众比率4.2.2 顺序数据:四分位差顺序数据:四分位差4.2.3 数值型数据:方差和标准差数值型数据:方差和标准差4.2.4 相对位置的度量:标准分数相对位置的度量:标准分数4.2.5 相对离散程度:离散系数相对离散程度:离散系数本讲稿第三十九页,共九十页离中趋势1.1.数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值本讲稿第四十页,共九十页分类数据:异众比率本讲稿第四十一页,共九十页异众比率(variation ratio)n1.对分类数据离散程度的测度对分类数据离散程度的测度n2.非众数组的频数占总频数的比率非众数组的频数占总频数的比率n3.计算公式为计算公式为 4.用于衡量众数的代表性用于衡量众数的代表性本讲稿第四十二页,共九十页异众比率(例题分析)解:解:解:解:在在在在所所所所调调调调查查查查的的的的5050人人人人当当当当中中中中,购购购购买买买买其其其其他他他他品品品品牌牌牌牌饮饮饮饮料料料料的的的的人人人人数数数数占占占占70%70%,异异异异众众众众比比比比率率率率比比比比较较较较大大大大。因因因因此此此此,用用用用“可可可可口口口口可可可可乐乐乐乐”代代代代表表表表消消消消费费费费者者者者购购购购买买买买饮饮饮饮料料料料品品品品牌牌牌牌的的的的状状状状况况况况,其代表性不是很好其代表性不是很好其代表性不是很好其代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100本讲稿第四十三页,共九十页1.非众数组的频数占总频数的比率称为非众数组的频数占总频数的比率称为 ()nA异众比率异众比率 B离散系数离散系数nC平均差平均差 D标准差标准差本讲稿第四十四页,共九十页顺序数据:四分位差本讲稿第四十五页,共九十页四分位差(例题分析)解解解解:设设设设非非非非常常常常不不不不满满满满意意意意为为为为1,1,不不不不满满满满意意意意为为为为2,2,一一一一般般般般为为为为3,3,满满满满意意意意为为为为 4,4,非非非非常常常常满满满满意意意意为为为为5 5 。已知已知已知已知 Q QL L =不满意不满意不满意不满意 =2 2 Q QU U =一般一般一般一般 =3 3四分位差:四分位差:四分位差:四分位差:Qd Qd=QU QU QLQL =3 2 3 2 =1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300本讲稿第四十六页,共九十页四分位差(quartile deviation)1.对顺序数据离散程度的测度对顺序数据离散程度的测度2.也称为内距或四分间距也称为内距或四分间距3.上四分位数与下四分位数之差上四分位数与下四分位数之差n Qd=QU QL4.反映了中间反映了中间50%数据的离散程度数据的离散程度5.不受极端值的影响不受极端值的影响6.用于衡量中位数的代表性用于衡量中位数的代表性本讲稿第四十七页,共九十页1.四分位差是四分位差是 ()A上四分位数减下四分位数的结果上四分位数减下四分位数的结果 B下四分位数减上四分位数的结果下四分位数减上四分位数的结果C下四分位数加上四分位数下四分位数加上四分位数 D下四分位数与上四分位数的中间值下四分位数与上四分位数的中间值本讲稿第四十八页,共九十页数值型数据:方差和标准差本讲稿第四十九页,共九十页极差(range)1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.离散程度的最简单测度值离散程度的最简单测度值3.易受极端值影响易受极端值影响4.未考虑数据的分布未考虑数据的分布7 8 9 107 8 9 10 R=max(xi)-min(xi)5.计算公式为计算公式为计算公式为计算公式为本讲稿第五十页,共九十页平均差平均差(mean deviation)1.各变量值与其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少数学性质较差,实际中应用较少4.计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据本讲稿第五十一页,共九十页平均差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计1202040本讲稿第五十二页,共九十页平均差(例题分析)含义:含义:每一天的销售量与平均数相比,每一天的销售量与平均数相比,平均相差平均相差17台台本讲稿第五十三页,共九十页方差和标准差方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方准差;根据样本数据计算的,称为样本方差或标准差差或标准差4 6 8 10 12x=8.3本讲稿第五十四页,共九十页样本方差和标准差样本方差和标准差(simple variance and standard deviation)n未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除!本讲稿第五十五页,共九十页样本方差自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的的无偏估计量本讲稿第五十六页,共九十页样本标准差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计12055400本讲稿第五十七页,共九十页样本标准差(例题分析)含义:含义:每一天的销售量与平均数相比,每一天的销售量与平均数相比,平均相差平均相差21.58台台本讲稿第五十八页,共九十页1.各变量值与其平均数离差绝对值的平均数称各变量值与其平均数离差绝对值的平均数称为为 ()nA极差极差 B平均差平均差 C标准差标准差 D四分位差四分位差2.各变量值与其平均数离差平方的平均数称为各变量值与其平均数离差平方的平均数称为 ()n A极差极差 B平均差平均差n C方差方差 D标准差标准差本讲稿第五十九页,共九十页相对位置的测量:标准分数相对位置的测量:标准分数本讲稿第六十页,共九十页标准分数(standard score)n1.也称标准化值也称标准化值n2.对某一个值在一组数据中相对位置的度量对某一个值在一组数据中相对位置的度量n3.可用于判断一组数据是否有离群点可用于判断一组数据是否有离群点n4.用于对变量的标准化处理用于对变量的标准化处理n5.计算公式为计算公式为本讲稿第六十一页,共九十页标准分数(例题分析)9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号人均月收入(元)人均月收入(元)标准化值标准化值 z 1234567891500 750 7801080 850 960200012501630 0.695-1.042-0.973-0.278-0.811-0.556 1.853 0.116 0.996本讲稿第六十二页,共九十页经验法则n经验法则表明经验法则表明:当一组数据对称分布时当一组数据对称分布时n约有约有68%的数据在平均数加减的数据在平均数加减1个标准差的范个标准差的范围之内围之内n约有约有95%的数据在平均数加减的数据在平均数加减2个标准差的个标准差的范围之内范围之内n约有约有99%的数据在平均数加减的数据在平均数加减3个标准差的范个标准差的范围之内围之内 本讲稿第六十三页,共九十页1.变量值与其平均数的离差除以标准差后的值称为变量值与其平均数的离差除以标准差后的值称为()A标准分数标准分数 B离散系数离散系数C方差方差 D标准差标准差2如果一个数据的标准分数是一如果一个数据的标准分数是一2,表明该数据,表明该数据 ()A比平均数高出比平均数高出2个标准差个标准差 B比平均数低比平均数低2个标准差个标准差C等于等于2倍的平均数倍的平均数 D。等于。等于2倍的标准差倍的标准差n 本讲稿第六十四页,共九十页3如果一个数据的标准分数是如果一个数据的标准分数是3,表明该数据,表明该数据 ()A比平均数高出比平均数高出3个标准差个标准差 B比平均数低比平均数低3个标准差个标准差C等于等于3倍的平均数倍的平均数 D等于等于3倍的标准差倍的标准差n 4经验法则表明,当一组数据对称分布时,在平均数加减经验法则表明,当一组数据对称分布时,在平均数加减1个个标准差的范围之内大约有标准差的范围之内大约有 ()A68的数据的数据 B9 5的数据的数据 C99的数据的数据 D100的数据的数据本讲稿第六十五页,共九十页5经验法则表明,当一组数据对称分布时,在平均数加经验法则表明,当一组数据对称分布时,在平均数加减减2个标准差的范围之内大个标准差的范围之内大 约有约有 ()A68的数据的数据 B95的数据的数据 C 99%的数据的数据 D100%的数据的数据6经验法则表明,当一组数据对称分布时,在平均数加减经验法则表明,当一组数据对称分布时,在平均数加减3个标准差的范围之内大约有个标准差的范围之内大约有 ()A68的数据。的数据。B9 5的数据的数据 C99的数据的数据 D100的数据的数据本讲稿第六十六页,共九十页相对离散程度:离散系数相对离散程度:离散系数本讲稿第六十七页,共九十页离散系数(coefficient of variation)1.标准差与其相应的均值之比标准差与其相应的均值之比2.对数据相对离散程度的测度对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5.计算公式为计算公式为本讲稿第六十八页,共九十页离散系数(例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例例例 】某某某某管管管管理理理理局局局局抽抽抽抽查查查查了了了了所所所所属属属属的的的的8 8家家家家企企企企业业业业,其其其其产产产产品品品品销销销销售售售售数数数数据据据据如表。试比较产品销售额与销售利润的离散程度如表。试比较产品销售额与销售利润的离散程度如表。试比较产品销售额与销售利润的离散程度如表。试比较产品销售额与销售利润的离散程度本讲稿第六十九页,共九十页离散系数(例题分析)结结论论:计计算算结结果果表表明明,v1 0为为右偏分布右偏分布n4.偏态系数偏态系数0为为左偏分布左偏分布本讲稿第七十六页,共九十页偏态系数(skewness coefficient)1.根据原始数据计算根据原始数据计算2.根据分组数据计算根据分组数据计算本讲稿第七十七页,共九十页偏态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计合计120540000 70100000 本讲稿第七十八页,共九十页偏态系数(例题分析)结论:结论:结论:结论:偏态系数为正值,但与偏态系数为正值,但与偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明电脑的差异不大,说明电脑的差异不大,说明电脑的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,销售量为轻微右偏分布,即销售量较少的天数占据多数,销售量为轻微右偏分布,即销售量较少的天数占据多数,销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数而销售量较多的天数则占少数而销售量较多的天数则占少数而销售量较多的天数则占少数本讲稿第七十九页,共九十页1.偏态系数测度了数据分布的非对称性程偏态系数测度了数据分布的非对称性程度。如果一组数据的分布是对称的,则度。如果一组数据的分布是对称的,则偏态系数偏态系数 ()A.等于等于0 B.等于等于1 C.大于大于0 D.大于大于1本讲稿第八十页,共九十页偏态与峰态(从直方图上观察)按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组(台台台台台台)结论:结论:结论:结论:1.1.为右偏分布为右偏分布 2.2.峰态适中峰态适中140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230240240本讲稿第八十一页,共九十页峰 态本讲稿第八十二页,共九十页峰态(kurtosis)1.统计学家统计学家Pearson于于1905年首次提出年首次提出2.数据分布扁平程度的测度数据分布扁平程度的测度3.峰态系数峰态系数=0扁平峰度适中扁平峰度适中4.峰态系数峰态系数0为尖峰分为尖峰分布本讲稿第八十三页,共九十页峰态系数(kurtosis coefficient)1.根据原始数据计算根据原始数据计算2.根据分组数据计算根据分组数据计算本讲稿第八十四页,共九十页峰态系数(例题分析)结论:结论:偏态系数为负值,但与偏态系数为负值,但与偏态系数为负值,但与偏态系数为负值,但与0的差异不大,说明电脑的差异不大,说明电脑的差异不大,说明电脑的差异不大,说明电脑销售量为轻微扁平分布销售量为轻微扁平分布销售量为轻微扁平分布销售量为轻微扁平分布本讲稿第八十五页,共九十页1.如果峰态系数尼如果峰态系数尼O,表明该组数据是,表明该组数据是 ()A尖峰分布尖峰分布 B扁平分布扁平分布C左偏分布左偏分布 D右偏分布右偏分布2如果峰态系数忌如果峰态系数忌O,表明该组数据是,表明该组数据是 ()A尖峰分布尖峰分布 B扁平分布扁平分布C左偏分布左偏分布 D右偏分布右偏分布本讲稿第八十六页,共九十页用Excel计算描述统计量本讲稿第八十七页,共九十页用Excel计算描述统计量n将120的销售量的数据输入到Excel工作表中,然后按下列步骤操作:n第第1步:步:选择“工具工具”下拉菜单n第第2步:步:选择“数据分析数据分析”选项n第第3步:步:在分析工具中选择“描述统计描述统计”,然后选择“确定确定”n第第4步:步:当对话框出现时n 在“输入区域输入区域”方框内键入数据区域n 在“输出选项输出选项”中选择输出区域n 选择“汇总统计汇总统计”n 选择“确定确定”n实例计算实例计算本讲稿第八十八页,共九十页本章小节1.数据水平的概括性度量数据水平的概括性度量2.数据离散程度的概括性度量数据离散程度的概括性度量3.数据分布形状的测度数据分布形状的测度4.用用Excel计算描述统计量计算描述统计量.链接链接数据集中与离散数据集中与离散静态指标静态指标shs.链接链接数据集中与离散数据集中与离散计划完成程度计划完成程度.shs本讲稿第八十九页,共九十页结结 束束本讲稿第九十页,共九十页