第4章-数据分布特征的度量ppt课件(全).ppt
-
资源ID:77373696
资源大小:718.54KB
全文页数:71页
- 资源格式: PPT
下载积分:12金币
快捷下载
![游客一键下载](/images/hot.gif)
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
第4章-数据分布特征的度量ppt课件(全).ppt
4.1 4.1 集中趋势的度量集中趋势的度量 4.2 4.2 离散程度的度量离散程度的度量4.3 4.3 偏态与峰态的度量偏态与峰态的度量第第4章章 数据分布特征的度量数据分布特征的度量 学习目标学习目标1.1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法2.2.集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合3.3.离散程度各测度值的计算方法离散程度各测度值的计算方法4.4.离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合5.5.偏态与峰态的测度方法偏态与峰态的测度方法6.6.用用ExcelExcel计算描述统计量并进行分析计算描述统计量并进行分析数据分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势(分散程度分散程度分散程度分散程度)4.1 4.1 集中趋势的度量集中趋势的度量4.1.1 4.1.1 众数众数4.1.2 4.1.2 中位数和分位数中位数和分位数4.1.3 4.1.3 平均数平均数4.1.4 4.1.4 众数、中位数和平均数的比较众数、中位数和平均数的比较集中趋势集中趋势1.1.一一一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.低层次数据的测度值适用于高层次的测量数据,但低层次数据的测度值适用于高层次的测量数据,但低层次数据的测度值适用于高层次的测量数据,但低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据高层次数据的测度值并不适用于低层次的测量数据高层次数据的测度值并不适用于低层次的测量数据高层次数据的测度值并不适用于低层次的测量数据众数众数(mode)(mode)1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.适合于数据量较多时使用适合于数据量较多时使用3.不受极端值的影响不受极端值的影响4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和主要用于分类数据,也可用于顺序数据和数值型数据数值型数据众数众数(不惟一性不惟一性)无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数一个众数一个众数原始数据原始数据:6 :6 5 5 5 5 9 8 9 8 5 55 55 55 5多于一个众数多于一个众数多于一个众数多于一个众数原始数据原始数据:25 :25 28 28 28 28 36 36 42 4242 42分类数据的众数分类数据的众数(例题分析例题分析)解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“饮饮饮饮料料料料品品品品牌牌牌牌”,这这这这是是是是个个个个分分分分类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就是变量值就是变量值就是变量值就是变量值 所所所所调调调调查查查查的的的的100100人人人人中中中中,购购购购买买买买可可可可口口口口可可可可乐乐乐乐的的的的人人人人数数数数最最最最多多多多,为为为为3535人人人人,占占占占被被被被调调调调查查查查总总总总人人人人数数数数的的的的35%35%,因因因因此此此此众众众众数数数数为为为为“可可可可口口口口可可可可乐乐乐乐”这这这这一一一一品牌,即品牌,即品牌,即品牌,即 MMo o可口可乐可口可乐可口可乐可口可乐不同不同饮饮料品牌的料品牌的频频数分布数分布饮饮料品牌料品牌频频数数汇汇源果汁源果汁百事可百事可乐乐可口可可口可乐乐娃哈哈娃哈哈15203530合合计计100顺序数据的众数顺序数据的众数(例题分析例题分析)解解解解:这这这这里里里里的的的的数数数数据据据据为为为为顺顺顺顺序序序序数数数数据据据据。变变变变量量量量为为为为“回回回回答类别答类别答类别答类别”甲甲甲甲城城城城市市市市中中中中对对对对住住住住房房房房表表表表示示示示不不不不满满满满意意意意的的的的户户户户数数数数最最最最多多多多,为为为为108108户户户户,因因因因此此此此众众众众数数数数为为为为“不不不不满满满满意意意意”这这这这一类别,即一类别,即一类别,即一类别,即 M Mo o不满意不满意不满意不满意甲城市家庭对住房状况评价的频数甲城市家庭对住房状况评价的频数分布分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.01.由众数的定义可知,在单项数列的情形求众由众数的定义可知,在单项数列的情形求众数,只需通过观察,找出频数最多的变量值,数,只需通过观察,找出频数最多的变量值,则该变量值即为众数。则该变量值即为众数。2.在组距数列的条件下,则要先确定众数所在在组距数列的条件下,则要先确定众数所在组,然后按下面的近似公式计算。组,然后按下面的近似公式计算。数值型数据的众数数值型数据的众数数值型数据的众数数值型数据的众数(例题分析例题分析)某企业职工月工资资料表职职工月工工月工资资(元)(元)职职工人数(人)工人数(人)8001000101000120020120014005014001600301600180010合合计计120解:解:确定众数组。由于12001400组频数最多,故该组即为众数组。根据近似公式计算众数值。中位数中位数(median)(median)1.按大小排序后处于中间位置上的值按大小排序后处于中间位置上的值MMe e50%50%2.2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.3.主要用于顺序数据,也可用数值型数据,但不能用于主要用于顺序数据,也可用数值型数据,但不能用于主要用于顺序数据,也可用数值型数据,但不能用于主要用于顺序数据,也可用数值型数据,但不能用于分类数据分类数据分类数据分类数据4.4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即中位数中位数(位置和数值的确定位置和数值的确定)位置确定位置确定位置确定位置确定数值确定数值确定数值确定数值确定顺序数据的中位数顺序数据的中位数(例题分析例题分析)解:中位数的位置为解:中位数的位置为解:中位数的位置为解:中位数的位置为 (300+1)/2 (300+1)/2150.5150.5 从从从从累累累累计计计计频频频频数数数数看看看看,中中中中位位位位数数数数在在在在“一一一一般般般般”这这这这一组别中一组别中一组别中一组别中 中位数为中位数为中位数为中位数为 Me=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据的中位数数值型数据的中位数(9(9个数据的算例个数据的算例)【例】【例】9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数中位数中位数 1080 1080 1080 1080数值型数据的中位数数值型数据的中位数(10(10个数据的算例个数据的算例)【例】:【例】:1010个家庭的人均月收入数据个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 数值型数据的中位数数值型数据的中位数(分组数据的算例分组数据的算例)身高(身高(cm)人数(人)人数(人)某班某班级级学生身高学生身高资资料表料表身高(身高(cm)人数人数(人)(人)人数累人数累积积向上累向上累积积向下累向下累积积16016517017518018524563126111720212119151041合合计计21解解:确定中位数位次:确定中位数组:按人数向上累积(或向下累积)知,中位数在第三组。确定中位数:中位数组只有唯一的变量值170cm,故它就是所求的中位数。数值型数据的中位数数值型数据的中位数(组距数列组距数列)在组距数列的情况下,确定中位数组后,由于这时中位在组距数列的情况下,确定中位数组后,由于这时中位数组是一区间,可用下面的近似公式计算中位数:数组是一区间,可用下面的近似公式计算中位数:数值型数据的中位数数值型数据的中位数(分组数据的算例分组数据的算例)某企某企业职业职工月工工月工资资资资料料职职工月工工月工资资(元)(元)职职工人数工人数(人)(人)向上累向上累积积8001000101010001200203012001400508014001600301101600180010120合合计计120确定中位数位次。确定中位数组。从向上累积栏中,找出首个大于等于中位数位次60的组,该组即为中位数组,因此中位数组为12001400元。按近似公式计算中位数值。四分位数四分位数(quartile)(quartile)1.1.排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.主主主主要要要要用用用用于于于于顺顺顺顺序序序序数数数数据据据据,也也也也可可可可用用用用于于于于数数数数值值值值型型型型数数数数据据据据,但不能用于分类数据但不能用于分类数据但不能用于分类数据但不能用于分类数据QQ1 1QQ2 2QQ3 325%25%25%25%四分位数四分位数(位置的确定及计算位置的确定及计算)的位次的位次=,的位次的位次=第第i i个四分位数可按如下近似公式计算:个四分位数可按如下近似公式计算:顺序数据的四分位数顺序数据的四分位数(例题分析例题分析)解:解:解:解:Q Q1 1位置位置位置位置=(300)/4 (300)/4=7575 Q Q3 3位置位置位置位置 =(3300)/4(3300)/4 =225225 从从从从累累累累计计计计频频频频数数数数看看看看,Q Q1 1在在在在“不不不不满意满意满意满意”这一组别中;这一组别中;这一组别中;这一组别中;Q Q3 3在在在在“一般一般一般一般”这一组别中这一组别中这一组别中这一组别中 四分位数为四分位数为四分位数为四分位数为 Q Q1 1 =不满意不满意不满意不满意 QQ3 3 =一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据的四分位数数值型数据的四分位数(9(9个数据的算例个数据的算例)【例】:【例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9数值型数据:平均数(简单平均数)数值型数据:平均数(简单平均数)设一组数据为:设一组数据为:设一组数据为:设一组数据为:x x x x1 1 1 1,x x x x2 2 2 2,x x x xn n n n(总体数据总体数据总体数据总体数据x x x xN N N N)样本平均数样本平均数样本平均数样本平均数总体平均数总体平均数总体平均数总体平均数设各组的组中值为:设各组的组中值为:设各组的组中值为:设各组的组中值为:x x1 1,x x2 2,x xk k 相应的频数为:相应的频数为:相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k样本加权平均样本加权平均样本加权平均样本加权平均总体加权平均总体加权平均总体加权平均总体加权平均数值型数据:平均数(加权平均数)数值型数据:平均数(加权平均数)加权平均数加权平均数(例题分析例题分析)某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)xi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200加权平均数加权平均数(权数对均值的影响权数对均值的影响)甲乙两组各有甲乙两组各有1010名学生,考试成绩及其分布数据如下名学生,考试成绩及其分布数据如下:甲组:甲组:考试成绩(考试成绩(x):0 20 100 人数分布(人数分布(f):):1 1 8 乙组:乙组:考试成绩(考试成绩(x):0 20 100 人数分布(人数分布(f):):8 1 1平均数平均数(数学性质数学性质)1.各变量值与平均数的离差之和等于零 2.各变量值与平均数的离差平方和最小中位数和平均数数学性质的验证中位数和平均数数学性质的验证几何平均数几何平均数(geometric mean)(geometric mean)1.n 个变量值乘积的个变量值乘积的 n 次方根次方根2.适用于对比率数据的平均适用于对比率数据的平均3.主要用于计算平均增长率主要用于计算平均增长率4.计算公式为计算公式为5.5.可看作是平均数的一种变形可看作是平均数的一种变形可看作是平均数的一种变形可看作是平均数的一种变形几何平均数几何平均数(例题分析例题分析)【例】某某水水泥泥生生产产企企业业19991999年年的的水水泥泥产产量量为为100100万万吨吨,20002000年年与与19991999年年相相比比增增长长率率为为9%9%,20012001年年与与20002000年年相相比比增增长长率率为为16%16%,20022002年年与与20012001年年相相比比增长率为增长率为20%20%。求各年的年平均增长率。求各年的年平均增长率年平均增长率年平均增长率114.91%-1=14.91%114.91%-1=14.91%几何平均数几何平均数(例题分析例题分析)【例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在20002000、20012001、20022002和和20032003年年收收益益率率分分别别为为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均:几何平均:几何平均:几何平均:几何平均:众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数 均值均值均值均值均值均值众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.众数众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用2.中位数中位数不受极端值影响数据分布偏斜程度较大时应用3.平均数平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类数据类型型分类数据分类数据 顺序数据顺序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数平均数平均数平均数平均数四分位数四分位数众数众数几何平均数几何平均数众数众数中位数中位数 中位数中位数四分位数四分位数四分位数四分位数众数众数4.2 4.2 离散程度的度量离散程度的度量4.2.1 分类数据:异众比率分类数据:异众比率4.2.2 顺序数据:四分位差顺序数据:四分位差4.2.3 数值型数据:方差和标准差数值型数据:方差和标准差4.2.4 相对离散程度:离散系数相对离散程度:离散系数离中趋势离中趋势1.1.数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征2.2.反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度(离散程度离散程度离散程度离散程度)3.3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值异众比率异众比率1.1.对分类数据离散程度的测度对分类数据离散程度的测度2.2.非众数组的频数占总频数的比例非众数组的频数占总频数的比例3.3.计算公式为计算公式为 4.4.4.4.用于衡量众数的代表性用于衡量众数的代表性用于衡量众数的代表性用于衡量众数的代表性异众比率异众比率(例题分析例题分析)解:解:解:解:在在所所调调查查的的5050人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,异异众众比比率率比比较较大大。因因此此,用用“可可口口可可乐乐”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,其代表性不是很好其代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100四分位差四分位差(quartile deviation)(quartile deviation)1.1.对顺序数据离散程度的测度对顺序数据离散程度的测度2.2.也称为内距或四分间距也称为内距或四分间距3.3.上四分位数与下四分位数之差上四分位数与下四分位数之差 Q Qd d=Q Q3 3 Q Q1 14.4.反映了中间反映了中间50%50%数据的离散程度数据的离散程度5.5.不受极端值的影响不受极端值的影响6.6.用于衡量中位数的代表性用于衡量中位数的代表性四分位差四分位差(例题分析例题分析)解解解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2,2,一一般般为为3,3,满满意意为为 4,4,非非常常满满意为意为5 5 。已知已知 Q Q1 1 =不满意不满意 =2 2 Q Q3 3 =一般一般 =3 3四分位差为四分位差为 Q Qd d =Q Q3 3 -Q Q1 1 =3 2 3 2 =1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300极差极差(range)(range)1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.离散程度的最简单测度值离散程度的最简单测度值3.易受极端值影响易受极端值影响4.未考虑数据的分布未考虑数据的分布 R=max(xi)-min(xi)5.计算公式为计算公式为计算公式为计算公式为平均差平均差(mean deviation)(mean deviation)1.各变量值与其平均数离差绝对值的平均数各变量值与其平均数离差绝对值的平均数2.能全面反映一组数据的离散程度能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少数学性质较差,实际中应用较少4.计算公式为计算公式为计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据平均差平均差(例题分析例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计1202040方差和标准差方差和标准差(variance and standard deviation)(variance and standard deviation)1.1.数据离散程度的最常用测度值数据离散程度的最常用测度值2.2.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异3.3.根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准差,记为差,记为 2 2();根据样本数据计算的,称为;根据样本数据计算的,称为样本方差或标准差,记为样本方差或标准差,记为s s2 2(s)(s)样本方差和标准差样本方差和标准差 (simple simple variancevariance and and standard deviationstandard deviation)未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据未分组数据未分组数据未分组数据未分组数据组距分组据数组距分组据数组距分组据数组距分组据数方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除!自由度自由度(degree of freedom)(degree of freedom)1.1.自自由由度度是是指指附附加加给给独独立立的的观观测测值值的的约约束束或或限限制的个数制的个数2.2.从从字字面面涵涵义义来来看看,自自由由度度是是指指一一组组数数据据中中可可以自由取值的个数以自由取值的个数3.3.当当样样本本数数据据的的个个数数为为n n时时,若若样样本本平平均均数数确确定定后后,则则附附加加给给n n个个观观测测值值的的约约束束个个数数就就是是1 1个个,因因此此只只有有n n-1-1个个数数据据可可以以自自由由取取值值,其其中中必必有有一个数据不能自由取值一个数据不能自由取值4.4.按按着着这这一一逻逻辑辑,如如果果对对n n个个观观测测值值附附加加的的约约束束个数为个数为k k个,自由度则为个,自由度则为n n-k k自由度自由度(degree of freedom)(degree of freedom)1.样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值2.为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 3.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量样本标准差样本标准差(例题分析例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计12055400总体方差和标准差总体方差和标准差(Population variance and Standard deviation)未分组数据组距分组数据组距分组数据未分组数据未分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式数据分布数量的估计数据分布数量的估计(经验法则)(经验法则)经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时约有约有68%68%的数据在平均数加减的数据在平均数加减1 1个标准差的范个标准差的范围之内围之内约有约有95%95%的数据在平均数加减的数据在平均数加减2 2个标准差的范个标准差的范围之内围之内约有约有99%99%的数据在平均数加减的数据在平均数加减3 3个标准差的范个标准差的范围之内围之内 切比雪夫不等式切比雪夫不等式(Chebyshevs inequality)(Chebyshevs inequality)1.如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”3.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数切比雪夫不等式切比雪夫不等式(Chebyshevs inequality)(Chebyshevs inequality)对于对于k k=2=2,3 3,4 4,该不等式的含义是,该不等式的含义是至少有至少有75%75%的数据落在平均数加减的数据落在平均数加减2 2个标个标准差的范围之内准差的范围之内至少有至少有89%89%的数据落在平均数加减的数据落在平均数加减3 3个标个标准差的范围之内准差的范围之内至少有至少有94%94%的数据落在平均数加减的数据落在平均数加减4 4个标个标准差的范围之内准差的范围之内离散系数离散系数(coefficient of variation)(coefficient of variation)l1.1.标准差与其相应的均值之比标准差与其相应的均值之比l2.2.对数据相对离散程度的测度对数据相对离散程度的测度l3.3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响l4.4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较l5.5.计算公式为计算公式为离散系数离散系数(例题分析例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x212345678170220390430480650950 1000 8.112.518.022.026.540.064.069.0【例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度离散系数离散系数(例题分析例题分析)结结结结论论论论:计计计计算算算算结结结结果果果果表表表表明明明明,v v v v1 1 1 1 0 0为右偏分布为右偏分布5.5.偏态系数偏态系数 0 0为左偏分布为左偏分布6.6.偏偏态态系系数数大大于于1 1或或小小于于-1-1,被被称称为为高高度度偏偏态态分分布布;偏偏态态系系数数在在0.50.51 1或或-0.5-0.5-1-1之之间间,被被认认为为是是中中等等偏偏态态分分布布;偏偏态态系系数数越越接接近近0 0,偏偏斜斜程度就越低程度就越低 峰度系数峰度系数(coefficient of skewness)(coefficient of skewness)2.峰度的判别:按上面公式计算出来的峰度指标,可以峰度的判别:按上面公式计算出来的峰度指标,可以用来判定分布的形态特征。其判别标准为:用来判定分布的形态特征。其判别标准为:1.峰度系数的计算公式:峰度系数的计算公式:峰态峰态(kurtosis)(kurtosis)1.1.统计学家统计学家PearsonPearson于于19051905年首次提出年首次提出2.2.数据分布扁平程度的测度数据分布扁平程度的测度3.3.峰态系数峰态系数=0=0扁平峰度适中扁平峰度适中4.4.峰态系数峰态系数000为尖峰分布为尖峰分布偏态系数和峰态系数偏态系数和峰态系数(例题分析例题分析)某百某百货货公司所属各商店年公司所属各商店年销销售售额额偏度系数和峰度系数偏度系数和峰度系数计计算表算表组中值组中值商店个数商店个数6520130092.29 14890.20-406289.85 11085908.88 7540300011951.84-206596.03 3571160.03 856051003184.90-23204.26 169059.58 95807600589.39 1599.77 4342.22 1054850407759.35 98654.55 1254322.19 11520230010318.78 234383.62 5323856.40 12512150012842.69 420139.56 13744565.50 2802584061537.14 118687.35 35153214.81 偏态系数和峰态系数偏态系数和峰态系数(例题分析例题分析)因因 ,数值不是很大,说明分布略为右偏;数值不是很大,说明分布略为右偏;,数值很小,说明比具有同方差的正态分布略为平坦。数值很小,说明比具有同方差的正态分布略为平坦。用用ExcelExcel计算描述统计量计算描述统计量MODE计算众数计算众数MEDIAN计算中位数计算中位数QUARTILE计算四分位数计算四分位数AVERAGE计算平均数计算平均数HARMEAN计算简单调和平均数计算简单调和平均数GEOMEAN计算几何平均数计算几何平均数AVEDEV计算平均差计算平均差STDEV计算样本标准差计算样本标准差STDEVP计算总体标准差计算总体标准差SKEW计算偏态系数计算偏态系数KURT计算峰态系数计算峰态系数TRIMMEAN计算切尾均值计算切尾均值数据分布特征和描述统计量数据分布特征和描述统计量数据分布特征数据分布特征集中趋势集中趋势离散程度离散程度分布形状分布形状中位数中位数中位数中位数平均数平均数平均数平均数异众比率异众比率异众比率异众比率四分位差四分位差四分位差四分位差极差极差极差极差偏态系数偏态系数偏态系数偏态系数平均差平均差平均差平均差方差或标准差方差或标准差方差或标准差方差或标准差峰态系数峰态系数峰态系数峰态系数众数众数众数众数离散系数离散系数离散系数离散系数本章小结本章小结1.数据水平的概括性度量数据水平的概括性度量2.数据离散程度的概括性度量数据离散程度的概括性度量3.数据分布形状的度量数据分布形状的度量4.用用Excel计算描述统计量计算描述统计量End of Chapter 4