《第四章差异量精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章差异量精选文档.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 差异量差异量本讲稿第一页,共三十三页第四章第四章 差异量差异量本讲稿第二页,共三十三页差异量:描述一组数据的变异程度或离差异量:描述一组数据的变异程度或离散程度的量。散程度的量。n全距、四分位距、百分位距全距、四分位距、百分位距n平均差平均差n方差、标准差方差、标准差n 相对差异量相对差异量本讲稿第三页,共三十三页一、一、全距、四分位距全距、四分位距(一)全距(一)全距(rangerange):又称为极差,用:又称为极差,用R R表示。表示。n计算方法:计算方法:原始数据时:频数分布表时:n特点与应用:特点与应用:易理解,计算简单;但易受极端数值的影响,只能作为差异量的一种粗略指
2、标。本讲稿第四页,共三十三页解决办法:解决办法:n有人提出用中间有人提出用中间50%的数据的距离计算差异量。的数据的距离计算差异量。四分位距四分位距本讲稿第五页,共三十三页(二)四分位距(二)四分位距(quartile range):又名四分位):又名四分位差,指在一组排序的数据中,中间差,指在一组排序的数据中,中间50%的数据的全的数据的全距的一半,通常用距的一半,通常用Q来表示。来表示。1/4 1/23/4 Q1 Q3本讲稿第六页,共三十三页 计算方法计算方法n原始数据:原始数据:Q=(Q3-Q1)/2 Q3表示表示 第三个四分第三个四分位数位数 Q1表示第一个四分表示第一个四分位数位数n
3、频数分布表:频数分布表:本讲稿第七页,共三十三页特点与应用:n与全距相比,较少受极端数值的影响,且能反映中间数值的分布情况,n但由于它也未将全部数据考虑在内,因此也不够可靠,(三)百分位距:两个百分位数之差(三)百分位距:两个百分位数之差本讲稿第八页,共三十三页n五数概括五数概括(箱线图箱线图 boxplot)boxplot)在一幅图里描述平均水平和离散程度在一幅图里描述平均水平和离散程度本讲稿第九页,共三十三页箱图(盒式图箱图(盒式图box plot graph)n从下向上的从下向上的5条线条线分别代表有分别代表有5%,25%,50%,75%,95%的学生的得的学生的得分少于此分数线。分少于
4、此分数线。本讲稿第十页,共三十三页2009年教育部义务教育质量评估中,某小学的年教育部义务教育质量评估中,某小学的语文、数学与所在区水平的比较图语文、数学与所在区水平的比较图本讲稿第十一页,共三十三页箱线图优点箱线图优点n可以表示数据的位置与分布可以表示数据的位置与分布n容易比较多组数据容易比较多组数据本讲稿第十二页,共三十三页本讲稿第十三页,共三十三页二、平均差二、平均差n计算方法原始数据计算法频数分布表计算法n优缺点本讲稿第十四页,共三十三页n方差(variance):离差平方的算术平均数。n标准差(standarddeviation):方差的正的平方根。三、方差与标准差三、方差与标准差本
5、讲稿第十五页,共三十三页n方差和标准差的计算方法原始数据频数分布表计算本讲稿第十六页,共三十三页n方差与标准差的特点与应用:所有数据参与计算,因而更为精确,是较为常用的差异量。标准差常与算术平均数一起描述数据的分布情况。本讲稿第十七页,共三十三页1975年上海市区年上海市区6岁男童体重与身高数据:岁男童体重与身高数据:平均数平均数标准差标准差体重体重19.39千克千克2.16千克千克身高身高115.87厘米厘米4.86厘米厘米引例引例1本讲稿第十八页,共三十三页引例引例2 1975年上海市区两组女童体重的数据:年上海市区两组女童体重的数据:平均数平均数标准差标准差2个月组个月组5.45千克千克
6、0.62千克千克6岁组岁组19.02千克千克2.12千克千克本讲稿第十九页,共三十三页四、四、相对差异量相对差异量n相对差异量:又称为差异系数相对差异量:又称为差异系数CV(coefficient of variation),指标准差与,指标准差与其算术平均数的百分比。它是没有单位的相其算术平均数的百分比。它是没有单位的相对数。对数。n公式:公式:本讲稿第二十页,共三十三页用途用途:比较计量单位不同的数据资料的差异程度:比较计量单位不同的数据资料的差异程度1975年上海市区年上海市区6岁男童体重与身高数据:岁男童体重与身高数据:平均数平均数标准差标准差差异系数差异系数体重体重19.39千克千克
7、2.16千克千克11.14%身高身高115.87厘米厘米4.86厘米厘米4.19%本讲稿第二十一页,共三十三页用途用途:比较单位相同而平均数相差较大的比较单位相同而平均数相差较大的两组资料的差异程度。两组资料的差异程度。1975年上海市区两组女童体重的数据:年上海市区两组女童体重的数据:平均数平均数标准差标准差差异系数差异系数2个月组个月组5.45千克千克0.62千克千克11.38%6岁组岁组19.02千克千克2.12千克千克11.15%本讲稿第二十二页,共三十三页n用途:用途:比较不同单位资料的差异程度比较单位相同而平均数相差较大的两组资料的差异程度可判断数据的可靠性5%CV35%,如CV3
8、5%,可怀疑平均数是否失去意义,如CV5%,可怀疑平均数和标准差是否计算有误。本讲稿第二十三页,共三十三页第五节第五节 偏态量、峰态量偏态量、峰态量用以描述数据分布特征的量。用以描述数据分布特征的量。本讲稿第二十四页,共三十三页n一、偏态量(一、偏态量(skew):是描述次数分布):是描述次数分布的偏态方向和程度的量数。的偏态方向和程度的量数。n计算方法一:计算方法一:本讲稿第二十五页,共三十三页 本讲稿第二十六页,共三十三页n当当SK=0时分布呈对称形,当时分布呈对称形,当SK0时分时分布为正偏态,当布为正偏态,当SK0时分布为负偏态。时分布为负偏态。nSK的绝对值越大,偏斜度越大。的绝对值
9、越大,偏斜度越大。本讲稿第二十七页,共三十三页n计算公式二:计算公式二:本讲稿第二十八页,共三十三页二、峰态量(二、峰态量(kurtosis):描述次数分布的):描述次数分布的高低宽窄特征的量。高低宽窄特征的量。n高狭峰:分布形态高窄,集中在平均数两侧高狭峰:分布形态高窄,集中在平均数两侧n低阔峰:分布形态低阔,散布较广;低阔峰:分布形态低阔,散布较广;n正态峰:分布形态介于两者之间正态峰:分布形态介于两者之间本讲稿第二十九页,共三十三页本讲稿第三十页,共三十三页计算公式一:计算公式一:n当当Ku0.263时,分布呈高狭峰,当时,分布呈高狭峰,当Ku0.263时,呈低阔峰,当时,呈低阔峰,当Ku=0.263时,分布为正态峰。时,分布为正态峰。本讲稿第三十一页,共三十三页n计算公式二计算公式二:本讲稿第三十二页,共三十三页 差异量:描述一组数据的变异程度或差异量:描述一组数据的变异程度或离散程度的量。离散程度的量。n全距、四分位距、百分位距全距、四分位距、百分位距n平均差平均差n方差、标准差方差、标准差n 相对差异量相对差异量n偏态量、峰态量偏态量、峰态量本讲稿第三十三页,共三十三页
限制150内