数据分布特征.ppt
《数据分布特征.ppt》由会员分享,可在线阅读,更多相关《数据分布特征.ppt(72页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、哪名运动员的发挥更稳定哪名运动员的发挥更稳定?在奥运会女子在奥运会女子1010米气手枪比赛中,每个运动员首先进行每米气手枪比赛中,每个运动员首先进行每组组1010枪共枪共4 4组的预赛,然后根据预赛总成绩确定进入决赛的组的预赛,然后根据预赛总成绩确定进入决赛的8 8名名运动员。决赛时运动员。决赛时8 8名运动员再进行名运动员再进行1010枪射击,再将预赛成绩加上枪射击,再将预赛成绩加上决赛成绩确定最后的名次。决赛成绩确定最后的名次。在在20082008年年8 8月月1010日举行的第日举行的第2929届北京奥运会女子届北京奥运会女子1010米气手枪米气手枪决赛中,进入决赛的决赛中,进入决赛的8
2、 8名运动员的预赛成绩和最后名运动员的预赛成绩和最后1010枪的决赛成枪的决赛成绩如下表绩如下表1 最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩发挥,以总成绩492.3492.3环夺得金牌,预赛排在第环夺得金牌,预赛排在第1 1名的俄罗斯名的俄罗斯运动员纳塔利娅运动员纳塔利娅帕杰林娜以总成绩帕杰林娜以总成绩489.1489.1环获得银牌,预环获得银牌,预赛排在第赛排在第4 4名的格鲁吉亚运动员妮诺名的格鲁吉亚运动员妮诺萨卢克瓦泽以总成绩萨卢克瓦泽以总成绩487.4487.4环的成绩获得铜牌,而预赛排在第环的成绩获得铜牌,而预赛排
3、在第3 3名的蒙古运动员卓名的蒙古运动员卓格巴德拉赫格巴德拉赫蒙赫珠勒仅以蒙赫珠勒仅以479.6479.6环的成绩名列第环的成绩名列第8 8名名.由此可见,在射击比赛中,运动员能否取得好的成绩,由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥怎样评价一名运动员的发挥是否稳定呢?是否稳定呢?通过本章内容的学习就能很容易回答这样的问题。通过本章内容的学习就能很容易回答这样的问题。哪名运动员的发挥更稳定哪名运动员的发挥更稳定?2第三章第三章 数据分布特征的描述数据分布特征的描述集中趋势的测定集中趋势的测定第一节第一节第二
4、节第二节离散程度的测定离散程度的测定第三节第三节偏态与峰态的测定偏态与峰态的测定3数据集中区数据集中区数据数据一组数据向其中心值聚集或靠拢的倾向和程度;一组数据向其中心值聚集或靠拢的倾向和程度;测度集中趋势就是测度集中趋势就是寻找数据一般水平的代表值或中心值寻找数据一般水平的代表值或中心值;不同类型的数据用不同的集中趋势测度值;不同类型的数据用不同的集中趋势测度值;低层次数据的集中趋势测度值适用于高层次的测量数据,低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据;测量数据;选用哪一
5、个测度值来反映数据的集中趋势,要根据所掌选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。握的数据的类型来确定。集中趋势集中趋势(central tendencycentral tendency)4第一节第一节 集中趋势的测定集中趋势的测定 一、分类数据:众数一、分类数据:众数二、顺序数据:中位数和分位数二、顺序数据:中位数和分位数三、数值型数据:平均数三、数值型数据:平均数四、众数、中位数和平均数的比较四、众数、中位数和平均数的比较5一、分类数据:众数一、分类数据:众数1 1、众数的定义、众数的定义(modemode)一组数据中出现次数最多的变量值一组数据中出现次数最多的
6、变量值,用,用 表示表示主要用于主要用于分类分类数据,也可用于数据,也可用于顺顺序数据和数值型序数据和数值型数据数据;一般情况下,只有在一般情况下,只有在数据量较大数据量较大的情况下,众数的情况下,众数才有意义;才有意义;是一种是一种位置平均数位置平均数6饮饮料品牌料品牌频频数数比例比例百分比百分比(%)(%)可口可可口可乐乐 旭日升冰茶旭日升冰茶 百事可百事可乐乐 汇汇源果汁源果汁 露露露露15151111 9 9 6 6 9 90.300.300.220.220.180.180.120.120.180.1830302222181812121818合合计计50501 1100100【例例1
7、1】计算饮料品牌的众数计算饮料品牌的众数广告广告类类型型人数人数(人人)比例比例频频率率(%)(%)商品广告商品广告 服服务务广告广告 金融广告金融广告 房地房地产产广告广告 招生招聘广告招生招聘广告 其他广告其他广告112112 51 51 9 916161010 2 20.5600.5600.2550.2550.0450.0450.0800.0800.0500.0500.0100.01056.056.025.525.5 4.5 4.5 8.0 8.0 5.0 5.0 1.0 1.0合合计计2002001 1100100【例例2 2】计算某城市居民关注广告类型的众数计算某城市居民关注广告类型
8、的众数7回答回答类别类别甲城市甲城市乙城市乙城市户户数数(户户)百分比百分比(%)(%)户户数数(户户)百分比百分比 (%)(%)非常不非常不满满意意 不不满满意意 一般一般 满满意意 非常非常满满意意 24 24 108 108 93 93 45 45 30 30 8 8363631311515101021219999787864643838 7.0 7.033.033.026.026.021.321.312.712.7合合计计300300100.0100.0300300100.0100.0【例例3 3】计算甲乙两城市对住房状况满意程度评价的众数计算甲乙两城市对住房状况满意程度评价的众数 【
9、例例4 4】在某城市中随机抽取在某城市中随机抽取9 9个家庭,调查得到每个家庭的人个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的众数。均月收入数据如下(单位:元)。要求计算人均月收入的众数。750 780 1080 850 1080 2000 1080 1630 1250750 780 1080 850 1080 2000 1080 1630 12508无众数无众数原始数据原始数据:10 5 9 12 6 8:10 5 9 12 6 8一个众数一个众数原始数据原始数据:6 :6 5 5 9 8 9 8 5 5 5 5多于一个众数多于一个众数原始数据原始数据:25
10、 :25 2828 2828 36 36 4242 42422 2、众数的特点、众数的特点不惟一性不惟一性 是一个位置代表值是一个位置代表值 正态分布或一般的偏态分布中,一组数据最高峰点所对应正态分布或一般的偏态分布中,一组数据最高峰点所对应 的数值即为众数的数值即为众数 不受极端值的影响不受极端值的影响 一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数9数值型分组数据众数的确定数值型分组数据众数的确定1 1、众数、众数的值与相邻两组频数的分布有关的值与相邻两组频数的分布有关该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布2 2、相邻两组的、相邻
11、两组的频数相等时频数相等时,众数组的,众数组的组中值即为众数组中值即为众数3 3、相邻两组的频数不相等时,众数采用下列、相邻两组的频数不相等时,众数采用下列近似公式计算近似公式计算10【例例5 5】计算计算5050名工人日加工零件数的众数。名工人日加工零件数的众数。按零件数分按零件数分组组频频数(人)数(人)百分比百分比(%)(%)5 56 67 78 89 9101011113 35 58 8141410106 64 46 6101016162828202012128 8合合计计5050100100按周加工零件数分按周加工零件数分组组频频数数80-9080-9090-10090-100100
12、-110100-110110-120110-120120-130120-1303 37 713135 52 2合计合计3030【例例6 6】计算某车间计算某车间3030名工人加工零件数的众数。名工人加工零件数的众数。分布的形状越偏,众数值偏离众数组的组中值的程度越大分布的形状越偏,众数值偏离众数组的组中值的程度越大11二、顺序数据:中位数和分位数二、顺序数据:中位数和分位数1 1、中位数的定义、中位数的定义(medianmedian)(一)中位数(一)中位数数据数据排序排序后处于中间位置上的后处于中间位置上的变量值变量值M Me e50%50%50%50%适宜于开口组资料和某些不能用数字测定的
13、事物;间断数列适宜于开口组资料和某些不能用数字测定的事物;间断数列 无中位数无中位数 主要用于顺序数据,也可用数值型数据,但不能用于分主要用于顺序数据,也可用数值型数据,但不能用于分 类数据类数据 是一种是一种位置平均数位置平均数12各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即位置确定位置确定数值确定数值确定2 2、中位数的求解、中位数的求解13组距分组数据:组距分组数据:回答回答类别类别甲城市甲城市乙城市乙城市户户数数(户户)累计频数累计频数户户数数(户户)累计频数累计频数 非常不非常不满满意意 不不满满意意 一般一般 满满意意 非常非常满满意意 24 2
14、4 108 108 93 93 45 45 30 30 24 2413213222522527027030030021219999787864643838 2121120120198198262262300300合合计计300300300300【例例7 7】计算甲乙两城市对住房状况满意程度评价的中位数计算甲乙两城市对住房状况满意程度评价的中位数142 2、中位数的求解、中位数的求解 【例例8 8】9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630:1500 750 780 1080 850 960
15、 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9:1 2 3 4 5 6 7 8 9中位数中位数 108010801010个家庭的人均月收入数据个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8
16、 9 10 :1 2 3 4 5 6 7 8 9 10 152 2、中位数的求解、中位数的求解1 1、根据位置公式确定中位数所在的组、根据位置公式确定中位数所在的组2 2、采用下列、采用下列近似公式计算近似公式计算:该公式假定中位数组的频数在该组内均匀分布。该公式假定中位数组的频数在该组内均匀分布。组距分组数据:组距分组数据:下限公式(向上累积时用)下限公式(向上累积时用)式中:式中:L L表示中位数所在组的下限;表示中位数所在组的下限;中位数所在组的次数;中位数所在组的次数;中位数所在组以前各组的累积次数;中位数所在组以前各组的累积次数;d d中位数所在组的组距;中位数所在组的组距;上限公式
17、(向下累积时用)上限公式(向下累积时用)2 2、中位数的求解、中位数的求解16【例例9 9】计算计算5050名工人日加工零件数的中位数名工人日加工零件数的中位数按零件数分按零件数分组组频频数(人)数(人)向上累向上累积积向下累积向下累积105-110105-110110-115110-115115-120115-120120-125120-125125-130125-130130-135130-135135-140135-1403 35 58 8141410106 64 43 38 8161630304040464650505050474742423434202010104 4合合计计5050
18、1718不受极端值的影响,具有稳健性;不受极端值的影响,具有稳健性;数据大量重复某一数值时,中位数未必准确,在解释是特数据大量重复某一数值时,中位数未必准确,在解释是特别小心;别小心;研究收入分配时很有用。研究收入分配时很有用。(一)中位数(一)中位数 【例例】100100户家庭,户家庭,2020户户2 2口人,口人,400400户户3 3口人,口人,4040户户4 4口人,口人,计算人口的中位数。计算人口的中位数。1 1、排序排序后处于后处于25%25%和和75%75%位置上的值位置上的值2 2、不受极端值的影响、不受极端值的影响3 3、主主要要用用于于顺顺序序数数据据,也也可可用用于于数数
19、值值型型数数据据,但但不不能能用用于于分类数据分类数据Q QL LM Me eQ QU U25%25%25%25%25%25%25%25%四分位数四分位数(quartile)(quartile)(二)分位数(二)分位数1920方法方法2 2:较准确算法较准确算法方法方法1 1:定义算法定义算法四分位数位置的确定方法四分位数位置的确定方法:(二)分位数(二)分位数 方法方法3 3:其中其中 表示中位数的位置取整。这样计算出的表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间四分位数的位置,要么是整数,要么在两个数之间0.50.5的位置上的位置上 方法方法4 4:Exc
20、elExcel给出的四分位数位置的确定方法给出的四分位数位置的确定方法 如果位置不是整数,则按比例分摊位置两侧数值的差值如果位置不是整数,则按比例分摊位置两侧数值的差值(二)分位数(二)分位数21回答回答类别类别甲城市甲城市乙城市乙城市户户数数(户户)累积频数累积频数户户数数(户户)累积频数累积频数 非常不非常不满满意意 不不满满意意 一般一般 满满意意 非常非常满满意意 24 24 108 108 93 93 45 45 30 30 24 2413213222522527027030030021219999787864643838 2121120120198198262262300300合合
21、计计300300300300【例例1010】计算甲乙两城市对住房状况满意程度评价的四分位数计算甲乙两城市对住房状况满意程度评价的四分位数 Q QL L位置位置=(300)/4=75(300)/4=75,Q QU U位置位置 =(3300)/4=225=(3300)/4=225 从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“满满意意”这一组别中,故四分位数为这一组别中,故四分位数为 Q QL L =“不满意不满意”Q QU U =“满意满意”解:解:Q QL L位置位置=(300)/4=75(300)/4=75,Q QU U位置位置 =(330
22、0)/4=225=(3300)/4=225 从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“一一般般”这一组别中,故四分位数为这一组别中,故四分位数为 Q QL L =“不满意不满意”Q QU U =“一般一般”22 【例例1111】9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2
23、000:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 :1 2 32 3 4 5 4 5 6 76 7 8 9 8 9方法方法1 1方法方法2 223平均数(平均数(meanmean)也称为均值)也称为均值集中趋势的最常用测度值集中趋势的最常用测度值一组数据的均衡点所在一组数据的均衡点所在体现了数据的必然性特征体现了数据的必然性特征易受极端值的影响易受极端值的影响不适用于分类数据和顺序数据不适用于分类数据和顺序数据根根据据总总体体数数据据计计算算的的,称称为为平平均均数数,记记为为;根根据据样样本数据计算的,称为本数据计算的,称为样本平均数样本
24、平均数,记为,记为 x xx三、数值型数据:平均数三、数值型数据:平均数24设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(总体数据总体数据x xN N)样本平均数样本平均数总体平均数总体平均数 【例例1212】某售货小组某售货小组5 5个人,某天的销售额分别为个人,某天的销售额分别为520520元、元、600600元、元、480480元、元、750750元、元、440440元,求平均每人日销售额。元,求平均每人日销售额。1 1、简单简单平均数平均数未分未分组组数据数据(Simple meanSimple mean)25设设分组数据分组数据各组的组中值为:各组的组中值为:
25、M M1 1,M M2 2,M Mk k 相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k 若所给资料为组距数列,则应取各组的组中值作为若所给资料为组距数列,则应取各组的组中值作为该组的代表值用于计算;此时求得的算术平均数只是其该组的代表值用于计算;此时求得的算术平均数只是其真值的近似值。此时假定各组数据在组内是均匀分布的真值的近似值。此时假定各组数据在组内是均匀分布的说说明明2 2、加、加权权平均数平均数-分分组组数据数据(Weighted meanWeighted mean)26【例例1313】计算电脑公司销售量的平均数计算电脑公司销售量的平均数按按销销售量分售量分组组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布 特征
限制150内