保险学课件.pptx
2021/9/111第二章第二章 统计数据的描述统计数据的描述 2021/9/112第第2节节 分布集中趋势的测度分布集中趋势的测度v一、众数一、众数v二、中位数二、中位数v三、四分位数三、四分位数v四、均值四、均值v五、几何平均数五、几何平均数v六、切尾均值六、切尾均值v七、众数、中位数和均值的比较七、众数、中位数和均值的比较2021/9/113集中趋势集中趋势(central tendency)v一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度v测度集中趋势就是寻找数据水平的代表值或中测度集中趋势就是寻找数据水平的代表值或中测度集中趋势就是寻找数据水平的代表值或中测度集中趋势就是寻找数据水平的代表值或中心值心值心值心值v不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值v低层次数据的测度值适用于高层次的测量数据,低层次数据的测度值适用于高层次的测量数据,低层次数据的测度值适用于高层次的测量数据,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测但高层次数据的测度值并不适用于低层次的测但高层次数据的测度值并不适用于低层次的测但高层次数据的测度值并不适用于低层次的测量数据量数据量数据量数据2021/9/114众数众数(mode)1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.一般情况下,只有在数据量较大且集中趋势明一般情况下,只有在数据量较大且集中趋势明一般情况下,只有在数据量较大且集中趋势明一般情况下,只有在数据量较大且集中趋势明显的情况下,才能用众数作为总体的代表值。显的情况下,才能用众数作为总体的代表值。显的情况下,才能用众数作为总体的代表值。显的情况下,才能用众数作为总体的代表值。3.众数是一个位置代表值,不受极端值的影响众数是一个位置代表值,不受极端值的影响众数是一个位置代表值,不受极端值的影响众数是一个位置代表值,不受极端值的影响4.主要用于定类尺度数据,也可用于定序尺度数主要用于定类尺度数据,也可用于定序尺度数主要用于定类尺度数据,也可用于定序尺度数主要用于定类尺度数据,也可用于定序尺度数据和定比尺度数据据和定比尺度数据据和定比尺度数据据和定比尺度数据2021/9/115众数的种类众数的种类无众数无众数data:10 5 9 12 6 8一个众数一个众数data:6 5 9 8 5 5双众数双众数data:25 28 28 36 42 42多众数多众数 data:32 32 32 33 34 34 34 35 36 36 362021/9/116定类尺度数据的众数定类尺度数据的众数(例题分析例题分析)解解解解:众众众众数数数数为为为为“SP09-05”SP09-05”,即即即即 MMo o SP09-05SP09-05某专卖店新品球衣销售情况(单位某专卖店新品球衣销售情况(单位:件)件)2021/9/117定序尺度数据的众数定序尺度数据的众数定序尺度数据的众数定序尺度数据的众数 (例题分析例题分析例题分析例题分析)解解解解:众众众众数数数数为为为为“副副副副教教教教授授授授”这一级别,即这一级别,即这一级别,即这一级别,即 MMo o副教授副教授副教授副教授某高校在职教师职称分布某高校在职教师职称分布职称职称人数人数百分比百分比 (%)教授教授 副教授副教授 讲师讲师 助教助教 其他教师其他教师 151382 297 203 17 14.3836.3828.2919.331.62合计合计1050100.002021/9/118日产量(日产量(日产量(日产量(件)件)件)件)工人人数(人)工人人数(人)工人人数(人)工人人数(人)101011111212131314147070100100380380150150100100合计合计合计合计800800【例例】已知已知某企业某日工人的日产量资料如下某企业某日工人的日产量资料如下:解:该企业该解:该企业该日全部工人日日全部工人日产量的众数为产量的众数为12件。件。定比尺度数据的众数定比尺度数据的众数(单变量值分组单变量值分组)2021/9/119符号含义:符号含义:(A)L为众数组的下限;为众数组的下限;(B)1=fmfm-1,即众数组的次数与前一组次数之,即众数组的次数与前一组次数之差;差;2=fm fm+1,即众数组的次数与后一组次数,即众数组的次数与后一组次数之差之差;(C)i为众数组的组距为众数组的组距。定比尺度数据的众数定比尺度数据的众数(组距分组组距分组)2021/9/1110组距分组计算众数组距分组计算众数收入组别收入组别人均收入(元)人均收入(元)频数(人)频数(人)1 12 23 34 45 56 62 0002 000以下以下2 0002 0004 0004 0004 0004 0006 0006 0006 0006 0008 0008 0008 0008 00010 00010 00010 00010 000以上以上232343436868323224241010合合 计计200200某某地区的人均月收入调查数据地区的人均月收入调查数据2021/9/1111排序后处于中间位置上的值排序后处于中间位置上的值排序后处于中间位置上的值排序后处于中间位置上的值v不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响v主要用于定序尺度数据,也可用于定比尺度数主要用于定序尺度数据,也可用于定比尺度数主要用于定序尺度数据,也可用于定比尺度数主要用于定序尺度数据,也可用于定比尺度数据,但不能用于定类尺度数据据,但不能用于定类尺度数据据,但不能用于定类尺度数据据,但不能用于定类尺度数据MMe e50%50%中位数中位数(median)2021/9/11121、确定中位数的位置、确定中位数的位置定序尺度数据的中位数定序尺度数据的中位数2、确定中位数、确定中位数2021/9/1113定序尺度数据的中位数定序尺度数据的中位数定序尺度数据的中位数定序尺度数据的中位数 (例题分析例题分析例题分析例题分析)解:中位数的位置为解:中位数的位置为解:中位数的位置为解:中位数的位置为 300/2300/2150150 从从从从累累累累计计计计频频频频数数数数看看看看,中中中中位位位位数数数数在在在在“一一一一般般般般”这这这这一组别中一组别中一组别中一组别中 中位数为中位数为中位数为中位数为 Me=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计3002021/9/1114(1)由未分组资料确定中位数)由未分组资料确定中位数(2)由单变量值分组确定中位数)由单变量值分组确定中位数(3)由组距分组数据确定中位数)由组距分组数据确定中位数定比尺度数据的中位数定比尺度数据的中位数(计算方法计算方法)2021/9/1115(1)由未分组资料确定中位数)由未分组资料确定中位数排序:确定中位数位置排序:确定中位数位置v奇数:中间位置的变量值为中位数。奇数:中间位置的变量值为中位数。奇数:中间位置的变量值为中位数。奇数:中间位置的变量值为中位数。v偶数:中间位置相邻两个变量值的简单平均数是偶数:中间位置相邻两个变量值的简单平均数是偶数:中间位置相邻两个变量值的简单平均数是偶数:中间位置相邻两个变量值的简单平均数是中位数。中位数。中位数。中位数。定比尺度数据的中位数定比尺度数据的中位数定比尺度数据的中位数定比尺度数据的中位数 (计算方法计算方法计算方法计算方法)2021/9/1116中位数中位数(9个数据的算例个数据的算例)【例例】9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排序排序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数Me 10802021/9/1117中位数中位数(10个数据的算例个数据的算例)【例例】:10个家庭的人均月收入数据个家庭的人均月收入数据排序排序:660 750 780 850 960 1080 1250 1500 1630 2000位置位置:1 2 3 4 5 6 7 8 9 10 2021/9/1118(2)由单变量值分组确定中位数)由单变量值分组确定中位数中位数位置:中位数位置:从累计频数看,中位数在从累计频数看,中位数在“80”这一组别中这一组别中,中位数为中位数为MMe=34e=34(台)(台)(台)(台)402802nOm某公司销售人员月销售冰箱中位数计算某公司销售人员月销售冰箱中位数计算销售冰箱分组销售冰箱分组 (台台)销售人员数销售人员数(人人)向下累计向下累计频数频数向上累计向上累计频数频数25303234363931014271883132754728080776753268合合 计计802021/9/1119v(3)由组距分组数据确定中位数)由组距分组数据确定中位数第一步:确定中位数位置第一步:确定中位数位置其中:其中:L L是中位数所在组的下限是中位数所在组的下限f fm m是中位数所在组的次数是中位数所在组的次数S Sm-1m-1是中位数所在组前面各组累计次数是中位数所在组前面各组累计次数i i是中位数所在组的组距是中位数所在组的组距第二步:采用公式计算第二步:采用公式计算 2021/9/1120按家庭收入分组(元)按家庭收入分组(元)家庭数(户)家庭数(户)向下累计频数向下累计频数5 0005 000以下以下5 0005 00010 00010 00010 00010 00015 00015 00015 00015 00020 00020 00020 00020 000以上以上2121454514146 66 621216666808086869292合合 计计9292某地区家庭收入分组某地区家庭收入分组中位数的位置在第中位数的位置在第46(92/2)位,应在第二组)位,应在第二组2021/9/1121分位数分位数1、四分位数、四分位数2、十分位数、十分位数3、百分位数、百分位数2021/9/1122四分位数四分位数四分位数四分位数(quartile)(quartile)2.不受极端值的影响不受极端值的影响1.排序后处于排序后处于排序后处于排序后处于25%25%和和和和75%75%位置上的值位置上的值位置上的值位置上的值QQ1 1QQ2 2QQ3 325%25%25%25%3、主要用于定序尺度数据,也可用于定比尺、主要用于定序尺度数据,也可用于定比尺度数据,但不能用于定类尺度数据度数据,但不能用于定类尺度数据2021/9/11231、由定序数据确定四分位数、由定序数据确定四分位数(2)确定四分位数)确定四分位数(1)确定位置:)确定位置:四分位数四分位数2021/9/1124定序尺度数据的四分位数定序尺度数据的四分位数定序尺度数据的四分位数定序尺度数据的四分位数 (例题分析例题分析例题分析例题分析)解:解:解:解:Q Q1 1位置位置位置位置=(300)/4=75=(300)/4=75 Q Q3 3位置位置位置位置 =(3300)/4=(3300)/4 =225 =225 从从从从累累累累计计计计频频频频数数数数看看看看,Q Q1 1在在在在“不不不不满意满意满意满意”这一组别中;这一组别中;这一组别中;这一组别中;Q Q3 3在在在在“一般一般一般一般”这一组别中这一组别中这一组别中这一组别中 四分位数为四分位数为四分位数为四分位数为 Q Q1 1 =不满意不满意不满意不满意 QQ3 3=一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300四分位数四分位数2021/9/11252、由未分组数据确定四分位数、由未分组数据确定四分位数(1)确定位置:)确定位置:四分位数四分位数(2)确定四分位数)确定四分位数2021/9/1126【例例例例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630:1500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序:750 780 850 960 1080 1250 1500 1630 2000:750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置:1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9四分位数四分位数2021/9/1127【例例例例】:1010个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据排序排序排序排序:660 750 780 850 960 1080 1250 1500 1630 2000:660 750 780 850 960 1080 1250 1500 1630 2000位置位置位置位置:1 2 3 4 5 6 7 8 9 10 :1 2 3 4 5 6 7 8 9 10 四分位数四分位数2021/9/1128均值均值(mean)(mean)1.集中趋势的最常用测度值集中趋势的最常用测度值集中趋势的最常用测度值集中趋势的最常用测度值2.一组数据的均衡点所在一组数据的均衡点所在一组数据的均衡点所在一组数据的均衡点所在3.体现了数据的必然性特征体现了数据的必然性特征体现了数据的必然性特征体现了数据的必然性特征4.易受极端值的影响易受极端值的影响易受极端值的影响易受极端值的影响5.用于定比尺度数据,不能用于定类尺度数据和定用于定比尺度数据,不能用于定类尺度数据和定用于定比尺度数据,不能用于定类尺度数据和定用于定比尺度数据,不能用于定类尺度数据和定序尺度数据序尺度数据序尺度数据序尺度数据2021/9/1129简单平均数与加权平均数简单平均数与加权平均数简单平均数与加权平均数简单平均数与加权平均数(simple mean/weighted mean)(simple mean/weighted mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n各组的组中值为:各组的组中值为:各组的组中值为:各组的组中值为:MM1 1,MM2 2,MMk k 相应的频数为:相应的频数为:相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k简单平均数简单平均数简单平均数简单平均数加权平均数加权平均数加权平均数加权平均数2021/9/1130某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组 组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200加权平均数加权平均数加权平均数加权平均数(例题分析例题分析例题分析例题分析)2021/9/1131加权平均数加权平均数加权平均数加权平均数(权数对均值的影响权数对均值的影响权数对均值的影响权数对均值的影响)甲乙两组各有甲乙两组各有甲乙两组各有甲乙两组各有1010名学生,他们的考试成绩及其分布数据如下名学生,他们的考试成绩及其分布数据如下名学生,他们的考试成绩及其分布数据如下名学生,他们的考试成绩及其分布数据如下vv 甲组:甲组:甲组:甲组:考试成绩(考试成绩(考试成绩(考试成绩(x x):0 20 100 0 20 100vv 人数分布(人数分布(人数分布(人数分布(f f):):):):1 1 81 1 8vv 乙组:乙组:乙组:乙组:考试成绩(考试成绩(考试成绩(考试成绩(x x):0 20 100 0 20 100vv 人数分布(人数分布(人数分布(人数分布(f f):):):):8 1 18 1 12021/9/1132几何平均数几何平均数几何平均数几何平均数(geometric mean)(geometric mean)1.1.n n 个变量值乘积的个变量值乘积的个变量值乘积的个变量值乘积的 n n 次方根次方根次方根次方根2.2.适用于对比率数据的平均适用于对比率数据的平均适用于对比率数据的平均适用于对比率数据的平均3.3.主要用于计算平均增长率主要用于计算平均增长率主要用于计算平均增长率主要用于计算平均增长率4.4.计算公式为计算公式为计算公式为计算公式为5.5.当数据中出现零值或负值时不宜计算几何平均数当数据中出现零值或负值时不宜计算几何平均数当数据中出现零值或负值时不宜计算几何平均数当数据中出现零值或负值时不宜计算几何平均数2021/9/1133某电器销售公司某电器销售公司2003200320082008年销售量的环比增长年销售量的环比增长率分别为:率分别为:7.6%7.6%、2.5%2.5%、0.60.6、2.7%2.7%和和2.2%2.2%。求这。求这期间销售量的平均增长率。期间销售量的平均增长率。几何平均数的计算示例几何平均数的计算示例销售量的平均增长率销售量的平均增长率=103.1%-1=3.1%G2021/9/1134切尾均值切尾均值(trimmed Mean)(trimmed Mean)1、去去掉掉大大小小两两端端的的若若干干数数值值后后计计算算中中间间数数据据的的均均值值2、在在电电视视大大奖奖赛赛、体体育育比比赛赛及及需需要要人人们们进进行行综综合合评价的比赛项目中已得到广泛应用评价的比赛项目中已得到广泛应用3、计算公式为、计算公式为n n 表示观察值的个数;表示观察值的个数;表示观察值的个数;表示观察值的个数;表示切尾系数,表示切尾系数,表示切尾系数,表示切尾系数,2021/9/1135v【例例】某次比赛共有某次比赛共有11名评委,对某位歌手的给分分别是:名评委,对某位歌手的给分分别是:经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取1/111/11 2021/9/1136v众数、中位数和平均众数、中位数和平均数的比较数的比较2021/9/1137众数、中位数和平均数的关系众数、中位数和平均数的关系众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值2021/9/1138众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.众数众数众数众数不受极端值影响不受极端值影响不受极端值影响不受极端值影响具有不惟一性具有不惟一性具有不惟一性具有不惟一性数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.中位数中位数中位数中位数不受极端值影响不受极端值影响不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.平均数平均数平均数平均数易受极端值影响易受极端值影响易受极端值影响易受极端值影响数学性质优良数学性质优良数学性质优良数学性质优良数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用2021/9/1139第第3节节 分布离散程度的测度分布离散程度的测度v一、极差(全距)一、极差(全距)一、极差(全距)一、极差(全距)v二、内距(四分位差)二、内距(四分位差)二、内距(四分位差)二、内距(四分位差)v三、方差和标准差三、方差和标准差三、方差和标准差三、方差和标准差v四、离散系数四、离散系数四、离散系数四、离散系数2021/9/1140离散程度离散程度1.数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值2021/9/1141极差极差(range)(range)1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.离散程度的最简单测度值离散程度的最简单测度值3.易受极端值影响易受极端值影响计算公式为计算公式为计算公式为计算公式为最大变量值或最最大变量值或最高组上限或开口高组上限或开口组假定上限组假定上限最小变量值或最最小变量值或最低组下限或开口低组下限或开口组假定下限组假定下限2021/9/1142【例例A A】某售货小组某售货小组5 5人某天的销售额分别为人某天的销售额分别为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则甲组甲组乙组乙组0-10040100-20049200-30010【例例例例B B】空调耐用性分组测试表空调耐用性分组测试表 (单位:小时)(单位:小时)l甲组甲组 R=300-0=300(小时)(小时)l乙组乙组 R=200-100=100(小时)(小时)2021/9/1143【例例例例C C C C】某季度某工业公司某季度某工业公司某季度某工业公司某季度某工业公司18181818个工业企业产值计划完个工业企业产值计划完个工业企业产值计划完个工业企业产值计划完成情况如下,计算极差。成情况如下,计算极差。成情况如下,计算极差。成情况如下,计算极差。计划完成程度计划完成程度计划完成程度计划完成程度()组中值组中值组中值组中值()企业数企业数企业数企业数(个)(个)(个)(个)计划产值计划产值计划产值计划产值(万元)(万元)(万元)(万元)9090以下以下以下以下9090100100100100110110110110以上以上以上以上858595951051051151152 23 310103 380080025002500172001720044004400合计合计合计合计181824900249002021/9/1144内距内距(Inter-Quartile Range,IQR)(Inter-Quartile Range,IQR)1.也称四分位差也称四分位差也称四分位差也称四分位差2.上四分位数与下四分位数之差上四分位数与下四分位数之差上四分位数与下四分位数之差上四分位数与下四分位数之差v 内内内内 距距距距=Q QU U Q QL L3.反映了中间反映了中间反映了中间反映了中间50%50%数据的离散程度数据的离散程度数据的离散程度数据的离散程度4.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响5.可用于衡量中位数的代表性可用于衡量中位数的代表性可用于衡量中位数的代表性可用于衡量中位数的代表性2021/9/1145例:例:某数学补习小组某数学补习小组11人年龄(岁)为:人年龄(岁)为:17、19、22、24、25、28、34、35、36、37、38结论:该小组约有结论:该小组约有50%的人年龄在的人年龄在2236岁之间,并且岁之间,并且他们之间最大差异为他们之间最大差异为14岁。岁。解:解:2021/9/1146方差和标准差方差和标准差(Variance and Standard Deviation)(Variance and Standard Deviation)v数据离散程度的最常用测度值数据离散程度的最常用测度值数据离散程度的最常用测度值数据离散程度的最常用测度值v反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异v根据总体数据计算的,称为总体方差或标准差;根据总体数据计算的,称为总体方差或标准差;根据总体数据计算的,称为总体方差或标准差;根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差根据样本数据计算的,称为样本方差或标准差根据样本数据计算的,称为样本方差或标准差根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12 x x=8.38.32021/9/1147总体方差和标准差总体方差和标准差(Population variance and Standard deviation)v未分组数据:未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式2021/9/1148样本方差和标准差样本方差和标准差(sample variance and standard deviation)v未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除!2021/9/1149根据以下资料,计算企业职工平均工资的标准差。(已知平根据以下资料,计算企业职工平均工资的标准差。(已知平均工资为均工资为760元)元)某企业职工工资分组数据表某企业职工工资分组数据表总体方差和标准差计算示例总体方差和标准差计算示例2021/9/1150总体方差和标准差计算示例总体方差和标准差计算示例总体方差为:总体方差为:总体标准差为:总体标准差为:2021/9/1151样本标准差样本标准差样本标准差样本标准差 (例题分析例题分析例题分析例题分析)55400160270320270 017020024016025040302010 01020304050120合计合计 4 91627201710 8 4 5145155165175185195205215225235140150150 160160 170170 180180 190190 200200 210210 220220 230230 240频数频数(fi)组中值组中值(Mi)按销售量分组按销售量分组某电脑公司某电脑公司120天销售量数据平均差计算表天销售量数据平均差计算表 2021/9/1152样本标准差样本标准差样本标准差样本标准差 (例题分析例题分析例题分析例题分析)含含义义:每每一一天天的的销销售售量量与与平平均均数数相相比比,平平均均相相差差21.58台。台。2021/9/1153离散系数离散系数(coefficient of variation)(coefficient of variation)v标准差与其相应的均值之比标准差与其相应的均值之比标准差与其相应的均值之比标准差与其相应的均值之比v对数据相对离散程度的测度对数据相对离散程度的测度对数据相对离散程度的测度对数据相对离散程度的测度v消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响v用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较v计算公式为计算公式为计算公式为计算公式为2021/9/1154例例:甲乙企业职工的年均收入分别为甲乙企业职工的年均收入分别为2000020000元和元和5000050000元,元,收入的标准差分别为收入的标准差分别为30003000和和50005000元,哪家企业职工的元,哪家企业职工的收入差距小一些?收入差距小一些?甲企业离散系数甲企业离散系数 乙企业离散系数乙企业离散系数 结论结论 乙企业职工收入差距小于甲企业。乙企业职工收入差距小于甲企业。2021/9/1155结论:结论:比较两组数据的离散程度时,如两组比较两组数据的离散程度时,如两组均值相等,可以直接比较标准差均值相等,可以直接比较标准差(也可以比较也可以比较离散系数离散系数);如两组均值相差很大,则需比较;如两组均值相差很大,则需比较两组的离散系数两组的离散系数(不能直接比较标准差不能直接比较标准差)。2021/9/1156第第4节节 分布偏态与峰度的测度分布偏态与峰度的测度 2021/9/1157偏态与峰态分布的形状偏态与峰态分布的形状偏态与峰态分布的形状偏态与峰态分布的形状扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!2021/9/1158偏态偏态(skewness)(skewness)1.统计学家统计学家统计学家统计学家PearsonPearson于于于于18951895年首次提出年首次提出年首次提出年首次提出 2.数据分布偏斜程度的测度数据分布偏斜程度的测度数据分布偏斜程度的测度数据分布偏斜程度的测度v偏态系数偏态系数偏态系数偏态系数=0=0为对称分布为对称分布为对称分布为对称分布v偏态系数偏态系数偏态系数偏态系数 0 0为右偏分布为右偏分布为右偏分布为右偏分布v偏态系数偏态系数偏态系数偏态系数 0 0为左偏分布为左偏分布为左偏分布为左偏分布2021/9/1159偏态系数偏态系数偏态系数偏态系数 (skewness coefficient)(skewness coefficient)1.根据原始数据计算根据原始数据计算根据原始数据计算根据原始数据计算2.根据分组数据计算根据分组数据计算根据分组数据计算根据分组数据计算2021/9/1160偏态系数偏态系数偏态系数偏态系数(例题分析例题分析例题分析例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 625000合计合计120540000 2021/9/1161偏态系数偏态系数偏态系数偏态系数(例题分析例题分析例题分析例题分析)结论:偏态系数为正值,但与结论:偏态系数为正值,但与结论:偏态系数为正值,但与结论:偏态系数为正值,但与0 0的差异不大,说明的差异不大,说明的差异不大,说明的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数。数占据多数,而销售量较多的天数则占少数。数占据多数,而销售量较多的天数则占少数。数占据多数,而销售量较多的天数则占少数。2021/9/1162偏态与峰态偏态与峰态偏态与峰态偏态与峰态(从直方图上观察从直方图上观察从直方图上观察从直方图上观察)按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组(台台台台台台)结论:结论:结论:结论:1.1.右偏分布右偏分布右偏分布右偏分布 2.2.略有平峰略有平峰略有平峰略有平峰140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 2302302402402021/9/1163峰态峰态(kurtosis)(kurtosis)1.统计学家统计学家统计学家统计学家PearsonPearson于于于于19051905年首次提出年首次提出年首次提出年首次提出2.数据分布扁平程度的测度数据分布扁平程度的测度数据分布扁平程度的测度数据分布扁平程度的测度3.峰度系数峰度系数峰度系数峰度系数=0=0为对称分布为对称分布为对称分布为对称分布4.峰度系数峰度系数峰度系数峰度系数000为尖峰分布为尖峰分布为尖峰分布为尖峰分布2021/9/1164峰态系数峰态系数峰态系数峰态系数 (kurtosis coefficient)(kurtosis coefficient)1.根据原始数据计算根据原始数据计算2.根据分组数据计算根据分组数据计算2021/9/1165峰态系数峰态系数峰态系数峰态系数(例题分析例题分析例题分析例题分析)某电脑公司销售量偏态及峰度计算表 按销售量份组(台)组中值(Mi)频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计120540000 70100000 2021/9/1166峰态系数峰态系数峰态系数峰态系数 (例题分析例题分析例题分析例题分析)结论:峰态系数为负值,但与结论:峰态系数为负值,但与结论:峰态系数为负值,但与结论:峰态系数为负值,但与0 0的差异不大,说明的差异不大,说明的差异不大,说明的差异不大,说明电脑销售量的分布与正态分布相比略有一些平峰。电脑销售量的分布与正态分布相比略