《统计学课件3.ppt》由会员分享,可在线阅读,更多相关《统计学课件3.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、管理统计学课件管理统计学课件3第三章统计资料的综合第三章统计资料的综合3.1 3.1 表示集中位置的特征数表示集中位置的特征数3.1.1 3.1.1 平均数平均数算术平均数(算术平均数(Arithmetic averageArithmetic average)几何平均数(几何平均数(Geometric MeanGeometric Mean)调和平均数调和平均数第三章统计资料的综合第三章统计资料的综合定义:定义:一组一组n n个观测值个观测值x x1 1,x,x2 2,,x xn n的算术平均数,定义为的算术平均数,定义为(1)(1)算术平均数(算术平均数(Arithmetic averageA
2、rithmetic average)第三章统计资料的综合第三章统计资料的综合如如果果资资料料已已经经分分组组,组组数数为为k k,用用x x1 1,x,x2 2 ,,x xk k 表表示示各组中点,各组中点,f f1 1,f f2 2,f,fk k 表示相应的频数,那么表示相应的频数,那么(1)(1)算术平均数(算术平均数(Arithmetic averageArithmetic average)第三章统计资料的综合第三章统计资料的综合表表表表3-1 3-1 3-1 3-1 某校某校某校某校125125125125位大学一年级新生体重表位大学一年级新生体重表位大学一年级新生体重表位大学一年级新
3、生体重表体重(公斤)体重(公斤)组中值组中值(x)(x)人数人数(f)(f)4648464847 47 4 44951495150 50 20 20 5254525453 53 25255557555756 56 38 38 5860586059 59 21 21 6163616362 62 12126466646665655 5(1)(1)算术平均数(算术平均数(Arithmetic averageArithmetic average)第三章统计资料的综合第三章统计资料的综合其平均体重:其平均体重:=55.59255.592(1)(1)算术平均数(算术平均数(Arithmetic avera
4、geArithmetic average)第三章统计资料的综合第三章统计资料的综合 当当时最小时最小 性性性性质质质质(1)(1)算术平均数(算术平均数(Arithmetic averageArithmetic average)第三章统计资料的综合第三章统计资料的综合在数据为环比类型的问题中,算术平均数是不适用的。在数据为环比类型的问题中,算术平均数是不适用的。例如下表是天津市工业总产值在例如下表是天津市工业总产值在“十五十五”期间的逐年期间的逐年增长率,如求该期间平均增长率,算术平均数是不恰增长率,如求该期间平均增长率,算术平均数是不恰当的。几何平均数可以解决这个问题。当的。几何平均数可以解
5、决这个问题。(2)(2)几何平均数(几何平均数(Geometric MeanGeometric Mean)第三章统计资料的综合第三章统计资料的综合表表表表3-2 3-2 3-2 3-2 天津市工业总产值天津市工业总产值天津市工业总产值天津市工业总产值年份年份 比上年增长比上年增长200020002001200114.014.02002200219.619.62003200324.124.12004200431.031.02005200520.8 20.8(天津市(天津市20052005统计年鉴)统计年鉴)(2)(2)几何平均数(几何平均数(Geometric MeanGeometric Mea
6、n)第三章统计资料的综合第三章统计资料的综合定义定义:一组一组n n个数据的几何平均数定义为个数据的几何平均数定义为 在上式中,在上式中,依次为依次为114.0114.0,119.6119.6,124.1124.1,十五期间天津市工业总产值年均增长率为十五期间天津市工业总产值年均增长率为21.8%21.8%。131.0131.0,120.8120.8于是几何平均数:于是几何平均数:(2)(2)几何平均数(几何平均数(Geometric MeanGeometric Mean)第三章统计资料的综合第三章统计资料的综合当数据是相对变化率,求平均数时,算术平均数也不当数据是相对变化率,求平均数时,算术
7、平均数也不恰当。恰当。例如:甲乙两地相距例如:甲乙两地相距120120公里,某人乘车往返甲乙两地之公里,某人乘车往返甲乙两地之间,去时速度每小时间,去时速度每小时2020公里,回来时速度为每小时公里,回来时速度为每小时3030公里,若求平均速度,这时用算术平均数是不对的,公里,若求平均速度,这时用算术平均数是不对的,但调和平均数可解决此类问题。但调和平均数可解决此类问题。(3)(3)调和平均数调和平均数第三章统计资料的综合第三章统计资料的综合在上例中,在上例中,(公里(公里/小时)小时)定义:定义:一组一组n n个数据的调和平均数个数据的调和平均数H H,由下式定义,由下式定义(3)(3)调和
8、平均数调和平均数第三章统计资料的综合第三章统计资料的综合算术平均数表示了集中位置特征,它照顾到每一个值,算术平均数表示了集中位置特征,它照顾到每一个值,但它不见得是出现次数最多的值(甚至也可能不是观但它不见得是出现次数最多的值(甚至也可能不是观测值中的一个)。所以有必要研究表示集中位置的其测值中的一个)。所以有必要研究表示集中位置的其它的特征数。它的特征数。3.1.23.1.2众数(众数(ModeMode)第三章统计资料的综合第三章统计资料的综合定义:对于有频数分布的变量,它的众数指频数最大的定义:对于有频数分布的变量,它的众数指频数最大的变量的值变量的值表表3-3 3-3 频数分布表频数分布
9、表频数分布表频数分布表Xf3 3155273对于已分组且等组距的频数分布,根据最大频数,可求得众对于已分组且等组距的频数分布,根据最大频数,可求得众数所在组。根据众数定义,可知众数不唯一。数所在组。根据众数定义,可知众数不唯一。3.1.23.1.2众数(众数(ModeMode)第三章统计资料的综合第三章统计资料的综合算术平均数作为集中位置的特征还有一缺点,就是受算术平均数作为集中位置的特征还有一缺点,就是受观测值中极端值的影响很大,而一组观测值中的极端观测值中极端值的影响很大,而一组观测值中的极端值常常没有代表性。中位数将避免这种影响。值常常没有代表性。中位数将避免这种影响。3.1.3 3.1
10、.3 中位数(中位数(MedianMedian)第三章统计资料的综合第三章统计资料的综合 一组一组n n个观测值按数值大小排列,处于中央位置的个观测值按数值大小排列,处于中央位置的值称为中位数以值称为中位数以 表示表示,当,当n n为奇数为奇数,当,当n n为偶数为偶数定义定义:即即3.1.3 3.1.3 中位数(中位数(MedianMedian)第三章统计资料的综合第三章统计资料的综合第第2525百分位数又称第一个四分位数(百分位数又称第一个四分位数(First QuartileFirst Quartile),用用Q Q1 1 表示;第表示;第5050百分位数又称第二个四分位数百分位数又称第
11、二个四分位数(Second QuartileSecond Quartile),用),用Q Q2 2表示;第表示;第7575百分位数百分位数又称第三个四分位数(又称第三个四分位数(Third QuartileThird Quartile),用用Q Q3 3表示。表示。中位数是第中位数是第5050百分位数百分位数一组一组n n个观测值按数值大小排列如个观测值按数值大小排列如x x1,1,x x2,2,x x3,3,x x4 4处于处于p%p%位置的值称第位置的值称第p p百分位数。百分位数。定义定义:3.1.4 3.1.4 百分位数(百分位数(PercentilePercentile)第三章统计资
12、料的综合第三章统计资料的综合计算第计算第p p百分数百分数第第1 1步:以递增顺序排列原数据(即从小到大排列)步:以递增顺序排列原数据(即从小到大排列)。第第2 2步:计算指数步:计算指数 第第3 3步步1.1.若若i i不是整数,将不是整数,将i i向上取整。大于向上取整。大于I I 的毗邻整数为第的毗邻整数为第p p百分位数的位置。百分位数的位置。2.2.若若i i是整数,则第是整数,则第P P百分位数是第百分位数是第i i项与第(项与第(i il l)项数据的平均值。)项数据的平均值。如何计算百分位数如何计算百分位数第三章统计资料的综合第三章统计资料的综合数据的变数据的变异程度异程度产品
13、质量检查的结果产品质量检查的结果说明生产说明生产是否稳定是否稳定测量的结果测量的结果说明测量方法或说明测量方法或仪器是精密还是粗糙仪器是精密还是粗糙学学生生的的成成绩绩成绩是成绩是否整齐否整齐(而不是高低)(而不是高低)3.2 3.2 表示变异(分散)程度的特征数表示变异(分散)程度的特征数第三章统计资料的综合第三章统计资料的综合定义定义 其中其中x xmaxmax和和x xminmin分别为数据中的极大值和极小值。分别为数据中的极大值和极小值。3.2.13.2.1极差(或称全距极差(或称全距 RangeRange)R R第三章统计资料的综合第三章统计资料的综合对于已分组的频数分布(组数为对于
14、已分组的频数分布(组数为k k)定定义义平均差平均差M.D.M.D.是离差的绝对值的平均数,即是离差的绝对值的平均数,即3.2.2 3.2.2 平均差(平均差(Mean Absolute DeviationMean Absolute Deviation)第三章统计资料的综合第三章统计资料的综合 方差方差 样本样本 对于已分组的频数分布(组数为对于已分组的频数分布(组数为k k)总体总体 样本样本 总体总体 3.2.3 3.2.3 方差(方差(VarianceVariance),标准差(),标准差(StandardStandard Deviation Deviation)第三章统计资料的综合第三
15、章统计资料的综合标准差标准差样本样本标准差标准差总体总体标准差标准差样本样本标准差标准差总体总体标准差标准差 对于已分组的频数分布(组数为对于已分组的频数分布(组数为k k)标准差的单位与标准差的单位与X X的单位相同。的单位相同。3.2.3 3.2.3 方差(方差(VarianceVariance),标准差(),标准差(StandardStandard Deviation Deviation)第三章统计资料的综合第三章统计资料的综合定义定义 变异系数变异系数C C是一个无量纲的量。它适于用在比较有不同算术平均数或有是一个无量纲的量。它适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。
16、例如比较大学生身高与小学生不同量纲的两组数据的情况。例如比较大学生身高与小学生身高,或比较身高,或比较130130名大学生身高和体重哪个变化波动范围比名大学生身高和体重哪个变化波动范围比较大时,都可用变异系数。较大时,都可用变异系数。3.2.43.2.4变异系数(变异系数(Coefficient of Coefficient of VariationVariation)第三章统计资料的综合第三章统计资料的综合定义定义 变异系数变异系数C C是一个无量纲的量。它适于用在比较有不同算术平均数或有是一个无量纲的量。它适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。例如比较大学生身高与小学生
17、不同量纲的两组数据的情况。例如比较大学生身高与小学生身高,或比较身高,或比较130130名大学生身高和体重哪个变化波动范围比名大学生身高和体重哪个变化波动范围比较大时,都可用变异系数。较大时,都可用变异系数。3.3 3.3 表示偏倚情况或程度的特征数表示偏倚情况或程度的特征数 第三章统计资料的综合第三章统计资料的综合3.3.13.3.1比较众数、中位数和算术平均数的相对位置比较众数、中位数和算术平均数的相对位置 下图列举出了对称的、具有左偏态(负偏态)和右偏下图列举出了对称的、具有左偏态(负偏态)和右偏态(正偏态)的频数分布的例子。注意到它们的特点态(正偏态)的频数分布的例子。注意到它们的特点
18、是:是:对称的分布的众数、中位数和算术平均数相同;对称的分布的众数、中位数和算术平均数相同;具有偏倚性的分布,算术平均数突出在外,偏向分具有偏倚性的分布,算术平均数突出在外,偏向分布的尾端,而中位数则介于众数与算术平均数之间。布的尾端,而中位数则介于众数与算术平均数之间。偏倚性是表示各观测值分布不对称情况或程度的。偏倚性是表示各观测值分布不对称情况或程度的。3.3 3.3 表示偏倚情况或程度的特征数表示偏倚情况或程度的特征数 第三章统计资料的综合第三章统计资料的综合图图3-13-13.3.13.3.1比较众数、中位数和算术平均数的相对位置比较众数、中位数和算术平均数的相对位置第三章统计资料的综
19、合第三章统计资料的综合 MeMo MeMo MeMo MeMo =Me=Mo=Me=Mo可以看出,对于单峰的分布,可以看出,对于单峰的分布,对对称称态态:左左偏偏态态:右右偏偏态态:3.3.13.3.1比较众数、中位数和算术平均数的相对位置比较众数、中位数和算术平均数的相对位置第三章统计资料的综合第三章统计资料的综合(1 1)PearsonPearson偏倚系数偏倚系数PearsonPearson分布对称,则分布对称,则k=0k=0左偏态,则左偏态,则k0k0k03.3.2 3.3.2 定量地描述偏倚性,常用的两个公式定量地描述偏倚性,常用的两个公式第三章统计资料的综合第三章统计资料的综合(2
20、 2)用标准化的三阶矩阵)用标准化的三阶矩阵g g表示表示3.3.2 3.3.2 定量地描述偏倚性,常用的两个公式定量地描述偏倚性,常用的两个公式第三章统计资料的综合第三章统计资料的综合 3.4 3.4 五数概括法五数概括法五数概括法五数概括法(2 2)第)第1 1四分位数(四分位数(Q Q1 1)。)。(3 3)中位数()中位数(Q Q2 2)。)。(4 4)第)第3 3四分位数(四分位数(Q Q3 3)。)。(5 5)最大值。)最大值。(1 1)最小值最小值。第三章统计资料的综合第三章统计资料的综合首先将数据按递增顺序排列,然后很容易就能确定最小值、首先将数据按递增顺序排列,然后很容易就能
21、确定最小值、3 3个四分位数和最大值了。对个四分位数和最大值了。对1212个月薪数据的样本,按照递个月薪数据的样本,按照递增顺序排列如下:增顺序排列如下:2210 2255 2350|2380 2380 2390|2420 2440 2450|2550 2210 2255 2350|2380 2380 2390|2420 2440 2450|2550 2630 28252630 2825 Q Q1 12365 Q2365 Q2 22405 Q2405 Q3 325002500上述起薪数据以五数概括为:上述起薪数据以五数概括为:22102210,23652365,24052405,2500250
22、0,28252825。3.4 3.4 五数概括法五数概括法第三章统计资料的综合第三章统计资料的综合盒形图实际上是以图形来概括数据。我们将盒形图延盒形图实际上是以图形来概括数据。我们将盒形图延至这一章才讲是因为它的关键是计算中位数和四分位至这一章才讲是因为它的关键是计算中位数和四分位数数Q Q1 1和和Q Q3 3。此外还将用到四分位数间距。此外还将用到四分位数间距IQRIQRQ Q3 3Q Q1 1 。盒形图的画法步骤如下:盒形图的画法步骤如下:(1 1)画一个方盒,其边界恰好是第)画一个方盒,其边界恰好是第1 1和第和第3 3四分位数。对四分位数。对于上述的起薪数据,于上述的起薪数据,Q Q
23、1 123652365,Q Q3 325002500。这个方盒包含了中间的这个方盒包含了中间的5050的数据。的数据。(2 2)在方盒上中位数的位置画一条垂线(对起薪数据,)在方盒上中位数的位置画一条垂线(对起薪数据,中位数为中位数为24052405)。因此中位数将数据分为相等的两个)。因此中位数将数据分为相等的两个部分。部分。3.5 3.5 盒形图盒形图第三章统计资料的综合第三章统计资料的综合(3 3)利用四分位数间距)利用四分位数间距IQR=QIQR=Q3 3Q Q1 1,来设定界限。盒形,来设定界限。盒形图的界限定于低于图的界限定于低于Q Q1 1以下以下1 15 5个个IQRIQR和高于和高于Q Q3 3以上以上1 15 5个个IQRIQR的位置。上、下限以外的数值作为异常值。的位置。上、下限以外的数值作为异常值。(4 4)在图)在图3 34 4中的横线叫做须线(中的横线叫做须线(whiskerwhisker),须线从),须线从方盒的边线出发,直至在上、下限之内的最大值和最方盒的边线出发,直至在上、下限之内的最大值和最小值。小值。(5 5)最后,任一异常值的位置以符号)最后,任一异常值的位置以符号“”标出。标出。3.5 3.5 盒形图盒形图第三章统计资料的综合第三章统计资料的综合盒形图例图盒形图例图图图3-23-23.5 3.5 盒形图盒形图
限制150内