描述性统计量.ppt
描述性统计量现在学习的是第1页,共52页11.1 11.1 集中趋势的测度集中趋势的测度指总体中各单位的次数分布从两边向指总体中各单位的次数分布从两边向中间集中的趋势,中间集中的趋势,用用平均指标平均指标来反映。来反映。集中趋势集中趋势又称平均数,是反又称平均数,是反映社会经济现象总映社会经济现象总体各单位某一数量体各单位某一数量标志在一定时间、标志在一定时间、地点和条地点和条件下所达件下所达到的一般水平的综到的一般水平的综合指标。合指标。数值平均数数值平均数位置平均数位置平均数算术平均数算术平均数调和平均数调和平均数几何平均数几何平均数中位数中位数众数众数平平均均数数现在学习的是第2页,共52页基本形式:基本形式:例:例:算术平均数算术平均数现在学习的是第3页,共52页算术平均数的计算算术平均数的计算算术平均数算术平均数=总体标志总量总体标志总量总体单位总数总体单位总数数据集数据集数据个数数据个数 N简单算术平均数简单算术平均数现在学习的是第4页,共52页A.简单算术平均数简单算术平均数 适用于总体资料未经适用于总体资料未经分组整理、尚为原始资料分组整理、尚为原始资料的情况的情况式中:式中:为算术平均数为算术平均数;为总体单位总数;为总体单位总数;为第为第i i 个单位的标志值。个单位的标志值。算术平均数的计算方法算术平均数的计算方法现在学习的是第5页,共52页平均每人日销售额为:平均每人日销售额为:算术平均数的计算方法算术平均数的计算方法某售货小组某售货小组5 5个人,某天的销售额个人,某天的销售额分别为分别为520520元、元、600600元、元、480480元、元、750750元、元、440440元,则元,则【例例】未分组数据未分组数据现在学习的是第6页,共52页算术平均数的计算方法算术平均数的计算方法分组数据分组数据 按考试成绩分组(分)按考试成绩分组(分)组中值组中值学生人数(人)学生人数(人)组中值组中值人数人数60以下以下60707080809090以上以上556575859538897165520600765665合计合计352715平均成绩为:平均成绩为:平均成绩为:平均成绩为:77.57352715X现在学习的是第7页,共52页B.加权算术平均数加权算术平均数适用于总体资料经过适用于总体资料经过分组整理形成变量数列的分组整理形成变量数列的情况情况式中:式中:为算术平均数为算术平均数;为第为第 组的次数;组的次数;为为组数;组数;为第为第 组的标志值或组中值。组的标志值或组中值。算术平均数的计算方法算术平均数的计算方法现在学习的是第8页,共52页【例例】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)101112131470100380150100合计合计800计算该企业该日全部工人的平均日产量。计算该企业该日全部工人的平均日产量。现在学习的是第9页,共52页解:解:若上述资料为组距数列,则应取各组的若上述资料为组距数列,则应取各组的组组中值中值作为该组的代表值用于计算;此时求作为该组的代表值用于计算;此时求得的算术平均数只是其真值的得的算术平均数只是其真值的近似值近似值。说说明明现在学习的是第10页,共52页将总体各单位标志值按大小顺序排列后,将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值,用指处于数列中间位置的标志值,用 表表示示中位数中位数(Median)不受极端数值的影响不受极端数值的影响,在总体标志值差异很大时,在总体标志值差异很大时,具有较强的代表性。具有较强的代表性。中位数的作用:中位数的作用:中位数把标志值数列分为两个部分中位数把标志值数列分为两个部分,一部分标一部分标志值小于或等于它志值小于或等于它,另一部分标志值大于或等于另一部分标志值大于或等于它它.位置平均数位置平均数现在学习的是第11页,共52页中位数的位次为:中位数的位次为:即第即第3个单位的标志值就是中位数个单位的标志值就是中位数【例例A A】某售货小组某售货小组5 5个人,某天的销售额按从个人,某天的销售额按从小到大的顺序排列为小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)现在学习的是第12页,共52页中位数的位次为中位数的位次为中位数应为第中位数应为第3和第和第4个单位标志值的算术平均数,个单位标志值的算术平均数,即即【例例B B】若上述售货小组为若上述售货小组为6 6个人,某天的销个人,某天的销售额按从小到大的顺序排列为售额按从小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元、元、760760元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)现在学习的是第13页,共52页【例例C C】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)10111213147010038015010070170550700800合计合计800计算该企业该日全部工人日产量的中位数。计算该企业该日全部工人日产量的中位数。中位数的位次:中位数的位次:中位数的确定中位数的确定(单值数列)(单值数列)现在学习的是第14页,共52页指总体中出现次数最多的变量值,用指总体中出现次数最多的变量值,用 表示表示,它不受极端数值的影响,用来说明它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。总体中大多数单位所达到的一般水平。众数众数位置平均数位置平均数现在学习的是第15页,共52页众数(众数(mode):出现次数最多即):出现次数最多即出现频率最高的变量值。出现频率最高的变量值。身高身高 人数人数(CM)(人)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高身高 人数人数(CM)(人)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计总计 83 152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 160 160 160 160 160 160 160 160 160 161 161 161 161 161 161 161 162 162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 165 165 165 165 165 165 165 166 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174现在学习的是第16页,共52页众数的确定方法众数的确定方法某年级某年级83名女生身高资料名女生身高资料 身高身高 人数人数(CM)(人)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高身高 人数人数(CM)(人)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计总计 83 现在学习的是第17页,共52页 众数、中位数和均值都是对数据集中趋势的测度,众数、中位数和均值都是对数据集中趋势的测度,1、均值均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。2、中位数中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。4、对接近正态的分布数据,常用均值均值描述数据的集中趋势;对偏态分布,常用众数众数或中位数中位数描述数据的集中趋势。5、均值、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数中位数或众数众数进行描述,而对定类尺度数据,只能用众数众数进行描述。众数、中位数和均值的应用场合众数、中位数和均值的应用场合现在学习的是第18页,共52页数据分布形状数据分布形状 Shape表明数据是如何表明数据是如何分布分布的的偏态偏态Skew Skew 与与 对称对称SymmetrySymmetry左偏左偏:均值均值 中位数中位数对称对称(零偏度零偏度):均值:均值 =中位数中位数右偏的右偏的左偏的左偏的对称的对称的均值均值=中位数中位数=众数众数均值均值 中位数中位数 众数众数众数众数 中位数中位数 均值均值现在学习的是第19页,共52页 位置测度的一种常用方法:位置测度的一种常用方法:百分位数百分位数(Percentile)p144概念:概念:第第p p个百分位数是这样的数值:至少有个百分位数是这样的数值:至少有p%p%个数个数值跟它一样大或比它小;至少有值跟它一样大或比它小;至少有(100(100p)%p)%个数值个数值跟它一样大或比它大。跟它一样大或比它大。例如,一个考生入学考试的口语成绩是例如,一个考生入学考试的口语成绩是5454分,对分,对应第应第7070个百分位数,我们就可以知道大约有个百分位数,我们就可以知道大约有70%70%的考的考生成绩比他低,或者说大约有生成绩比他低,或者说大约有30%30%的考生成绩比他的考生成绩比他高。高。现在学习的是第20页,共52页 通常将数据分成四个部分是合乎需要的,通常将数据分成四个部分是合乎需要的,每一部分大约包括每一部分大约包括1/41/4或或25%25%的数据,分位点的数据,分位点称为四分位数。称为四分位数。现在学习的是第21页,共52页第二节第二节 离散趋势的测度离散趋势的测度 标志变异指标标志变异指标统计上用来反映总体各单位标志值之统计上用来反映总体各单位标志值之间差异程度大小的综合指标,也称做间差异程度大小的综合指标,也称做标志变动度标志变动度。平均指标是一个代表性数值,它反映总体各单位某一数量平均指标是一个代表性数值,它反映总体各单位某一数量标志的一般水平,而把总体各单位之间的差异抽象化了。但标志的一般水平,而把总体各单位之间的差异抽象化了。但总体各单位之间的差异是客观存在的,这种差异也是统计总总体各单位之间的差异是客观存在的,这种差异也是统计总体的重要特征之一。因此,要全面反映一个总体的特征,还体的重要特征之一。因此,要全面反映一个总体的特征,还必须测定总体各单位之间必须测定总体各单位之间差异程度差异程度。作用作用1、衡量平均指标、衡量平均指标代表性代表性的大小的大小2、反映社会经济活动过程的、反映社会经济活动过程的均衡性均衡性和和稳定性稳定性现在学习的是第22页,共52页测定标志变异度的绝对量指标测定标志变异度的绝对量指标(与原变量值名数相同与原变量值名数相同)测定标志变异度的相对量指标测定标志变异度的相对量指标(表现为无名数表现为无名数)全距全距平均差平均差标准差标准差全距全距系数系数平均差平均差系数系数标准差标准差系数系数标志变异指标的种类标志变异指标的种类现在学习的是第23页,共52页指所研究的数据中,最大值与指所研究的数据中,最大值与最小值之差,又称最小值之差,又称极差(极差(Range)。全距全距最大变量值或最最大变量值或最高组上限或开口高组上限或开口组假定上限组假定上限最小变量值或最最小变量值或最低组下限或开口低组下限或开口组假定下限组假定下限【例例】某售货小组某售货小组5 5人某天的销售额分别为人某天的销售额分别为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则标志变异指标的种类标志变异指标的种类现在学习的是第24页,共52页q优点优点:计算计算方法简单、易懂;方法简单、易懂;q缺点缺点:易受极端数值的影响,不能全易受极端数值的影响,不能全面反映所有标志值差异大小及分布状面反映所有标志值差异大小及分布状况,准确程度差况,准确程度差全距的特点全距的特点标志变异指标的种类标志变异指标的种类现在学习的是第25页,共52页 简单平均差简单平均差适用于未分组资料适用于未分组资料是各个数据与其算术平均数的离差绝是各个数据与其算术平均数的离差绝对值的算术平均数,用对值的算术平均数,用A.D 表示表示平均差平均差计算公式:计算公式:总体算术总体算术平均数平均数总体单总体单位总数位总数第第 个单位个单位的变量值的变量值标志变异指标的种类标志变异指标的种类现在学习的是第26页,共52页【例例】某公司销售小组某公司销售小组5个人,某天的销售额分别个人,某天的销售额分别为为440元、元、480元、元、520元、元、600元、元、750元,求该元,求该销售小组销售额的平均差。销售小组销售额的平均差。解:解:即该售货小组即该售货小组5个人销售额的平均差为个人销售额的平均差为93.6元元标志变异指标的种类标志变异指标的种类现在学习的是第27页,共52页 简单标准差简单标准差适用于未分组资料适用于未分组资料是各个数据与其算术平均数的离差是各个数据与其算术平均数的离差平方的算术平均数的开平方根,用平方的算术平均数的开平方根,用 来表示;标准差的平方又叫作方差来表示;标准差的平方又叫作方差(Variance),用,用 来表示。来表示。标准差标准差Standard Deviation计算公式:计算公式:总体单总体单位总数位总数第第 个单位个单位的变量值的变量值总体算术总体算术平均数平均数现在学习的是第28页,共52页【例例】某销售小组某销售小组5个人,某天的销售额分别为个人,某天的销售额分别为440元、元、480元、元、520元、元、600元、元、750元,求该销元,求该销售小组销售额的标准差。售小组销售额的标准差。解:解:(比较:其销售额的平均差为(比较:其销售额的平均差为93.6元)元)即该售货小组销售额的标准差为即该售货小组销售额的标准差为109.62元。元。现在学习的是第29页,共52页即:即:标准差的简捷计算标准差的简捷计算避免离差平方和计算过程的出现避免离差平方和计算过程的出现目的目的:变量值平方变量值平方的平均数的平均数变量值平均变量值平均数的平方数的平方现在学习的是第30页,共52页平均差系数平均差系数标准差系数标准差系数变异系数变异系数用来对比不同水平的同类现象,特别是用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小不同类现象总体平均数代表性的大小:标准差系数小的总体,其平均数的标准差系数小的总体,其平均数的代表性大;反之,亦然。代表性大;反之,亦然。应用应用:各种变指标与其算术平均数之比。各种变指标与其算术平均数之比。一般用一般用V表示。表示。现在学习的是第31页,共52页【例例】某年级一、二两班某门课的平均成绩分别为某年级一、二两班某门课的平均成绩分别为82分和分和76分,其成绩的标准差分别为分,其成绩的标准差分别为15.6分和分和14.8分,比较两班平均成绩代表性的大小。分,比较两班平均成绩代表性的大小。解:解:一班成绩的标准差系数为:一班成绩的标准差系数为:二班成绩的标准差系数为:二班成绩的标准差系数为:因为因为 ,所以一班平均成绩的代,所以一班平均成绩的代表性比二班大。表性比二班大。现在学习的是第32页,共52页【例例例例】:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约两家供应商均表示能在大约10个工作日内供齐所需原材料个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供他们供货所需天数的分布情况却是不同的货所需天数的分布情况却是不同的(图)。问问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?哪家供货商供货呢?现在学习的是第33页,共52页11.3.1 正态分布简介预备知识-连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值它取任何一个特定的值的概率都等于0不能列出每一个值及其相应的概率通常研究它取某一区间值的概率用数学函数的形式和分布函数的形式来描述现在学习的是第34页,共52页概率密度函数1.设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件2.f(x)不是概率现在学习的是第35页,共52页概率密度函数 在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1 x2,P(x1 X x2)是该曲线下从x1 到 x2的面积f(x)xab概率是曲线下的面积概率是曲线下的面积现在学习的是第36页,共52页分布函数连续型随机变量的概率也可以用分布函数F(x)来表示分布函数定义为3.根据分布函数,P(aX0)现在学习的是第39页,共52页f(x)的图像为的图像为很多现象符合正态分布:很多现象符合正态分布:大批量工业产品的重大批量工业产品的重量和尺寸;量和尺寸;同龄人的身高体重;同龄人的身高体重;普通人的收入;普通人的收入;超市鸡蛋的重量;超市鸡蛋的重量;现在学习的是第40页,共52页正态分布函数的性质1.曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交2.正态曲线下的总面积等于13.随机变量的概率由曲线下的面积给出abxf(x)现在学习的是第41页,共52页特点:关于平均值对称;68的数值在 -sd,sd+;95%的数值在 -2sd,2sd+;99%的数值在 -3sd,3sd+;例:某班平均成绩是69,标准差是10,则68的同学成绩在69-10,69+10之间,95的成绩在69-2*10,69+2*10之间,99的成绩在69-3*10,69+3*10之间。现在学习的是第42页,共52页标准化标准化的主要目的:便于比较;方便计算和查表。如:高考录取中地方高考成绩和全国卷成绩;则称则称X服从参数为服从参数为 ,2的的正态分布正态分布,记为记为XN(,2)。现在学习的是第43页,共52页标准正态分布函数1.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布2.2.标准正态分布的概率密度函数标准正态分布的概率密度函数3.标准正态分布的分布函数现在学习的是第44页,共52页标准正态分布x 一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布 11Z标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布 现在学习的是第45页,共52页标准正态分布表的使用将一个一般的转换为标准正态分布计算概率时,查标准正态概率分布表(excel中的处理?)函数=NORMSDIST(?),对于负的 x,可由(-x)x得到对于标准正态分布,即XN(0,1),有P(a X b)b aP(|X|a)2 a 1对于一般正态分布,即XN(,),有现在学习的是第46页,共52页正态分布(实例)【例例例例】设设X X N N(0(0,1)1),求以下概率:,求以下概率:(1)(1)P P(X X 1.5)2)2);(3)(3)P P(-1(-1X X 3)3);(4)(4)P P(|(|X X|2)2)解解解解:(1)(1)P P(X X 1.5)=2)=1-2)=1-P P(X X 2)=1-0.9973=0.0227 2)=1-0.9973=0.0227 (3)(3)P P(-1(-1X X 3)=3)=P P(X X 3)-3)-P P(X X-1)-1)=(3)-(3)-(-1)=(-1)=(3)1-(3)1-(1)(1)=0.9987-(1-0.8413)=0.8354 =0.9987-(1-0.8413)=0.8354 (4)(4)P P(|(|X X|2)=2)=P P(-2(-2 X X|2)=2)=(2)-(2)-(-2)(-2)=(2)-1-(2)-1-(2)=2(2)=2(2)-1=0.9545(2)-1=0.9545现在学习的是第47页,共52页正态分布(实例)【例例】设设XN N(5,32 2),求以下概率 (1)P P(X X 10)10);(2)(2)P P(2(2X 1010)解解:(1)(1)(2)现在学习的是第48页,共52页正态分布(实例)【例例】某公司每周奖金服从正态分布,均值为某公司每周奖金服从正态分布,均值为42.5元,标准差为元,标准差为10.4元,问每周奖金超过元,问每周奖金超过60元的员工元的员工占全员工比例?占全员工比例?解:解:设X为每周奖金,XN(42.5,10.42),所求概率为:现在学习的是第49页,共52页什么是6sigma管理运动?6sigma管理的来源 6最早作为一种突破性的质量管理战略在八十年代末在摩托罗拉公司成型并付诸实践,三年后该公司的六西格玛质量战略取得了空前的成功:产品的不合格率从百万分之6210(大约四西格玛)减少到百万分之32(5.5西格玛),在此过程中节约成本超过20亿美金。随后即有德仪公司和联信公司(后与霍尼维尔合并)在各自的制造流程全面推广六西格玛质量战略。但真正把这一高度有效的质量战略变成管理哲学和实践,从而形成一种企业文化的是在杰克韦尔奇领导下的通用电气公司。在质量上,6Sigma表示每百万个产品的不良品率(PPM)不大于3.4,意味着每一百万个产品中最多只有3.4个不合格品,即合格率是99.99966%。现在学习的是第50页,共52页什么是6sigma管理运动?我国大多数企业在2-2.5个西格玛的水平,平均3.5,意味每百万个中产生10000-66800个缺陷,对应合格率为93.3%-96%。美国的统计资料表明,一个3西格玛的公司直接与质量问题有关的成本占其销售收入的15%30%!现在学习的是第51页,共52页U型分布幸福感死亡率年龄现在学习的是第52页,共52页