《描述性统计量课件.ppt》由会员分享,可在线阅读,更多相关《描述性统计量课件.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、描述性统计量第1页,此课件共52页哦11.1 11.1 集中集中趋势的的测度度指总体中各单位的次数分布从两边向指总体中各单位的次数分布从两边向中间集中的趋势,中间集中的趋势,用用平均指标平均指标来反映。来反映。集中趋势集中趋势又称平均数,是反又称平均数,是反映社会经济现象总映社会经济现象总体各单位某一数量体各单位某一数量标志在一定时间、标志在一定时间、地点和条地点和条件下所达件下所达到的一般水平的综到的一般水平的综合指标。合指标。数值平均数数值平均数位置平均数位置平均数算术平均数算术平均数调和平均数调和平均数几何平均数几何平均数中位数中位数众数众数平平均均数数第2页,此课件共52页哦基本形式:
2、基本形式:例:例:算术平均数算术平均数第3页,此课件共52页哦算算术平均数的平均数的计算算算算术平均数平均数=总体体标志志总量量总体体单位位总数数数据集数据集数据个数数据个数 N简单算算术平均数平均数第4页,此课件共52页哦A.简单算术平均数简单算术平均数 适用于适用于总体体资料未料未经分分组整理、尚整理、尚为原始原始资料料的情况的情况式中:式中:为算算术平均数平均数;为总体体单位位总数;数;为第第i i 个个单位的位的标志志值。算术平均数的计算方法算术平均数的计算方法第5页,此课件共52页哦平均每人日平均每人日销售售额为:算术平均数的计算方法算术平均数的计算方法某售某售货小小组5 5个人,某
3、天的个人,某天的销售售额分分别为520520元、元、600600元、元、480480元、元、750750元、元、440440元,元,则【例例】未分组数据未分组数据第6页,此课件共52页哦算术平均数的计算方法算术平均数的计算方法分组数据分组数据 按考试成绩分组(分)按考试成绩分组(分)组中值组中值学生人数(人)学生人数(人)组中值组中值人数人数60以下以下60707080809090以上以上556575859538897165520600765665合计合计352715平均成平均成平均成平均成绩为绩为:77.57352715X第7页,此课件共52页哦B.加权算术平均数加权算术平均数适用于适用于总
4、体体资料料经过分分组整理形成整理形成变量数列的量数列的情况情况式中:式中:为算算术平均数平均数;为第第 组的次数;的次数;为组数;数;为第第 组的的标志志值或或组中中值。算术平均数的计算方法算术平均数的计算方法第8页,此课件共52页哦【例例】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)101112131470100380150100合计合计800计算该企业该日全部工人的平均日产量。计算该企业该日全部工人的平均日产量。第9页,此课件共52页哦解:解:若上述若上述资料料为组距数列,距数列,则应取各取各组的的组中中值作作为该组的
5、代表的代表值用于用于计算;此算;此时求求得的算得的算术平均数只是其真平均数只是其真值的的近似近似值。说说明明第10页,此课件共52页哦将总体各单位标志值按大小顺序排列将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值,后,指处于数列中间位置的标志值,用用 表示表示中位数中位数(Median)不受极端数不受极端数值的影响的影响,在,在总体体标志志值差异很大差异很大时,具,具有有较强的代表性。的代表性。中位数的作用:中位数的作用:中位数把中位数把标志志值数列分数列分为两个部分两个部分,一部分一部分标志志值小于或等于它小于或等于它,另一部分另一部分标志志值大于或等于大于或等于它它.位置平
6、均数位置平均数第11页,此课件共52页哦中位数的位次为:中位数的位次为:即第即第3个单位的标志值就是中位数个单位的标志值就是中位数【例例A A】某售货小组某售货小组5 5个人,某天的销售额按从个人,某天的销售额按从小到大的顺序排列为小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)第12页,此课件共52页哦中位数的位次为中位数的位次为中位数应为第中位数应为第3和第和第4个单位标志值的算术平均数,个单位标志值的算术平均数,即即【例例B B】若上述售货小组为若上述售货小组为6
7、 6个人,某天的销个人,某天的销售额按从小到大的顺序排列为售额按从小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元、元、760760元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)第13页,此课件共52页哦【例例C C】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)10111213147010038015010070170550700800合计合计800计算该企业该日全部工人日产量的中位数。计算该企业该日全部工
8、人日产量的中位数。中位数的位次:中位数的位次:中位数的确定中位数的确定(单值数列)(单值数列)第14页,此课件共52页哦指总体中出现次数最多的变量值,用指总体中出现次数最多的变量值,用 表示表示,它不受极端数值的影响,用来说它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水明总体中大多数单位所达到的一般水平。平。众数众数位置平均数位置平均数第15页,此课件共52页哦众数(众数(mode):出):出现次数最多即次数最多即出出现频率最高的率最高的变量量值。身高身高 人数人数(CM)(人)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12
9、 161 7 162 8 163 4 身高身高 人数人数(CM)(人)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计 83 152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 160 160 160 160 160 160 160 160 160 161 161 161 161 161 161 161 162 162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 1
10、65 165 165 165 165 165 165 166 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174第16页,此课件共52页哦众数的确定方法众数的确定方法某年某年级83名女生身高名女生身高资料料 身高身高 人数人数(CM)(人)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高身高 人数人数(CM)(人)(人)164 3 165 8 1
11、66 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计 83 第17页,此课件共52页哦 众数、中位数和均值都是对数据集中趋势的测度,众数、中位数和均值都是对数据集中趋势的测度,1、均值均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。2、中位数中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。4、对
12、接近正态的分布数据,常用均值均值描述数据的集中趋势;对偏态分布,常用众数众数或中位数中位数描述数据的集中趋势。5、均值、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位中位数数或众数众数进行描述,而对定类尺度数据,只能用众数众数进行描述。众数、中位数和均值的应用场合众数、中位数和均值的应用场合第18页,此课件共52页哦数据分布形状数据分布形状 Shape表明数据是如何表明数据是如何分布分布的的偏偏态Skew Skew 与与 对称称SymmetrySymmetry左偏左偏:均均值 中位数中位数对称称(零偏度零偏度):均:均值 =中位数中位数右偏的右偏的左偏的左偏的对称的对称的均值均值=中位
13、数中位数=众数众数均值均值 中位数中位数 众数众数众数众数 中位数中位数 均值均值第19页,此课件共52页哦 位置测度的一种常用方法:位置测度的一种常用方法:百分位数百分位数(Percentile)p144概念:概念:第第p p个百分位数是个百分位数是这样的数的数值:至少有:至少有p%p%个个数数值跟它一跟它一样大或比它小;至少有大或比它小;至少有(100(100p)%p)%个数个数值跟它一跟它一样大或比它大。大或比它大。例如,一个考生入学考例如,一个考生入学考试的口的口语成成绩是是5454分,分,对应第第7070个百分位数,我个百分位数,我们就可以知道大就可以知道大约有有70%70%的考的考
14、生成生成绩比他低,或者比他低,或者说大大约有有30%30%的考生成的考生成绩比他高。比他高。第20页,此课件共52页哦 通常将数据分成四个部分是合乎需要的,通常将数据分成四个部分是合乎需要的,每一部分大每一部分大约包括包括1/41/4或或25%25%的数据,分位点的数据,分位点称称为四分位数。四分位数。第21页,此课件共52页哦第二第二节 离散离散趋势的的测度度 标志变异指标标志变异指标统计上用来反映总体各单位标志值统计上用来反映总体各单位标志值之间差异程度大小的综合指标,也之间差异程度大小的综合指标,也称做称做标志变动度标志变动度。平均指平均指标是一个代表性数是一个代表性数值,它反映,它反映
15、总体各体各单位某一数量位某一数量标志志的一般水平,而把的一般水平,而把总体各体各单位之位之间的差异抽象化了。但的差异抽象化了。但总体各体各单位之位之间的差异是客的差异是客观存在的,存在的,这种差异也是种差异也是统计总体的重要体的重要特征之一。因此,要全面反映一个特征之一。因此,要全面反映一个总体的特征,体的特征,还必必须测定定总体各体各单位之位之间差异程度差异程度。作用作用1、衡量平均指标、衡量平均指标代表性代表性的大小的大小2、反映社会经济活动过程的、反映社会经济活动过程的均衡性均衡性和和稳定性稳定性第22页,此课件共52页哦测定定标志志变异度的异度的绝对量指量指标(与原与原变量量值名数相同
16、名数相同)测定定标志志变异度的相异度的相对量指量指标(表表现为无名数无名数)全距全距平均差平均差标准差标准差全距全距系数系数平均差平均差系数系数标准差标准差系数系数标志变异指标的种类标志变异指标的种类第23页,此课件共52页哦指所研究的数据中,最大指所研究的数据中,最大值与最与最小小值之差,又称之差,又称极差(极差(Range)。全距全距最大最大变量量值或最或最高高组上限或开口上限或开口组假定上限假定上限最小最小变量量值或最或最低低组下限或开口下限或开口组假定下限假定下限【例例】某售某售货小小组5 5人某天的人某天的销售售额分分别为440440元、元、480480元、元、520520元、元、6
17、00600元、元、750750元,元,则标志变异指标的种类标志变异指标的种类第24页,此课件共52页哦q优点点:计算算方法方法简单、易懂;、易懂;q缺点缺点:易受极端数易受极端数值的影响,不能全面的影响,不能全面反映所有反映所有标志志值差异大小及分布状况,差异大小及分布状况,准确程度差准确程度差全距的特点全距的特点标志变异指标的种类标志变异指标的种类第25页,此课件共52页哦 简单平均差简单平均差适用于未分组资料适用于未分组资料是各个数据与其算是各个数据与其算术平均数的离差平均数的离差绝对值的算的算术平均数,用平均数,用A.D 表示表示平均差平均差计算公式:计算公式:总体算术总体算术平均数平均
18、数总体单总体单位总数位总数第第 个单位个单位的变量值的变量值标志变异指标的种类标志变异指标的种类第26页,此课件共52页哦【例例】某公司销售小组某公司销售小组5个人,某天的销售额分个人,某天的销售额分别为别为440元、元、480元、元、520元、元、600元、元、750元,求元,求该销售小组销售额的平均差。该销售小组销售额的平均差。解:解:即该售货小组即该售货小组5个人销售额的平均差为个人销售额的平均差为93.6元元标志变异指标的种类标志变异指标的种类第27页,此课件共52页哦 简单标准差简单标准差适用于未分组资料适用于未分组资料是各个数据与其算是各个数据与其算术平均数的离差平均数的离差平方的
19、算平方的算术平均数的开平方根,用平均数的开平方根,用 来表示;来表示;标准差的平方又叫作方差准差的平方又叫作方差(Variance),用,用 来表示。来表示。标准差标准差Standard Deviation计算公式:计算公式:总体单总体单位总数位总数第第 个单位个单位的变量值的变量值总体算术平总体算术平均数均数第28页,此课件共52页哦【例例】某销售小组某销售小组5个人,某天的销售额分别为个人,某天的销售额分别为440元、元、480元、元、520元、元、600元、元、750元,求该销元,求该销售小组销售额的标准差。售小组销售额的标准差。解:解:(比较:其销售额的平均差为(比较:其销售额的平均差
20、为93.6元)元)即该售货小组销售额的标准差为即该售货小组销售额的标准差为109.62元。元。第29页,此课件共52页哦即:即:标准差的简捷计算标准差的简捷计算避免离差平方和计算过程的出现避免离差平方和计算过程的出现目的目的:变量值平方变量值平方的平均数的平均数变量值平均变量值平均数的平方数的平方第30页,此课件共52页哦平均差系数平均差系数标准差系数标准差系数变异系数变异系数用来用来对比不同水平的同比不同水平的同类现象,特象,特别是是不同不同类现象象总体平均数代表性的大小体平均数代表性的大小:标准差系数小的准差系数小的总体,其平均数的体,其平均数的代表性大;反之,亦然。代表性大;反之,亦然。
21、应用应用:各种变指标与其算术平均数之比。各种变指标与其算术平均数之比。一般用一般用V表示。表示。第31页,此课件共52页哦【例例】某年级一、二两班某门课的平均成绩分别为某年级一、二两班某门课的平均成绩分别为82分和分和76分,其成绩的标准差分别为分,其成绩的标准差分别为15.6分和分和14.8分,比较两班平均成绩代表性的大小。分,比较两班平均成绩代表性的大小。解:解:一班成绩的标准差系数为:一班成绩的标准差系数为:二班成绩的标准差系数为:二班成绩的标准差系数为:因为因为 ,所以一班平均成绩的代,所以一班平均成绩的代表性比二班大。表性比二班大。第32页,此课件共52页哦【例例例例】:如果你是一家
22、制造业公司的供应部门经理,与两家原材料供应商联系供货,两家两家供应商均表示能在大约供应商均表示能在大约10个工作日内供齐所需原材料个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的他们供货所需天数的分布情况却是不同的分布情况却是不同的(图)。问:两家供两家供货商按商按时供供货的可信度相同的可信度相同吗?考?考虑它它们直方直方图的差异,你更愿的差异,你更愿意意选择哪家供哪家供货商供商供货呢?呢?第33页,此课件共52页哦11.3.1 正态分布简介预备知识-连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值
23、它取任何一个特定的值的概率都等于0不能列出每一个值及其相应的概率通常研究它取某一区间值的概率用数学函数的形式和分布函数的形式来描述第34页,此课件共52页哦概率密度函数1.设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件2.f(x)不是概率第35页,此课件共52页哦概率密度函数 在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1 x2,P(x1 X x2)是该曲线下从x1 到 x2的面积f(x)xab概率是曲线下的面积概率是曲线下的面积第36页,此课件共52页哦分布函数连续型随机变量的概率也可以用分布函数F(x)来表示分布函数定义为3.根据分布函数,P(
24、aX0)第39页,此课件共52页哦f(x)的的图像像为很多很多现象符合正象符合正态分布:分布:大批量工大批量工业产品的重品的重量和尺寸;量和尺寸;同同龄人的身高体重;人的身高体重;普通人的收入;普通人的收入;超市超市鸡蛋的重量;蛋的重量;第40页,此课件共52页哦正态分布函数的性质1.曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交2.正态曲线下的总面积等于13.随机变量的概率由曲线下的面积给出abxf(x)第41页,此课件共52页哦特点:关于平均值对称;68的数值在 -sd,sd+;95%的数值在 -2sd,2sd+;99%的数值在 -3sd,3sd+;例:某班
25、平均成绩是69,标准差是10,则68的同学成绩在69-10,69+10之间,95的成绩在69-2*10,69+2*10之间,99的成绩在69-3*10,69+3*10之间。第42页,此课件共52页哦标准化标准化的主要目的:便于比较;方便计算和查表。如:高考录取中地方高考成绩和全国卷成绩;则称称X服从参数服从参数为 ,2的的正正态分布分布,记为XN(,2)。第43页,此课件共52页哦标准正态分布函数1.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布2.标准正态分布的概率密度函数3.标准正态分布的分布函数标准正态分布的分布函数第44页,此课件共52页哦标准正态分布x 一般正态分布一
26、般正态分布一般正态分布一般正态分布一般正态分布一般正态分布 11Z标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布 第45页,此课件共52页哦标准正态分布表的使用将一个一般的转换为标准正态分布计算概率时,查标准正态概率分布表(excel中的处理?)函数=NORMSDIST(?),对于负的 x,可由(-x)x得到对于标准正态分布,即XN(0,1),有P(a X b)b aP(|X|a)2 a 1对于一般正态分布,即XN(,),有第46页,此课件共52页哦正态分布(实例)【例例例例】设设X X N N(0(0,1)1),求以下概率:,求以下概率:(1)(1)P P(X X
27、1.5)2)2);(3)(3)P P(-1(-1X X 3)3);(4)(4)P P(|(|X X|2)2)解解解解:(1)(1)P P(X X 1.5)=2)=1-2)=1-P P(X X 2)=1-0.9973=0.0227 2)=1-0.9973=0.0227 (3)(3)P P(-1(-1X X 3)=3)=P P(X X 3)-3)-P P(X X-1)-1)=(3)-(3)-(-1)=(-1)=(3)1-(3)1-(1)(1)=0.9987-(1-0.8413)=0.8354 =0.9987-(1-0.8413)=0.8354 (4)(4)P P(|(|X X|2)=2)=P P(
28、-2(-2 X X|2)=2)=(2)-(2)-(-2)(-2)=(2)-1-(2)-1-(2)=2(2)=2(2)-1=0.9545(2)-1=0.9545第47页,此课件共52页哦正态分布(实例)【例例】设XN N(5,3 32 2),求以下概率 (1)P(X X 10)10);(2)(2)P(2X 1010)解解:(1)(2)第48页,此课件共52页哦正态分布(实例)【例例】某公司每周奖金服从正态分布,均值为某公司每周奖金服从正态分布,均值为42.5元,标准差为元,标准差为10.4元,问每周奖金超过元,问每周奖金超过60元的员工元的员工占全员工比例?占全员工比例?解:解:设X为每周奖金,
29、XN(42.5,10.42),所求概率为:第49页,此课件共52页哦什么是6sigma管理运动?6sigma管理的来源 6最早作为一种突破性的质量管理战略在八十年代末在摩托罗拉公司成型并付诸实践,三年后该公司的六西格玛质量战略取得了空前的成功:产品的不合格率从百万分之6210(大约四西格玛)减少到百万分之32(5.5西格玛),在此过程中节约成本超过20亿美金。随后即有德仪公司和联信公司(后与霍尼维尔合并)在各自的制造流程全面推广六西格玛质量战略。但真正把这一高度有效的质量战略变成管理哲学和实践,从而形成一种企业文化的是在杰克韦尔奇领导下的通用电气公司。在质量上,6Sigma表示每百万个产品的不良品率(PPM)不大于3.4,意味着每一百万个产品中最多只有3.4个不合格品,即合格率是99.99966%。第50页,此课件共52页哦什么是6sigma管理运动?我国大多数企业在2-2.5个西格玛的水平,平均3.5,意味每百万个中产生10000-66800个缺陷,对应合格率为93.3%-96%。美国的统计资料表明,一个3西格玛的公司直接与质量问题有关的成本占其销售收入的15%30%!第51页,此课件共52页哦U型分布幸福感死亡率年龄第52页,此课件共52页哦
限制150内