六西格玛基本统计.pptx
《六西格玛基本统计.pptx》由会员分享,可在线阅读,更多相关《六西格玛基本统计.pptx(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、六西格玛内训课件基础统计基础统计理论名录4 1235 统计目的数据分类统计概述基本图表六西格玛度量的种类第一局部第一局部统计目的统计目的你看到了什么?你需要整个图片!数据的重要性数据的重要性数据是来自观察的数据是来自观察的,由一个过程所搜集得来的数据可让由一个过程所搜集得来的数据可让我们描绘过程我们描绘过程,了解过程了解过程,改善过程甚至操作过程改善过程甚至操作过程.Data 数据驱动决策和行动数据驱动决策和行动数据对六西格玛很重要使用统计学来解决真实的问题使用统计学来解决真实的问题真实的真实的解决方案解决方案统计学统计学解决方案解决方案统计学问题统计学问题真实的问题真实的问题把问题转换为数字
2、(Y)定义 Y 的规格(可接受范围)理解(xi)与流程输出(Y)的关系Y=f(x1,x2,x3.)影响流程表现的关键因子是什么?找到因子(xi)的水平和操作窗口,保证输出(Y)是在可接受范围内操作输入(xi)防止输出/缺陷统计思想所有作业是相互关联的工序的系统所有作业是相互关联的工序的系统例)线路板作业过程原料投入贴插装清洗喷胶所有工序中都存在散布所有工序中都存在散布可防止原因不可防止原因同样原料同样生产工艺同样作业者同样方法发生散布发生散布统计思想是 遵守以下四种根本原则的学习,思考和实践的一种哲学。调查散布和减少散布的活动调查散布和减少散布的活动减少工序散布的活动减少产品质量散布顾客满足费
3、用降低考虑判断失误的错误考虑判断失误的错误注意从样本数据的结果判断时发生错误统计思想不是单纯的数字组合或计算,而是为质量革新而思考的方法,也是统计思想不是单纯的数字组合或计算,而是为质量革新而思考的方法,也是思考的过程。思考的过程。统计思想不是统计知识或工具,更不是软件的具体操作,而是学会用统计思维看统计思想不是统计知识或工具,更不是软件的具体操作,而是学会用统计思维看待和分析问题,防止只看到外表层次的现象就去下结论作决策。待和分析问题,防止只看到外表层次的现象就去下结论作决策。统计思想统计思想举例:去年公司的顾客满意率为80%,今年调查了100位顾客,有85位顾客表示满意,满意率到达85%。
4、能否说今年的顾客满意率比去年提高了5%?当重复测量时当重复测量时,经常产生不同的结果经常产生不同的结果,这就是偏差这就是偏差偏差的类型:偏差的类型:通常原因的偏差:通常原因的偏差:测量中的差异是被期望的并可以预测的测量中的差异是被期望的并可以预测的 特殊原因的偏差特殊原因的偏差(随机随机):测量中的差异是不可预测的测量中的差异是不可预测的偏差偏差我们是期望能够观察出偏差的,如果没有偏差那肯定会有问题我们是期望能够观察出偏差的,如果没有偏差那肯定会有问题如果所有的区域的产品的销售量完全相同如果所有的区域的产品的销售量完全相同,我们将疑心数据的真我们将疑心数据的真实性实性.偏差的存在使我们的工作更
5、有挑战性偏差的存在使我们的工作更有挑战性我们通常不相信来源于单个数据的结果我们通常不相信来源于单个数据的结果,通常收集多个数据并注意通常收集多个数据并注意收集的方法以减少偏差收集的方法以减少偏差结论:偏差是自然存在的结论:偏差是自然存在的,被期望的并是统计的基础被期望的并是统计的基础偏差偏差统计领域用以下方法处理偏差统计领域用以下方法处理偏差 描述型统计描述型统计-用图表或总结性的数字用图表或总结性的数字(中心值中心值,方差方差,标准偏差标准偏差)来描述一系列数据的特征来描述一系列数据的特征.统计推论统计推论-当结果的差异可能因为随机偏差或不能归属为随机当结果的差异可能因为随机偏差或不能归属为
6、随机偏差时所作的决定。偏差时所作的决定。(置信区间和假设检验置信区间和假设检验)试验设计试验设计(DOE)-收集并分析数据,以估计过程并改变效果收集并分析数据,以估计过程并改变效果.统计领域中偏差的处理统计领域中偏差的处理过程偏差确定过程是否稳定 如果过程不稳定,鉴别并消除不稳定的要因 确定过程的平均值的位置 -它在目标线上吗?如果不在,确定影响平均值的变量,并决定最优的设置以到达目标值 估计总散布的幅度 -与顾客的要求(规格限)比起来,是可接受的吗?如果不是,确定散布源,而后消除或减少他们对过程的影响。第二局部第二局部数据分类数据分类数据的种类不间断的总是可以以更小的单位来测量经常与测量系统
7、一起出现不可以以更小的单位来测量只能选择几个有限的数值连续型的连续型的离散型的离散型的举例时间,重量,金额,长度举例二元的:男/女,好/坏,Yes/no分类的:周一-周日,地点(Paris,London,Beijing,.)计数:一张发票上的错误数目,一个月内发生意外的次数连续型数据连续型数据u 益处益处:1.能够为使用相对小范围抽样的过程提供详细的信息能够为使用相对小范围抽样的过程提供详细的信息2.适用于低缺陷率适用于低缺陷率3.能够预估开展趋势和情况能够预估开展趋势和情况u 缺点缺点:1.通常较难得到数据通常较难得到数据2.分析更为复杂分析更为复杂离散型数据离散型数据u 益处益处:1.容易
8、得到数据容易得到数据,并且计算方法简单并且计算方法简单2.数据容易理解数据容易理解3.数据随时可得数据随时可得u 缺点缺点:1.无法显示缺陷怎样发生及过程如何变化无法显示缺陷怎样发生及过程如何变化2.不适合低缺陷率不适合低缺陷率(需要大量的抽样需要大量的抽样)3.不能预测开展趋势和情况不能预测开展趋势和情况数据类型比较数据类型比较连续型数据离散型数据连续数据计数数据通常为正态分布通常为二项式分布或泊松分布实际数值合格/不合格实际定义严谨数据定义较差需少量抽样需大量抽样练习:这是什么种类的数据?申请贷款所需要的时间每张发票上的错误数目每张发票上的缺陷百分比一天内销售酒的数量导线的长度办公室的地点
9、申请贷款所需要的时间 (天)销售人员一天内拜访的客户数量赢得招标的百分比销售人员的销售额销售人员的名字第三局部第三局部统计概述统计概述l总体总体 想要测量对象的全部想要测量对象的全部l参数参数 用总体的所有数据计算出的数值用总体的所有数据计算出的数值(如均值如均值,标准差标准差),称为总体的参数称为总体的参数 x参数参数总体平均值总体平均值总体标准差总体标准差总体总体统计学基本术语统计学基本术语统计学基本术语统计学基本术语l样本样本 从总体抽出的局部数据从总体抽出的局部数据l统计量统计量 用样本的所有数据计算出的数值用样本的所有数据计算出的数值(如均值如均值,标准差标准差),称为样本的统计量称
10、为样本的统计量x统计量统计量样本平均值样本平均值样本标准差样本标准差s总体总体样本样本描述计量型数据集描述计量型数据集一组计量型数据能显示以下一组计量型数据能显示以下3个特性个特性:中央趋势中央趋势 (均值均值,中值中值,众数众数)变异变异(全距全距,标准差标准差,方差方差)形状形状参数和统计量符号参数和统计量符号Mean 均值均值Variance 方差方差Standard Deviation标准差标准差Proportion 比例比例总体(参数)总体(参数)样本(统计量)样本(统计量)s s2 2s sp p数据位置测量数据位置测量中心趋势中心趋势均值均值中值中值众数众数四分值四分值样本均值样
11、本均值假设样本(样本量为假设样本(样本量为n)的观测值为)的观测值为x1,x2,xn,则样本则样本均值为:均值为:类似地,一个有着大量但限个(类似地,一个有着大量但限个(N个)观测值的总体,个)观测值的总体,其总体均值其总体均值 为:为:均值均值练习三练习三10个连接线的拉拔强度为个连接线的拉拔强度为:260 230 240 236 248248 252 278 265 262拉拔强度的均值是多少?拉拔强度的均值是多少?10个观测值的均值为:个观测值的均值为:均值均值练习四练习四199X年一个行动中,战机进行了年一个行动中,战机进行了3000次战斗,总共次战斗,总共用时用时6900小时。那末每
12、次战斗平均用时多少?小时。那末每次战斗平均用时多少?每次战斗平均用时为:每次战斗平均用时为:注意所使用的符号注意所使用的符号均值均值l均值的计算使用了每个观测值;每个均值的计算使用了每个观测值;每个观测值对均值都有影响。观测值对均值都有影响。l所有观测值对均值的偏差的总和为零。所有观测值对均值的偏差的总和为零。l均值对极端的观测值很敏感,极端值均值对极端的观测值很敏感,极端值会导致均值向他偏移。会导致均值向他偏移。X x x x x x x6 3 5 1 2 7 4662244均值的特性均值的特性 将一组观测值按大小顺序排列,位于中心的数将一组观测值按大小顺序排列,位于中心的数值即为中值值即为
13、中值l 假设观测值的个数为偶数,则中值为中间假设观测值的个数为偶数,则中值为中间2个数值的平均个数值的平均l 假设观测值的个数为奇数,则位于中心的数值即中值假设观测值的个数为奇数,则位于中心的数值即中值中值中值样本中值样本中值 l假设假设x(1),x(2),x(n)是按大小排序的样本值,则样本中是按大小排序的样本值,则样本中值为:值为:l中值的优点是不受极端大或极端小的观测值的影响。中值的优点是不受极端大或极端小的观测值的影响。中值中值练习五练习五(a)假设一个样本观测值为假设一个样本观测值为:3 1 2 4 7 8 6l 样本均值和样本中值是多少?样本均值和样本中值是多少?l 这这2个值是测
14、量数据中心趋势的合理指标吗?个值是测量数据中心趋势的合理指标吗?中值中值(b)假设最后一个数值改变为假设最后一个数值改变为:3 1 2 4 7 8 2680l 则样本平均值和样本中值是多少?则样本平均值和样本中值是多少?l 据此你有何结论?据此你有何结论?中值中值Median vs Mean 中值与均值中值与均值l 因为中值不象均值对极端值敏感,因此,当有极端因为中值不象均值对极端值敏感,因此,当有极端大或极端小值时,中值比均值更能代表数据的位置大或极端小值时,中值比均值更能代表数据的位置l 典型的例子是一个城市居民的收入中位值典型的例子是一个城市居民的收入中位值中值中值中值有时会有欺骗性中值
15、有时会有欺骗性50%-50%Rule?一半一半准则?一半一半准则?l 以下一组数据的中值是多少?以下一组数据的中值是多少?2,2,2,2,2,2,90l可以用一半一半准则吗?可以用一半一半准则吗?l众数是样本中出现次数最多的观测值。众数是样本中出现次数最多的观测值。l众数可以是唯一的,也可以有不止一个,有众数可以是唯一的,也可以有不止一个,有时并不存在众数。时并不存在众数。众数众数练习六练习六如果样本观测值为:如果样本观测值为:(a)6 9 13 5 8 13 4 6 13 1 10 13(b)6 9 13 5 8 13 4 6 13 1 10 6 2 5 6 13(c)4 3 7 2 6 8
16、 1众数是什么?众数是什么?具有一个众数,两个众数或多于两个众数分布的数据分具有一个众数,两个众数或多于两个众数分布的数据分布叫什么布叫什么?(单峰分布单峰分布)众数众数为何使用众数为何使用众数?l 当观测值为分类式当观测值为分类式(如名义数据如名义数据,序列数据序列数据)时时.众数是描众数是描述数据位置的最好的指标述数据位置的最好的指标.l典型的例子是典型的例子是,一个公司内员工收入的众数一个公司内员工收入的众数众数的重要信息众数的重要信息l当众数不止当众数不止1个时个时,从中抽取样本的总体通常是多个总体从中抽取样本的总体通常是多个总体 的混合的混合众数众数均值、中值、众数的比较均值、中值、
17、众数的比较MOMeMeMO正态分布正态分布偏上分布偏上分布偏下分布偏下分布MOMeMOMeMOMe四分值四分值l 将一组按大小顺序排列的数据平均分为四局部将一组按大小顺序排列的数据平均分为四局部,分界点分界点即四分值即四分值.第一四分值第一四分值(低四分值低四分值),约约25%的观测值小于它的观测值小于它.第二四分值第二四分值,约约50%的观测值小于它的观测值小于它,即中值即中值.第三四分值第三四分值(高分值高分值),约约75%的观测值小于它的观测值小于它.练习七练习七 以下为以下为20个电灯泡失效期间的观测值个电灯泡失效期间的观测值,已按递增顺序排列已按递增顺序排列.210 216 252
18、300 366 454 624 720 816 924 12161296 1392 1488 1542 2480 2856 3192 3528 3710请确定三个四分值请确定三个四分值.计算方法:先确定位置再计算四分值计算方法:先确定位置再计算四分值Q1的位置:的位置:(n+1)/4Q2的位置:的位置:2(n+1)/4=(n+1)/2Q3的位置:的位置:3(n+1)/4四分值四分值答案答案 Q1的位置:的位置:(n+1)/4=(20+1)/4=21/4=5.25Q2的位置:的位置:2(n+1)/4=2(20+1)/4=2*21/4=10.5Q3的位置:的位置:3(n+1)/4=3(20+1)/
19、4=3*21/4=15.75则:则:Q1=366+(454-366)*0.25=388Q2=924+(1216-924)*0.5=1070Q3=1542=(2480-1542)*0.75=2245.5四分值四分值数据散布的测量数据散布的测量(变异变异)lRange 极差极差lVariance 方差方差lStandard Deviation 标准差标准差lInter-Quartile Range 四分植极差四分植极差 极差极差l样本极差为样本中最大和最小观测值之间的差异样本极差为样本中最大和最小观测值之间的差异,即即:l极差是测量数据散布或变异的最简单的方法极差是测量数据散布或变异的最简单的方法
20、l但它忽略了最大和最小值之间的所有信息但它忽略了最大和最小值之间的所有信息r=xmax-xminl试考虑以下的试考虑以下的2个样本个样本:10 20 50 60 70 90 and 10,40,40,40,90l具有相同的极差具有相同的极差(r=80)l但是但是,第二个样本的变异只是第二个样本的变异只是2个极端数值的变异个极端数值的变异,而在第而在第1个样本个样本,中间的数值也有相当大的变异中间的数值也有相当大的变异.l当样本量较小当样本量较小(n10)时时,极差丧失信息的问题不是很严峻极差丧失信息的问题不是很严峻极差极差方差与标准差方差与标准差l假设假设x1,x2,xn 是一个具有是一个具有
21、N个观测值的样本个观测值的样本,则样则样本方差为:本方差为:l样本标准差是样本方差的算术平方根样本标准差是样本方差的算术平方根,即即:方差计算方差计算练习八:练习八:计算以下观测值的方差和标准差计算以下观测值的方差和标准差.30 50 70 90 110 130 i xi xi-x (xi-x)2 1 30 -50 25002 50 -30 9003 70 -10 1004 90 10 1005 110 30 9006 130 50 2500方差计算方差计算方差与标准差方差与标准差l再考虑以下再考虑以下2个样本个样本.Sample A:10 20 50 60 70 90 Sample B:10
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 六西格玛 基本 统计
限制150内