《DM统计基础知识.pptx》由会员分享,可在线阅读,更多相关《DM统计基础知识.pptx(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、q 所谓统计所谓统计通过对某组数据资料进行分析整理分析整理,算出其内容中的特征数值。诸如次数、频率、比率等计算过程,即为统计。q 统计的意义统计的意义 在六西格玛在六西格玛 在测定阶段(Measure),对收集的数据进行分析的方法。利用工程上特性化数据,表示Xs 和 Ys之间的关系。利用已经发生的数据或流程,推测未来发展趋势。作为解决高级的统计性问题的基础依据。基础统计?基础统计?第1页/共45页q 统计学的分类统计学的分类 叙述统计(叙述统计(Descriptive StatisticsDescriptive Statistics)-叙述统计包括所有有关资料收集与陈述,以得到有用情报之各种方
2、法。-叙述统计就是资料本身特性的描述,并推广其意义。对其结果的解释,不超过所观察的资料范围。推论统计(推论统计(Inference StatisticsInference Statistics)-根据部分数据,去推断总体数量特征的方法。第2页/共45页q 统计的必要性统计的必要性统计不具有直观性直观性,而是符合事实事实的逻辑语言。通过数据的收集、分析、整理等活动,在不确实的情况下作出决定时,提供帮助。基础统计概要基础统计概要什么叫统计呢?什么叫统计呢?把一些事实(情况)用一些数据表示。把一些事实(情况)用一些数据表示。听说今年的38度是19年以来第一次。那么,你是第一次碰到这种热天啦。决定某些
3、政策时,起到基本信息的作用。决定某些政策时,起到基本信息的作用。比起1980年,人均电消耗量已经增加了3倍是吗?看来得多建几个发电厂啊!第3页/共45页基础统计基础统计统计是指通过样本推定总体(母集团)的特性。统计是指通过样本推定总体(母集团)的特性。q 总体和个体总体和个体 总体(总体(PopulationPopulation)也叫母集团母集团 研究对象全体元素组成的集合。(全国人民的平均寿命或出生地)样本(样本(SampleSample)从总体中抽取的部分个体。例)今年参加总统选举的选民为大约2,500万名。某舆论调查机构按各地区不同年龄段抽出500名选民,对选举结果进行民意调查。在此例中
4、,总体与样本各为什么?总体:所有参加选举总统的选民约总体:所有参加选举总统的选民约2,500万名 样本:被选出的样本:被选出的500名 第4页/共45页根据数据类型的不同,分析方法也不同,所以我们先了解一下数据的性质。根据数据类型的不同,分析方法也不同,所以我们先了解一下数据的性质。q 数据的概念数据的概念 -是对客观事物的符号表示,是用于表示客观事物的未经加工的原始素材 -是通过物理观察得来的事实和概念q 数据的类型数据的类型 Data TypeData Type计量(连续型)计量(连续型)计数(离散型)计数(离散型)长度、厚度、时间等连续性的、能测定的特性值 不良品数量、缺点数量等 可以按
5、个数数的特性值。不良(不良(DefectiveDefective)缺点(缺点(DefectDefect)第5页/共45页q 统计术语统计术语 总体参数(总体参数(ParameterParameter)代表母集团的特性值(平均、分散、比率等)统计参数(统计参数(StatisticStatistic)利用样本计算出的特性值,对母集团进行推论的数据。(样本平均、样本偏差等)第6页/共45页对母集团的特性推论对母集团的特性推论母平均母平均 :母分散母分散 :2 2母标准偏差:母标准偏差:样本平均样本平均 :样本方差样本方差 :s s2 2样本标准差:样本标准差:s s抽样(抽样(SamplingSam
6、pling)AAAAAAABBBBBBCCCCCCDDDDDDD母集团母集团母集团母集团AABDDDCCCCB样本样本样本样本母集团参数母集团参数母集团参数母集团参数统计参数统计参数统计参数统计参数第7页/共45页q 中心和分散倾向指标中心和分散倾向指标 中心倾向指标:中心倾向指标:表示位置的指标(最具有代表性)-平均(平均(MeanMean)n个观测值的平均值为观测值总合与观测值数的之比。对极端数据(outlier)较为敏感。例)一份报告书需要AG共7个阶段的审批过程。下列收集的数据是AG各个阶段审批时需要的时间。试求出各个流程所需要的平均审批时间。平均:2 2 1 3 2 9 302 2
7、1 3 2 9 30A B C D E F GA B C D E F G(单位:分钟)测值总合测值数=题解)题解)极端值极端值3030分钟,分钟,对平均造成很大的影响啊!对平均造成很大的影响啊!第8页/共45页 中心倾向指标中心倾向指标-中位数(中位数(MedianMedian)数据按大小(n)排列时,中间位置的数。来自于极端值的影响较小。-众数(众数(ModeMode)数据出现的频率(Frequency)最高的。来自于极端值的影响较小。例)上例中的众数为多少?2,2,1,3,2,9,30 中,2出现的频率为3次,出现最多。因此众数众数为2 2。n n n n 为单数时:为单数时:为单数时:为
8、单数时:n n n n 为双数时:为双数时:为双数时:为双数时:1 2 2 1 2 2 1 2 2 1 2 2 2 2 2 2 3 9 30 3 9 30 3 9 30 3 9 301 1 1 1 2 2 2 2 2 2 2 2 2 3 9 10 302 3 9 10 302 3 9 10 302 3 9 10 302和3的平均2.52.5极端值对中位数,极端值对中位数,众数影响较小。众数影响较小。第9页/共45页 比较平均、中位数、众数的位置比较平均、中位数、众数的位置对称分布对称分布平均平均中位数中位数众数众数左倾斜形分布左倾斜形分布中位数中位数平均平均众数众数右倾斜形分布右倾斜形分布中位
9、数中位数平均平均众数众数平均受极端值的影响最大!平均受极端值的影响最大!第10页/共45页q 中心和分散倾向的指标中心和分散倾向的指标 分散性倾向指标:分散性倾向指标:表示分散形态的指标表示分散形态的指标目前有A、B 2家公司给西部电机供货。以下为A、B厂家供货时间的分布图。如果您是西部电机的采购负责人,你会购买哪一家材料?在统计分析中,仅仅考虑平均值来判断问题,会容易出现问题。应该对数据的分散分散等情况综合考虑才可以。虽然B公司的平均供货时间比A公司快,但是B公司的散布较大。所以不能说选择B公司一定是最好的选择!A A公司公司B B公司公司80 100A 公司:平均供货时间为100分钟 供货
10、时间散布:60120分钟B 公司:平均供货时间为80分钟 供货时间散布:20160分钟第11页/共45页 分散性倾向的指标分散性倾向的指标-分散(分散(VarianceVariance)和标准偏差()和标准偏差(Standard DeviationStandard Deviation)分散和标准偏差显示以平均值为基准的样本的差值情况,也就是显示数据的分散情况。如果,从 点开始到 点为止的均值为 的话,分散以平均平方值(统计上要求,分母并非n,而用n-1来定义)例)例)抽样数据:抽样数据:4 8 7 5 2 6 3 4 8 7 5 2 6 3 平均平均 5 5 偏差之和:偏差之和:(-1)+3+
11、2+0+(-3)+1+(-2)=0(-1)+3+2+0+(-3)+1+(-2)=0 平方的理由平方的理由 3040506070 样本标准差是分散的平方根。样本方差:样本方差:样本标准差:样本标准差:第12页/共45页 分散性倾向的指标分散性倾向的指标-范围(范围(RangeRange)数据中,最大值与最小值之差,用R表示 R=最大值 最小值-四分位差(四分位差(IQRIQR:InterInter-Q-Quartile Rangeuartile Range):):Q3-Q1Q3-Q1 Q1:第1四分位数(First Quartile)=25%对应值,中位数左边所有数字的中位数 Q2:第2四分位数
12、(Second Quartile:中位数)=50%对应数 Q3:第3四分位数(Third Quartile)=75%对应数,中位数右边所有数字的中位数例)例)求出下列数据中的第四分位数和求出下列数据中的第四分位数和IQRIQR。2,8,20,4,9,5,4,3 题解)题解)按大小顺序排列:Q1=3.25Q2(中位数)=4.5Q3=8.75 3 4 4 3 4 4 5 8 9 20 5 8 9 20第13页/共45页q 利用利用MINITABMINITAB计算基础统计量计算基础统计量 利用MINITAB,计算中心倾向及分散性倾向的指标(文件名称:Statistics_Normal.MTW)Sta
13、t Basic Statistics Graphical SummaryStat Basic Statistics Graphical Summary1 12 23 3有1个以上变量时,要计算各自变量的统计性指标时使用Confidence Level(置信区间)一般设定为95%第14页/共45页 正态性检验结果正态性检验结果 P-ValueP-Value 0.050.05,数据是遵从正态分布。数据是遵从正态分布。平均平均 标准差标准差 方差方差 最小值最小值 第第1 1四分位数:四分位数:25%25%对应值对应值 中位数:中位数:50%50%对应值对应值 第第3 3四分位数:四分位数:75%7
14、5%对应值对应值 最大值最大值 通过柱状图所看到的结果通过柱状图所看到的结果1 12 23 3第15页/共45页概率的理解概率的理解q 概率(概率(ProbabilityProbability)-概率是随机事件出现的可能性的量度。-在一定条件下,重复做n次试验,nA为n次试验中事件A发生的次数,如果随着n逐渐增大,频率nA/n逐渐稳定在某一数值p附近,则数值p称为事件A在该条件下发生的概率,记做P(A)=p。这个定义成为概率的统计定义。P P(A A)=事件事件样本空间样本空间在调查统计中,人们观测一部分数据后,引出对全体的结论。在调查统计中,人们观测一部分数据后,引出对全体的结论。这种逻辑性
15、依据叫做概率。这种逻辑性依据叫做概率。第16页/共45页第一个骰子出现第一个骰子出现 “1”1”的概率?的概率?例)例)让我们想一下掷2个骰子的实验。样本空间样本空间S S=(1,1),(1,2),(6,6):36种实验的所有集合事件(事件(EventEvent):样本空间的部分集合E1=第一个骰子出现“1”的情况=(1,1),(1,2),(1,3),(1,4),(1,5),(1,6)掷出掷出2 2个骰子时,其中有一个骰子为个骰子时,其中有一个骰子为“1”1”的概率的概率 P P(E E1 1)P(E1)=P(1,1),(1,2),(1,3),(1,4),(1,5),(1,6)=6/36=1/
16、6第17页/共45页q 随机变量(随机变量(Random VariableRandom Variable)-随机变量是定义在样本空间的取值为实数的函数。随机变量是定义在样本空间的取值为实数的函数。若定义X为掷一颗骰子时出现的点数,则X为随机变量,出现1、2、3、4、5、6点时,X分别取值1、2、3、4、6。随机变量随机变量 1 1,2 2,3 3,4 4,5 5,6 6 例)随机投掷2次一枚硬币,出现正面的随机变量是?正面用正面用H H,反面用,反面用T T标示时,标本空间为标示时,标本空间为=HH=HH,HTHT,THTH,TTTT 随机变量是?随机变量是?=0=0,1 1,2 2 第18页
17、/共45页q 概率分布(概率分布(Probability DistributionProbability Distribution)可取到的随机变量及取到其值的可能性概率,利用图表、函数等形式表现出来。学习概率分布的必要性学习概率分布的必要性:为了提前掌握提前掌握随机概率在某一区间段出现的可能性。X X1 12 23 34 45 56 6P(X=x)1/61/61/61/61/61/6第19页/共45页分布种类分布种类q 概率分布的分类概率分布的分类二项分布二项分布泊松分布泊松分布正态分布正态分布WeibullWeibull分布分布t t 分布分布 分布分布F F 分布分布信赖性数据随信赖性数
18、据随WeibullWeibull分布较多。分布较多。计数型计数型(离散概率分布)(离散概率分布)计量型计量型(连续概率分布)(连续概率分布)第20页/共45页q 计数型概率分布计数型概率分布为了将采集到的离散型(计数)数值模型化而使用。离散型概率分布函数用概率质量函数(概率质量函数(pmfpmf)进行表示。(例如:良品/不良、0/1性质或者不良数为1、2、3的个数模型化)二项分布二项分布 代表不良型数据的分布 泊松分布泊松分布 代表缺陷性数据的分布q 计量型概率分布计量型概率分布 为了将采集到地连续型(计量)数值模型化而使用。连续性概率分布函数以概率密度函数(概率密度函数(pdfpdf)进行表
19、示。正态分布正态分布 一般计量型数据所具有的分布。在一般情况下,信赖性数据信赖性数据随指数分布指数分布或者WeibullWeibull分布分布的较多。还有规定一则规格或流程异常时,一般而言,数据也不随正态分布。第21页/共45页计数型概率分布计数型概率分布q 二项分布(二项分布(Binomial DistributionBinomial Distribution)在每次试验中,只有两种可能的结果,良品/不良品或者成功/失败等结果。反复进行实验N次(伯努力试验)时,成功次数X有如下的分布时,即为二项分布二项分布。q 平均与方差平均与方差n:总试验次数p:试验过程中,成功的概率为0和1之间的值x:
20、n次试验中,成功的次数 平均:平均:,方差:方差:,标准差:标准差:利用计算公式利用计算公式算出概率,算出概率,实在是太复杂啦!实在是太复杂啦!第22页/共45页q 利用利用MINITABMINITAB计算概率计算概率例)例)某一物流公司的货物配送不良率为1%时,此次配送的产品中,取样 n=10样品,其中不良品为1个或者以下的概率为多少?均值和方差各为多少?计算不良品为1个以下的情况指的是1个和0个(没有)的两种情况。2 24 43 35 5Calc Probability DistributionCalc Probability Distribution Binomial Binomial第
21、23页/共45页 累计概率计算方法累计概率计算方法结果:结果:不良品出现不良品出现1 1个或者个或者1 1个以下的概率为个以下的概率为0.904382(00.904382(0个的概率个的概率)+0.091352(1)+0.091352(1个的概率个的概率)=0.995734=0.9957346 6能不能利用简单的方法,一下子算出不良品为1个以下的概率呢?7 78 89 91010第24页/共45页1111结果:结果:不良品出现不良品出现1 1个或者个或者1 1个以下的概率为个以下的概率为第25页/共45页利用利用MINITANBMINITANB计算概率相应值的方法计算概率相应值的方法 Prob
22、ability Cumulative probability Inverse cumulative probability计算个别(单个)概率值计算累计概率值计算相应累计概率面积的X值 已知累计概率面积,要计算不良品数量时 计算累计概率值时 计算个别概率值时0 1 2 3 4 5 6 7 8 9 1 00 1 2 3 4 5 6 7 8 9 1 0累计概率面积为累计概率面积为 0.99990.9999时,不良品时,不良品是几个?是几个?概率0.90.80.70.60.50.40.30.20.10.00 1 2 3 4 5 6 7 8 9 1 02 2个以下的概率个以下的概率=0=0个个+1+1
23、个个+2+2个个=0.9999=0.99990 0个的概率个的概率=0.904=0.9041 1个的概率个的概率=0.091=0.091第26页/共45页q 何谓泊松分布(何谓泊松分布(Poisson DistributionPoisson Distribution)?)?适用于连续的时间或者空间发生频率低的稀奇事件,每单位发生的数等的分布。铁板的单位面积斑痕数 一定时间段,打来(接听)的电话 一定时间段,银行窗口的顾客人数平均:平均:方差:方差:标准差:标准差:DPU(Defect per Unit):单位产品缺陷数平均=np 方差=但,0.利用计算公式计算概率很复杂。一般n较大,p较小时使
24、用。第27页/共45页q 利用利用MINITABMINITAB计算概率计算概率例)例)为了对信用卡公司的申请书部门错误处理件数进行管理,若每一份申请书上发生的错误平均为1%,且随着泊松分布。随机选取错误为一个以下的概率是多少?1 12 24 43 35 5Calc Probability DistributionCalc Probability Distribution Poisson Poisson1 1计算不良品为1个以下的情况指的是1个和0个(没有)的两种情况。第28页/共45页结果:结果:不良品不良品1 1个以下的概率是?个以下的概率是?0.990050(00.990050(0个的概率
25、个的概率)+0.009900(1)+0.009900(1个的概率个的概率)=0.999950=0.9999506 6能不能利用简单的方法,一下子算出不良品为1个以下的概率呢?第29页/共45页 参考参考 离散数据的概率分布近似(离散数据的概率分布近似(ApproximatelyApproximately)正态分布)正态分布二项分布二项分布正态分布正态分布泊松分布泊松分布P 0.1P 50N 50平均平均5 5np5np5n(1-p)5n(1-p)500.20.40.60.8105101520缺陷数量概率dpu=0.1dpu=1.0dpu=2.0dpu=2.5dpu=4.0如果能满足一定的条件,
26、二项分布和泊松分布可以转换为近似于正态的分布。二项分布近似正态分布二项分布近似正态分布 泊松分布近似正态分布泊松分布近似正态分布第30页/共45页计量型概率分布计量型概率分布q 正态分布(正态分布(Normal DistributionNormal Distribution)指的是“标准的”“自然的”“正常的”(Normal)等理想状态。正态分布为非常正常的数据分布形态。数据脱离正态分布的话,此流程可判断为需要改善的对象。正态分布是具有两个参数,2 2(或者标准差)的连续型随机变量的分布。若X为具有平均和分散2的正态随机变量的话,概率密度函数概率密度函数如下。利用计算公式 计算概率很复杂。正态
27、分布特点:正态分布特点:1)左右对称 2)图形是钟形曲线 3)也叫高斯曲线高斯曲线m m68.26%68.26%68.26%68.26%99.73%99.73%99.73%99.73%m-1sm-2sm-3sm+1sm+2sm+3s95.45%95.45%95.45%95.45%第31页/共45页q 标准正态分布标准正态分布(Standard Normal DistributionStandard Normal Distribution)平均为0,标准差为1的正态分布,称为标准正态分布。标准化标准化Z Z(标准正态分布随机变量)(标准正态分布随机变量)X1X1平均平均标准标准偏偏差差Z Z0
28、01 1?Z?Z-正态分布(平均正态分布(平均,分散,分散2 2)随机变量随机变量X:X N(,2)-标准正态分布(平均标准正态分布(平均0 0,标准偏差,标准偏差1 1)随机变量随机变量 Z:Z N(0,1)正态分布标准正态分布Z Z转换转换第32页/共45页例)朴赞浩和罗纳尔多谁更优秀?朴赞浩 15胜(正面投球平均:9胜,标准差:3胜)罗纳尔多 10个球(西班牙联盟主攻手平均:6个球,标准差:3个球)朴赞浩比罗纳尔多更优秀!朴赞浩比罗纳尔多更优秀!如果统一标准,是不是可以比较互相不同的数据?(标准统一)Z ZX X平均平均 标准差标准差=-Z Zx x=-ms sZ Z15159 9 3
29、3=-朴赞浩朴赞浩=2 2Z Z10106 6 3 3=-罗纳尔多罗纳尔多=1.331.3395.45%95.45%95.45%95.45%43210-1-2-3-468.26%68.26%68.26%68.26%99.73%99.73%99.73%99.73%q 标准正态分布(标准正态分布(Standard Normal DistributionStandard Normal Distribution)如果利用标准正态分布图比较,如果利用标准正态分布图比较,即使是不同性质的数据,即使是不同性质的数据,也可以客观地进行比较。也可以客观地进行比较。这个例子这个例子没有说明没有说明白白第33页/共
30、45页q 利用利用MINITABMINITAB进行概率计算进行概率计算例)例)平均为20,标准差为5的正态分布下,求下列情况时的各个概率。(a)X15时的概率看图太容易理解了。P X P X 15 =P Z 15 =P Z 15-2015-205 5X1515520Z10?=-1=-12 24 43 35 51 1Calc Probability DistributionCalc Probability Distribution Normal Normal第34页/共45页MINITAB始终计算左边的概率结果:结果:0.158655=15.8655%0.158655=15.8655%6 6第3
31、5页/共45页 Probability Density Probability Density(概率密度函数)(概率密度函数)输入 x 计算概率密度函数f(x)Cumulative Probability Cumulative Probability Inverse Cumulative Probability Inverse Cumulative Probability 利用利用MINITABMINITAB进行概率计算进行概率计算输入 x 计算累计概率F(x)输入累计概率F(x)计算相应的x值f(x)计量型概率分布计量型概率分布第36页/共45页q 利用利用MINITABMINITAB计算概
32、率计算概率例)例)平均为20,标准差为5的正态分布下,求下列情况时的各概率。(b)X30时的概率P X P X 30 =1-P X 30 30 =1-P X 30 x20302 24 43 35 51 1看图太容易理解了。Calc Probability DistributionCalc Probability Distribution Normal Normal第37页/共45页 刚才求出的概率面积是?注意:MINITAB是计算左边的概率面积。20 x30结果:结果:=1-0.977250=1-0.977250 =0.022750 =0.022750 即,概率为即,概率为 2.2750%2.
33、2750%6 6第38页/共45页q 利用利用MINITABMINITAB计算概率计算概率例)例)平均为20,标准差为5的正态分布下,求下列情况时的各概率。(C)X为10和25之间的概率P 10 X 25 =P X 25 P X 10 P 10 X 25 =P X 25 P X 10 x202510正确答案是?正确答案是?1 1第39页/共45页单元总结单元总结q通过对某租数据资料进行分析整理分析整理,计算出其内容中的特征数值数值。诸如次数、频率、比率等计算过程,即为统计。q统计不是直观直观、传达立足事实事实的语言,在不确切的情况的有助于有助于决策。q在已知概率分布的情况下,可以计算出随机变量
34、的任何数值以及 任何范围的概率概率。区分区分计数型概率分布计数型概率分布计量型概率分布计量型概率分布分类分类二项分布二项分布泊松分布泊松分布正态分布正态分布标准正态分布标准正态分布特点代表不良数据的概率 代表缺陷性数据的概率 代表计量型数据的概率平均为0,标准差为1的正态分布目的为了计算只有两种结果的成功/失败、不良/良品等数据的概率每单位(面积、时间、空间、区间等)发生的特定时间的概率计算计量型(连续性)数据的概率计算为了客观地互相比较不同的数据第40页/共45页1.若某工程的不良率为5%,在此工程抽取15个样品。不良为3个以下的概率为多少?2.假设进行入检的部品的不合格率为10%,抽出10
35、0个部品进行调查,那么 (a)不合格产品数为15个以下的概率?(b)不合格产品数为25个以上的概率?练习题练习题第41页/共45页3.为了对信用卡公司的申请书部门出现的错误进行管理。假设申请书错误 发生在0.05泊松分布水平,随机选取错误件数为3以下的概率为多少?4.有一个工程上生产的产品重量平均为5kg,标准差为0.5kg。其中取一个产品时,重量为5 kg以上、5.5 kg以下时的概率为多少?第42页/共45页q 正确答案正确答案1.0.99452.(a)0.9601 (b)0.0020 3.0.99534.0.3413第43页/共45页统计的错误理解统计的错误理解 白天开车比晚上开车更危险。据统计白天开车比晚上开车更危险。据统计,所有车祸的大部分都是在白天发生,所有车祸的大部分都是在白天发生,晚上出车祸的相对很少。晚上出车祸的相对很少。很显然,上述主张是错误的。如果单纯比较白天和晚上发生的交通事故的数字,当然是白天发生的事故更多。那是因为白天开车的人比晚上开车的人更多。数字是不会说谎。但在一般情况下,解释数据的人是往自己有利的方面引导说明。这种情况应是数字是没有说谎,是人在编谎。当然有的时候是无意中解释错误的也有,但很少。轻松一刻轻松一刻第44页/共45页感谢您的欣赏!第45页/共45页
限制150内