西格玛统计学(最新)精选文档.ppt
《西格玛统计学(最新)精选文档.ppt》由会员分享,可在线阅读,更多相关《西格玛统计学(最新)精选文档.ppt(296页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、培训中心培训中心培训中心培训中心 刘美刘美刘美刘美Tel:86804651 Mobile:18986013796Tel:86804651 Mobile:18986013796E_mail:E_mail:统计基础统计基础1 1一、基本概念二、描述性统计三、数据的图示方法四、统计量与抽样分布五、数据的收集与整理六、参数估计主要内容主要内容2 2一、基本概念一、基本概念(一)基本概念1、统计学(statistics):收集、处理、分析、解释数据并从中得出结论的科学。2、描述统计(descriptive statistics):研究数据收集、处理和描述的统计学分支。3、推断统计(inferential
2、 statistics):研究如何用样本数据来推断总体特征的统计学分支。4、总体(population):包含所研究的全部个体(数据)的集合,称为总体。根据所包含的单位数目是否可数可以分为有限总体和无限总体,区分有限总体和无限总体的目的是判别每次抽样是否独立3 35、样本(sample):从总体中抽取的一部分元素的集合称为样本。6、样本量(sample size):构成样本的元素的数目称为样本量或样本容量。7、参数(parameter):用来描述总体特征的概括性数字度量称为参数。参数包括均值、标准差、比例等。一般用希腊字母表示。8、统计量(statistics):用来描述样本特征的概括性数字度
3、量称为统计量。通常用英文字母表示。一、基本概念一、基本概念4 4二、描述性统计二、描述性统计5 5二、描述性统计二、描述性统计例题:13.计算下列数据的中位值:23,33,35,45,55,56,66,78 a.50 b.45 c.55 d.40(4)众数、中位数、均值三者之间的关系 众数是一组数据分布的峰值,不受极端值的影响,但缺点是有可能不唯一,适合于分类数据的集中趋势测度值;中位数是一组数据中间位置上的代表值,在数据分布偏斜程度较大时适合作为数值型数据集中趋势的测度值;均值利用了数据的全部信息,当数据对称或接近对称时,应选择均值作为集中趋势的代表值。6 6(5)众数、中位数、均值三者之间
4、的关系二、描述性统计二、描述性统计对称分布:均值=中位数=众数右偏分布:均值中位数众数左偏分布:均值中位数5且np(1-p)5),且p值适中(0.1p580,则认为钢筋抗拉强度的平均值有提高。64646.2 假设检验假设检验统计分析方法运用过程中蕴含的两条基本原理:(1)带有概率性质的反证法原理为此可以建立两个命题,在假设检验中称为假设:原假设(零假设):关于样本所属总体(指参数值)与假设总体(指参数值)之间无差异的假设,记为H0;备择假设(或对立假设):和原假设相反的假设。指的是关于当前样本所属的总体(指参数值)与假设总体(指参数值)有差异的假设,是根据样本信息期待证实的假设,是否定了原假设
5、后应当采取的假设,记为H1。65656.2 假设检验假设检验统计分析方法运用过程中蕴含的两条基本原理:(1)带有概率性质的反证法原理H0和H1地位是不对等的,不能随意交换。因而,在一般情况下,H0要取那个在实践中应该受到保护,有足够证据时才能否定的论断或“不证自明”的论断作为原假设。在对参数进行检验时,我们将把相等的、无差别的、等号成立相等的、无差别的、等号成立的结论作为原假设,记为H0;将待判定、待证明的、不相等、有差别待判定、待证明的、不相等、有差别的结论作为备择假设,设为H1。对于参数检验的问题,原假设一定是“等于”某值,备择假设中永远只可能是“大于”、“小于”或“不等于”这三种情况。6
6、6666.2 假设检验假设检验(2)小概率事件原理带有概率性质的反证法原理中,所谓的明显不合理情况指的就是竟然出现了小概率事件。按照常识,在假设H0成立的条件下,与大概率事件相比,小概率事件在一次试验中几乎不会发生,如果它发生了,说明最初的假设“H0是成立的”并不正确,因此应该拒绝H0。但与此同时,应该注意的是,在处理假设检验问题时,未考虑特殊情况,虽说小概率事件在一次试验中几乎不会发生,但不等于不会发生,它仍然有发生的可能性。所以,根据小概率事件发生而做出的拒绝H0的判断有犯错误的可能。6767假设检验是先对总体参数提出一个假设值,然后利用样本信息推断这一假设是否成立。095%095%拒绝原
7、假设拒绝原假设不拒绝原假设不拒绝原假设小概率事件原理:小概率事件在一次试验中是几乎不会发生的。假设检验是利用小概率事件原理,进行反向推断(反证法)6.2 假设检验假设检验6868联系假设检验与区间估计都属于推断统计的内容,都是根据样本信息推断总体信息。假设检验与区间估计的联系与区别:假设检验与区间估计的联系与区别:区别区间估计是利用大概率原理推断出总体参数的范围,输出是数值(一个区间)。假设检验是以小概率原理为基础,对总体的状况所做出的假设进行判断,输出的是结论(拒绝或不能拒绝)。6.2 假设检验假设检验69696.2.2 假设的步骤(1)建立原假设和备择假设;(2)给出犯两类错误的概率、;(
8、3)从实际出发确定什么样的差别是有意义的,即确定。(4)根据检验参数的类型和已知条件,选择检验统计量。(5)计算样本量。(6)数据采集。(7)计算检验统计量。(8)使用以下三种方法之一做出是否拒绝原假设的判断。置信区间法:根据样本统计量计算总体参数的置信区间,原假设的参数值未落入置信区间,拒绝原假设,否则不能拒绝原假设。临界值法:将检验统计量的值与拒绝域的临界值相比较,落在拒绝域中拒绝原假设,否则不能拒绝原假设。p值法:由检验统计量计算p值,p值小于拒绝原假设,否则不能拒绝原假设。6.2 假设检验假设检验7070(1)建立假设)建立假设一对假设:原假设(H0)和备择假设(H1)H0与H1地位是
9、不对等的假设检验使用了反证法原理先假定H0是正确的,如果样本观测值出现了与应有的结果明显矛盾的情况,则说明“H0正确”这个假设是错误的,于是拒绝H0,这是强结论;如果没有出现矛盾的情况,我们不能说接受H0,只能说没有足够的证据拒绝H0,这是弱结论。一般情况下,我们把相等的、无差别的的结论作为原假设,所以,等于一定包含在原假设中;备择假设只可能是“大于”、“小于”、“不等于”三种情况。6.2 假设检验假设检验7171假设检验的基本形式(以均值检验为例)假设假设双侧检验双侧检验单侧检验单侧检验左侧检验左侧检验右侧检验右侧检验原假设原假设H0:=0H0:0H0:0备择假设备择假设H1:0H1:06.
10、2 假设检验假设检验72726.2 假设检验假设检验原假设与备择假设建立示例:例1:原来的热轧带肋钢筋生产线生产的钢筋平均抗拉强度为580MPa,标准差为9MPa。经过调整参数后,希望钢筋抗拉强度能有所提高。项目团队实施改进后抽取了25根钢筋,测得钢筋平均抗拉强度为605 MPa。问:能否断言钢筋平均抗拉强度确有提高?试建立原假设和备择假设。73736.2 假设检验假设检验例2:某厂规定产品必须经过检验合格后才能出厂,其不合格率p0不得超过5%。现从一批产品中随机抽取200个进行检验,发现16个不合格品,问该产批产品能否出厂?试建立原假设和备择假设。7474样题样题42在2010年足球世界杯上
11、,章鱼保罗大显身手,在8次重要的比赛中,它对于胜负的预测全部正确。统计学家怀疑究竟章鱼是偶然猜对还是章鱼真能神机妙算(或另有隐情),需要建立怎样的假设检验?A进行“单比率”检验,H0:比率p=0.5 vs H1:比率p0.5B进行“单比率”检验,H0:比率p=0.5 vs H1:比率p0.5D进行“单比率”检验,H0:比率p=0 vs H1:比率=17575(2)给出犯两类错误的概率)给出犯两类错误的概率,假设检验是根据样本做出是否拒绝原假设的决策。我们希望:当原假设成立时,我们没有拒绝它;当原假设不成立时,我们拒绝它。而样本是随机的,我们有可能犯下面两类错误:决策结果决策结果实际情况实际情况
12、H0正确正确H0不正确(不正确(H1正确)正确)未拒绝未拒绝H0正确决策,正确决策,概率为概率为1-,1-也称也称置信水平或置信度。置信水平或置信度。第第类错误,也称类错误,也称“取伪取伪”错错误,概率为误,概率为。拒绝拒绝H0第第类错误,也称类错误,也称“弃真弃真”错误,错误,概率为概率为,也称为显著性水平。也称为显著性水平。正确决策,正确决策,概率为概率为1-,1-称称检出力或检出功效。检出力或检出功效。原假设被拒绝时,原假设被拒绝时,才可能会犯第才可能会犯第类错误;类错误;原假设未被拒绝时原假设未被拒绝时,可能会犯第可能会犯第类错误。样本量类错误。样本量n一定时,一定时,减小,减小,会增
13、大;会增大;增大,增大,会减小,只有增大样本量会减小,只有增大样本量才能才能同时减小同时减小 和和。6.2 假设检验假设检验76766.2 假设检验假设检验(3)确定要从实际出发确定什么样的差别是有意义的。017777(4)选择检验统计量,确定统计工具)选择检验统计量,确定统计工具检验统计量类型的选择实际上就是确定统计量抽样分布的形式。基于以下两点:要检验的参数已知条件如,方差已知的单正态总体的均值检验,选择Z统计量,使用“单样本Z”检验。6.2 假设检验假设检验7878(5)计算样本量检验问题实际就是判断样本是来源于哪个总体。不同样本量样本均值分布对比图不同样本量样本均值分布对比图n=1n=
14、256.2 假设检验假设检验7979(5)计算样本量计算样本量样本量的计算公式见蓝皮书P158,例总体标准差已知,单样本Z检验的样本量计算公式:结论:要同时降低犯两类错误的风险,必须增大样本量;总体方结论:要同时降低犯两类错误的风险,必须增大样本量;总体方差变大,要保持原来的风险,必须增大样本量;拟检查差异变小,差变大,要保持原来的风险,必须增大样本量;拟检查差异变小,必须增大样本量。必须增大样本量。样本量的大小取决于决策错误的风险、总体标准差的大小、拟检查的差异大小这三个方面的因素。6.2 假设检验假设检验8080例:假设钢筋抗拉强度服从正态分布,原钢筋平均抗拉强度 2000Kg,标准差30
15、0kg,调整参数后若平均抗拉强度2150Kg,就认为钢筋抗拉强度是否有所提高。问:判断钢筋抗拉强度是否有所提高需要多大的样本量?1、建立假设 H0:2000 H1:2000 2、确定 =0.05 =0.13、确定取=2150-2000=150kg因为:Z0.95=1.645 Z0.9=1.28,带入公式:4、手动计算样本量:Minitab计算样本量:统计计算样本量:统计功效和样本数量功效和样本数量单样本单样本Z6.2 假设检验假设检验8181(6)数据采集)数据采集根据计算的样本量采集样本样本尽可能覆盖各种变异源的波动范围不同批次不同操作人员不同设备不同外部环境.6.2 假设检验假设检验828
16、2(7)计算检验统计量)计算检验统计量检验统计量是根据样本计算得到的,是对样本信息的概括。检验统计量是对总体参数的点估计值,但这个点估计值只有标准化后才能反映样本的点估计值与假设的总体参数相比差多少个抽样标准差。注:我们平时所说的检验统计量就是指标准化的检验统计量。如,方差已知的单正态均值检验,统计量Z的计算:6.2 假设检验假设检验8383A:H1:0B:H1:Z0.95=1.645,落入拒绝域,所以拒绝原假设。4、钢筋平均抗拉强度确实有提高。临界值临界值拒绝域H0:2000 6.2 假设检验假设检验8585(8)判断方法二)判断方法二置信区间法置信区间法例:假设钢筋抗拉强度服从正态分布,原
17、钢筋平均抗拉强度 2000Kg,标准差300kg,调整参数后抽取了25根,测得平均抗拉强度2150。问:能否断言钢筋平均抗拉强度有所提高?=0.05(1)求置信区间的下限(2)置信区间的下限2051.32000,置信区间中不包含原假设参数2000,所以拒绝原假设。(3)钢筋平均抗拉强度确实有提高。6.2 假设检验假设检验8686(8)判断方法三)判断方法三P值值p值是概率,是在原假设成立的前提下,出现目前样本状况或对原假设更为不利状况的概率。目前样本状况的信息通过检验统计量体现,对原假设更不利的状况与备择假设的类型有关。所以,P值与检验统计量和备择假设的类型有关。6.2 假设检验假设检验878
18、7(8)判断方法三)判断方法三P值法值法A:H1:0B:H1:0C:H1:0ppp/2p/26.2 假设检验假设检验8888例:假设钢筋抗拉强度服从正态分布,原钢筋平均抗拉强度 2000Kg,标准差300kg,调整参数后抽取了25根,测得平均抗拉强度2150。问:能否断言钢筋平均抗拉强度有所提高?假定=0.05,=0.2。2、计算检验统计量4、p,所以拒绝原假设。5、钢筋平均抗拉强度确实有提高。1、H0:2000 3、计算p值p6.2 假设检验假设检验8989p值与样本量值与样本量n的关系的关系当样本量n越大时,检验统计量的绝对值就越大,p值就越小,就越有可能拒绝原假设。p值与检验统计量、备择
19、假设类型有关,而检验统计量与样本量n有关,所以p与样本量n有关。6.2 假设检验假设检验9090例:某公司生产铝盘,铝盘上镀磁性材料厚度要求为例:某公司生产铝盘,铝盘上镀磁性材料厚度要求为505mm,从,从生产线取生产线取20万个数据,均值为万个数据,均值为50.3mm,标准差,标准差1mm,进行假设检,进行假设检验判断该生产线生产是否正常,结果验判断该生产线生产是否正常,结果p0.05,我们能否认为该生产,我们能否认为该生产线生产不正常?线生产不正常?样本量太小,不能发现差别。样本量太大,则太过灵敏,没有实际意义。样本量很重要的,报告p值的同时,也要报告样本量。6.2 假设检验假设检验919
20、1连续数据连续数据正正态态分分布布或或大大样样本本非非正正态分布态分布小小样样本本且且非非正态分布正态分布均值检验均值检验单样本单样本Z单样本单样本t双样本双样本t配对配对t单因子方差分析单因子方差分析方差检验方差检验单方差单方差双方差双方差等方差等方差非参数检验非参数检验离散数据离散数据比例检验比例检验单比率单比率双比率双比率卡方卡方假假设设检检验验正态分布正态分布参数检参数检验验6.2.3 假设检验的类型假设检验的类型9292单总体均值检验(与某一具体值比较)单总体均值检验(与某一具体值比较)双总体均值差检验双总体均值差检验配对检验配对检验多总体均值检验多总体均值检验6.2.4 均值检验均
21、值检验9393单总体单总体独立性检验独立性检验正态性检验(小样本)正态性检验(小样本)双总体或多总体双总体或多总体独立性检验独立性检验样本内数据独立样本内数据独立样本间数据独立样本间数据独立正态性检验(小样本)正态性检验(小样本)两组或多组数据都服从正态分布两组或多组数据都服从正态分布等方差检验等方差检验对均值检验,样本量对均值检验,样本量n30时,可以不进行正态性检验。时,可以不进行正态性检验。6.2.4 均值检验均值检验9494独立性检验独立性检验样本内数据独立样本内数据独立样本量样本量40 质量工具质量工具 运行图运行图样本量样本量40 40 统计统计 非参数统计非参数统计 游程检验游程
22、检验样本间数据独立样本间数据独立统计统计 基本统计量基本统计量 相关相关正态性检验正态性检验统计统计 基本统计量基本统计量 正态性检验正态性检验等方差检验等方差检验统计统计 方差分析方差分析 等方差检验等方差检验6.2.4 均值检验均值检验95951.单总体均值检验流程单总体均值检验流程大样本大样本?n=30总体方差是否已知总体方差是否已知总体是否总体是否服从正态分布服从正态分布总体方差是否已知总体方差是否已知将样本容量将样本容量增加到增加到30或非参数检验或非参数检验用样本方差代替用样本方差代替用样本方差代替用样本方差代替是是否否是是否否是是否否是是否否单样本Z单样本t或单样本z单样本Z单样
23、本t96961.单总体均值检验单总体均值检验检验法条件H0H1检验统计量拒绝域Z检验已知大样本或正态小样本 00=0 0Z 1-Z Z 1-/2Z检验未知大样本 0 0=0 0Z 1-Z Z 1-/2t检验未知正态小样本0 0=0 0t 1-(n-1)t t 1-/2(n-1)9797例(蓝书 P115)抽查面粉的装包重量,其每包重量在正常生产条件下均值为20Kg,标准差为0.1Kg,某日在生产的产品中抽查16包。问当日生产的面粉均值是否正常?(BS_面粉重量.mtw)n质量工具运行图 正态性检验 因为n Z 1-/2因为=0.05 所以临界值Z0.975=1.96,拒绝域为:|Z|1.96结
24、论:拒绝原假设,该天面粉均值不正常。结论:拒绝原假设,该天面粉均值不正常。1.单总体均值检验单总体均值检验9898检验聚类性的近似检验聚类性的近似P值值0.05:出现了差别细微的成堆出现了差别细微的成堆数据。数据。混合的近似混合的近似P值值0.05:数据中有很多相同的值。数据中有很多相同的值。检验趋势的近似检验趋势的近似P值值0.05:有连续上升或下降趋势。有连续上升或下降趋势。检验振动的近似检验振动的近似P值值 t 1-/2(n-1)。t0.975(15)=2.131,拒绝域为:|t|2.131结论:该天面粉均值不正常。结论:该天面粉均值不正常。1.单总体均值检验单总体均值检验独立性检验(略
25、)正态性检验(略)建立假设:H0:=20 H1:201011012.两总体均值检验流程均值检验均值检验独立样本独立样本配对样本配对样本大样本大样本小样本、正态小样本、正态方差已知方差已知方差已知方差已知方差未知方差未知Z检验检验方差相等方差相等大样本或大样本或正态小样本正态小样本配对配对T检验检验方差未知方差未知Z检验检验Z检验检验方差不等方差不等双双T检验检验(勾选等方差勾选等方差)双双T检验检验(不勾选等方差不勾选等方差)注:注:minitab工具中无工具中无“双双z检验检验”,所以用所以用“双双t检验检验”代替。代替。102102独立双总体与配对总体的区别独立双总体与配对总体的区别两组数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 西格玛 统计学 最新 精选 文档
限制150内