最新GB∕T 6379.2-2004 测量方法与结果的准确度(正确度与精密度) 第2部分:确定标准测量方法重复性与再现性的基本方法5.pdf
I C S 0 3.1 2 0.3 0“询日中 华 人 民 共 和 国 国 家 标 准 G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 4 部分代替G B/T 6 3 7 9-1 9 8 6 G B/T 1 1 7 9 2 一 1 9 8 9 测量方法与结果的准确度 (正确度与精密度)查 含 0 立I T 2、7 4 心 卜杖二砚 士知“遥 基 州 七 之 土 C 奋 难 1 淞卜 训 尸,r,司 尸谈二梦 J,碑,了,口 二 翻 二 二 了诊,啥 己 云口,如叮,性,竺,甲 r,【d一 J 止 4弓 J J、J 勺 界 现 11生 削 量 小 力 达 A c c u r a c y(t r u e n e s s a n d p r e c i s i o n)o f me a s u r e me n t m e t h o d s a n d r e s u l t s-P a r t 2:B a s i c m e t h o d f o r t h e d e t e r mi n a t i o n o f r e p e a t a b i l i t y a n d r e p r o d u c i b i l i t y o f a s t a n d a r d me a s u r e m e n t me t h o d (I S O 5 7 2 5 一 2:1 9 9 4,I D T)2 0 0 4-0 6-0 2发布2 0 0 5-0 1-0 1 实施 中 华 人民 共 和国国 家 质 量监督 检 验检 疫总局,小 蔺、菌发 布 G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 4 月 U胃 G B/T 6 3 7 9(测量方法与结果的准确度(正确度与精确度)分为六部分,其预期结构及对应的国际标准为:第1 部分:总则与定义(I S O 5 7 2 5-1:1 9 9 4,I D T)第2 部分:确定标准测量方法的重复性和再现性的基本方法(I S O 5 7 2 5-2:1 9 9 4,I D T)第3 部分:标准测量方法精密度的中间度量(对应I S O 5 7 2 5-3;1 9 9 4)第4 部分:确定标准测量方法正确度的基本方法(对应I S O 5 7 2 5-4:1 9 9 4)第5 部分:确定标准测量方法正确度的可替代方法(对应I S O 5 7 2 5-5;1 9 9 8)第6 部分:准确度值的实际应用(对应I S O 5 7 2 5-6;1 9 9 4)本部分为 G B/T 6 3 7 9 的第 2 部分。G B/T 6 3 7 9 的本部分等同采用国际标准I S O 5 7 2 5-2:1 9 9 4(测量方法与结果的准确度(正确度与精确度)第2 部分:确定标准测量方法重复性和再现性的基本方法 及I S O于2 0 0 2-0 5-1 5 发布的对1 9 9 4版I S O 5 7 2 5-2 的技术修改单。G B/T 6 3 7 9 第 1 部分至第 6 部分作为一个整体代替 G B/T 6 3 7 9-1 9 8 6 和 G B/T 1 1 7 9 2-1 9 8 9。标准中将原精密度加以扩展,增加了正确度;除重复性条件和再现性条件外,增加了中间精密度条件。本部分的附录 A和附录 B为规范性附录,附录 C为资料性附录。本部分由中国标准化研究院提出。本部分由全国统计方法与应用标准化技术委员会归口。本部分起草单位:中国标准化研究院、中国科学院数学与系统科学研究院、辽宁出人境检验检疫局、广州出人境检验检疫局。本部分主要起草人:于振凡、冯士雍、刘文、姜健、丁文兴、王斗文、肖惠、李成明。本部分于 2 0 0 4 年首次发布。G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 4 引言0.1 G B/T 6 3 7 9 用两个术语“正确度”与“精密度”来描述一种测量方法的准确度。正确度指大量测试结果的(算术)平均数与真值或接受参照值之间的一致程度;而精密度指测试结果之间的一致程度。0.2 G B/T 6 3 7 9.1 中对上述诸量给出了一般性的考虑,在 G B/T 6 3 7 9 本部分中不再重复。G B/T 6 3 7 9.1应与 G B/T 6 3 7 9 所有其他部分(包括本部分)结合起来读,因为 G B/T 6 3 7 9.1 给出了基本定义和总则。0.3 G B/T 6 3 7 9 本部分只考虑重复性标准差和再现性标准差的估计。虽然其他类型的试验(如分割水平试验)也可用于某些情形的精密度估计,G B/T 6 3 7 9 本部分中并没有涉及这方面内容,这将在I S O 5 7 2 5-5 中 进行讨论。G B/T 6 3 7 9 本部分也没有考虑精密度两个主 要度量之间的 任何其他中间度量问题,这将是 G B/T 6 3 7 9.3 的内容。0.4 在某些情况下,为进行精密度估计得到的试验数据也可用于估计正确度。正确度的估计也不在本部分中给予考虑,有关正确度估计的所有内容将是G B/T 6 3 7 9.4的目标。G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 4 测量方法与结果的准确度 (正确度与精密度)第2 部分:确定标准测量方法重复性 与再现性的基本方法1 范围1.1 G B/T 6 3 7 9的本部分 给出了一些通过协同试验室间试验获得测量方法精密度的数值估计的试验设计 中应遵循的一 般原则。提供估计测量方法精密度所常用的基本方法的详细而实用的说明。为所有关心精密度估计的试验设计、执行和结果分析人员提供指南。注 1:为特定目的而对基本方法进行某些修正改变的内容在 G B/T 6 3 7 9 其他部分中给出。附录B提供了一些通过试验估计测量方法精密度的实际例子。1.2 G B/T 6 3 7 9 本部分所涉及的测量方法特指对连续量进行测量,并且每次只取一个测量值作为测试结果的测量方法,尽管这个值可能是一组观测值的计算结果。1.3 假定在精密度试验的设计和执行过程 中,已经遵循 了在 G B/T 6 3 7 9.1中给定的所有原则。基本方法是在每一个实验室使用相同数 目的测试结果,并且每一个实验室都对测试样本的相 同水平进行分析,即进行平衡均匀水平的试验。基本方法适用于那些标准化的且在很多实验室常规使用的程序。注2:标准附录部分给出了几个实际例子来说明平衡一致的测试结果。在一个例子中,单元中的重复测试数有变化 (非均衡设计);在另一个例子中一些数据缺失了。这是因为一个均衡设计的试验最终可能变成非均衡的。也 考虑了岐离值和离群值。1.4 G B/T 6 3 7 9.1-2 0 0 4 第 5 章中的统计模型被用作解释和分析测试结果的基本模 型,且认为测试结果是近似服从正态分布的。1.5 G B/T 6 3 7 9 本部分估计测量方法精密度的基本方法用于下列情形:a)需要确定在 G B/T 6 3 7 9.1 中定义的重复性和再现性标准差时;b)当使用的物料是匀质的,或不均匀性的影响能包括在精密度值 中时;。)当可以采用平衡均匀水平设计时。1.6 对 尚未标准化的或非常规使用的测量方法进行初步精密度估计时也可以使用同样的方法。2 规范性引用文件 下列文件中的条款通过 G B/T 6 3 7 9 本部分的引用而成为本部分的条款。凡是注 日 期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版本均不适用于本部分,然而,鼓励根据本部分达成协议的各方研究是否可使用这些文件的最新版本。凡是不注 日 期的引用文件,其最新版本适用于本部分。I S O 3 5 3 4-1:1 9 9 3 统计学词汇和符号第 1 部分:概率和一般统计术语 G B/T 6 3 7 9.1-2 0 0 4 测量方法与结果的准确度(正确度与精密度)第 1 部分:总则与定义3 定义 I S O 3 5 3 4-1 和 G B/T 6 3 7 9.1 中给出的定义在 G B/T 6 3 7 9 本部分中仍适用。G B/T 6 3 7 9 使用的符号由附录 A给出。G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 44 甚本模型中的参数估计4.1 G B/T 6 3 7 9 本部分给出的程序是建立在G B/T 6 3 7 9.1-2 0 0 4 第5 章的统计模型基础上的,这些程序在G B/T 6 3 7 9.1-2 0 0 4 的1.2中进行了详细的阐述。特别是,这些程序是基于G B/T 6 3 7 9.1-2 0 0 4 第 5 章中的式(2)到式(6)0 基本模型是:y m B e 其中,对给定的受试物料:m 总平均值(期望);B 重复性条件下的偏倚的实验室分量;e 在重复性条件下每一次测量产生的随机误差。4.2 G B/T6 3 7 9.1-2 0 0 4 第5 章中的式(2)到式(6)表示的是所考虑总体标准差的真值。实际情况中,这些标准差的确切值是未知的,精密度的估计值通过从全体实验室组成的总体抽取少量的实验室来获得的。而在这些实验室内部,该估计值由所有可能测试结果的一个小样本获得。4.3 在统计实践 中,如果标准差的真值。未知,则 以样本进行估计并替代,此时,符号。用 代替,、表示。的估计值。下列估计值可根据 G B/T 6 3 7 9.1-2 0 0 4 的式(2)到式(6)得出:s i:实验室间方差的估计值;S w:实验室内方差的估计值;s;:S w的算术平均值,并且是重复性方差的估计值;这个算术平均值是在剔除了离群值后对所有参与准确度试验的实验室计算的。S R:再现性方差的估计值:S R、兑:,(1)5 对精密度试验的要求5.1 试验安排5.1.1 在用基本方法进行试验安排时,取自4 批物料的样本分别代表4个不同测试水平,被分到p 个实验室,每一个实验室都在重复性条件下对每一水平得到同样n 次重复测试结果。这种试验称为平衡均匀水平试验。5.1.2 这些测量工作应在如下规则下组织进行:a)任何设备的预检应按标准方法中的规定进行;b)同一水平中一组 n 次测量应该在重复性条件下进行,即在短暂的时间间隔内,由同一操作员测 量;除非是作为整个测量过程的一个环节,测量过程中间不允许对设备进行任何的重新校准。c)一组 n 次测试要求在重复性条件下独立地进行是十分重要的,就像是在对 n 种不同的物料进 行的n个测试。然而,事实上,操作员会知道他是对同一物料进行测试。应在说明书中强调的 是,测试的整个意图就是要考察在实际测试中测试结果能发生多大的的变化。尽管有这样的 提示,为避免前面的测试结果对随后的测试产生影响,从而影响重复性方差,可考虑在全部 4 个水平,每个水平上要求 n 个独立测试 的样本,混合进行编号,使得操作员不知道所进行的测 试是哪个水平的。不过,这样 的程序也可能会产生另一个问题,即能否保证重复性条件适用 于这些重复的测试。只有当所有q n 个测量可以在一个很短的时间内完成时,上述条件才能得 到保证。d)没有必要要求所有q 组的n次测量都严格在一个很短的时间内进行;不同组的测量可以不在 同 日内进行;e)所有 q 个水平的测量都将由同一个操作员做出,此外,在给定水平上做出的 n 个测量要 自始至 G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 4 终使用同一设备;f 如果在测量过程中一个操作员因故不能完成全部测量,那么可以由另一个操作员继续剩下的 测量,只要这个人员变更不是发生在同一水平同一组的n个测量上,而是发生在4 组中的两个 不同组上。任何这样的人员变更都要随测试结果一起上报。9)应该给出一个时间限制,所有的测量应该在该时间区间内完成。把该时间限制在收到样本的 日 期和测量完成的 日 期之间;h)所有的受试样本都应该用标签标明测试名称并对样本进行编号。5.1.3 对 5.1.2 和 G B/T 6 3 7 9 本部分的其余章节中“操作员”加以说明。对于某些测量,事实上可能由一组操作员进行,每一操作员执行测量程序的某一规定部分。在此情况下,这一组操作员将统一看作“操作员”,这一组中出现任何人员的变更都将被看成是不同的“操作员”。5.1.4 在商业实践中,对测试结果的修约可能做得很粗。但在精密度试验中,测试结果要比标准方法中规定的有效数字位数至少多一位。如果该方法没有规定有效数字位数,那么修约的误差不能超过重复性标准差估计值的 1/2。当精密度依赖于水平 m时,对于不同的水平就要有不同的修约程度。5.2 实验室征集5.2.1 在G B/T 6 3 7 9.1-2 0 0 4 的6.3 中给出了关于参与实验室间协同试验的实验室征集工作的一般原则。在征集所需数 目的协同实验室时,要明确规定这些实验室的条件。图 1中给出了一个实验室调查征集的例子。5.2.2 一个“实验室”在G B/T 6 3 7 9 本部分中被认为是操作员、设备和测试场所的一个组合,一个测试场所或通常意义的一个实验室可以产生几个“实验室”,只要它能够为几个操作员提供独立的仪器设备和测试场地。5.3 物料准备5.3.1 在G B/T 6 3 7 9.1-2 0 0 4 的6.1 中给出了精密度试验中选择物料时需要考虑的要点。5.3.2 在决定试验所需的物料数量时,应该考虑到在获得某些测试结果时会出现偶然的洒出和称量误差,从而需用到额外的物料。需要准备的物料数量应当足以满足测试之用,并且允许适 当的储备。夕 图 1 实验室间协同研究调查表G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 45.3.3 应考虑在得到正式的测试结果之前一些实验室为了熟悉测量方法而获得某些初步测试结果是否可取,如果可取,那么也应考虑是否应该提供额外的物料(非精密度试验样本)。5.3.4 当一种物料必须要进行匀质化时,应对该种物料以最合适的方式进行匀质化。当要进行测试的物料不是匀质时,就要以该方法中规定 的方式准备样本,这是很重要的,最好对每个水平都用不同批 的商业物料。对于不稳定的物料,应给出特殊的储藏和处置说明书。5.3.5 如果容器一旦被打开物料就有变质的危险(例如被氧化,损失挥发或吸湿物料),那么对于每一水平下的样本,应对每个试验室使用 n 个不同的容器。在物料不稳定的情况下,应给出特殊的储藏和处置说明书。应该采取一些预防措施来确保样本直到进行测量时相同。如果要测量的物料是由不同相对密度的粉状物料混合而成或由不同大小的颗粒组成的,那么由于震动可能会产生分离(例如在运输过程中),因此需要特别注意。当受试样本可能与空气发生反应时,样品可以被封在被抽空或者用惰性气体填充的玻璃瓶内。对于食品或血样这样的易变质的物料,有必要将其以冷冻状态送到参与的实验室,并对其融化程序进行详细的说明。6 参与精密度试验的人员 注3:不同的实验室其操作方法不尽相同。因此,本章的内容仅仅作为一个指南,在特定情况下可作适当修改。6.1 领导小组6.1.1 领导小组宜由熟悉该测量方法及其应用的专家组成。6.1.2 领导小组的任务是:a)计划和协调试验;b)决定需要的实验室数量、水平和要求的测量数,以及要求的有效数字位数;c)指定其中某位成员承担统计方面的职责(见 6.2);d)指定其中一位成员为执行负责人(见 6.3);e)考虑给每个实验室的测量负责人下发除了标准测量方法以外的操作说明书;f)决定是否允许某些操作员进行少量的非正式测量,以便在间歇很长时间后(这些测量结果不应 作为协同试验的正式样本)重获测量方法方面的经验;g)测试结果分析完成后,讨论统计分析报告;h)确定重复性标准差和再现性标准差的最终值;i)决定是否需要就改进测量方法标准及对那些测试结果被作为离群值而拒绝的实验室采取进一 步的措施。6.2 统计专家的职责 领导小组中至少有一个成员应具有统计设计和试验分析方面的经验。他的任务是:a)用专业知识进行试验设计;b)对数据进行分析;c)按 7.7.1中的规定向领导小组提交一份报告。6.3 执行负责人的职责6.3.1 把试验实际的组织工作委托给某个实验室。领导小组任命该实验室的一名成员为执行负责人,对此工作负全责。6.3.2 执行负责人的任务是:a)征集必要数 目的协同实验室,并且负责任命每个实验室的测量负责人;b)组织和监管测试物料、样本的准备以及样本的分配;对每个水平,应该预留足够量的备用 物料;c)起草涵盖5.1.2中a)至h)各项要点的操作说明书,将说明书尽早地提前分发给各实验室测量 负责人,以便他们能对其提出意见,确保所选的操作员在常规操作中能正确地进行测量;G B/T 6 3 7 9.2-2 0 0 4 八S 05 7 2 5-2:1 9 9 4 d)设计适当的表格,以便操作员用于工作记录、测量负责人用于报告测试结果的有效数字位数;(表格可以包括操作员的姓名、收到和测量样本的 日 期、所使用的设备和其他有关的信息等);e)处理各实验室在测量操作中出现的问题;f)关注试验的进度,使试验按规定 日程进行;g)收集数据表并把它们提交给统计专家。6.4 测f负责人6.4.1 每个参与试验的实验室应指定一名成员负责实际测量的组织、按执行负责人的指令工作并报告测试结果。6.4.2 测量负责人的任务是:a)确保所选的操作员在 日常操作中能正确地进行测量;b)按执行负责人的指令把样本分发给操作员(必要时还要为熟悉试验操作提供物料);c)对测量的执行进行监管(测量负责人不应参与测量操作);d)确保操作员进行规定次数的测量;e)确保测量工作按时间进度进行;f)收集测试结果,要求结果记录的小数位数与要求一致,以及测试中遇到的任何 困难、异常现象 和操作员反映的意见。6.4.3 每个实验室的测量负责人应撰写一份包括下面信息的全面报告:a)原始测试结果,由操作员以清晰字迹记录在所提供的表格上,而不要转录或打印(计算机或测 试机器打印输出的结果除外);b)最初的观测值或读数(当测试结果由这些读数计算得 出时),由操作员以清晰字迹记录在所提 供的表格上,而不要转录或打印;c)操作员提出的关于测量方法标准方面的意见;d)在测量期间发生的任何非常规或干扰的信息,包括可能发生 的操作 员变更,指 明哪位操作员 做了哪些测量,以及对任何数据缺失原因的说明;e)样本收到的日期;f)每个样本被测量的 日 期;9)使用的相关设备信息;h)其他有关的信息。6.5 操作员6.5.1 在每个实验室中,测量应该由一个选定的操作员完成,该操作员是在通常操作中可能执行该测量任务的操作员代表。6.5.2 因为试验的目的是对全体使用该标准测量方法的操作员确定标准测量方法的精密度,因此一般不宜给操作员以拓展测量方法标准的权利。然而,也应该对操作员指出,测试的目的之一是发现测试结果在实际中的变化,这样他们就不会对不一致的测量结果进行丢弃或重测。6.5.3 尽管操作员通常没有对标准测量方法进行补充性修订的任务,但是也应鼓励他们对标准做出评价,尤其是指出标准中的说明是否足够明确而不模糊。6.5.4 操作员的任务是:a)根据标准测量方法实施测量;b)报告测试中遇到的异常现象和 困难;报告一个错误要 比调整测试结果更为重要,因为缺失一 两个测试结果不会毁坏整个试验,多数情况下反而反映了测量标准本身的不足。c)为评价标准中的说明是否合适;操作员应在遇到的任何不能按试验说明进行测试 的情况时随 时报告,因为这也反映了标准本身的不足。G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 47 精密度试验的统计分析7.1 初步考虑7.1.1 数据的分析是一个统计问题,应由统计专家来解决,它包括以下三个相继的步骤:a)对数据进行检查,以判别和处理离群值或其他不规则数据,并检验模型的合适性;b)对每个水平分别计算精密度和平均值的初始值;c)确定精密度和平均值的最终值,且在分析表 明精密度和水平 m之间可能存在某种关系时,建 立它们之间的关系。7.1.2 对每个水平,首先计算以下诸量的估计值:一 一重复性 方差:s;实验室间方差:s%再现性方差:、zS R=s:十s%平均值 m7.1.3 统计分析包括对离群值的统计检验的系统应用,在文献中有许多方法可以用于 G B/T 6 3 7 9 本部分。从实际应用考虑,在 7.3 中将这些方法选择整理成几种方法。7.2 结果列表和所用记号7.2.1 单元 一个实验室和一个水平的组合称为精密度试验的一个单元。理想的情况是,一项有p个实验室和q 个水平的试验,列成p q 个单元的表,每个单元包含n 次重复测试结果,以此来计算重复性标准差和再现性标准差。然而,由于多余数据、缺失数据和离群值的发生,这种理想情况在实际中并不总是能够得到 的。7.2.2 多余数据 有时一个实验室可能进行且报告了多于正式规定的n 个测试结果。在此情形下,测量负责人应报告为什么会这样?哪些是正确的测试结果?如果答案是这些测试结果都是 同样有效 的,则宜在这些测试结果中随机抽取原定数量的数据用于分析。7.2.3 缺失数据 另一种情形是,一些测试结果可能缺失,例如,因为样本 的丢失或在测量时操作 的失误。在 7.1中推荐的分析程序是对完全空白的单元简单地将其忽略,而对部分空白的单元则通过标准计算程序给予考虑。7.2.4 离群值 离群值是原始测试结果或由此生成的一些数值,与其他测试结果或同样产生的其他数值相差很大,不一致。经验告诉我们,离群值不能完全避免,须与缺失数据一样作类似处理。7.2.5 离群实验室 当某个实验室在几个不同水平出现无法解释的非正常测试结果,在所测试水平下,实验室内方差和(或)系统误差过大时,可将它作为离群实验室。有理由舍弃离群实验室的部分或全部数据。G B/T 6 3 7 9 本部分没有提供如何判断可疑的离群实验室的统计检验程序。对此应由统计专家做出初步决定,但是所有被除外的实验室都应该报告给领导小组以便采取进一步的行动。7.2.6 错误数据 有明显错误的数据应进行核查并予以更正或剔除。7.2.7 平衡均匀水平测试结果 理想的情况是对p个实验室(编号为i=1,2,.p),q 个水平(编号为j=1,2,.妇,每个水平都重复n 次测试的情形,总共获得p q n 个测试结果。由于数据缺失(7.2.3)、离群的测试结果(7.2.4)、离群实验室(7.2.5)或错误数据((7.2.6)的存在,这种理想的情况并不总能得到。在这些情况下,在 7.2.8 到 G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 47.2.1 0中的记号和7.4中的程序允许测试结果数不全不同。图2 给出用于统计分析的推荐的原始数据的列表格式,为方便起见,分别简称为 A表、B表和 C表。一 一川仁导一1 212i l二 止 图 2 分析结果整理的推荐格式7.2.8 原始测试结果 图 2的 A表中,n。是第i 个实验室在水平i 1 这个单元的测试结果数;y i,是该单元第k个测试结果((k=1,2-二 n;)p,是J水平至少有一个测试结果的实验室数(在剔除了所有离群值和错误的测试结果后)。7.2.9 单元平均值(图 2 的 B表)由 A表按下式计算单元平均值:GB/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 4 。生劝。(2)j k=1 单元平均值应 比 A表中的测试结果有效数字多一位。7.2.1 0 单元离散度(图 2 的 C表)由A表(参见7.2.8)和B 表(参见7.2.9)按下面的公式计算单元离散度:一般情况,使用单元内标准差,即 1 n 、一I、(、一 v:)“(3)勺 n ij一 1 k 泣1 上式等价于 S ij 一 丫 志 n.yijk)21 LJnij-1 L k=1一 粼 n.1.1,。;)2(y j yijk)nij k=1一 。4)在使用上述公式计算时,应注意在计算过程中保 留足够的有效数字位数,每个中间值需要保留的位数应是原始数据的两倍。注 4:如果单元 i j 只包含两个测试结果,单元内标准差即为:S:j y ij,一y ij 2 涯.一(5)因此,为简单起见,若所有单元都只包含两个测试结果,则可用绝对差代替标准差。标准差应该比 A表中的结果的有效数字多一位。若n。小于2,在C表中插人符号“一”。7.2.1 1 经更正或被剔除的数据 因为一些数据根据 7.1.3,7.3.3 和 7.3.4 中提到的检验可能经过更正或予以剔除,因此用于最后确定精密度和平均值的y ij k,n。及p,可能与在图2中记录的A表,B表和C表中的原始测试结果不同。所以在报告精密度和正确度的最终值时,如果有经过更正或剔除的数据应予指出。7.3 测试结果的一致性和离群值检查 参见参考文献 3,根据对多个水平获得的数据,即可对重复性标准差和再现性标准差进行估计。由于个别实验室或数据可能与其他实验室或其他数据明显不一致,从而影响估计,必须对这些数值进行检查。为此介绍以下两种方法:a)检验一致性的图方法;b)检验离群值的数值方法。7.3.1 检验一致性的图方法 该方法需用到称为曼德尔的h统计量和k 统计量的两种度量。除用来描述测量方法的变异外,这两个统计量对实验室评定也是有用的。7.3.1.1 对每个实验室的每个水平,计算实验室间的一致性统计量 h,方法是用单元对平均值的离差(单元平均值减去该水平的总平均值)除以单元平均值的标准差:h;一 漂yi,-y;Pi1,L(y I _ y,)Zpi-1(-l”“”(6)上式中,y。见7.2.9,又见7.4.4 将h。的数值,按实验室顺序,以每个实验室的不同水平为一组描点作图(参见B.7,称为h 图)。7.3.1.2 对每个实验室i,计算实验室内的一致性统计量k,方法是先对每个水平i 计算联合单元内标准差:厚 G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 4然后对每个实验室的每个水平内计算:、,v i k:-_止 竺 (7)了 习 s 将k。的数值,按实验室顺序,以每个实验室的不同水平为一组,描点作图(参见图B.8,称为k 图)。7.3.1.3 检查 h与k图可以发现是否有这样实验室,它的测试结果与所考察 的其他实验室明显不同。这里的不同表示为单元内变异一致的高或低,或者单元平均值在许多水平上皆为最高或最低。若发生此种情况,应与该实验室接触,探究造成此类不同行为的原因,根据调查结果统计专家可:a)暂时保留该实验室的数据;b)要求实验室重新进行测量(如果可行);c 剔除该实验室的数据。7.3.1.4 h图有不同的模式。对试验的不同水平,实验室的 h 值可正可负。一个实验室的 h 值可能皆为正值,或皆为负值,取负值 的实验室数与取正值的实验室数大致相等。虽然上述第二种模式表明有共同的实验室偏倚来源的可能,但这两种模式都是正常的,不需要做特别的检查。另一方面,若有一个实验室的h 值皆取同一符号(正或负),而所有其他实验室的h 值皆取另一种符号,就需要查找原因。类似的,若一个实验室的h值比较极端,且与试验水平有系统的依赖关系,则也需查找原因。在h图上按8.3 中(表6 与表7)的临界值画出的临界线,可用于考察数据的行为模式。7.3.1.5 如果一个实验室的k图上的多个点值都很大,就要查找原因,这表明该实验室的重复性比其他实验室差。一个实验室可因对数据的连续修约或测量的不灵敏等因素而造成 k 值偏小。在 k 图上按8.3(表6 与7)的临界值画出的临界线,可用于考察数据的行为模式。7.3.1.6 当按实验室分组的k 图或h图表明某个实验室有好几个k或h值接近临界线时,就应考查相应的按水平分组的图。通常在按实验室分组的图中某个值看起来好象大,但实际上当在同一水平上比较,其他实验室的值与它还是很一致的。如果与其他实验室的值相差很大,就要查找原因。7.3.1.7 除了k 图和h图之外,单元平均值直方图和单元极差直方图也能揭示某些规律,例如实际存在两个不同总体。这种情况需要特殊处理,因为此处描述的方法是在总体分布是单一且是单峰的基本假定下进行的。7.3.2 检验离群值的数值方法7.3.2.1 对离群值的处理建议使用如下方法:a)用7.3.3 和7.3.4 中推荐的检验判别歧离值或离群值:如果检验统计量小于或等于 5 临界值,则接受检验的项 目为正确值;如果检验统计量大于 5 临界值,但小于或等于 1 临界值,则称被检验的项 目为歧离值,且用单星号()标出;如果检验统计量大于 1 临界值,则被检验的项目称为统计离群值,且用双星号(“)标出。b)调查歧离值与统计离群值是否能用某些技术错误来解释,如:测量时的失误;计算错误;登录测试结果时的简单书写错误;错误样本的分析。当错误是属于计算或登录类型时,应用正确的值来代替可疑的结果;当错误是来 自对错误样本分析时,应用正确单元的结果代替。在进行这样的更正以后,应再一次考察歧离值和离群值。如果不能用技术错误解释,从而不能对它们进行更正时,宜将这些值作为真正的离群值予以剔除,真正的离群值属于不正常的测试结果。c)当歧离值和(或)统计离群值不能用技术错误解释或它们来 自某个离群实验室时,歧离值仍然G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 4 作为正确项目对待而保留;而统计离群值则应被剔除,除非统计专家有充分理由决定保留 它们。d)按上述程序,若图2 中的B表中的某个单元的数据被剔除时,则C表中的相应的数据也应该 被剔除,反之亦然。7.3.2.2 7.3.3 和7.3.4 给出的检验是有两种类型的检验。柯克伦检验是对实验室内变异的检验,应该首先应用。若因此采取了任何行动,就有必要再次对剩下的数据进行检验。格拉布斯检验主要是对实验室间变异的检验,但当n 大于2 且柯克伦检验怀疑一个实验室内较高的变异是来自某个测试结果时,格拉布斯检验也可用来对该单元的数据进行检验。7.3.3 柯 克伦(C o c h r a n)检验7.3.3.1 G B/T 6 3 7 9 本部分假定相对于实验室间而言,实验室内方差很小。然而经验表明情况并非总是如此,为此需对此假定 的有效性进行检验。为此 目的有若干检验可以使用,这里选择 了柯克伦检验。7.3.3.2 给定p个由相同的n次重复测试结果计算的标准偏差、,。柯克伦检验统计量C定义为 c 一Sm axA。“(8)艺 S?其中:m a:是这组标准差中的最大值。a)如果检验统计量小于或等于 5 临界值,则接受被检验项 目为正确值;b)如果检验统计量大于5 临界值,但小于或等于1 临界值,则称被检验的项目称为歧离值,且 用单星号()标出;c)如果检验统计量大于 1 临界值,则被检验项 目称为统计离群值,且用双星号(“)标出。8.1 的表 4 给出了柯克伦检验的临界值。柯克伦检验必须分别用于图 2中不同水平的 C表中。7.3.3.3 柯克伦准则严格应用在所有标准差都是在重复性条件下,且由相同数目(n)的测试结果计算得出的情形。实际中由于数据的缺失或剔除,测试结果数可能不同。然而G B/T 6 3 7 9 本部分假定在正常组织的试验中,每个单元中测试结果数 目不同所造成的影响是有限且可以忽略的,柯克伦准则中所用的 n 可取为多数单元中的测试结果数。7.3.3.4 柯克伦准则所检验的仅对一组标准差中的最大值,从而是单侧离群值检验。当然,方差不齐也包含使某些标准差相对较小,然而小的标准差值可能很大程度受原始数据修约程度的影响,因而并不可靠。另外,似乎也没有理由拒绝一个比其他实验室精密度都要高的实验室的数据。因此柯克伦准则是合理的。7.3.3.5 图2中C表的临界检验有时揭示一个特定实验室的标准差全部或在大多数水平下都比其他实验室的低,表明该实验室的重复性标准差要比其他实验室的低,这可能是 由于它们有较好的技术或设备,也可能由于修改了或不适当地应用了标准测量方法。如果是后一种情况,应 向领导小组报告,由领导小组作出决定是否应该进行更详细的调查。(在 B.1 叙述的试验中实验室 2即是这样的例子。)7.3.3.6 如果最大标准差经检验判为离群值,应将该值剔除而对剩下的数据再次进行柯克伦检验,此过程可以重复进行。但是当分布为近似正态的假定没有充分满足时,这样有可能导致过度的拒绝。重复应用柯克伦检验,仅在没有同时检验多个离群值的统计检验时使用。柯克伦检验不是为同时检验多个离群值而设计的,因此在下结论时要格外小心。当有两个或三个实验室的标准差都 比较高,尤其是如果这是在一个水平内得出的时候,由柯克伦检验得出的结论应该仔细核查。另一方面,如果在一个实验室的不同水平下发现多个歧离值和(或)统计离群值,这表明该实验室的室内方差非常高,来 自 该实验室的全部数据都应该被拒绝。7.3.4 格拉布斯(G r u b b s)检验 G B/T 6 3 7 9.2-2 0 0 4/I S O 5 7 2 5-2:1 9 9 47.3.4.1 一个离群观测值情形 给定一组数据x,i=1,2,-P,将其按其值大小升序排列成x o),格拉布斯检验是检验最大观测值x(P)是否为离群值,计算格拉布斯统计量G P.G P(x,P,一x)、(9)其中 二 工P 二 飞 。(1 0)p,-1 、一 火 万_p.而一与丁。,。,、川 V p一 工 户-,)而为检验最小观测值 二 1,是否为离群值,则计算检验统计量:G l C v 一、叭u).P a)如果检验统计量小于或等于 J 临界值,则接受被检验项 目为正确值;b)如果检验统计量大于5 临界值,但小于或等于1 临界值,则称被检验的项目称为歧离值,且 用单星号()标出;c)如果检验统计量大于 1 临界值,则被检验项目称为统计离群值,且用双星号(“)标出。7.3.4.2 两个离群观测值情形 为检验最大的两个值是否为离群值,计算格拉布斯检验统计量 G:G旅.P/S O (1 2)其中:户 s o 一艺(二 。一 二)z (1 3)了 1 介 2 s n-z.,一艺(、。一、P-I.P)2 ,(1 4):一 1 :一土 一 P15-1;一、(:)p 一2 芯任 丫 一“为检验最小的两个观测值的显著性,计算格拉布斯检验统计量 G:G、:斌 (1 6)其中:户 s i:一艺(二,一 二 I:)z (1 7)r 牛 3 :一!P 二、。,(1 8)p一2 伙 一、8.2 中的表 5 给出格拉布斯检验统计量的临界值。7.3.4.3 格拉布斯检验的应用 当分析精密度试验时,格拉布斯检验可用于以下情形:a)给定水平 J 的单元平均值见(图 L中的 I3 表)。在此情形 .zy p p 其中J固定。对一个水平的数据,对样本平均值应用 7.3.4.1 中的一个离群值情形的格拉布斯检验,若其中最大的或最小的单元平均值经检验为离群值,则将其剔除;对剩下的单元平均值重复进行同样的检验。看另一个极值(若前一个检出的为最大值,则第二次检验最小值)是否为离群值。此时不要用7.3.4.2中的对两个离群观测值的格拉布斯检验。当前一检验结果没有一个单元均值为离群值时,再进行 7.3.4.2G B/T 6 3 7 9.2-2 0 0 4 八S 05 7 2 5-2:1 9 9 4中的对两个离群值情形的格拉布斯检验。b)柯克伦检验表明某个单元标准差有问题时,对该单元单个测试结果。注:根据7.3.2.1,如果检验统计量的值比1 临界值大,则称该项为统计离群值。格拉布斯检验最初用于一组单元 平均值时,表5中的临界值是用来检验 0.5 水平时最高的单元平均值,以及检验0.5 水平时最低的单元平均 值。根据 7.3.2.1,这等于检验水平为1 写时极端的单元平均值。如果发现单元平均值的极端值是统计离群值,则可 将格拉布斯检验 应用于其 他单元平均值的 极端值。也可能有 人认为此时 应使用单侧 检验,然而G B/T 6 3 7 9 本部分所推荐的程