试验设计运筹学精.ppt
试验设计运筹学第1页,本讲稿共59页 在科学研究与生产实践当中,不可避免地要进行试验。例如在工农业生产中希望通过试验达到高质、优产、低消耗,特别是新产品试验,未知的东西很多,只有通过试验来模拟工艺条件或配方。如何做试验,其中大有学问。试验设计得好,会事半功倍,反之会事倍功半,甚至劳而无功。第2页,本讲稿共59页【例例】在一个化工生产过程中,考虑影响产量的三个因素:温度在一个化工生产过程中,考虑影响产量的三个因素:温度(A A)、时间()、时间(B B)和加碱量()和加碱量(C C)。为了便于试验的安排,每个)。为了便于试验的安排,每个因素要根据以往的经验来选择一个试验范围,然后在试验范围内跳因素要根据以往的经验来选择一个试验范围,然后在试验范围内跳出几个有代表性的值来进行试验,这些值称作该因素的水平。在该出几个有代表性的值来进行试验,这些值称作该因素的水平。在该例中,我们选择的试验范围如下:例中,我们选择的试验范围如下:温度(温度(A A):):77.577.592.592.5 时间(时间(B B):):75min75min165min165min 加碱量(加碱量(C C):):4.5%4.5%7.5%7.5%第3页,本讲稿共59页【例例】然后在上述范围内,每个因素各选三个水平,组成如然后在上述范围内,每个因素各选三个水平,组成如下的因素水平表:下的因素水平表:因素123温度808590时间90125150加碱量567第4页,本讲稿共59页n n试验设计(design of experiment,DOE),也称为实验设计,它是以概率论和数理统计为理论基础,经济地、科学地安排试验的一项技术,以使收集的数据适合于用统计方法分析,得出有效的和客观的结论。第5页,本讲稿共59页试验设计的作用试验设计的作用1.提高产量;2.减少质量的波动,提高产品质量水准;3.缩短新产品试验周期;4.降低成本;5.延长产品寿命。第6页,本讲稿共59页n n从20世纪30年代费希尔(R.A.Fisher)在农业生产中使用试验设计方法以来,试验设计方法已经得到广泛的发展,统计学家们发现了很多非常有效的试验设计技术。n n20世纪60年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化,在方法解说方面深入浅出,为试验设计的更广泛使用作出了众所周知的贡献。第7页,本讲稿共59页n n试验设计自20世纪30年代问世至今,其发展大致经历了三个阶段:n n早期的单因素和多因素方差分析n n传统的正交试验法n n近代的优选设计法第8页,本讲稿共59页试验设计的基本原理试验设计的基本原理n n重复n n随机化n n区组化第9页,本讲稿共59页n n所谓重复,意思是基本试验的重复进行。重复有两条重要的性质:n n第一,允许试验者得到试验误差的一个估计量。这个误差的估计量成为确定数据的观察误差是否是统计上的试验误差的基本度量单位。n n第二,如果样本均值用作试验中一个因素的效应的估计量,则重复允许试验者求得这一效应的更为精确的估计量。第10页,本讲稿共59页n n所谓随机化,是指试验材料的分配和试验进行的次序,都是随机地确定的。统计方法要求观察值(或误差)是独立分布的随机变量。随机化通常能使这一假定有效。把试验进行适当的随机化亦有助于“均匀”可能出现的外来因素的效应。第11页,本讲稿共59页n n所谓区组化,是用来提高试验精确度的一种方法。一个区组就是试验材料的一个部分,相比于试验材料全体它们本身的性质应该更为类似。区组化牵涉到在每个区组内部对感兴趣的试验条件进行比较。第12页,本讲稿共59页试验设计的内容试验设计的内容第一,明确试验设计中的试验指标,也称为响应变量(response variable)或输出变量,这个指标必须是能够量化的指标。第二,寻找影响试验指标的可能因素(factor),也称为影响因子和输入变量。因素变化的各种状态称为水平,要求报据专业知识初步确定因子水平的范围。第13页,本讲稿共59页第三,根据实际问题,选择适用的试验设计方法。试验设计的方法有很多,每种方法都有不同的适用条件,选择了适用的方法就可以事半而功倍,选择的方法不正确或者根本没有进行有效的试验设计就会事倍而功半。第四,科学地分析试验结果,包括对数据的直观分析、方差分析、回归分析等多种统计分析方法。第14页,本讲稿共59页试验设计的各种方法试验设计的各种方法n n析因法n n正交试验设计法n n优选设计方法第15页,本讲稿共59页一、析因法一、析因法 析因法又称析因试验设计、析因试验,也叫做全因子实验设计。它是研究变动着的两个或多个因素效应的有效方法。许多试验要求考察两个或多个变动因素的效应。将所研究的因素按全部因素的所有水平的一切组合逐次进行试验,称为析因试验,或称完全析因试验,简称析因法。第16页,本讲稿共59页n n 若在一项试验中有m个因素,它们各自有l1,l2,lm个水平,则全面试验至少需要进行多少次试验?第17页,本讲稿共59页n n析因设计的最大优点是所获得的信息量很多,可以准确地估计各实验因素的主效应的大小,还可估计因素之间各级交互作用效应的大小;n n析因设计的最大缺点是所需要的实验次数最多,因此耗费的人力、物力和时间也较多。当所考察的实验因素和水平较多时,研究者很难承受。第18页,本讲稿共59页n n当析因设计要求的实验次数太多时,一个非常自然的想法就是从析因设计的水平组合中,选择一部分有代表性水平组合进行试验。因此就出现了分式析因设计(fractional factorial designs),但是对于试验设计知识较少的实际工作者来说,选择适当的分式析因设计还是比较困难的。第19页,本讲稿共59页试验设计与方差分析完全随机化完全随机化设计设计因子因子设计设计试验设计试验设计随机化随机化区组设计区组设计可重复双因素可重复双因素方差分析方差分析单因素单因素方差分析方差分析无重复双因素无重复双因素方差分析方差分析第20页,本讲稿共59页完全随机化设计(completely randomized design)第21页,本讲稿共59页1.1.“处理处理”被随机地指派给试验单元的一种设计被随机地指派给试验单元的一种设计“处理处理”是指可控制的因素的各个水平是指可控制的因素的各个水平“试验单元试验单元(experiment unitexperiment unit)”是接受是接受“处理处理”的对象或实体的对象或实体2.2.在在试试验验性性研研究究中中,感感兴兴趣趣的的变变量量是是明明确确规规定定的的,因因此此,研研究究中中的的一一个个或或多多个个因因素素可可以以被被控控制制,使使得得数数据据可可以以按按照照因因素如何影响变量来获取素如何影响变量来获取3.3.对完全随机化设计的数据采用对完全随机化设计的数据采用单因素方差分析单因素方差分析单因素方差分析单因素方差分析第22页,本讲稿共59页完全随机化设计(例题分析)n n【例例例例】一一家家种种业业开开发发股股份份公公司司研研究究出出3 3个个新新的的小小麦麦品品种种:品品种种1 1、品品种种2 2、品品种种3 3。为为研研究究不不同同品品种种对对产产量量的的影影响响,需需要要选选择择一一些些地地块块,在在每每个个地地块块种种上上不不同同品品种种的的小小麦麦,然然后获得产量数据进行分析。这一过程就是试验设计的过程后获得产量数据进行分析。这一过程就是试验设计的过程 这这里里的的“小小麦麦品品种种”就就是是试试验验因因子子或或因因素素,品品种种1 1、品品种种2 2、品品种种3 3就是因子的就是因子的3 3个不同水平,称为个不同水平,称为处理处理处理处理 假假定定选选取取3 3个个面面积积相相同同的的地地块块,这这里里的的“地地块块”就就是是接接受受处处理理的的对象或实体,称为对象或实体,称为试验单元试验单元试验单元试验单元 将将每每个个品品种种随随机机地地指指派派给给其其中中的的一一个个地地块块,这这一一过过程程就就是是随随机机化设计过程化设计过程第23页,本讲稿共59页完全随机化设计(例题分析)n n试验数据:试验数据:试验数据:试验数据:单因素方差分析单因素方差分析单因素方差分析单因素方差分析第24页,本讲稿共59页完全随机化设计(例题分析)n n方差分析:方差分析:方差分析:方差分析:第25页,本讲稿共59页随机化区组设计第26页,本讲稿共59页随机化区组设计(randomized block design)1.1.先按一定规则将试验单元划分为若干同质组,称为先按一定规则将试验单元划分为若干同质组,称为“区组区组(blockblock)”2.2.再将各种处理随机地指派给各个区组再将各种处理随机地指派给各个区组 比比如如在在上上面面的的例例子子中中,首首先先根根据据土土壤壤的的好好坏坏分分成成几几个个区区组组,假假定定分分成成4 4个个区区组组:区组区组1 1、区组、区组2 2、区组、区组3 3、区组、区组4 4,每个区组中有三个地块,每个区组中有三个地块 在每个区组内的在每个区组内的3 3个地块以抽签的方式决定所种的小麦品种个地块以抽签的方式决定所种的小麦品种3.3.分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设计分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设计4.4.试验数据采用试验数据采用无重复双因素方差分析无重复双因素方差分析无重复双因素方差分析无重复双因素方差分析第27页,本讲稿共59页随机化区组设计(例题分析)n n试验数据:试验数据:试验数据:试验数据:无重复双因素方差分析无重复双因素方差分析无重复双因素方差分析无重复双因素方差分析第28页,本讲稿共59页随机化区组设计(例题分析)n n方差分析:方差分析:方差分析:方差分析:第29页,本讲稿共59页因子设计第30页,本讲稿共59页因子设计(factorial design)1.1.感兴趣的因素有两个感兴趣的因素有两个 如:小麦品种和施肥方式如:小麦品种和施肥方式n n假假定定有有甲甲、乙乙两两种种施施肥肥方方式式,这这样样3 3个个小小麦麦品品种种和和两两种种施施肥肥方方式式的的搭搭配配共共有有3 32=62=6种种。如如果果我我们们选选择择3030个个地地块块进进行行实实验验,每每一一种种搭搭配配可可以以做做5 5次次试试验验,也也就就是是每每个个品品种种(处处理理)的的样本容量为样本容量为5 5,即相当于每个品种,即相当于每个品种(处理处理)重复做了重复做了5 5次试验次试验2.2.考虑两个因素考虑两个因素(可推广到多个因素可推广到多个因素)的搭配试验设计称为因子设计的搭配试验设计称为因子设计3.3.该设计主要用于分析两个因素及其交互作用对试验结果的影响该设计主要用于分析两个因素及其交互作用对试验结果的影响4.4.试验数据采用试验数据采用可重复双因素方差分析可重复双因素方差分析可重复双因素方差分析可重复双因素方差分析第31页,本讲稿共59页因子设计(例题分析)n n试验数据:试验数据:试验数据:试验数据:可重复双因素方差分析可重复双因素方差分析可重复双因素方差分析可重复双因素方差分析第32页,本讲稿共59页因子设计(例题分析)n n方差分析:方差分析:方差分析:方差分析:第33页,本讲稿共59页二、正交试验设计第34页,本讲稿共59页n n正交试验设计(Orthogonal experimental design)是研究多因素多水平的一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备了“均匀分散,齐整可比”的特点,正交试验设计是一种高效率、快速、经济的实验设计方法。日本著名的统计学家田口玄一将正交试验选择的水平组合列成表格,称为正交表。第35页,本讲稿共59页考虑进行一个三因素、每个因素有三个水平的试验。如果作全面试验,需作考虑进行一个三因素、每个因素有三个水平的试验。如果作全面试验,需作3 33 3=27=27次。次。第36页,本讲稿共59页n n若从若从2727次试验中选取一部分试验,常将次试验中选取一部分试验,常将A A和和B B分别固定在分别固定在A A1 1和和B B1 1水水平上,与平上,与C C的三个水平进行搭配,的三个水平进行搭配,A A1 1B B1 1C C1,1,A A1 1B B1 1C C2,2,A A1 1B B1 1C C3 3。n n作完这作完这3 3次试验后,若次试验后,若A A1 1B B1 1C C3 3最优,则取定最优,则取定C C3 3这个水平,让这个水平,让A A1 1和和C C3 3固定,再分别与固定,再分别与B B因素的三个水平搭配,因素的三个水平搭配,A A1 1B B1 1C C3,3,A A1 1B B2 2C C3,3,A A1 1B B3 3C C3 3。n n这这3 3次试验作完以后,若次试验作完以后,若A A1 1B B2 2C C3 3最优,取定最优,取定B B2,2,C C3 3这两个水平,再作这两个水平,再作两次试验两次试验A A2 2B B2 2C C3,3,A A3 3B B2 2C C3,3,然后与然后与A A1 1B B2 2C C3 3一起比较,若一起比较,若A A3 3B B2 2C C3 3最优,则可断言最优,则可断言A A3 3B B2 2C C3 3是我们欲选取的最佳水平组合。这样仅作了是我们欲选取的最佳水平组合。这样仅作了7 7次试验就选出了最佳水平组合。次试验就选出了最佳水平组合。n n我们发现,这些试验结果都分布在立方体的一角,代表性较差,所我们发现,这些试验结果都分布在立方体的一角,代表性较差,所以按上述方法选出的试验水平组合并不是真正的最佳组合。以按上述方法选出的试验水平组合并不是真正的最佳组合。第37页,本讲稿共59页n n如果进行正交试验设计,利用正交表安排试验,对于三因素三如果进行正交试验设计,利用正交表安排试验,对于三因素三水平的试验来说,需要作水平的试验来说,需要作9 9次试验,用次试验,用“”表示,标在图中。如表示,标在图中。如果每个平面都表示一个水平,共有九个平面,可以看到每个平面上果每个平面都表示一个水平,共有九个平面,可以看到每个平面上都有三个都有三个“”点,立方体的每条直线上都有一个点,立方体的每条直线上都有一个“”点,并点,并且这些且这些“”点是均衡地分布着,因此这点是均衡地分布着,因此这9 9次试验的代表性很强,次试验的代表性很强,能较全面地反映出全面试验的结果,这就是正交实验设计所特有能较全面地反映出全面试验的结果,这就是正交实验设计所特有的均衡分散性。我们正是利用这一特性来合理的设计和安排试验,的均衡分散性。我们正是利用这一特性来合理的设计和安排试验,以便通过尽可能少的试验次数,找出最佳水平组合。以便通过尽可能少的试验次数,找出最佳水平组合。第38页,本讲稿共59页n n正交表 正交表是一整套规则的设计表格,L为正交表的代号,n为试验的次数,t为水平数,c为列数,也就是可能安排最多的因素个数。正交表的构造需要用到组合数学和概率学知识,而且如果正交表类型不同,则构造方法差异很大,甚至有些正交表其构造方法到目前还未解决。第39页,本讲稿共59页No.1234111112122231333421235223162312731228321393321第40页,本讲稿共59页n n一个正交表中也可以各列的水平数不相等,我们称它为混合型正交表n n根据正交表的数据结构看出,正交表是一个n行c列的表,其中第j列由数码1,2,Sj 组成,这些数码均各出现n/Sj 次,第41页,本讲稿共59页正交表的性质n n每一列中,不同的数字出现的次数相等。例如在两水平正交表中,任何一列都有数码“1”与“2”,且任何一列中它们出现的次数是相等的;如在三水平正交表中,任何一列都有“1”、“2”、“3”,且在任一列的出现数均相等。第42页,本讲稿共59页n n任意两列中数字的排列方式齐全而且均衡。例如在两水平正交表中,任何两列(同一横行内)有序对子共有4种:(1,1)、(1,2)、(2,1)、(2,2)。每种对数出现次数相等。在三水平情况下,任何两列(同一横行内)有序对共有9种,1.1、1.2、1.3、2.1、2.2、2.3、3.1、3.2、3.3,且每对出现数也均相等。第43页,本讲稿共59页n n以上两点充分的体现了正交表的两大优越性,即“均匀分散性,整齐可比”。通俗的说,每个因素的每个水平与另一个因素各水平各碰一次,这就是正交性。n n正交表的获得有专门的算法,对应用者来说,不必深究。第44页,本讲稿共59页n n交互作用表 每一张正交表后都附有相应的交互作用表,它是专门用来安排交互作用试验。安排交互作用的试验时,是将两个因素的交互作用当作一个新的因素,占用一列,为交互作用列。第45页,本讲稿共59页n n正交实验设计的过程 1)确定试验因素及水平数;2)选用合适的正交表;3)列出试验方案及试验结果;4)对正交试验设计结果进行分析,包括极差分析和方差分析;5)确定最优或较优因素水平组合。第46页,本讲稿共59页n n表头设计是正交设计的关键,它承担着将各因素及交互作用合理安排到正交表的各列中的重要任务,因此一个表头设计就是一个设计方案。第47页,本讲稿共59页表头设计的主要步骤如下 (1)确定列数 根据试验目的,选择处理因素与不可忽略的交互作用,明确其共有多少个数,如果对研究中的某些问题尚不太了解,列可多一些,但一般不宜过多。当每个试验号无重复,只有1个试验数据时,可设2个或多个空白列,作为计算误差项之用。第48页,本讲稿共59页(2)确定各因素的水平数 根据研究目的,一般二水平(有、无)可作因素筛选用;也可适用于试验次数少、分批进行的研究。三水平可观察变化趋势,选择最佳搭配;多水平能以一次满足试验要求。第49页,本讲稿共59页(3)选定正交表 根据确定的列数(c)与水平数(t)选择相应的正交表。例如观察5个因素8个一级交互作用,留两个空白列,且每个因素取2水平,则适宜选L16(215)表。第50页,本讲稿共59页(4)(4)表头安排表头安排 正交试验设计的关键在与试验因素的安排。通常,在不考虑交正交试验设计的关键在与试验因素的安排。通常,在不考虑交互作用的情况下,可以自由的将各个因素安排在正交表的各列,只互作用的情况下,可以自由的将各个因素安排在正交表的各列,只要不在同一列安排两个因素即可(否则会出现混杂)。要不在同一列安排两个因素即可(否则会出现混杂)。因素所在列是随意的,但是一旦安排完成,试验方案即确定,之因素所在列是随意的,但是一旦安排完成,试验方案即确定,之后的试验以及后续分析将根据这以安排进行,不能再改变。后的试验以及后续分析将根据这以安排进行,不能再改变。但是当要考虑交互作用时,就会受到一定的限制,如果任意安排,但是当要考虑交互作用时,就会受到一定的限制,如果任意安排,将会导致交互效应与其它效应混杂的情况。将会导致交互效应与其它效应混杂的情况。第51页,本讲稿共59页(4)(4)表头安排表头安排 应优先考虑交互作用不可忽略的处理因素,按照不可混杂的原应优先考虑交互作用不可忽略的处理因素,按照不可混杂的原则,将它们及交互作用首先在表头排妥,而后再将剩余各因素任则,将它们及交互作用首先在表头排妥,而后再将剩余各因素任意安排在各列上。意安排在各列上。例如某项目考察例如某项目考察4 4个因素个因素A A、B B、C C、DD及及ABAB交互作用,各因素交互作用,各因素均为均为2 2水平,现选取水平,现选取L L8 8(2(27 7)表,由于表,由于ABAB两因素需要观察其交互作两因素需要观察其交互作用,故将二者优先安排在第用,故将二者优先安排在第1 1、2 2列,根据交互作用表查得列,根据交互作用表查得ABAB应排应排在第在第3 3列,于是列,于是C C排在第排在第4 4列,由于列,由于ACAC交互在第交互在第5 5列,列,BCBC交互交互作用在第作用在第6 6列,虽然未考查列,虽然未考查ACAC与与BCBC,为避免混杂之嫌,为避免混杂之嫌,DD就排在就排在第第7 7列列 第52页,本讲稿共59页(5)组织实施方案 根据选定正交表中各因素占有列的水平数列,构成实施方案表,按实验号依次进行,共作n次实验,每次实验按表中横行的各水平组合进行。例如L9(34)因此整个设计过程我们可用一句话归纳为:“因素顺序上列、水平对号入座,实验横着作”。第53页,本讲稿共59页正交拉丁方试验设计n n定义1.方阵A的每一行每一列都是集合1,2,n的全排列,则称A是一个n阶拉丁方。第54页,本讲稿共59页 第55页,本讲稿共59页n n定义2.两个n阶拉丁方在同一位置上的数依次配置成对时,如果这两个有序数对恰好各不相同,则称这两个矩阵为正交拉丁阵。n n定义3.设A1,Ak 是 k 个 n 阶拉丁方,若它们两两正交,则称它们是一个正交拉丁方组。n n已经证明,除2、6阶外,其他阶拉丁方都存在正交拉丁方。6阶的正交拉丁方源自于1782年欧拉提出的三十六军官问题。第56页,本讲稿共59页n n有1,2,3,4,5,6六个兵团,每个兵团中选出A、B、C、D、E、F六种军衔的军官各一名,问能否把这36名军官列成一个方阵,使每行每列的六名军官均来自不同兵团且有不同的军衔?第57页,本讲稿共59页n n例:设一种新药,需要进行试验,以确定各种成分的最优剂量,记A,B,C,D为四种成分或称因素,每种成分都取三种剂量来试验,欲找到一种满意的配方。n n如果所有的组合都试验,需要34=81次,而采用正交拉丁方,仅作9次试验即可。第58页,本讲稿共59页三、均匀设计参考书:参考书:方开泰方开泰 均匀设计与均匀设计表均匀设计与均匀设计表 科学出版社科学出版社第59页,本讲稿共59页