第四章方差分析与正交实验设计 (2)精选文档.ppt
《第四章方差分析与正交实验设计 (2)精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章方差分析与正交实验设计 (2)精选文档.ppt(151页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本讲稿第一页,共一百五十一页本章主要内容本章主要内容41 方差分析(略)42 正交试验的基本概念与正交表43 无交互作用的正交设计与数据分析44 有交互作用的正交设计与数据分析45 有重复试验的情况46 水平数不等的试验设计与数据分析47 筛选试验48 多指标的数据分析49 饱和设计本讲稿第二页,共一百五十一页第一节第一节 方差分析方差分析所谓方差分析,是通过比较因素的方差与试验误差的方差,来检验因素对试验指标的影响是否显著。其实质是假设多个总体方差相等的情况下,判断它们的均值是否相等。也就是将试验数据的总波动平方和分解成各因素和交互作用以及试验误差的波动平方和,并比较它们的方差,以判断因素影
2、响的显著性。方差分析(Analysis of Variance,简称ANOVA)能够解决多个均值是否相等的检验问题。节省时间是这种方法明显的优点,它的另一个好处是,由于进行分析时是将所有的样本资料结合在一起,因而增加了稳定性。例如,有30个样本,每一个样本包括10个观察单位。如果用T检验法,一次只能研究两个样本,20个观察单位,而使用方差分析则可以把300个观察单位结合在一起进行研究。所以说,方差分析是一种实用、有效的分析方法。方差分析是一种因素分析方法,广泛应用于优化设计、理化分析、绩效考核中。本讲稿第三页,共一百五十一页(一)方差分析的内容(一)方差分析的内容方差分析是对多个总体均值是否相
3、等这一假设进行检验。下面通过一个例子说明方差分析的内容。例4-1某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。随机从五家超级市场上收集了前一期该种饮料的销售量,如表4-6所示。问饮料的颜色是否对销售量产生影响。表46该饮料在五家超市的销售情况本讲稿第四页,共一百五十一页这是一个方差分析问题。即对四种饮料销售量均值是否相等进行检验。由于饮料是同一厂家生产的,它们的营养含量、味道、价格、装潢等可能影响销售量的因素全部相同,如果检验结果为1、2、3、4不相等,如图4-5(a)所示,则意味着它们来自于不同的总体,表明饮料颜色对销售量产生影响。反之,如果检验结
4、果为1、2、3、4不存在显著影响,则可以认为饮料的颜色对销售量没有影响,它们来自于相同的总体。见图45(b)。本讲稿第五页,共一百五十一页图4-5(a)不同总体的情况图45(b)相同总体的情况本讲稿第六页,共一百五十一页在方差分析中,常常用到一些术语。一个是因素,因素是一个独立的变量,也是方差分析研究的对象。在前面的例子中,饮料的颜色就是一个因素。因素中的内容称为水平。上例因素中的水平有四个,即饮料的四种不同颜色。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素分析。在多因素方差分析中,双因素方差分析是最常见的。在方差分析中,通常假定各个水平的观察数据是
5、来自于服从正态分布总体中的随机样本,各个总体相互独立,且方差相同。实际应用中严格地满足这些假定,特别是对社会经济现象的分析,确实过于苛刻。但一般应近似地符合上述要求。本讲稿第七页,共一百五十一页(二)方差分析的原理(二)方差分析的原理从方差分析的目的看,是要检验各个水平的均值1、2、3、4是否相等,而实现这个目的的手段是通过方差的比较。观察值之间存在着差异,差异的产生来自于两个方面,一个方面是由因素中的不同水平造成的,例如饮料的不同颜色带来不同的销售量,对此我们可以称为系统性差异;另一个方面是由于抽选样本的随机性而产生的差异,例如,相同颜色的饮料在不同的商场销售量也不同。两个方面产生的差异可以
6、用两个方差来计量,一个称为水平之间的方差,一个称为水平内部的方差。前者既包括系统性因素,也包括随机性因素。后者仅包括随机性因素。本讲稿第八页,共一百五十一页如果不同的水平对结果没有影响,如前例饮料的颜色对销售量不产生影响,那么在水平之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与水平内部方差就应该近似,两个方差的比值就会接近于1;反之,如果不同的水平对结果产生影响,在水平之间的方差中就不仅包括了随机性差异,也包括了系统性差异。这时,该方差就会大于水平内方差,两个方差的比值就会显著地大于1许多,当这个比值大到某个程度,或者说达到某临界点,就可以作出判断,说不同的水平之间存在着显著性差
7、异。因此,方差分析就是通过不同方差的比较,作出接受原假设或拒绝原假设的判断。本讲稿第九页,共一百五十一页(三)(三)F分布分布水平间(也称组间)方差和水平内(也称组内)方差之比是一个统计量。数理统计证明,这个统计量服从F分布(F Distribution)。F分布有这样几个特征:统计量F是大于零的正数。F分布曲线为正偏态,它的尾端以横轴为渐进线趋于无穷。F分布是一种连续的概率分布,不同的自由度组合有不同的F分布曲线,如图4-6所示:本讲稿第十页,共一百五十一页也就是将试验数据的总波动平方和分解成各因素和交互作用以及试验误差的波动平方和,并比较它们的方差,以判断因素影响的显著性。方差分析是一种因
8、素分析方法,广泛应用于优化设计、理化分析、绩效考核中。其具体步骤如下:(1)统计模型;(2)平方和分解;(3)F比;(4)计算。4、最佳条件的选择与对应条件下指标均值的估计。(四)绘制效应图(五)验证实验本讲稿第十一页,共一百五十一页图4-6不同自由度下F分布曲线由上图可以看出,随着分子和分母自由度的增加,F分布以对称的正态分布为极限。许多类型的假设检验需要利用F分布,方差分析是其中的重要一种。本讲稿第十二页,共一百五十一页二、单因素方差分析二、单因素方差分析(一)单因子试验例:茶是一种饮料,它含有叶酸(folacin),这是一种维他命B。如今要比较各种茶叶中的叶酸含量。现选定绿茶,这是一个因
9、子,用A表示。又选定四个产地的绿茶,记为A1,A2,A3,A4,它是因子A的四个水平。为测定试验误差,需要重复。各水平重复数相等的设计称为平衡设计.各水平重复数不等的设计称为不平衡设计.如今我们选用不平衡设计,即A1,A2,A3,A4分别制作了7,5,6,6个样品,共有24个样品等待测试。本讲稿第十三页,共一百五十一页这里一次测试就是一次试验。试验次序要随机化,为此把这24次试验按序编号。这里一次测试就是一次试验。试验次序要随机化,为此把这24次试验按序编号。在1到24个试验号中一个接一个地随机抽取,得到如下序列:9,13,2,20,18,10,5,7,14,1,6,15,23,本讲稿第十四页
10、,共一百五十一页把试验结果“对号入座”,填写试验结果。四个产地绿茶叶酸含量的打点图(dotplot)本讲稿第十五页,共一百五十一页四个产地绿茶叶酸含量的打点图(四个产地绿茶叶酸含量的打点图(dotplotdotplot)图上表示叶酸含量,线表示样本均值。下述一些直观的印象是重要.图中每种绿茶的叶酸含量有高有低.从样本均值看,A1与A2的叶酸含量偏高一些.从样本极差看,A1,A2,A3 的极差接近,A4的略小一点。本讲稿第十六页,共一百五十一页(二)单因素方差分析的步骤由前面的内容和例子可知,不同水平下销售量由前面的内容和例子可知,不同水平下销售量x x的概率分布服从的概率分布服从正态分布,并且
11、有相同方差。因此,水平的差异必然体现在水平正态分布,并且有相同方差。因此,水平的差异必然体现在水平均值的差异上。于是作为单因素的方差分析,其目标是检验水平均值的差异上。于是作为单因素的方差分析,其目标是检验水平均值均值j j是否相等。如果相等,我们说该因素(如前例中饮料的颜是否相等。如果相等,我们说该因素(如前例中饮料的颜色)对色)对x x不产生影响;反之,就认为该因素对不产生影响;反之,就认为该因素对x x存在影响。存在影响。为便于叙述,也便于理解,可以将方差分析按其过程划为几步。为便于叙述,也便于理解,可以将方差分析按其过程划为几步。1、计算水平均值不妨令不妨令 表示第表示第j j种水平的
12、样本均值,种水平的样本均值,本讲稿第十七页,共一百五十一页式中,是第j种水平下的第i个观察值,nj表示第j种水平的观察值个数。结合前面表4-6中的数据,将计算结果列表4-7如下:下表中,计算总均值的一般表达式为式中,n=nj本讲稿第十八页,共一百五十一页表47 四种颜色饮料销量及均值 本讲稿第十九页,共一百五十一页2、计算离差平方和、计算离差平方和 在单因素方差分析中,离差平方和有三个,它们分别是总离差平方和,误差项离差平方和以及水平项离差平方和。首先看总离差平方和,不妨用SST(Sum of Squares for Total)代表,则:SST=它反映了离差平方和的总体情况。在表4一7中己知
13、,=28.695,由上式,我们可以计算出:SST(265-28695)2+(287-28.695)2+(32.8-28.695)2=1159295再看误差项离差平方和,用SSE(Sum of Squares for Error)表示,其计算公式为:本讲稿第二十页,共一百五十一页对公式分析不难发现SSE反映的是水平内部,或组内观察值的离散状况。正如前面分析的,SSE 实质上反映了随机因素带来的影响。在表4-7的例子中,对于水平1(即第一组),有类似地,可以对其他三个组进行计算:(31.2-29.56)2(29.6-29.56)2=8.72(27.9-26.44)2(26.5-26.44)213.
14、22(30.8-31.46)2(32.8-31.46)2=6.632从而得到:SSE10688+857213192+6632=39.084SSE=本讲稿第二十一页,共一百五十一页最后一个是水平项离差平方和。为了后面叙述方便,可以把单因素方差分析中的因素称为A。于是水平项离差平方可以用SSA(Sum of Squares for FactorA)表示。SSA的计算公式为SSA=用各组均值减去总均值的离差的平方,乘以各组观察值个数nj,然后加总,即可得到SSA。可以看出,它所表现的是组间差异。其中既包括随机因素,也包括系统因素。SST,SSE,SSA 之间存在着一定的联系。这种联系表现在:SST=
15、SSE+SSA 因为本讲稿第二十二页,共一百五十一页在各组同为正态分布,等方差条件下,等式右边最后一项为零,故有:即SST=SSE+SSA在上面例子中,己计算出SST=115.9295,SSE=39.084,故:SSA=SSTSSE=115.9295-39.084=76.8455本讲稿第二十三页,共一百五十一页3、计算平均平方、计算平均平方用离差平方和除以自由度即可得到平均平方(Mean Square)。离差平方的计算前面己经介绍,关键是如何确定各离差平方和的自由度。对SST来说,其自由度为n-1,因为它只有一个约束条件,对SSA来说,其自由度为r-1,这里r表示水平的个数。如前面例子中,有四
16、个水平,即饮料的四种不同颜色,故r=4。SSA反映的是组间的差异,它也有一个约束条件,即要求:对SSE来说,其自由度为n-r,因为对每一种水平而言,其观察值个数为nj,该种水平下的自由度为nj,总共有r个水平,因此拥有的自由度个数为;r(nj-1)=n-r其实,与离差平方和一样,SST,SSA,SSE之间的自由度也存在着如上式中的关系,因为显然:n-1=(r-1)+(n-r)本讲稿第二十四页,共一百五十一页这样对于SSA,其平均平方MSA为:对于SSE,其平均平方MSE为:在上例中:本讲稿第二十五页,共一百五十一页4、方差分析表、方差分析表在上例中:为了将方差分析的主要过程表现的更清楚,通常把
17、有关计算结果列成方差分析表,如表48所示。表48方差分析表使用计算机进行方差分析,其输出结果的构造与表48类似。本讲稿第二十六页,共一百五十一页5、均值的、均值的F检验检验在介绍方差分析的主要步骤以后,让我们回到问题的起点,对若干均值是否相等进行F检验。仍以前面饮料颜色对销售量影响为例,对所关心的问题提出原假设和替换假设:H0:1=2=3=4 颜色对销售量没有影响H1:1、2、3、4不全相等 颜色对销售量有影响由前已知,计算出的F值为F=10.4860若a=0.05查表知:Fa(r-1,n-r)F0.05(3,16)3.24括号中r-1,n-r分别为分子项和分母项的自由度。由于FFa故拒绝原假
18、设,接受替换假设。即通过检验知,j不全相等,说明饮料的颜色对销售量有显著影响,见图4一7。本讲稿第二十七页,共一百五十一页图47F检验示意图对上题,Excel软件输出的分析结果为:表49 Excel输出的方差分析表本讲稿第二十八页,共一百五十一页(二)单因素方差分析中的其他问题(二)单因素方差分析中的其他问题表中,F crit相当于进行检验的临界点(前面我们四舍五入取了3.24),P-value的结果表明,在图47中,横轴F10.486 2的右侧,F曲线下的面积仅有0.0466%。(二)单因素方差分析中的其他问题在介绍了方差分析的基本过程之后,对单因素方差分析可能涉及到的问题再做几点说明。1、
19、进行方差分析所需要的数据如表410中的结构:表410 方差分析数据结构本讲稿第二十九页,共一百五十一页表表410 方差分析数据结构方差分析数据结构可以把方差分析的因素放在列的位置,也可以放在行的位置,但通常放在列的位置。如表4-10所示,这样与计算机中数据库的结构相一致,便于计算一机处理。本讲稿第三十页,共一百五十一页2、进行方差分析各个水平下的样本容量可以相同,也可以不同。前面的例子是样本容量相同的情况,下面看一个样本容量不同的例子。例42 某课程结束后,学生对该授课教师的教学质量进行评估,评估结果分为优、良、中、差四等。教师对学生考试成绩的评判和学生对教师的评估是分开进行的,他们互相都不知
20、道对方给自己的打分。有一种说法,认为给教师评为优秀的这组学生的考试分数,可能会显著地高于那些认为教师工作仅是良、中或差的学生的分数。同时认为,对教师工作评价差的学生,其考试的平均分数可能最低。为对这种说法进行检验,从对评估的每一个等级组中,随机抽取出共26名学生。其课程分数如表411所示。本讲稿第三十一页,共一百五十一页表411 26名学生考试成绩本讲稿第三十二页,共一百五十一页试检验各组学生的分数是否有显著差别(=0.05)。解:若各组学生的平均成绩之间没有显著差别,则表明学生对教师的评估结果与他们的成绩之间没有必然的联系。H0:各组平均分数相等;Hl:各组平均分数不全相等。利用Excel软
21、件,将计算结果列表412。表4-12学生平均成绩方差分析表本讲稿第三十三页,共一百五十一页由于FF crit,故接受原假设。可以认为学生的成绩与它们对教师教学质量的评估意见之间没有关系。3、方差分析可以对若干平均值是否相等同时进行检验,这是此种方法的特点和长处。但如果检验结果拒绝原假设,接受替换假设,这仅表明进行检验的这几个均值不全相等。至于是哪一个或哪几个均值与其他均值不等,方差分析并没有告诉答案。如果要对此问题进一步分析,可采用多重比较方法(此处从略)。本讲稿第三十四页,共一百五十一页三、双因素方差分析三、双因素方差分析(一)双因素方差分析的类型在实际问题的研究中,有时需要考虑两个因素对实
22、验结果的影响。例如上一节中饮料销售量的例子,除了关心饮料颜色之外,我们还想了解销量地区是否影响销售量,如果在不同的地区,销售量存在显著的差异,就需要分析原因,采用不同的推销策略,使该饮料品牌在市场占有率高的地区继续深入人心,保持领先地位,在市场占有率低的地区,进一步扩大宣传,让更多的消费者了解,接受该产品。若把饮料的颜色看作影响销售量的因素A,饮料的销售地区则是影响因素B。对因素A和因素B同时进行分析,就属于双因素方差分析。双因素方差分析的内容,是对影响因素进行检验,究竟一个因素在起作用,还是两个因素都起作用,或是两个因素的影响都不显著。本讲稿第三十五页,共一百五十一页双因素方差分析有两种类型
23、:一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析,它佣定因素A和因素B的结合会产生出一种新的效应。例如,若假定不同地区的消费者对某种颜色有与其他地区消费者不同的特殊偏爱,这就是两个因素结合后产生的新效应,属于有交互作用的背景,否则,就是无交互作用的背景。有交互作用的双因素方差分析已超出本书的范围,这里仅仅介绍无交互作用的双因素方差分析。本讲稿第三十六页,共一百五十一页(二)数据结构(二)数据结构双因素方差分析的数据结构如表4一13所示:表413 双因素方差分析数据结构本讲稿第三十七页,共一百五十一页上表中,因素A
24、位于列的位置,共有r个水平,代表第j种水平的样本平均数;因素B位于行的位置,共有k个水平,代表第i种水平的样本平均数。为样本总平均数,样本容量n=rk。每一个观察值看作由A因素的r个水平和B因素的k个水平所组合成的rk个总体中抽取样本容量为1的独立随机样本。这rk个总体的每一个总体均服从正态分布,且有相同的方差。这是进行双因素方差分析的假设条件。本讲稿第三十八页,共一百五十一页(三)离差平方和的分解(三)离差平方和的分解与单因素方差分析类似,进行双因素方差分析,需要将总离差平方和SST进行分解;区别在于,这里需要将总离差平方和分解为三个组成部分,即:SSA、SSB和SSE,以分别反映因素A的组
25、间差异,因素B的组间差异和随机误差SSE的离散状况。它们的计算公式分别为:本讲稿第三十九页,共一百五十一页与各个离差平方和相对应的自由度分别是:总离差平方和SST的自由度为r,rK-1=n-1;因素A的离差平方和SSA的自由度为r-1;因素B的离差平方和的自由度为K-1;随机误差SSE的自由度为(r-1)(K-1)=n-r-K+l。由离差平方和与自由度,可以计算出均方差。对因素A而言:对因素B而言:对随机误差项而言:由此可以编制出双因素方差分析表,如表4-14所示。本讲稿第四十页,共一百五十一页表414 双因素方差分析表上表中,FA是因素A的F统计量,它是MSAH和MSE的比值,可以看出,其计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四章方差分析与正交实验设计 2精选文档 第四 方差分析 正交 实验设计 精选 文档
限制150内