第9章方差分析.pptx
《第9章方差分析.pptx》由会员分享,可在线阅读,更多相关《第9章方差分析.pptx(147页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一节方差分析的基本思想和应用条件第1页/共147页2方差分析又称变异数分析,是由英国著名统计学家Fisher于1928年首先提出的一种统计方法,故也称F检验,用于多个样本均数的比较Ronald Fisher(18901962)第2页/共147页一、方差分析的概念及应用条件一、方差分析的概念及应用条件概念:方差分析(概念:方差分析(analysisofvariance,ANOVA)亦称变异数分析或)亦称变异数分析或F检验,是推断两个检验,是推断两个或多个总体均数是否相同的一种统计分析方法或多个总体均数是否相同的一种统计分析方法应用条件应用条件v各样本是相互独立的随机样本各样本是相互独立的随机样
2、本v各个样本均来自正态总体各个样本均来自正态总体v各个样本的总体方差齐性各个样本的总体方差齐性第3页/共147页4【例9-1】为研究煤矿粉尘作业环境对尘肺的影响,将24只Wistar 大鼠随机分到甲、乙、丙三个组,每组8只,分别在地面办公楼、煤炭仓库和矿井下染尘,12周后测量大鼠全肺湿重(g)第4页/共147页5表9-1 三组大鼠的全肺湿重(g)甲组甲组4.23.33.74.34.13.33.54.1乙组乙组4.54.43.54.24.64.24.44.1丙组丙组5.63.64.55.14.94.74.84.4 研究者对上述资料采用两样本t 检验两两比较得出结论:乙组和丙组差异无统计学意义 其
3、余各两组间差异均有统计学意义第5页/共147页6【问题9-1】(1)该实验属何种设计方案?(2)统计分析方法是否正确?为什么?【分析】(1)完全随机设计(2)不正确:将多个样本均数的同时比较转化为多次的两两比较;多次的两两比较会增大型错误的概率第6页/共147页7模拟试验(simulation trial)从标准正态分布总体 N(0,1)中随机抽样,样本含量为10,共抽取10次,得数据如下:第7页/共147页8d#c1c2c3c4c5c6c7c8c9c1011.803-0.0481.4080.4190.466-1.3571.2110.0770.4640.56220.839-0.990-2.01
4、4-0.663-1.0320.151-1.1381.3270.7700.8283-1.2120.607-2.014-0.663-1.0320.151-1.1381.327-1.6321.4464-1.123-1.086-0.366-0.196-0.4650.535-1.0521.042-0.0830.4875-0.545-0.136-0.6450.7401.7520.850-0.1710.122-0.3190.2086-0.012-1.2860.1341.5910.029-1.8060.460-0.836-1.1730.6037-1.2872.0500.8900.942-0.6940.9420
5、.1680.5540.4520.5498-0.238-1.5110.2250.810-0.790-1.6340.5320.686-1.1010.4169-0.6250.3450.623-1.2791.067-0.7451.2031.4350.629-0.47210-0.293-0.3150.3190.4100.0160.856-1.5382.327-0.1841.080-0.272-0.237-0.0680.262-0.017-0.1400.0510.710-0.2120.571S0.9701.0721.0260.8440.8871.1280.9950.8760.8390.510第8页/共14
6、7页9两两比较的次数:两两比较的次数:例:第9页/共147页1010个样本来自同一标准正态分布N(0,1)总体则实际上犯I型错误的大小:c1-c8c1-c10c2-c8c2-c10c8-c9c9-c10t-2.38-2.43-2.16-2.152.42-2.54 P0.0290.0260.0440.0450.0260.021第10页/共147页多个均数的比较不能用t检验 t检验法适用于样本平均数与总体平均数以及两个样本平均数间的差异显著性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。下一张 主 页 退 出 上一张 多个样本平均数间的差异显著性
7、检验,t检验法是不适宜的,原因有三:第11页/共147页 例如,一试验包含5个处理,如采用t检验法进行检验,需作 =10次两两平均数的差异显著性检验;若有k个处理,则要作 k(k-1)/2次类似的检验。1、检验过程烦琐第12页/共147页2、无统一的试验误差,试验误差估计的精确性和检验的灵敏性低对同一试验的多个处理进行比较时,应该有一个对同一试验的多个处理进行比较时,应该有一个统一的试验误差的估计值。若用统一的试验误差的估计值。若用 t t 检验法作两两检验法作两两比较,由于每次比较需估计一个比较,由于每次比较需估计一个,故使得,故使得各次比较误差的估计不统一,同时没有充分利用各次比较误差的估
8、计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,资料所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。从而降低检验的灵敏性。第13页/共147页例如,试验有5个处理,每个处理 重复 6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差,误差自由度为 2(6-1)=10;若利用整个试验的30个观测值估计试验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时,由 于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。第14页/共147页3、推断的可靠性低,犯I型错误的概率增大即
9、使利用资料所提供的全部信息估计了试验误即使利用资料所提供的全部信息估计了试验误差,若用差,若用t t 检验法进行多个处理平均数间的差异检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯均数的秩次问题,因而会增大犯 I I型错误的概率型错误的概率,降低推断的可靠性。,降低推断的可靠性。所以,多个平均数的差异显著性检验不宜所以,多个平均数的差异显著性检验不宜用用 t t 检验,须采用方差分析法。检验,须采用方差分析法。第15页/共147页 方差分析是将k个处理的观测值作为一个整体看待,把观测值总变异的偏差平方
10、和及自由度分解为相应于不同变异来源的偏差平方和及自由度,进而获得不同变异来源的总体方差估计值;由总体方差估计值构造F统计量,计算F值,检验各样本所属总体平均数是否相等。方差分析实质上是关于观测值变异原因的数量分析。第16页/共147页2023/3/20常用术语:因素:所要检验的对象称为因素(如研究某种药物的不同剂量疗效,药物即因素)水平:因素的具体表现称为水平(药物的每个剂量为一个水平)观察值:在每个因素水平下得到的样本值第17页/共147页 线性模型与基本假定 假设某单因素试验有k个处理,每个处理有n次重复,共有nk个观测值。试验资料的数据模式如表5-1所示。第18页/共147页 表表5-1
11、5-1k k个处理每个处理有个处理每个处理有n n个观测值的数据模式个观测值的数据模式表中表中表示第表示第i i个处理的第个处理的第j j个观测值个观测值 i i=1,2,=1,2,k k;j j=1,2,=1,2,n n););第19页/共147页表示第表示第i i个处理个处理n n个观个观测值之和;测值之和;表示全部观测值的表示全部观测值的总和;总和;表示第表示第i i个处个处理的平均数;理的平均数;表示全部观测值表示全部观测值的总平均数;的总平均数;第20页/共147页可以分解为:表示表示第第i i个处理个处理n n个观测值个观测值的总体平均数。的总体平均数。第21页/共147页 为了比
12、较各处理的影响大小,将 再进行分解,令 (5-2)(5-3)则 (5-4)其中表示所有试验观测值(nk个)总体的平均数;第22页/共147页 ai 是 第 i 个 处理的效应(treatment effects)表示处理i对试验结果产生的影响。显然有 (5-5)ij是试验误差,相互独立,且服从 正态分布N(0,2)。第23页/共147页 叫做单因素试验的线性模型(linear model)亦称数学模型。观察值xij表示为总平均数、处理效应i、试验误差ij之和。第24页/共147页 由ij 相互独立且服从正态分布N(0,2),可知各处理Ai(i=1,2,k)所属总体亦应具正态性,即服从正态分布N
13、(i,2)。尽管各总体的均数 可以不等或相等,2则必须是相等的(外界试验条件尽可能保持一致,处理效应才可比)。第25页/共147页所以,单因素试验的数学模型可归纳为:效应的可加性(additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。这是方差分析的前提条件或基本假定。第26页/共147页 若将表5-1中的观测值 xij(i=1,2,k;j=1,2,n)的数据结构(模型)用样本符号来表示,则 (5-6)与(5-4)式比较可知,分 别是、(i-)=、(xij-)=的估计值。第27页/共147页下一张 主 页 退 出 上一张 每每 个个 观观 测测 值值
14、 都包含处理效应(都包含处理效应(i i-或或),与误差(),与误差(或或),故,故knkn个观个观测值的总变异可分解为处理间的变异和处理内测值的总变异可分解为处理间的变异和处理内的变异两部分。的变异两部分。由(由(5-45-4)、()、(5-65-6)两式可以看出:)两式可以看出:第28页/共147页2023/3/2029变异的分解:总变异 组间变异 组内变异二、二、ANOVA的基本思想的基本思想第29页/共147页总变异的分解总变异组间变异组间变异组内变异第30页/共147页2023/3/2031变异的来源:样本均数间存在的差异可能由两种原因所致:随机因素引起的差异:抽样误差、测量误差处理
15、因素引起的差异:不同的处理引起不同的作用和效果,导致各处理组之间均数不同第31页/共147页2023/3/2032变异的测量:方差:第32页/共147页在方差分析中是用样本方差即均方(mean squares)来度量数据资料的变异程度。将总变异分解为处理间变异和处理内变异,就是要将总均方分解为处理间均方和处理内均方。下一张 主 页 退 出 上一张 第33页/共147页下一张 主 页 退 出 上一张 总偏差平方和:分解为处理间偏差总偏差平方和:分解为处理间偏差平方和与处理内偏差平方和两部分;平方和与处理内偏差平方和两部分;总自由度:分解为处理间自由度与总自由度:分解为处理间自由度与处理内自由度两
16、部分来。处理内自由度两部分来。第34页/共147页2023/3/2035总变异:所有观察值之间的变异(不分组)第35页/共147页2023/3/2036第36页/共147页37组间变异:各处理组均数之间不尽相同 n1 n2 n3 第37页/共147页2023/3/2038组内变异:各处理组内观察值之间不尽相同第38页/共147页2023/3/2039组间变异总变异组内变异三种变异的关系:线性可加性Important!第39页/共147页2023/3/2040N-k 组内变异随机误差Ek-1 组间变异处理效应T自由度分解变异分解变异来源第40页/共147页41总变异总的离均差平方和包括处理因素不
17、同水平的效应所导致的变异,也包括随机误差无法用处理因素所解释的部分变异(随机误差)尺度第41页/共147页2023/3/2042均方MS(mean square):组间均方:组内均方:第42页/共147页2023/3/2043如果各样本来自同一总体,即各组之间无差别(即无处理效应),则组间变异与组内变异均只反映随机误差,这时若计算组间均方与组内均方的比值,即F 值,则F 值应接近于 1 反之,若各样本均数不是来自同一总体,组间变异应较大,F 值将明显大于 1第43页/共147页2023/3/2044若组间变异与组内变异相差不大,F值比较接近于1,此时我们尚不能认为总体均数之间有差别,若处理组间
18、的变异明显大于组内变异,则不能认为组间的变异仅反映随机误差,也就是认为处理因素有作用(即存在处理效应),接下来,我们通过查 F 界值表,即可得 P 值,按 P 值大小作出推断结论第44页/共147页45方差分析的基本思想:根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用加以解释。通过比较不同变异来源的均方,借助 F 分布作出统计推断,从而了解该因素对观测指标有无影响第45页/共147页2023/3/2046F 分布0123450.00.20.40.60.81.01=1,2=101=5,2=10第46
19、页/共147页2023/3/2047F 分布0123450.00.20.40.60.81.01=10,2=1=10,2=1第47页/共147页2023/3/2048第48页/共147页2023/3/2049从图中看出:1,2固定,F第49页/共147页(1)总偏差平方和的分解 在表5-1中,反映全部观测值总变异的总偏差平方和是各观测值xij与总平均数 的离均差平方和,记为SST。即下一张 主 页 退 出 上一张 第50页/共147页变异分解 SST=SSA+SSB+Sse 构造检验统计量 F=MS因素/MS误差 ;均方MS=SS/第51页/共147页vSS及的计算(以成组设计为例)SST的计算
20、 SSTR的计算引起原因:1、处理组间差异2、随机误差(个体差异和测量误差)第52页/共147页SSe的计算 引起原因:随机误差(个体差异和测量误差)第53页/共147页检验统计量F的计算1、若处理组间无差异,理论上F=12、若处理组间有差异,则F1。是否统计学意义查方差分析界值表(P341附表7)第54页/共147页2023/3/2055二、方差分析的应用条件:独立性正态性方差齐性概括地表达为:任何观察值xij都是独立地来自具有等方差的正态总体第55页/共147页2023/3/2056正态分布的判断方法 利用频数分布表或频数分布图 根据专业知识判断 正态分布的经验判断若 ,可认为资料呈偏态分
21、布若 ,则有理由怀疑资料呈偏态分布 正态性检验(P108)第56页/共147页2023/3/2057方差齐性检验Levene 检验Bartlett 检验第57页/共147页三、ANOVA的应用类型v 完全随机设计(成组设计)ANOVAv 随机区组设计ANOVAv 析因设计ANOVAv 交叉设计ANOVAv 重复测量资料的ANOVAv 正交设计的ANOVAv 拉丁方设计的ANOVAv 均匀设计的ANOVAv 裂区设计的ANOVAv 嵌套设计的ANOVAv 尧敦方设计的ANOVAv 平衡不完全区组设计的ANOVA第58页/共147页第二节完全随机设计的方差分析第59页/共147页2023/3/20
22、60完全随机设计(completely random design)又称成组设计,按随机化原则将受试对象随机分配到某一研究因素的多个水平中去,然后观察实验效应。其目的都是推断不同水平下各组均数之间的差别是否有统计学意义第60页/共147页2023/3/2061表9-3 完全随机设计方差分析计算公式变异来源变异来源SSMSF组间(处理)组间(处理)k-1组内(误差)组内(误差)N-k总变异总变异N-1第61页/共147页62【检验步骤】1.建立检验假设,确定检验水准H0:1=2=3,三组大鼠全肺湿重总体均数相等 H1:1,2,3不等或不全相等 =0.05(客观实际只可能是其中一种情况)第62页/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方差分析
限制150内