数理统计浙大四方差分析及回归分析.pptx
11.1 单因素方差分析单因素方差分析11.2 双因素方差分析双因素方差分析11.3 一元线性回归分析一元线性回归分析第1页/共53页l 工业生产中产品质量的影响因素:原材料、设备、技术及员工业生产中产品质量的影响因素:原材料、设备、技术及员工素质等;工素质等;l 工作中影响个人收入的影响因素:除学历、专业、工作时间、工作中影响个人收入的影响因素:除学历、专业、工作时间、性别等方面外,还有个人能力、经历及机遇等偶然因素性别等方面外,还有个人能力、经历及机遇等偶然因素.在这众多因素中,每一个因素的改变都可能影响最终的结在这众多因素中,每一个因素的改变都可能影响最终的结果,各因素的影响有大有小。故在实际问题中,就有必要找出果,各因素的影响有大有小。故在实际问题中,就有必要找出对事件最终结果有显著影响的那些因素对事件最终结果有显著影响的那些因素.如何分析这些诸多因素中哪些因素对结果会产生显著影响?如何分析这些诸多因素中哪些因素对结果会产生显著影响?这是方差分析的主要任务!这是方差分析的主要任务!9.1 单因素方差分析单因素方差分析第2页/共53页n 基本概念:基本概念:试验指标:试验指标:在试验中要考察的指标,如产品的质量等。在试验中要考察的指标,如产品的质量等。因素:因素:影响试验指标的条件。包括可控因素和不可控因素。影响试验指标的条件。包括可控因素和不可控因素。单因素试验:单因素试验:在一项试验中只有一个因素在改变的试验。在一项试验中只有一个因素在改变的试验。多因素试验:多因素试验:在一项试验中多于一个因素在改变的试验。在一项试验中多于一个因素在改变的试验。水平:水平:因素所处的状态。因素所处的状态。随机误差:随机误差:同一水平下,样本各观察值之间的差异,称为随同一水平下,样本各观察值之间的差异,称为随机误差。这种差异可以看成是随机因素的影响。机误差。这种差异可以看成是随机因素的影响。系统误差:系统误差:不同水平下,各观察值之间的差异。这种差异可能是由于行业本身所不同水平下,各观察值之间的差异。这种差异可能是由于行业本身所造成的,称为系统误差。造成的,称为系统误差。9.1 单因素方差分析单因素方差分析一、单因素方差分析问题的提法一、单因素方差分析问题的提法第3页/共53页9.1 单因素方差分析单因素方差分析试验指标:试验指标:薄板的厚度薄板的厚度因素:因素:机器机器水平:水平:三台不同的机器即为三个不同的水平三台不同的机器即为三个不同的水平单因素试验单因素试验试验目的:试验目的:考察机器这一因素对薄板的厚度有无显著的差异考察机器这一因素对薄板的厚度有无显著的差异第4页/共53页9.1 单因素方差分析单因素方差分析试验指标:试验指标:电路响应时间电路响应时间因素:因素:电路类型电路类型水平:水平:四种不同的电路即为四个不同的水平四种不同的电路即为四个不同的水平单因素试验单因素试验试验目的:试验目的:考察电路类型这一因素对响应时间有无显著影响考察电路类型这一因素对响应时间有无显著影响第5页/共53页9.1 单因素方差分析单因素方差分析试验指标:试验指标:射程射程因素:因素:燃料(燃料(A)、推进器(、推进器(B)水平:水平:因素因素A有有4 4个水平,因素个水平,因素B有有3 3个水平个水平双因素试验双因素试验试验目的:试验目的:考察推进器和燃料这两个因素对射程是否有显著影响考察推进器和燃料这两个因素对射程是否有显著影响第6页/共53页9.1 单因素方差分析单因素方差分析以例以例1 1讨论单因素方差分析的方法:讨论单因素方差分析的方法:在因素的每个水平下进行独立试验,其结果就是一个样本在因素的每个水平下进行独立试验,其结果就是一个样本,表中数据可看成来自三个不同总体的样本值,表中数据可看成来自三个不同总体的样本值,本题需要检验假设:本题需要检验假设:第7页/共53页9.1 单因素方差分析单因素方差分析第8页/共53页9.1 单因素方差分析单因素方差分析假设:假设:未知,未知,不同水平不同水平 下的样本之间相互独立下的样本之间相互独立.由假设,有由假设,有随机误差随机误差记记则有则有单因素试验方差分析单因素试验方差分析的数学模型的数学模型第9页/共53页9.1 单因素方差分析单因素方差分析方差分析的任务:方差分析的任务:为便于讨论,记为便于讨论,记()引入记号引入记号()的效应的效应总平均总平均(1.1)第10页/共53页因为因为第11页/共53页记记水平水平Ai下的样本均值;下的样本均值;总偏差平方和:总偏差平方和:总的样本均值总的样本均值.组内偏差平方和:组内偏差平方和:组间偏差平方和:组间偏差平方和:(误差平方和)(误差平方和)反映了全部试验反映了全部试验数据之间的差异数据之间的差异反映了水平反映了水平Aj 内由随内由随机误差而引起的波动机误差而引起的波动由水平由水平Aj的效应的差的效应的差异以及随机误差引起异以及随机误差引起总离差平方和分解式:总离差平方和分解式:(1.5)9.1 单因素方差分析单因素方差分析二、平方和的分解二、平方和的分解(总变差)(总变差)(效应平方和)(效应平方和)第12页/共53页9.1 单因素方差分析单因素方差分析三、三、SE,SA的统计特性的统计特性各项间相互独立各项间相互独立1、SE的统计特性的统计特性第13页/共53页9.1 单因素方差分析单因素方差分析四、假设检验问题的拒绝域四、假设检验问题的拒绝域2、SA的统计特性的统计特性第14页/共53页9.1 单因素方差分析单因素方差分析第15页/共53页9.1 单因素方差分析单因素方差分析第16页/共53页9.1 单因素方差分析单因素方差分析第17页/共53页9.1 单因素方差分析单因素方差分析第18页/共53页9.1 单因素方差分析单因素方差分析第19页/共53页【例例例例5 5 5 5】工程师测量了四种不同类型外壳的彩色显像管的传导工程师测量了四种不同类型外壳的彩色显像管的传导 率,得传导率的观察值如下表:率,得传导率的观察值如下表:显像管型号显像管型号传导率值传导率值A A1 1(类型(类型1 1)143143141141 150 150 146 146A A2 2(类型(类型2 2)152152144144 137 137 143 143A A3 3(类型(类型3 3)134134136136 133 133 129 129A A4 4(类型(类型4 4)129129128128 134 134 129 129问:外壳类型对传导率是否有显著影响?问:外壳类型对传导率是否有显著影响?9.1 单因素方差分析单因素方差分析第20页/共53页解:设水平解:设水平Ai下的总体为下的总体为 检验假设检验假设:VS不全相等不全相等已知:已知:9.1 单因素方差分析单因素方差分析第21页/共53页方差来源方差来源平方和平方和自由度自由度F值值临界值临界值因素因素A总和总和试验误差试验误差方差分析表方差分析表方差分析表方差分析表因为因为故拒绝原假设故拒绝原假设H0,即认为因子是显著的。即认为因子是显著的。9.1 单因素方差分析单因素方差分析第22页/共53页11.1 单因素方差分析单因素方差分析11.2 双因素方差分析双因素方差分析11.3 一元线性回归分析一元线性回归分析第23页/共53页一、问题的提出一、问题的提出实际应用中,影响试验结果的因素往往不止一个,为此需要讨实际应用中,影响试验结果的因素往往不止一个,为此需要讨论多因素方差分析问题。(论多因素方差分析问题。(在此只讨论双因素方差分析在此只讨论双因素方差分析):):因素因素A A因素因素B BB1 B2A1A220 6050 90因素因素A A因素因素B BB1 B2A1A220 10050 80表表1 1表表2 2 从表从表1 1看出看出:因素因素A A与因素与因素B B各自单独地对试验结果产生影响,相互之间无影响;各自单独地对试验结果产生影响,相互之间无影响;从表从表2 2看出看出:因素因素A A与因素与因素B B之间的搭配对试验结果产生影响(称为之间的搭配对试验结果产生影响(称为交互作用交互作用)。)。为简单起见,只讨论为简单起见,只讨论A A、B B无交互作用下的双因素方无交互作用下的双因素方差分析问题,此时对差分析问题,此时对A A、B B的每一种搭配只进行一次的每一种搭配只进行一次试验。试验。9.2 双因素方差分析双因素方差分析第24页/共53页假定要考察两个因素假定要考察两个因素A、B对某项指标值的影响,对某项指标值的影响,因素因素A取取s个水平个水平A1 1,A2 2,As,因素因素B取取r个水平个水平B1 1,B2 2,Br,在在A、B的每对组合水平(的每对组合水平(Ai,Bj)上作一次试验,)上作一次试验,试验结果为试验结果为Xij,i=1,1,s;j j=1,1,r。所有所有Xij独立,数据列于下表:独立,数据列于下表:要考察因素要考察因素A A、B B是否指标值产生显著性影响?是否指标值产生显著性影响?9.2 双因素方差分析双因素方差分析第25页/共53页设搭配(设搭配(Ai,Bj)下的试验结果为下的试验结果为Xij,假定,假定则问题归结为检验假设:则问题归结为检验假设:9.2 双因素方差分析双因素方差分析第26页/共53页类似于单因素方差分析的方法,在检验之前,必须把因素类似于单因素方差分析的方法,在检验之前,必须把因素A A,因素因素B B及随机误差引起的数据波动从总波动中分离出来:及随机误差引起的数据波动从总波动中分离出来:记:记:于是于是9.2 双因素方差分析双因素方差分析第27页/共53页SA是由因素是由因素A A的不同效应和随机误差引起的偏差的不同效应和随机误差引起的偏差;SB是由因素是由因素B B的不同效应和随机误差引起的偏差的不同效应和随机误差引起的偏差;S e表示由随机误差引起的偏差表示由随机误差引起的偏差.定理定理:(1 1)ST,SA,SB相互独立,且相互独立,且(2 2)当)当H0A成立时,成立时,当当H0B成立时,成立时,因此,可用比较因此,可用比较SA与与SE的值来检验假设的值来检验假设H0A,用比较用比较SB与与SE的值来检验假设的值来检验假设H0B.9.2 双因素方差分析双因素方差分析第28页/共53页可以证明:可以证明:(1 1)ST,SA,SB相互独立,且相互独立,且(2 2)当)当H0A成立时,成立时,当当H0B成立时,成立时,当当H0A成立时,有成立时,有当当H0B成立时,有成立时,有H0A的拒绝域为的拒绝域为H0B的拒绝域为的拒绝域为给定显著性水平给定显著性水平 ,则有,则有9.2 双因素方差分析双因素方差分析第29页/共53页B1B2BSA1x11x12x1sA2x21x22x2sArxr1xr2xrs因素因素A A因素因素B B数据计算表数据计算表9.2 双因素方差分析双因素方差分析第30页/共53页方差来源方差来源平方和平方和自由度自由度F值值临界值临界值因素因素A总和总和试验误差试验误差方差分析表方差分析表方差分析表方差分析表拒绝域为:拒绝域为:因素因素B9.2 双因素方差分析双因素方差分析第31页/共53页【例例例例1 1 1 1】为了研究不同地点,不同季节大气飘尘含量的差异为了研究不同地点,不同季节大气飘尘含量的差异 性,对地点(性,对地点(A A)取三个不同水平,对季节()取三个不同水平,对季节(B B)取四个不)取四个不 同水平,在不同组合(同水平,在不同组合(Ai,Bj)下各测得一次大气飘尘含量)下各测得一次大气飘尘含量(mg/m2),结果列于表,结果列于表11.8,试求研究地点间的差异及季节,试求研究地点间的差异及季节 间的差异对大气飘尘含量有无影响间的差异对大气飘尘含量有无影响?显像管型号显像管型号因素因素B 冬季冬季 春季春季 夏季夏季 秋季秋季A1 1.150 0.614 0.475 0.667A2 1.200 0.620 0.420 0.880A3 0.940 0.379 0.200 0.5409.2 双因素方差分析双因素方差分析第32页/共53页解:解:方差来源方差来源平方和平方和自由度自由度F值值临界值临界值因素因素A总和总和试验误差试验误差方差分析表方差分析表方差分析表方差分析表因素因素B9.2 双因素方差分析双因素方差分析第33页/共53页11.1 单因素方差分析单因素方差分析11.2 双因素方差分析双因素方差分析11.3 一元线性回归分析一元线性回归分析第34页/共53页一、问题的提法一、问题的提法确定性关系,确定性关系,不确定性关系,不确定性关系,如如V=IR,S=vt变量间的关系变量间的关系 如如身高身高与与体重体重的关系的关系l 由度量上的误差与其他不可控的随机因素由度量上的误差与其他不可控的随机因素导致的这种导致的这种关系称为关系称为相关关系相关关系。l (一元)线性回归就是这种关系中的最简单的一种。(一元)线性回归就是这种关系中的最简单的一种。l 回归分析就是寻找这类不确定的变量之间的数学关系回归分析就是寻找这类不确定的变量之间的数学关系式并进行统计推断的一种方法。式并进行统计推断的一种方法。n 相关关系相关关系9.3 一元线性回归一元线性回归第35页/共53页【父与子的身高关系父与子的身高关系】(单位:英寸)(单位:英寸)(单位:厘米)(单位:厘米)1919世纪,英国生物学家、统计学家世纪,英国生物学家、统计学家高尔顿高尔顿(F.Galton)在研究父与子的身高关系时,在研究父与子的身高关系时,提出了提出了“回归回归”一词一词,并得到如下回归方程:并得到如下回归方程:高尔顿通过研究发现:高尔顿通过研究发现:当父辈身高高于或低于父代身高的平均值时,儿子的身高当父辈身高高于或低于父代身高的平均值时,儿子的身高有向子代平均身高靠近的趋势。有向子代平均身高靠近的趋势。父子两代的平均身高有向中心回归的的趋势父子两代的平均身高有向中心回归的的趋势回归分析回归分析因此而提出。因此而提出。9.3 一元线性回归一元线性回归第36页/共53页n 散点图与一元线性回归模型散点图与一元线性回归模型设设x是一可控制的变量(普通变量),是一可控制的变量(普通变量),是与是与x 有关的随机变量,如何确定这两者有关的随机变量,如何确定这两者的关系呢?的关系呢?甲醛浓度甲醛浓度x18202224262830缩醛化度缩醛化度26.8628.3528.7528.8729.7530.0030.36【例例1 1】在维尼纶的生产过程中经常使用甲醛浓度在维尼纶的生产过程中经常使用甲醛浓度x来控制缩醛化度来控制缩醛化度 ,试验结果,试验结果如下:如下:9.3 一元线性回归一元线性回归第37页/共53页随机误差随机误差 一般假定一般假定与与x无关无关独立同分布于独立同分布于与与x具有如下关系:具有如下关系:.(1).(1)对于每一个观察点对于每一个观察点(xi,yi),满足,满足.(2).(2)(1)、(2)称为称为一元(正态)线性回归模型一元(正态)线性回归模型,a、b称为称为回归系数回归系数,建立在一元线性回,建立在一元线性回归模型基础上的统计分析称为归模型基础上的统计分析称为一元线性回归分析一元线性回归分析。9.3 一元线性回归一元线性回归第38页/共53页n 一元线性回归分析的研究内容一元线性回归分析的研究内容因为因为记记则则(1)(1)(3)(3)(3)式称为式称为一元线性回归方程一元线性回归方程,其图形称为,其图形称为回归直线。回归直线。(反映了(反映了 的的“平均平均”或或“主要部分主要部分”)u 一元线性回归分析的主要内容有:一元线性回归分析的主要内容有:(1 1)对参数对参数a,b进行点估计,估计量进行点估计,估计量 称为称为样本回归系数样本回归系数或或经验回归系数经验回归系数,于是有,于是有(4)(4)(4)式称为式称为经验直线回归方程经验直线回归方程,其图形称为,其图形称为经验回归直线。经验回归直线。9.3 一元线性回归一元线性回归第39页/共53页(2 2)检验检验 与与x之间是否线性相关。如果不线性相关,所建立的之间是否线性相关。如果不线性相关,所建立的回归直线方程也就失去了应用价值。回归直线方程也就失去了应用价值。(3 3)如何利用所取得的线性关系,通过如何利用所取得的线性关系,通过x来对来对 进行预测或由进行预测或由 来来控制控制x的范围。的范围。n 注:注:(1 1)实际问题中,实际问题中,x可能是一个随机变量,但由于假定其可控可能是一个随机变量,但由于假定其可控制,故认为制,故认为x是非随机变量。是非随机变量。(2 2)较一元线性回归模型更为一般的回归模型为:较一元线性回归模型更为一般的回归模型为:常见的是多元线性回归模型:常见的是多元线性回归模型:9.3 一元线性回归一元线性回归第40页/共53页二、回归系数二、回归系数a,b 的最小二乘估计的最小二乘估计求求求求a,b a,b 的估计量的估计量的估计量的估计量 实际上就是要确定一条经验回归直线实际上就是要确定一条经验回归直线实际上就是要确定一条经验回归直线实际上就是要确定一条经验回归直线用它来近似表示用它来近似表示用它来近似表示用它来近似表示 和和和和x x的关系。的关系。的关系。的关系。为便于研究,引入为便于研究,引入为便于研究,引入为便于研究,引入越小越好越小越好越小越好越小越好最小二乘法就是求得最小二乘法就是求得最小二乘法就是求得最小二乘法就是求得 使使使使 达到最小值:达到最小值:达到最小值:达到最小值:9.3 一元线性回归一元线性回归第41页/共53页注注1:一元线性回归分析中的最小二乘法估计量即是极大一元线性回归分析中的最小二乘法估计量即是极大似然法估计量,但前者比后者更方便似然法估计量,但前者比后者更方便不必知道随机不必知道随机变量的概率分布。变量的概率分布。注注2:为为 的无偏估计的无偏估计量。量。其中其中9.3 一元线性回归一元线性回归第42页/共53页如果如果如果如果 与与与与x x不具有近似的线性相关性不具有近似的线性相关性不具有近似的线性相关性不具有近似的线性相关性(即即即即b b=0=0=0=0),),),),则经验回归方程就失去了其应用价则经验回归方程就失去了其应用价则经验回归方程就失去了其应用价则经验回归方程就失去了其应用价值,为此必须对值,为此必须对值,为此必须对值,为此必须对 与与与与x x 之间是否具有线性相关关系进行检验。之间是否具有线性相关关系进行检验。之间是否具有线性相关关系进行检验。之间是否具有线性相关关系进行检验。原原 假假 设:设:检验方法:检验方法:(1)F检验法检验法;(2);(2)相关系数检验法相关系数检验法;(3);(3)T 检验法检验法.数据间的总波动数据间的总波动偏差平方和的分解式:偏差平方和的分解式:由由x 的线性作用引起的波动的线性作用引起的波动x的线性作用外其他因素引起的波动的线性作用外其他因素引起的波动总偏差平方和总偏差平方和回归平方和回归平方和残差平方和残差平方和.9.3 一元线性回归一元线性回归第43页/共53页1、F 检验法检验法 检验函数:检验函数:拒绝域:拒绝域:若方程的线性相关程度较高,则总波动应主要由线性作用所引起,因此若方程的线性相关程度较高,则总波动应主要由线性作用所引起,因此U 较大,较大,Q 相对较小;反之,如果方程不具有线性关系或程度较低,则总波动应由其他因素相对较小;反之,如果方程不具有线性关系或程度较低,则总波动应由其他因素所引起,即所引起,即U 较小,较小,Q较大。较大。双边?左单边?右单边?双边?左单边?右单边?右单边右单边其中其中 由由 确定确定由由x 的线性作用引起的波动的线性作用引起的波动x的线性作用外其他因素引起的波动的线性作用外其他因素引起的波动回归平方和回归平方和残差平方和残差平方和9.3 一元线性回归一元线性回归第44页/共53页说明:说明:(1)(2)越接近越接近1,线性相关性越强(即方程越显著),线性相关性越强(即方程越显著).对给定的检验水平对给定的检验水平 ,利用附表,利用附表11,按自由度,按自由度n-2,查表确定,查表确定若若 ,则拒绝,则拒绝H0,即认为回归方程是显著的。,即认为回归方程是显著的。2、相关系数检验法、相关系数检验法记记该值越大,方程的该值越大,方程的线性相关性越显著线性相关性越显著 检验函数:检验函数:拒绝域:拒绝域:9.3 一元线性回归一元线性回归第45页/共53页不应该太大不应该太大即即3、T 检验法检验法可以证明可以证明 检验函数:检验函数:拒绝域:拒绝域:H0为真为真检验方法:检验方法:(1)F检验法检验法;(2);(2)相关系数检验法相关系数检验法;(3);(3)T 检验法检验法.以上三种检验方法效果一致,但(以上三种检验方法效果一致,但(2)更简便。)更简便。9.3 一元线性回归一元线性回归第46页/共53页当当 x=x0 时,如何对因变量时,如何对因变量 的观察值的观察值 进行预测?进行预测?回归值:回归值:经验回归值:经验回归值:(随机变量)(随机变量)以此作为以此作为 的点预测。的点预测。对给定的检验水平对给定的检验水平 ,的置信度为的置信度为 预测区间为:预测区间为:当当n很大时,很大时,1、的预测区间的预测区间9.3 一元线性回归一元线性回归第47页/共53页其中其中x1,x2由如下方程组解出:由如下方程组解出:则相应的则相应的x0应落在什么范围内,如应落在什么范围内,如2、的控制的控制为了把为了把 以不小于以不小于 的概率控制在的概率控制在 内,即内,即9.3 一元线性回归一元线性回归第48页/共53页腐蚀时间腐蚀时间x5101520304050607090120腐蚀深度腐蚀深度58101316171923252946【例例2 2】在某种产品的表面腐蚀刻线,腐蚀深度在某种产品的表面腐蚀刻线,腐蚀深度 与腐蚀时间与腐蚀时间 x 有关,测得结果如下:有关,测得结果如下:(1 1)检验腐蚀深度与腐蚀时间之间是否存在显著的线性相关)检验腐蚀深度与腐蚀时间之间是否存在显著的线性相关 关系,如果存在,求关系,如果存在,求 关于关于x的线性回归方程。的线性回归方程。(2 2)预测)预测x=100s=100s时腐蚀深度的变化区间(取置信度为时腐蚀深度的变化区间(取置信度为0.95)9.3 一元线性回归一元线性回归第49页/共53页【解解】(1 1)于是于是于是于是查表得查表得查表得查表得因为因为因为因为故故故故 与与与与x x的线性相关性特别显著。的线性相关性特别显著。的线性相关性特别显著。的线性相关性特别显著。于是可求回归系数:于是可求回归系数:于是可求回归系数:于是可求回归系数:所以线性回归方程为:所以线性回归方程为:所以线性回归方程为:所以线性回归方程为:9.3 一元线性回归一元线性回归第50页/共53页(2 2)x0=100s=100s时,时,所求的腐蚀深度的变化区间为所求的腐蚀深度的变化区间为于是于是9.3 一元线性回归一元线性回归第51页/共53页第52页/共53页感谢您的观看!第53页/共53页