《第八章方差分析与回归分析.doc》由会员分享,可在线阅读,更多相关《第八章方差分析与回归分析.doc(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date第八章方差分析与回归分析第八章方差分析与回归分析第八章 方差分析与回归分析1 单因素试验的方差分析试验指标:研究对象的某种特征。例 各人的收入。因素:与试验指标相关的条件。例 各人的学历,专业,工作经历等与工资有关的特征。因素水平:因素所在的状态例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。问题:各因素水平对试验指标有无显著的差
2、异?单因素试验方差分析模型假设1) 影响试验指标的因素只有一个,为,其水平有个:;2) 每个水平下,试验指标是一个总体。各个总体的抽样过程是独立的。3),且。问题:分析水平对指标的影响是否相同1)对每个总体抽样得到样本,由其检验假设:原假设,;备选假设:,;2)如果拒绝原假设,则对未知参数进行参数估计。注1)接受假设即认为:各个水平之间没有显著差异,反之则有显著差异。2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。检验方法数据结构式:,偏差是相互独立的,。不难验证,。各类样本均值水平的样本均值:;水平总样本均值:,;偏差平方和与效应组间偏差平方和:;(衡量由不同水平产
3、生的差异)组内偏差平方和:;(衡量由随机因素在同一水平上产生的差异)总偏差平方和:;(综合衡量因素,水平之间,随机因素的差异)定理1(总偏差平方和分解定理) 。即,或直接证明。注:利用即可证明。定理2(统计特性),。证 定理31),且与独立;2)如果假设成立,那么,;且如果假设,则还有,。证 1)由于不同水平的样本间的独立性,较易处理。对固定的,且独立,所以由第五章定理2的结论,利用可加性,即得,且与独立。注意到,因此也与独立,从而也与独立。注 这里只需方差假设相同,不需要假设均值相同。2),且独立,同样利用第五章定理2,。但在假设成立时,即得结论。且与独立。同时,。注 此处结论证明利用了都相
4、等,即利用:。但上述结论在组样本容量不同时,直接利用正交变换仍可类似证明。 从统计角度看,如果假设成立,那么,而在假设不成立时,即统计量将有偏大的趋势。那么,大到何值可以采信为推翻假设的反例,就回到前面的假设检验问题了。定理 置信度为时,假设的检验问题的拒绝域为。参数估计问题如果各因素有显著差异,即对某些水平,那么就需要估计这些参数的值和。1最大似然估计总体,密度函数为,所以最大似然函数为,一般,我们把分成两部分:,其中。所以即表示了各水平的差异,有。由此最大似然函数可表示为,。对数最大似然函数:,约束条件:。求其最大值点得:,即:;或,。,(是拉格朗日乘子)即;或,;,即,或,整理结果得:,
5、。由此利用,解得。因此。所以,同时,因此。2区间估计第个水平的均值:,即;且与其独立,所以。即可得到置信区间:。但,必须注意,对整个问题而言,置信水平不再是。记事件。则。但。2 一元线性回归 设有两个总体,它们之间不是独立的,而是具有某种依赖关系,即对它们抽样,得到的是一对样本和观测值:,。例 父子的身高;某种动物体重和体积,等等。现在关心的问题是:从观测的结果,能否找出它们之间的联系?即,其中是随机变量。从实际问题出发,也可认为是非随机的确定自变量,本来两者之间应该有确定的函数关系,但由于某种干扰,这种关系产生了某种不确定性。如何合理地确定其关系?一元线性回归模型假设1);2)。每次抽样,其
6、中,且相互间是独立。等价的观点:。问题 由样本观测数据,如何合理估计参数?方法 1) 确定性观点:最小二乘法 ,使观测得到的的样本平方和偏差最小。解 记,。求偏导得,解方程组得,即,因此解为:。2) 随机观点:最大似然估计最大似然函数。因此,由,即得类似结论。注 把是确定值,则都是关于的统计量。所以,在不代入观测值时,也都是随机变量。有结论,定理 (1),;(2);(3)。证:,显然服从正态分布,。类似,也服从正态分布,且,。最后,是正态分布显然成立,该定理表明,上述参数估计都是无偏的,但要提高有效性,即减小其方差,就要和足够大。回归方程的显著性检验如果回归方程中,那么即说明和不具有线性关系,
7、就称回归方程不显著;否则,就称其是显著的。显著性检验 :;:(我们是准备接受结论的,以进行后面的工作;但是,如果直接把其作为原假设,所谓接受该假设,意思是说,成立时,没有出现小概率事件,就是说对该次抽样,不能否定。所以,对自已的主张一般不作为原假设。我们把其对立面作为原假设,意思是说,如果小概率事件出现,就有理由认为该假设不合理,该次抽样是一个反例。因此,接受其对立面)抽样后,得到样本,及其回归值。各类偏差平方和先把记号定义整理一下:或不具有随机性的量。是样本,满足,而是其观测值。是参数,是其无偏估计量,而是其函数。都是统计量。总偏差平方和,回归偏差平方和(由随机因素引起的偏差)可以直接计算得到:; 残差平方和 ,(回归值和观察值的偏差:由随机误差,可能存在的非线性关系,都会引起该偏差)直接计算得到:。关于这些偏差有如下结果。定理 (1);(利用,)(2);由此,。(3)在假设成立时(即时),;(4)(或)与独立。证 (2)对,做正交变换,与是单位正交的向量,其余向量具有一定的任意性,只要使其成为正交阵。这时,(与正交);,(与正交)。这时,。同时,是个独立标准正态分布的随机变量的和,所以。(3)如果假设成立,即。但即得结论。1检验:如果假设成立,构造统的计量应该是偏小的,所以拒绝域为2检验:构造统计量,拒绝域相关性检验 ,-
限制150内