《回归分析与方差分析初步.ppt》由会员分享,可在线阅读,更多相关《回归分析与方差分析初步.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第七章第七章 回归分析与方差分析初步回归分析与方差分析初步7.1一元线性回归有一类变量间有关系,但不能用函数形式来表示。例如人的体重与身高有关,又如居民的储蓄存款额与它的收入有关,但同样的收入的人储蓄存款额也不会相同。这样的变量间的关系在统计上称为相关关系相关关系。X自变量(一般变量,非随机变量)Y随机变量2一、模型一、模型收集数据例7.1我们知道营业税收总额与社会零售总额有关。为了能从社会商品零售总额去预测税收总额,需要了解两者的关系,现收集了如下几组数据(表)表7.1.1社会商品零售总额与税收总额单位:亿元序号社会商品零售总额x营业税税收总额y1142083932177305963204
2、68785424288982531624125063419915557332691579838929163994534017.453画散点图4观测散点图如果个点在某直线附近波动,但不完全在一直线上,认为由两部分构成,各之间独立,可得一元线性回归的数学模型:(7.1.1)5回归函数:反映 与 的相关关系的估计为 ,回归方程为考虑如何根据去估计;对回归方程的可信度作检验;回归方程的作用:预测,控制。6二、参数的最小二乘法估计二、参数的最小二乘法估计(一)LSE的求法1.准则:记为残差平方和。72.求法:,又是的可微函数,有极值。正规方程组:8从而代入得得到的LSE为9回归方程有两种形式:回归直线过
3、两点。10(二)估计量的分布及有关性质123,当时,与独立114仍服从正态分布,12定理定理7.1.1 7.1.1 在模型(在模型(7.1.17.1.1)下有)下有(1 1)(2 2)相互独立相互独立137.2 单因子方差分析单因子方差分析 实践例子:美国的Burke市场调查公司是一家最富经验的市场调研机构之一。在一次研究中,一家Anon公司要评价儿童干谷类食品的潜在的新品种。Anon产品开发者认为可能改善食品味道的四类关键因素为:141.食品中小麦与玉米的比例。2.甜味剂的类型:白糖、蜂蜜或人工制剂。3.果味香料的有无。4.加工时间的长短。15用于研究由品尝得来的数据的统计方法是方方差分析差
4、分析。分析结果如下:*食品成分及甜味剂的类型对味道影响很大。*果味香精事实上破坏了食品的味道。*加工时间对味道没有影响。这些信息帮助Anon识别出了可能产生最佳口味食品的因素。从而在生产方案中起了很大的作用。167.2.1 问题的提出问题的提出在实际中常会遇到比较多个总体均值是否相等的问题。例如:某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品的质量是否一致?再如:某工厂有三个联营厂,生产同一产品,生产工艺也相同,那么这几个联营厂的产品质量是否一致?17类似问题有许多,今后我们称所要比较的地区、联营厂等为因子,因子所处的状态称为水平,如四个地区是地区这个因子的四个水平。我们一般用大
5、写字母A、B、C等表示因子,用大写字母加下标表示该因子的水平,如A的水平用等表示。18下面用一个例子来说明问题的提法。例7.2.1国民计算机公司(NCP)在亚特兰大、达拉斯以及西雅图的工厂生产计算机与传真机。为确定这些工厂中有多少员工了解全面质量管理,从每个工厂选取了一个由6名员工组成的随机样本,并对他们进行质量意识考试。18名员工的考分列在下表中。管理者想用这些数据来检验假设:三个工厂的平均考分相同。19表7.2员工的考分观察值亚特兰大(工厂1)达拉斯(工厂2)西雅图(工厂3)18571592757564382736247674695716975685826720在本例中我们要比较三个工厂的
6、考分是否相同,为此把工厂看成一个因子,记为A,它有三个工厂,就看成因子A的三个水平,记为 ,。我们将第 个工厂的第 个工人的考分记为 。在本例中,由于在每个工厂选的是随机样本,(工人间的差异控制在最小范围)因此一个工厂的工人的不同考分可看成是在一个工厂的若干次重复观察。所以可把一个工厂的考分看成一个总体。为比较三个工厂的平均考分是否相同,相当要比较三个总体的均值是否一致。为简化起见,需要提出若干假定,把所要回答的问题归结为一个统计问题,然后设法解决它。217.2.2 7.2.2 单因子方差分析的统计模型单因子方差分析的统计模型一、假定一、假定在单因子试验中,设因子A有个水平,在每一水平下考察的
7、指标可以看成一个总体,现有个水平,故有个总体,并假定:22(1)每一总体均服从正态分布;(2)每一总体的方差相同;(3)从每一总体中抽取的样本独立。要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第个总体的均值为,那么要检验的假设为:(7.2.1)其备择假设为:不全相同。通常可以省略不写。23当为真时,A的个水平的均值相同,这时称因子A的各水平间无显著差异,简称因因子子A不不显显著著;反之,当不真时,各不全相同,这时称因子A的各水平间有显著差异,简称因子因子A显著。显著。用于检验假设(7.2.1)的统计方法称为方差分析法,其实质是检验若干个具有相同方差的正态总体的均值是否相等的
8、一种统计方法。若考察的因子只有一个时,称为单因子方差分析。24二、数据结构及统计模型二、数据结构及统计模型设从第 个总体获得容量为 的样本,在水平下获得的与不会一致,记称为随机误差,有(7.2.2)这是 的数据结构式25在方差分析中引入一般平均与效应的概念,称为一般平均一般平均,其中。称为A的第水平的主效应主效应,简称为的效应。显然有,统计模型可以改写成:26(7.2.4)从而假设(7.2.1)可写成:277.2.3 检验方法检验方法一、误差来源一、误差来源试验数据28造成各差异的原因可能有两个:(1)原假设不真,即各水平下总体均值不同;(2)差异是由于随机误差引起的。记 表示水平 下的数据和
9、,表示水平 下数据的平均值为所有数据的总平均值。29每一数据与总平均的偏差可以分解成两部分:(7.2.5)称为组内偏差,仅反映随机误差:(7.2.6)称为组间偏差,除随机误差之外还有第个水平的效应:(7.2.7)30二、平方和分解二、平方和分解称为总偏差平方和总偏差平方和。,称为误差偏差平方和误差偏差平方和,称为因子因子A的偏差平方和的偏差平方和31三、检验统计量与拒绝域三、检验统计量与拒绝域有计算公式:可以证明有:32(1)求:利用正态总体中的结论(见第一章)有:又由分布的可加性知:则有33从而有(2)求34当原假设为真时,各相等且为,则取检验统计量为:(7.2.8)比较合理的拒绝域形式为:对给定的显著性水平,应满足35四、方差分析表(四、方差分析表(ANOVA表)表)可知当 为真表7.2.1单因子方差分析表方 差 来源平方和自由度均方F比36方 差来源平 方和自 由度均方比值51622589000.0034301528.6794617=0.0030.05,故拒绝
限制150内