方差和协方差分析.ppt
市场调查与预测12 方差和协方差分析雷超广东药学院医药商学院1上次课程回顾频数分布、列联表和假设检验1.频数分布2.与频数分布有关的统计量3.假设检验介绍4.假设检验的一般步骤5.列联表6.与列联表有关的统计量7.参数/非参数检验2本章内容方差和协方差分析1.t检验基础2.单因子方差分析3.协方差分析31 t 检验在针对连续变量的统计推断方法中,最常用的有t 检验和方差分析两种,其中t 检验是最基本的检验方法,也是统计学中跨里程碑的一个杰作。它最初由W.S.Gosset在1908年以笔名student发表一篇关于t 分布的论文中提出,并从此开创了小样本计量资料进行统计推断的先河。4案例某工厂用自动打包机打包,每包标准质量为100KG。为了保证生产的正常运行,每天开工前需要先行试机,检查打包机是否有系统偏差,以及时进行调整。某日开工后在试机中共打了9个包,测得9包的质量(KG)为:现希望做出判断,明确打包机是否需要进行调整599.398.7100.5 101.2 98.399.799.5102.1 100.51.1样本均值与总体均值的比较本研究的目的就是为了推断实际上该样本所载总体的均数是否等于这一已知总体均数(100KG)这是一个样本均数与总体均数的比较问题6单个样本均数检验问题是一种关于总体均数的假设检验问题。这种问题只有一个随机抽取的样本,研究目的是推断这个样本相应的总体是否等于(或大于,或小于)某个已知总体均数。7首先应建立相应的假设:H0:=0,打包机工作正常H0:0,打包机工作不正常=0.05由结果可知P值为0.957,它大于检验水平0.05,因此不拒绝H0,还不能认为样本所在总体的均数与假设的总体无数不同,即可认为打包机工作正常。8 t检验的适用条件只要数据分布不是强烈的偏态,一般而言单样本t 检验都是适用的。t 单样本检验是一个非常稳健的统计方法,只要没有明显的极端值,其分析结果都是稳定的。91.2成组设计两样本均值的比较在实际问题中,除了一个总体的检验问题外,还常碰到两个总体均值比较的问题,此时可以考虑使用成组设计的t 检验来进行分析。数据应满足以下三个条件:正态性、各个样本均来自于正态分布的总体:方差齐性,各个样本所在总体的方差相等;独立性,各个观察值之间相互独立的,不能相互影响。10CASE:教学评估在教学质量评价中,重要的依据是不同老师任教的水平相近的班级参加同一考试后的成绩。通常的做法是比较各个班级的平均分数是否存在差别。两位老师分别任教两个班(原成绩相近,不存在差异),考试后的成绩是否存在差异?11甲班甲班 85738677946882839088乙班 759062987375757683661.3 配对样本均值的比较在很多科学研究中,常采用配对设计来提高研究效率,常见的配对设计有四种情况:1.同一被试处理前后数据2.同一被试两个部位的数据3.同一样品用两种方法检验的结果4.配对的两个被试分别接受两种处理后的数据12方法原理当配对设计所测量到的数据为定距变量时,就可以考虑采用配对t检验加以分析。其原理是求出每对的差值:如果两种处理实际上没有差异,则差值的总体均值应当为0,从该总体中抽出的样本其均值也应当在0附近波动;反之,如果两种处理有差异,差值的总体均值就应当远离0,其样本均值也应当远离0。这样通过检验该差值总体均值是否为0,就可以得知两种处理是否有差异13相应假设如下:H0:d=0,两种处理没有差别H0:d0,两种处理存在差别14CASE:高血压的治疗用某种药治疗10名高血压病人,对每一病人治疗前、后舒张压(mmHg)进行了测量,问该药有无降压作用15病病例例12345678910治疗前120127141107110114115138127122治疗后12310812010710098102152104107实验任务1为研究女性服用某避孕药后是否影响其血清总胆固醇,将20名女性按年龄配成10对。每对中随机抽取一人服用新药,另一人服用安慰剂。经过一定时间后,测得血清总胆固醇含量(mmol/L),结果如表所示。问该新药是否影响女性血清总胆固醇16配对配对号号12345678910新药组4.455.84.64.94.865.94.35.1安慰剂组6.25.25.554.45.456.45.86.22 单因子方差分析前面所提到有关统计推断的方法,如单样本、两样本 t检验等,其所涉及的对象千变万化,但归根结底都可视为两组间的比较,如果有一组的总体均值已知,则为单样本 t 检验,如果两组都只有样本信息,则为两样本t 检验。但是遇到以下情形,该如何处理?对于大学生新生的入学成绩可以通过 t检验来考察男女学生间的入学成绩是否有差异。但是要想知道来自江苏、广东、浙江、湖南的学生其入学成绩是否有差异,该如何做?17零售商、批发商、代理商对厂家的分销政策态度一致吗?顾客对商店熟悉程度(高、中、低)对商店的偏好有什么影响?以下所涉及问题其实就是在单一处理因素之下,多个不同水平(或简单理解多组)之间的连续性观察值的比较,目的是通过对多个样本的研究,来判断这些样本是否来自于同一总体。18多个均值比较时不宜采用t检验R.A.Fisher爵士为后人奠定了方差分析(Analysis of Variance,简写为ANOVA)的理论基础:将总变异分解为由研究因素所造成的部分和由抽样误差所造成的部分,通过比较来自于不同部分的变异,借助F分布做出统计推断。19方差分析所要解决的问题单因素方差分析所解决的是一个因素(factor)之下的多个不同水平(LEVEL)之间的关系问题。20方差分析的基本原理总变异=组内变异+组间变异其中组间变异既包括了处理因素的作用,也包括了随机误差。而组内变异仅体现了随机误差。显然,上述实际数据的变异分解公式和理论上的变异分解公式间存在着如下的对应关系:总变异=随机变异+处理因素导致的变异总变异=组内变异+组间变异21方差分析基本原理总变异=组内变异+组间变异我们可采用一定的方法来比较组内变异和组间变异的大小,如果后者远远大于前者,则说明处理因素的影响的确存在,如果两者相差无几,则说明该影响不存在,以上就是方差分析的基本思想22方差分析的检验统计量可以简单地理解为利用随机误差作为尺度来衡量各组间的变异,即:F=组间变异测量指标/组内变异测量指标可以想象,在H0成立时,处理所造成的各级间均值的差异应为0,即:1=2=.=k于是,组间变异将主要由随机误差构成,即组间变异的值应当接近组内变异。23于是,组间变异将主要由随机误差构成,即组间变异的值应当接近组内变异。于是检验统计量F应当不会太大,且接近1,否则F值将会偏离1,并且各组间的不一致程度越强,F值越大。24方差分析的应用条件观察对象是来自所研究因素的各个水平之下的独立随机抽样每个水平下的因变量应当服从正态分布各个水平下的总体具有相同的方差其实,与t检验的应用条件大同小异,概括起来就是独立性、正态性和方差齐性25CASE:邮轮的服务质量等级26Code Nast Traveler实施了一项年度调查,在调查中读者要对他们特别喜爱的邮船进行评价。对于小型邮船(乘客不超过500人),中型邮船(乘客500人1000人),大型邮船(乘客1000人以上)分别给出等级分。对于随机选取的8艘小型、8艘中型和8艘大型邮船,它们服务质量的等级分如下。所有船的等级按100分评估,越高表示服务越好。请在=0.05的显著性水平下,检验三种型号的邮船平均服务质量的等级分有无差异(13,ships)2728单因子方差分析步骤29确定因变量和自变量总方差分解测量作用显著性检验结果解释实验2:空军训练计划空军电子学引导性教程采用一种个人化教学系统,每位学生观看讲座录像,然后给予程式化的教材。每位学生独立学习直到完成训练并通过考试。人们关心的问题是不同学生完成训练计划的速度的差别。有些学生能够相当快地完成程式化教材,而另一些学生在教材上需要花较长的时间,甚至需要加班加点才能完成课程。学得较快的学生必须等待学得较慢的学生完成引导性教程后才能一起进行其他方面的训练30建议的替代系统是使用计算机辅助教学。在这种方法中,所有学生观看同样的讲座录像,然后每位学生被指派到一个计算机终端来接受进一步训练。在整个教程的自我训练过程中,由计算机指导学生独立操作。为了比较建议的和当前的教学方法,刚入学的122名学生被随机安排到这两种教学系统中。61名学生使用计算机辅助方法,61名使用程式化教材。记录学生的学习时间(小时)。(11,training)31管理报告1.利用适当的描述统计学方法汇总每种方法的训练时间数据。根据样本资料你能观察到有何异同?2.评价两种方法总体均值之间的差异3.计算每一种方法的标准差与方差。4.关于两种方法之间的差异,你能得出什么结论?有何建议?请解释5.对于将来要使用哪种训练方法,在做出决策之前你是否还需要其他数据或检验32实验3:Wentworth医疗中心作为对65岁和65岁以上老人所做长期研究的一部分,位于纽约州北部地区的Wentworth医疗中心的社会学家和内科医生调查了地理位置和抑郁症之间的关系。选择了60名相当健康的人组成了一个样本,其中20人居住在佛罗里达,20人居住在纽约,20人居住在北卡。对随机选中的每个人给出了测量抑郁症的一个标准化检验,收集到的数据如下表。较高得分表示有较高的抑郁症。(medical1)33研究的第二部分考虑地理位置与患有慢性病的65岁和65岁以上老人得抑郁症之间的关系,这些慢性病包括关节炎,高血压和心脏病等。这种身体状况的人也选出60人,两样,20人居住在佛州,20人居住在纽约,20人居住在北卡。这一研究记录的抑郁症程度的数据如下表所示。(MEDICAL2)341.利用描述统计学方法概括说明两部分研究的数据。关于抑郁症得分,你的初步观测结果是什么?2.对于两个数据集使用方差分析方法,陈述每种情况下被检验的假设,你的结论是什么?3.在适当的地方使用单个处理方法的统计推断。你的结论是什么?4.对这项研究的推广进行讨论35Q&A36