概率与数理统计第8章--假设检验与方差分析(共8页).doc
-
资源ID:14502945
资源大小:170KB
全文页数:8页
- 资源格式: DOC
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
概率与数理统计第8章--假设检验与方差分析(共8页).doc
精选优质文档-倾情为你奉上第8章 假设检验与方差分析【引例】重庆啤酒股份有限公司(以下简称重庆啤酒)于1990年代初斥巨资开始乙肝新药的研发,其股票被视作“生物医药”概念股受到市场热捧。尤其是20102011年的两年间,在上证指数大跌1/3的背景下,重庆啤酒股价却从23元左右飙升最高至83.12元,但公司所研制新药的主要疗效指标的初步统计结果于2011年12月8日披露后,股价连续跌停,12月22日以28.45元报收后停牌。2012年1月10日重庆啤酒公告详细披露了有关研究结论,复牌后股价又遭遇连续数日下跌,1月19日跌至20.16元。此公告明确告知:“主要疗效指标方面,意向性治疗人群的安慰剂组与 600g组,及安慰剂组与PA-44 900g组之间,HBeAg/抗HBe 血清转换在统计意义上均无差异”。通俗地说,用药与不用药(安慰剂组)以及用药多与少(900g组与600g组),都没有明显差异,这意味着该公司研制的乙肝新疫苗无效。有关数据如表8.1所示:表8.1 乙肝新疫苗的应答率统计人数(人)应答人数(人)应答率(%)安慰剂组1173328.2PA-44 600g组1203630.0PA-44 900g组1173429.1注:PA-44为治疗用(合成肽)乙型肝炎疫苗简称。上表数据显示,两个用药组的应答率都高于安慰剂组的应答率,但为什么说“在统计意义上均无差异”?为什么说这个结论表示乙肝新疫苗无效?什么叫“在统计意义上无差异”?如何根据样本数据作出统计意义上有无差异的判断? 解答这些问题就需要本章所要介绍的假设检验。现实中,人们经常需要利用样本信息来判断有关总体特征的某个命题是真还是伪,或对某个(些)因素的影响效应是否显著作出推断,所以假设检验和方差分析有着广泛的应用。例如,在生物医学领域,判断某种新药是否比旧药更有效;在工业生产中,根据某批零件抽样检查的信息来判断整批零件的质量是否符合规格要求;在流通领域,鉴别产品颜色是否对销售量有显著影响等等。这些分析研究都离不开假设检验或方差分析。假设检验与方差分析的具体方法很多,研究目的和背景条件不同,就需采用不同的方法。本教材介绍假设检验与方差分析的基本原理和一些基本方法。但通过本章的学习,理解了有关概念和基本思想,对更为复杂的检验结果也不难作出基本的判断和解读。本章小结1.假设检验是基于小概率原理的一种统计推断方法,针对待检验的原假设和备择假设,检验统计量及其分布是检验的理论基础,检验统计量的观测值及P值是作出检验结论的依据。检验结论可能犯的错误有两类,它们的概率和此消彼长。2.参数的假设检验主要包括总体均值、总体方差和总体比例的检验。本章所介绍的检验方法有Z检验、t检验、检验、F检验等等。3. 一个总体参数的假设检验和两个总体参数之差(或比)的检验,其检验统计量不同,要注意它们之间的联系与区别。4.单因素方差分析法从形式上看是对多个总体均值相等性的一种F检验,实质上是研究一个定性变量对一个定量变量有无显著影响。基本概念主要有系统误差、随机误差、组内平方和、组间平方和、组内方差、组间方差等。方差分析法的基本思想是通过观察组间方差与组内方差之比(F统计量)是否显著偏大来判断有无系统误差的存在,从而检验多个总体均值是否相等。5. 假设检验和方差分析的计算可借助于EXCEL或SPSS等软件来实现。基本知识梳理基本知识点含义或公式原假设H0与备择假设H1原假设或称零假设(记为H0)是有待根据样本信息来验证的、关于总体特征的某个命题;与之对立的假设称为备择假设(记为H1),意即预备在拒绝原假设时所选择的假设。检验统计量用于检验原假设是否成立的统计量,它反映样本的信息,不含未知总体参数但要包含待检验的参数假设值。检验统计量的概率分布是假设检验的理论依据。检验法假设检验的具体方法通常以检验统计量服从的分布来命名。如Z检验(正态检验)就是指检验统计量Z服从标准正态分布。常用的检验法还有t检验、F检验、2检验等。小概率原理发生概率很小的事件在一次试验中是不应该发生的。显著性水平事先对“小概率”所规定的一个标准,由研究者根据具体情况确定,常常取0.05,也可取0.01, 0.10等。第一类错误(弃真)原假设H0为真时误认为原假设不真,即拒绝了正确的原假设。犯第一类错误的概率为a (即显著性水平)。第二类错误(取伪)原假设H0不真时误认为原假设为真,即未拒绝错误的原假设。犯第二类错误的概率用b表示。P值(P-value)检验统计量等于检验统计值及更背离原假设情况的概率。P值越小,拒绝原假设的信心越充足。拒绝域与一定显著性水平相对应的检验统计量取值区域,位于检验统计量分布的尾端。检验统计量的值落入该区域时,就应按检验规则拒绝原假设H0,反之则不能拒绝原假设。临界值原假设的拒绝区域和不能拒绝区域的分界点。双侧(双尾)检验原假设的拒绝域在检验统计量分布曲线的双侧(双尾)。若以表示待检验的总体参数,0表示假设值,双侧检验的假设形式为H0:0;H1:0。单侧(单尾)检验拒绝域在检验统计量分布的单侧(单尾),又分左侧检验和右侧检验。左侧检验的拒绝域在左侧,其假设形式为:H0:0(或0);H1:0。右侧检验的拒绝域在右侧,其假设形式为:H0:0(或0);H1:0。方差分析检验多个总体均值是否存在显著性差异(以鉴别所考察因素对试验结果是否存在显著影响或效应)的统计推断方法。水平(处理)所考察因素在随机试验中的各种不同状态或不同类别。总离差平方和(SST),反映样本的全部观测值的差异。总离差平方和组内平方和组间平方和组内平方和(SSE)与组内方差(MSE)组内平方和,反映相同水平下样本观测值之间由于随机波动而引起的差异,也称为误差平方和。SSE/(n-k)=MSE,称为组内方差。组间平方和(SSA)与组间方差(MSA),反映不同水平下样本均值之间的差异,它既包含随机误差,也包含系统误差。SSA/(n-k)=MSA,称为组间方差。 检验方法一览表待检验的总体参数原假设前提条件检验统计量H0成立时检验统计量的分布单个总体均值正态总体,方差已知正态总体,方差未知t(n-1)方差2=02正态总体成数P=P0大样本或 两个总体均值=D0正态总体,方差已知正态总体,方差未知但相等t(n1+n2-2)正态总体, 成对样本t(n-1)方差12=22正态总体F(n1-1,n2-1)成数P1P2=D0两个都是大样本多总体均值i全相等随机项ij独立ij N(0,2)F(k-1,n-k)练习题一、单项选择题(在4个备选答案中选出1个正确答案)1.当检验统计量的观测值未落入原假设的拒绝域时,表示( )A 可以放心地接受原假设 B没有充足的理由否定原假设C 没有充足的理由否定备择假设 D 备择假设是错误的2.在其他条件不变的情况下,增加样本量,犯两类错误的概率会( )A 都减小 B 都增大 C都不变 D一个增大一个减小3.某企业考虑从外地紧急采购一批加工原料,若这批原料的质量达到标准,企业可盈利10万元,但是如果这批原料质量达不到标准,企业将损失25万元。该企业面临判断:H0:原料质量达标;H1:原料质量未达标。对这个问题进行假设检验时,下列说法不正确的是( )A 拒绝购买达标原料属于犯类错误 B 购进未达标原料属于犯类错误C 这个检验中只允许犯第一类错误 D a 不宜太小4.若假设检验为左侧检验,检验统计量为,由样本计算的检验统计值为,则检验的P值等于( ) A Pt B Pt> C 2 Pt< D 1-Pt<5.对总体均值进行检验的假设为H0:=100,H0:100。由随机样本得到的检验统计量为Z=1.8,则检验的P值为( )A 0.036 B 0.072 C 0.928 D 0.9646.如果某项假设检验的结论在0.05的显著性水平下是显著的(即在0.05的显著性水平下拒绝了原假设),则错误的说法是( )A. 检验的P值不大于0.05 B.在0.01的显著性水平下不一定具有显著性C. 原假设为真的概率小于0.05 D.在0.10的显著性水平下必定也是显著的7.关于检验统计量,下列说法中错误的是( )A检验统计量是样本的函数 B 检验统计量包含未知总体参数C在原假设成立的前提下检验统计量的分布是明确可知的D 检验同一总体参数可以采用多个不同检验统计量8.已知总体服从正态分布,现抽取一容量为15的样本对总体方差进行假设检验, :=1;。=0.05,则原假设的拒绝区域为( )A (0,23.685) B(0,24.996) C (0,6.571) D(0,7.261)9.对两个总体方差相等性进行检验(H1:1222)。检验的P值越小说明( )A.两样本方差的差别越大 B.两总体方差的差别越大C.越有信心断定两样本方差有差别 D.越有信心断定两总体方差有差别10.在方差分析中,组内平方和是指( )A各水平内部的观察值与其均值的离差平方和B 各水平总体均值之间的离差平方和C 由各水平效应不同所引起的离差平方和D 试验条件变化所引起的离差平方的总和二、多项选择题(在5个备选答案中选择2-5个正确答案)1.若是待检验参数,0代表参数的某个具体数值。下列假设检验形式写法错误的有( )A H0:=1,H1:1 B H0:0=100,H1:0100C H0:1,H1:>1 D H0:=100,H1:100E H0:1,H1:=1 2.某机场的塔台面临一个决策问题:如果荧幕上出现一个小的不规则点,并逐渐接近飞机时,工作人员必须作出判断:H0:一切正常,那只是荧幕上受到一点干扰罢了;H1:可能会发生碰撞意外。在这个问题中( )A.错误地发出警报属于第一类错误 B.错误地发出警报属于第二类错误C.错误地发出警报的概率为 D.错误地发出警报的概率为E . 的数值宜小3.随机抽取200个家庭,测得拥有汽车的家庭占26.5%,若要求检验总体这一比率是否超过了25%,下列陈述中正确的有( )A.此检验应为双侧检验 B.此检验应为单侧检验C. D.E.4.若采用方差分析法来推断某个因素对所考察的指标有无显著影响,该因素有K个水平,样本容量为n,则下列表述中正确的有( ) A检验统计量组间方差/组内方差 B组间方差组间平方和/(K-1)C检验统计量组间平方和组内平方和 D组间方差组间平方和/(n-K)E检验统计量的分布为F(K-1,n-K)5.运用单因素方差分析法,则下列表述中正确的有( )A组间方差显著大于组内方差时,该因素对所考察指标的影响显著B组内方差显著大于组间方差时,该因素对所考察指标的影响显著C拒绝原假设时,可推断各水平的效应完全没有相同的D拒绝原假设时,可推断各水平的效应是不完全相同的E各水平下的样本单位数可以相等也可以不等三、判断分析题(判断正误,并简要说明理由)1.有个研究者猜测,某贫困地区失学儿童中女孩数是男孩数的3倍以上(即男孩数不足女孩数的1/3)。为了对他的这一猜测进行检验,拟随机抽取50个失学儿童构成样本。那么原假设可以为:H0:P1/3。2.对某一总体均值进行假设检验,H0:100,H1:100。检验结论是:在1%的显著性水平下,应拒绝H0。据此可认为:(1)对原假设进行检验的P值小于1%;(2)总体均值的真实值与100有很大差异。3.假设检验与区间估计的主要区别之一是:在假设检验中,人们更关注小概率事件是否发生,而区间估计立足于以大概率进行推断。4.其他条件不变的情况下,增大样本量n对统计推断产生的影响有:(1)使置信区间的宽度增加;(2)假设检验犯两类错误的概率减小;(3)假设检验的P值增大。四、简答题1.采用某种新生产方法需要追加一定的投资。但若根据试验数据,通过假设检验判定该新生产方法能够降低产品成本,则这种新方法将正式投入使用。(1)如果目前生产方法的平均成本为350元,试建立合适的原假设和备择假设。(2)对你所提出的上述假设,发生第一、二类错误分别会导致怎样的后果?2.对一个总体的方差及两个总体方差之比进行检验时,分别应如何构建检验统计量?3.某研究报告指出,用于治疗慢性萎缩性胃炎的传统药物的有效率只有85%,而通过假设检验证明,最新研制的一种药物的有效率显著提高。对于这个结论,人们至少还希望了解哪些相关信息?4.简述方差分析的基本思想。五、计算题1.有一种电子元件,要求其使用寿命不得低于1000小时。已知这种元件的使用寿命服从标准差为100小时的正态分布。现从一批元件中随机抽查了25件,测得平均使用寿命为972小时。(1)试在0.05的显著性水平下,检验这批电子元件是否合格;(2)假如上述样本平均寿命是对50件样品检查的结果,其他条件不变,判断这批电子元件是否合格。2.根据长期正常生产的资料可知,某厂所产维尼纶的纤度服从正态分布,其方差为0.0025。现从某日产品中随机抽出20根,测得样本方差为0.0042。试判断该日纤度的波动与平时有无显著差异(取=0.10)?3.某化肥厂采用自动包装机包装化肥。正常工作状态下,每包重量服从均值为50kg、标准差为0.3 kg的正态分布。从某日生产的产品中随机抽取9包,测得重量分别为:50.4,50.1,49.5,49.3,50.3,50.2,49.8,50.1,49.2。要求分别在下列两种情况下,检验该日自动包装机的工作是否正常(显著性水平为0.05):(1)方差稳定不变;(2)方差有可能不稳定。4.某种疾病传统治疗方法的治愈率为70。最近研究出一种新疗法。对200名患者试用这种新疗法后,治愈了152人。试问这一试验数据能否说明新疗法确实比传统方法更加有效?以0.10的显著性水平进行检验。5.某企业生产工人分为早班和晚班两个班次。上月质量检验的结果是,从早班抽查产品100只,91只合格;从晚班抽查产品150只,128只合格。可否认为早班和晚班的生产质量有显著差异(显著性水平为5)。6.某制鞋厂为了比较两种材料制作的鞋跟的质量优劣,随机选择了10人,让他们每人试穿一双鞋跟厚度相同的新鞋,其中一只鞋用材料A制作,另一个鞋用材料B制作,试穿一个月后测量每人所穿的两只鞋的鞋跟厚度,测得数据如下:试验者编号12345678910材料A3.83.54.143.14.73.94.23.73.5材料B3.53.14.33.83.34.53.33.73.53.4设鞋跟厚度服从正态分布,试问0.05的显著性水平下,两种材料制作的鞋跟质量有无显著性差别?7.设有A,B,C,D四个企业生产同类产品,某机构为了研究这四个企业的日均销售量是否相同,进行了随机的抽样调查。根据样本数据,利用EXCEL的单因素方差分析工具所得到的输出结果如下(=0.05):SUMMARY组观测数求和平均方差A73575123.7B63365621.2C52505014.9D53306618.5方差分析差异源SSdfMSFP-valueF crit组间845.223.31E-053.127组内总计1207.22要求:(1)对这四个企业销售量的样本信息作一简要的分析说明; (2)填入空格栏的数值;(3)给出检验结论并说明其依据是什么。8.某训练机构将20个学员随机分为4组,分别尝试课堂讲授、视频教学、小组讨论和自学教材等不同方法向学员们介绍有关知识,训练结束后的测试成绩如下表所示:方法学员序号课堂讲授视频教学小组讨论自学教材180737670290886580378908080474857472588808265试以0.10的显著性水平检验这四种方法的训练效果有无显著差异。六、案例分析去年某乡对居民家庭用于文化娱乐方面的消费支出进行一次普查,得知在调查时段内的平均支出是82元,支出超过100元的家庭仅为11.2%。今年以来,该乡大力倡导健康文明的文化娱乐活动。为了分析其效应,专门对该乡居民家庭今年同期的文化娱乐支出进行了一次抽样调查。随机抽取了50个家庭,调查数据如下表所示(单位:元)。表7-2 50个家庭的调查数据表949512080919285888380869611082708880951407182898910267786613512394837111442748792956490768398798410588718786根据这一调查的结果对下列问题进行思考与分析:1在0.05的显著性水平下,能否认为全乡居民用于文化娱乐消费的平均支出有了显著的增加?2以0.95的置信度对全乡居民用于文化娱乐消费的平均支出进行区间估计。3以上两个问题的结果存在什么样的联系?4与去年相比,全乡居民家庭中文化娱乐支出超过100元的家庭所占比重有无显著变化?试以0.05的显著性水平进行推断。专心-专注-专业