列联分析与方差分析.pptx
第第6讲讲 列列联联分析与方差分析分析与方差分析数据、模型与决策数据、模型与决策一、列一、列联联分析分析数据、模型与决策数据、模型与决策现实现实中的相关性分析中的相关性分析你感你感觉觉幸福幸福吗吗?数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策现实现实中的相关性分析中的相关性分析你感你感觉觉幸福幸福吗吗?数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策现实现实中的相关性分析中的相关性分析数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策现实现实中的相关性分析中的相关性分析换换言之:言之:上上海海青青年年的的幸幸福福感感与与职职 业业、性性别别、年年龄龄、是是否否 独独生生子子女女等等因因素素显显著著相相 关关。分析分析变变量量之之间间的的相相关性,关性,可采用可采用统计统计学学中中相相关性关性 分析方法分析方法。定量定量变变量量之之间间的相关性分析:的相关性分析:用用相关系数、回相关系数、回归归分析分析等方法等方法相关性分析方法相关性分析方法定性定性变变量量之之间间的相关性分析:的相关性分析:用用列列联联表表检检验验、相、相应应分析分析等方法等方法定性与定量定性与定量变变量量之之间间的相关性的相关性分分析:析:用用方差分析、多重比方差分析、多重比较较等方法等方法数据、模型与决策数据、模型与决策定性数据的相关性分析:定性数据的相关性分析:列列联联表表(contingency table)检验检验(一)、什么是列(一)、什么是列联联表?表?(二)、列(二)、列联联表表检验检验的原理的原理(三)、列(三)、列联联表表检验检验的的应应用用(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策类别类别 序号序号对对政策政策 的的观观点点收入程度收入程度性性 别别频频数数1反反对对低收入低收入男男52反反对对低收入低收入女女23反反对对中等收入中等收入男男84反反对对中等收入中等收入女女75反反对对高收入高收入男男106反反对对高收入高收入女女97赞赞成成低收入低收入男男208赞赞成成低收入低收入女女259赞赞成成中等收入中等收入男男1010赞赞成成中等收入中等收入女女1511赞赞成成高收入高收入男男512赞赞成成高收入高收入女女7性性别别观观点点收入程度收入程度总计总计低低 收入收入中等中等 收入收入高高 收入收入男男反反对对581023赞赞成成2010535女女反反对对27918赞赞成成2515747总计总计524031123此表此表记录记录了了123个个人人对对某某项项政策的政策的 观观点,并根据他点,并根据他们们的收入程度和的收入程度和 性性别进别进行了分行了分类类,共,共12类类。这样这样的的列列联联表表更直更直观观,而且行,而且行 和列都有很明确的意和列都有很明确的意义义(一)、什么是列(一)、什么是列联联表表数据、模型与决策数据、模型与决策定性数据的相关性分析:定性数据的相关性分析:列列联联表表(contingency table)检验检验(一一)、什么是列、什么是列联联表?表?(二)、列(二)、列联联表表检验检验的原理的原理(三)、列(三)、列联联表表检验检验的的应应用用(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策例例:美国司法中是否存在种美国司法中是否存在种族族歧歧视视下表是下表是1976年至年至1977年年美国美国佛佛罗罗里里达州达州29个地个地区区凶凶杀杀案件案件中中凶凶 手的肤色和是否被判死刑的手的肤色和是否被判死刑的326个犯人的情况个犯人的情况。凶手凶手死刑判决死刑判决死刑判决的比例死刑判决的比例是是否否白人白人191410.119黑人黑人171490.102(二)、列(二)、列联联表表检验检验的原理的原理数据、模型与决策数据、模型与决策如何如何进进行列行列联联表表检检验验?设设置假置假设检验问题设检验问题:原假原假设设:凶手肤色与是否被判凶手肤色与是否被判死死刑独立刑独立备择备择假假设设:凶手肤色与是否被凶手肤色与是否被判判死刑死刑不不独独立立(相(相关关)(二)、列(二)、列联联表表检验检验的原理的原理数据、模型与决策数据、模型与决策将数据做成列将数据做成列联联表:表:凶手凶手死刑判决死刑判决总计总计是是否否白人白人19141160黑人黑人17149166总计总计36290326(二)、列(二)、列联联表表检验检验的原理的原理数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策计计算算检验检验的的P值值:当原假当原假设为设为真真时时,出,出现现像此次像此次样样本本这样这样极端甚至更极端的概率极端甚至更极端的概率凶手凶手死刑判决死刑判决总计总计是是否否白人白人19141160黑人黑人17149166总计总计36290326(二)、列(二)、列联联表表检验检验的原理的原理当原假当原假设为设为真,即凶手肤色与真,即凶手肤色与 是否被判死刑是否被判死刑独立独立时时,凶手凶手为为白人且被判死刑的人数白人且被判死刑的人数 应该应该有多少人?有多少人?326326160 36 326 17.67实际频实际频数数期望期望频频数数数据、模型与决策数据、模型与决策凶手凶手死刑判决死刑判决小小计计是是否否白人白人19141160黑人黑人17149166总计总计36290326(二)、列二)、列联联表表检验检验的原理的原理实际观测值实际观测值原假原假设为设为真真时时的期望的期望值值凶手凶手死刑判决死刑判决总计总计是是否否白人白人17.7142.3160黑人黑人18.3147.7166小小计计36290326据、模型与决策据、模型与决策数数(二)、列二)、列联联表表检验检验的原理的原理实际观测值实际观测值原假原假设为设为真真时时的期望的期望值值凶手凶手死刑判决死刑判决小小计计是是否否白人白人17.7142.3160黑人黑人18.3147.7166小小计计3629032617.7147.7 2 (19 17.7)2(149 147.7)2 0.22度量度量样样本与原假本与原假设设情况的差异情况的差异实实 频频凶手凶手死刑判决死刑判决小小计计是是否否白人白人19141160黑人黑人际际17149166期望期望频频数数小小计计36290数数326期望期望频频数数(二)、列(二)、列联联表表检验检验的原理的原理P值 P(2 0.22)0.6379检验检验的的P值值:当原假当原假设为设为真真时时,出,出现现像此次像此次样样本本这样这样 极端甚至更极端的概率极端甚至更极端的概率数据、模型与决策数据、模型与决策(二)、列(二)、列联联表表检验检验的原理的原理作出判断作出判断若取若取显显著性水平著性水平为为0.05,检验检验的的结结论论是?是?由于由于P值值大于大于0.05,故不,故不应应拒拒绝绝原假原假设设,即,即认为认为凶手肤凶手肤 色与是否被判死刑独立,也即色与是否被判死刑独立,也即说说不存在种族歧不存在种族歧视视。真相是真相是这样吗这样吗?我?我们们是否是否遗遗漏漏了了什么?什么?数据、模型与决策数据、模型与决策(二)、列(二)、列联联表表检验检验的原理的原理将数据做成列将数据做成列联联表表计计算算检验检验的的P值值 作出判断作出判断若若P值值小于等于小于等于显显著性水平著性水平,应应拒拒绝绝原假原假设设,认为认为两个两个变变量量不独立不独立;若;若P值值大于大于显显著性水平著性水平,不能拒,不能拒绝绝原假原假设设,认认 为为两个两个变变量量独立独立。列列联联表表检验检验的步的步骤骤:设设置假置假设检验问题设检验问题原假原假设设:两个:两个变变量独立量独立备择备择假假设设:两个:两个变变量不独立量不独立数据、模型与决策数据、模型与决策定性数据的相关性分析:定性数据的相关性分析:列列联联表表(contingency table)检验检验(一)、什么是列(一)、什么是列联联表?表?(二)、列(二)、列联联表表检验检验的原理的原理(三)、列(三)、列联联表表检验检验的的应应用用(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策(三)、列(三)、列联联表表检验检验的的应应用用1、列列联联表使用的前提条件:表使用的前提条件:当当每每一格子中的一格子中的频频数大于等数大于等于于5时时,检检验结验结果果才才比比 较较可靠可靠!若某些格子中的若某些格子中的频频数小数小于于5如何如何解解决?决?1、增加、增加样样本量本量2、合并某些行或列、合并某些行或列3、采用其他方法(、采用其他方法(Fisher精确精确检检验验)数据、模型与决策数据、模型与决策2、列、列联联表表检验检验的适用范的适用范围围:检验检验两个两个变变量之量之间间的相的相关关性性(三)、列(三)、列联联表表检验检验的的应应用用若列若列联联表中含有两个以上的表中含有两个以上的变变量量怎么怎么办办?1、分、分层层2、压缩压缩数据、模型与决策数据、模型与决策性性别别观观点点收入程度收入程度低低 收入收入中等中等 收入收入高高 收入收入男男反反对对5810赞赞成成20105女女反反对对279赞赞成成251571、分、分层层男性男性层层:收入程度收入程度总计总计观观点点低低 收入收入中等中等 收入收入高高 收入收入反反对对581023赞赞成成2010535总计总计25181558女性女性层层:收入程度收入程度总计总计观观点点低低 收入收入中等中等 收入收入高高 收入收入反反对对27918赞赞成成2515747总计总计27数据、模型数据、模型22与决与决16策策65(三)、列(三)、列联联表表检验检验的的应应用用性性别别观观点点收入程度收入程度低低 收入收入中等中等 收入收入高高 收入收入男男反反对对5810赞赞成成20105女女反反对对279赞赞成成251572、压缩压缩观观点点收入程度收入程度总计总计低低 收入收入中等中等 收入收入高高 收入收入反反对对7151941赞赞成成45251282总计总计524031123将男性和女性合在一起将男性和女性合在一起(三)、列(三)、列联联表表检验检验的的应应用用数据、模型与决策数据、模型与决策定性数据的相关性分定性数据的相关性分析析:列列联联表表(contingency table)检验检验(一)、什么是列(一)、什么是列联联表?表?(二)、列(二)、列联联表表检验检验的原理的原理(三)、列(三)、列联联表表检验检验的的应应用用(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策相关性中的陷阱:相关性中的陷阱:1、神秘的第三、神秘的第三变变量量辛普森悖辛普森悖论论2、相关性与因果关系、相关性与因果关系(四)、四)、结结果的解果的解读读数据、模型与决策数据、模型与决策例例1:美国司法中是否存在种族歧美国司法中是否存在种族歧视视(四)、(四)、结结果的解果的解读读凶手凶手死刑判决死刑判决小小计计是是否否白人白人19141160黑人黑人17149166小小计计36290326由于由于P值值大于大于0.05,故不,故不应应拒拒 绝绝原假原假设设,即,即认为认为凶手肤色凶手肤色 与是否被判死刑独立,也即与是否被判死刑独立,也即 说说不存在种族歧不存在种族歧视视。真相是真相是这样吗这样吗?我?我们们是否是否遗遗漏漏了了什么?什么?数据、模型与决策数据、模型与决策真是真是这样吗这样吗?继续继续看下表:看下表:被被 害害 人人凶手凶手死刑判决死刑判决是是否否白人白人白人白人19132黑人黑人1152黑人黑人白人白人09黑人黑人697无论被害人是白人还是黑人,白 人凶手被判死刑的比例都比黑人 凶手被判死刑的比例低。这说明死刑判决与被害人的肤色 有关:被害人是白人时,不论凶 手是白人还是黑人,都判得严;而当被害人是黑人时,不论凶手 是白人还是黑人,都判得不严。法院判决有倾向性,这反映了种 族歧视。(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策真是真是这样吗这样吗?继续继续看下表:看下表:(四)、(四)、结结果的解果的解读读被害被害 人人死刑判决死刑判决小小计计是是否否白人白人30184214黑人黑人6106112小小计计36290326 2 5.61P值 0.0178由于由于P值值小于小于0.05,故故应应拒拒绝绝 原假原假设设,即,即认为认为被害人肤色与被害人肤色与 是否被判死刑是否被判死刑不独立不独立,也即,也即说说 法官会根据被害人肤色法官会根据被害人肤色进进行判行判 决,即存在种族歧决,即存在种族歧视视。数据、模型与决策数据、模型与决策(四)、(四)、结结果的解果的解读读由于由于白白人人杀杀死白死白人人的情况的情况 比比较较多多,所以当被害人肤色,所以当被害人肤色 被被隐隐去后,呈去后,呈现现白人凶手被白人凶手被 判判死死刑刑的的比比例例比比黑黑人凶人凶手高手高。令人令人费费解的解的这类现这类现象就是象就是著著 名的辛普森悖名的辛普森悖论论。像像例例子子中中,由由于于有有“被被害害人人”的的混混淆淆产产生生了了偏偏差差的的情情况况,我我 们们称称之之为为有有偏偏比比较较,将将“被被害害人人的的肤肤色色”这这种种混混在在其其中中的的特特征征 称称为为混混杂杂因素因素。在在实际实际分析中,一定要注意全面分析,避分析中,一定要注意全面分析,避免免数数有有据据、偏偏模模比比型型较较与与!决策决策被被 害害 人人凶手凶手死刑判决死刑判决是是否否白人白人白人白人19132黑人黑人1152黑人黑人白人白人09黑人黑人697例例2:书书越薄越越薄越贵贵?页页数数价格(元)价格(元)总计总计30以下以下30-5050以上以上350以下以下203010603504504010555450以上以上20101040总计总计805025155可以可以计计算出算出检验检验P值为值为0.0002,因此在,因此在显显著性水平著性水平0.05下下应应 拒拒绝绝原假原假设设,即,即认为页认为页数与价格数与价格显显著相关著相关。(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策例例2:书书越薄越越薄越贵贵?计计算行百分比:算行百分比:页页数数价格(元)价格(元)总计总计30以下以下30-5050以上以上350以下以下33.33%50.00%16.67%100.00%35045072.73%18.18%9.09%100.00%450以上以上50.00%25.00%25.00%100.00%(四)、(四)、结结果的解果的解读读从行百分比看,从行百分比看,书书越薄越越薄越贵贵。真相是真相是这样吗这样吗?我?我们们是否是否遗遗漏漏了了什么?什么?数据、模型与决策数据、模型与决策例例2:书书越薄越越薄越贵贵?页页数数价格(元)价格(元)总计总计30以下以下30-5050以上以上350以下以下33.33%50.00%16.67%100.00%35045072.73%18.18%9.09%100.00%450以上以上50.00%25.00%25.00%100.00%(四)、(四)、结结果的解果的解读读精装本精装本平装本平装本平装本的平装本的书书籍(一般是小籍(一般是小说说)页页数数较较多,价格多,价格较较低;精装本的低;精装本的书书 籍(一般是科技籍(一般是科技专专著)著)页页数数较较少,价格少,价格较较高高。影响价影响价格格的的“第第三三只手只手”才才是主要是主要因因素,即素,即书书的内容的内容和和装装订订成本成本数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策文化程文化程度度大学及大学及 以上以上中等中等初等及初等及 以下以下总计总计人数(人)人数(人)收入(元)收入(元)015001863835259150020002275445326200025002197878375250030003551121406073000以上以上6532852591197总计总计16405675572764例例3:文化程度与收入的关系文化程度与收入的关系在某地区在某地区调查调查了了2764人,人,记录记录其文化程度和收入:其文化程度和收入:检验检验的的P值值小于小于0.01。计计算列百分比:算列百分比:文化程度文化程度人数(人)人数(人)收入(元)收入(元)大学及大学及 以上以上中等中等初等及初等及 以下以下总计总计0150011.34%6.70%6.28%9.37%1500200013.84%9.52%8.08%11.79%2000250013.35%13.76%14.00%13.57%2500300021.65%19.75%25.13%21.96%3000以上以上39.82%50.26%46.50%43.31%总计总计100.00%100.00%100.00%100.00%数据、模型与决策数据、模型与决策P值值SPSS软软件一步到位!件一步到位!数据、模型与决策数据、模型与决策相关性相关性强强弱弱 的度量的度量数据、模型与决策数据、模型与决策不独立之后不独立之后该该怎么怎么办办?定性数据的相关性分析:定性数据的相关性分析:相相应应分析分析(correspondence analysis)前面前面讲讲到,学到,学历历与收入是相关与收入是相关的的。怎。怎样样相相关关呢?呢?相相应应分析可以提供一些分析可以提供一些线线索:索:数据、模型与决策数据、模型与决策相相应应分析分析结结果果数据、模型与决策数据、模型与决策定性数据的相关性分定性数据的相关性分析析:相相应应分析分析由由此此可可见见,相相应应分分析析将将两两个个变变量量的的各各种种取取值值经经过过一一定定 计计算算后后作作于于一一张张图图中中,由由各各取取值值间间的的距距离离来来探探索索取取值值 间间的的相关关系相关关系。距离越近,表。距离越近,表示示越相越相关关。软软件操作件操作-SPSS中:中:Analyze-Data Reduction-Correspondence Analysis数据、模型与决策数据、模型与决策请问请问,是否可以据此推断:,是否可以据此推断:在中国,大学及以上学在中国,大学及以上学历历的人的人群群收入收入 低于低学低于低学历历人群。人群。这这里,神秘的第三里,神秘的第三变变量可能是量可能是什什么?么?数据、模型与决策数据、模型与决策定性数据的相关性分析定性数据的相关性分析若列若列联联表表检验结检验结果果显显示两个示两个变变量量独立独立,则则相相关性分关性分 析析结结束;束;若列若列联联表表结结果果显显示示两个两个变变量量相关相关,则则需要需要继继续续分析:分析:两个两个变变量之量之间间是怎是怎样样相关的呢?相关的呢?1、计计算行或列百分比算行或列百分比查查看,看,寻寻找找规规律律2、采用相、采用相应应分析方法分析方法数据、模型与决策数据、模型与决策相关性中的陷阱:相关性中的陷阱:1、神秘的第三、神秘的第三变变量量辛普森悖辛普森悖论论2、相关性与因果关系、相关性与因果关系(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策合理的关合理的关联联度并不一定意味着度并不一定意味着因因果关果关系系!(1)可能源于同一原因)可能源于同一原因吸烟与肺癌的关吸烟与肺癌的关系系 基因作祟基因作祟离婚率与毒品犯罪的关离婚率与毒品犯罪的关系系 时时代代变变迁迁 中考成中考成绩绩与大学成与大学成绩绩 智力水平智力水平数据、模型与决策数据、模型与决策(四)、(四)、结结果的解果的解读读(2)可能)可能纯纯属巧合属巧合首先,首先,统计检验统计检验有判断有判断错误错误的的风风险险;其其次次,现现实实中中往往往往会会有有个个别别的的小小概概率率事事件件存存在在,属于正常属于正常现现象象。譬譬如,搬如,搬入入新新办办公楼公楼的一的一年中年中脑脑瘤患者瘤患者 显显著增著增加加,若在,若在一一幢大楼幢大楼中中同同时时有有这这么多么多脑脑瘤瘤患者的患者的可可能能 性只有性只有万万分之一分之一,那么在那么在每每年数以年数以万万计计的新的新建建大楼中大楼中就就可可 以有几以有几幢幢楼出楼出现现这这样样的情的情况况,但不,但不能能据此推据此推断断新建大新建大楼楼会会 导导致致脑脑瘤瘤。(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策科科学学领领域域中中,还还有有许许多多有有待待突突破破和和探探索索的的东东 西西,怎怎样样更更好好地地使使用用统统计计进进行行科科学学研研究究,是是 我我们们需要注意的需要注意的问题问题。(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策二、方差分析二、方差分析数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策方差分析的基本思想和原理方差分析的基本思想和原理(几个基本概念)(几个基本概念)1.1.因素或因子因素或因子所要所要检验检验的的对对象称象称为为因子因子2.2.水平水平因素的具体表因素的具体表现现称称为为水平水平3.观观察察值值在每个因素水平下得到的在每个因素水平下得到的样样本本值值是反映是反映试验结试验结果的指果的指标标,用,用x表示表示是随机是随机变变量量一个水平即一个水平即为为 一个一个总总体体质质量特性:量特性:强强度,寿命度,寿命产产量特性:收率,量特性:收率,亩产亩产量量其它:其它:满满意度、成本意度、成本什么是方差分析什么是方差分析?(概念要点)1.1.检验检验多个多个总总体均体均值值是否相等是否相等通通过对过对各各观观察数察数据据误误差来差来源源的分析的分析来来判断判断多多个个 总总体均体均值值是否相等是否相等2.变变量量一个一个定性定性尺度的自尺度的自变变量量2个或多个或多个个(k 个个)处处理水平或分理水平或分类类一个一个定量定量尺度的因尺度的因变变量量3.用于分析完全随机化用于分析完全随机化试验设计试验设计数据、模型与决策数据、模型与决策例例 现现有甲、乙、丙三个工有甲、乙、丙三个工厂厂生生产产同同一种一种零零件件,为为了了 了解不同工厂的零件的了解不同工厂的零件的强强度有度有无无明明显显的的差差异异,现现分分 别别从每一个工厂随机抽取四个从每一个工厂随机抽取四个零零件件测测定定其其强强度,数度,数 据如下据如下表表所示,所示,试试问问三个三个工工厂的零厂的零件件强强度是度是否否相同?相同?表表三个工厂的零件三个工厂的零件强强度度因子因子因因 子子 的的 三三 个个 水水 平平工厂工厂零件零件强强度度指指标标甲甲10310198110乙乙113107108116丙丙82928486x什么是方差分析什么是方差分析?(一个例子)(一个例子)数据、模型与决策数据、模型与决策什么是方差分什么是方差分析析?(一个例子)超超市市无无色色粉粉色色橘黄橘黄色色绿绿色色126.531.227.930.8228.728.325.129.6325.130.828.532.4429.127.924.231.7527.229.626.532.8因子因子【例例】某某饮饮料料生生产产企企业业研研制制出出一一种种新新型型饮饮料料。饮饮料料的的颜颜色色共共有有四四种种,分分 别别为为橘橘黄黄色色、粉粉色色、绿绿色色和和无无色色透透明明。这这四四种种饮饮料料的的营营养养含含量量、味味道道、价价格格、包包装装等等可可能能影影响响销销售售量量的的因因素素全全部部相相同同。现现从从地地理理位位置置相相似似、经经 营营规规模模相相仿仿的的五五家家超超级级市市场场上上收收集集了了前前一一时时期期该该饮饮料料的的销销售售情情况况,见见表表 1。试试分析分析饮饮料的料的颜颜色是否色是否对对销销售量售量产产生影生影响。响。表表1 该饮该饮料在五家超市的料在五家超市的销销售售情情况况因子的四个因子的四个 水平水平指指标标x数据、模型与决策数据、模型与决策我我们们面面对对的的问题问题是:是:这这些些总总体是一体是一样样的么?或因子的么?或因子的的水平水平不不同同,是否是否 会造成指会造成指标显标显著不同?著不同?前面的假前面的假设检验设检验方法可以解决:方法可以解决:1、一个、一个总总体体处处于何种水于何种水平;平;2、两个、两个总总体是否相同。体是否相同。而而多个多个总总体的比体的比较较需要采需要采用用方方差差分析分析数据、模型与决策数据、模型与决策例子的例子的进进一步分析一步分析1.1.检检验验饮饮料料的的颜颜色色对对销销售售量量是是否否有有影影响响,也也就就是是检检 验验四种四种颜颜色色饮饮料的平均料的平均销销售量售量是是否相同否相同2.2.设设 1为为无无色色饮饮料料的的平平均均销销售售量量,2粉粉色色饮饮料料的的平平 均均销销售售量量,3为为橘橘黄黄色色饮饮料料的的平平均均销销售售量量,4为为 绿绿色色饮饮料的平均料的平均销销售售量量,也就,也就是是检验检验下下面面的的假假设设H0:H1:,不全相等不全相等3.3.检验检验上述假上述假设设所采用的方法就所采用的方法就是是方差方差分分析析数据、模型与决策数据、模型与决策方差分析的基本思想和原理方差分析的基本思想和原理数据、模型与决策数据、模型与决策1.比比较较两两类误类误差差,以,以检验检验均均值值是是否否相等相等如果如果系系统统(处处理理)误误差差显显著地不著地不同同于于随随机机误误差差,则则 均均值值就是不相等的;反之,均就是不相等的;反之,均值值就是就是相相等的等的2.比比较较的基的基础础是是方差比方差比由由方差来反映方差来反映误误差差,将两,将两种种方差方差作作比比值值方差分析的基本思想和原理方差分析的基本思想和原理数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策决策决策数据、模数据、模方差分析的基本思想和原理方差分析的基本思想和原理(两(两类误类误差差)1.1.随机随机误误差差在在因因素素的的同同一一水水平平(同一同一个个总总体体)下,下,样样本本的的各各观观察察值值之之间间 的差的差异异2.2.系系统误统误差差在在因素的不同水因素的不同水平平(不同不同总总体体)下下,各各观观察察值值之之间间的的差差异异市不同颜 能包含两表表1该饮该饮料在五家超市的料在五家超市的销销售售情情况况超超市市无无色色粉粉色色橘黄橘黄色色绿绿色色同一超色:可同超 机误1234530.8种误差29.632.431.732.8型与型与26.531.227.928.725.129.127.228.330.827.929.625.128.524.226.5同一颜色不 市:只有随 差方差分析的基本思想和原理方差分析的基本思想和原理(两(两类类方差)方差)1.1.组组内方差内方差因素的因素的同一水同一水平平(同一个同一个总总体体)下下样样本本数据数据的的方差方差比如,无色比如,无色饮饮料料A1在在5家家超超市市销销售售数数量的量的方差方差组组内方差只包内方差只包含含随机随机误误差差2.2.组间组间方差方差因素的因素的不同水不同水平平(不同不同总总体体)下各下各样样本本之之间间的的方差方差比比如如,A1、A2、A3、A4四种四种颜颜色色饮饮料料销销售售量之量之间间 的方差的方差组间组间方差既包方差既包括括随机随机误误差差,也也包括包括系系统误统误差差数据、模型与决策数据、模型与决策方差分析的基本思想和原理方差分析的基本思想和原理(方差的比(方差的比较较)1.1.如如果果不不同同颜颜色色(水水平平)对对销销售售量量(结结果果)没没有有影影响响,那那 么么在在组组间间方方差差中中只只包包含含有有随随机机误误差差,而而没没有有系系统统 误误差。差。这这时时,组间组间方方差与差与组组内内方差就方差就应应该该很接近很接近,两个方差,两个方差的的比比值值就会接就会接近近12.2.如如果果不不同同的的水水平平对对结结果果有有影影响响,在在组组间间方方差差中中除除 了了包包含含随随机机误误差差外外,还还会会包包含含有有系系统统误误差差,这这时时 组组间间方方差差就就会会大大于于组组内内方方差差,组组间间方方差差与与组组内内方方 差的差的比比值值就会大就会大于于13.3.当当这这个个比比值值大大到到某某种种程程度度时时,就就可可以以说说不不同同水水平平 之之间间存在着存在着显显著差异著差异数据、模型与决策数据、模型与决策方差分析中的基本假定方差分析中的基本假定1.1.每个每个总总体都体都应应服从正服从正态态分布分布对对于因素于因素的的每一个水每一个水平平,其,其观观察察值值是来自服是来自服从从正正态态分分 布布总总体的体的简单简单随机随机样样本本比如,每种比如,每种颜颜色色饮饮料的料的销销售量必售量必须须服从正服从正态态分布分布2.2.各个各个总总体的方差必体的方差必须须相同相同对对于各于各组组观观察数据,察数据,是是从具有相从具有相同同方差的方差的总总体体中抽取中抽取 的的比如,四种比如,四种颜颜色色饮饮料的料的销销售量的方差都相同售量的方差都相同3.3.观观察察值值是独立的是独立的比如,每个超市的比如,每个超市的销销售量都与其他超市的售量都与其他超市的销销售量独立售量独立数据、模型与决策数据、模型与决策方差分析中的基本假定方差分析中的基本假定1.1.在在上上述述假假定定条条件件下下,判判断断颜颜色色对对销销售售量量是是否否有有显显 著著影影响响,实实际际上上也也就就是是检检验验具具有有同同方方差差的的四四个个正正 态总态总体的均体的均值值是否相等是否相等的的问题问题2.2.如如果果四四个个总总体体的的均均值值相相等等,可可以以期期望望四四个个样样本本的的 均均值值也会很接近也会很接近四四个个样样本本的的均均值值越越接接近近,我我们们推推断断四四个个总总体体均均值值 相等的相等的证证据也就越充分据也就越充分样样本本均均值值越越不不同同,我我们们推推断断总总体体均均值值不不同同的的证证据据 就越充分就越充分数据、模型与决策数据、模型与决策方差分析中基本假定方差分析中基本假定X 如果原假如果原假设设成立,成立,即即H0:1=2=3=4四种四种颜颜色色饮饮料料销销售的均售的均值值都相等都相等没有系没有系统误统误差差这这意味着每个意味着每个样样本都来自本都来自均均值值为为 、差差为为 2的的 同一正同一正态总态总体体f(X)数据、模型与决策数据、模型与决策方差分析中基本假定方差分析中基本假定如果如果备择备择假假设设成立成立,即,即H1:i(i=1,2,3,4)不全相不全相 等等至少有一个至少有一个总总体的均体的均值值是不同的是不同的有系有系统误统误差差这这意味着四个意味着四个样样本分本分别别来自均来自均值值不不同同的四个的四个正正态总态总体体Xf(X)数据、模型与决策数据、模型与决策单单因素方差分析因素方差分析单单因素方差分析的步因素方差分析的步骤骤方差分析中的多重比方差分析中的多重比较较单单因素方差分析中的其他因素方差分析中的其他问题问题数据、模型与决策数据、模型与决策单单因素方差分析的数据因素方差分析的数据结结构构观观察察值值 (j)因素因素(A)i水平水平A1水平水平A2水平水平Ak12:nx11x12x1kx21x22x2k:xn1xn2xnk数据、模型与决策数据、模型与决策提出假提出假设设构造构造检验统计检验统计量量统计统计决策决策单单因素方差分析的步因素方差分析的步骤骤数据、模型与决策数据、模型与决策提出假提出假设设1.一般提法一般提法H0:1=2=k(因素有因素有k个水平个水平)H1:1,2,k不全相等不全相等2.2.对对前面的例子前面的例子H0:1 =2=3=4颜颜色色对销对销售量没有影响售量没有影响H0:1,2,3,4不不全相等全相等颜颜色色对销对销售量有影响售量有影响数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量1.1.为检验为检验H0是否成是否成立立,需,需确确定定检检验验的的统统计计量量2.2.构造构造统计统计量需要量需要计计算算水平的均水平的均值值全部全部观观察察值值的的总总均均值值离差平方和离差平方和均方均方(MS)数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量(计计算水平的算水平的均均值值 )1.1.假假定定从从第第i个个总总体体中中抽抽取取一一个个容容量量为为ni的的简简单单 随随机机样样本本,第第i个个总总体体的的样样本本均均值值为为该该样样本本的的 全部全部观观察察值总值总和除以和除以观观察察值值的个数的个数2.2.计计算公式算公式为为niini(i 1,2,k)x xij j 1式中式中:ni为为第第 i 个个总总体的体的样样本本观观察察值值个数个数xij 为为第第 i 个个总总体的体的第第 j 个个观观察察值值数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量(计计算全部算全部观观察察值值的的总总均均值值 )1.1.全部全部观观察察值值的的总总和除以和除以观观察察值值的的总总个数个数2.2.计计算公式算公式为为kknix ni xii1n xiji1 j 1n式中:n n1 n2 nk数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量(前例前例计计算算结结果果 )表表2四种四种颜颜色色饮饮料的料的销销售量及售量及均均值值超市超市(j)水平水平A(i)无色无色(A1)粉色粉色(A2)橘黄色橘黄色(A3)绿绿色色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合合计计136.6147.8132.2157.3573.9水平均水平均值值 观观察察值值个数个数 x1=27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5 总总均均值值x=28.695数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量(计计算算总总离差离差平平方方和和 SST)1.1.全部全部观观察察值值xi j 与与总总平均平均值值 x的离差平方和的离差平方和2.2.反映全部反映全部观观察察值值的离散状况的离散状况3.3.其其计计算公式算公式为为kijnix x SST 2i1 j 1前例的前例的计计算算结结果:果:SST=(26.5-28.695)2+(28.7-28.695)2+(32.8-28.695)2=115.9295数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量(计计算算误误差差项项平平方方和和 SSE)1.1.每个水每个水平平或或组组的的各各样样本数本数据据与其与其组组平平均均值值的的离离差差 平方和平方和2.2.反映每反映每个个样样本各本各观观察察值值的的离离散状散状况况,又称又称组组内内离离 差平方和差平方和3.3.该该平方和反映的平方和反映的是是随机随机误误差差的的大大小小4.4.计计算公式算公式为为knix x SSE iji i1 j 12前例的前例的计计算算结结果果:SSE=39.084数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量(计计算水平算水平项项平平方方和和 SSA)kkn x x x x SSA niii i12i i1j 12前例的前例的计计算算结结果果:SSA=76.84551.1.各各组组平平均均值值 xi(i 1,2,k)与与总总平平均均值值 x的的离离差差 平方和平方和2.2.反反映映各各总总体体的的样样本本均均值值之之间间的的差差异异程程度度,又又称称组组 间间平方和平方和3.3.该该平方和平方和既包括随机既包括随机误误差差,也,也包包括系括系统统误误差差4.4.计计算公式算公式为为数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量(三个平方三个平方和和的的关系关系)总总离离差差平平方方和和(SST)、误误差差项项离离差差平平方方和和 (SSE)、水水平平项项离离差差平平方方和和 (SSA)之之间间的的关关 系系222 ninikkkijijiii1 j 1i1 j 1x xx x nx xi1SST=SSE+SSA数据、模型与决策数据、模型与决策构造构造检验检验的的统计统计量量(三个平方和三个平方和的的作作用用)1.SST反反映