假设检验&方差分析.ppt
张振华1234181009 许 良 1234181016医生在某山区随机测量了25名健康成年男子的脉搏,平均次数为74.2次分钟,标准差为5.2次分钟,但是根据医学常识,一般男子的平均脉搏次数为72次分钟,问该山区男子脉搏数与一般男子是否不同?在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分别从这些总体中抽取样本,根据这些样本的统计量作出统计推断,以此比较总体参数是否相同。由于存在抽样误差,总体参数与样本统计量并不恰好相同,因此判断两个或多个总体参数是否相同是一件很困难的事情。如何解决呢?假设检验来帮你!假设检验假设检验的基本思想假设检验的基本思想建设检验的基本概念建设检验的基本概念假设检验的基本步骤假设检验的基本步骤假设检验的两类错误及其关系假设检验的两类错误及其关系假设检验的应用假设检验的应用假设检验的基本思想概念:事先对总体参数或分布形式作出某种假设概念:事先对总体参数或分布形式作出某种假设 然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立基本思想:小概率反证法思想基本思想:小概率反证法思想采用逻辑上的反证法采用逻辑上的反证法依据统计上的小概率原理依据统计上的小概率原理小小概概率率原原理理:指指发发生生概概率率很很小小的的随随机机事事件件在在一一次次试验中是几乎不可能发生的。试验中是几乎不可能发生的。(小概率指(小概率指p5%或或P1%)假设检验假设检验是利用样本是利用样本的实际资料检验事先的实际资料检验事先对总体某些数量特征对总体某些数量特征所作的假设是否可信所作的假设是否可信的一种统计分析方法。的一种统计分析方法。也称为显著性检验。也称为显著性检验。假设检验假设检验是论证抽样是论证抽样推断结果可靠性的一推断结果可靠性的一种手段。种手段。抽样误差造成的;抽样误差造成的;本质差异造成的。本质差异造成的。假设检验的目的假设检验的目的就是判断就是判断差别是由哪种原因造成的。差别是由哪种原因造成的。假设检验的基本概念1原假设和备择假设原假设和备择假设原假设原假设:用:用H0表示,即虚无假设、零假设、无差表示,即虚无假设、零假设、无差异假设;异假设;备择假设备择假设:用:用H1表示,是原假设被拒绝后替换的表示,是原假设被拒绝后替换的假设。假设。若证明为若证明为H0为真,则为真,则H1为假;为假;H0为假,则为假,则H1为为真。真。对于任何一个假设检验问题对于任何一个假设检验问题所有可能的结果所有可能的结果都应都应包含在包含在两个假设两个假设之内,非此即彼。之内,非此即彼。2.检验统计量检验统计量用于假设检验问题的统计量称为用于假设检验问题的统计量称为检验统计检验统计量量。需要考虑因素:需要考虑因素:总体是否正态分布;总体是否正态分布;大样本还是小样本;大样本还是小样本;总体方差已知还是总体方差已知还是未知。未知。3.显著性水平显著性水平用样本推断用样本推断H0是否正确,必有犯错误的可能。是否正确,必有犯错误的可能。原假设原假设H0正确,而被我们拒绝,犯这种错误的概正确,而被我们拒绝,犯这种错误的概率用率用 表示。把表示。把 称为假设检验中的称为假设检验中的显著性水平显著性水平(Significantlevel),即决策中的风险。即决策中的风险。显著性水平显著性水平就是指当原假设正确时人们却把它拒就是指当原假设正确时人们却把它拒绝了的概率或风险。绝了的概率或风险。通常取通常取 0.05或或=0.01或或=0.001,那么那么,接受原接受原假设时正确的可能性假设时正确的可能性(概率概率)为为:95%,99%,99.9%。4.接受域与拒绝域接受域与拒绝域接受域接受域:原假设为真时允许范围内的变动,:原假设为真时允许范围内的变动,应该应该接受原假设。接受原假设。拒绝域拒绝域:当原假设为真时只有很小的概率:当原假设为真时只有很小的概率出现,因而当统计量的结果落入这一区域出现,因而当统计量的结果落入这一区域便应便应拒绝原假设拒绝原假设,这一区域便称作拒绝域。,这一区域便称作拒绝域。例:0.05时的接受域和拒绝域5.双侧检验与单侧检验双侧检验与单侧检验假设检验根据实际的需要可以分为假设检验根据实际的需要可以分为:双侧检验(双尾)双侧检验(双尾):指只强调差异而不强调指只强调差异而不强调方向性的检验。方向性的检验。单侧检验(单尾)单侧检验(单尾):强调某一方向性的检验:强调某一方向性的检验6.假设检验中的两类错误假设检验中的两类错误假设检验假设检验是依据样本提供的信息进行推断的是依据样本提供的信息进行推断的,即由部分来即由部分来推断总体推断总体,因而假设检验不可能绝对准确因而假设检验不可能绝对准确,是可能犯错误的。是可能犯错误的。两类错误:两类错误:错误错误(I型错误型错误):H0为真时却被拒绝为真时却被拒绝,弃真错误弃真错误;错误错误(II型错误型错误):H0为假时却被接受为假时却被接受,取伪错误。取伪错误。假设检验中各种可能结果的概率:假设检验中各种可能结果的概率:假设检验的基本步骤1 1、提出原假设和备择假设、提出原假设和备择假设、提出原假设和备择假设、提出原假设和备择假设2 2、确定适当的检验统计量、确定适当的检验统计量、确定适当的检验统计量、确定适当的检验统计量3 3、规定显著性水平、规定显著性水平、规定显著性水平、规定显著性水平 4 4、计算检验统计量的值、计算检验统计量的值、计算检验统计量的值、计算检验统计量的值5 5、作出统计决策、作出统计决策、作出统计决策、作出统计决策U U 检验检验(单侧和双侧)(单侧和双侧)t t 检验检验(单侧和双侧)(单侧和双侧)U U 检验检验(单侧和双侧)(单侧和双侧)2 2检验检验(单侧和双侧)(单侧和双侧)均值均值一个总体一个总体比例比例方差方差总体均值检验总体均值的假设检验是应用最为广泛的假总体均值的假设检验是应用最为广泛的假设检验之一,其检验的基本原理同样适用设检验之一,其检验的基本原理同样适用于其他类型的假设检验。于其他类型的假设检验。由于已知条件不同,所构造的检验统计量也由于已知条件不同,所构造的检验统计量也不同,因此必须搞清统计量的形式及其服不同,因此必须搞清统计量的形式及其服从的分布。从的分布。U U检验检验-用用U U作为检验统计量的假设检验作为检验统计量的假设检验 (2 已知、已知、2 未知大样本未知大样本)T检验检验-用用t分布的统计量进行假设检验分布的统计量进行假设检验(标准差未知、小样本标准差未知、小样本)假设检验的应用某某机机床床厂厂加加工工一一种种零零件件,根根据据经经验验知知道道,该该厂厂加加工工零零件件的的椭椭圆圆度度近近似似服服从从正正态态分分布布,其其总总体体均均值值为为 0 0=0.081=0.081mmmm,总总体体标标准准差差为为=0.0250.025 。今今换换一一种种新新机机床床进进行行加加工工,抽抽取取n n=200=200个个零零件件进进行行检检验验,得得到到的的椭椭圆圆度度为为0.0760.076mmmm。试试问问新新机机床床加加工工零零件件的的椭椭圆圆度度的的均均值值与与以以前前有有无无显显著著差异?(差异?(0.050.05)H0:=0.081H1:0.081=0.05n=200临界值临界值(s):Z Z0 01.961.96-1.96-1.96.025.025拒绝拒绝拒绝拒绝 H H0 0拒绝拒绝拒绝拒绝 H H0 0.025.025检验统计量检验统计量检验统计量检验统计量:|=2.83|=2.831.961.96拒绝拒绝拒绝拒绝H0H0 0.081有证据表明新机床加工有证据表明新机床加工有证据表明新机床加工有证据表明新机床加工的零件的椭圆度与以前的零件的椭圆度与以前的零件的椭圆度与以前的零件的椭圆度与以前有显著差异有显著差异有显著差异有显著差异决策决策决策决策:结论结论结论结论:某某厂厂采采用用自自动动包包装装机机分分装装产产品品,假假定定每每包包产产品品的的重重量量服服从从正正态态分分布布,每每包包标标准准重重量量为为10001000克克。某某日日随随机机抽抽查查9 9包包,测测得得样样本本平平均均重重量量为为986986克克,样样本本标标准准差差为为2424克克。试试问问在在0.050.05的的显显著著性性水水平平上上,能能否否认认为为这这天天自自动动包装机工作正常?包装机工作正常?H0:=1000H1:1000=0.05df=9-1=8临界值临界值(s):检验统计量检验统计量检验统计量检验统计量:|=1.75|=1.751.961.96接受接受接受接受H0H0决策:决策:决策:决策:在在在在 =0.05=0.05的水平上接受的水平上接受的水平上接受的水平上接受H0H0结论:结论:结论:结论:有证据表明这天自动包装机工作正常有证据表明这天自动包装机工作正常有证据表明这天自动包装机工作正常有证据表明这天自动包装机工作正常t t0 02.3062.306-2.3062.306.025025拒绝拒绝拒绝拒绝 H H0 0拒绝拒绝拒绝拒绝 H H0 0.025025在在在在 =0.05=0.05的水平上接受的水平上接受的水平上接受的水平上接受H0H0在在在在 =0.05=0.05的水平上接受的水平上接受的水平上接受的水平上接受H0H0在在在在 =0.05=0.05的水平上接受的水平上接受的水平上接受的水平上接受H0H0在在在在 =0.05=0.05的水平上接受的水平上接受的水平上接受的水平上接受H0H0前面的例子你会了吗?Tryitbyyourself!许良1234181016概况t检验不再适用【原因】:1.检验程序繁琐(5个均数两两比较,则需进行10次t检验)2.无统一的试验误差(各次比较试验误差不一致,也未能充分利用资料的信息)3.增大了犯 I 型错误的概率内容提要基本原理F检验方差分析多重比较一、方差分析的基本原理1.把k个处理的观察值作为一个整体;2.利用总平方和与总自由度的可分解性;3.得出均方(方差);4.利用F检验验证其显著性。总变异平方和SST总自由度dfT处理间平方和SSt处理内平方和SSe处理间自由度dft处理内自由度dfeSST=SSt+SSedfT=dft+dfeMST=SST/dfTMSe=SSe/dfeMSt=SSt/dft内容提要基本原理F检验方差分析多重比较二、F检验 (附表4)两个自由度df1=dft=k-1 df2=dfe=k(n-1)k为不同处理次数 n为每次处理的观察值【目的】:在于判断处理间的均方是否显 著大于处理内(误差)均方。显著的到底是不同方法的处理,还是误差所致。二、F检验 【步骤】1.假设;无效假设Ho:u1=u2=u3 备择假设HA:各u不相等或不全相等2.算出试验资料F值;3.查附表4的临界F值;F0.05(df1,df2),F0.01(df1,df2),4.对比两F值;若F0.05 接受Ho,不显著 若F0.05(df1,df2)FF0.01(df1,df2),P0.01 接受HA,极显著 内容提要基本原理F检验方差分析多重比较三、方差分析 要点1.单项分组资料2.两向分组资料-无重复无重复3.两向分组资料-有重复有重复三、方差分析【例1】单项分组资料单项分组资料 分析不同类型的海产品不同类型的海产品食品中 砷含量差异显著性 用工具用工具“加载宏加载宏”选项选中选项选中“分析工具库分析工具库”选项选项,见图,见图1 1。用Excel 数据分析”进行方差分析图1图2 这时,在这时,在“工具工具”菜单中选中菜单中选中“数据分析数据分析”命令。从命令。从“数据分析数据分析”选选 项中选项中选“方差分析:单因素方差分析方差分析:单因素方差分析”选项,见图选项,见图2 2。括取括取所要分析的数据;所要分析的数据;分组方式选分组方式选“行行”;输入输入显著水平显著水平;确定确定输出区域输出区域;图3图4图图3分析结果三、方差分析【例2】两向分组资料-无重复无重复 3名化验员名化验员检测连续连续10天天牛乳酸度 有无差异用Excel 数据分析”进行方差分析 在在“工具工具”菜单中选中菜单中选中“数据分析数据分析”命令。从命令。从“数据分析数据分析”选选 项中选项中选“方差分析:无重复双因素分析方差分析:无重复双因素分析”选项,见图选项,见图1 1。图1图2 括取括取所要分析的数据;所要分析的数据;输入输入显著水平显著水平;确定确定输出区域输出区域;见图见图2 2 分析结果图3【例3】两向分组资料-有重复有重复三、方差分析 3种食品添加剂种食品添加剂 对3种不同配方种不同配方蛋糕 质量的影响用Excel 数据分析”进行方差分析 在在“工具工具”菜单中选中菜单中选中“数据分析数据分析”命令。从命令。从“数据分析数据分析”选选 项中选项中选“方差分析:可重复双因素分析方差分析:可重复双因素分析”选项,见图选项,见图1 1。图2图1 括取所要分析的数据;输入括取所要分析的数据;输入每样本的行数每样本的行数和和显著水平显著水平;确定确定输出区域输出区域;见图见图2 2。图3分析结果内容提要基本原理F检验方差分析多重比较四、多重比较对一组试验数据通过平方和与自由度的分解将所估计的处理间均方与误差均方作比较F检验,推论处理间有无显著差异(表明试验的总变异主要来源于处理间的变异)哪些数据间有显著差异呢?多重比较多重比较四、多重比较 要点 1.最小显著差数法(LSD)2.最小显著极差法(LSR)3.多重比较结果的表示方法 4.多重比较方法的选择q法新复极差法SSR方法方法【例4】四、多重比较1.最小显著最小显著差数差数法(法(LSD)【t检验】【步骤】(1)列出平均数的多重比较表;即将各处理的平均数从大到小至上而下排列(2)计算LSD0.05 和 LSD0.01;查附表3(t值表)dfe=15 得t0.05(15)=2.131,t0.01(15)=2.947 从而LSD0.05=1.21;LSD0.01=1.68n为处理内的重复数n=4 LSDa=ta(dfe)*其中 =0.57(3)比较,标明结果;差数LSD0.05 不显著LSD0.05 差数LSD0.01 极显著 *10个均数差 LSD0.05 和 LSD0.01 =1.21 =1.68四、多重比较 2.最小显著最小显著极差极差法(法(LSR)【原理】根据极差范围内所包含的处理数K的不同,确定不同的检验尺度。q法新复极差法SSR 2.最小显著极差法LSR-q法法【步骤】(1)列出平均数的多重比较表;即将各处理的平均数从大到小至上而下排列(2)计算LSD0.05 和 LSD0.01;n为处理内的重复数 n=4附表5-q值表 LSRa,K=qa(dfe,K)*(3)比较,标明结果;10个均数差 LSR0.05 和 LSR0.012.最小显著极差法LSR-新复极差法 (SSR法法)SSR法的检验方法和步骤与q法相同唯一不同的是计算最小显著极差时要查的是SSR表(表6),而非q值表不做过多介绍四、多重比较3.多重比较结果的多重比较结果的表示方法表示方法(1)三角形表法简便直观,但篇幅占用较大在科技论文中用的较少3.多重比较结果的表示方法多重比较结果的表示方法(2)标记字母法除杂方法差异显著性0.050.01A428.4a aA AA227.5ababA AA327b bA AA125.2c cB BA521.3d dC C占用篇幅少在科技论文中常见四、多重比较4.多重比较多重比较方法的选择方法的选择LSD法新复极差法q检验法K=2时,取等号K=3时,取小于号 根据试验要求的根据试验要求的严格程度严格程度选择方法选择方法将一组试验数据总变异的平方和与自由度分解分解为各变异原因的平方和与自由度列出方差分析表,计算各项均方及有关均方比做F检验检验若F检验显著则对各平均数进行多重比较多重比较确定具体哪些处理间存在真实差异小结小结最终应用最终应用-正交试验的分析正交试验的分析正交设计助手参考文献参考文献1.王钦德,杨坚.食品试验设计与统计分析.中国农业大学出版社,2003年2月第一版.2.张仲欣,杜双奎.食品试验设计与统计分析.郑州大学出版社,2011