EXCEL与数据分析课件(5).ppt
《EXCEL与数据分析课件(5).ppt》由会员分享,可在线阅读,更多相关《EXCEL与数据分析课件(5).ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、授课教师:马银戌授课教师:马银戌第第五五章章 数据间的差异性分析数据间的差异性分析1 第一节第一节 数据间的差异性数据间的差异性 第二节第二节 单因素方差分析单因素方差分析本章主要教学内容2第一节第一节 数据间的差异性数据间的差异性 一、一、研究数据间差异性的意义研究数据间差异性的意义 二、二、研究数据间差异性的方法研究数据间差异性的方法 三、三、方差分析的基础概念方差分析的基础概念 3一、一、研究数据间差异性的意义研究数据间差异性的意义 差异性是事物个体存在的根本,也是世间万物丰富多彩差异性是事物个体存在的根本,也是世间万物丰富多彩的根源。人们通过对事物间差异性的探索,进一步寻找影响的根源。
2、人们通过对事物间差异性的探索,进一步寻找影响差异性的决定因素,并通过对决定因素的控制逐步趋近事物差异性的决定因素,并通过对决定因素的控制逐步趋近事物的最优状态。的最优状态。例如,在农业生产中,同一农作物的亩产量是不同的,例如,在农业生产中,同一农作物的亩产量是不同的,有高有低,存在不同程度的个体差异性。为了实现低成本、有高有低,存在不同程度的个体差异性。为了实现低成本、高产量的最优目标,人们就会对影响农作物产量的因素进行高产量的最优目标,人们就会对影响农作物产量的因素进行分析。显然影响因素是众多的,如品种、施肥量、气候、地分析。显然影响因素是众多的,如品种、施肥量、气候、地域等,都会对亩产量带
3、来或多或少的影响。如果能够从这众域等,都会对亩产量带来或多或少的影响。如果能够从这众多的影响因素中找到某些关键因素,如种子、施肥量,人们多的影响因素中找到某些关键因素,如种子、施肥量,人们就可以根据实际情况对这些关键因素加以控制。就可以根据实际情况对这些关键因素加以控制。4。进一步地,如果能够得知如甲品种能更有效地提进一步地,如果能够得知如甲品种能更有效地提高产量,那么人们就可以在以后的种植中选用这个品高产量,那么人们就可以在以后的种植中选用这个品种种。同样,如果在得知施肥量是影响亩产量的关键性因。同样,如果在得知施肥量是影响亩产量的关键性因素的同时,也得知哪种施肥量水平对亩产量增产更有意素的
4、同时,也得知哪种施肥量水平对亩产量增产更有意义,那么人们就可以采用一个恰当的施肥量,既能够提义,那么人们就可以采用一个恰当的施肥量,既能够提高产量,也能够降低成本。同时如果再与优良品种进行高产量,也能够降低成本。同时如果再与优良品种进行搭配,就会得到一个较优的种植搭配,就会得到一个较优的种植方案方案。因此,分析数据间的差异性,从数据的差异性入手因此,分析数据间的差异性,从数据的差异性入手寻根溯源是一种很有效的数据分析思路和方法。寻根溯源是一种很有效的数据分析思路和方法。5二、二、研究数据间差异性的方法研究数据间差异性的方法研究数据间差异性的方法主要用方差分析。研究数据间差异性的方法主要用方差分
5、析。方差分析是通过对多个总体均值是否相等这一假设进方差分析是通过对多个总体均值是否相等这一假设进行检验来分析数据间的差异性的。行检验来分析数据间的差异性的。方差分析方差分析单因素方差分析单因素方差分析双因素方差分析双因素方差分析可重复双因素分析可重复双因素分析无重复双因素分析无重复双因素分析6 1 1、方差分析首先将引起数据差异的因素分为控制因素、方差分析首先将引起数据差异的因素分为控制因素和随机因素两类。和随机因素两类。随机因素:随机因素:指人为很难控制的因素,也称为随机变量。如指人为很难控制的因素,也称为随机变量。如在影响亩产量的因素中,在影响亩产量的因素中,气候气候、地域地域差异影响就属
6、于随机差异影响就属于随机变量。变量。三、方差分析的基础概念三、方差分析的基础概念控制因素:控制因素:指人为可以控制的因素,也称为控制变量。如将指人为可以控制的因素,也称为控制变量。如将影响亩产量的因素分为两类,其中,农作物影响亩产量的因素分为两类,其中,农作物品种品种的选定、的选定、施肥量施肥量的控制属于控制变量。的控制属于控制变量。2 2、控制变量、控制变量的水平、观测变量控制变量、控制变量的水平、观测变量是方差分析是方差分析中的重要概念。中的重要概念。7 在区分了两类不同的影响因素后,接下来要对控制因素在区分了两类不同的影响因素后,接下来要对控制因素进行分析。例如,考察农作物品种这个影响因
7、素时,可以选进行分析。例如,考察农作物品种这个影响因素时,可以选用甲、乙两个不同的品种,在其他条件都相近的两批地块中用甲、乙两个不同的品种,在其他条件都相近的两批地块中分别种植;再如考察施肥量因素时,可以选用分别种植;再如考察施肥量因素时,可以选用1010公斤、公斤、2020公公斤、斤、3030公斤三种不同的施肥量水平,在其他条件都相近的三公斤三种不同的施肥量水平,在其他条件都相近的三批地块中分别施肥。方差分析将上述批地块中分别施肥。方差分析将上述甲、乙甲、乙两个品种,称为两个品种,称为“品种品种”这个这个控制变量控制变量的两个不同的两个不同水平水平,在不同控制变量的,在不同控制变量的不同水平
8、下,会得到不同品种下农作物的亩产量数据,或者不同水平下,会得到不同品种下农作物的亩产量数据,或者不同施肥量水平下的亩产量数据。不同施肥量水平下的亩产量数据。亩产量在方差分析中被称为亩产量在方差分析中被称为观测变量观测变量。然后,分析控制变量不同水平下的观测变量。然后,分析控制变量不同水平下的观测变量。8 例如,对亩产量这个观测变量进行分析,可能会得到多例如,对亩产量这个观测变量进行分析,可能会得到多组亩产量数据。如果发现甲、乙两个品种所获得的亩产量总组亩产量数据。如果发现甲、乙两个品种所获得的亩产量总体均值相差不显著,可以认为甲、乙两个品种没有对亩产量体均值相差不显著,可以认为甲、乙两个品种没
9、有对亩产量产生显著影响,今后种植过程中选用哪个品种都可以。同样产生显著影响,今后种植过程中选用哪个品种都可以。同样地,对亩产量数据进行分析,如果发现三种不同水平的施肥地,对亩产量数据进行分析,如果发现三种不同水平的施肥量下获得的亩产量数据差异性较大,而且,施肥量量下获得的亩产量数据差异性较大,而且,施肥量2020公斤的公斤的地块亩产量明显高于施肥量地块亩产量明显高于施肥量1010公斤,但施肥量公斤,但施肥量3030公斤的地块公斤的地块亩产量不明显高于施肥量亩产量不明显高于施肥量2020公斤的地块,那么今后在种植过公斤的地块,那么今后在种植过程中就应选择每亩施肥量程中就应选择每亩施肥量2020公
10、斤,这样不但提高了产量,也公斤,这样不但提高了产量,也有效降低了生产成本。有效降低了生产成本。9 方差分析就是要分析控制变量的不同水平是否对观测变方差分析就是要分析控制变量的不同水平是否对观测变量产生了显著影响。如果控制变量的不同水平对实验结果产量产生了显著影响。如果控制变量的不同水平对实验结果产生了显著影响,那么,它和随机变量的共同作用必然使得观生了显著影响,那么,它和随机变量的共同作用必然使得观测变量数据有显著变动;相反,如果控制变量的不同水平对测变量数据有显著变动;相反,如果控制变量的不同水平对试验结果没有产生显著影响,那么,观测变量数据的变动就试验结果没有产生显著影响,那么,观测变量数
11、据的变动就不会明显表现出来,它的变动可以归结为随机变量影响造成不会明显表现出来,它的变动可以归结为随机变量影响造成的。的。根据控制变量的个数可以将方差分析分成单因素方差分根据控制变量的个数可以将方差分析分成单因素方差分析和多因素方差分析。顾名思义,单因素方差分析中的控制析和多因素方差分析。顾名思义,单因素方差分析中的控制变量只有一个,而多因素方差分析中的控制变量有多个。实变量只有一个,而多因素方差分析中的控制变量有多个。实际中常用单因素方差分析和多因素方差分析中的两因素方差际中常用单因素方差分析和多因素方差分析中的两因素方差分析。利用分析。利用ExcelExcel可以实现的也是这些。可以实现的
12、也是这些。10第二节第二节 单因素方差分析单因素方差分析 一、单因素方差分析的思路一、单因素方差分析的思路 二、利用二、利用ExcelExcel进行单因素方差分析进行单因素方差分析11一、单因素方差分析的思路一、单因素方差分析的思路 单因素方差分析是测度某一个控制变量的不同水平是否单因素方差分析是测度某一个控制变量的不同水平是否给观测变量造成了显著差异和变动。给观测变量造成了显著差异和变动。单因素方差分析可以应用在很多方面。如,考察不同施单因素方差分析可以应用在很多方面。如,考察不同施肥量是否给农作物亩产量造成显著差异;考察不同学历是否肥量是否给农作物亩产量造成显著差异;考察不同学历是否对职工
13、收入产生显著影响;考察商品包装的不同颜色是否对对职工收入产生显著影响;考察商品包装的不同颜色是否对销售量产生显著影响等等。销售量产生显著影响等等。分析某控制变量的不同水平是否给观测变量造成了显著分析某控制变量的不同水平是否给观测变量造成了显著差异和变动,重要的分析依据是数据。从上述数据的获得过差异和变动,重要的分析依据是数据。从上述数据的获得过程可知,方差分析中观测变量数据应看做来自控制变量不同程可知,方差分析中观测变量数据应看做来自控制变量不同水平下观测变量总体中的独立样本。水平下观测变量总体中的独立样本。12 例如,为考察三种不同的施肥量水平是否给农作物亩例如,为考察三种不同的施肥量水平是
14、否给农作物亩产量带来显著影响,实验所获得的三组亩产量数据(见下产量带来显著影响,实验所获得的三组亩产量数据(见下表表5-15-1)应看做分别来自三个不同施肥量水平下亩产量总体)应看做分别来自三个不同施肥量水平下亩产量总体的样本数据。的样本数据。表表5-15-1(a)不同施肥量水平下的亩产量的样本数据不同施肥量水平下的亩产量的样本数据1010公斤公斤2020公斤公斤3030公斤公斤50050060060062062050050060060062062050050060060062062013表表5-15-1(b)不同施肥量水平下的亩产量的样本数据不同施肥量水平下的亩产量的样本数据1010公斤公斤
15、2020公斤公斤3030公斤公斤501501503503502502502502502502503503503503501501501501表表5-15-1(c)不同施肥量水平下的亩产量的样本数据不同施肥量水平下的亩产量的样本数据1010公斤公斤2020公斤公斤3030公斤公斤60860851051060460451051060160150150152152152452453053014 由于方差分析是从观测变量的差异入手分析并究其成由于方差分析是从观测变量的差异入手分析并究其成因的,可以看出表因的,可以看出表5-15-1(a)中亩产量的样本数据的差异主)中亩产量的样本数据的差异主要是由于施肥
16、量不同造成的;导致表要是由于施肥量不同造成的;导致表5-15-1(b)中的亩产量)中的亩产量样本数据差异的主要原因并不是施肥量,而是其他随机因样本数据差异的主要原因并不是施肥量,而是其他随机因素;对表素;对表5-15-1(c)中亩产量数据的差异性则很难通过直观)中亩产量数据的差异性则很难通过直观的观察得到结论。的观察得到结论。方差分析正是通过分析样本数据,对观方差分析正是通过分析样本数据,对观测变量各总体分布是否存在显著性差异进行推断。测变量各总体分布是否存在显著性差异进行推断。根据统计中假设检验的分析思路,在单因素方差分析根据统计中假设检验的分析思路,在单因素方差分析中,首先提出原假设:控制
17、变量的不同水平下,观测变量中,首先提出原假设:控制变量的不同水平下,观测变量各总体的均值没有显著差异,即控制变量的不同水平对观各总体的均值没有显著差异,即控制变量的不同水平对观测变量没有产生显著影响;然后构造检验统计量。单因素测变量没有产生显著影响;然后构造检验统计量。单因素方差分析中采用方差分析中采用F 检验统计量,它的构造体现了方差分析检验统计量,它的构造体现了方差分析的基本研究思路。的基本研究思路。15 方差分析将影响观测变量取值的因素分为两类,即方差分析将影响观测变量取值的因素分为两类,即由控制变量引起的和由其他随机因素引起的。于是,单由控制变量引起的和由其他随机因素引起的。于是,单因
18、素方差分析将观测变量的总变差(因素方差分析将观测变量的总变差(SST)分解为组间)分解为组间差(差(SSA)和组内差()和组内差(SSE),它们分别反映控制变量),它们分别反映控制变量引起的变差和随机因素引起的变差。于是,引起的变差和随机因素引起的变差。于是,F 统计量定统计量定义为:义为:式中,式中,k表示控制变量的表示控制变量的k个水平,个水平,n表示样本容量,表示样本容量,MSA表示平均的组间差,表示平均的组间差,MSE表示平均的表示平均的组内差。组内差。16 可见,如果控制变量的不同水平对观测变量造成了显著的影可见,如果控制变量的不同水平对观测变量造成了显著的影响,那么观测变量的总变差
19、中由控制变量引起的比例应较大,于响,那么观测变量的总变差中由控制变量引起的比例应较大,于是,是,F统计量的观测值就比较大。如果统计量的观测值就比较大。如果F F统计量的观测值大于其临统计量的观测值大于其临界值,或其概率界值,或其概率p值小于显著性水平值小于显著性水平a,则应拒绝原假设,认为控,则应拒绝原假设,认为控制变量的不同水平下,观测变量各总体的均值存在显著差异,也制变量的不同水平下,观测变量各总体的均值存在显著差异,也即控制变量的不同水平对观测变量产生了显著影响;相反,如果即控制变量的不同水平对观测变量产生了显著影响;相反,如果控制变量的不同水平没有对观测变量造成显著影响,观测变量的控制
20、变量的不同水平没有对观测变量造成显著影响,观测变量的变差归结为随机变量造成的,那么观测变量的总变差中由控制变变差归结为随机变量造成的,那么观测变量的总变差中由控制变量引起的比例应较小。如果量引起的比例应较小。如果F 统计量的观测值小于其临界值,或统计量的观测值小于其临界值,或其概率其概率p值大于显著性水平值大于显著性水平a,则不应拒绝原假设,认为控制变量,则不应拒绝原假设,认为控制变量的不同水平下,观测变量各总体的均值不存在显著差异,即控制的不同水平下,观测变量各总体的均值不存在显著差异,即控制变量的不同水平没有对观测变量产生显著影响。变量的不同水平没有对观测变量产生显著影响。17二、利用二、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- EXCEL 数据 分析 课件
限制150内