Minitab实战.docx
minitab操作有些时候我们在复制数据进入minitab后,由于分析的需要,需要对数据的排列进行处理,我们会有很多偷懒的方法,先看看下图的命令菜单。l 它们分别为堆叠栏、堆叠栏块、堆叠行。针对下图的数据我们在选择上面的堆叠栏时,出现如图的对话框,并如图输入指令时,堆叠行的对话框操作基本与堆叠栏相同,输出的不同可以根据附图看出。堆叠的操作在很多的分析中可以应用,如方差分析、测量系统分析、控制图等等。l 转换栏操作1有些时候我们的数据需要从栏的顺序结构转换为行的结构,这时可以使用转换栏操作,如图。l 转换栏操作2利用转换栏的操作,针对下图1的数据,进行图2的对话框操作后的结果如图1。=将A、B栏的数据转换为行的格式。转换栏前后数据l 按序排列数据有时为了分析和观察的方便,需要将数据按某栏的数据大小进行排列,这是可以使用sort命令,对话框如图。针对图1的数据按图2对话框操作以后的数据排列效果如图1。l 栏运算1在进行minitab分析时,有时需要对数据进行简单的运算或函数运算,完成这个功能的菜单操作如图1,出现的对话框及简要的操作方法如图2。sample针对图中的C1栏进行简单运算和对数运算的结果如图。l 行、栏统计1我们有时需要对某一栏或行的数据进行一些基本统计,执行如图菜单可帮帮你。在执行菜单后出现的对话框如图,此命令一次只提供一个基本统计参数的运算,包括:均指、和、方差、极值、缺失数据等,然后输入需要计算的栏或行所在栏组就可以了。l 标准化操作标准化结合与分布概念应该不是一个陌生的名词,minitab的操作菜单如图。从出现的对话框来看,minitab提供5种标准化的方法:1.减去均值并除以标准差;2.减去均值;3.除以标准差;4.减去指定的值并除以指定的值;5.将数据标准化,使得数据变化在某个范围内。什么是标准化结合?是标准化操作,例如将均值为,标准差为的正态分布转化为标准正态分布,其操作就是(x-)/,这个应用是很重要的。各种常见的标准化操作上面讲的5种,但应用第一种居多。l 生成模板数据有时我们在进行输入数据的时候,有些数据是呈现某种规律的,但一个个输入就显得比较麻烦,我们可以试试生成模板数据这个操作,菜单操作如图。生成模板数据共有5种:1.等距数据的生成2.自定义数列数据的生成3.自定义文本数据的生成4.等距日期数据的生成5.自定义日期数据的生成等距数据的操作如图1,例如生成简单的1到3的数据,间距为1,每个数据重复2次,总体重复两次,按图1操作后,输出结果如图2。生成自定义数列数据的对话框如图,例如生成数列为1、3、9的数据,每个数据重复2次,总体重复两次,按图1操作后,输出结果如图2。对于其它几种模板数据的生成方式,操作基本与上面讲述的对话框操作及生成结果相似,例如自定义文本数据的生成,就是在Text values (e.g., red "light blue")框中输入要生成的文本数列就可以了,如a、b、c。l 生成随机数据进行随机抽样或生成各种分布的随机数据,可以进行一些验证分析和抽样分析,其菜单操作如图。选择上面菜单的Sample From Columns,出现进行随机抽样的对话框及操作如图1。例如我们要从总体为1-10的数据中随机抽取5个样本,则在Sample _ rows from column(s)中输入5,并给出总体数据1-10所在栏,选择存储位置,选择是否重复抽样等后,输出结果如图2。如果抽取的样本量大于总体数据量,就必须选择Sample with replacement,也就是允许重复抽样,例如从1-10中抽取12个数据,输出如图2。生成随机数菜单的后续选项主要就是生成服从各种分布的随机数据,其输入的内容主要是:1.生成分布数据的样本量为多少2.存储数据的栏3.确定分布的参数值给定,如正态分布的均值和标准差,卡方分布的自由度,F分布的分子和分母自由度。以下是生成卡方分布的示例:1.样本量为102.生成10组,分别存储于C1-C103.自由度给定为5对话框的输入和数据输出结果如图。其它的分布数据生成类似。l 很多时候我们因为没有现成的分布概率表,所以无从查起,minitab中提供了这个功能,如附图所示菜单操作,它提供了多种分布的概率密度函数值、累积概率密度及分位数值得计算。在出现的对话框中,请求选择的也是这三个值,任君选择,三个值得图形含义见附图2。示例需求标准正态分布的均值位置的累积概率。对话框输入如图,结果如下:Cumulative Distribution Function Normal with mean = 0 and standard deviation = 1x P( X <= x 0 0.5示例2需计算标准正态分布的0.9分位数,操作如图,输出结果如下:Inverse Cumulative Distribution Function Normal with mean = 0 and standard deviation = 1P( X <= x x 0.9 1.28155l 基本描述性统计1我们在得到简单的样本数据之后,希望对其进行一些基本的描述性统计分析,从分析中对总体做出一些估计,比如参数的水平、离散程度、分布形态等等,对我们做进一步的分析有很大的作用。描述性统计包括3个菜单项,如图,其结果基本相等,最后者默认多了几个图形、置信区间及正态的检验。我们将display Descriptive Statistics 和stroe Descriptive Statistics 一并讲述,其菜单操作完全一致,只是后者在woksheet窗口存储分析结果。以以下数据进行描述性统计分析示例,菜单操作如图,在Variables中输入数据,在By variables输入分组的指标栏(如果存在分组的情况)。机台 数据1 1051 1061 1091 1031 1082 922 972 902 992 95默认的分析参数结果如下Descriptive Statistics: 数据 Variable 机台 N N* Mean SE Mean StDev Minimum Q1 Median Q3数据 1 5 0 106.20 1.07 2.39 103.00 104.00 106.00 108.50 2 5 0 94.60 1.63 3.65 90.00 91.00 95.00 98.00Variable 机台 Maximum数据 1 109.00 2 99.00其中的输出包括均值、均值标准差、样本标准差、极值、一三分位数在描述统计的主队框内还有两个复选的对话框,statistics和graphs,前者对分析结果的中的统计参数进行设置,后者可以生成相应的图形。graphical summary图形概要分析,将部分图形和数据分析结果整合为一张图形,菜单操作为Stat > Basic Statistics > Graphical Summary,其对华框输入很简单,如图1,例如对以下数据的分析,分析结果如图2。date20.676020.480720.238819.502719.297122.300317.781819.903720.380920.054620.016220.707421.327620.538619.619618.970819.923220.348320.661220.607718.027319.956219.554720.637021.643120.290420.724119.221419.985219.02991-Sample ZStat > Basic Statistics > 1-Sample Z单样本Z检验,假设检验的一种,检验样本的均值水平,总体的标准差已知(一般来源于可靠有效的历史数据结果或某些特殊场合)的情况。例如针对以下数据,检验原假设为样本均值等于34,检验的对话框操作如图。date30.108530.134829.116731.398030.363230.146031.388830.430830.654731.045630.494629.555431.423031.961930.547429.290029.760630.512531.106129.694829.546129.801628.872730.445529.864930.556330.051728.671830.304731.4132minitab输出结果为,P值近似为0,说明拒绝原假设,均值不等于34。One-Sample Z: date Test of mu = 34 vs not = 34The assumed standard deviation = 1Variable N Mean StDev SE Mean 95% CI Z Pdate 30 30.2887 0.8032 0.1826 (29.9309, 30.6466) -20.33 0.000点击1-sample t test对话框的options,弹出对话框如图,其中可以自行输入置信度水平和选择假设检验的备择假设形式。1-sample t test单样本t检验与单样本Z检验虽然在操作上比较相同,但其应用是不同的,单样本t检验主要针对总体标准差未知的情况。针对上例的数据,采用1-sample t检验,操作如图,结果如下:One-Sample T: date Test of mu = 34 vs not = 34Variable N Mean StDev SE Mean 95% CI T Pdate 30 20.0802 0.9415 0.1719 (19.7286, 20.4318) -80.98 0.000(options复选对话框的操作意义相同)2-sample t testStat > Basic Statistics > 2-Sample t双样本t检验,比较两个水平是否有显著差别或者两个水平的大小比较问题。在进行检验时,首先确定数据的正态性和方差其性,因为双样本t检验是在总体呈正态分布的基础上进行的,而且方差不同检验的方法也不同。假设对以下数据的检验,先验证正态性及方差齐性,然后进行双样本t检验,菜单操作如图。输出结果如下,我们从p值可以得出结论,两个工厂间存在显著的差别。Two-Sample T-Test and CI: 甲工厂, 乙工厂 Two-sample T for 甲工厂 vs 乙工厂 N Mean StDev SE Mean甲工厂 10 50.25 1.18 0.37乙工厂 10 55.175 0.662 0.21Difference = mu (甲工厂) - mu (乙工厂)Estimate for difference: -4.9267895% CI for difference: (-5.82624, -4.02731)T-Test of difference = 0 (vs not =): T-Value = -11.51 P-Value = 0.000 DF = 18Both use Pooled StDev = 0.9573甲工厂 乙工厂49.2619 54.483451.1988 55.978651.1832 56.100650.0621 54.611751.1369 55.123750.7307 55.140049.2937 54.692551.7491 54.385447.9031 56.061549.9637 55.1736对话框的补充1.提供3种数据输入形式 数据在一栏,水平标志在一栏,选择Samples in one column,在Samples中输入数据所在栏,在Subscripts输入水平标志。 两个水平的数据分别在两栏,选择Samples in different columns,在First和second中分别输入两个水平数据所在的栏。 已知两个水平的样本量、均值和标准差而没有详细的样本数据,则选择Summarized data,在Sample size、Mean、Standard deviation中分别输入两个水平的样本量、均值和标准差。2.Assume equal variances选项,如果两个水平方差相等,则点选此项,否则不选,minitab将执行不同的分析方法。3.graphs复选对话框,选择将出现如图1的对话框,可以选择生成置信区间图或箱线图。4.options复选对话框,选择将出现如图2的对话框,可以确定分析的置信度水平,以及检验时的水平间的差值和备选假设的模式。 注意这是的备择假设模式如果是大于或小于是,minitab默认将第一个样本放在前面,第二个样本放在后面。Paired t在介绍成对t检验前,先将以下成对t检验的概念* 我们在进行2 sample t检验时,差异仅由因素水平不同引起,但有时候却并不是这样,那就是除了因素水平不同引起的差异外(我们要检验的),那就是每次实验还受另外一个变量的影响,也就是说,这个变量对每次实验的两个水平的影响相同,但对多次实验之间的影响就有区别,这时候就不能简单的将两个水平的样本进行比较,而是对两个水平的差值进行比较,这样就将另外的变量的影响排出了,计算的结果也就可靠,就好像控制图内组内和组间的概念,因素水平的影响就反映在组内(若干个同一次实验)了。 举个通俗的例子,我们要比较两种鞋底的耐磨程度,于是选择20个人进行实验,每个人两只脚分别穿一种鞋底作的鞋,在这里,我们可以看到,除了两种鞋底的不同引起的耐磨效果不同外,20个人体重的不同也是一个影响,这是要单独的考量鞋底不同的影响,就要排除体重这个变量,怎么办呢,成对T检验,就是这样一个概念,将每个人的磨损情况做差值进行分析。*菜单操作Stat > Basic Statistics > Paired t如图只要了解了pairet t 与 2 sample t 的区别,其对话框的操作类似,数据分别存储在两个栏内,在对话框直接选择进入first 和 second复选框内就可以。graph、option操作意义相同。1.如何进行等方差检验后续会讲到及minitab操作2.方差等和不等是2sample t 检验有何不同请看附图,主要是统计参数和自由度的计算不同。1 Proportion单比例P检验菜单操作:Stat > Basic Statistics > 1 Proportion主对话框如图1数据输入两种 Samples in columns:将检查结果数据直接输入 Summarized data:输入检查总数在Number of trials,输入合格总数在Number of events。options对话框如图2 Confidence level:置信度水平 Test proportion:检验比率 Alternative:备择假设模式 Use test and interval based on normal distribution:在正态分布的基础上检验(一般样本量较大的场合)2 Proportions双样本P检验,菜单操作如图出现的对话框操作如图。举例对下例数据进行检验,是否存在显著差别。由于检查数据分别在两栏,我们选择Samples in different columns输入数据。sample1 sample20 11 00 00 00 01 00 00 00 00 1检验结果如下Test and CI for Two Proportions: sample1, sample2 Event = 1Variable X N Sample psample1 2 10 0.200000sample2 2 10 0.200000Difference = p (sample1) - p (sample2)Estimate for difference: 095% CI for difference: (-0.350609, 0.350609)Test for difference = 0 (vs not = 0): Z = 0.00 P-Value = 1.000* NOTE * The normal approximation may be inaccurate for small samples.样本量太少,结果不可靠Fisher's exact test: P-Value = 1.000简单的从P值来看,认为两者没有显著差别。点击主对话框的options,将出现如图的对话框,其内容如图1。其中是否选择 use a pooled estimate of p for the test,计算方法不同,其区别如图22 Variances双样本方差齐性检验主要比较两个样本的方差检验,菜单操作如图。检验模型为H0:1=1H1:11双样本方差检验的对话框如图1。 Samples in one column:数据存储在一栏内,那么数据输入Samples框中,数据标志输入Subscripts中。 Samples in different columns:两个样本的数据分别在两栏内,则分别将两栏数据的栏号输入First、Second。 Summarized data:将两个样本数据的样本量和方差分别输入Sample size、Variance。 *option对话框可以设置置信度水平,Storage对话框可以选择存储两个样本的标准差、方差或置信上下限。示例S1 S2 30.2441 29.323831.0379 30.086627.9622 30.384329.9718 31.447231.1175 31.102029.7028 30.620729.2911 28.979229.5267 29.300230.5728 30.484432.2077 30.630430.4481 31.049829.3376 29.155931.5307 29.155129.4860 30.329130.1718 30.494930.1388 30.257429.4959 30.902231.5960 27.921429.9977 30.229329.9297 30.7134分析结果如图2包括正态分布基础上的检验结果(F-Test),和其它任何连续数据分布的检验结果(Levene's Test)。从P值来看,检验结果都无差别。Normality Test正态性检验通过抽样样本检验总体是否为正态分布。minitab提供了3种检验方法,分别为Anderson-Darling(美国)、Ryan-Joiner(中国)、Kolmogorov-Smirnov(俄罗斯)可供选择。另外可以在正态概率图上画出参考线,可以在Percentile lines中输入特定的值即可实现。菜单操作Stat > Basic Statistics > Normality Test假设对下列数据进行检验。而且想估计不良率的水平,规格为(12,24),运用Anderson-Darling方法检验结果如图。可以从P值看出总体服从正态分布,合格率为0.9477-0.0026=0.9451。date18.900018.454018.441820.967215.919414.941920.974620.120821.449821.426222.397014.957617.888719.719722.038819.746613.639518.728520.932617.700922.886220.794218.136418.722221.909521.986825.186117.849123.844317.0503Regression现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:1. 确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径R与圆的面积S之间就存在确定的函数关系;2. 非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系. 值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性. 具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析.它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值.如用年龄估计血压.minitab的回归分析菜单如图如图主对话框,在Response输入响应变量所在栏在Predictors输入个因子所在栏示例针对一下数据做回归分析,其中HeatFlux为响应,East、South、North为因子HeatFlux East South North271.8 33.53 40.55 16.66264.0 36.50 36.19 16.46238.8 34.66 37.31 17.66230.7 33.13 32.52 17.50251.6 35.75 33.71 16.40257.9 34.46 34.14 16.28263.9 34.60 34.85 16.06266.5 35.38 35.89 15.93229.1 35.85 33.53 16.60239.3 35.68 33.79 16.41258.0 35.35 34.72 16.17257.6 35.04 35.22 15.92267.3 34.07 36.50 16.04267.0 32.20 37.60 16.19259.6 34.32 37.89 16.62240.4 31.08 37.71 17.37227.2 35.73 37.00 18.12196.0 34.11 36.76 18.53278.7 34.79 34.62 15.54272.3 35.77 35.40 15.70267.4 36.44 35.96 16.45254.5 37.82 36.26 17.62224.7 35.07 36.34 18.12181.5 35.26 35.90 19.05227.5 35.56 31.84 16.51253.6 35.73 33.16 16.02263.0 36.46 33.83 15.89265.8 36.26 34.89 15.83263.8 37.20 36.27 16.71Response上述分析的输出结果为Regression Analysis: HeatFlux versus East, South, North (回归方程)The regression equation isHeatFlux = 389 + 2.12 East + 5.32 South - 24.1 North(回归系数检验)Predictor Coef SE Coef T PConstant 389.17 66.09 5.89 0.000East 2.125 1.214 1.75 0.092South 5.3185 0.9629 5.52 0.000North -24.132 1.869 -12.92 0.000(残差标准差及回归系数平方)S = 8.59782 R-Sq = 87.4% R-Sq(adj) = 85.9%(方差分析)Analysis of VarianceSource DF SS MS F PRegression 3 12833.9 4278.0 57.87 0.000Residual Error 25 1848.1 73.9Total 28 14681.9Source DF Seq SSEast 1 153.8South 1 349.5North 1 12330.6(异常观测值)Unusual ObservationsObs East HeatFlux Fit SE Fit Residual St Resid 4 33.1 230.70 210.20 5.03 20.50 2.94R22 37.8 254.50 237.16 4.24 17.34 2.32RR denotes an observation with a large standardized residual.从分析结果看1.方差分析结果P为0说明方程是有意义的,至少有一个因子系数不为0。2.从系数检验来看,South, North 因子与HeatFlux有可靠性关系,但East认为关系不可靠 ,可另外从Seq SS值看出。3.R-Sq、 R-Sq(adj)均为80%以上,说明拟和较好。4.第4、22个观测值异常,因为其超过SSe的两倍。Regression选择主对话框的graph复选,选择four in one出现如图1的残差分析图,我们怎样来看呢?1.从Normal Probability Plot来看,有可能出现异常,就是位于右端的两点,我们可以看看到底是那两个点呢?让我们用鼠标左键点击图形,选择顶上的brush,鼠标箭头会变成一个手形选择,然后选择这两个可能的异常点,就会出现图2的brush框输出,可以知道这两个异常点是4和22,这跟刚才分析的结果是一样的。2.从直方图来看,结果基本与Normal Probability Plot结果一致。3.从Residuals Versus the Fitted Values和Residuals Versus the Order of the Data图可以看出,残差有变小的趋势,表明残差可能不是随机的常数。Stepwise逐步回归方法,是一种在回归模型逐步增加或减少因子的回归方法。菜单操作 Stat > Regression > Stepwise如图,主对话框内容Response:输入响应数据所在栏Predictors:输入因子数据所在栏Predictors to include in every model:输入一直保留在模型中的因子Stepwise逐步回归Method复选框如图主要定义舍弃或增加因子的alpha值或F值,另外可以选择使用逐步增加因子或逐步减少因子的方式。示例针对下列数据做逐步减少因子的回归分析,并以alpha水平为0.15作为舍弃的标准。X1 X2 X3 X4 X5 X6 X7 Y64 1 2 1 66.00 140 2 8858 1 2 1 72.00 145 2 7062 1 1 1 73.50 160 3 7666 1 1 1 73.00 190 1 7864 1 2 1 69.00 155 2 8074 1 2 1 73.00 165 1 8484 1 2 1 72.00 150 3 8468 1 2 1 74.00 190 2 7262 1 2 1 72.00 195 2 7576 1 2 1 71.00 138 2 11890 1 1 1 74.00 160 1 9480 1 2 1 72.00 155 2 9692 1 1 1 70.00 153 3 8468 1 2 1 67.00 145 2 7660 1 2 1 71.00 170 3