《试验设计与统计分析.pptx》由会员分享,可在线阅读,更多相关《试验设计与统计分析.pptx(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1.1 数据集中趋势 集中趋势是数据分布的中心,描述集中趋势的指标有:算术平均数mean 中位数 median 众数等 mode第1页/共112页第2页/共112页 中位数 把一批数按照从小到大的顺序排列,处于数列中点的变量值就是Me。第3页/共112页1.21.2 离散程度分析 离散程度是数据分布的又一特征,它表明各个变量值的差异,即离散程度。意义:首先,可以衡量算术平均数的代表性。例:均值都为150的两组数 50,100,150,200,250 100,125,150,175,200其次,进行产品质量评价、生产管理和决策。离散程度经常用到的指标有:极差、方差和标准差等,它们也被称为变异指标
2、。第4页/共112页方差与标准差1、方差与标准差是测定离散程度最常用的指标。标准差是方差的平方根,也称均方差。2、总体方差和标准差()计算公式:样本方差和标准差(S)要除以n-1。3、变异系数4、方差分析中,均方差MSE即为处理的方差。第5页/共112页(总体)方差的计算第6页/共112页(样本)方差的计算第7页/共112页平均数置信区间估计平均数差数的标准误平均数差数置信区间估计两平均数差异的t检验标准误标准误用于统计检验。第8页/共112页标准误随重复增加而下降的曲线第9页/共112页第10页/共112页2.1 2.1 参数假设检验的过程a.问题的提出及特征分析b.两个假设(原假设、备择假
3、设)c.选择适当的统计方法、计算统计量d.根据p值进行统计推断2 2、统计检验基本原理及、统计检验基本原理及检验检验第11页/共112页 某地区某水稻品种产量500kg/亩,施用某种新的肥料之后,10块试验田得到平均产量510kg/亩,标准差20。这个产量的变化,能否是施用这种肥料增产效果?需要进行统计检验?第12页/共112页 由于该品种标准对照是500kg/亩,因此原假设为总体均值等于500kg/亩(标准对照总放在零假设);由于样本均值大于500kg/亩,目的是推断施肥是否有效,故把备选假设定为施肥后产量大于500kg/亩(这种备选假设为单向不等式的检验称为单尾检验(另一种是备选假设为不等
4、号“”的,称为双尾检验)。即:第13页/共112页检验统计量计算 这里是总体方差未知,须用t检验进行检验。公式中0通常表示为零假设中的均值(这里是500),S是样本标准差,等于20。在零假设之下,它有自由度为n-1=9的t分布。代入公式计算计算结果是t=2.3717(也称为t值),同时得到p-值为0.0209,因p值 时没有出现小概率事件,不能拒绝H0,统计结论“无统计学意义”第15页/共112页简言之,p值就是传统所说的(显著水平)。p值可精确地告诉我们统计检验结果的显著水平,而不用再重复采用不同的水平。根据p值进行统计推断常用标准是:如果0.01p0.05,则结果显著;如果0.001p0.
5、01,则结果极显著;如果p0.05,则结果被认为没有统计显著性(有时记为NS);但是,如果0.05p0.10,则有时注记为有倾向性的统计显著。第16页/共112页第17页/共112页 2.2 2.2 判断两组的总体均数是否不等判断两组的总体均数是否不等 成组t检验(根据实际问题,选用双侧检验)H0:12,H1:12 第18页/共112页 比较两作物品种某微量元素含量差异,各品种该微量元素含量为品种A 0.709 0.755 0.655 0.705 0.723 品种B 0.617 0.608 0.623 0.635 0.593 0.684 0.695 0.718 0.606 0.618 第19页
6、/共112页H H0 0:1 1 2 2 dfn1+n2-2,检验总体均数是否相等称成组t检验第20页/共112页检验公式(1)分子:均值差异;(2)分母:方差和(离散程度)的大小;(3)样本数n大小。显著性差异的结果不仅仅取决于均值本身的差异大小,而且还取决于试验中试验方差和样本数。在实际农业生产中不重要的微小的差异在统计上可能显著。所以,在应用时,如果要求处理比对照(增加)显著,那么对增加幅度最好有所规定。另一方面,由于某种原因,统计上对较大的差异检验不出显著性,但这样的差异对农业生产或科研或许是很重要的。第21页/共112页 以0.01水准的双侧检验拒绝H0,接受H1;有统计学意义,可认
7、为该元素在两品种中的含量有差异。第22页/共112页第23页/共112页2.3 配对t检验 如果实验是配对设计,若两处理因素效应无差别,那么差值d的总体均数总体均数 d d应该为应该为0 0,故可将该检验理解为样本均数与总体均数d=0作比较。第24页/共112页第25页/共112页H0:d0,两方法(仪器)检验结果相同;H1:d0,两方法(仪器)检验结果不同。双侧=0.05。按=n-1=12-1=11查t值表,得t0.20,11=1.363,t0.10,11=1.796,t0.10,11tt0.20,11,则0.20P0.10,差别无统计学意义,尚不能认为两种(方法)仪器检查的结果不同。第26
8、页/共112页第27页/共112页3、多个处理的统计检验(方差分析)方差分析:检验两组以上总体均数是否全都相等。第28页/共112页方差分析应用理论上的条件独立性:各样本是相互独立随机的样本正态性:各样本都来自正态总体方差齐性:各样本的总体方差相等第29页/共112页 A A、B B、C C和D D四种工艺,测量产品某指标结果如下:均值 总均值 差值A6260635963596164-3B6367716465666664+2C6866716768686864+4D5662606163646164-33.1 3.1 单因素方差分析原理单因素方差分析原理 第30页/共112页如果处理效果相同,那么
9、有H0:1=2=3=4,也即组样本均数来自同一总体。如果4处理效果完全相同,那么处理间变异等于0;整个变异都是处理内(随机误差)引起的。如果处理,每处理各次重复间没有差异,则总变异都是处理间变异,处理内(随机误差)为0;上面是极端情况,一般情况是,处理间和处理内都有变异存在。这时计算处理间均方与处理内均方的比值:F=MS处理间/MS处理内 第31页/共112页第32页/共112页方差分析表变异来源平方和自由度 均方 F值 p值处理间 228 3 76 13.57 0.00 处理内 112 20 5.6总变异 340 23根据值大小,下结论。第33页/共112页 一般用Tukey法和LSD法。但
10、注意:目前国内目前的农药实验要求Duncan 法。数据转换:如数值相差几个数量级,可用对数转换;如许多小区值为0,则可用平方根转换;如指标是百分数,且大部分数值大于70或小于30,可用反正弦平方根转换。第34页/共112页第35页/共112页 数据描述:均值和标准差是必须的,处理样本数也要说明。方差分析:F值、自由度和P值;如P0.05则差异显著,如P“随机区组设计”下面的“单因素实验统计分析”。第48页/共112页数据转换:如数值相差几个数量级,可用对数转换;如许多小区值为0,则可用平方根转换;如指标是百分数,且大部分数值大于70或小于30,可用反正弦平方根转换。一般用Tukey法和LSD法
11、。但注意:目前国内目前的农药实验要求Duncan 法。第49页/共112页 结果描述及数据分析与完全随机实验设计相同,就当是区组间那一行不存在第50页/共112页4.相关与回归分析1 1、多变量数据特征描述(相关分析)、多变量数据特征描述(相关分析)2 2、变量间定量关系(回归分析)、变量间定量关系(回归分析)3 3、复合中心试验设计及优化分析、复合中心试验设计及优化分析51第51页/共112页4.1 数值特征描述(相关)变量平均值标准差x1总糖x2总氮X3烟碱X4蛋白质 X5糖/碱比x1总糖16.096 3.785 1.000-0.720-0.526-0.772 0.581 x2总氮1.87
12、3 0.422-0.720 1.000 0.896 0.954-0.840 X3烟碱1.846 1.030-0.526 0.896 1.000 0.726-0.921 X4蛋白质9.694 1.736-0.772 0.954 0.726 1.000-0.686 X5糖/碱比11.581 5.802 0.581-0.840-0.921-0.686 1.000 相关系数临界值,a=0.05时,r=0.3809a=0.01时,r=0.4869第52页/共112页相关系数置信区间及偏相关95%95%置信区间x1x1总糖x2x2总氮X3X3烟碱X4X4蛋白质x2x2总氮0.4674 0.86350.46
13、74 0.8635X3X3烟碱0.1825 0.75510.1825 0.75510.7824 0.95190.7824 0.9519X4X4蛋白质0.5550 0.89080.5550 0.89080.9015 0.97930.9015 0.97930.4770 0.86660.4770 0.8666X5X5糖/碱比0.2573 0.78700.2573 0.78700.6756 0.92480.6756 0.92480.8327 0.96380.8327 0.96380.4145 0.84580.4145 0.8458偏相关x1x1总糖x2x2总氮X3X3烟碱X4X4蛋白质X5X5糖/碱比
14、x1x1总糖0.3697 0.3697 0.6239 0.6239 0.2112 0.2112 0.0827 0.0827 x2x2总氮0.1916 0.1916 0.0000 0.0000 0.0000 0.0000 0.2377 0.2377 X3X3烟碱-0.1054-0.1054 0.9674 0.9674 0.0000 0.0000 0.8854 0.8854 X4X4蛋白质-0.2648-0.2648 0.9938 0.9938-0.9487-0.9487 0.2053 0.2053 X5X5糖/碱比0.3614 0.3614-0.2505-0.2505 0.0311 0.0311
15、 0.2681 0.2681 左下角是相关系数r r,右上角是p p值偏相关,a=0.05,r=0.4044a=0.05,r=0.4044 a=0.01a=0.01时,r=0.5151r=0.5151第53页/共112页基本统计(卡方图)离群值样本是否有异常分位数分位数广义距离广义距离样本号样本号0.73 0.73 0.74 0.74 17171.20 1.20 0.99 0.99 6 61.55 1.55 1.29 1.29 7 71.84 1.84 1.66 1.66 14142.11 2.11 1.75 1.75 4 42.37 2.37 1.75 1.75 8 82.61 2.61 1
16、.83 1.83 20202.86 2.86 1.83 1.83 13133.10 3.10 1.86 1.86 21213.34 3.34 2.07 2.07 15153.58 3.58 2.82 2.82 12123.83 3.83 2.99 2.99 3 34.09 4.09 3.00 3.00 2 24.35 4.35 3.23 3.23 25254.63 4.63 3.46 3.46 10104.92 4.92 3.50 3.50 16165.23 5.23 4.16 4.16 19195.56 5.56 4.33 4.33 22225.91 5.91 5.55 5.55 26266
17、.30 6.30 6.81 6.81 5 56.74 6.74 7.13 7.13 1 17.24 7.24 8.45 8.45 27277.82 7.82 8.52 8.52 18188.52 8.52 8.58 8.58 23239.44 9.44 8.79 8.79 242410.80 10.80 9.19 9.19 111113.58 13.58 23.70 23.70 9 9第54页/共112页基本统计(box图指标是否有异常值)第55页/共112页4.2 回归分析 如产量肥料反应函数第56页/共112页4.2.1 回归分析简介回归(regression)建立一个描述应变量依自变量变
18、化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,直线回归方程是Y=a+bX 中,a、b 是决定直线的两个系数.57第57页/共112页施肥量与产量的关系,一般有:线性:y=a+bx二次曲线:y=a+bx+cx2Mitscherlich方程:y=a(1-10-bx)幂函数/Cobb-Douglas方程:y=axb指数曲线 y=aebx施肥量与产量的关系(多为非线性)第58页/共112页拟合二次多项式回归模型(反应面分析)多元线性回归第59页/共112页4.2.2 DPS下回归分析数据格式 根据试验数据建立回归方程,在DPS里,建立回归方程数
19、据格式:一行一个样本 一列一个变量 因变量放在最右边。建立回归方程,样本个数要大于总变量个数。60第60页/共112页4.2.3 DPS下用户界面(一元线性回归)61第61页/共112页第62页/共112页4.2.3 DPS下用户界面(非线性回归)63第63页/共112页4.2.3 DPS下用户界面(逐步回归)64第64页/共112页4.3 复合中心设计及其优化建模第65页/共112页66第66页/共112页67实验结果统计分析 左边方实验设计表,右边一列放各个处理相应的产量,然后用鼠标选中。最后进入主菜单,选择“试验统计”中的“实验优化分析”下面的“二次多项式回归”。系统出现如下界面。第67
20、页/共112页68第68页/共112页69输出结果、各个因素(试验处理水平)编码的平均值和标准差,以及相关系数矩阵;、二次多项式回归模型;、回归模型的F检验值及显著水平p,一般显著水平小于等于0.05时即可对该模型进一步分析,如果F太小,回归方程不显著,则不适合建立二次多项式回归模型来分析试验结果;第69页/共112页70模型统计检验变异来源平方和自由度均方F值p值回归468.291433.44931.26880.3026残差553.642126.3636 失拟420.371042.03673.46970.0264 误差133.271112.1154总变异1021.9335第70页/共112页
21、71、各个因子项的回归系数、标准回归系数、t检验值及显著水平p;、回归模型的复相关系数R剩余标准差和调整后的相关系数,一般来说,调整后的相关系数越大越好;、各个处理的观测值、拟合值和拟合误差,以及Durbin-Watson(DW)统计量。DW统计量只当分析样本按某一顺序(如处理先后)存放时才有意义,该值要在2的附近为好;第71页/共112页72、其他因子为零时单因子和两因子互作效应分析,可在DPS系统作图功能的支持下,分别作x-y曲线图和等高线图;、其他因子为零水平时,各个因素的灵敏度分析,给出了系数灵敏度、导数、平均效应y/x和目标函数y,根据这些数据,可以进行边际分析;第72页/共112页
22、73、典型分析,求一阶偏导数方程、拟合方程的典型形式,稳定点分析;、在试验条件的约束之下,进行模型优化,得到最高产量时各个因素组合。如果在分析时按系统的提示,输入了目标指标的价格,以及各个处理因素的价格,系统将会给出最大经济效益时的产量和产值。第73页/共112页74典型分析及模型优化对回归模型进行比较深入、直观地分析;典型分析(又称典范分析,典则分析,Canonical analysis)提供了较为理想的分析技巧。第74页/共112页75应用典型方程,我们可以得到如下信息:一是稳定点处是否是拟合模型极大值、极小值或鞍点:当典型方程的各个系数为负时,稳定点为模型的极大值;当典型方程的各个系数为
23、正时,稳定点为模型的极小值;当典型方程的各个系数有正有负时,稳定点为鞍点。这一点很重要,这时因为我们在寻优建模时,往往根据专业背景,指定模型寻优方向。这种寻优方向可能和拟合模型本身的最优解不一致,或部分因子不一致。不一致时,采用数值寻优算法得到的最优点有可能位于实验因子取值的边界上。第75页/共112页76第76页/共112页77同时,根据典型方程,判断各个因素在稳定点附近的变化大小。系数越大,变化越快,该点的稳定性就较差,这是在应用中需要注意的。最后,如果通过数值优化分析和典型分析得到的最优值一致,那么模型可以认为是较好的,如果不一致,在模型应用时,需要进行更深入的分析,探明原因,且模型结果
24、谨慎应用。第77页/共112页78多因子实验优化的区组设计多因子优化设计试验,一般试验次数较多。试验次数增加会带来量方面的问题:一是试验时间延长。有的实验处理是依时间顺序一个接一个地进行的。由于时间延而产生的对实验结果的影响叫做时间漂移,这一影响很可能增加试验误差。这种情况在工业试验中较为普遍。另一种情况是试验区增大。在农林生物的田间试验中,因处理因子多、实验区加大、这样难以在同质的条件下进行试验,而需要进行小区控制、实行区组设计。第78页/共112页79DPS提供的区组设计功能区组设计应用与多因子优化试验是有必要的。但遗憾的是,我们以往的试验优化分析工具,都没有提供可处理区组设计功能。这里,
25、我们增加了处理含有若干区组的二次正交回归组合(中心复合)设计试验数据分析建模功能,该功能模块在“试验统计”“试验优化分析”“区组设计二次多项式回归”里面。第79页/共112页80区组设计统计分析数据格式二次正交回归组合设计或其他多因子试验,如果在实施时划分了B个区组,在试验结果的数据分析时,数据的第一列放区组的顺序编号(1,2,.,B),其它列则和其它多因素实验设计一样,放各个处理因子的编码值或各个因子试验实施的水平值,最右边放试验观察指标结果值。第80页/共112页81区组设计优化分析方差分析表变异来源平方和自由度均方F值p值回归630.31 7.00 90.04 6.44 0.00 模型模
26、型419.06 419.06 5.00 5.00 83.81 83.81 5.99 5.99 0.00 0.00 区组211.25 2.00 105.63 7.55 0.00 残差391.61 28.00 13.99 失拟性检验失拟性检验308.40 308.40 17.00 17.00 18.14 18.14 2.40 2.40 0.07 0.07 误差83.21 11.00 7.56 总变异1021.93 35.00 第81页/共112页82实际应用的考虑验证与搜索稳定点是最优点时,在稳定的做验证实验;有鞍点存在时,稳定点不是最优点时,做因子延伸的实验第82页/共112页其它解释目标因子的
27、新方法神经网络及径向基函数支持向量机(SVM)投影寻踪回归随机森林第83页/共112页特点支持向量机、投影寻踪随机森林随机森林神经网络较稳健稳健、适应性强稳健、适应性强较差允许少量缺失值可以适应较多缺失值可以适应较多缺失值不允许有模型系数无模型系数输出无模型系数输出有模型系数没有各因子重要值产生各个因子的重要值产生各个因子的重要值没有各因子重要值不能识别样本点异常能识别样本点的异常能识别样本点的异常不能识别样本点异常拟合精度高拟合经度较高拟合经度较高拟合精度高第84页/共112页5.多元分析简介5.1 主成分分析5.2 聚类分析第85页/共112页1.基本思想:用较少的变量表示原来的样本;2.
28、目的:是样本数据信息损失最小的原则下,对高维变量进行降维。3.参数估计:一般是求相关矩阵的特征值和相应的特征向量(主成分分析法),取前几个计算主成分。4.应用:应用较少变量来解释各个样本的特征(数据降维、综合平价)。5.1 主成分分析第86页/共112页主成份分析例子市区农业总产值工业总产值建筑业总产值固定资产投资交通运输邮电业产值批零贸易餐饮业产值金融保险业总产值Y(i,1)Y(i,2)南 昌 市 59.40 306.08 97.98 42.74 82.43 46.71 338.32 6.77-1.03 景德镇市 15.90 64.95 22.22 8.45 16.33 13.98 88.0
29、3-1.09-1.21 萍 乡 市 19.62 92.38 9.00 10.26 10.48 4.14 94.20-1.48-0.90 九 江 市 55.42 124.52 52.20 27.14 34.27 11.89 143.45 1.19 0.07 新 余 市 18.10 61.90 11.84 8.54 8.03 5.71 57.40-1.87-0.91 鹰 潭 市 15.55 41.66 3.04 11.71 4.91 3.01 41.34-2.27-0.76 赣 州 市 112.60 94.65 35.02 32.53 24.83 10.69 145.08 1.00 2.05 吉
30、安 市 74.28 49.40 29.46 13.14 15.82 10.79 102.92-0.64 0.68 宜 春 市 88.56 95.34 16.16 18.96 19.96 11.54 102.73-0.20 1.10 抚 州 市 63.01 61.93 24.04 8.95 5.96 4.09 88.88-1.36 0.41 上 饶 市 70.82 96.75 21.95 15.98 29.28 7.43 137.93-0.06 0.52 第87页/共112页 一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年
31、的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。主成份分析起源第88页/共112页 在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:第89页/共112页F1F1F2F2F3F3i iiit tF1F11 1F2F20 01 1F3F30 00 01 1i
32、 i0.9950.995-0.041-0.0410.0570.057l li i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l lt t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1第90页/共112页 主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在研究中,为了全面系统的分析和研究问题,必须考虑许多指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。第91页/共112页 在力求数据信息丢失最少的原则
33、下,对高维变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。第92页/共112页 (1)基于相关系数矩阵主成分分析。(2)主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。(3)如何解释主成分所包含的专业意义。第93页/共112页 主成分分析数学模型 多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。第94页/共112页主成分分析的几何解释平移、旋转坐标轴第95页/共1
34、12页x1x1x2x2PCA1PCA1PCA2PCA2-1.6676-1.6676-1.673-1.673-2.4774-2.4774-0.004-0.004-1.4149-1.4149-1.864-1.864-2.4317-2.4317-0.3331-0.3331-0.9601-0.9601-0.2084-0.2084-0.8666-0.86660.55750.5575-0.3032-0.30320.17370.1737-0.0961-0.09610.35370.3537-0.0505-0.0505-0.081-0.081-0.0976-0.0976-0.0226-0.02260 00.11
35、0.110.08160.08160.08160.08160.40430.4043-0.0174-0.01740.28690.2869-0.3127-0.31270.80850.80850.93780.93781.29511.29510.09590.09591.01071.01070.81040.81041.35061.3506-0.1485-0.14851.06121.06120.42840.42841.10471.1047-0.4693-0.46931.11171.11171.38351.38351.85051.85050.20160.2016均值均值0 00 00 00 0方差方差1 11
36、 11.91421.91420.08580.0858第96页/共112页第97页/共112页 主成分分析综合能力主成分分析综合能力 1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率,反映了原来P个指标多大的信息,有多大的综合能力。2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。第98页/共112页 我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率80
37、%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。第99页/共112页1005.2 聚类分析聚类分析系统聚类分析:直观,易懂。快速聚类:快速,动态。有序聚类:保序(时间顺序或大小顺序)。第100页/共112页101 聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度。变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。第101页/共112页102样品间亲疏程度的测度 聚类距离和方法:聚类距离:样本点之间的距
38、离;聚类方法:聚类过程中类间的距离的构造,因此聚类方法实质上是类间聚类的定义。第102页/共112页向量x=(x1,xp)与y=(y1,yp)之间的距离或相似系数:欧氏距离欧氏距离:Euclidean平方欧氏距离平方欧氏距离:Squared Euclidean夹角余弦夹角余弦(相似系数相似系数1):cosinePearson correlation(相似系数相似系数2):Chebychev:Maxi|xi-yi|Block(绝对距离绝对距离):S Si|xi-yi|Minkowski:当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行标准化要先进行标准化.如如R为极差为极差,s 为标准
39、差为标准差,则标准化的数据为每个观测值减去均值后再除则标准化的数据为每个观测值减去均值后再除以以R或或s.当观测值大于当观测值大于0时时,有人采用有人采用Lance和和Williams的距的距离离第103页/共112页类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xi Gp和xj Gq之间的距离)最短距离法最短距离法:最长距离法最长距离法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:(中间距离中间距离,可变平均法可变平均法,可变法等可参考各书可变法等可参考各书).在用欧氏距离时在用欧氏距离时,有统一的递推公式有统一的递推公式第104页/共112页105系统聚类基本
40、步骤1.构造n个类,每个类包含且只包含一个样品。2.计算n个样品两两间的距离,构成距离矩阵,记作D0。3.合并距离最近的两类为一新类。4.计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。5.画聚类图。6.决定类的个数,及各类包含的样品数,并对类作出解释。第105页/共112页106确定确定类的个数的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。1、给定阈值通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当
41、聚类时,类间的距离已经超过了0.35,则聚类结束。第106页/共112页107 2、统计量 其中T是数据的总离差平方和,是组内离差平方和。比较大,说明分G个类时类内的离差平方和比较小,也就是说分G类是合适的。但是,分类越多,每个类的类内的离差平方和就越小,也就越大;所以我们只能取合适的G,使得 足够大,而G本生很小,随着G的增加,的增幅不大。比如,假定分4类时,=0.8;下一次合并分三类时,下降了许多,=0.32,则分4类是合适的。第107页/共112页108 3、伪F统计量的定义为 伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。第108页/共112页K-均值法(快速聚类法)109 Macqueen于1967年提出,思想是把每个样品聚集到最近形心(均值)类中去。这个过程由下列三步组成:1.把样品粗略分成K个初始类;2.进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值);3.重复第2步,直到各类无元素进出。第109页/共112页110选择凝聚点分 类修改分类分类是否合理分类结束YesNo第110页/共112页谢谢!第111页/共112页感谢您的观看!第112页/共112页
限制150内