第三讲-DPS应用(3、多元统计分析)ppt课件.ppt
-
资源ID:70663281
资源大小:1.40MB
全文页数:41页
- 资源格式: PPT
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
第三讲-DPS应用(3、多元统计分析)ppt课件.ppt
第三章第三章 多多 元元 统统 计计 分分 析析n多元统计分析是运用数理统计方法来研究解决多指标问题多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。在采用多元统计分析进行数据处理、建立的理论和方法。在采用多元统计分析进行数据处理、建立宏观或微观系统模型时,主要研究以下几个方面的问题:宏观或微观系统模型时,主要研究以下几个方面的问题:简化系统结构,探讨系统内核简化系统结构,探讨系统内核。可采用主成分分析、因子分析、。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。影响。构造预测模型,进行预报控制构造预测模型,进行预报控制。探索多变量系统运动的客观规律。探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预报控制的模型有两大类。一类是预测预报模型预测预报模型,通常采用多元,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是建模技术。另一类是描述性模型描述性模型,通常采用聚类分析的建模技术。,通常采用聚类分析的建模技术。进行数值分类,构造分类模式进行数值分类,构造分类模式。在多变量系统的分析中,往往需。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类,以便找出它们之间的要将系统性质相似的事物或现象归为一类,以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。类模式一般采用聚类分析和判别分析技术。n如何选择适当的方法来解决实际问题?需要对问题进行综合考如何选择适当的方法来解决实际问题?需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。虑。对一个问题可以综合运用多种统计方法进行分析。n例如一个预报模型的建立,可先根据有关生物学、生态学原理,例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步如相关分析、逐步回归分析、偏最小二乘回归分析、主成分分析等回归分析、偏最小二乘回归分析、主成分分析等)研究各个变量研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。模型,最后对模型进行诊断和优化处理,并应用于生产实际。一、回归分析(一)线性回归n为研究医院所需要的人力,为研究医院所需要的人力,某部门对所辖的某部门对所辖的17 家医院家医院调查了一组数据,共调查了一组数据,共6个变个变量:量:x1 为日平均病人数,为日平均病人数,x2 为月平均为月平均X 光透视人数,光透视人数,x3 为月平均所占用的床位为月平均所占用的床位天数,天数,x4 为当地人口数为当地人口数/1000,x5 为平均每个病人为平均每个病人住院天数,住院天数,y 为月平均使用为月平均使用的人的人小时数。小时数。n在在DPS 中,将中,将17 家医院数家医院数据编辑、定义成数据块据编辑、定义成数据块(图图)n在菜单下选择在菜单下选择“多元分析多元分析回归分析回归分析线性回归线性回归”功能功能项后,系统会给出下图的操项后,系统会给出下图的操作界面作界面(一)线性回归1.残差图(缺省状态是以因变量的拟合值作横坐标、残差作为纵坐标,显示当前回归方程残差图(缺省状态是以因变量的拟合值作横坐标、残差作为纵坐标,显示当前回归方程拟合残差)。可提供以下基本信息:拟合残差)。可提供以下基本信息:如果各个点都在如果各个点都在2 到到2 的范围之内,且没有任何趋势,这说明所选用的模型是好的范围之内,且没有任何趋势,这说明所选用的模型是好的。如果残差图不正常,有异常点的。如果残差图不正常,有异常点(散点散点)落在落在22 的范围之外,或的范围之外,或Cook 距离大距离大于于1,或散点分布有某种趋势,这说明模型不是很好,应当进行适当的修正。,或散点分布有某种趋势,这说明模型不是很好,应当进行适当的修正。如果残差呈现某种趋势,而不是散点分布,这时须考虑线性回归模型是否合适,或考如果残差呈现某种趋势,而不是散点分布,这时须考虑线性回归模型是否合适,或考虑建立其他回归函数模型。虑建立其他回归函数模型。当误差方差随因变量估计值当误差方差随因变量估计值(或自变量或自变量)的增大而增大,这时方差显示为非齐性,这时的增大而增大,这时方差显示为非齐性,这时须考虑对数据进行转换。须考虑对数据进行转换。如果有离群值如果有离群值(异常点异常点)应酌情处理应酌情处理(删除、压缩等删除、压缩等)。2.各个自变量参数估计主要结果:包括回归系数、标准回归各个自变量参数估计主要结果:包括回归系数、标准回归系数、回归系数显著水平及各个自变量的方差膨胀系数,系数、回归系数显著水平及各个自变量的方差膨胀系数,这一块主要为诊断各个自变量是否存在多重共线性现象而这一块主要为诊断各个自变量是否存在多重共线性现象而设计的。设计的。3.数据转换:提供了取对数、平方根及倒数等数据转换:提供了取对数、平方根及倒数等3 种数据转换方式,当残差图分析表明方差显种数据转换方式,当残差图分析表明方差显示为非齐性时可考虑对数据进行转换,在点示为非齐性时可考虑对数据进行转换,在点击击“重新建立方程重新建立方程”按钮后,即可得到新的按钮后,即可得到新的回归方程,并可继续诊断残差性能。回归方程,并可继续诊断残差性能。4.预测区域:可输入各个预报因预测区域:可输入各个预报因子的取值,并指定计算置信区子的取值,并指定计算置信区间的置信水平,点击间的置信水平,点击“预测预测”按钮后即可得到预测值及其在按钮后即可得到预测值及其在当前置信水平下的置信区间值。当前置信水平下的置信区间值。5.当前回归方程总体检验指标模块:给出了当当前回归方程总体检验指标模块:给出了当前模型的决定系数、前模型的决定系数、F 检验值及其显著水平。检验值及其显著水平。一个较好的回归模型不但要求显著水平的值一个较好的回归模型不但要求显著水平的值小,而且决定系数要大。小,而且决定系数要大。当诊断、预测结束后,点击右下角的当诊断、预测结束后,点击右下角的“返回编返回编辑辑”按钮,系统会给出分析结果按钮,系统会给出分析结果(二)逐步回归分析n从多元线性回归分析中我们知道,如果采用的自变量越多,则回归平从多元线性回归分析中我们知道,如果采用的自变量越多,则回归平方和越大,残差平方和越小。然而,采用较多的变量来拟合回归方程,方和越大,残差平方和越小。然而,采用较多的变量来拟合回归方程,会使得方程的稳定性差,每个自变量的区间误差积累将影响总体误差,会使得方程的稳定性差,每个自变量的区间误差积累将影响总体误差,用这样建立起来的回归方程作预测的可靠性差、精度低;另一方面,用这样建立起来的回归方程作预测的可靠性差、精度低;另一方面,如果采用了对如果采用了对Y 影响甚小的变量而遗漏了重要变量,可导致估计量产影响甚小的变量而遗漏了重要变量,可导致估计量产生偏倚和不一致性。鉴于上述原因,我们希望得到生偏倚和不一致性。鉴于上述原因,我们希望得到“最优最优”的回归方的回归方程,这样的程,这样的“最优最优”回归方程就是包含所有对回归方程就是包含所有对Y 有显著影响的变量而有显著影响的变量而不包含对不包含对Y 影响不显著的变量的回归方程。逐步回归分析法就是一种影响不显著的变量的回归方程。逐步回归分析法就是一种能自动地从大量可供选择的变量中选择那些对建立回归方程比较重要能自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法。的变量的方法。(二)逐步回归分析n数据的输入格式是一行为一个样本,一列为一个变量,因变量放在最数据的输入格式是一行为一个样本,一列为一个变量,因变量放在最右边,输完一个样本后再输下一个样本。将输入待分析的所有数据定右边,输完一个样本后再输下一个样本。将输入待分析的所有数据定义成数据矩阵块。义成数据矩阵块。n在逐步回归分析时,系统首先在在逐步回归分析时,系统首先在0.1 的置信水平下挑选自变量,并的置信水平下挑选自变量,并自动调整自动调整值以保证选入一个自值以保证选入一个自变量因子,在当前所取的变量因子,在当前所取的FxFx 值下,值下,进行逐步回归进行逐步回归(引入或剔除变量引入或剔除变量)。在当前在当前值分析结束时,系统会值分析结束时,系统会出现如图界面,并询问用户是继出现如图界面,并询问用户是继续引入变量、剔除变量还是结束续引入变量、剔除变量还是结束变量的引入、剔除工作。变量的引入、剔除工作。(二)逐步回归分析n输出结果包括输出结果包括 各个变量的平均值、标准差、协方差矩阵和相关系数矩阵;各个变量的平均值、标准差、协方差矩阵和相关系数矩阵;回归方程式;回归方程式;偏相关系数、偏相关系数、t 检验值、复相关系数及其临界值;检验值、复相关系数及其临界值;回归方程剩余标准差;回归方程剩余标准差;拟合值及拟合误差;拟合值及拟合误差;直接通径系数、间接通径系数和决定系数等。直接通径系数、间接通径系数和决定系数等。n主要分析结果解释主要分析结果解释(1)回归模型诊断:第一,方程的方差分析回归模型诊断:第一,方程的方差分析F 值的显著水平值的显著水平p 要小于等于要小于等于0.05,否则,所建立的回归方程不能使用;第二,各个回归系数的偏相关,否则,所建立的回归方程不能使用;第二,各个回归系数的偏相关系数的显著水平最好也小于等于系数的显著水平最好也小于等于0.05;第三,;第三,Durbin-Watson 统计量统计量 d 是否接近于是否接近于2。(2)通径分析:根据通径系数的大小和正负,可以推断各个因子对因变量通径分析:根据通径系数的大小和正负,可以推断各个因子对因变量的直接影响和间接影响。的直接影响和间接影响。(三)二次多项式回归分析n现代的二次回归正交旋转设计试验,即把正交设计和回归分析有机地现代的二次回归正交旋转设计试验,即把正交设计和回归分析有机地结合起来,在正交设计的基础之上,利用回归分析,在给出的因素和结合起来,在正交设计的基础之上,利用回归分析,在给出的因素和指标之间,找出一个明确的函数表达式,建立因果关系的数学模型,指标之间,找出一个明确的函数表达式,建立因果关系的数学模型,以便定量地描述在某个生物学过程中各因素对指标的作用,并用该数以便定量地描述在某个生物学过程中各因素对指标的作用,并用该数学模型预测和控制生产。目前,组建多元二次回归模型几乎都是运用学模型预测和控制生产。目前,组建多元二次回归模型几乎都是运用二次二次(旋转旋转)回归设计来实现,当然也可对某些符合要求的历史资料作同回归设计来实现,当然也可对某些符合要求的历史资料作同样的分析,组建类似于二次样的分析,组建类似于二次(旋转旋转)回归模型的多元二次多项式模型。回归模型的多元二次多项式模型。n对这类回归分析模型,也可对其进行逐步回归分析,只保留显著的项,对这类回归分析模型,也可对其进行逐步回归分析,只保留显著的项,剔除不显著的项。剔除不显著的项。DPS 系统提供的二次多项式回归功能模块的操作和系统提供的二次多项式回归功能模块的操作和使用方法可参考单因变量逐步回归分析部分,不同之处只是在处理数使用方法可参考单因变量逐步回归分析部分,不同之处只是在处理数据矩阵时,除原始数据外还自动生成包括数据的二次多项式据矩阵时,除原始数据外还自动生成包括数据的二次多项式(即把各个即把各个自变量数据的二次多项式也作为一个自变量因子自变量数据的二次多项式也作为一个自变量因子)。因此,系统最多能。因此,系统最多能处理处理10 个自变量的原始数据矩阵个自变量的原始数据矩阵(即即m10)。(四)趋势面分析n在某些研究领域,数学模型多为非线性模型,而且寻求这些非线性模在某些研究领域,数学模型多为非线性模型,而且寻求这些非线性模型的函数表达式一般比较困难,在这种情况下可采用多项式形式去拟型的函数表达式一般比较困难,在这种情况下可采用多项式形式去拟合回归方程。在利用趋势面分析拟合回归模型时,所选择的趋势面模合回归方程。在利用趋势面分析拟合回归模型时,所选择的趋势面模型必须使剩余值比较小,回归平方和比较大,这样才能使拟合度较高,型必须使剩余值比较小,回归平方和比较大,这样才能使拟合度较高,结果才能达到足够的准确性。例如粮食产量与气温和降雨量等自然因结果才能达到足够的准确性。例如粮食产量与气温和降雨量等自然因素的关系是非线性关系,可采用趋势面分析来拟合回归模型从而预测素的关系是非线性关系,可采用趋势面分析来拟合回归模型从而预测粮食产量。粮食产量。n数据的输入格式是数据的输入格式是1 行行1 个样本,每行依次放入自变量个样本,每行依次放入自变量x、y 和因变量和因变量z。将待分析的数据定义成数据块后,在菜单方式下选择将待分析的数据定义成数据块后,在菜单方式下选择“趋势面分趋势面分析析”。(四)趋势面分析n例如某地铜元素在地表例如某地铜元素在地表一特定的地层中含量的一特定的地层中含量的变化情况,现将各个采变化情况,现将各个采样点的原始数据编辑成样点的原始数据编辑成右图的格式。图中第一右图的格式。图中第一列是经度、第二列是纬列是经度、第二列是纬度,第三列是铜元素含度,第三列是铜元素含量。量。(四)趋势面分析n执行执行“趋势面趋势面分析分析”后,系后,系统会出现如下统会出现如下对话框。在对对话框。在对话框中,系统话框中,系统给出了当前运给出了当前运行参数的缺省行参数的缺省值。当然可根值。当然可根据自己的要求据自己的要求修改这些参数。修改这些参数。在对话框中,在对话框中,可改变趋势面可改变趋势面次数等。次数等。(四)趋势面分析n参数修改后,用鼠标点击参数修改后,用鼠标点击“保存图形保存图形”按钮,这时系统会将等高线图按钮,这时系统会将等高线图保存下来。退出对话框后,系统给出分析结果如下:保存下来。退出对话框后,系统给出分析结果如下:趋势面方程:趋势面方程:Z=-39602.61631+993.64405*X+1703.76971*Y-22.62857*X2-9.16000*X*Y-30.91428*Y2+0.1916667*X3+0.0571429*X2*Y+0.0571429*X*Y2+0.1916667*Y3 残差标准差残差标准差=1.027016021942,F=5.9454,P=0.0015,拟合度,拟合度=78.10%n从计算结果可以看出,趋势方程的方差分析,其显著水平从计算结果可以看出,趋势方程的方差分析,其显著水平p 等于等于0.0015,达,达到极显著水平,拟合度到极显著水平,拟合度78.10%。(五)聚类分析n聚类分析聚类分析(cluster analysis)是数理统计中研究是数理统计中研究“物以类聚物以类聚”的一种方法。的一种方法。n在数值分类方面,可归纳为两大类问题:一类是在数值分类方面,可归纳为两大类问题:一类是已知研究对象的分类情况,将某些未知个体正确已知研究对象的分类情况,将某些未知个体正确地归属到其中某一类,这是地归属到其中某一类,这是判别分析判别分析问题;另一问题;另一类问题是在事前没有分类的情况下进行数据结构类问题是在事前没有分类的情况下进行数据结构的分类,这就是的分类,这就是聚类分析聚类分析所要解决的问题。所要解决的问题。(五)聚类分析n聚类分析的功能是将一批样品或变量按照它们在性质上的亲疏程度进聚类分析的功能是将一批样品或变量按照它们在性质上的亲疏程度进行分类。描述这种亲疏程度通常有两个途径:一是把每个样品看成行分类。描述这种亲疏程度通常有两个途径:一是把每个样品看成m 维维(变量的个数为变量的个数为m个个)空间的一个点,进而在空间的一个点,进而在m 维坐标中,定义点与维坐标中,定义点与点之间的某种距离。另一途径是用某种相似系数来描述样品之间的亲点之间的某种距离。另一途径是用某种相似系数来描述样品之间的亲疏程度。当确定了样品或变量间的距离或相似系数后,就可以对样品疏程度。当确定了样品或变量间的距离或相似系数后,就可以对样品或变量进行分类。分类的方法很多。一类方法是在样品距离的基础上或变量进行分类。分类的方法很多。一类方法是在样品距离的基础上定义类与类之间的距离,首先将定义类与类之间的距离,首先将n 个样品自成一类,然后每次将具有个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,将此过程最小距离的两类合并,合并后重新计算类与类之间的距离,将此过程一直继续到所有样品归为一类为止。最后把这个过程做成一张聚类谱一直继续到所有样品归为一类为止。最后把这个过程做成一张聚类谱系图。这种聚类方法称为系统聚类法。另一类方法是将系图。这种聚类方法称为系统聚类法。另一类方法是将n 个样品初步个样品初步分类,然后根据分类函数尽可能小的原则,对已分类别进行调整,直分类,然后根据分类函数尽可能小的原则,对已分类别进行调整,直到分类合理为止。这种聚类方法称为调试法,如动态聚类就属于该类到分类合理为止。这种聚类方法称为调试法,如动态聚类就属于该类型。此外,还有在不打乱样本秩序的条件下对样本进行聚类分析,如型。此外,还有在不打乱样本秩序的条件下对样本进行聚类分析,如有序样本的最优分割法。有序样本的最优分割法。(五)聚类分析1.系统聚类分析系统聚类分析系统聚类就是利用变量或样本间亲疏程度的数量指标,即相似系系统聚类就是利用变量或样本间亲疏程度的数量指标,即相似系数或距离远近来进行聚类。目前已有大量的相似系数和距离,但数或距离远近来进行聚类。目前已有大量的相似系数和距离,但在数值分类中比较常用的却是少数。在数值分类中比较常用的却是少数。n欧氏距离欧氏距离:它是聚类分析中最广泛使用的距离。它是聚类分析中最广泛使用的距离。n绝对值距离绝对值距离(又称又称Manhattan 度量或网格变量度量或网格变量)n切比雪夫距离切比雪夫距离n兰氏距离兰氏距离:这是一个自身标准化的量。由于它对大的奇异值不敏:这是一个自身标准化的量。由于它对大的奇异值不敏感,故它特别适合高度偏倚的数据。感,故它特别适合高度偏倚的数据。n马氏距离马氏距离n卡方距离卡方距离:徐振帮等:徐振帮等(1986)认为,卡方距离比欧氏距离等常用的认为,卡方距离比欧氏距离等常用的距离系数有更强的分辨能力。距离系数有更强的分辨能力。(五)聚类分析1.系统聚类分析系统聚类分析编辑数据、定义数据块:一行一个样本,一列一个变量;选定待编辑数据、定义数据块:一行一个样本,一列一个变量;选定待分析数据,定义成数据矩阵块;分析数据,定义成数据矩阵块;进入主菜单,选项执行进入主菜单,选项执行“系统聚类分析系统聚类分析”过程:在分析过程中,过程:在分析过程中,系统会先后要求选择数据转换方法、相似性尺度以及聚类方法。系统会先后要求选择数据转换方法、相似性尺度以及聚类方法。不过,对每一种选择都有一个默认值。可采用系统的默认值对数不过,对每一种选择都有一个默认值。可采用系统的默认值对数据实施规格化转换、采用卡方距离相似尺度和以离差平方和聚类据实施规格化转换、采用卡方距离相似尺度和以离差平方和聚类方法进行聚类分析。方法进行聚类分析。例:例:为研究某地为研究某地19621988 年三化螟种群消长演替规律,根据历年三化螟种群消长演替规律,根据历年积累的资料进行系统聚类分析。三化螟种群消长特征指标有第年积累的资料进行系统聚类分析。三化螟种群消长特征指标有第二、三代幼虫发生量,第二、三代卵盛孵高峰期二、三代幼虫发生量,第二、三代卵盛孵高峰期(分别以分别以5 月月31 日日和和7 月月20 日为零日为零),二代至三代及三代至四代的增殖系数。原始数,二代至三代及三代至四代的增殖系数。原始数据编辑整理及其数据块的定义见图据编辑整理及其数据块的定义见图(五)聚类分析由于该数据的量纲不同,各列数据由于该数据的量纲不同,各列数据(即各即各个变量个变量)的数量级别相差也较大,故在进的数量级别相差也较大,故在进行聚类分析之前先采用规格化变换方法对行聚类分析之前先采用规格化变换方法对数据进行处理。对原始数据进行规格化变数据进行处理。对原始数据进行规格化变换后,再确定距离系数计算方法,在此采换后,再确定距离系数计算方法,在此采用卡方距离进行聚类分析。用卡方距离进行聚类分析。最后还要进行聚类分析方法的选择,本例最后还要进行聚类分析方法的选择,本例中分别采用离差平方和法、类平均法、重中分别采用离差平方和法、类平均法、重心法和最短距离法等四种方法进行分析。心法和最短距离法等四种方法进行分析。聚类分析的输出结果包括数值和图形两部聚类分析的输出结果包括数值和图形两部分,数值结果为各个样本的联结序号、联分,数值结果为各个样本的联结序号、联结水平和聚类谱系图索引;图形结果输出结水平和聚类谱系图索引;图形结果输出在屏幕上(图)。在屏幕上(图)。(五)聚类分析从聚类分析结果看,以离差从聚类分析结果看,以离差平方和法的聚类效果最好。平方和法的聚类效果最好。它将它将27 个样本分成个样本分成4类:类:第第1 类包括类包括8 个样本个样本(1,4,5,6,2,3,17,21)第第2 类包括类包括11 个样本个样本(7,20,14,10,11,12,22,25,26,27,23)第第3 类包括类包括6 个样本个样本(8,9,18,15,16,19)第第4类只有类只有13 和和24,两个样,两个样本可以看成是一个特殊类别。本可以看成是一个特殊类别。最短距离法的聚类效果最差,最短距离法的聚类效果最差,而重心法由于所得到的谱系而重心法由于所得到的谱系图出现逆转现象,且无法分图出现逆转现象,且无法分类,从树状谱系图观点来看,类,从树状谱系图观点来看,该方法是不恰当的,这是重该方法是不恰当的,这是重心法的一个缺点。心法的一个缺点。第第1 1类是重发生年类是重发生年类型;第类型;第2 2、3 3类是类是偏轻发生年类型,偏轻发生年类型,偏轻类型中的第偏轻类型中的第2 2类是三代多发型,类是三代多发型,第第3 3类是四代多发类是四代多发型;而第型;而第4 4类,即类,即19741974年和年和19851985年年(样本样本1313,24)24)除第除第三代发生量大之外,三代发生量大之外,第二代的发生量也第二代的发生量也很大,属于三化螟很大,属于三化螟猖獗发生年。猖獗发生年。(五)聚类分析2.0-1型变量聚类分析型变量聚类分析当原始数据是二元性质的属性变量时,由于数据结构的特殊性,当原始数据是二元性质的属性变量时,由于数据结构的特殊性,它不必进行数据转换处理。它可直接根据原始数据计算相似系数它不必进行数据转换处理。它可直接根据原始数据计算相似系数和距离系数。和距离系数。聚类分析数据编辑格式:一行一个样本,一列一个变量聚类分析数据编辑格式:一行一个样本,一列一个变量(第一列可第一列可以是样本名称以是样本名称)。编辑完后将待分析数据及其样本名称同时定义成。编辑完后将待分析数据及其样本名称同时定义成数据块,然后执行数据块,然后执行“多元分析多元分析聚类分析聚类分析0-1数据聚类分析数据聚类分析”功功能,系统出现如下选择框能,系统出现如下选择框(五)聚类分析2.0-1型变量聚类分析型变量聚类分析在用户选择框内的右下角,多了一个在用户选择框内的右下角,多了一个0-1 化阈值输入框,这是提供用户将数量化指化阈值输入框,这是提供用户将数量化指标转换成标转换成0-1 指标进行聚类分析的技术。如果是数量化指标,在经过数据转换后,指标进行聚类分析的技术。如果是数量化指标,在经过数据转换后,再将转换后数据进行规格化变换处理,即从转换后数据矩阵的每一个变量中找出其再将转换后数据进行规格化变换处理,即从转换后数据矩阵的每一个变量中找出其最大和最小值,两者之差称为极差,然后从每一个原始数据中减去该变量中的最小最大和最小值,两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差(称为规格化转换)。经这样的变换后,每列的最大数据变为值,再除以极差(称为规格化转换)。经这样的变换后,每列的最大数据变为1,最,最小数据变为小数据变为0,其余数据取值在,其余数据取值在0 1 之间。这时和给定的阈值相比,如大于等于给之间。这时和给定的阈值相比,如大于等于给定的阈值则赋值为定的阈值则赋值为1,否则赋值为,否则赋值为0。p然后选定聚类距离和聚类然后选定聚类距离和聚类方法。如果定义的数据块方法。如果定义的数据块第一列是样本名称,则在第一列是样本名称,则在“第一列是否是样本名称第一列是否是样本名称”选择框中选择选择框中选择“是是”。分析结束时,系统会显示分析结束时,系统会显示系统聚类树状图,用鼠标系统聚类树状图,用鼠标双击树状图后,会显示提双击树状图后,会显示提示保存聚类图的界面示保存聚类图的界面(五)聚类分析3.动态聚类分析动态聚类分析动态聚类法又称逐步聚类法,其基本思想是:动态聚类法又称逐步聚类法,其基本思想是:首先,按照一定的方法选取一批凝聚点,然后首先,按照一定的方法选取一批凝聚点,然后让样品向最近的凝聚点凝聚。这样由点凝聚成让样品向最近的凝聚点凝聚。这样由点凝聚成类,得到初始分类。初始分类不一定合理,然类,得到初始分类。初始分类不一定合理,然后按最近距离原则修改不合理的分类,直到分后按最近距离原则修改不合理的分类,直到分类比较合理为止,从而形成一个最终的分类结类比较合理为止,从而形成一个最终的分类结果。果。(五)聚类分析3.动态聚类分析动态聚类分析主要计算步骤:主要计算步骤:n第第1 步,先将原始数据进行标准化处理。步,先将原始数据进行标准化处理。n第第2 步,选择预定数目的凝聚点对样品进行初始分类(人为分类)。步,选择预定数目的凝聚点对样品进行初始分类(人为分类)。设设xij 为已标准化处理后的第为已标准化处理后的第 i 个样品的第个样品的第 j 个指标,若初始分类数为个指标,若初始分类数为K,经计算,分别将每个样品归入第,经计算,分别将每个样品归入第k 类类(1kK),由此得到初始分类。,由此得到初始分类。n第第3 步,计算每一类的重心,以该重心作为新的凝聚点,再计算每一步,计算每一类的重心,以该重心作为新的凝聚点,再计算每一个样品至新凝聚点的距离,并将它划入最近凝聚点所属的类别。当所个样品至新凝聚点的距离,并将它划入最近凝聚点所属的类别。当所计算的重心与原来的凝聚点完全相同,则过程终止,否则将重复按第计算的重心与原来的凝聚点完全相同,则过程终止,否则将重复按第3 步的过程计算。步的过程计算。第第3 步的重复过程是迭代过程,每一次迭代都使对应的分类函数缩小。步的重复过程是迭代过程,每一次迭代都使对应的分类函数缩小。当上下两次的重心完全相同时,计算过程收敛,此时分类函数趋于定当上下两次的重心完全相同时,计算过程收敛,此时分类函数趋于定值。按批修改法的最终分类结果受到初始分类的影响,这是动态聚类值。按批修改法的最终分类结果受到初始分类的影响,这是动态聚类法的一个缺点。法的一个缺点。(六)判别分析n在统计分析中,经常遇到分类判别的问题,也就是根据观测数据对所在统计分析中,经常遇到分类判别的问题,也就是根据观测数据对所研究的对象进行分类判别。判别分析方法就是专门根据若干因素对预研究的对象进行分类判别。判别分析方法就是专门根据若干因素对预报对象进行分类的一种方法,通过分析可以建立用于定性预报的数学报对象进行分类的一种方法,通过分析可以建立用于定性预报的数学模型。例如,我们积累了某种病虫害各种发生状态的若干历史资料模型。例如,我们积累了某种病虫害各种发生状态的若干历史资料(样样本本),希望从中总结出分类的规律性,希望从中总结出分类的规律性(即判别公式即判别公式),以便在以后的工作,以便在以后的工作中遇到新的发生状态中遇到新的发生状态(样本样本)时,只要根据判别公式判断它所属的类就时,只要根据判别公式判断它所属的类就行了。在判别分析中,可从不同角度提出问题,故有不同的判别准则,行了。在判别分析中,可从不同角度提出问题,故有不同的判别准则,常见如常见如Fisher 判别和判别和Bayes 判别。判别。n用判别分析方法处理问题时,通常要给出一个衡量新样本与各已知组用判别分析方法处理问题时,通常要给出一个衡量新样本与各已知组别接近程度的描述指标,即判别函数,同时指定一种判别规则,借以别接近程度的描述指标,即判别函数,同时指定一种判别规则,借以判定新样本的归属。判别规则可以是统计性的,决定新样本所属类别判定新样本的归属。判别规则可以是统计性的,决定新样本所属类别时用到数理统计的显著性检验;也可以是经验性的,决定样本归属时,时用到数理统计的显著性检验;也可以是经验性的,决定样本归属时,只考虑判别函数值的大小。只考虑判别函数值的大小。(六)判别分析1.两组判别两组判别两组间的判别分析是基于统计上的费歇尔两组间的判别分析是基于统计上的费歇尔(Fisher)准则。准则。判别的结果应使两组间区别最大,使每组内的离散性判别的结果应使两组间区别最大,使每组内的离散性最小。最小。数据的输入格式是每一行为一个样本,每一列为一个数据的输入格式是每一行为一个样本,每一列为一个变量,最右边的一列为已知样本的分类类别变量,最右边的一列为已知样本的分类类别(用用1 或或表示表示),对于待判别样本分类类别用,对于待判别样本分类类别用0 代替。按系统规代替。按系统规定格式将待分析的所有数据定格式将待分析的所有数据(连同类别一起连同类别一起)定义成数据定义成数据块。块。(六)判别分析1.两组判别两组判别n例如例如,梁振中,梁振中(1985)根据小麦根据小麦赤霉病不同发病田块所占比例赤霉病不同发病田块所占比例及决定防治对策的原理,将赤及决定防治对策的原理,将赤霉病划分为偏重发生和偏轻发霉病划分为偏重发生和偏轻发生两类,并从气象因素中筛选生两类,并从气象因素中筛选出稳定通过出稳定通过10的初日的初日(x1)和和元月上中旬日照时数元月上中旬日照时数(x2)两个两个因子。为建立判别分析模型,因子。为建立判别分析模型,将原始数据编辑整理成右图形将原始数据编辑整理成右图形式并定义数据块式并定义数据块n然后进入主菜单,选择然后进入主菜单,选择“多元多元分析分析判别分析判别分析两组判别分两组判别分析析”功能项,回车执行后输出功能项,回车执行后输出结果。结果。(六)判别分析2.Fisher 线性判别线性判别Fisher 判别分析的思想是:用已知分类样本的观察指标判别分析的思想是:用已知分类样本的观察指标构造一些彼此正交构造一些彼此正交(不相关不相关)的综合指标即判别函数,这些的综合指标即判别函数,这些综合指标可以将属于不同类的个体尽可能的分开,然后计综合指标可以将属于不同类的个体尽可能的分开,然后计算出每个类的综合指标的均值,即每个类的中心点。现有算出每个类的综合指标的均值,即每个类的中心点。现有一个新样品,当计算出它的各个综合指标的值之后,就分一个新样品,当计算出它的各个综合指标的值之后,就分别计算出新样品到每个类中心点的距离,把它归到离中心别计算出新样品到每个类中心点的距离,把它归到离中心点的距离最短的那一类。点的距离最短的那一类。(六)判别分析2.Fisher 线性判别线性判别例例:这里有:这里有3个类别:个类别:胃癌患者、萎缩性胃炎胃癌患者、萎缩性胃炎患者和非胃病者。每类患者和非胃病者。每类抽取抽取5例,每例化验例,每例化验4个个生化指标,所得结果如生化指标,所得结果如图。为考察生化指标是图。为考察生化指标是否有鉴别胃癌的能力,否有鉴别胃癌的能力,试作判别分析。试作判别分析。分析时,执行多元分析分析时,执行多元分析里面的里面的“Fisher 线性判线性判别别”,这时,系统显示,这时,系统显示3 类样品在两个综合指类样品在两个综合指标标u1(x),u2(x)平面上平面上的分布(下图)。的分布(下图)。(六)判别分析从图中可以看出,从图中可以看出,u1(x)对第一类(胃癌)对第一类(胃癌)的判别能力较强,对第二类(萎缩性胃的判别能力较强,对第二类(萎缩性胃炎)与第三类(非胃病)判别能力差;炎)与第三类(非胃病)判别能力差;u2(x)的判别能力较弱。的判别能力较弱。最后系统给出分析结果。最后系统给出分析结果。(六)判别分析3.逐步判别分析逐步判别分析在判别分析中,对判别结果可能产生影响的变量往往很多,但是影响有大在判别分析中,对判别结果可能产生影响的变量往往很多,但是影响有大有小。如果不加选择地一概采用来建立判别函数,不仅计算工作量大,而有小。如果不加选择地一概采用来建立判别函数,不仅计算工作量大,而且往往由于变量间的自相关性,可使求解逆矩阵的计算精度下降,最终使且往往由于变量间的自相关性,可使求解逆矩阵的计算精度下降,最终使得判别函数缺乏稳定性。因此,适当筛选变量是判别分析中一件很重要的得判别函数缺乏稳定性。因此,适当筛选变量是判别分析中一件很重要的事情事情。凡具有筛选能力的判别分析方法统称为逐步判别分析。与通常的判别分析凡具有筛选能力的判别分析方法统称为逐步判别分析。与通常的判别分析一样,逐步判别也有许多不同原则,从而产生各种不同的方法一样,逐步判别也有许多不同原则,从而产生各种不同的方法。这里这里所讨所讨论的逐步判别分析法是在多组判别基础之上发展起来的一种方法,判别准论的逐步判别分析法是在多组判别基础之上发展起来的一种方法,判别准则为贝叶斯则为贝叶斯(Bayes)判别函数。其基本思路与逐步回归分析类似,采用判别函数。其基本思路与逐步回归分析类似,采用“有有进有出进有出”的算法,即变量按其重要与否逐步引入,原引入的变量也可能因的算法,即变量按其重要与否逐步引入,原引入的变量也可能因后来引入的新变量而使之丧失重要性最终被剔除。每步引入或剔除变量都后来引入的新变量而使之丧失重要性最终被剔除。每步引入或剔除变量都要作相应的统计检验,使最后的贝叶斯判别函数仅保留要作相应的统计检验,使最后的贝叶斯判别函数仅保留“重要重要”的变量的变量。(六)判别分析3.逐步判别分析逐步判别分析在在DPS 平台上,数据按一行一个样本、一列一个变量平台上,数据按一行一个样本、一列一个变量的格式依次输入,最右边一列为已知样本的类别号的格式依次输入,最右边一列为已知样本的类别号(用用1,2,表示表示),将待判别样本的类别用,将待判别样本的类别用0代替。然后代替。然后将所有数据将所有数据(连同类别一起连同类别一起)定义成数据块,在菜单下定义成数据块,在菜单下选项执行。选项执行。(六)判别分析3.逐步判别分析逐步判别分析例例:胡秉民:胡秉民(1987)对浙江北对浙江北部地区嘉兴、桐乡和湖州部地区嘉兴、桐乡和湖州1950 1982 年大麦赤霉病发年大麦赤霉病发生程度与气象因子关系进行生程度与气象因子关系进行研究,总结出上年研究,总结出上年12 月降雨月降雨量量(x1)、上年、上年10月下旬至月下旬至11 月中旬和当年月中旬和当年12 月总雨量月总雨量(x2)、上年、上年10 月下旬至月下旬至11 月月上旬日照时数上旬日照时数(x3)、上年、上年10 月下旬至月下旬至12 月中旬和当年月中旬和当年2 月总雨量月总雨量(x4)以及当年以及当年3 月中月中旬平均高温旬平均高温(x5)等等5 个因子,个