《逐步判别分析(共7页).doc》由会员分享,可在线阅读,更多相关《逐步判别分析(共7页).doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上逐步判别分析一、逐步判别分析的基本思想在判别问题中,当判别变量个数较多时,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当地筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别分析方法就统称为逐步判别法。逐步判别法和通常的判别分析一样,也有许多不同的原则,从而产生各种方法。这里讨论的逐步判别分析方法是在多组判别分析基础上发展起来的一种方法,判别准则为贝叶斯判别函数,其基本思路类似于逐步回归分析,采用“有进有出”的算法,即按照变量是否重要,从而逐步引入变量,每引入一个“最
2、重要”的变量进入判别式,同时要考虑较早引入的变量是否由于其后的新变量的引入使之丧失了重要性变得不再显著了(例如其作用被后引入地某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。也就是说每步引入或剔除变量,都作相应的统计检验,使最后的贝叶斯判别函数仅保留“重要”的变量。二、逐步判别的基础理论对判别变量附加信息的检验根据逐步判别分析的基本思想,进行判别分析需要解决两个关键的问题,一个是引入或剔除判别变量的依据和检验问题;另外则是判别函数的及时导出的问题。其中的理论基础又在于如何对判别变量在区别各个总体
3、中是否提供附加信息的检验。为此这里先给出如何对判别变量在区别各个总体中是否提供附加信息进行检验的基础理论。设有个总体,相应抽出样品个数为每个样品观测个指标得观测数据如下, 第1个总体的样本数据为: 第2个总体的样本数据为:第个总体的样本数据为:和多组判别分析一样,假定各组的样品都是相互独立的正态随机向量,各组的协方差矩阵都一样,即其中,为组第个样品的第个变量,为组的均值向量,为协方差矩阵。再令全部样品的总均值向量为:各个总体的样品的均值向量为:于是,样品的组内离差阵为:样品的总离差阵为:为了对这个总体建立判别函数,需要检验:当被接受时,说明区分这个总体是没有什么意义的,在此基础上建立的判别函数
4、效果不好。当被否定时,说明个总体可以区分,建立的判别函数有意义。但是为了达到区分这个总体的目的,原来选择的个指标是否可以减少而达到同样的判别效果,为此,也就要去掉一些对区分个总体不带附加信息的变量。对于上述问题的检验,可以采用维尔克斯统计量(Wilks)来进行:而的极限分布是服从于大样本的。 为了进一步考虑这一问题,把个变量分解为两个部分,如果通过某种步骤已经选中了个变量,我们要检验增加第个变量后对区分总体是否提供了附加信息,即对第个变量的“判别能力”进行检验。为此,将矩阵、进行分块:于是前个变量的维尔克斯统计量(Wilks)为当增加第个变量后,个变量的维尔克斯统计量(Wilks)为,所以有,
5、即统计量的极限分布是。用此统计量来检验给定前个变量的条件下,增加第个变量的条件均值是否相等,即是否对区分总体提供附加信息。三、引入和剔除变量的依据和检验统计量在上述理论基础上,下面给出,判别分析中引入变量和剔除变量的依据和检验方法。(1)假定我们已经计算了步,并且已经引入了,现对第步添加一个新变量的“判别能力”进行检验,为此将变量分为两组,第一组是前个已经引入的变量,第二组仅有一个变量,将这个变量的组内离差阵和总离差阵仍分别记为与。其中,其中,所以维尔克斯统计量令,有由附加信息检验准则,则引入变量的依据是,引入变量的检验统计量为它服从于分布。在未选入变量中,选择使达到最小值的变量,当时,则认为
6、变量提供了附加信息,即的判别能力显著,由此将作为入选变量。对已入选的个变量中,要考虑较早选入的变量中其重要性有没有较大变化,应及时把不能提供附加信息的变量剔除,剔除的原则同于引进变量。(2)如果第步是剔除变量,第步剔除变量的能力等价于第步引入的判别能力,令,则相应的剔除变量的依据是,剔除变量的检验统计量为它服从于分布。 如果对于某个变量,使得在已经入选的变量中的具有最大值,并且满足,则认为变量不能提供附加信息了,即的判别能力不显著,由此应该将从入选变量中剔除。四、求解判别函数中的矩阵变换为求判别函数,逐步判别在计算上采用的是“求解求逆紧凑变换法”将变量逐步引入或剔除,每引入或剔除一个变量称为逐
7、步判别的一步。设初始的组内离差矩阵为(),初始的总的离差矩阵为(),从它们开始,每步施行一次变换,假如已经进行了步,引入了个变量,则第步无论是引入还是剔除变量,都要进行如下的变化:逐步判别过程,就是不断的引入和剔除变量的过程,可以证明,前三步都只引入,而不必考虑剔除,在以后的各步中则首先考虑剔除,如果不能剔除则再考虑引入,当既不能剔除又不能引入时,逐步计算的过程即告终止,将已选中的变量建立判别函数。五、建立判别式,对样品判别分类假设最终引入了个变量,并得到最终变换矩阵,则第组的判别函数为:已入选变量。其中,式中的为第组的先验概率,一般采用样品频率代替,已入选变量。已入选变量为第组第个变量的均值。将每个样品(可以是新样品也可以是原来的样品)分别代入个判别式中,若,则属于第个总体。并且,此时的后验概率的计算和贝叶斯多组判别分析时一样。另外,为了对已经引入的个变量对于区分个组的能力进行综合检验,可采用不Bartlett给出的分布近似统计量其中为Wilks统计量:为逐次引入或剔除的变量序号。专心-专注-专业
限制150内