第五章-判别分析(课堂PPT).ppt
《第五章-判别分析(课堂PPT).ppt》由会员分享,可在线阅读,更多相关《第五章-判别分析(课堂PPT).ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第五章第五章 判判 别别 分分 析析1 1 两总体判别分析2 2 多总体判别分析3 3 逐步判别分析4 4 应用算例简介2v引言引言 地学领域内有很多属于归类判别的问题,如地学领域内有很多属于归类判别的问题,如:储储层是否含油、岩样属于什么沉积相层是否含油、岩样属于什么沉积相、生油岩处于、生油岩处于什么演化阶段什么演化阶段等,从定量角度看,它们都是对个体等,从定量角度看,它们都是对个体进行归类判别的问题。进行归类判别的问题。为叙述方便,将个体称为为叙述方便,将个体称为样品样品,个体所属的类称,个体所属的类称为为总体总体。在此基础上给出判别分析的一般概念。在此基础上给出判别分析的一般概念:判别
2、分析判别分析:根据已知的根据已知的G个总体中取出的个总体中取出的G组样品组样品的观测值,建立总体与样品变量之间定量关系的观测值,建立总体与样品变量之间定量关系(判判别函数别函数),并据此判别未知类属样品类别的一种多,并据此判别未知类属样品类别的一种多元统计分析方法。元统计分析方法。3 设设ag(g=1,2,G)表示表示 G 个总体,每个总体中分个总体,每个总体中分别有别有ng个样品,每个样品有个样品,每个样品有m个变量。个变量。当当G=2时,叫做时,叫做两总体判别两总体判别,又称为线性判别,又称为线性判别;当当G 2时,叫做时,叫做多总体判别多总体判别;筛选变量建立判别;筛选变量建立判别函数的
3、方法叫做函数的方法叫做逐步判别分析逐步判别分析。判别分析的基本步骤:判别分析的基本步骤:(1)搜集来自搜集来自G个总体的个总体的G组已知观测值组已知观测值(m个变量个变量);(2)根据已知数据建立判别函数根据已知数据建立判别函数;(3)利用判别函数判别未知总体的样品类属。利用判别函数判别未知总体的样品类属。4 简单说,两总体判别就是确定样品简单说,两总体判别就是确定样品X是属于总体是属于总体A还是属于还是属于B 的统计分析方法。的统计分析方法。1 两总体判别分析两总体判别分析 判定样品判定样品X是属于是属于A 还是属于还是属于B 的判别函数一般的判别函数一般是是线性判别函数线性判别函数。x1x
4、2AB判别指数判别指数yc 右图是一个简单的判别过右图是一个简单的判别过程。判别样品归属依赖于变程。判别样品归属依赖于变量量x1,变量,变量x2对判别不起作对判别不起作用。用。y=x1即线性判别函数。即线性判别函数。图图5-1 示例示例5图图5-2 两总体判别分析示意图两总体判别分析示意图 A B abdx1x2yc新变量是原变新变量是原变量的线性组合量的线性组合一、线性判别函数的一般形式一、线性判别函数的一般形式 若样品若样品X 有有x1、x2两个变量,总体两个变量,总体A、B的样品分别落在的样品分别落在两个椭圆内,如图所示。两个椭圆内,如图所示。若直接用若直接用 x1、x2的观测值确的观测
5、值确定定X所属的总体,则当观测值所属的总体,则当观测值x1、x2分别落在区间分别落在区间(c,d)和和(a,b)内时内时,不能确定样品属于不能确定样品属于A或属于或属于B。但若把坐标系旋转。但若把坐标系旋转角角,变为新坐标系变为新坐标系 y、z,变量,变量y 则可把则可把A、B分开,变量分开,变量y称为称为判别函数,其形式为:判别函数,其形式为:6 1原始数据原始数据 若总体若总体A、B各有各有na、nb个样品观测值个样品观测值,分别为分别为:x ij(a)(i=1,2,na;j=1,2,m)xkj(b)(k=1,2,nb;j=1,2,m)(5-1)称上式为称上式为线性判别函数线性判别函数,它
6、是空间中的平面。称,它是空间中的平面。称c1,c2,cm为为判别系数。判别系数。一般,设样品有一般,设样品有m个变量,那么判别函数的一般个变量,那么判别函数的一般形式为:形式为:二、判别系数的确定二、判别系数的确定这是建立判别函数所需要的数据。这是建立判别函数所需要的数据。7 把把xij(a)、xkj(b)分别代入分别代入(5-1)得判别函数值:得判别函数值:2.费歇尔费歇尔(Fisher)准则下的判别函数准则下的判别函数记:记:两组判别函数点的中心距两组判别函数点的中心距 组内判别函数组内判别函数点的离散度点的离散度 8 费歇尔准则费歇尔准则:使使Q 达到最大、达到最大、H 达到最小。达到最
7、小。Q达到最大,表明达到最大,表明两组判别函数点的中两组判别函数点的中心距最大;心距最大;H达到最达到最小,判别函数点的分小,判别函数点的分布最集中。满足以上布最集中。满足以上条件的判别函数可最条件的判别函数可最大限度地把大限度地把A和和B区区分开分开(如图所示如图所示)。它的含义是:它的含义是:图图5-3 两总体样品点在平面两总体样品点在平面y上的投影上的投影yx2x19 V是是cj(j=1,2,m)的二次函数的二次函数,且且V0,令:,令:要求要求Q达到最大,达到最大,H 达到最小,则等价于要求达到最小,则等价于要求 达到最大。达到最大。整理后可得:整理后可得:V=Q/H10 (5-2)由
8、上述线性方程组解出由上述线性方程组解出cj,从而确定判别函数,从而确定判别函数:11 若若A、B差异不明显,那么由观测值建立的判别差异不明显,那么由观测值建立的判别函数就无实际意义。为此,需要对函数就无实际意义。为此,需要对A、B的差异性的差异性进行检验。进行检验。检验方法:利用建立的判别函数对检验方法:利用建立的判别函数对N(na+nb)个样个样品的总体重新判定,若判对了品的总体重新判定,若判对了n(n N)个,定义个,定义R=n/N为为判对率判对率。R值越大,值越大,A、B差异就越明显。差异就越明显。三、显著性检验及样品判别三、显著性检验及样品判别在检验显著的条件下,定义:在检验显著的条件
9、下,定义:1.显著性检验显著性检验2.判别指数判别指数12为判别未知样品所属总体的为判别未知样品所属总体的判别指数判别指数。当当y D*时,否定假设,即拟定的时,否定假设,即拟定的m个变量能够区分个变量能够区分已知的已知的G个总体个总体。否则接受假设,即拟定的。否则接受假设,即拟定的m个变个变量不能对样品的归属做出正确的判别,此时应剔量不能对样品的归属做出正确的判别,此时应剔除其中区分能力小的或者引入一些更有效的变量,除其中区分能力小的或者引入一些更有效的变量,重新建立判别函数重新建立判别函数。其中其中223 逐步判别分析逐步判别分析一、逐步判别的提出及其基本思想一、逐步判别的提出及其基本思想
10、1.逐步判别的提出逐步判别的提出 在拟定的判别变量之间在拟定的判别变量之间,既有相对的独立性既有相对的独立性,又存又存在着一定的成因联系。对于区分已知总体来说在着一定的成因联系。对于区分已知总体来说,具具有成因联系的那些变量似乎各自的区分能力都较有成因联系的那些变量似乎各自的区分能力都较强强,但当把它们都选入判别函数后但当把它们都选入判别函数后,又使得先选入的又使得先选入的变量区分能力变弱。另外变量区分能力变弱。另外,建立判别函数时需要求建立判别函数时需要求出出S-1,若存在区分能力不显著的变量若存在区分能力不显著的变量,可能导致可能导致S-1不不存在存在,故求不出判别函数。鉴于上述原因故求不
11、出判别函数。鉴于上述原因,提出类似提出类似逐步回归中逐步回归中“筛选筛选”变量的方法变量的方法,即挑选那些判别即挑选那些判别能力真正强的变量建立判别函数。能力真正强的变量建立判别函数。23 如如3个总体各有个总体各有5个样品,每个样品有个样品,每个样品有2个变量,个变量,它们的观测值如下:它们的观测值如下:对上述三个总体来说,对上述三个总体来说,x1的区分能力远不如的区分能力远不如x2大大,若存在这样的变量,就若存在这样的变量,就求不出判别函数求不出判别函数。总体总体样品样品a1(x1 ,x2)a2(x1 ,x2)a3(x1 ,x2)11.0 2.51.2 4.01.4 5.021.0 2.6
12、1.2 4.21.4 5.231.0 2.41.2 4.11.4 5.141.0 2.31.2 4.31.4 5.351.0 2.71.2 4.21.4 5.2注注意意变变量量特特点点24S-1不存在,故求不出判别函数。不存在,故求不出判别函数。逐个检验拟定变量的区分能力,把区分能力强逐个检验拟定变量的区分能力,把区分能力强的变量的变量“引入引入”判别函数,在引入变量的过程中判别函数,在引入变量的过程中,随时随时“剔出剔出”已引入判别函数中的区分能力变弱已引入判别函数中的区分能力变弱的变量的变量,直到既没有区分能力强的变量引入,又没直到既没有区分能力强的变量引入,又没有区分能力变弱的变量剔除为
13、止。有区分能力变弱的变量剔除为止。2.逐步判别的基本思想逐步判别的基本思想25 假假设设总总体体a gN(g,),g=1,2,G。为为了了检检验验变变量量的的区区分分能能力力,定定义义总总体体内内离离差差矩矩阵阵W、总总体体间离差矩阵间离差矩阵B、总离差矩阵总离差矩阵T。记。记二、逐步判别分析方法原理二、逐步判别分析方法原理 1.原始数据原始数据与一般多总体判别分析相同。与一般多总体判别分析相同。2.Wilks统计量统计量(检验变量区分能力的指标检验变量区分能力的指标)26可以证明可以证明:T=W+B27Wilks 统计量统计量:U=|W|/|T|例例2 有有3个总体,样品有个总体,样品有2个
14、变量,其观测值如下表:个变量,其观测值如下表:特点:特点:第二个第二个变量差变量差异明显异明显,故总,故总体差异体差异大大 U是检验是检验m个变量个变量综合区分能力综合区分能力的指标。的指标。U 越小越小总体内部差异越小,而总体之间差异越大。总体内部差异越小,而总体之间差异越大。总体总体样品样品a1(x1 ,x2)a2(x1 ,x2)a3(x1 ,x2)11.0 2.51.1 4.01.1 5.021.1 2.61.0 4.21.0 5.231.3 2.41.3 4.11.4 5.141.2 2.31.2 4.31.2 5.351.1 2.71.0 4.21.3 5.228例例3 有有3个总体
15、,样品有个总体,样品有2个变量,样品观测值下表:个变量,样品观测值下表:在本例中:在本例中:特点:特点:变量差变量差异不明异不明显,故显,故总体差总体差异不大异不大 总体总体样品样品a1(x1 ,x2)a2(x1 ,x2)a3(x1 ,x2)11.0 2.51.1 2.11.1 2.121.1 2.61.0 2.31.0 2.331.3 2.41.3 2.71.4 2.141.2 2.31.2 2.51.2 2.751.1 2.71.0 2.41.3 2.629 上述结果说明:上述结果说明:U越大变量的区分能力越弱,即越大变量的区分能力越弱,即总体之间的差异越小。总体之间的差异越小。(5-8)
16、这里的这里的 Wilks统计量统计量U是检验是检验m个变量个变量综合判别综合判别能力能力的统计量。如果按列号的统计量。如果按列号r1,r2,rm的顺序的顺序对对W和和T的行列式进行消去计算,并表示出消去次的行列式进行消去计算,并表示出消去次序,那么序,那么U可以改写为:可以改写为:从式从式(5-8)可导出检验可导出检验某个变量某个变量x(r)判别能力的判别能力的Wilks 统计量。统计量。30类似式类似式(5-8)可得可得(5-9)(1)“引入引入”变量变量x(r)的的Wilks 统计量统计量若在判别函数中再引入变量若在判别函数中再引入变量x(r),则有,则有:设设逐逐步步判判别别进进行行了了
17、p步步,共共引引入入了了p个个变变量量(前前p个个都是判别能力强的变量,没有被剔除都是判别能力强的变量,没有被剔除),记为:,记为:(p个变量个变量)3.“引入引入”与与“剔除剔除”变量的统计量变量的统计量31 因此,因此,wrr(p)/trr(p)是引入变量是引入变量x(r)后后U 的改变因子的改变因子,记为记为(5-11)Ur越小,变量越小,变量x(r)使总体之间的差异越明显,它使总体之间的差异越明显,它的判别能力就越强。的判别能力就越强。(5-10)(p+1个变量个变量)32例例2中:中:U1=0.22/0.2373=0.93U2=0.204/18.256=0.011 可见,第可见,第2
18、个变量的区分能力比第个变量的区分能力比第1个变量大,因个变量大,因为从统计量来说,为从统计量来说,U2小于小于U1。33(5-12)因此用因此用Ur做为检验变量做为检验变量x(r)判别能力的判别能力的Wilks 统计量。是否能够引入,还需进行假设检验。统计量。是否能够引入,还需进行假设检验。式中式中N=n1+n2+ng,即样品的总数即样品的总数。F1服从自由度为服从自由度为(G-1)和和(N-G-p)的的F分布。对于给分布。对于给定的检验水平定的检验水平,查查F(G-1,N-G-p)分布表分布表,得临界值得临界值F,若,若F1F,变量变量x(r)的判别能力强。的判别能力强。统计量:统计量:假设
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 判别分析 课堂 PPT
限制150内