地质数据处理_10-判别分析.ppt
《地质数据处理_10-判别分析.ppt》由会员分享,可在线阅读,更多相关《地质数据处理_10-判别分析.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、判 别 分 析,洪金益中南大学地学院,地质数据处理基础10,内容,1 引言2 距离判别3 贝叶斯判别4 费希尔判别,1 引言,判别分析的例子:1.有偿付力与无偿付力的财产责任保险公司。 测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。2.沉积成因矿床与岩浆热液矿床。 测量变量:成矿温度,矿物组合、标型特征、结构构造等3.两种野草。 测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。,判别分析要解决的问题是,在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。每一组(亦称类或总体)中所有样品的p维指标值 构成了该
2、组的一个p元总体分布,我们试图主要从各组的总体分布或其分布特征出发来判断新样品x是来自哪一组的。三种常用的判别分析方法:距离判别、贝叶斯(Bayes)判别和费希尔(Fisher)判别。,2 距离判别,一、两组距离判别二、多组距离判别,一、两组距离判别,设组1和2的均值分别为1和2,协差阵分别为1和2(1,20) ,x是一个新样品(p维),现欲判断它来自哪一组。1. 1=2=时的判别2. 12时的判别,1. 1=2=时的判别,判别规则:令 ,其中 , ,则上述判别规则可简化为称W(x)为两组距离判别的(线性)判别函数,称a为判别系数。,误判概率,误判概率设1Np(1,), 2Np(2,),则其中
3、 是两组之间的马氏(Mahalanobis)距离。可见,两个正态组越是分开(即越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。,例 设p=1,1和2的分布分别为N(1,2)和N(2,2),1,2,2均已知,12,则判别系数a=(12)/ 20,判别函数:判别规则:误判概率:误判概率图示:,抽取样本估计有关未知参数,设 是来自组1的样本, 是来自组2的样本,n1+n22p,则1和2的一个无偏估计分别为的一个联合无偏估计为其中,估计的判别函数为这里 。其判别规则为若1和2都为正态组,则两个误判概率P(2|1)和P(
4、1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。,误判概率的非参数估计,若两组不能假定为正态组,则P(2|1) 和 P(1|2) 可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:(1)令n(2|1)为样本中来自1而误判为2的个数,n(1|2)为样本中来自2而误判为1的个数,则P(2|1) 和P(1|2) 可估计为该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。,出现这种乐观估计的原因是,被用来构造判别函数的样本数据又被用于对这个函数进行评估,评估的结果自然就倾向有利于所构造的判别函数。事实上,在误判概率
5、的估计中,构造判别函数中使用过的样本数据在对该函数作出评估时已不能很好地代表总体了。,(2)将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计,如此得到的估计是无偏的。该方法的两个主要缺陷: (i)需要用大样本;(ii)在构造判别函数时,只用了部分样本数据,损失了过多有价值的信息。与使用所有的样本数据构造判别函数相比,该方法将使真实的误判概率上升。该缺陷随样本容量的增大而逐渐减弱,当样本容量相当大时此缺陷基本可忽略。,(3)称为交叉验证法或刀切法。该方法既避免了样本数据在构造判别函数的同时又被用来对该判别
6、函数进行评价,造成不合理的信息重复使用,又几乎避免了构造判别函数时样本信息的损失。从组1中取出x1j,用该组的其余n11个观测值和组2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2,n1。同样,从组2中取出x2j,用这一组的其余n21个观测值和组1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,n2。令n*(2|1)为样本中来自1而误判为2的个数,n*(1|2)为样本中来自2而误判为1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。,2. 12时的判别,判别规则也可采用另一种形式:选择判别函数为 它是x的二次函数,相应的判别规则为,
7、在上例中,设1和2这两个组的方差不相同,分别为 ,这时当1x0),2(0),k(0),x到总体i的平方马氏距离为判别规则为若1=2=k=,则上述判别规则可作进一步简化。 d2(x,i)=(xi)1(xi)=x1x2i1x+i1i =x1x2(Iix+ci)其中 ,判别规则简化为,这里Iix+ci为线性判别函数。当组数k=2时,可将上式写成 *实践中1,2,k和1,2,k一般都是未知的,它们的值可由相应的样本估计值代替。设 是从组i中抽取的一个样本,则i可估计为 (i=1,2,k)。,1=2=k=的情形,的联合无偏估计为 其中n=n1+n2+nk, 为第i组的样本协方差矩阵。实际应用中使用的判别
8、规则是其中 。,1,2,k不全相等的情形,i可估计为Si(i=1,2,k)。实际应用中使用的判别规则是其中,1,2,k是否假定为相等,在实际应用中,1,2,k不太可能完全相等,我们需要关心的是,1,2,k之间是否存在着明显的差异。若没有明显的差异,则通常可以考虑假定1=2=k=,从而使用与此相应的判别规则。此时的判别函数为线性函数。如果对是否应该假定1=2=k=拿不准,则可以同时采用相等和不相等两种情形下的相应判别规则分别进行判别,然后用交叉验证法来比较它们的误判概率,以决定采用何种判别规则进行判别。,例,通过一些具有标型意义的元素含量进行矿床成因研究。数据涉及四个元素(变量):x1、x2、x
9、3以及x4。数据列于下表,组为生物成因的,组为非生物成因的。,表 元素分析数据,使用判别规则进行判别,的联合估计为,于是对未知成因的矿床 x=(0.16, 0.10, 1.45, 0.51),计算得 按判别规则,该矿床被判为生物成因矿床。,3 贝叶斯判别,一、最大后验概率准则二、最小平均误判代价准则,距离判别不合适的一个例子,1(校研究生组):N1=2000, 1=5002(校本科生组):N2=8000, 2=400研究生组中x500的有1000人,本科生组中 x500的有2000人。某学生的x=500,试判别该生归属哪一组。该例如采用距离判别法则显然不妥,应考虑利用如下的先验概率:,一、最大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 地质 数据处理 _10 判别分析
限制150内