第五章 判别分析.ppt
《第五章 判别分析.ppt》由会员分享,可在线阅读,更多相关《第五章 判别分析.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章判别分析第五章判别分析在一些自然科学和社会科学的研究中,研究对象用某种在一些自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型,当得到的一个新的样品数据(通常方法已划分为若干类型,当得到的一个新的样品数据(通常是多元的),要确定该样品属于已知类型中的哪一类,这样是多元的),要确定该样品属于已知类型中的哪一类,这样的问题属的问题属判别分析判别分析。判别分析是根据观察或测量到若干变量值,判断研究对判别分析是根据观察或测量到若干变量值,判断研究对象如何分类的方法。实际上是根据表明事物特点的变量值和象如何分类的方法。实际上是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别
2、函数对未知所属类别它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。的事物进行分类的一种分析方法。分类:分类:1、按判别的组数来分,有两组判别分析和多组判别分析、按判别的组数来分,有两组判别分析和多组判别分析2、按区分不同总体所用的数学模型来分,有线性判别和非、按区分不同总体所用的数学模型来分,有线性判别和非线性判别线性判别3、按判别对所处理的变量方法不同有逐步判别、序贯判别。、按判别对所处理的变量方法不同有逐步判别、序贯判别。4、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则第一节第一节 距距离判别法离判别法
3、第二节第二节 以直线划分的判别法以直线划分的判别法第三节第三节 以曲线划分的判别法以曲线划分的判别法第四节第四节 费歇尔判别法费歇尔判别法第五节第五节 逐步判别法逐步判别法 1 距离判别法距离判别法1.1 统计距离统计距离设设m维空间上两点维空间上两点P(x1,x2,xm)与与Q(y1,y2,ym),P与与Q的欧氏距离:的欧氏距离:d(P,Q)=(x1y1)2+(x2y2)2+(xmym)21/2欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量一致、波动幅度一致。一致、波动幅度一致。1936年,印度统计学家年,印度统计学家Mahalano
4、bios引入统计距离概念,引入统计距离概念,也称为也称为“马氏距离马氏距离”设设Q点坐标固定,点坐标固定,P点坐标相互独立变化。用点坐标相互独立变化。用s12,s22,sm2 表示表示P的的m个坐标的个坐标的n次观测的样本方差,则次观测的样本方差,则P到到Q的统计距的统计距离离设设X、Y是从均值向量为是从均值向量为、协方差阵为、协方差阵为的总体的总体G中抽取的中抽取的两个样本,两个样本,X与与Y两点间的马氏距离定义为两点间的马氏距离定义为X与总体与总体G的马氏距离定义为的马氏距离定义为设两总体设两总体G1、G2,它们的均值向量为,它们的均值向量为1和和2,协方差阵都为协方差阵都为,则总体,则总
5、体G1和和G2之间的马氏距离定义为之间的马氏距离定义为马氏距离满足距离的三条公理马氏距离满足距离的三条公理(1)非负性非负性d(P,Q)0,等号成立的充要条件是,等号成立的充要条件是P=Q;(2)对称性对称性d(P,Q)=d(Q,P);(3)三角不等式三角不等式d(P,Q)d(P,R)+d(R,Q)。设两个设两个m元总体元总体G1、G2,它们的均值向量为,它们的均值向量为1和和2,协协方差阵分别为方差阵分别为1、2。设。设X=(x1,x2,xm)是一待判样是一待判样品,品,距离判别准则距离判别准则为为(1)若若 d(X,G1)d(X,G2),则,则 X G2;(2)若若 d(X,G2)d(X,
6、G1),则,则 X G1;实际问题中,实际问题中,1、2、1、2往往未知,分别用其样本均往往未知,分别用其样本均值和样本方差来估计,则马氏距离的估计值分别为值和样本方差来估计,则马氏距离的估计值分别为(1)若若 d(X,G1)d(X,G2),则,则 X G2;(2)若若 d(X,G2)d(X,G1),则,则 X G1;距离判别准则距离判别准则为为设设k个个m元总体元总体G1、Gk,它们的均值向量为,它们的均值向量为1、k,协方差阵分别为协方差阵分别为1、.、k。设。设X=(x1,x2,xm)是一待判样品,是一待判样品,马氏距离马氏距离为为 若若 d(X,Gj)=minid(X,Gi),则,则
7、X Gj实际问题中,实际问题中,i、i 往往未知,分别用其样本均值和样本往往未知,分别用其样本均值和样本方差来估计方差来估计距离判别准则距离判别准则为为1.2多个总体的距离判别多个总体的距离判别(j=1,k)当当k个总体协方差矩阵相等时,个总体协方差矩阵相等时,1=2=.=k=。判别函判别函数数为为Wij(X)=0.5d2(X,Gi)d2(X,Gj)=X0.5(i+j)T-1(ij)(i,j=1,k)实际问题中,实际问题中,1、k、往往未知,分别用其样本均往往未知,分别用其样本均值和样本方差来估计值和样本方差来估计距离判别准则距离判别准则为为对所有的对所有的ji,当,当Wij(X)0时,则判时
8、,则判X Gi;当当Wij(X)=0时,则判时,则判X Gi或或X Gj。1.3 判别准则的评价判别准则的评价1误判率回代估计法误判率回代估计法设设(X1(1),X2(1),Xn1(1)与与(X1(2),X2(2),Xn2(2)是分是分别来自总体别来自总体G1、G2的样本,以全体样本作为的样本,以全体样本作为n1+n2个新样个新样本,逐个代入已建立的判别准则中,判别其归属,这个过本,逐个代入已建立的判别准则中,判别其归属,这个过程为回代。用程为回代。用n12、n21分别表示将本属于分别表示将本属于G1的样本误判为的样本误判为G2的个数、的个数、将本属于将本属于G2的样本误判为的样本误判为G1的
9、个数,误判率的的个数,误判率的回代估计回代估计当一个判别准则提出后,还要研究其优良性,即要考当一个判别准则提出后,还要研究其优良性,即要考察误判概率。察误判概率。2误判率的交叉确认估计法误判率的交叉确认估计法每次剔除一个样品,利用其余每次剔除一个样品,利用其余n1+n21个样本建立判别个样本建立判别准则,再用所建立的判别准则对删除的样品做判别,对样准则,再用所建立的判别准则对删除的样品做判别,对样本中每个样品都做上述分析,以其误判的比例来作为误判本中每个样品都做上述分析,以其误判的比例来作为误判概率的估计。具体步骤:概率的估计。具体步骤:(1)从总体从总体G1开始,剔除其中的一个样品,用剩余的
10、开始,剔除其中的一个样品,用剩余的n11个样品为个样品为G1的样本,的样本,G2的样本不变,建立判别函数;的样本不变,建立判别函数;(2)用建立的判别函数对剔除的样品作判别;用建立的判别函数对剔除的样品作判别;(3)重复重复(1)(2),对,对G2也作如此处理,其误判样品个数分也作如此处理,其误判样品个数分别记为别记为n12*、n21*。(4)交叉交叉误判率的估计误判率的估计注:一般地,总体差异越大,判别准则越有效。注:一般地,总体差异越大,判别准则越有效。2 以直线划分的判别法以直线划分的判别法一、判别的基本思想一、判别的基本思想把观测到的把观测到的n个样本看作个样本看作p维空间的维空间的n
11、个点,以个点,以某种方法将某种方法将p维空间划分为互不相交的维空间划分为互不相交的q个区域,个区域,每个区域对应着一个类,对于给定的新样本点,每个区域对应着一个类,对于给定的新样本点,必然要落入其中某个类中。必然要落入其中某个类中。对于满足类内样本点接近、类间样本点疏远的对于满足类内样本点接近、类间样本点疏远的性质,可以通过统计量来表现。性质,可以通过统计量来表现。比值越大说明类与类间差异越大,分类效果越比值越大说明类与类间差异越大,分类效果越好好二、两个类别的判别二、两个类别的判别步骤:步骤:1、计算两类、计算两类(A,B)各自的均值各自的均值2、计算类内离差平方和与类间离差平方和、计算类内
12、离差平方和与类间离差平方和3、求出判别函数求出判别函数4、计算待判样本的三个值、计算待判样本的三个值y,5、判断判断 先建立判别临界值先建立判别临界值y0,在两总体先验概率相等的假设在两总体先验概率相等的假设下,一般常取下,一般常取 如果如果 ,则判定准则为:,则判定准则为:yy0,x属于属于A组;组;yy0,x属于属于B组;组;y0,相应的特征向量,相应的特征向量a1,a2,ar。ui(X)=aiTX为第为第i个线性判别函数,当第个线性判别函数,当第1个线个线性判别函数不能很好地区分多个总体时,可再利用第性判别函数不能很好地区分多个总体时,可再利用第2、第、第3、线性判别函数。线性判别函数。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章 判别分析 第五
限制150内