判别分析及实现精选PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《判别分析及实现精选PPT.ppt》由会员分享,可在线阅读,更多相关《判别分析及实现精选PPT.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、判别分析及实现第1页,此课件共88页哦统计方法(判别分析)统计方法(判别分析):判别分析在已知研究对象分成若干类型,并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。距离判别法首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧氏距离、马氏距离)Fisher判别法利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判别式的值判断新个体的类别Bayes判别法计算新给样品属于各总体的条件概率,比较概率的大小,然后将新样品判归为来自概率最大的总体 第2页,此课件共88页哦判别分析:判别分析
2、是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线性关系式),然后利用该函数去判断未知样品属于哪一类。对于给定的数据,用classify函数进行线性判别分析,用mahal函数计算马氏距离。第3页,此课件共88页哦1 距离判别距离判别1.1 判别分析的基本思想及意义判别分析的基本思想及意义我们首先给出常见的距离我们首先给出常见的距离:1.欧氏距离:欧氏距离:设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则称,则称为为n维向量维向量x,y之间的欧氏距离之间的欧氏距离 第4页,此课件共88页哦在在 MATLAB 中,计算欧
3、氏距离有多种方法中,计算欧氏距离有多种方法(1)sqrt(sum(x-y).2)设设x,y是同维是同维行向量行向量(2)sqrt(dot(x-y,x-y)(3)sqrt(x-y)*(x-y)(4)dist(x,y)例例1.设设x,y是同维是同维列向量列向量,上述公式是否成立?若,上述公式是否成立?若不成立如何修改?不成立如何修改?解:解:前两个正确,后两个错误,修改如下:前两个正确,后两个错误,修改如下:sqrt(x-y)*(x-y),dist(x,y)第5页,此课件共88页哦2.绝对距离:绝对距离:在在 MATLAB 中,计算绝对距离方法如下中,计算绝对距离方法如下(1)sum(abs(x-
4、y)%行向量、列向量均可行向量、列向量均可(2)mandist(x,y)%行向量行向量为为n维向量维向量x,y之间的绝对距离之间的绝对距离.设有设有n维向量维向量x(x1,x2,xn),y=(y1,y2,yn),则称,则称例例2.若若x为为n维行向量,维行向量,y为为n维列向量如何用维列向量如何用MATLAB计算计算x,y的绝对距离?的绝对距离?第6页,此课件共88页哦3.闵可夫斯基距离闵可夫斯基距离:设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则称,则称为为n维向量维向量x,y之间的闵可夫斯基距离之间的闵可夫斯基距离.显然,当显然,当r=2和和1时闵可夫斯基距离
5、分别为欧时闵可夫斯基距离分别为欧氏距离和绝对距离氏距离和绝对距离.在在Matlab中如何计算?中如何计算?第7页,此课件共88页哦4.马氏距离马氏距离:马氏距离是由印度统计学家马哈拉:马氏距离是由印度统计学家马哈拉诺比斯诺比斯(PC Mahalanobis)提出的,由于马氏距离具提出的,由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离有统计意义,在距离判别分析时经常应用马氏距离.(1)同一总体的两个向量之间的马氏距离同一总体的两个向量之间的马氏距离设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则称,则称为为n维向量维向量x,y之间的马氏距离之间的马氏距离.
6、其中其中 为总体协方差矩阵为总体协方差矩阵.显然,当显然,当 为单位矩阵为单位矩阵时马氏距离就是欧氏距离时马氏距离就是欧氏距离.第8页,此课件共88页哦(2)一个向量到一个总体的马氏距离一个向量到一个总体的马氏距离设设x是取自均值向量为是取自均值向量为,协方差矩阵为,协方差矩阵为 的总体的总体G的一个的一个行向量行向量,则称,则称为为n维向量维向量x与总体与总体G的马氏距离的马氏距离.MATLAB中有一个命令:中有一个命令:mahal计算马氏距离平方计算马氏距离平方第9页,此课件共88页哦Generate some correlated bivariate data in X and comp
7、are the Mahalanobis and squared Euclidean distances of observations in Y:X=mvnrnd(0;0,1.9;.9 1,100);Y=1 1;1-1;-1 1;-1-1;d1=mahal(Y,X)%Mahalanobisd1=1.3592 21.1013 23.8086 1.4727d2=sum(Y-repmat(mean(X),4,1).2,2)%Squared Euclideand2=1.9310 1.8821 2.1228 2.0739第10页,此课件共88页哦(3)两个总体之间的马氏距离两个总体之间的马氏距离设有两个
8、总体设有两个总体G1,G2,两个总体的均值向量分,两个总体的均值向量分别为别为 ,协方差矩阵相等,皆为,协方差矩阵相等,皆为,则两个则两个总体之间的马氏距离为总体之间的马氏距离为通常,通常,在判别分析时不采用欧氏距离的原因在于,在判别分析时不采用欧氏距离的原因在于,该距离与量纲有关该距离与量纲有关.第11页,此课件共88页哦马氏距离有如下的特点:马氏距离有如下的特点:1、马氏距离不受计量单位的影响马氏距离不受计量单位的影响;2、马氏距离是标准化后的变量的欧氏距离、马氏距离是标准化后的变量的欧氏距离证明:证明:第12页,此课件共88页哦1.2 两个总体的距离判别两个总体的距离判别由于马氏距离与总
9、体的协方差矩阵有关,所以由于马氏距离与总体的协方差矩阵有关,所以利用马氏距离进行判别分析需要分别考虑两个利用马氏距离进行判别分析需要分别考虑两个总体的协方差矩阵是否相等总体的协方差矩阵是否相等.1.两个总体协方差矩阵相等的情况两个总体协方差矩阵相等的情况 线性判别函数线性判别函数()设有两个总体设有两个总体G1,G2,的均值分别为,的均值分别为协方差矩阵相等为协方差矩阵相等为考虑样品考虑样品x到两个总体的到两个总体的马氏距离平方差:马氏距离平方差:第13页,此课件共88页哦距离判距离判别别法法:设设有两个有两个协协方差相同的方差相同的总总体体 ,且且对于一个新的样品,要判定它来自哪一个总体,有
10、一个对于一个新的样品,要判定它来自哪一个总体,有一个很直观的方法:很直观的方法:计算计算:若若 第14页,此课件共88页哦其中其中于是距离判于是距离判别准则为别准则为第15页,此课件共88页哦 线性判别函数线性判别函数()注意到实数的转置等于实数自身,故有注意到实数的转置等于实数自身,故有第16页,此课件共88页哦令 注意到注意到可得可得 记记第17页,此课件共88页哦于是距离判别准则简化为:于是距离判别准则简化为:在实际问题中,由于总体的均值、协方差矩阵在实际问题中,由于总体的均值、协方差矩阵通常是未知的,数据资料来自两个总体的训练样本,通常是未知的,数据资料来自两个总体的训练样本,于是用样
11、本的均值、样本的协方差矩阵代替总体的于是用样本的均值、样本的协方差矩阵代替总体的均值与协方差均值与协方差.注意:若注意:若S1,S2分别为两个样本的协方差矩阵,分别为两个样本的协方差矩阵,则在则在 时,总体的协方差矩阵估计量时,总体的协方差矩阵估计量第18页,此课件共88页哦1.两个总体协方差矩阵相等两个总体协方差矩阵相等由于实际问题中只能得到两个样本的协方差由于实际问题中只能得到两个样本的协方差矩阵矩阵S1,S2,因此当两个总体协方差矩阵相等因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵时如何确定总体的协方差矩阵S?其中其中n1,n2分别为两个样本的容量分别为两个样本的容量.第19页
12、,此课件共88页哦判别步骤:判别步骤:1.计算计算A、B两类的均值向量与协方差阵两类的均值向量与协方差阵;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)2.计算总体的协方差矩阵计算总体的协方差矩阵其中其中n1,n2分别为两分别为两个样本的容量个样本的容量.3.计算未知样本计算未知样本x到到A,B两类马氏平方距离之差两类马氏平方距离之差 d=(x-ma)*S-1*(x-ma)-(x-mb)*S-1*(x-mb)4.若若d0,则则x属于属于B类类第20页,此课件共88页哦上述公式可以化简为:上述公式可以化简为:W(x)=(ma-mb)*S-1*(x-(ma+mb
13、)/2)若若W(x)0,x属于属于G1;若若W(x)列数列数第24页,此课件共88页哦按照如下的判别准则:按照如下的判别准则:我们可以建立我们可以建立MATLAB的判别法如下:的判别法如下:第25页,此课件共88页哦 均未知时的判别法则均未知时的判别法则 记记 则判别函数:则判别函数:两样本的协方差阵相同两样本的协方差阵相同抽取抽取n1和和n2个子样个子样:当当时时,判断判断 当当时时,判断判断 第26页,此课件共88页哦例例 对于下雨天和非雨天两类天气情况收集如下数据对于下雨天和非雨天两类天气情况收集如下数据 雨雨 天天 非非 雨雨 天天 湿度差湿度差 温度温度 湿度差湿度差 温度温度-1.
14、9 3.2 0.2 6.2-6.9 10.4 -0.1 7.55.2 2.0 0.4 14.67.3 0.0 2.1 0.86.8 12.7 -4.6 4.30.9 -15.4 -1.7 10.9-12.5 -2.5 -2.6 13.11.5 1.3 2.6 12.83.8 6.8 -2.8 10.0第27页,此课件共88页哦不难算出:不难算出:第28页,此课件共88页哦在此很难假定在此很难假定,但仍然可以定义其马氏距离但仍然可以定义其马氏距离 如果要问当如果要问当 时是雨天还是非雨天时是雨天还是非雨天,可解得如下可解得如下 因为因为X与与G1距离小,因此判定距离小,因此判定 雨天雨天 第29
15、页,此课件共88页哦 相关相关MATLAB命令命令 第30页,此课件共88页哦 该例该例MATLAB 程序实现程序实现运行结果运行结果 第31页,此课件共88页哦例例1.现测得现测得6只只Apf和和9只只Af蠓虫的触长蠓虫的触长,翅长数据翅长数据Apf:(1.14,1.78),(1.18,1.96),(1.20,1.86),(1.26,2.00),(1.28,2.00),(1.30,1.96)Af:(1.24,1.72),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.40,1.70),(1.48,1.82),(1.54,1.82),(1.
16、56,2.08)若若两总体协方差矩阵不等,试判别以下的三个蠓两总体协方差矩阵不等,试判别以下的三个蠓虫属于哪一类?虫属于哪一类?(1.24,1.8),(1.28,1.84),(,(1.4,2.04)第32页,此课件共88页哦解:解:Apf=1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.00;1.28,2.00;1.30,1.96;Af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;x=1.24,1.8;1.28,1.84;1.4,2.
17、04;d=mahal(x,Apf)-mahal(x,Af)若若d0,则,则x属于属于Af;若若d0,则,则x属于属于Apf.Ans:d=1.7611 3.8812 3.6468故三个蠓虫均属故三个蠓虫均属Af.第33页,此课件共88页哦 从例从例1,我们发现对于两个总体的协方差矩阵是否相等,我们发现对于两个总体的协方差矩阵是否相等,得到的结论可能不同,因此在解决实际问题时,首先要判别得到的结论可能不同,因此在解决实际问题时,首先要判别两个总体的协方差矩阵是否相等?两个总体的协方差矩阵是否相等?检验检验统计量:统计量:对给定的对给定的 ,查卡方分布表得到临界值查卡方分布表得到临界值 若若Qi ,
18、则接受则接受H0,否则拒绝,否则拒绝H0第34页,此课件共88页哦对于例对于例1 1,应用检验程序如下,应用检验程序如下(=0.05=0.05):n1=6;n2=9;p=2;s=(5*s1+8*s2)/13;Q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1),Q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2),P=1-chi2cdf(Q01,Q02,3)对对 ,查自由度为查自由度为3的卡方分布的卡方分布,得到临界得到临界值为:值为:7.815,由于由于 Q017.815,Q020n1
19、=n1+1;else n1=n1;endend%计算计算Apf 误判为误判为Af 的个数的个数n1第38页,此课件共88页哦for j=1:9,n2(j)=(b(j,:)-m1)*inv(s)*(b(j,:)-m1)-(b(j,:)-m2)*inv(s)*(b(j,:)-m2);n2=0;if n20n2=n2+1;else n2=n2;endendwp=n1+n2/m+n%回代误判率回代误判率%计算计算Af 误判为误判为Apf 的个数的个数n2由于由于wp=0,故回代误判率故回代误判率=0第39页,此课件共88页哦(2)交叉误判率估计)交叉误判率估计 交叉误判率估计是每次剔除一个样品,利用其
20、余的交叉误判率估计是每次剔除一个样品,利用其余的m+n1个训练样本建立判别准则再用所建立的准则对删除的个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率,具体步骤如下:以其误判的比例作为误判率,具体步骤如下:从总体为从总体为G1的训练样本开始,剔除其中一个样品,剩余的训练样本开始,剔除其中一个样品,剩余的的m1个样品与个样品与G2中的全部样品建立判别函数;中的全部样品建立判别函数;用建立的判别函数对剔除的样品进行判别;用建立的判别函数对剔除的样品进行判别;重复步骤重复步骤,直到,
21、直到G1中的全部样品依次被删除,又中的全部样品依次被删除,又进行判别,其误判的样品个数记为进行判别,其误判的样品个数记为m12第40页,此课件共88页哦于是交叉误判率估计为:于是交叉误判率估计为:在两个总体协方差矩阵等时在两个总体协方差矩阵等时,利用利用MATLAB编程计算交叉误判率,作为作业编程计算交叉误判率,作为作业.对对G2的样品重复步骤的样品重复步骤,直到直到G2中的全部样品中的全部样品依次被删除又进行判别,其误判的样品个数记为依次被删除又进行判别,其误判的样品个数记为n21第41页,此课件共88页哦1.3.多个总体的距离判别多个总体的距离判别设有设有k个总体,个总体,G1,G2,Gk
22、,若判别某个体,若判别某个体y属于哪个总属于哪个总体,则有如下方法:体,则有如下方法:若存在某个正整数若存在某个正整数k0,使得使得mahal(y,Gk0)=min(y,Gi),(i=1,2,k)则判别则判别y属于第属于第k0个个体个个体.第42页,此课件共88页哦1.4.距离判别的距离判别的Matlab编程实现编程实现两个总体协方差矩阵相等时的判别步骤两个总体协方差矩阵相等时的判别步骤:计算计算A、B两类的均值向量与协方差阵两类的均值向量与协方差阵;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)计算总体的协方差矩阵计算总体的协方差矩阵S=(length(A
23、(:,1)-1)*S1+(length(B(:,1)-1)*S2/(length(A(:,1)+(length(B(:,1)-2)其中其中length(A(:,1),length(B(:,1)分别为两个样本的容量分别为两个样本的容量(即矩阵即矩阵A,B的行数的行数).计算未知样本计算未知样本x到到A,B两类马氏距离之差两类马氏距离之差d=(x-ma)*inv(S)*(x-ma)-(x-mb)*inv(S)*(x-mb)若若d0,则,则x属于属于B类类第43页,此课件共88页哦距离判别的距离判别的CLASSIFY命令实现:命令实现:第44页,此课件共88页哦第45页,此课件共88页哦第46页,此
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 实现 精选 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内