《模式识别实验报告1ws(共9页).doc》由会员分享,可在线阅读,更多相关《模式识别实验报告1ws(共9页).doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上模式识别实验报告5103班魏双基于贝叶斯方法对鸢尾花数据的分类一、实验原理贝叶斯准则又称为最大后验概率,假定一个两类问题,先验概率分别为和。令X为n维向量,X的类条件概率密度为和分别表示的。由全概率公式,可知观测样本出现的全概率密度为: (1) 由贝叶斯公式,在观测样本出现的情况下,属于两个类别和的后验概率分别可表示为: 这里,由式(1)给出。如果规定把观测样本判归后验概率较大的类别,则相应的判决规则可表示为: 上述规则可进一步表示为: 对于具有多个特征参数的样本150个(本实验的 IRIS 数据为 n=4 维)。实验中所用的数据集已经分成三类,假设本实验所使用的 I
2、RIS 鸢尾花数据中各类数据服从正态分布,则概率密度函数为:鸢尾花数据集包含了150个样本,分别是山鸢尾,变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析,分别是花瓣的长度和宽度。实验中所用的数据集已经分成三类,第一组为山鸢尾,第二组为变色鸢尾,第三组为维吉尼亚鸢尾。对于具有多个特征参数的样本,其正态分布的概率密度函数为:其中是n维的行向量,是n*n维的协方差矩阵,是的行列式,是均值。 由其判决规则, 即可对样本进行分类。2、 实验过程(1)数据导入导入data.txt 文件中数据,并将三类数据分别存储,每个数据都为一个4 维行特征向量。close all; clear all; clc;
3、A= load(data.txt); B1=A(1:5,:); B2=A(51:56,:);B3=A(101:105,:);(2)抽取数据分类计算设置每组训练数据个数 NUM_train,从每类 50 个数据中随机抽取 NUM_train个向量作为训练数据并存储,剩余数据作为测试样本存储。N1=5;N2=5;N3=5; Xp1=0.5; Xp2=0.5; Xp3=0.5; mean1= mean(B1);mean2= mean(B2);mean3= mean(B3); var1=cov(B1); n1=inv(cov(B1); k1= det(var1) ; var2=cov(B2); n2=
4、inv(var2); k2= det(var2) ; var3=cov(B3); n3=inv(var3); k3= det(var3); (4)分类测试一共分为三组(w1,w2)(w1,w3)(w2,w3),test=1代表(w1,w2)分类,test=2代表(w1,w3)分类,test=3代表(w2,w3)分类 ,针对某一训练数据 x 计算其判别函数Pi,比较两个值的大小,哪个最大,就可判断该数据属于哪一类。G= A(6:50,:) ; A(106:150,:) ;a=zeros(1,90); a1=zeros(1, 90); a2=zeros(1, 90);for i=1:1:90p1=
5、-0.5* (G(i,:)-mean1)*n1*(G(i,:)-mean1)-0.5*log(k1)+log(Xp1);p2=-0.5* (G(i,:)-mean2)*n2*(G(i,:)-mean2)-0.5*log(k2)+log(Xp2);p3=-0.5* (G(i,:)-mean3)*n3*(G(i,:)-mean3)-0.5*log(k3)+log(Xp3);a1(i)=p1;a2(i)=p2; if p1p2 a(i)=1; else a(i)=2;end end三、实验结果(一)第一组和第二组a) 分别取第一组和第二组的前10个样本作为训练样本,求出每一类别的表达式,然后对剩余的
6、样本进行分类,此时先验概率均为0.5,比较的大小。得到的判决结果如下:Columns 1 through 101 1 1 1 1 1 1 1 1 1Columns 11 through 20 1 1 1 1 1 1 1 1 1 1Columns 21 through 301 1 1 1 1 1 1 1 1 1Columns 31 through 401 1 1 1 1 1 1 1 1 1Columns 41 through 502 2 2 2 2 2 2 2 2 2Columns 51 through 602 2 2 2 2 2 2 2 2 2Columns 61 through 702 2
7、2 2 2 2 2 2 2 2Columns 71 through 802 2 2 2 2 2 2 2 2 2成功率依然为100%,这说明每类10个数据也足够成功的将不同类的数据区分开来。b) 分别取第一组和第二组的前五个样本作为训练样本,然后再对剩余样本进行分类,结果如下:Columns 1 through 102 2 2 2 2 2 2 2 2 2Columns 11 through 202 2 2 2 2 2 2 2 2 2Columns 21 through 302 2 2 2 2 2 2 2 2 2 Columns 31 through 402 2 2 2 2 2 2 2 2 2Co
8、lumns 41 through 502 2 2 2 2 2 2 2 2 2Columns 51 through 602 2 2 2 2 2 2 2 2 2Columns 61 through 702 2 2 2 2 2 2 2 2 2 Columns 71 through 802 2 2 2 2 2 2 2 2 2Columns 81 through 902 2 2 2 2 2 2 2 2 2可见,当样本数量太少时,所提供的信息不足以区分两组类别。c) 若取第一组和第二组的5个差异比较大的样本作为训练样本,先验概率第一组取0.5,第三组取0.5,判决结果如下:Columns 1 throug
9、h 101 1 1 1 1 1 1 1 1 1Columns 11 through 201 1 1 1 1 1 1 1 1 1Columns 21 through 301 1 1 1 1 1 1 1 1 1Columns 31 through 401 1 1 1 1 1 1 1 1 1Columns 41 through 501 1 1 1 1 2 2 2 2 2Columns 51 through 602 2 2 2 2 2 2 2 2 2Columns 61 through 702 2 2 2 2 2 2 2 2 2Columns 71 through 802 2 2 2 2 2 2 2
10、2 2Columns 81 through 902 2 2 2 2 2 2 2 2 2判决结果完全正确,说明训练样本的选取也会对后面的分类产生影响,并且训练样本的差异越大越好。d) 若改变先验概率,假设p1=0.7,p2=0.3,每组数据仍采用10个作为已知数据,其余为被检测数据,实验结果如下:Columns 1 through 101 1 1 1 1 1 1 1 1 1Columns 11 through 20 1 1 1 1 1 1 1 1 1 1 Columns 21 through 301 1 1 1 1 1 1 1 1 1Columns 31 through 401 1 1 1 1
11、1 1 1 1 1Columns 41 through 502 2 2 2 2 2 2 2 2 2Columns 51 through 602 2 2 2 2 2 2 2 2 2Columns 61 through 702 2 2 2 2 2 2 2 2 2 Columns 71 through 802 2 2 2 2 2 2 2 2 2结果仍然是正确率百分百,说明第一类和第二类特征比较明显,比较容易区别开。(二)第一组和第三组a) 分别取第一组和第三组的前10个样本作为训练样本,先验概率均取0.5所得判决结果:Columns 1 through 10 1 1 1 1 1 1 1 1 1 1C
12、olumns 11 through 20 1 1 1 1 1 1 1 1 1 1Columns 21 through 30 1 1 1 1 1 1 1 1 1 1Columns 31 through 401 1 1 1 1 1 1 1 1 1Columns 41 through 503 3 3 3 3 3 3 3 3 3Columns 51 through 603 3 3 3 3 3 3 3 3 3Columns 61 through 703 3 3 3 3 3 3 3 3 3Columns 71 through 803 3 3 3 3 3 3 3 3 3判决结果完全正确,说明只需要十组样本就
13、足以分类第一类和第三类。b) 分别取第一组和第三组的前6个样本作为训练样本,先验概率第一组取0.5,第三组取0.5,判别结果如下:Columns 1 through 101 1 1 1 1 1 1 1 1 1Columns 11 through 20 1 1 1 1 1 1 1 1 1 1Columns 21 through 301 1 1 1 1 1 1 1 1 1Columns 31 through 401 1 1 1 1 1 1 1 1 1Columns 41 through 501 1 1 1 3 3 3 3 3 3Columns 51 through 603 3 3 3 3 3 3
14、3 3 3Columns 61 through 70 3 3 3 3 3 3 3 3 3 3Columns 71 through 803 3 3 3 3 3 3 3 3 3Columns 81 through 883 3 3 3 3 3 3 3从结果可见,正确率100%,说明6个样本足以来区分第一类和第三类。c) 若继续减小样本数量,分别取第一组和第三组的前5个样本作为训练样本,先验概率第一组取0.5,第三组取0.5,判决则会出现错误。程序会出现警告,判决结果如下:Columns 1 through 103 3 3 3 3 3 3 3 3 3Columns 11 through 203 3 3
15、 3 3 3 3 3 3 3Columns 21 through 303 3 3 3 3 3 3 3 3 3Columns 31 through 403 3 3 3 3 3 3 3 3 3Columns 41 through 503 3 3 3 3 3 3 3 3 3Columns 51 through 603 3 3 3 3 3 3 3 3 3Columns 61 through 703 3 3 3 3 3 3 3 3 3Columns 71 through 803 3 3 3 3 3 3 3 3 3Columns 81 through 903 3 3 3 3 3 3 3 3 3可见,因为样
16、本的减少,信息量不够,导致判断失误。d) 若取第一组和第三组的5个差异比较大的样本作为训练样本,先验概率第一组取0.5,第三组取0.5,判决结果如下:Columns 1 through 101 1 1 1 1 1 1 1 1 1Columns 11 through 201 1 1 1 1 1 1 1 1 1Columns 21 through 30 1 1 1 1 1 1 1 1 1 1Columns 31 through 401 1 1 1 1 1 1 1 1 1Columns 41 through 501 1 1 1 1 3 3 3 3 3Columns 51 through 603 3
17、3 3 3 3 3 3 3 3Columns 61 through 703 3 3 3 3 3 3 3 3 3Columns 71 through 803 3 3 3 3 3 3 3 3 3Columns 81 through 903 3 3 3 3 3 3 3 3 3判决结果完全正确,说明训练样本的选取也会对后面的分类产生影响,并且训练样本的差异越大越好。(三)第二组和第三组a) 分别取两组的前10组,先验概率均取0.5,判决结果如下:Columns 1 through 102 2 2 2 2 2 2 2 2 2Columns 11 through 202 2 2 2 2 2 2 2 2 2
18、Columns 21 through 302 2 2 3 2 2 2 2 2 2Columns 31 through 402 2 2 2 2 2 2 2 2 2Columns 41 through 503 3 3 3 3 3 3 3 3 3Columns 51 through 603 3 3 3 3 3 2 2 3 3Columns 61 through 70 3 2 3 2 3 3 3 3 2 3Columns 71 through 803 3 3 3 3 3 3 3 3 3结果可见,正确率达93.7%,经比较,第二组和第三组的特征差异不如和第一组的显著。b) 分别取两组的前20组,先验概率
19、均取0.5,程序出现警告,判决结果如下:Columns 1 through 10 3 2 2 2 2 2 2 2 2 2Columns 11 through 20 2 2 2 3 2 2 2 2 2 2Columns 21 through 302 2 2 2 2 2 2 2 2 2Columns 31 through 403 3 3 3 3 3 3 3 3 3Columns 41 through 503 3 3 3 3 3 3 3 3 3 Columns 51 through 603 3 3 3 3 3 3 3 3 3从结果可见,正确率达96.7%c) 分别取两组的前20组,先验概率第二类取0
20、.7,第三类取0.3,判决结果如下:Columns 1 through 102 2 2 2 2 2 2 2 2 2 Columns 11 through 20 2 2 2 3 2 2 2 2 2 2 Columns 21 through 30 2 2 2 2 2 2 2 2 2 2 Columns 31 through 40 3 3 3 3 3 3 2 2 3 3 Columns 41 through 503 3 3 2 3 3 3 3 2 3 Columns 51 through 603 3 3 3 3 3 3 3 3 3在判决结果中,当第二类的先验概率增大,第三类被误判成第二类的样本也随之
21、增多。d) 分别取两组的前40组,先验概率均取0.5,判决结果:Columns 1 through 102 2 2 2 2 2 2 2 2 2Columns 11 through 203 3 3 3 3 3 3 3 3 3从结果可见,正确率100%,说明第二类和第三类特征差异不明显,需要大量样本来作估计,从而对检测样本有效分类。四、实验分析在本次实验中,基于贝叶斯原理对四维的Iris数据进行了分类判别,通过三次实验,对三类数据两两之间进行了判别。第一次实验可以看出,第一类与第二类数据特征差异比较明显,可以每类只需十个数据就能将两类的数据成功的判别出来,即使当改变两类数据的先验概率后,仍然能够成功识别。在第二次实验中,同样可以看出,第一类与第三类数据之间的差异也是比较明显的,只需6个已知数据即可判别。固定训练样本的数量,改变样本的选取方法对分类也会产生比较大的影响,训练样本差异越大,则对分类越有利。在第三次实验中,取40个已知数据可以较为准确的计算出第二类与第三类数据的参数并进行判别,这说明这两类数据之间的参数差异并不是十分明显,容易混淆。专心-专注-专业
限制150内