用身高和体重数据进行性别分类的实验报告.pdf
《用身高和体重数据进行性别分类的实验报告.pdf》由会员分享,可在线阅读,更多相关《用身高和体重数据进行性别分类的实验报告.pdf(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-用身高和体重数据进行性别分类的实验报告(二)用身高和体重数据进行性别分类的实验报告(二)一、基本要求1、试验非参数估计,体会与参数估计在适用情况、估计结果方面的异同。2、试验直接设计线性分类器的方法,与基于概率密度估计的贝叶斯分类器进行比较。3、体会留一法估计错误率的方法和结果。二、具体做法1、在第一次实验中,挑选一次用身高作为特征,并且先验概率分别为男生 0.5,女生 0.5 的情况。改用 Parzen 窗法或者 kn近邻法估计概率密度函数,得出贝叶斯分类器,对测试样本进行测试,比较与参数估计基础上得到的分类器和分类性能的差别。2、同时采用身高和体重数据作为特征,用 Fisher 线性判别
2、方法求分类器,将该分类器应用到训练和测试样本,考察训练和测试错误情况。将训练样本和求得的决策边界画到图上,同时把以往用Bayes 方法求得的分类器也画到图上,比较结果的异同。3、选择上述或以前实验的任意一种方法,用留一法在训练集上估计错误率,与在测试集上得到的错误率进行比较。三、原理简述及程序框图1、挑选身高(身高与体重)为特征,选择先验概率为男生 0.5 女生 0.5 的一组用Parzen 窗法来求概率密度函数,再用贝叶斯分类器进行分类。以身高为例.z.-本次实验我们组选用的是正态函数窗,即(u)1 1expu2,窗宽为22d,(d 表示维度)。因为区hN h/N(h 是调节的参量,N 是样
3、本个数)VN hNN11 x xi域是一维的,所以体积为VN hn。Parzen 公式为PNxNi1VNhN。1N11 x xi故女生的条件概率密度为p1N1i1VN1hn11N21 x xi男生的条件概率密度为p2 N2i1VN2hn2根据贝叶斯决策规则gx px w1pw1 px w2pw2知如果p1*p p2*(1 p),x1,否则,x2。流程图如下:2、要求是同时采用身高和体重数据作为特征,用 Fisher 线性判别方法求分类器,将该分类器应用到训练和测试样本,考察训练和测试错误情况。将训练样本和求得的决策边界画到图上,同时把以往用Bayes 方法求得的分类器也画到图上,比较结果的异同
4、。说明,取男生和女生的先验概率分别为0.5,0.5。在设计贝叶斯分类器时,首先求各类样本均值向量,及miT1Nixx,i 1,2,然后求各个样本的来内离散度矩阵,i及sixmixmi,i 1,2,再 求 出 样 本 的 总 类 内 离 散 度,及xwi1m1m2求出把二维*空间s p1s1 p2s2,根据公式 s投影到一维 Y 空间的最好的投影方向。再求出一维Y 空间中各类样本均值1miNiyy,i 1,2,其中y*x,本次实验的分界阈值我们用如下方法i.z.-得到:y0N1m1N2m2,最后,将测试样本中的值代入,求出 y,并将其与N1 N2y0 来进行比较来分类。根据课本对 Fisher
5、线性判别法的介绍,得到的算法流程图如下:3、选择上述或以前实验的任意一种方法,用留一法在训练集上估计错误率,与在测试集上得到的错误率进行比较。这里我们选择 Fisher 线性判别法,用留一法来估计它在训练集上的错误率,并将结果与 Fisher 线性判别法对测试集进行判别时得到的错误率进行比较。具体流程图如下:四、实验结果及分析总结1、得到结果如下表以身高作为特征h=4估计方法女生男生先验先验男生错误女生错误个数842303882总错误男生错误率16%13.6%32%女生错误率8.8%8%4%10%12.67%27.33%总错误率概率概率个数Parzen 窗法0.250.50.750.750.5
6、0.25223480.z.-最大似然Bayes0.250.50.750.750.50.252027606.667%9%20%以身高与体重作为特征h=7估计方法女生男生先验先验概率概率Parzen 窗法0.250.50.75最大似然 Bayes0.250.50.750.750.50.250.750.50.2男生错误个数738282959女生错误个数22246631294048143260总错误男生错误率14%15.2%18.4%3.2%11.6%23.6%8.8%4%4%12%6%2%9.67%13.33%16%4.67%10.67%20%女生错误率总错误率分析:通过比较可知,在用最大似然估计这
7、种参数估计方法和 Parzen 这种非参数估计方法来进行分类时,最大似然估计判别的错误率低。2、得到结果如下(1)、用Fisher 线性判别方法求分类器,将分类器应用到训练和测试样本上,比.z.-较其错误率判别对象测试样本训练样本分析:用训练样本得到的分类器测试测试样本时错误率低,测试结果较好,但测试训练样本时,其错误率较高,测试结果不好。(2)、将训练样本和求得的决策边界画到图上先验概略为 0.5,0.5从图中我们可以直观的比较出对训练样本 Fisher 判别比最大似然 Bayes 判别效果更好。3、留一法测试结果如下:判别对象.z.男生错误个数女生错误个数总错误男生错误率女生错误率总错误率
8、2722910.8%4%9.67%841216%8%12%男生错误个数女生错误个数错误率-测试样本训练样本881328%412%分析:用留一法在训练样本机上估计错误率时,错误率小于它在测试样本集上得到的错误率,且留一法在测试样本集上女生错误个数远低于男生错误个数。五、体会这次实验,我们组用了接近三天的时间,首先,我们对题目要求进行认真分析,在确保对题目完全理解的基础上,开始一步一步分析,求解。对每个小题,及其每一问,我们都经过查书,查资料,编代码这几个步骤,仔细分析每一步算法,得出流程图。经过第一次作业的编程,本次编程我们都觉得轻松了很多,但还会出现一些细节上的错误,不过,这些在我们经过不断的
9、调试之后都会被发现并解决。总体而言,本次试验,让我们对Parzen 窗法求类条件概率密度,以及Fisher线性判别法都有了更大的了解。代码:%特征是身高,先验概率为特征是身高,先验概率为0.50.5、0.50.5时用时用ParzenParzen窗法,贝叶斯分类器。窗法,贝叶斯分类器。clc;clear all;FH FW=te*tread(C:Users*uydDesktophomeworkFEMALE.t*t,%f%f);.z.-MH MW=te*tread(C:Users*uydDesktophomeworkMALE.t*t,%f%f);FA=FH FW;MA=MH MW;N1=ma*(s
10、ize(FA);h1=4;hn1=h1/(sqrt(N1);VN1=h1/(sqrt(N1);N2=ma*(size(MA);h2=4;hn2=h2/(sqrt(N2);VN2=h2/(sqrt(N2);tH tW=te*tread(C:Users*uydDesktophomeworktest2.t*t,%f%f%*s);*=tH tW;M N=size(*);s=zeros(M,1);A=*(:,1)*(:,2)s;error=0;errorgirl=0;errorboy=0;errorrate=0;errorgirlrate=0;errorboyrate=0;.z.-girl=0;boy=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 身高 体重 数据 进行 性别 分类 实验 报告
限制150内