用身高和体重数据进行性别分类的实验报告(共12页).docx
《用身高和体重数据进行性别分类的实验报告(共12页).docx》由会员分享,可在线阅读,更多相关《用身高和体重数据进行性别分类的实验报告(共12页).docx(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上实验一 用身高和/或体重数据进行性别分类姓名:学号:姓名:学号: 一、实验目的 1) 加深对 Bayes 分类器原理的理解和认识 2) 掌握 Bayes 分类器的设计方法 二、实验内容 1) 用 FAMALE.TXT 和 MALE.TXT 的数据作为训练样本集,建立Bayes 分类器; 2) 用测试样本数据 test2.txt 对该分类器进行测试; 3) 调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。三、实验步骤 1) 应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态分布假设下利用最大似然法或者贝
2、叶斯估计法估计分布密度参数,建立最小错误率 Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况.在分类器设计时可以考察采用不同先验概率(如0.5 对0.5,0.75对0.25,0.9对0.1等)进行实验,考察对决策规则和错误率的影响; 2) 用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率 Bayes 分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0
3、.75 vs. 0.25, 0.9 vs. 0.1 等)进行实验,考察对决策和错误率的影响; 3) 自行给出一个决策表,采用最小风险的Bayes 决策重复上面的某个或全部实验。 四、原理简述、程序流程图及相应结果(一)、实验一在正态分布假设下,利用最大似然法估计分布密度函数,具体过程如下:1、原理(1)、一维情况:n=1对于每个学习样本只有一个特征(取身高为特征)的简单情况: 学习样本的算术平均 样本方差的最大似然估计 (2)、最小错误率Bayes分类器 多元正态概率型下的最小错误率贝叶斯判别函数(一般情况)。判别函数: 决策规则:2、具体步骤如下A).算出各类别特征值的均值B).求出特征值的
4、协方差矩阵C).将第二步所得矩阵代入判别函数、D).将待测试样本集数据依次代入,若0,则判断其为第一类,反之为第二类。3、流程图NY最大似然法求出均值与协方差分别代入判别函数确定特征及先验概率第一类第二类(5)实验结果及分析表1. 只考虑身高的不同先验概率下男女判错统计表女生先验概率P(1)男生先验概率P(2)训练样本判错个数N1训练样本错误率1测试样本1判错个数N2测试样本1错误率2测试样本2判错个数N3测试样本2错误率30.50.51616%411.5%6622%0.250.751414%38.5%3210.7%0.10.91414%25.7%279%由表可知:对于训练样本,当女生先验概率
5、为0.25或0.1时,判别错误率最小;对于测试样本,当女生先验概率为0.1时,测试样本1判别错误率最小;为0.1时,测试样本2判别错误率最小;表2. 只考虑体重的不同先验概率下男女判错统计表女生先验概率P(1)男生先验概率P(2)训练样本判错个数N1训练样本错误率1测试样本1判错个数N2测试样本1错误率2测试样本2判错个数N3测试样本2错误率30.50.51616%823%8127%0.250.751515%514.3%4214%0.10.91212%38.5%5317.7%由表可知:对于训练样本,当女生先验概率为0.1时,判别错误率最小;对于测试样本,当女生先验概率为0.1时,测试样本1判别
6、错误率最小;为0.25时,测试样本2判别错误率最小;故可推测用最大似然估计对只考虑单特征的错误率进行计算时,先验概率越高,被判别的错误率越小;且所选取的特征对错误率也有一定影响,其影响取决于训练样本数据与测试样本数据的特征差异。(二)、实验二1、原理正态分布的监督参数估计:样品所属的类别及类条件总体概率密度函数的形式为已知,而表征概率密度函数的某些参数是未知的。本实验符合上述条件且在正态分布假设下估计分布密度参数故使用正态分布的监督参数估计(1)、对于多元正态分别,其最大似然估计的结果为:(2)、最小错误率Bayes分类器A)、判别函数:a.假设身高体重不相关 令协方差矩阵次对角元素为零,判别
7、函数可简化为:其中,, b.假设身高体重相关 判别函数可简化为:其中, , B)决策规则:2、具体步骤:a.算出各类别特征值的均值b.求出特征值的协方差矩阵c.将第二步所得矩阵代入判别函数、d.将待测试样本集数据依次代入,若0,则判断其为第一类,反之为第二类。3、程序流程图NY最大似然法求出均值与协方差分别代入判别函数确定特征及先验概率第一类第二类4、实验结果及分析A)假设身高与体重相关(以训练样本建立判别函数)表3.身高和体重相关情况下男女判错统计表女生先验概率 P(1)男生先验概率 P(2)训练样本判错个数N1训练样本错误率1测试样本1判错个数N2测试样本错误率2测试样本2判错个数N3测试
8、样本错误率30.50.51212%12.9%3210.7%0.250.751616%38.6%144.7%0.10.92424%411.4%175.7%由表可知:对于训练样本,当女生先验概率为0.5时,判别错误率最小;对于测试样本,当女生先验概率为0.5时,测试样本1判别错误率最小;为0.25时,测试样本2判别错误率最小;故可推测用最小错误率Bayes决策假设身高与体重相关当女生先验概率等于待测样本中女生样本占待测样本的概率时,错误率最小,且越远离此概率,错误率越大。最佳决策:当女生先验概率为0.5时,判别错误率较小。B)假设身高与体重不相关(以训练样本建立判别函数)表4.身高和体重不相关情况
9、下男女判错统计表女生的先验概率 P(1)男生的先验概率 P(2)训练样本判错的个数 N1训练样本的错误率1测试样本1判错的个数 N2测试样本的错误率2测试样本2判错的个数 N3测试样本的错误率30.50.51212%12.9%299.7%0.250.751414%12.9%196.3%0.10.91919%38.6%165.3%由表可知:对于训练样本,当女生先验概率为0.5时,判别错误率最小;对于测试样本,当女生先验概率为0.25或0.5时,测试样本1判别错误率最小;为0.1时,测试样本2判别错误率最小;故可推测用最小错误率Bayes决策假设身高与体重不相关时当女生先验概率等于待测样本中女生样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 身高 体重 数据 进行 性别 分类 实验 报告 12
限制150内