判别和聚类分析精.ppt
《判别和聚类分析精.ppt》由会员分享,可在线阅读,更多相关《判别和聚类分析精.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、判别和聚类分析第1页,本讲稿共36页实际应用问题 1、蠓虫的分类问题 两种蠓虫Af和Apf,根据它们触角长度和翼长加以区分。假定已知类别的部分样本数据,即 9只Af蠓虫和 6只Apf蠓虫的数据。若给定一只蠓虫,如何正确地区分它属于哪一类?第2页,本讲稿共36页已知蠓虫类别的数据Af触角 1.24 1.36 1.38 1.38 1.381.41.48 1.54 1.56翼长 1.72 1.74 1.64 1.821.91.71.82 1.82 2.08Apf触角 1.14 1.181.21.26 1.281.3翼长 1.78 1.96 1.862.02.01.96未知类别的三个样本数据:(1.2
2、4,1.8)、(1.28,1.84)、(1.4,2.04)第3页,本讲稿共36页2、乳腺癌的诊断问题 通过某种医学手段利用细针穿刺进行采样,可以确定哪些乳房肿瘤为良性(benign)哪些为恶性(malignant)。医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径x1,质地x2,周长x3,面积x4,光滑度x5,紧密度x6,凹陷度x7,凹陷点数x8,对称度x9,断裂度x10。第4页,本讲稿共36页2、乳腺癌的诊断问题 现需要根据已获得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。假设已经确诊了500个病例,利用这组数据建立一种分类模型,由此诊断另外69名已做穿刺采
3、样的患者。第5页,本讲稿共36页3、DNA序列的分类模型 假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号110 为A类,11-20为B类。要求我们从中提取已经分类了的DNA序列片段的特征和构造分类方法,并且还要衡量所用分类方法的好坏,从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列(标号2140)和182个自然DNA序列。例如A类:第6页,本讲稿共36页a1=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtg
4、aagggggatatgaccgcttgg;b1=gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt;需要进行特征提取,将字符转换成数据。上述两个问题极其相似,都属于分类问题。有关的分类方法有:判别分析、聚类分析、神经网络分析、粗集理论第7页,本讲稿共36页方法概述判别分析主成分分析因子分析聚类分析 现代统计分析方法与应用第8页,本讲稿共36页判别分析目的:对某一种研究对象的归属作出判断。例如:在经济学中,根据人均国民收入、人
5、均消费水平、人均住房面积等多种指标去判定一个国家的经济发展程度所属类型(高、中、低等)。第9页,本讲稿共36页 设有k个类别G1,G2,Gk(总体),对任意样品x,希望建立一个准则能判定它属于哪个总体?G1G2Gkx关键是建立什么样的判别准则,判断x的归属问题。要求建立的准则在某中意义下是最优的。例如误判概率最小或错判损失最小等。判别分析的统计模型描述待判点第10页,本讲稿共36页 1=(11,12,1p)数据结构 x x1 1 x x2 2 x xp p1 12 2 n n1 1 x x1 1 x x2 2 x xp p1 12 2 n n2 2G1G2 2=(21,22,2p)待判数据的数
6、据结构与G1,G2的数据结构一致。第11页,本讲稿共36页1、距离判别x12X=x1,x2,xn1=a1,an,2=b1,bnd2(x,G1)=(x-1)1-1(x-1)d2(x,G2)=(x-2)2-1(x-2)其中1,2分别为协方差矩阵注意:正态性假定马氏距离第12页,本讲稿共36页判别规则如下:当w(x)0时,则 xG2 当w(x)0 n=2;else n=1;endnplot(G1(:,1),G1(:,2),*,G2(:,1),G2(:,2),*,x(1),x(2),*)这是蠓虫分类的算例mcfl.m第14页,本讲稿共36页mcfl.m第15页,本讲稿共36页 当判别准则提出后,还应该
7、研究其优良性。这里我们主要考虑误判概率。注意:1,2,1,2往往是未知的,它们可以用各总体的训练样本作估计。判别准则的评价第16页,本讲稿共36页判别情况分析在正态性的假定下,误判概率为图中阴影部分的面积。如何计算?阈值阈值点的选择极为重要。注意:如果两个总体靠得很近,则无论用何种办法,误判的概率都很大。第17页,本讲稿共36页误判率回代估计法 设G1,G2为两个总体,x(1),x(2)分别是来自两个总体的样本,其样本容量分别是n1,n2。以全体训练样本,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。回判结果如下表:其中n12表示属于G1的样品误判为G2的个数,则总的误判个数为n12
8、+n21。误判率回代估计:回判情况回判情况 实际归类实际归类 G G1 1 G G2 2GG1 1GG2 2 n n1111 n n1212 n n2121 n n2222n1n2频率频率第18页,本讲稿共36页2、Fisher判别判别思想:通过将多维数据投影到某个方向上。投影的原则是将总体与总体之间尽可能分开,再选择合适的判别规则,将待判的样品进行分类判别。第20页,本讲稿共36页Fisher判别方法的图形解释蠓虫分类的散点图mAfApf*y=0.5448 x1-0.5070 x2第21页,本讲稿共36页Fisher判别方法概述G1,1,1G2,2,2 欲寻找线性函数 y=ax,使得来自两个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别 聚类分析
限制150内