判别和聚类分析ppt课件.ppt
《判别和聚类分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《判别和聚类分析ppt课件.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计方法之二主讲:何仁斌实际应用问题 1、蠓虫的分类问题 两种蠓虫Af和Apf,根据它们触角长度和翼长加以区分。假定已知类别的部分样本数据,即 9只Af蠓虫和 6只Apf蠓虫的数据。 若给定一只蠓虫,如何正确地区分它属于哪一类?已知蠓虫类别的数据Af触角 1.24 1.36 1.38 1.38 1.381.41.48 1.54 1.56翼长 1.72 1.74 1.64 1.821.91.71.82 1.82 2.08Apf触角 1.14 1.181.21.26 1.281.3翼长 1.78 1.96 1.862.02.01.96未知类别的三个样本数据:(1.24,1.8)、(1.28,1
2、.84)、(1.4,2.04)2、乳腺癌的诊断问题 通过某种医学手段利用细针穿刺进行采样,可以确定哪些乳房肿瘤为良性(benign)哪些为恶性(malignant)。 医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径x1,质地x2,周长x3,面积x4,光滑度x5,紧密度x6,凹陷度x7,凹陷点数x8,对称度x9,断裂度x10。2、乳腺癌的诊断问题 现需要根据已获得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。假设已经确诊了500个病例,利用这组数据建立一种分类模型,由此诊断另外69名已做穿刺采样的患者。3、DNA序列的分类模型 假定已知两组人工已分类的DNA序列
3、(20个已知类别的人工制造的序列),其中序列标号110 为A类,11-20为B类。要求我们从中提取已经分类了的DNA序列片段的特征和构造分类方法,并且还要衡量所用分类方法的好坏,从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列(标号2140)和182个自然DNA序列。例如A类: a1=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg;b1=gttagatttaacgttttttatggaatttatg
4、gaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt; 需要进行特征提取,将字符转换成数据。上述两个问题极其相似,都属于分类问题。有关的分类方法有:判别分析、聚类分析、神经网络分析、粗集理论方法概述 判别分析 主成分分析 因子分析 聚类分析 现代统计分析方法与应用判别分析目的:对某一种研究对象的归属作出判断。例如:在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标去判定一个国家的经济发展程度所属类型(高、中、低等)。 设有k个类别G1,G2,Gk (总体),对任意样品x,希
5、望建立一个准则能判定它属于哪个总体? G1G2Gkx关键是建立什么样的判别准则,判断x的归属问题。 要求建立的准则在某中意义下是最优的。例如误判概率最小或错判损失最小等。判别分析的统计模型描述待判点 1=(11,12,1p)数据结构ijxijxG1G2 2=(21,22,2p)待判数据的数据结构与G1,G2的数据结构一致。1、距离判别x12X=x1, x2, , xp1=a1,ap, 2=b1,bpd2(x,G1)=(x-1)1-1(x-1)d2(x,G2)=(x-2)2-1(x-2)其中1,2分别为协方差矩阵注意:正态性假定马氏距离判别规则如下: 当w(x)0时, 则 xG2 当w(x)0
6、n=2;else n=1;endn %n=2plot(G1(:,1),G1(:,2),*,G2(:,1),G2(:,2),*,x(1),x(2),*) 这是蠓虫分类的算例mcfl.mmcfl.m1.11.21.31.41.51.61.61.71.81.922.1 当判别准则提出后,还应该研究其优良性。这里我们主要考虑误判概率。 注意: 1,2 ,1,2往往是未知的,它们可以用各总体的训练样本作估计。判别准则的评价判别情况分析在正态性的假定下,误判概率为图中阴影部分的面积。如何计算?阈值阈值点的选择极为重要。注意:如果两个总体靠得很近,则无论用何种办法,误判的概率都很大。误判率回代估计法 设G1
7、, G2为两个总体,x(1),x(2)分别是来自两个总体的样本,其样本容量分别是n1,n2。以全体训练样本,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。回判结果如下表:其中n12表示属于G1的样品误判为G2的个数,则总的误判个数为n12+n21。误判率回代估计:122112nnannn1n2频率频率误判率的交叉确认估计1)从总体G1的容量为n1的训练样本中,剔除其中一个样品,用剩余的n1-1的训练样本和总体G2的n2个训练样本一起建立判别函数; 2)用建立的判别函数对删除的样本作判别;3)重复以上步骤,直到n1个训练样本依次被剔除,又进行判别,其误判样品个数记为n12*。4)对总体
8、G2的训练样本重复1)2)3),其误判样品个数为n21*。*122112nnann2、Fisher判别判别思想: 通过将多维数据投影到某个方向上。投影的原则是将总体与总体之间尽可能分开,再选择合适的判别规则,将待判的样品进行分类判别。Fisher判别方法的图形解释蠓虫分类的散点图mAfApf1.11.21.31.41.51.61.61.71.81.922.1*y=0.5448 x1-0.5070 x2Fisher判别方法概述G1, 1,1G2, 2,2 欲寻找线性函数 y = ax, 使得来自两个总体的数据间的距离大,而来自同一个总体数据间的变异小。可以证明:a=(1- 2) -1, 其中1=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别 聚类分析 ppt 课件
限制150内