判别和聚类分析精.ppt
判别和聚类分析第1页,本讲稿共36页实际应用问题 1、蠓虫的分类问题 两种蠓虫Af和Apf,根据它们触角长度和翼长加以区分。假定已知类别的部分样本数据,即 9只Af蠓虫和 6只Apf蠓虫的数据。若给定一只蠓虫,如何正确地区分它属于哪一类?第2页,本讲稿共36页已知蠓虫类别的数据Af触角 1.24 1.36 1.38 1.38 1.381.41.48 1.54 1.56翼长 1.72 1.74 1.64 1.821.91.71.82 1.82 2.08Apf触角 1.14 1.181.21.26 1.281.3翼长 1.78 1.96 1.862.02.01.96未知类别的三个样本数据:(1.24,1.8)、(1.28,1.84)、(1.4,2.04)第3页,本讲稿共36页2、乳腺癌的诊断问题 通过某种医学手段利用细针穿刺进行采样,可以确定哪些乳房肿瘤为良性(benign)哪些为恶性(malignant)。医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径x1,质地x2,周长x3,面积x4,光滑度x5,紧密度x6,凹陷度x7,凹陷点数x8,对称度x9,断裂度x10。第4页,本讲稿共36页2、乳腺癌的诊断问题 现需要根据已获得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。假设已经确诊了500个病例,利用这组数据建立一种分类模型,由此诊断另外69名已做穿刺采样的患者。第5页,本讲稿共36页3、DNA序列的分类模型 假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号110 为A类,11-20为B类。要求我们从中提取已经分类了的DNA序列片段的特征和构造分类方法,并且还要衡量所用分类方法的好坏,从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列(标号2140)和182个自然DNA序列。例如A类:第6页,本讲稿共36页a1=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg;b1=gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt;需要进行特征提取,将字符转换成数据。上述两个问题极其相似,都属于分类问题。有关的分类方法有:判别分析、聚类分析、神经网络分析、粗集理论第7页,本讲稿共36页方法概述判别分析主成分分析因子分析聚类分析 现代统计分析方法与应用第8页,本讲稿共36页判别分析目的:对某一种研究对象的归属作出判断。例如:在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标去判定一个国家的经济发展程度所属类型(高、中、低等)。第9页,本讲稿共36页 设有k个类别G1,G2,Gk(总体),对任意样品x,希望建立一个准则能判定它属于哪个总体?G1G2Gkx关键是建立什么样的判别准则,判断x的归属问题。要求建立的准则在某中意义下是最优的。例如误判概率最小或错判损失最小等。判别分析的统计模型描述待判点第10页,本讲稿共36页 1=(11,12,1p)数据结构 x x1 1 x x2 2 x xp p1 12 2 n n1 1 x x1 1 x x2 2 x xp p1 12 2 n n2 2G1G2 2=(21,22,2p)待判数据的数据结构与G1,G2的数据结构一致。第11页,本讲稿共36页1、距离判别x12X=x1,x2,xn1=a1,an,2=b1,bnd2(x,G1)=(x-1)1-1(x-1)d2(x,G2)=(x-2)2-1(x-2)其中1,2分别为协方差矩阵注意:正态性假定马氏距离第12页,本讲稿共36页判别规则如下:当w(x)0时,则 xG2 当w(x)0 n=2;else n=1;endnplot(G1(:,1),G1(:,2),*,G2(:,1),G2(:,2),*,x(1),x(2),*)这是蠓虫分类的算例mcfl.m第14页,本讲稿共36页mcfl.m第15页,本讲稿共36页 当判别准则提出后,还应该研究其优良性。这里我们主要考虑误判概率。注意:1,2,1,2往往是未知的,它们可以用各总体的训练样本作估计。判别准则的评价第16页,本讲稿共36页判别情况分析在正态性的假定下,误判概率为图中阴影部分的面积。如何计算?阈值阈值点的选择极为重要。注意:如果两个总体靠得很近,则无论用何种办法,误判的概率都很大。第17页,本讲稿共36页误判率回代估计法 设G1,G2为两个总体,x(1),x(2)分别是来自两个总体的样本,其样本容量分别是n1,n2。以全体训练样本,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。回判结果如下表:其中n12表示属于G1的样品误判为G2的个数,则总的误判个数为n12+n21。误判率回代估计:回判情况回判情况 实际归类实际归类 G G1 1 G G2 2GG1 1GG2 2 n n1111 n n1212 n n2121 n n2222n1n2频率频率第18页,本讲稿共36页2、Fisher判别判别思想:通过将多维数据投影到某个方向上。投影的原则是将总体与总体之间尽可能分开,再选择合适的判别规则,将待判的样品进行分类判别。第20页,本讲稿共36页Fisher判别方法的图形解释蠓虫分类的散点图mAfApf*y=0.5448 x1-0.5070 x2第21页,本讲稿共36页Fisher判别方法概述G1,1,1G2,2,2 欲寻找线性函数 y=ax,使得来自两个总体的数据间的距离大,而来自同一个总体数据间的变异小。可以证明:a=(1-2)-1,其中1=2=第22页,本讲稿共36页Af=1.24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56;1.72,1.74,1.64,1.82,1.90,1.7,1.82,1.82,2.08;Apf=1.14,1.18,1.2,1.26,1.28,1.3;1.78,1.96,1.86,2.0,2.0,1.96;mu1=mean(Af);mu2=mean(Apf);stdr1=std(Af);stdr2=std(Apf);sr1=zscore(Af);sr2=zscore(Apf);xiefc1=cov(sr1);xiefc2=cov(sr2);sim=0.5*(xiefc1+xiefc2);nsim=inv(sim);a=(mu1-mu2)*nsimm=0.5*(mu1-mu2)*nsim*(mu1+mu2)w=1.24 1.28 1.4;1.8,1.84,2.04;y=a*wplot(Af(:,1),Af(:,2),o,Apf(:,1),Apf(:,2),*,w(1,:),w(2,:),*);计算结果:计算结果:m=-0.2267y =-0.2371 -0.2356 -0.2716第23页,本讲稿共36页AfApf第24页,本讲稿共36页聚类分析基本概念 聚类分析(Cluster Analysis)是研究“物以类聚”的一种方法。根据一批样品的多个观测指标,具体找出能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据,将相似程度较大的样品(指标)聚合为一类。第25页,本讲稿共36页方法概述 系统聚类法 动态聚类法 图论聚类法 模糊聚类法 有序聚类法第26页,本讲稿共36页2、对指标进行聚类 对指标之间的“靠近程度往往用相似系数来刻画。第27页,本讲稿共36页系统聚类法(Hierarchical Clustering)的计算步骤:1)计算n个样品两两间的距离dij,记D2)构造n个类,每个类只包含一个样品;3)合并距离最近的两类为一新类;4)计算新类与当前各类的距离;若类的个数等于1,转到5);否则回3);5)画聚类图;6)决定类的个数和类;第28页,本讲稿共36页Matlab软件对系统聚类法的实现cluster 从连接输出(linkage)中创建聚类clusterdata 从数据集合(x)中创建聚类dendrogram 画系统树状图linkage 连接数据集中的目标为二元群的层次树pdist 计算数据集合中两两元素间的距离(向量)squareform 将距离的输出向量形式定格为矩阵形式zscore 对数据矩阵 X 进行标准化处理 第29页,本讲稿共36页1、T=clusterdata(X,cutoff)其中X为数据矩阵,cutoff是创建聚类的临界值。即表示欲分成几类。以上语句等价与以下几句命令:Y=pdist(X,euclid)Z=linkage(Y,single)T=cluster(Z,cutoff)以上三组命令更加灵活,可以自由选择各种方法!各种命令解释第30页,本讲稿共36页2、T=cluster(Z,cutoff)从逐级聚类树中构造聚类,其中Z是由语句likage产生的(n-1)3阶矩阵,cutoff是创建聚类的临界值。3、Z=linkage(Y)Z=linkage(Y,method)创建逐级聚类树,其中Y是由语句pdist产生的n(n-1)/2 阶向量,method表示用何方法,默认值是欧氏距离(single)。有complete最长距离法;average类平均距离;centroid重心法;ward递增平方和等。第31页,本讲稿共36页4、Y=pdist(X)Y=pdist(X,metric)计算数据集X中两两元素间的距离,metric表示使用特定的方法,有欧氏距离euclid、标准欧氏距离SEuclid、马氏距离mahal、明可夫斯基距离Minkowski 等5、H=dendrogram(Z)H=dendrogram(Z,p)由likage产生的数据矩阵z画聚类树状图。P是结点数,默认值是30。第32页,本讲稿共36页X=7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29;7.68 50.37 11.35 13.3 19.25 14.59 2.75 14.87;9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76;9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35;10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81;BX=zscore(X);%标准化数据矩阵Y=pdist(X)%用欧氏距离计算两两之间的距离D=squareform(Y)%欧氏距离矩阵Z=linkage(Y)%最短距离法T=cluster(Z,3)%等价于 T=clusterdata(X,3)find(T=3)%第3类集合中的元素H,T=dendrogram(Z)%画聚类图例:一段程序(julei1.m)第33页,本讲稿共36页Y=11.6726 13.8054 13.1278 12.7983 24.6353 24.0591 23.5389 2.2033 3.5037 2.2159D=0 11.6726 13.8054 13.1278 12.7983 11.6726 0 24.6353 24.0591 23.5389 13.8054 24.6353 0 2.2033 3.5037 13.1278 24.0591 2.2033 0 2.2159 12.7983 23.5389 3.5037 2.2159 0Z=3.0000 4.0000 2.2033 5.0000 6.0000 2.2159 1.0000 2.0000 11.6726 7.0000 8.0000 12.7983T=1 2 3 3 3第34页,本讲稿共36页聚类树状图分析第35页,本讲稿共36页不同的分类方法有不同的分类效果!注意究竟采用哪一种分类好呢?一种方法是根据分类问题本身的知识来决定取舍;另一种方法是将几种方法的共性取出来,有争议的样本放在一边。第36页,本讲稿共36页