数学建模课件-多变量分析.ppt
第七章多变量分析(聚类分析、判别分析)内容背景v1、拼音输入法的数学原理v亚洲语言及所有非罗马的语言的计算机输入原本是个问题。v26个字母,10个数字外加一些控制键:v自然音节编码-偏傍笔划拆字-自然音节输入(螺旋升华过程)v汉字编码=拼音编码+消除歧义性编码v香农第一定律:任何编码的长度都不会小于它的信息熵。理论上,输入一个汉字平均敲键1.3次(安装非常大的语言模型)v2、新闻分类与定理v为了让计算机“算”新闻,要求把文字变成可以计算的一组数字,然后再设计一个算法来算出任意两篇新闻的相似性。v词是信息的载体v同一类新闻用词都是相似的,不同类新闻用词各不相同。v实词TF-IDF值的向量,计算向量间的夹角余弦第一部分聚类分析v人们认识自然界的一种方法是对事物进行分类。人们认识自然界的一种方法是对事物进行分类。v聚类分析起源于分类学。聚类分析起源于分类学。v当观察指标较少时,人们主要依靠经验和专业知识来当观察指标较少时,人们主要依靠经验和专业知识来实现分类,但当观察指标较多时,有时仅凭经验和专实现分类,但当观察指标较多时,有时仅凭经验和专业知识难以确切地分类,于是人们逐渐把数学工具引业知识难以确切地分类,于是人们逐渐把数学工具引入到分类学中,形成了数值分类学。之后又将多元统入到分类学中,形成了数值分类学。之后又将多元统计分析技术引入数值分类学形成了聚类分析。计分析技术引入数值分类学形成了聚类分析。v聚类分析讨论的对象是大量的样品,在没有任何先验聚类分析讨论的对象是大量的样品,在没有任何先验知识的情况下,要求能合理地按各自的特性来进行合知识的情况下,要求能合理地按各自的特性来进行合理的分类。理的分类。一、聚类分析的基本概念v聚类分析又称群分析,是根据聚类分析又称群分析,是根据“物以类聚物以类聚”的道理,的道理,对样品或指标进行分类的一种统计方法对样品或指标进行分类的一种统计方法 。v聚类分析根据客观的需要分为两类:聚类分析根据客观的需要分为两类:vQ Q型:对样品聚类。型:对样品聚类。v例如根据疾病的多种临床特点把某病分为轻型、一例如根据疾病的多种临床特点把某病分为轻型、一般型和重型等,这是对病人分类。般型和重型等,这是对病人分类。vR R型:对变量型:对变量(观察指标观察指标)聚类。聚类。v例如儿童生长发育研究中把形态指标归为一类,把例如儿童生长发育研究中把形态指标归为一类,把机能类指标归为一类。机能类指标归为一类。Q型聚类分析的优点v1 1、综合利用多个信息对样本的进行分类。、综合利用多个信息对样本的进行分类。根据被观测样品的各种特征,将特征相根据被观测样品的各种特征,将特征相似的样品归并为一类;似的样品归并为一类;v 2 2、分类结果是直观的。聚类谱系图非、分类结果是直观的。聚类谱系图非常清楚地表现其数值分类结果;常清楚地表现其数值分类结果;v3 3、聚类分析所得到的结果比传统分类方、聚类分析所得到的结果比传统分类方法更细致、全面、合理。法更细致、全面、合理。R型聚类分析的主要作用v1 1、根据被观测的指标之间的相似性,将、根据被观测的指标之间的相似性,将相似的指标归并为一类;相似的指标归并为一类;v v2 2、根据指标的分类结果以及它们之间的、根据指标的分类结果以及它们之间的关系,可以选择主要指标进行回归分析关系,可以选择主要指标进行回归分析或或Q Q型聚类分析。型聚类分析。二、聚类分析中需要的统计量v聚类分析的核心是要提出一种能客观描述研究对象之聚类分析的核心是要提出一种能客观描述研究对象之间相似程度大小的统计量以作为分类的基础,常用的间相似程度大小的统计量以作为分类的基础,常用的统计量有:统计量有:v1 1、距离系数:是将每一个样品看做、距离系数:是将每一个样品看做m m维空间的点,并维空间的点,并在空间定义某种距离,距离较近的点归为一类,距离在空间定义某种距离,距离较近的点归为一类,距离较远的点应属于不同一类,距离的定义方式有各种各较远的点应属于不同一类,距离的定义方式有各种各样。常见的距离有样。常见的距离有 :绝对值距离绝对值距离 欧氏距离欧氏距离 明科夫斯基距离明科夫斯基距离 切比雪夫距离切比雪夫距离 v2 2、相似系数:用某种相似关系来描述样品之间的相关、相似系数:用某种相似关系来描述样品之间的相关程度,性质越相似的样品归为一类,不怎么相似的样程度,性质越相似的样品归为一类,不怎么相似的样品归为不同一类。品归为不同一类。三、距离系数的计算公式v绝对值距离(绝对值距离(Block):):v欧几里德距离(欧几里德距离(Euclidean distance):):v 明科夫斯基距离(明科夫斯基距离(MinkowskiMinkowski):):v 切比雪夫距离(切比雪夫距离(ChebychevChebychev):):v距离系数的定义直观,容易理解和计算,在实际中应用很广。一距离系数的定义直观,容易理解和计算,在实际中应用很广。一般常用于样品的聚类(般常用于样品的聚类(Q Q型聚类分析)。型聚类分析)。距离系数存在两个缺点:v1.1.它它与与各各观观察察指指标标的的量量纲纲有有关关。受受取取值值大大的的观观察察指指标标影影响响较较大大,克克服服的的方方法法是是对原始数据进行变换处理。对原始数据进行变换处理。v()中心变换()中心变换 v)标准差标准化)标准差标准化 v2.2.由于是直角坐标系上的距离,没有考由于是直角坐标系上的距离,没有考虑指标之间的相关性。虑指标之间的相关性。四、相似系数的计算公式v用某种相似关系来描述样品之间的相关程度,性用某种相似关系来描述样品之间的相关程度,性质越近的样品归为一类,不怎么相似的样品归为质越近的样品归为一类,不怎么相似的样品归为不同一类。不同一类。v常用的相似系数有常用的相似系数有 :v()夹角余弦()夹角余弦(Cosine)(Cosine):它是受空间解析几何:它是受空间解析几何中向量的启发,它的定义是:中向量的启发,它的定义是:v v()()相关系数相关系数(Pearson correlation)(Pearson correlation):这是:这是回归分析中经常使用的,它的定义是:回归分析中经常使用的,它的定义是:五、聚类分析的常用分类方法本节只介绍较常用的系统聚类法(阶梯聚类法本节只介绍较常用的系统聚类法(阶梯聚类法Hierarchical clusterHierarchical cluster)和动态聚类法(快速聚和动态聚类法(快速聚类法类法K-Means ClusterK-Means Cluster),其它聚类方法请见有),其它聚类方法请见有关参考资料。关参考资料。1、系统聚类法v基本思想:先将几个样品各自看成一类,选择基本思想:先将几个样品各自看成一类,选择相似程度最大的(距离系数最小或相关系数最相似程度最大的(距离系数最小或相关系数最大)样品对作为一类,然后选择相似程度次大大)样品对作为一类,然后选择相似程度次大的样品对作归类,如此续继,直到所有的样品的样品对作归类,如此续继,直到所有的样品都成一类为止,将整个聚类过程作成聚类图,都成一类为止,将整个聚类过程作成聚类图,按聚类选择适当的分类按聚类选择适当的分类 。系统聚类法包含以下几个步骤v(1 1)先把各个分类对象单独视为一类;)先把各个分类对象单独视为一类;v(2 2)计计 算算 各各 个个 分分 类类 对对 象象 两两 两两 之之 间间 的的 距距 离离,得得 到最初的距离矩阵;到最初的距离矩阵;v(3 3)根根据据距距离离最最小小的的原原则则,将将距距离离最最近近(最最远远)的的两两类合并为一个新类;类合并为一个新类;v(4 4)计计算算新新类类与与剩剩下下各各类类两两两两之之间间的的距距离离,若若类类的的个个数为数为1 1,转到步骤(,转到步骤(5 5),否则回到步骤(),否则回到步骤(3 3););v(5 5)画聚类图;)画聚类图;v(6 6)决定类的个数和样品所属的类别。)决定类的个数和样品所属的类别。例题1v某小学某小学1010名名9 9岁男生六个项目的智力测验岁男生六个项目的智力测验得分如下表,用聚类分析方法对这得分如下表,用聚类分析方法对这1010名名小学生按智力状况进行分类。小学生按智力状况进行分类。解:这是一个解:这是一个Q Q型聚类的问题。我们采用距型聚类的问题。我们采用距离系数作为聚类用的统计量,并用系统聚离系数作为聚类用的统计量,并用系统聚类法进行聚类。由于智力测验各项目之间类法进行聚类。由于智力测验各项目之间的数值差别不大,故直接用欧几里德距离的数值差别不大,故直接用欧几里德距离进行分类。进行分类。利用距离公式,计算出各个学生之间的距利用距离公式,计算出各个学生之间的距离系数如下:离系数如下:表中间部分是样本之间的欧几里德距离系数类与类之间距离的计算方法v类类GpGp与类与类GqGq的距离用的距离用DpqDpq表示。表示。v(1)(1)最短距离法:最短距离法:v(2)(2)最短距离法:最短距离法:v(3)(3)中间距离法:新类中间距离法:新类GkGk的距离用的距离用DkDk表示。表示。v(4)(4)重心法:从物理的观点看,一个类用神经质重心作代重心法:从物理的观点看,一个类用神经质重心作代表比较合理,类与类之间用重心之间的距离来表示。表比较合理,类与类之间用重心之间的距离来表示。例题1,用最短距离法计算的类与类之间的距离系数聚类树枝图根据实际的应用,把这里10名男学生的智力分为三类似乎比较合理:第一类为智力优异型,包括一个样品(样品7);第二类为智力发达型,包括8个样品(样品2,1,3,5,6,8,10,9);第三类为智力欠发达型,包括一个样品(样品4)。例2:今测得我国27个少数民族16岁男孩身高、坐高、体重、胸围、肩宽与骨盆宽6个指标如下表,今进行种族聚类分析,以探讨我国少数民族儿童体型分类与人类学特征关系。解:本例对各样品聚类,为Q型聚类分析。采用欧氏距离为聚类统计量,新类与另一类之间的类间合并递推计算采用最短距离法。首先对数据作正态标准化。结果如下表:采用欧氏距离为聚类统计量,新类与另一类之间的类间合并递推计算采用最短距离法。聚类的过程用SPSS统计软件处理得到用树枝图(dendrogram)例题3v某医院36个月的六诊人次、出院人数、病床利用率、病床同转次数、平均住院次数、治疗好转率、病死率、诊断符合率、抢救成功率现业务收入共10个指标的原始数据(见表5)。拟进行聚类分析,找出各类的主要指标,进一步探讨各指标与业务收入的关系。解:本例拟对各指标聚类,为型分析。聚类统计量用相似系数,而聚类的方法用系统聚类法 根据聚类过程分析,相似系数的变化有3台阶 实例:计算机辅助分析四物汤补血作用配伍机理的研究v引自文献:中国实验方剂学杂志2000年2月第6卷第1期,(袁久荣 等)山东中医药大学。v观察四物汤及拆方对乙酰苯肼和环磷酰胺所致血虚动物模型的补血作用。根据血常规检验指标及计算机聚类分析结果,各样本药物补血作用,四物汤全方作用最强;当归在方中起主要作用。四物汤是传统医学补血调血的代表方剂,由当归、熟地、川芎、白芍4味中药组成。临床上用于治疗各种血虚证患者。有关四物汤补血作用配伍机理的研究报道较少,而且也不够全面,与中医理论有一定的差距。本实验用乙酰苯肼和环磷酰胺造成小鼠血虚证模型,以各组动物的血红蛋白、红细胞计数、红细胞压积、白细胞及血小板为主要指标,通过观察四物汤中4味药按不同排列组合构成的15种样本药物对此动物模型补血作用的影响,结合计算机辅助分析,初步探明四物汤补血作用的配伍机理。1药物制备v由当归、地黄、川芎、白芍各等份进行排列组合得到15种配伍,按传统水煎法制得。每种样本药物的单味生药含量均为0.625g/ml。v全方(s-1);v地黄、当归、川芎(s-2);当归、川芎(s-9);v地黄、当归、白芍(s-3);当归、白芍(s-10);v地黄、川芎、白芍(s-4);川芎、白芍(s-11);v当归、川芎、白芍(s-5);当归(s-13);v地黄、当归(s-6);地黄(-12);v地黄、川芎(s-7);川芎(s-14);v地黄、白芍(s-8);白芍(s-15);2方法和实验数据分析v昆明种小鼠200只,雌雄兼用,体重1822g,按照均衡随机原则分为17组:v正常对照组(N-C),模型对照组(M-C)及15个药物组,每组11只。v各用药组给予相应的药物,两对照组给予等量自来水。v各组均于第14d一次性采血做血常规检查,参数见表1。3聚类分析v根据血常规指标均数,将15个样本进行分类。在聚类分析之前,对原始数据进行标准化处理,然后把研究对象的多种特征综合为一个可供比较研究对象之间的亲疏关系的相似性统计量。v采用组间内均值连接法连接样本点群,欧氏距离测量,数据值按顺序用组间内均值连接方法作图得图1。4结果v聚类图当距离小于16时,拆方后所得的15种配伍组合分成4类,结合实验指标的排序情况,按照对此血虚动物模型补血作用的强弱,依次分为:v四物汤全方为一类;v单味药当归、川芎与3味药当归、白芍、川芎为二类;v单味药白芍为三类v其余各组为四类。v由此可对四物汤不同拆方配伍补血作用进行综合简明评价。v我们得到的结论是:对此血虚动物模型的补血作用四物汤全方最好,拆方所得的各种配伍组合均不及四物汤全方。v当归在方中起主要作用;两味药配伍中,当归与白芍、当归与熟地作用较好;v三味药配伍中,当归、白芍、川芎作用最好。v这与以往的实验研究报道有异同之处。分析可能与所选用模型不同有关,但共同点都认为四物汤全方作用最好,可见四物汤配伍是很有道理的。5讨论v血常规检查可见模型组小鼠血红蛋白、红细胞计数、红细胞压积、白细胞计数明显下降,但是对血小板影响不明显,各样本药物不同程度地阻止上述指标的下降。v红细胞计数,血红蛋白,红细胞压积的各组变化有平行趋势,经客观排序后均显示最好的两组是S-1和S-5组,最差的两组是S-12和S-9组。但也有些组在3种指标的排序中位置有较大差别。原因很多,其中之一考虑是本次实验使用是溶血性贫血的模型,溶血后的红细胞碎片可能对红细胞计数有一定的干扰作用,而对血红蛋白的干扰很少,因此血红蛋白可能更能较好地反映模型贫血和药物抗贫血的程度。对白细胞减少的改善作用总体上不如对红细胞好,而且与红细胞的改善不平行,即对红细胞减少有明显改善的药物对白细胞不一定也有明显改善作用,各样本药物对血小板的作用,由于模型不成功难以评价。各组死亡率及体重的下降之间没有明显的差异。2、动态聚类法v用系统聚类法,在聚类过程中需要经过用系统聚类法,在聚类过程中需要经过多次合并,计算量一般比较大,克服这多次合并,计算量一般比较大,克服这个缺点的自然想法是,先给出一个粗糙个缺点的自然想法是,先给出一个粗糙的初始分类的初始分类,然后按照某种原则进行修改,然后按照某种原则进行修改,直到分类比较合理为止。这种聚类方法直到分类比较合理为止。这种聚类方法称为动态聚类法。称为动态聚类法。动态聚类法示意图选择凝聚点初始分类最终分类修改分类分类合理?NY(1)选择凝聚点v所谓凝聚点就是一批有代表性的点,凝聚点选择的好所谓凝聚点就是一批有代表性的点,凝聚点选择的好与不好,直接和初始分类有关。应慎重选择,常用以与不好,直接和初始分类有关。应慎重选择,常用以下方式选择:下方式选择:vA A、经验法:根据对问题积累的实际经验选择一批有代、经验法:根据对问题积累的实际经验选择一批有代表的样本作为凝聚点。表的样本作为凝聚点。vB B、密度法:人为确定两个正数、密度法:人为确定两个正数d1,d2(d1d2)d1,d2(d1d2),先以每先以每个样本点为球心,以个样本点为球心,以d1d1为半径,计算落在该球内样本为半径,计算落在该球内样本点的个数(密度)。选择最大密度的样本点作为第一点的个数(密度)。选择最大密度的样本点作为第一凝聚点。若密度次大的样本点与第一凝聚点的距离不凝聚点。若密度次大的样本点与第一凝聚点的距离不小于小于d2d2,则该样本点作为第二凝聚点,否则,该点就则该样本点作为第二凝聚点,否则,该点就不作为新的凝聚点,依此类推下去,直到所有样本点不作为新的凝聚点,依此类推下去,直到所有样本点都考察完毕。都考察完毕。v初始凝聚点的数不宜太多,也不宜太少,一般选择初始凝聚点的数不宜太多,也不宜太少,一般选择d2=2d1d2=2d1为宜。为宜。2、初始分类v考察每个样本点与各凝聚点之间的距离,考察每个样本点与各凝聚点之间的距离,并把它们分别归到与它们最近的凝聚点并把它们分别归到与它们最近的凝聚点那类。那类。3、修改分类v若初始分类过于粗糙,需要在此基础上若初始分类过于粗糙,需要在此基础上修改分类。常采用下列方式:修改分类。常采用下列方式:v以每类所计算出的重心作为新的凝聚点,以每类所计算出的重心作为新的凝聚点,再按最近距离归类的原则修改分类。再按最近距离归类的原则修改分类。例:从21个药厂抽了同类产品,每个产品测了两个指标,数据如下,试对各厂的质量情况进行分类。指标x1x2x3x4x5x6x7x8x9x10A0022445667B6553431210 x11x12x13x14x15x16x17x18x19x20 x21-4-2-3-3-5100-1-1-3322021-1-2-1-3-5采用密度法 d1=,d2=2 计算个样本之间的距离(欧氏距离)各样本点密度如下:x1x2x3x4x5x6x7x8x9x10密度2234344433x11x12x13x14x15x16 x17x18x19x20 x2133432243330选择初始凝聚点x6,x13,x17,按照凝聚点的归类原则得到初始归类G1=x6,x3,x4,x5,x7,x8,x9,x19G2=x13,x2,x11,x12,x14,x15G3=x17,x18,x16,x19,x20,x21X1与x6,x13距离完全一样难以归类,修改分类,计算初始分类的重心z1(4.5,2.375),z2(-2.83,2.33),z3(-0.07,-1.83)作为新凝聚点,重新分类。G1=x3,x4,x5,x6,x7,x8,x9,x10G2=x1,x2,x11,x12,x13,x14,x15G3=x16,x17,x18,x19,x20,x21再计算第二次归类的重心m1(4.5,2.375),m2(-2.43,2.86),m3(-0.67,-1.83)作为新的凝聚点,再按归类原则重新分类,所的分类与第二次分类结果完全一样,因此修改过程结束,最终分类为:G1=x6,x3,x4,x5,x7,x8,x9,x19G2=x13,x2,x11,x12,x14,x15G3=x17,x18,x16,x19,x20,x21例题4v某小学10名9岁男生六个项目的智力测验得分如下表,用聚类分析方法对这10名小学生按智力状况进行分类。判别分析(两类判别、多类判别)一、引言v判别分析产生于判别分析产生于2020世纪世纪3030年代,是利用已知类别的样年代,是利用已知类别的样本建立判别模型,为未知类别的样本进行判别怕一种本建立判别模型,为未知类别的样本进行判别怕一种统计方法。统计方法。v判别分析的特点是根据已掌握的类别的样本数据信息,判别分析的特点是根据已掌握的类别的样本数据信息,总结出估类的规律性,建立判别公式和判别准则,当总结出估类的规律性,建立判别公式和判别准则,当遇到新的未知样本时,只要根据判别公式和判别准则,遇到新的未知样本时,只要根据判别公式和判别准则,就能判别该样本所属的类别。就能判别该样本所属的类别。v常用的判别方法主要有距离判别法,常用的判别方法主要有距离判别法,FisherFisher判别法,判别法,BayesBayes判别法,逐步判别法。判别法,逐步判别法。v判别分析有广泛的应用:临床医师需要根据病人的一判别分析有广泛的应用:临床医师需要根据病人的一系列症状、体征及检查结果来诊断该病人所患的是什系列症状、体征及检查结果来诊断该病人所患的是什么疾病(经验越丰富则诊断即判别得越准确)。么疾病(经验越丰富则诊断即判别得越准确)。v法医要判断死者是自杀还是他杀等。法医要判断死者是自杀还是他杀等。v如何使经验不很丰富的人也能够进行有效的判别,近如何使经验不很丰富的人也能够进行有效的判别,近代统计学已发展了一系列判别分析方法。来指导实际代统计学已发展了一系列判别分析方法。来指导实际工作者对事物进行正确的判别归类。工作者对事物进行正确的判别归类。判别与聚类判别与聚类v聚类分析可以对样本聚类分析可以对样本/指标进行分类,判别分析指标进行分类,判别分析只对样本进行分类。只对样本进行分类。v聚类分析事先聚类分析事先 不知道事物的类别,也不知道应不知道事物的类别,也不知道应分几类;判别分析必须事先知道事物的类别,分几类;判别分析必须事先知道事物的类别,也知道应分几类。也知道应分几类。v聚类分析不需要分类的历史资料,能直接对样聚类分析不需要分类的历史资料,能直接对样本进行分类;判别分析需要历史资料去建立判本进行分类;判别分析需要历史资料去建立判别函数,然后才能对样本进行分类。别函数,然后才能对样本进行分类。判别分析判别分析其中F isher判别是寻找合适的投影方向,使样本在投影面上类内变异最小,类间变异最大,达到判别的目的。Bayes判别则是以概率为判别依据,使得属于第k 类的样本,在第k 类中取得最大的后验概率。两种判别方法的判别结果是一致的,它们都属于线性判别。判别分析是将已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,并在此基础上建立判别准则,然后对未知类型的样品进行判别分类的多元统计方法。第一节第一节 判别分析的基本思想判别分析的基本思想v判别分析判别分析(discriminant analysis):设有:设有K个总个总体,体,G1,G2,G,Gk,希望建立一个,希望建立一个准则,对给定的一个样本准则,对给定的一个样本x,依据这,依据这个准则就个准则就能判断它是来自哪个总体。能判断它是来自哪个总体。v我们要求这种准则在某种意义下是最优的。例我们要求这种准则在某种意义下是最优的。例如,错判概率最小或判别损失最小等。可如,错判概率最小或判别损失最小等。可根据根据回代判别的准确率评估它的实用性。回代判别的准确率评估它的实用性。判别函数判别函数(discriminant function):指的是一个关于指标变量的函数。每一个指的是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数样本在指标变量上的观察值代入判别函数后可以得到一个确定的函数值。后可以得到一个确定的函数值。判别准则判别准则(discriminant rule):对样本的判别函数值进行分类的法则。对样本的判别函数值进行分类的法则。v建立判别准则:建立判别准则:v建立判别函数:其原则是,将所有样本按其判建立判别函数:其原则是,将所有样本按其判别函数值的大小和事先规定的判别原则分到不别函数值的大小和事先规定的判别原则分到不同的组里后,能使得分组结果与原样本归属最同的组里后,能使得分组结果与原样本归属最吻合。吻合。v回代样本:即计算出每一个样本的判别函数值,回代样本:即计算出每一个样本的判别函数值,并根据判别准则将样本归类。并根据判别准则将样本归类。v估计回代的错误率:即比较新的分组结果和原估计回代的错误率:即比较新的分组结果和原分组结果的差别,并以此确定判别函数的效能;分组结果的差别,并以此确定判别函数的效能;v判别新的样本:如果判别函数效能较高,可用判别新的样本:如果判别函数效能较高,可用以对新样本进行归类判别。以对新样本进行归类判别。判别分析的内容判别分析的内容判别分析的方法判别分析的方法v距离距离判别分析法:以给定样本与个总体距离为准则。判别分析法:以给定样本与个总体距离为准则。vFisherFisher判别分析法判别分析法采用采用FisherFisher判别准则:判别准则:它使得类间点的距离最大,而类内点的距离最小。它使得类间点的距离最大,而类内点的距离最小。适合于两类的判别分析。适合于两类的判别分析。vBayesBayes判别分析法判别分析法采用采用BayesBayes判别准则:判别准则:它使得每一类中的每个样本都以最大的概率进入它使得每一类中的每个样本都以最大的概率进入该类。该类。适合于多类的判别分析。适合于多类的判别分析。距离判别法距离判别法v以给定样本与个总体距离为准则。即给定一样以给定样本与个总体距离为准则。即给定一样本,其应属于与之距离最近的一个总体。由于本,其应属于与之距离最近的一个总体。由于马尔科夫距离不受量纲的影响,距离判别中,马尔科夫距离不受量纲的影响,距离判别中,往往使用马氏距离。往往使用马氏距离。v假设有两个总体假设有两个总体G1G1和和G2,G2,如果能够定义点如果能够定义点x x到到它们的距离它们的距离D(x,G1)D(x,G1)和和D(x,G2),D(x,G2),则则v如果如果D(x,G1)D(x,G2)D(x,G1)D(x,G2)则则 xG1xG1v如果如果D(x,G2)D(x,G1)D(x,G2)D(x,G1)则则 xG2xG2v如果如果D(x,G1)=D(x,G2)D(x,G1)=D(x,G2)则待判则待判第二节第二节 FisherFisher判别分析法判别分析法1.1.FisherFisher判别法是判别法是FisherFisher于于19361936年提出的。该方年提出的。该方法是按类内方差尽量小,法是按类内方差尽量小,类间方差尽量大的准类间方差尽量大的准则来建立则来建立判别函数。判别函数。从两个总体中抽取从两个总体中抽取k k个指标的样品观测数据个指标的样品观测数据x1,x2,x1,x2,xk,xk,根据,根据方差分析的思想构造一个判方差分析的思想构造一个判别函数:别函数:其中,其中,c 1,c 2,c k 是待估计的未知系数。是待估计的未知系数。称这个线性函数是称这个线性函数是Fisher判别函数。判别函数。以以p=q=k=2 来说明来说明Fisher判别分析法的基本原理和计算方法判别分析法的基本原理和计算方法根据根据Fisher判别分析法的基本原理,就是要选择一组判别分析法的基本原理,就是要选择一组适当的系数适当的系数 c 1,c 2,c k ,使得类间差异,使得类间差异D最大且最大且类内差异类内差异V最小,即,使得下式的值最小,即,使得下式的值 Q 达到最大。达到最大。根据多元函数求极值的原理和方法,使得根据多元函数求极值的原理和方法,使得 Q 取最大取最大值的点是值的点是Q 的一阶偏导函数等于的一阶偏导函数等于0的方程组的解。的方程组的解。令上述方程组的解是:令上述方程组的解是:那么,那么,Fisher判别函数估计式是:判别函数估计式是:2.建立建立Fisher判别准则判别准则令判别临界点是:令判别临界点是:设设y*是某个样本的判别函数值,则,是某个样本的判别函数值,则,Fisher判别准则判别准则是:是:如果如果 y*y0,则,则 y*A类类3.估计各项指标对判别函数的贡献率估计各项指标对判别函数的贡献率对贡献率很小的指标可以剔除,重新建立对贡献率很小的指标可以剔除,重新建立只含有重要指标的判别函数。只含有重要指标的判别函数。应用实例v例:医院工作效率和医疗质量的评定是医院管理的一个基本课题,常要寻求用少数几项指标对整个医院工作作出快速可靠的评定。某单位曾对工作质量好、中、差的三类医院的治愈率、病死率、治愈者平均住院天数、临床初步诊断符合率等24项指标作了调查2,现从中抽出质量优的(A类)及差的(B类)共20个医院的三项指标:X1床位使用率,X2治愈率,X3诊断指数进行研究,欲由这三项指标建立判别函数 vY=C1 X1+C2X2+C3X3 v用以判别医院工作质量高低。两类医院的原始观察值 解:第一步,计算各类的各指标均值,根据函数I(C1,C2,C3)取最大值的原则,建立关于C1、C2、Cm的正规方程组。第二步 解此方程组,得C1=0.007440、C2=0.032412、C3=0.048055 故判别函数为 Y0.007440 X1+0.032412X2+0.048055 X3 3、应用实例v例:仍用上节例题,除A、B两类医院外,再加上工作质量中等的医院10个,资料见下表:解:根据Bayes 判别方法,计算得到判别函数前已算得 若另有一所医院,其三项指标的观测值分别为:X1=80.83,X2=85.69,X3=90.50,如利用上述判别函数,可求得:Y(A)=743.9194(优),Y(B)=738.7728(差),Y(C)=743.7270(中)由于Y(A)最大,故判定该所医院的工作质量为A类(即工作质量优)。与前面完全一样,最后要进行回顾性效果检验,得结果如下:用一个实例来说明判别分析的基本思想v例:医院工作效率和医疗质量的评定是医院管理的一个基本课题,常要寻求用少数几项指标对整个医院工作作出快速可靠的评定。某单位曾对工作质量好、中、差的三类医院的治愈率、病死率、治愈者平均住院天数、临床初步诊断符合率等24项指标作了调查2,现从中抽出质量优的(A类)及差的(B类)共20个医院的三项指标:X1床位使用率,X2治愈率,X3诊断指数进行研究,欲由这三项指标建立判别函数 vY=C1 X1+C2X2+C3X3 v用以判别医院工作质量高低。两类医院的原始观察值 判别分析步骤v1、确定判别指标(X1,X2和X3)v2、收集数据,得到训练样本v3、根据实测资料(训练样本)用判别分析方法可建立判别函数v4、考核该判别函数是否有实用价值(回顾性考核,前瞻性考核),其符合率达到要求则可应用于实践。v5、实际应用未知类别样品的判别归类。解:第一步,计算各类的各指标均值,根据函数I(C1,C2,C3)取最大值的原则,建立关于C1、C2、Cm的正规方程组。第二步 解此方程组,得C1=0.007440、C2=0.032412、C3=0.048055 故判别函数为 Y0.007440 X1+0.032412X2+0.048055 X3 第三步确定判别函数的临界值Yc,欲求Yc,需先将A类各样品指标值代入判别函数,求出 ,再将B类各样品指标值代入,求出 确定适当的Yc,使YYc时,为A类,Y9.01,故 P Yc 则医院的工作质量为优。Y7.45故评为工作质量优。判别分析的一般步骤 判别分析通常都要建立一个判别函数,然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习,学出判断类别的规则,并作多方考核。训练样本的质量与数量至为重要。每一个体所属类别必须用“金标准”予以确认;解释变量(简称为变量或指标)X1,X2,Xp必须确实与分类有关;个体的观察值必须准确;个体的数目必须足够多。训练样本的数据内容与符号 解释变量个体号 类别变量(Y)X1 X2 Xj XP 1 X11 X12 X1j X1P y1 2 X22 X22 X2j X2P y2 i Xi1 Xi2 Xij XiP y3 n Xn1 Xn2 Xnj XnP yP 判别分析常用方法v(1)最大似然法 该法是建立在概率论中独立事件乘法定律的基础上,适用于各指标是定性的或半定量的情况。v(2)Fisher判别分析 用于两类或两类以上间判别,但常用于两类间判别,上例中应用的就是Fisher判别分析方法。v(3)Bayes判别分析 用于两类或两类以上间判别,要求各类内指标服从多元正态分布。(4 4)逐步判别分析)逐步判别分析 建立在建立在BayesBayes判别分析基判别分析基础上,它象逐步回归分析一样础上,它象逐步回归分析一样,可以在众多指标中可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数挑选一些有显著作用的指标来建立一个判别函数,使方程内的指标都有显著的判别作用而方程外的使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。指标作用都不显著。(5 5)logisticlogistic判别判别 常用于两类间判别。它不常用于两类间判别。它不要求多元正态分布的假设,故可用于各指标为两要求多元正态分布的假设,故可用于各指标为两值变量或半定量的情况。值变量或半定量的情况。一、Fisher准则下的判别分析v下面以两类判别为例,说明Fisher法的原理。设有A,B两类分别含nA,nB个样品,各测得m个指标值,其观察值表达如下:令欲建立一个判别函数Y=C1X1+C2X2+.+CmXm使得该判别函数能据指标X1、X2、Xm之值区分A、B两类。决定有C1、C2、Cm的原则有二个,一为应使A、B两类的Y值有最大的差别,即应使达到最大,也即最大,另一原则为应使同类之间的差异尽可能小。B类中Y值间的差异的度量可用:A类中类中Y值间的差异的度量可用值间的差异的度量可用:综合两个原则 C1、C2、Cm的选择,应使 达最大。由于I是Y的函数,Y又是C1、C2、Cm的函数,I的极大值可据多元函数求极值可求得C1、C2、Cm 最后的要做的事情就是利用X1,X2,Xm 提供的信息,根据判别函数Y值的大小来确定样品应属于A类还是属于B类。即要确定一个Y的临界值Yc,当YYc时,相应的样品属于A类;当Y50),则可用x2检验。当n不大时,则用F检验 由上可知,Fisher法则所确定的判别函数,须使两类的判别值满足以下要求:两类均数之差的平方与类内离均差平方和合计值的比值为最大。这样的做法,实质上是选择适当的投影方向,将m维空间中的点投影到低维空间中去,使同类的点尽可能地集中到一起,不同类的点尽可能地分开,这样就到达了分类目的。第二节 Bayes判别分析v(一).Bayes准则 v 设有定义明确的g个总体1,2,g,分别为X1,X2,Xp的多元正态分布。对于任何一个个体,若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。v 如果我们制订了一个判别分类规则,难免会发生错分现象。把实属第i类的个体错分到第j类的概率记为P(ji),这种错分造成的损失记为C(ji)。Bayes判别准则就是平均损失最小的准则。按照这个准则去找一种判别分类的规则,就是Bayes判别。(二二).).分类函数分类函数 (g g个类别,个类别,p p个指标)个指标)Bayes准则下判别分析的分类函数形式如下:Y1=C01+C11X1+C21X2+Cp1Xp Y2=C02+C12X1+C22X2+Cp2Xp Yg=C0g+C1gX1+C2gX2+CpgXp v即g个线性函数的联立方程,每个线性函数对应于某一类别。其中C0j,C1j,Cpj,(j=1,2,g)为需估计的参数。用SAS的DISCRIM过程可得到这些参数的估计值。判别函数建立后通常的判别准则为:如欲判断某样品属于上述g类中的哪一类,可将该样品的各Xi值代入式(17.1)中的各个方程,分别算出Y1,Y2,Yg等值。其中如Yf为最大则意味着该样品属第f类的概率最大,故判它属于第f类。v 事前概率(prior probability)又称先验概率。如在所研究的总体中任取一个样品,该样品属于第f类别的概率为q(yf),则称它为类别f的事前概率。例如,阑尾炎病人总体中卡他性占50,蜂窝织炎占30,坏疽性占10,腹膜炎占10;则在该总体中任取一个阑尾炎病人,该病人属于以上四型的概率分别为0.5,0.3,0.1和0.1,它们也分别是这四类的事前概率。(三三).).事前概率考虑事前概率时,判别函数如下式:Y1=C01+C11X1+C21X2+Cp1Xp+ln(q(Y1)Y2=C02+C12X1+C22X2+Cp2Xp+ln(q(Y2)Yg=C0g+C1gX1+C2gX2+CpgXp+ln(q(Yg)差别仅仅在于ln(q(Yj)项 考虑事前概率可适当提高判别的敏感性。事前概率可据于文献报道或以往的大样本研究。但是困难在于事前概率往往不容易知道;如果训练样本是从所研究的总体中随机抽取的,则可用训练样本中各类的发生频率Q(Yj)来估计各类别的事前概率q(Yj)。如果事前概率未知,而又不可以用Q(Yj)来估计q(Yj),就只能将事前概率取为相等值,即取q(Yj)=1/g。(四).事后概率v 事后概率(poster