数学建模课件-多变量分析.ppt
《数学建模课件-多变量分析.ppt》由会员分享,可在线阅读,更多相关《数学建模课件-多变量分析.ppt(117页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章多变量分析(聚类分析、判别分析)内容背景v1、拼音输入法的数学原理v亚洲语言及所有非罗马的语言的计算机输入原本是个问题。v26个字母,10个数字外加一些控制键:v自然音节编码-偏傍笔划拆字-自然音节输入(螺旋升华过程)v汉字编码=拼音编码+消除歧义性编码v香农第一定律:任何编码的长度都不会小于它的信息熵。理论上,输入一个汉字平均敲键1.3次(安装非常大的语言模型)v2、新闻分类与定理v为了让计算机“算”新闻,要求把文字变成可以计算的一组数字,然后再设计一个算法来算出任意两篇新闻的相似性。v词是信息的载体v同一类新闻用词都是相似的,不同类新闻用词各不相同。v实词TF-IDF值的向量,计算向
2、量间的夹角余弦第一部分聚类分析v人们认识自然界的一种方法是对事物进行分类。人们认识自然界的一种方法是对事物进行分类。v聚类分析起源于分类学。聚类分析起源于分类学。v当观察指标较少时,人们主要依靠经验和专业知识来当观察指标较少时,人们主要依靠经验和专业知识来实现分类,但当观察指标较多时,有时仅凭经验和专实现分类,但当观察指标较多时,有时仅凭经验和专业知识难以确切地分类,于是人们逐渐把数学工具引业知识难以确切地分类,于是人们逐渐把数学工具引入到分类学中,形成了数值分类学。之后又将多元统入到分类学中,形成了数值分类学。之后又将多元统计分析技术引入数值分类学形成了聚类分析。计分析技术引入数值分类学形成
3、了聚类分析。v聚类分析讨论的对象是大量的样品,在没有任何先验聚类分析讨论的对象是大量的样品,在没有任何先验知识的情况下,要求能合理地按各自的特性来进行合知识的情况下,要求能合理地按各自的特性来进行合理的分类。理的分类。一、聚类分析的基本概念v聚类分析又称群分析,是根据聚类分析又称群分析,是根据“物以类聚物以类聚”的道理,的道理,对样品或指标进行分类的一种统计方法对样品或指标进行分类的一种统计方法 。v聚类分析根据客观的需要分为两类:聚类分析根据客观的需要分为两类:vQ Q型:对样品聚类。型:对样品聚类。v例如根据疾病的多种临床特点把某病分为轻型、一例如根据疾病的多种临床特点把某病分为轻型、一般
4、型和重型等,这是对病人分类。般型和重型等,这是对病人分类。vR R型:对变量型:对变量(观察指标观察指标)聚类。聚类。v例如儿童生长发育研究中把形态指标归为一类,把例如儿童生长发育研究中把形态指标归为一类,把机能类指标归为一类。机能类指标归为一类。Q型聚类分析的优点v1 1、综合利用多个信息对样本的进行分类。、综合利用多个信息对样本的进行分类。根据被观测样品的各种特征,将特征相根据被观测样品的各种特征,将特征相似的样品归并为一类;似的样品归并为一类;v 2 2、分类结果是直观的。聚类谱系图非、分类结果是直观的。聚类谱系图非常清楚地表现其数值分类结果;常清楚地表现其数值分类结果;v3 3、聚类分
5、析所得到的结果比传统分类方、聚类分析所得到的结果比传统分类方法更细致、全面、合理。法更细致、全面、合理。R型聚类分析的主要作用v1 1、根据被观测的指标之间的相似性,将、根据被观测的指标之间的相似性,将相似的指标归并为一类;相似的指标归并为一类;v v2 2、根据指标的分类结果以及它们之间的、根据指标的分类结果以及它们之间的关系,可以选择主要指标进行回归分析关系,可以选择主要指标进行回归分析或或Q Q型聚类分析。型聚类分析。二、聚类分析中需要的统计量v聚类分析的核心是要提出一种能客观描述研究对象之聚类分析的核心是要提出一种能客观描述研究对象之间相似程度大小的统计量以作为分类的基础,常用的间相似
6、程度大小的统计量以作为分类的基础,常用的统计量有:统计量有:v1 1、距离系数:是将每一个样品看做、距离系数:是将每一个样品看做m m维空间的点,并维空间的点,并在空间定义某种距离,距离较近的点归为一类,距离在空间定义某种距离,距离较近的点归为一类,距离较远的点应属于不同一类,距离的定义方式有各种各较远的点应属于不同一类,距离的定义方式有各种各样。常见的距离有样。常见的距离有 :绝对值距离绝对值距离 欧氏距离欧氏距离 明科夫斯基距离明科夫斯基距离 切比雪夫距离切比雪夫距离 v2 2、相似系数:用某种相似关系来描述样品之间的相关、相似系数:用某种相似关系来描述样品之间的相关程度,性质越相似的样品
7、归为一类,不怎么相似的样程度,性质越相似的样品归为一类,不怎么相似的样品归为不同一类。品归为不同一类。三、距离系数的计算公式v绝对值距离(绝对值距离(Block):):v欧几里德距离(欧几里德距离(Euclidean distance):):v 明科夫斯基距离(明科夫斯基距离(MinkowskiMinkowski):):v 切比雪夫距离(切比雪夫距离(ChebychevChebychev):):v距离系数的定义直观,容易理解和计算,在实际中应用很广。一距离系数的定义直观,容易理解和计算,在实际中应用很广。一般常用于样品的聚类(般常用于样品的聚类(Q Q型聚类分析)。型聚类分析)。距离系数存在两
8、个缺点:v1.1.它它与与各各观观察察指指标标的的量量纲纲有有关关。受受取取值值大大的的观观察察指指标标影影响响较较大大,克克服服的的方方法法是是对原始数据进行变换处理。对原始数据进行变换处理。v()中心变换()中心变换 v)标准差标准化)标准差标准化 v2.2.由于是直角坐标系上的距离,没有考由于是直角坐标系上的距离,没有考虑指标之间的相关性。虑指标之间的相关性。四、相似系数的计算公式v用某种相似关系来描述样品之间的相关程度,性用某种相似关系来描述样品之间的相关程度,性质越近的样品归为一类,不怎么相似的样品归为质越近的样品归为一类,不怎么相似的样品归为不同一类。不同一类。v常用的相似系数有常
9、用的相似系数有 :v()夹角余弦()夹角余弦(Cosine)(Cosine):它是受空间解析几何:它是受空间解析几何中向量的启发,它的定义是:中向量的启发,它的定义是:v v()()相关系数相关系数(Pearson correlation)(Pearson correlation):这是:这是回归分析中经常使用的,它的定义是:回归分析中经常使用的,它的定义是:五、聚类分析的常用分类方法本节只介绍较常用的系统聚类法(阶梯聚类法本节只介绍较常用的系统聚类法(阶梯聚类法Hierarchical clusterHierarchical cluster)和动态聚类法(快速聚和动态聚类法(快速聚类法类法K
10、-Means ClusterK-Means Cluster),其它聚类方法请见有),其它聚类方法请见有关参考资料。关参考资料。1、系统聚类法v基本思想:先将几个样品各自看成一类,选择基本思想:先将几个样品各自看成一类,选择相似程度最大的(距离系数最小或相关系数最相似程度最大的(距离系数最小或相关系数最大)样品对作为一类,然后选择相似程度次大大)样品对作为一类,然后选择相似程度次大的样品对作归类,如此续继,直到所有的样品的样品对作归类,如此续继,直到所有的样品都成一类为止,将整个聚类过程作成聚类图,都成一类为止,将整个聚类过程作成聚类图,按聚类选择适当的分类按聚类选择适当的分类 。系统聚类法包含
11、以下几个步骤v(1 1)先把各个分类对象单独视为一类;)先把各个分类对象单独视为一类;v(2 2)计计 算算 各各 个个 分分 类类 对对 象象 两两 两两 之之 间间 的的 距距 离离,得得 到最初的距离矩阵;到最初的距离矩阵;v(3 3)根根据据距距离离最最小小的的原原则则,将将距距离离最最近近(最最远远)的的两两类合并为一个新类;类合并为一个新类;v(4 4)计计算算新新类类与与剩剩下下各各类类两两两两之之间间的的距距离离,若若类类的的个个数为数为1 1,转到步骤(,转到步骤(5 5),否则回到步骤(),否则回到步骤(3 3););v(5 5)画聚类图;)画聚类图;v(6 6)决定类的个
12、数和样品所属的类别。)决定类的个数和样品所属的类别。例题1v某小学某小学1010名名9 9岁男生六个项目的智力测验岁男生六个项目的智力测验得分如下表,用聚类分析方法对这得分如下表,用聚类分析方法对这1010名名小学生按智力状况进行分类。小学生按智力状况进行分类。解:这是一个解:这是一个Q Q型聚类的问题。我们采用距型聚类的问题。我们采用距离系数作为聚类用的统计量,并用系统聚离系数作为聚类用的统计量,并用系统聚类法进行聚类。由于智力测验各项目之间类法进行聚类。由于智力测验各项目之间的数值差别不大,故直接用欧几里德距离的数值差别不大,故直接用欧几里德距离进行分类。进行分类。利用距离公式,计算出各个
13、学生之间的距利用距离公式,计算出各个学生之间的距离系数如下:离系数如下:表中间部分是样本之间的欧几里德距离系数类与类之间距离的计算方法v类类GpGp与类与类GqGq的距离用的距离用DpqDpq表示。表示。v(1)(1)最短距离法:最短距离法:v(2)(2)最短距离法:最短距离法:v(3)(3)中间距离法:新类中间距离法:新类GkGk的距离用的距离用DkDk表示。表示。v(4)(4)重心法:从物理的观点看,一个类用神经质重心作代重心法:从物理的观点看,一个类用神经质重心作代表比较合理,类与类之间用重心之间的距离来表示。表比较合理,类与类之间用重心之间的距离来表示。例题1,用最短距离法计算的类与类
14、之间的距离系数聚类树枝图根据实际的应用,把这里10名男学生的智力分为三类似乎比较合理:第一类为智力优异型,包括一个样品(样品7);第二类为智力发达型,包括8个样品(样品2,1,3,5,6,8,10,9);第三类为智力欠发达型,包括一个样品(样品4)。例2:今测得我国27个少数民族16岁男孩身高、坐高、体重、胸围、肩宽与骨盆宽6个指标如下表,今进行种族聚类分析,以探讨我国少数民族儿童体型分类与人类学特征关系。解:本例对各样品聚类,为Q型聚类分析。采用欧氏距离为聚类统计量,新类与另一类之间的类间合并递推计算采用最短距离法。首先对数据作正态标准化。结果如下表:采用欧氏距离为聚类统计量,新类与另一类之
15、间的类间合并递推计算采用最短距离法。聚类的过程用SPSS统计软件处理得到用树枝图(dendrogram)例题3v某医院36个月的六诊人次、出院人数、病床利用率、病床同转次数、平均住院次数、治疗好转率、病死率、诊断符合率、抢救成功率现业务收入共10个指标的原始数据(见表5)。拟进行聚类分析,找出各类的主要指标,进一步探讨各指标与业务收入的关系。解:本例拟对各指标聚类,为型分析。聚类统计量用相似系数,而聚类的方法用系统聚类法 根据聚类过程分析,相似系数的变化有3台阶 实例:计算机辅助分析四物汤补血作用配伍机理的研究v引自文献:中国实验方剂学杂志2000年2月第6卷第1期,(袁久荣 等)山东中医药大
16、学。v观察四物汤及拆方对乙酰苯肼和环磷酰胺所致血虚动物模型的补血作用。根据血常规检验指标及计算机聚类分析结果,各样本药物补血作用,四物汤全方作用最强;当归在方中起主要作用。四物汤是传统医学补血调血的代表方剂,由当归、熟地、川芎、白芍4味中药组成。临床上用于治疗各种血虚证患者。有关四物汤补血作用配伍机理的研究报道较少,而且也不够全面,与中医理论有一定的差距。本实验用乙酰苯肼和环磷酰胺造成小鼠血虚证模型,以各组动物的血红蛋白、红细胞计数、红细胞压积、白细胞及血小板为主要指标,通过观察四物汤中4味药按不同排列组合构成的15种样本药物对此动物模型补血作用的影响,结合计算机辅助分析,初步探明四物汤补血作
17、用的配伍机理。1药物制备v由当归、地黄、川芎、白芍各等份进行排列组合得到15种配伍,按传统水煎法制得。每种样本药物的单味生药含量均为0.625g/ml。v全方(s-1);v地黄、当归、川芎(s-2);当归、川芎(s-9);v地黄、当归、白芍(s-3);当归、白芍(s-10);v地黄、川芎、白芍(s-4);川芎、白芍(s-11);v当归、川芎、白芍(s-5);当归(s-13);v地黄、当归(s-6);地黄(-12);v地黄、川芎(s-7);川芎(s-14);v地黄、白芍(s-8);白芍(s-15);2方法和实验数据分析v昆明种小鼠200只,雌雄兼用,体重1822g,按照均衡随机原则分为17组:v
18、正常对照组(N-C),模型对照组(M-C)及15个药物组,每组11只。v各用药组给予相应的药物,两对照组给予等量自来水。v各组均于第14d一次性采血做血常规检查,参数见表1。3聚类分析v根据血常规指标均数,将15个样本进行分类。在聚类分析之前,对原始数据进行标准化处理,然后把研究对象的多种特征综合为一个可供比较研究对象之间的亲疏关系的相似性统计量。v采用组间内均值连接法连接样本点群,欧氏距离测量,数据值按顺序用组间内均值连接方法作图得图1。4结果v聚类图当距离小于16时,拆方后所得的15种配伍组合分成4类,结合实验指标的排序情况,按照对此血虚动物模型补血作用的强弱,依次分为:v四物汤全方为一类
19、;v单味药当归、川芎与3味药当归、白芍、川芎为二类;v单味药白芍为三类v其余各组为四类。v由此可对四物汤不同拆方配伍补血作用进行综合简明评价。v我们得到的结论是:对此血虚动物模型的补血作用四物汤全方最好,拆方所得的各种配伍组合均不及四物汤全方。v当归在方中起主要作用;两味药配伍中,当归与白芍、当归与熟地作用较好;v三味药配伍中,当归、白芍、川芎作用最好。v这与以往的实验研究报道有异同之处。分析可能与所选用模型不同有关,但共同点都认为四物汤全方作用最好,可见四物汤配伍是很有道理的。5讨论v血常规检查可见模型组小鼠血红蛋白、红细胞计数、红细胞压积、白细胞计数明显下降,但是对血小板影响不明显,各样本
20、药物不同程度地阻止上述指标的下降。v红细胞计数,血红蛋白,红细胞压积的各组变化有平行趋势,经客观排序后均显示最好的两组是S-1和S-5组,最差的两组是S-12和S-9组。但也有些组在3种指标的排序中位置有较大差别。原因很多,其中之一考虑是本次实验使用是溶血性贫血的模型,溶血后的红细胞碎片可能对红细胞计数有一定的干扰作用,而对血红蛋白的干扰很少,因此血红蛋白可能更能较好地反映模型贫血和药物抗贫血的程度。对白细胞减少的改善作用总体上不如对红细胞好,而且与红细胞的改善不平行,即对红细胞减少有明显改善的药物对白细胞不一定也有明显改善作用,各样本药物对血小板的作用,由于模型不成功难以评价。各组死亡率及体
21、重的下降之间没有明显的差异。2、动态聚类法v用系统聚类法,在聚类过程中需要经过用系统聚类法,在聚类过程中需要经过多次合并,计算量一般比较大,克服这多次合并,计算量一般比较大,克服这个缺点的自然想法是,先给出一个粗糙个缺点的自然想法是,先给出一个粗糙的初始分类的初始分类,然后按照某种原则进行修改,然后按照某种原则进行修改,直到分类比较合理为止。这种聚类方法直到分类比较合理为止。这种聚类方法称为动态聚类法。称为动态聚类法。动态聚类法示意图选择凝聚点初始分类最终分类修改分类分类合理?NY(1)选择凝聚点v所谓凝聚点就是一批有代表性的点,凝聚点选择的好所谓凝聚点就是一批有代表性的点,凝聚点选择的好与不
22、好,直接和初始分类有关。应慎重选择,常用以与不好,直接和初始分类有关。应慎重选择,常用以下方式选择:下方式选择:vA A、经验法:根据对问题积累的实际经验选择一批有代、经验法:根据对问题积累的实际经验选择一批有代表的样本作为凝聚点。表的样本作为凝聚点。vB B、密度法:人为确定两个正数、密度法:人为确定两个正数d1,d2(d1d2)d1,d2(d1d2),先以每先以每个样本点为球心,以个样本点为球心,以d1d1为半径,计算落在该球内样本为半径,计算落在该球内样本点的个数(密度)。选择最大密度的样本点作为第一点的个数(密度)。选择最大密度的样本点作为第一凝聚点。若密度次大的样本点与第一凝聚点的距
23、离不凝聚点。若密度次大的样本点与第一凝聚点的距离不小于小于d2d2,则该样本点作为第二凝聚点,否则,该点就则该样本点作为第二凝聚点,否则,该点就不作为新的凝聚点,依此类推下去,直到所有样本点不作为新的凝聚点,依此类推下去,直到所有样本点都考察完毕。都考察完毕。v初始凝聚点的数不宜太多,也不宜太少,一般选择初始凝聚点的数不宜太多,也不宜太少,一般选择d2=2d1d2=2d1为宜。为宜。2、初始分类v考察每个样本点与各凝聚点之间的距离,考察每个样本点与各凝聚点之间的距离,并把它们分别归到与它们最近的凝聚点并把它们分别归到与它们最近的凝聚点那类。那类。3、修改分类v若初始分类过于粗糙,需要在此基础上
24、若初始分类过于粗糙,需要在此基础上修改分类。常采用下列方式:修改分类。常采用下列方式:v以每类所计算出的重心作为新的凝聚点,以每类所计算出的重心作为新的凝聚点,再按最近距离归类的原则修改分类。再按最近距离归类的原则修改分类。例:从21个药厂抽了同类产品,每个产品测了两个指标,数据如下,试对各厂的质量情况进行分类。指标x1x2x3x4x5x6x7x8x9x10A0022445667B6553431210 x11x12x13x14x15x16x17x18x19x20 x21-4-2-3-3-5100-1-1-3322021-1-2-1-3-5采用密度法 d1=,d2=2 计算个样本之间的距离(欧氏
25、距离)各样本点密度如下:x1x2x3x4x5x6x7x8x9x10密度2234344433x11x12x13x14x15x16 x17x18x19x20 x2133432243330选择初始凝聚点x6,x13,x17,按照凝聚点的归类原则得到初始归类G1=x6,x3,x4,x5,x7,x8,x9,x19G2=x13,x2,x11,x12,x14,x15G3=x17,x18,x16,x19,x20,x21X1与x6,x13距离完全一样难以归类,修改分类,计算初始分类的重心z1(4.5,2.375),z2(-2.83,2.33),z3(-0.07,-1.83)作为新凝聚点,重新分类。G1=x3,x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 课件 多变 分析
限制150内