《化学计量学 第四章.ppt》由会员分享,可在线阅读,更多相关《化学计量学 第四章.ppt(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章 化学模式识别n化学量测的目的,在于揭示量测对象的某些性质。有时,欲了解的性质是能直接测出的,例如某些元素的含量等,但更多的情况是无法直接测试这些性质,这后种性质称为“隐含”的性质。例如,做奶的分析,人们可以测出奶中蛋白质、脂肪或其它组分的百分含量。但如果需解决的是一个涉及产品辨识的问题,例如需确定给定的奶样是牛奶抑或是羊奶,这种性质无法直接量测,因奶的来源是一种隐含的性质。在这种情况下,如果分析工作者仅提供奶样的成分含量分析数据,问题并没有得到解决。n如何由分析数据(奶样成分分析结果)上升到有用信息(奶样来源的确定),以解决相关的实际问题(例如产品的真伪辨识等)?n化学模式识别正是解决
2、这类问题的化学计量学手段。实际上,在奶样的成分(分析数据)与奶样的来源(牛奶或是羊奶)之间,存在着内在的关系,这类关系可能已为相关的科学所揭示,亦可能尚属未知的关系。化学计量学的发展,使分析工作者有可能在与分析对象相关的学科提供的知识尚不完善的情况下,从分析数据中最大限度地提取有用的信息,化学模式识别成为我们化学量测数据转化为解决实际问题所需的信息的一种重要手段。目录n4.1 化学模式空间n4.2 模式空间的距离与相似性量度n4.3 线性学习机n4.4 K最近邻法n4.5 原始化学量测数据的预处理n4.6 参量选择n4.7 降维与显示技术n4.8 无监督的分类:聚类分析n4.9 化学模式识别的
3、应用4.1 化学模式空间n任何样本j可用一组参量xij(i=1,2,d)来表征。在化学模式识别文献中,这种参量值又称特征。例如第j个奶样,可以用其蛋白质含量x1j、脂肪含量x2j等来表征。在许多情况下,这些参量实际上就是原始化学量测数据。除化学量测数据外,有时还可以包含一些物理的或其它数据,例如色、香、味等。每个样本的所有量测值构成一个化学模式,或简称模式。4.1 化学模式空间n在二维空间,即当d=2时,每个模式就是平面上的一点(如下图)0 x2x1jxjx2jx1n显然,可将这一点表述为一个矢量xj,在d2的空间,完全可以定义类似的模式矢量,这种d维空间,称化学模式空间,或简称为模式空间。4
4、.1 化学模式空间n在化学模式识别中,如何选取表征样本的参量很重要,例如要确定奶样是牛奶还是羊奶,应尽量选择对牛奶和羊奶有所区别的参量(例如选定成分的含量)进行测试,摈弃对牛奶与羊奶完全等同的参量,才有可能成功地区分牛奶和羊奶。n奶样的例是一个双择分类问题,即需确定样本是属于A类或B类。如果存在这种参量,可唯一地确定样本是属于A或B,则所涉及的课题是一个简单分类问题,毋需使用化学计量学的方法。例如,设对血或尿中某一特征组分进行临床化学分析,即能确定病人是否患某种疾病。在这种情况下,化学分析数据能简单地直接转化为有用信息,但一般而言,单靠一种参量就能做直接判决的情况较为少见。4.1 化学模式空间
5、n例如下图的情况:x2x1-+-+-B+-+A +在二维空间可能区分一维空间不可分的二类样本+A、-B在一维空间,即沿x1轴或x2轴,单用x1j或x2j均无法区分A或B,但在二维空间,我们可以看出,A与B是易于区分或线性可分的。这个例子展示了由一维模式空间过渡到二维模式空间判别情况的改善(上图纯粹是示意性的)。4.1 化学模式空间n一般而言,仅增加一个参量,难有如此显著的改善,但由一维空间过渡到d维空间,d愈大,改善程度愈大,则是普遍的规律,这是由于客观世界本身就是多维的,因此,我们应善于用多维的思维方法处理问题。而提供多维数据的能力恰巧是现代仪器分析方法的特征。仍以奶样为例,用传统的分析方法
6、分析奶样,每增加一个维数,需要多使用一种奶中组分的分析方法。例如脂肪的测定方法,与蛋白质的测定方法可能完全不同。4.1 化学模式空间n但用现代色谱分析技术,即使奶中有数十个成分,在理想的情况下,仍可能设计一种分析方法,一次得到几十个色谱峰,每一个峰的位置代表了不同组分,其高度或积分面积代表了各组分的浓度。也就是说,以几十个不同的色谱峰高作为参量,可以简便地获得d值达到数十的化学模式。取得这种化学量测数据所需的时间,可能并不比用传统纯粹化学方法作一个组分测定建立一维模式所需时间更长。4.1 化学模式空间n化学模式识别的目标可表述为:给出一系列参量(化学量测值)表征的样品集,能否预测样本的某种无法
7、直接量测的有用性质?这里,当然需要假设这种无法直接量测的隐含性质,与可量测的参量之间存在某种内在的,即使是当前尚未能阐明的关联。n化学模式识别是建立在一个十分直观的基本假设之上的,这个假设就是“物以类聚”,即性质相近的样本在模式空间中所处的位置相近,它们在空间组成“簇”。这里涉及的性质是我们欲予以分类的隐含性质,例如就奶样的来源而言,由奶牛产出的奶(牛奶)都是相似的。从上图的例子看,在d维空间(此例中d=2),A与B各形成一个簇。4.1 化学模式空间n对于m个样本的集合,可写成:E=1,2,3,m簇可定义为E的一个非空子集C E 及C分簇是指划分簇C1,C2,CK(簇集),这个簇集满足以下两个
8、条件:E的每个样本均属于某一个簇C1UC2UU Ck=EE的每个样本仅属于一个簇,即对任意i jCiCj=4.1 化学模式空间n从前面的讨论,会得到一个结论:d值愈大愈好。从实践来看,以奶样为例,测试一种成分(d=1,一维模式)难于区分牛奶与羊奶,测试的组分愈多,多到包含奶中常量、微量、痕量的各种组分,则区分牛奶与羊奶的可能性愈大。但这里要注意一点,不是所有的情况下d值愈大愈好,某些模式识别技术例如后面要学到的线性学习机、线性判别分析,对维数d与样本数n之间的相关关系有一定要求。4.1 化学模式空间今取d=2,即二维平面上的例子,我们考察n较大时双择分类的情况,对属于不同类的两种样本+、-,从
9、下因可以看出:x1x2Ax2x1BA属于两个类线性可分的情况,B属于两个类线性不可分的情况。4.1 化学模式空间今设n=3,如何判别这个d=2、n=3的情况是线性可分的,还是线性不可分的?如下图:x2x1abco 3o 21 o4.1 化学模式空间n如假设1和2属于一类,3是另一类,我们可作直线a将二类分开;如2和3属一类,1属另一类,我们可借直线b将两类分开;对于1和3属一类,2属另一类的情况,则可借直线c将两类分开。可见,在此例中样本的任何随机归属都属于线性可分的情况。这里涉及的就是d和n的关系问题,当d和n接近时,甚至dn时,样本的分类问题可能失去意义。所以早期的模式识别文献中,提出了n
10、/d 3作为对样本数的最低要求,并提出n/d最好大于10,即样品的个数最好达到模式矢量维数或参量数的10倍。4.1 化学模式空间n早期模式识别文献中对n与d关系的要求,在一定程度上反映了经典的多元线性回归分析方法与线性判别分析发展的历史背景。在这些经典的多元线性判别分析发展之时,参量的量测是相对较困难的工作,至少是较之收集样本更费力的工作。因此,人们牢固地树立了一个概念:样本数应显著多于参量数。n到80年代,由于现代仪器分析的发展,测试多个参量对现代分析仪器来说已相对较容易做到,相比之下,样本的取得反而显得较为困难。能否在n数较小的情况下,增加量测参量数d,以求获得较多信息?现代化学模式识别理
11、论对这个问题的回答是肯定的4.2 模式空间的距离与相似性量度n化学模式识别的基本假设是相似的样本在模式空间处于相近的位置,如何度量二个样本在模式空间的远近?这里可应用在几何学中距离的概念,它在模式识别中是作为与“相似性”相反的“相异性”的量度使用的,任何满足下述三个条件的“相异性”均可定义为“距离”:Dij 0;如Xi=Xj,Dij=0Dij=DjiDia+Dja Dijn条件(1)及(2)表明距离应取正值且是对称的,条件(2)是作为“度量”距离与“非度量”距离的差异,在二维平面上,二点间直线距离Dij就恒小于或等于其它任何路径的长度。4.2 模式空间的距离与相似性量度nMinkowski距离
12、是一种广义的距离,对于d维空间的两个模式矢量x(x1,x2,xd)与z(z1,z2,zd),定义为:Dminkowski=(xi-zi)k1/kn在k=2时即是Euclid距离(欧氏距离),在二维或三维空间,欧氏距离是常用的距离量度。nK=1的情况称Manhattan距离(城市街区距离)Dminkowski=|xi-zi|di=1di=14.2 模式空间的距离与相似性量度n除作为“相异性”测度的距离外,距离还可定义“相似性”测度。模式xj与xk的“相似性”测度sjk可定义为:Sjk=1-Djk/Max(Djk)n上式中的Djk是xj与xk的欧氏距离,而Max(Djk)则是数据集中相距最远的两个
13、模式之间的欧式距离。显然,对于同一个模式xj,D值为零,Sjj=1,即完全相似;对于数据集中相距最远的两个模式,Sjk为0,相似性最小。4.3 线性学习机n试考察一个二维模式空间线性可分的例子,如下图:x2x1d.p.ABw+x-(X可用原点通过的矢量表示)。如:90o,属于B类,S为负值nA与B可借判块面(d.p.)分开,在本例中,d.p.是一条直线,这条直线是通过原点的,这一点总是可通过坐标旋转与变换达到。判决面可借与之正交并通过原点的权矢量w表述。试计算w与x的点积s:(x为该二维模式空间的任意一点)S=wx=/w/x/cos (4-1)是二矢量间的夹角,显然,如s为正值,x属A类,如s
14、为负,则属B类,所以判决面是一个“分类器”。4.3 线性学习机n从这个简单的例子出发,可探讨如何求出判决面,即找到一个分类器。求决策面的过程,是借助已知的A类与B类样本进行的,这一过程称为训练过程,这些已知的样本称为训练集。设有一组已知分类的样本集,可将其随机分为两部分,一部分作训练集(或称学习集、参比集)用于计算判决面;另一部分作预测集(或称检验集)用于考察找出的判决面能否用来正确地预测训练集以外的样本。分类器的优劣可通过预测正确率来表征,如下图:4.3 线性学习机已知分类的样本模式集训练集A集 B集预测集A集 B集分类器分类器的评估(预测正确率)评估4.3 线性学习机n用已知样本作训练集进
15、行训练,即让计算机向这些已知样本“学习”,这种求取分类器的模式识别方法,称为“有监督的学习”或“有老师的学习”,这里训练集就是“老师”。在本章末还要讨论一类没有训练集可用、完全依靠样本的自然特性进行分类的方法,这种情况称为“无监督的学习”或“无老师的学习”,亦称聚类分析方法。4.3 线性学习机n线性学习机是一种属有监督的学习类型的简单地寻找判决面的迭代算法。设训练的目标是找出权矢量w,开始设定一起始权矢量w0,用这一起始矢量按式(4-1)对训练集的m个样本模式一一试分类,如某一样本模式xi用当前的w不能正确分类,则对w进行修正,修正之后,继续对余下的样本进行试验,如此重复,直至用最后一次修正过
16、的w能将训练集的全部m个样本正确分类,这表明能找出正确的分类器,训练集是线性可分的;否则,训练集是线性不可分的,学习机工作失败,整个过程如下图:4.3 线性学习机起始权矢量w0样本模式计数器j=1试分类xj分类是否正确j=m?用当前的修正w是否能将全部m个模式正确分类时间限制已到?训练集线性不可分修正当前w否否是是是j=j+1否否训练集线性可分找到分类器是4.3 线性学习机n起始w0可任意选取,如能选择含有一定的分类信息的w0,则收敛速度将加快。例如可先计算训练集中每一类的形心,形心是代表一个类的模式矢量,其第i个参量元素是:Ci=1/n(xij)i=1,2,dnn是训练集中该类的样本个数,x
17、ij是第j个样本的模式矢量中第i个参量元素,故该类的形心矢量是:nc=c1,c2,cdn取训练集中两个类的形心的对称面作w0,可获较快的收敛效果。nj=14.3 线性学习机n在用当前w对训练集中的各模式矢量逐一试分类时,计算其与j个样本模式矢量xj的点积:s=wxjn如s为正,xj属A类,否则为B类;如分类结果不正确,说明w不能正确分类训练集的这一样本,需作“修正”。修正可用各种办法进行,方法之一是将当前w对应的判决面对不能正确分类的样本x进行反射,如果w不能正确分类x,说明当前判决面将x分隔到不正确的一侧。令当前的判决面对x进行反射,即可使x处于正确的一侧,如下图:4.3 线性学习机n令反射
18、的判决面所对应的权矢量为w,它与w的关系是:w=w+cxn如能求出c,即可完成这一修正,显然,用修正的w计算s应为:s=wx=-s=-wxn即数值与s相同,而符号相反,由上式求得:nc=-2s/(xx)xwc.xw12n设w与x之间的夹角为1nw与x之间的夹角为2,则:2=-1n因为1=/2+1n 2=/2-2n又因为1=2,所以1+2=4.3 线性学习机n可能在进行这种反射后,原能正确分类的样本模式会转到判决面不正确的一侧,学习机会自动发现这种情况,对该样本再进行反射,只要训练集本身确实线性可分的,线性学习机总能找到相应的判决面,但判决面的位置并不是唯一的,具体的结果与所用的起始w0及修正方
19、法相关。n学习机的方法曾用于质谱的解析,这种方法只适用于线性可分的系统,并且必须严格保持n/d3的约束条件,否则分类将无意义。4.4 K最近邻法nK最近邻法(K-NN法)是一种直接以模式识别的基本假设同类样本在模式空间相互较靠近为依据的分类方法。设想某校举行校友会活动,过去同班的老同学很自然地聚集在一起畅谈。在这种场合,从统计意义上讲,某校友属何班级,大抵可根据其最近邻的谈话者,属何班级确定。如根据一位与之直接交谈的对象确定,称1最近邻法,一般取k个最近邻进行判别较可靠,即k最近邻法。4.4 K最近邻法K最近邻法从算法上讲极为直观,而且,即使所研究的体系线性不可分,如下图的情况:x2x1+-此
20、法仍能适用。这种方法也不受n/d3条件的约束,在这种方法中,实际上是要将训练集的全体w存储在计算机内,对每一个待判别的未知样本,逐一计算其与各训练集样本之间的距离,找出其中最近的k个进行判决。4.4 K最近邻法n如k=1,很自然这1个最近邻样本属于何类,未知样本即判属该类。如k1,则这k个最近邻样本不一定都属于一类。采用“表决”的办法,对这k个最近邻的归属情况,按少数服从多数进行判决,一个近邻相当于一票,但应考虑对各票进行加权,因为距离最近的近邻的类属,应予以较重的权,按下式计算:Vt总=kj=1VtjDjVtj根据近邻j的类属取值,例如A类取+1,B类-1。Dj是待判别的样本与近邻j的距离。
21、前面讲的任何距离均可采用,亦可以Dj2代替Dj。求得的总票数Vt总如为正,则判该样本属A类,反之属B类。4.4 K最近邻法n可见,k最近邻法的分类器实际上就是全部训练集w所含的已知样本,每次判别都要针对待判别样本求其与训练集所有样本的距离,以找出k最近邻样本。这种方法原理虽极简明,但要求的计算量较大,每次判别实际上是对训练集做一次库检索。能否设法减少计算量?这就提出能否避免每次运用分类规则时必须存储并研究整个训练集w,即能否将训练集加以精简,删除一些对分类来说无关宏旨的样本。这种精简,首先需满足一个基本要求,即对来自训练集w本身的样本,用全部训练集w作K-NN分类,与用精简了的样本子集w*应得
22、相同的结果,而w*w,存储量与运算量均减少,就分类而言,称w*等价于w或称w*为对于分类而言是充分的训练样本子集。4.4 K最近邻法n提出了许多精简w的算法,此处举一例说明,设原训练集w包括x1,x2,x3,,xn共n个样本,先将xn移入当前空集的w*中,然后取x1利用w*进行K-NN分类,以奶样分类为例,设xn是牛奶样,x1是羊奶样,由于当前w*中只有一个xn,它必然是x1的最近邻,故判x1为牛奶,即分类错误,发生错误分类的原因,是w*中根本不包含羊奶样。现将x1移入w*中,将计数器j增值,试验j=j+1即x2,如x2用当前w*能正确分类,则不必将x2移入w*中,它可能是“无关宏旨”并不重要
23、的样本,去掉它训练集仍能正常用于K-NN分类。如此类推,直至找出的w*能对原训练中全部样本正确分类,如找出的w*包含原训练集中全部样本,则说明原训练集中不存在“无关宏旨”的样本,不能进行精简。如w*只包含w中部分样本,则精简成功,可用于对未知样本进行分类判决。4.4 K最近邻法nK-NN法是一个假设条件相对较少的通用的模式识别方法,K-NN法已用于质谱、核磁共振谱、红外光谱、极谱等的解析。值得提及的是,K-NN法虽然近乎对训练集的诸已知样本”检索”,但模式识别的基本思路不同于谱图检索。在作谱图检索时,如库中不包含待检查的未知样本,按常规检索方法难于给出结果。而K-NN法是根据最接近的训练集样本
24、对未知谱图的归属进行分类。显然,如能找出一个适当的充分的训练样本子集,对未知样本谱图作分类,则当谱图数据库的样本中根本不包含该未知物时,仍能提供关于未知样归属的信息。而即使是谱图库中包含有该未知样本时,如能借K-NN法以精简的w*先找出未知样本的类属,可大大缩小检索范围,减少谱图检索工作量。4.5 原始化学量测数据的预处理n分析测试一般得到的是定量的数据,但作为化学模式识别的参量,这些定量数据常需和其它类型的数据混合使用,这就会带来一些新的问题。例如临床化学分析,如果希望将原始化学分析数据转化为医疗诊断的信息,则必须将化学分析数据与其他问诊记录综合处理,这些数据往往不是定量数据,例如“有时头痛
25、”、“经常头痛”等,属于定性观测数据。4.5 原始化学量测数据的预处理n定性观测数据有不同的表达方式,如0-1编码,只回答有或无的问题,无头痛为0,有头痛为1;另一种表达方式是按序数标度,例如将“无头痛”定为0,“有时头痛”定为1,“经常头痛”定为2,当然,这并不是意味着定为2的患者头痛程度恰好2倍于定为1的患者。而定量数据,则有相对标度与绝对标度两种。相对标度中,如0与1、1与2的间隔是相等的,具有准确的定量意义,这与前面讲的定性观测所用的序数标度不同,则其零标度具有绝对意义。4.5 原始化学量测数据的预处理n对原始量测数据的一项重要预处理就是使各参量之间在数量标度上有可比性,这可通过按比例
26、调整达到。有时,某一参量的绝对值很大,而另一些参量的绝对值则很小。例如,为研究宇宙铁陨石试样的分类,测定样本中各种元素的含量作为参量,其中镍的含量约在50000ppm数量级,而镓的含量在50ppm数量级,这种情况下,镓含量变化10ppm,应与镍含量变化10000ppm的影响相当,但如果用原始量测数据不经预处理直接分类,则镓含量变化的影响将完全被镍含量的被动所掩盖。4.5 原始化学量测数据的预处理n按比例调整可解决这一问题,以每一参量的区间(即最大值xi,max与最小值xi,min之差)对该参量的值进行按区间比例调整可达到之一目的:xi,调整=xi,原始-xi,minxi,max-xi,minn
27、利用区间比例调整的方法存在一个缺陷,就是如原始数据中有某一个异常的极端值,则经过调整后所有数据都近乎相等,为避此弊,可采用基于标准正态分布的Z变换方法对数据作预处理,使每一参量均变成零均与单位方差的量:xi,调整=xi,原始-xi,原始Vi,原始式中xi,原始是第i个参量原始数据集的均值,Vi,原始为其方差。4.5 原始化学量测数据的预处理n对原始数据进行的另一种预处理是进行数据的编码与变换。前面提到的定性数据中的0-1编码,对定量数据亦可以0-1编码,如各光谱通道的强度超过某一临界值编码为1,低于此值则编码为0,不过一般的化学模式识别的实践表明,0-1类型的参量用于分类效果不理想。数据变换有
28、各种方式,许多模式识别方法要求变量在每一类范围内有较对称的分布,有时这些条件得不到满足,简单的变换如取对数往往能使情况改善。n数据预处理的另一方面是加权。对较重要的参量可赋予较大的权重。4.6 参量选择n选取合适的参量,构成合适的模式识别空间,是模式识别工作成败的一个关键。对于某些分类方法,如线性学习机,必须恪守n/d3的条件,因此,必须从大量可用的参量中选取与分类关系最大的参量。n设原始的模式矢量含有d个参量,xij,i=1,2,d。在所有的n个样本中,可以设想,方差较大的参量,即不同样本取值差异较大的参量,对分类应当作用更大。如某一变量的方差很小(极端的情况下是该变量对所有样本取相同数值,
29、方差为零),这种变量对于分类而言显然无意义。因此,我们可以方差Vi作为权因子,来度量参量xij的重要性:Vi=(xij-xi)2n-11nj=1此处,xi是该参量的均值,在选择参量时,将Vi小的参量优先弃去。4.6 参量选择n对于有监督的学习的情况,即训练集包含已知分类的样本,一种考虑是选取最能区别不同类别的参量,设同一类的样本为一组,可计算组间方差V组间,i及组内方差V组内,i,定义权因子gi:gi=V组内,iV组间,i优先选取gi值大的参量构成模式矢量进行分类。Fisher权重按下式定义:Fi=(xi1 xi2)2Vi1 Vi24.6 参量选择n式中xi1、xi2分别是训练集中类1与类2的
30、i参量的均值,Vi1与Vi2是这两类样本计算出的i参量的方差,Fi权重大,表明该参量数i对二个类而言差别大,应优先选用。n在选择参数变量时,一个重要的指导原则是尽量选择不相关的变量作参量,因为,如新选入的变量与已选入的变量显著相关,则增选这种变量陡然增加计算与存储量,而无益于信息的增加。同理在已选入大量参量时,如何从这些大量参量中找到一个互不相关的子集?在下一节将结合降维与显示技术加以讨论。4.6 参量选择n利用单个变量的方差等指标作为定量依据对变量进行选择,并不是在任何情况下都能选出最佳子集。因为不能排除被选入的变量之间存在相关关系,表面上单独考察各选入变量都能提供重要的分类信息,而实质上他
31、们之间许多信息是重复的,变量分类的能力被“高估”了。从根本上来说,对变量逐个单独计算有关统计特征来进行考察,可能是一种违反多变量世界客观规律的方法,因为单个变量不能提供区分不同类的依据,并不意味着这个变量与其他变量结合起来不能提供正确分类的的信息。单独考察两个变量时能提供二个类较大的差异,但可能这种差异是相关的同一性质;而第三个变量虽只能提供较少的差异,但可能是与前二个变量不相关的重要变量。4.6 参量选择n一般,我们在单个地选取参量时,如取误选的概率为5%(一般的置信水平,即(1-0.95)=0.05),则在存在p个变量的情况下,这种犯错误的概率已不是1-0.95=0.05,而是1-0.95
32、p。当p=7时,此值为30%,对于p=50,犯错误的概率是90%。4.7 降维与显示技术n含有d个参量的模式矢量,是d维空间中的一个点,如d等于2或3,可以直接用图形显示这些模式矢量。图形显示具有直观性,现代计算机提供了强有力的屏幕图形显示功能,而人眼具有很强的识别图形能力,同样的字由不同的人书写,人眼能识别其细微差别,辨识手迹真伪。在二维或三维空间中显示的模式分布情况,借人眼常能识别存在的分类图景,也就是说人眼是强有力的模式识别器。而当d3时,这种直接显示则不可能,这就涉及降维的问题。如何将d维空间的图景,在二维或三维空间中显示出来,并尽可能减少原d维空间中分类信息的丢失?这个问题与前一节讲
33、述的参量选择问题有密切的关系实际上,从大量参量中找出相互正交的能在给定误差范围内表述原d维空间图景的一个子集,是最合理的选择参量的方法之一。4.7 降维与显示技术n现试将参量i(共d个)在样本k(共n个)上的取值xik组成(d x n)矩阵X,将其分解得:t 22t AAt这里采用交互检验法找出A抽象因子,或称抽象参量即从原d维空间降到了A维空间,Ad。这A个抽象参量是相互正交的,取与前二个最大的特征值对应的与 对画作图,可从原d维空间投影到二维空间。例如,Jellum等用毛细管色谱法对16个脑组织试样进行分析,在色谱图中取多达156个参量(可辨认的156个峰处的峰高),组成(156X16)阶
34、矩阵X,通过将矩阵作因子分解,按上式求出与试样的对应的、对画,得到的显示图形如下:4.7 降维与显示技术三角形是有肿瘤的脑组织样。4号样本标签为“肿瘤脑组织”样。从显示图看,这个样本应是正常脑组织样。经查核,4号样确是正常脑组织误标为“肿瘤样”。从这个例子可以看出,用主成分分析的方法,取最大的2(或3)个特征值所对应的a,可在二维空间(或三维空间)显示样本在模式空间的分布,用人眼即能进行分类。这里还可以看出,1与2实际上代表了原始参量的线性组合,可认作是一种原参量的加权平均,这种情况下,原参量个数愈多,所含信息也愈多。21513151442109111612376814.7 降维与显示技术本例
35、中d=156,n=16,n/d3的规则对本例显然不成立,但是,对于上图,这里的维数是2,即d=2,n/d 3 的规则仍符合以上讨论的方法得到的是自然的分类。对于有监督的分类,可以设法使投影向与不同类样本更清晰地分开的方向进行。这种依赖于分类的投影可有不同方式,例如在投影过程中使不同类的样本两两之间距离的平方和最大,或使同类的样本两两之间距离的平方和最小,或者同时使用这两个条件进行投影。4.7 降维与显示技术另一类降维与显示技术是非线性映射,按这种方法得到的显示图形,不是原参数的线性组合。一种简单的方法是在双择分类时先计算每一类的形心,以这两个形心作为参比点,然后计算每个样本与这两个参比点间的距
36、离Di,1与Di,2,以Di,1与Di,2对画,即得各样本在二维平面上的非线性映射如下图:Di,1Di,2除传统的显示外,还可采用一些特殊的图形显示法。例如有人建议将模式参量以漫画脸型显示出来,其根据是人们对脸型有特殊的识别能力。如一个脸部图的关键组成部分与模式参量相关联,不同的样本模式将显示出不同的脸谱。4.7 降维与显示技术n显示技术也不局限于图形,还可利用其它可辨识的工具,例如声音,将化学量测数据编码为乐谱。人耳对熟悉的旋律有很强的辨听能力,可以设想,如将某种“正常”的样本的参量(例如健康人的临床化学分析数据,正常生产过程的控制参量等)编码,使计算机输出一熟知的旋律,在出现异常音调时,即
37、可辨听出有关样本偏离了正常状态。4.8 无监督的分类:聚类分析n在本章前面的讨论中,已涉及一些无监督分类的例子。无监督的分类,即聚类分析的目标,是要在化学模式空间中找到客观存在的类别。聚类分析方法可分为凝聚法与分离法两类,凝聚法开始时将每个样本认作一个类,然后由这些类逐步凝聚形成较大的类。而分割法则与之相反,开始时将所有的样本认作一个类,再逐步分割为较小的类。4.8 无监督的分类:聚类分析n一种典型的凝聚分类方法按下述步骤进行:首先计算各样本之间距离矩阵,将距离最近的样本合并,取两者在模式空间的中心点作为一个新点,重新计算各样本点及新点的距离矩阵,如此重复,每次点数减少,直至所有样本均合并到一
38、点,根据计算过程可给出谱系图。4.8 无监督的分类:聚类分析n以薄层色谱为例。设有A、B、C、D、E5个溶剂系统,分离a、b、c、d4种物质,比移值hRF(RFx100)数据列于下表:a10080 80 40 50b8060 70 20 10c7050 40 20 20d6040 50 10 104.8 无监督的分类:聚类分析n今欲将薄层色谱(TLC)体系分类,例如欲找出A-E诸溶剂中哪些是相似的,哪些是不相似的,这种信息对选择适宜的溶济体系进行二维TLC分离有意义首先将A-E各认作独立的类,由上表可计算距离阵,距离采用欧氏距离,如下表:A0B400C38.717.30D110.470.778
39、.10E111.472.180.614.104.8 无监督的分类:聚类分析n由上表可见,最小的距离是DE:即D与E是最相似的溶剂体系,可将D与E合并成一类D*。再计算各点的距离如下表:A0B40.00C38.717.30D110.971.479.304.8 无监督的分类:聚类分析n上表中C点与新的D*点间的距离,是原CD与CE间距离的均值。凝聚过程继续进行,当前最小的距离是BC,将B与C合并为B*。如下表:A0B39.30D110.975.304.8 无监督的分类:聚类分析最后将A与B*合并为A*,如下表:*A*0D93.10由上述结果可绘出谱系图如下:204060804.8 无监督的分类:聚
40、类分析n由谱系图可得到TLC体系的自然分类,如欲将溶剂体系分为两类,可将最高的连接线切断,即是A、B、C一类,D、E是另一类。如欲将分为三类,再将次高的连接线断开,即A是一类,B、C是一类,D、E是另一类。依次类推。n用图论中最小生成树方法可进行类似的运算,图由结点的集合V和边的集合E组成:V=V1,V2,VnE=e1,e2,em4.8 无监督的分类:聚类分析n其中每一条边可以一个结点对表示:ej=(Vi1,Vi2)i=1,2,m即图G可表示为:G=在一个图中边的旁侧可附加数字以描述此边的某种数量特征,这称为边的权,相应边称有权边,具有有权边的图称为有权图,如图的各结点均相互以边连接,且不形成
41、回路(起始结点与终止结点相同),则称为树,如树的各边之和为最小,称为最小生成树。最小生成树可按Kruskal算法找出这个算法十分简单,要求将权值最小的边绘入树中,但不得与已有的边形成回路。4.8 无监督的分类:聚类分析n现用同一个TLC实例说明最小生成树算法。先取最短的距离,作为最小树的边DE,次小的距离是17.3,联接BC。如下图:DE14.1DE14.1BC17.3下一个最小数的边是AC:14.117.338.7DEBCA4.8 无监督的分类:聚类分析n下一个最小数边是AB(40.0)但若绘入图中,将形成回路ABC,违反Kruskal算法,故应取再下一个最小数的边BD(70.7):BC17
42、.3A38.7D70.7E14.14.8 无监督的分类:聚类分析n将最小生成树的最大数的边切割,可得到两个类,本例中是DE和BCA;如欲再细分,可切割次大数的边(38.7),得DE、BC和A三个类,余类推。显然,这与前面叙述的方法得到的结果是相同的。n分割法较少使用,仍以TLC体系为例说明其要点。开始设A、B、C、D、E属于一类,先从A至E中找出与其它元素差异最大的元素,即计算每一元素与其它各元素的距离之和。对A而言,总距离是:AB+AC+AD+AE=300.54.8 无监督的分类:聚类分析n对B、C、D、E相应得:200.1、214.7、273.3、278.2,故A是与其他元素差异最大的元素
43、。因此,可暂将ABCDE分割为BCDE和A。现对这个临时分割的BCDE进行考察,看每一元素是较接近A,抑或较接近BCDE中其它元素。例如,对于B,A与B的距离是40.0,而B与C、D、E的平均距离是(17.3+70.7+72.1)/3=53.4,故知B与A的距离同B与C、D、E的平均距离比较,B更接近A,距离差是53.4-40.0=13.4;对C而言,C更接近A,比C与B、D、E的平均距离近20.0;对D、E而言,则D更接近B、C、E,距A较远;E亦如此。故在BCDE中,C最接近A。4.8 无监督的分类:聚类分析n将临时分割改为AC和BDE,此时又对BDE进行运算,先算B与A、C的平均距离(2
44、8.6)及与D、E的平均距离(71.4),即B更接近A、C,比与D、E的距离近42.8。同理,算得D更接近B、E(与A、C相距较远),E更接近B、D(与A、C相隔较远),故将临时分割又改成ABC及DE。现再对剩下未分割的D、E进行运算,对于D,D、E的距离是14.1,D到A、B、C的平均距离是86.4,故D更接近E。到此,可认为ABCDE的第一次分割已告确定,即应分为ABC和DE,对ABC及DE,重复前面类似的步骤,DE很自然只能分割成D和E,而ABC则首先分割成A与BC,再将BC分割成B与C。至此,每一个类只含有一个元素,分割完成。如下图:4.8 无监督的分类:聚类分析ABCDEABCDEA
45、BCBCDE4.9 化学模式识别的应用n化学模式识别为将化学量测数据转化为有用的信息提供了有力的手段,本节仅举部分实际应用的例子。n将光谱数据转化为物质化学结构的信息是化学模式识别应用的重要方面。n在前面的讨论中提到过确定奶样是牛奶或是羊奶的例子。有文献报道,用气相色谱法测定20个奶样中15种脂肪酸作参量,分类正确率达85%100%,比目测比较色谱图可靠。类似奶的来源的问题在化学量测中常会遇到。例如原油泄漏,需确定泄漏来源,追查有关责任。美国海岸巡警负责监视水域污染情况,确定清理责任,利用分析仪器与化学模式识别相结合的方法,能找出泄漏原油的来源。4.9 化学模式识别的应用n作为参量,可用中子活
46、化法分析油样中22种元素含量,用这种参量,泄漏的油样虽在天然环境中(在大气中及不同气候下)曝露发生变化,仍能有99.3%的正确分类率。在选择参量时,发现钒、镍、硫这些与原油中高分子量组分结合稳固的元素是最重要的参量,虽然经露天变化仍能保持其分辨特性。用作参量的22种元素在本例中是样本中确知其存在的物种。其实,作为化学模式识别参量,完全无需确知其是何物种的分子信号,只要这些分析信号是来自样本中存在的某种组分,就可以作为参量使用。这种情况,可称为育检技术(The blind assay technique)。4.9 化学模式识别的应用n前面叙及的脑组织的色谱数据中156个色谱峰值,就是这种育检技术
47、的实例。进行分类时,无需设法去确认这156个色谱峰代表的是脑组织中哪156种具体成分,因为这样的工作显然过于繁重,不了解这些参量的本性,并不影响利用它们鉴别正常脑组织与患肿瘤的脑组织。4.9 化学模式识别的应用n类似的实例还有各酒的商标辨识为保护威士忌的商标,需鉴定可疑的商品是否是真品。可利用酒样的气相色谱峰作参量进行这种辨识,色谱图有17个明显的峰,可直接利用这些峰作参量。研究表明,取两个峰(可能是异戊醇与乙醛的峰)即能完成这一分类。国内某地各酒的色谱图具有上百的峰,这些均可利用作为辨识的参量。为判别某一酒样是否是某种商标的产品,重要的不是要表明这上百个色谱峰是何化合物,而是要从这些峰中选出
48、能在酒样开瓶放置后,经蒸发、加水或加冰稀释后仍能辨识真品与伪品的峰。10种来源的45个薄荷油样可通过从气相色谱图上取出的12个参量正确分类。4.9 化学模式识别的应用n临床化学分析数据用于疾病诊断是化学模式识别应用的一个重要领域。根据5种临床化学分析数据,对180个病人进行聚类,取与最大的二个特征值对应的与 对画作图,能清晰地分辨甲状腺功能正常、甲状腺功能亢进与甲状腺功能减退三种情况。国内血吸虫病防冶中,血吸虫病肝硬化与门脉性肝硬化的鉴别诊断较困难。利用临床化学分析数据及其他问诊记录筹信息,借模式识别可判别这两种肝硬化疾患,对血吸虫腹水的与非腹水的判别亦可采用化学模式识别。4.9 化学模式识别
49、的应用n化学模式识别有助于将地球科学研究中有关化学量测数据转化为有用信息,陨石分类即是一个例。根据元素分析结果可进行陨石分类。取500个铁陨样本,选择13个参量进行聚类分析,发现存在17类陨石,并有15-20%异常样本,这些信息,对陨石研究有一定价值。n考古研究也是化学模式识别处理分析数据的一个重要领域。由于考古样品往往难于找到已知样,故多用无监督的分类即聚类分析。考古学的课题主要是按考古样品的地域来源、历史年代对样品进行分类,取得多维化学量测数据所用的分析方法包括发射光谱、中子活化、X射线荧光分析等。对100个欧洲的铜与青铜考古样,聚类谱系图指示存在16个类,大致与地理分布对应。对黑曜岩这种源于火山的玻璃体试样,以微量元素成分作参量进行聚类分析,发现4个类,恰与4个不同来源对应。4.9 化学模式识别的应用n法医检验是化学模式识别另一个可能的重要应用领域。例如,为侦破有关案件,可能需确定某种油污、血迹的来源,某种文件所用纸张、油墨的出处等,判别某一书写纸张是否是某一可疑对象所用的纸张常有助于破案。以分析纸样中各微量元素作参量可进行化学模式识别,有人用电热原子吸收法分析16种纸样中Cu、Mn、Sb、Cd、Cr、Co、Ag、Pb、Mg、Fe等,发现宜选用Cu、Mn、Sb、Cr、Co及纸的密度作化学模式识别参量。
限制150内