《《模式识别方法》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《模式识别方法》PPT课件.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、华东理工大学EastChinaUniversityofScienceAndTechnology模式识别理论及其应用简介模式识别理论及其应用简介 Pattern Recognition and its Application模式识别计算过程示意图模式识别计算过程示意图有监督模式识别(判别分析)有监督模式识别(判别分析)l如果样本的类别数是已知的,先用一组已如果样本的类别数是已知的,先用一组已知类别的化合物作为训练集,建立判别模知类别的化合物作为训练集,建立判别模型,再用建立的模型根据相似性原则来对型,再用建立的模型根据相似性原则来对未知样本进行识别,称为判别分析。判别未知样本进行识别,称为判别分
2、析。判别分析是在事先知道类别特征的情况下建立分析是在事先知道类别特征的情况下建立判别模型对样本进行识别归属,是一种有判别模型对样本进行识别归属,是一种有监督模式识别。监督模式识别。无监督模式识别(聚类分析)无监督模式识别(聚类分析)l如果预先不知道样本的类别,要在如果预先不知道样本的类别,要在学习过程中根据样本的相似性对被学习过程中根据样本的相似性对被识别的样品进行识别分类和归类,识别的样品进行识别分类和归类,称为聚类分析。聚类分析是完全依称为聚类分析。聚类分析是完全依靠样本自然特性进行识别的方法,靠样本自然特性进行识别的方法,是一种无监督模式识别。是一种无监督模式识别。常用术语常用术语l特征
3、抽提(FeatureExtraction)l训练集(TrainingSet)l预报集(PredictionSet)l识别率(RecognitionRate)l预报能力(PredictiveAbility)l留一法(LeavingOneMethod)注意事项注意事项 训练集的数据一定要可靠。训练集的数据一定要可靠。训训练练集集的的样样本本数数目目要要足足够够多多,样样本本数数m与与模模式式空空间间维维数数n 的的比比值值至至少少应应满满足足m/n3,最最好好m/n10。模模式式空空间间特特征征的的选选择择是是成成败败的的关关键键,要要选选取取与与样样本本分分类类有有关关的的特特征征,如如果果不不
4、能能包包括括与与分分类类有有关关的的主主要要特特征征,模模式式识识别别就就不不会会有有好好的的效效果。果。模式识别的数据预处理 特征抽提特征抽提模式间相似度的度量模式间相似度的度量马氏距离(Mahalanobis Distance)l 设设Xi,是从均值为是从均值为 ,协方差阵为,协方差阵为Z的总的总体体G中的样本,则它们的马氏距离为中的样本,则它们的马氏距离为l 而而Xi与总体与总体G的距离为它与均值的距离为它与均值 的距离的距离 马氏距离(Mahalanobis Distance)l其其中中Xi为为样样本本i所所有有变变量量构构成成的的p1维维向向量量,Z为为关关于于p个个变变量量的的协协
5、方方差差阵阵(pp维)。维)。l当当采采用用主主成成分分得得分分向向量量Ti替替代代Xi时时,由由于于主主成成分分向向量量正正交交,Z成成为为由由其其方方差差(特特征征值值)构构成成的的对对角角阵阵,此此时时马马氏氏距离为距离为:K-Nearest Neighbors Discrimination MethodlKNNKNN法的基本假设:法的基本假设:“同类样本在模式空同类样本在模式空间中相互较靠近间中相互较靠近”。lK K最最近近邻邻法法考考查查未未知知样样本本点点的的K K个个近近邻邻(K K为为单单数数整整数数),若若近近邻邻某某一一类类样样本本最最多多,则则可可将将未未知知样样本本判为
6、该类。判为该类。l为为了了进进行行定定量量判判别别,可可先先找找出出待待分分类类样样本本的的最最近近邻邻,并并事事先先约约定定最最近近邻邻区区域域中中的的训训练练集集样样本本数数。如如果果只只取取一一个个最最近近邻邻样样本本点点,即即样样本本数数为为,则则称称1NN1NN法法;如如果果取取个个最最近近邻邻样样本本点点,即即样样本本数数为为2 2,则则称称2NN2NN法法;如如果果样样本本数数为为K K,则则称称K K近近邻邻法法,简称简称KNNKNN法。法。KNNKNN算法算法l计算未知样本点和所有训练集样本点之间的距离。计算未知样本点和所有训练集样本点之间的距离。l从从最最小小距距离离开开始
7、始计计样样本本数数,一一直直计计到到有有K个个样样本本数数为止,此时所对应的距离就为最近邻的最小距离。为止,此时所对应的距离就为最近邻的最小距离。l如如果果在在这这个个最最小小距距离离中中,距距某某一一类类训训练练集集中中的的样样本本数多,距离又小,则可将待分类样本划到该类中。数多,距离又小,则可将待分类样本划到该类中。l优优点点:对对数数据据结结构构无无特特殊殊要要求求,简简单单易易行行,不不需需要要训练过程。训练过程。l缺缺点点:未未对对训训练练点点进进行行信信息息压压缩缩,每每判判断断一一个个点点都都要将其对所有已知点的距离计算一遍要将其对所有已知点的距离计算一遍,工作量较大。工作量较大
8、。简化的简化的KNNKNN法法类重心法类重心法l将训练集中每类样本点的重心求出,将训练集中每类样本点的重心求出,然后判别未知样本点与各类重心的距然后判别未知样本点与各类重心的距离。未知样本点距哪一类重心距离最离。未知样本点距哪一类重心距离最近,即未知样本属于哪一类。近,即未知样本属于哪一类。l例:有有两两种种地地层层,用用7 7种种指指标标的的分分析析数数据据判判别别,先先从从已已经经准准确确判判断断的的地地层层中各取中各取9 9个样本,测得的数据如下表:个样本,测得的数据如下表:将上表数据进行归一化处理后将上表数据进行归一化处理后计算两计算两类的重心得:类的重心得:C C1 1=-0.010
9、3,0.0402,-0.0246,0.0166,=-0.0103,0.0402,-0.0246,0.0166,0.0313,-0.0246,-0.0174 0.0313,-0.0246,-0.0174C C2 2=0.0103,-0.0402,0.0246,-0.0166,=0.0103,-0.0402,0.0246,-0.0166,-0.0313,0.0246,0.0174 -0.0313,0.0246,0.0174地层地层I I、IIII的每一个矢量与的每一个矢量与C C1 1和和C C2 2的距的距离分别如表离分别如表a a和表和表b b所示:所示:线性学习机法线性学习机法Linear
10、learning machineLLMl 作为模式识别中决策分类的一种方作为模式识别中决策分类的一种方法,该法希望通过某种方法,在模法,该法希望通过某种方法,在模式空间中到找到一个式空间中到找到一个判决面(此面叫做分类器),使不同类的模式点,使不同类的模式点分别位于判别面的两侧。未知模式分别位于判别面的两侧。未知模式的分类可根据它位于判别面的哪一的分类可根据它位于判别面的哪一侧来定。若判别面是一个线性超平侧来定。若判别面是一个线性超平面,面,就叫就叫线性分类器。l例:现有甲状腺病人(记为类例:现有甲状腺病人(记为类1)和正)和正常人(记为类常人(记为类2)各)各10例,分别测试例,分别测试5项
11、功能指标,测试结果见表项功能指标,测试结果见表a a和表和表b所所示。以每一类的前示。以每一类的前8个个 样本作为训练样本作为训练集(表集(表a),后),后2个作为测试集(表个作为测试集(表b)。)。用用LLM法对其进行判别。法对其进行判别。基于主成分对近红外光谱进行基于主成分对近红外光谱进行discrimination analysis的方法原理的方法原理l对建模样品的近红外光谱进行主成分分对建模样品的近红外光谱进行主成分分析,将原来上千个波长点下的近红外吸析,将原来上千个波长点下的近红外吸光值压缩为光值压缩为m个主成分得分来表示;个主成分得分来表示;l计算每一类样品在计算每一类样品在主成分
12、坐标系(即载主成分坐标系(即载荷轴、特征向量,又叫主成分光谱)荷轴、特征向量,又叫主成分光谱)下下的类重心坐标;的类重心坐标;l求每个样品到每一类重心的马氏距离,求每个样品到每一类重心的马氏距离,距哪一类马氏距离最小,该样品就归哪距哪一类马氏距离最小,该样品就归哪一类。一类。无监督模式识别法 l不不需需要要训训练练集集,对对所所研研究究的的模模式式进进行行适适当当分分类类的的问问题题则则需需要要用用无无监监督督模模式式识识别别方方法法,这这类类模模式式识识别别方方法法又又 叫叫 聚聚 类类 分分 析析 法法(clustering analysis method)。l常用聚类分析方法有:常用聚类
13、分析方法有:l分级聚类分析法Hierarchicalclusteringmethodsl最小(大)生成树法Minimun(Max)SpanningTreeMethodlK均值聚类法K-meansClusteringMethodl模糊聚类法FuzzyclusteringmethodlPCA投影分类法等等1 基于PCA的聚类分析法l因为因为 X=USVt 即即XV=USl亦即亦即XV=v1,v2,.,vA=USl可见矩阵可见矩阵US=T(亦称非标准化的得分矩阵亦称非标准化的得分矩阵)的每一个的每一个元素实际是每一个样本向量元素实际是每一个样本向量xit(i=1,2,.,n)对荷载矩对荷载矩阵阵V中
14、的每一相互正交的荷载矢量上的投影坐标(内中的每一相互正交的荷载矢量上的投影坐标(内积本质上就是投影),它反映了样本与样本之间的积本质上就是投影),它反映了样本与样本之间的相互关系相互关系;同理可得,载荷矩阵的每一个元素实际是同理可得,载荷矩阵的每一个元素实际是每一个变量向量每一个变量向量xj(j=1,2,.,d)对得分矩阵中的每一相对得分矩阵中的每一相互正交的得分矢量上的投影坐标,它反映了变量与互正交的得分矢量上的投影坐标,它反映了变量与变量之间的相互关系。变量之间的相互关系。主成分分析的数学与几何意义示意图Projection discrimination based onprincipal
15、 component analysis2基于相似统计量的分类方法l(1)一次计算形成法 该法根据相似矩阵直接按相似性的大小连接成图。该法根据相似矩阵直接按相似性的大小连接成图。首先选出最相似的一对样本,连接成组,并随时首先选出最相似的一对样本,连接成组,并随时把有关连接顺序、被连接的样品号和相似性水平把有关连接顺序、被连接的样品号和相似性水平记入连接顺序表中,连接完一对样本后,再选择记入连接顺序表中,连接完一对样本后,再选择相似性大的一对,如此依次进行,直到把所有点相似性大的一对,如此依次进行,直到把所有点都聚合为一群并得到一个连接顺序表,根据该表都聚合为一群并得到一个连接顺序表,根据该表作出
16、分类谱系图。作出分类谱系图。li)若若选选出出的的一一对对样样本本在在已已形形成成的的组组中中均均未未出现过,则将它们形成一个独立的新组。出现过,则将它们形成一个独立的新组。lii)若若选选出出的的一一对对样样本本中中有有一一个个在在已已经经分分好好的的组组中中出出现现过过,则则把把另另一一个个样样品品加加入入该该组组中。中。liii)若若选选出出的的两两对对样样品品都都分分别别出出现现在在两两个个组中,则把这两个组合并为一个组。组中,则把这两个组合并为一个组。liv)若若选选出出的的一一对对样样品品都都在在同同一一组组中中则则不不需需再分组。再分组。某铜镍矿床样品的聚类分析谱系图某铜镍矿床样
17、品的聚类分析谱系图l(2)最大生成树法LargestSpanningTreeMethodl上上图图点点与与点点之之间间的的数数据据叫叫作作路径强度,表表示示两两样样本本点点间间的的相相似似程程度度。如如果果一一个个路路径径的的起起点点与与终终点点重重合合,称称这这条条路路径径构构成成一一个个回路,对对于于图图中中砍砍去去某某些些边边得得到到的的树树叫叫生成树。若若某某生生成成树树所所有有路路径径的的强强度度都都大大于于或或等等于于其其它它生生成成树树的的路路径径强强度度,则则称称此此生生成成树树为为最大生成树。l只只要要找找到到相相似似关关图图的的最最大大生生成成树树,就就可可以以根根据据最最
18、大大生生成成树树进进行行模模糊糊聚聚类类分分析析,其其分分类类准准则则是是:对对于于规规定定的的阈阈值值水水平平,路路径径强强度度大大于于 的顶点可归为一类。的顶点可归为一类。根据最大生成树进行聚类分析的方法如下:根据最大生成树进行聚类分析的方法如下:(1)先先连连接接路路径径强强度度最最大大的的两两点点,然然后后连连接接路路径强度次大的两点;径强度次大的两点;(2)继继续续连连接接所所剩剩下下点点的的最最大大路路径径强强度度的的两两点点,直到所有的点都被连接;直到所有的点都被连接;(3)对对连连接接所所得得到到的的树树进进行行检检查查,找找到到最最小小路路径径的的边边,将将其其割割断断就就得
19、得到到两两类类,如如此此继继续续分分割割,直至类数已达到所要分的类数。直至类数已达到所要分的类数。l l l 模式识别在分析化学中的应用l谱图解析 理理想想的的谱谱图图解解析析方方法法是是彻彻底底弄弄清清各各种种谱谱图图产产生生的的机机理理,从从理理论论上上完完成成从从实实测测谱谱图图到到化化学学成成分分、分分子子结结构构、化化学学键键等等化化学学信信息息的的变变换换。但但实实际际上上很很难难完全做到这点。完全做到这点。谱谱图图数数据据的的急急剧剧增增加加使使得得单单凭凭少少数数有有经经验验的的专专家家来来做做谱谱图图解解析析已已不不能能满满足足需要。需要。l计算机图谱解析技术:计算机图谱解析
20、技术:(1)数据库图谱显示方法将将大大量量已已知知化化合合物物的的图图谱谱存存入入数数据据库库,通通过过检检索的方祛来识别谱图。索的方祛来识别谱图。(2)模式识别法利用已知谱图作训利用已知谱图作训练集,对未知物的谱图作分类、鉴别练集,对未知物的谱图作分类、鉴别以至结构测定等等以至结构测定等等(例如近红外仪软例如近红外仪软件中的定性分析软件)。件中的定性分析软件)。模式识别方法有某种模式识别方法有某种“举一反三举一反三”的功能,的功能,能从大量已知化合物图谱抽提具有较普遍意能从大量已知化合物图谱抽提具有较普遍意义的规律,用来对未知化合物的谱图分类。义的规律,用来对未知化合物的谱图分类。这使得模式
21、识别方法在谱图解析、分析化学、这使得模式识别方法在谱图解析、分析化学、结构确定等方面有重要的实际意义。结构确定等方面有重要的实际意义。迄今为止,质谱、原子光谱、红外光谱、核迄今为止,质谱、原子光谱、红外光谱、核磁共振谱、磁共振谱、射线谱、色谱、极谱等的谱图射线谱、色谱、极谱等的谱图识别都已用了模式识别方法,不同程度地收识别都已用了模式识别方法,不同程度地收到效果。这方面的研究工作是现代分析化学到效果。这方面的研究工作是现代分析化学的前沿课题之一。的前沿课题之一。(3)模式识别在核磁共振谱解析中的应用 l用用1H-NMR谱谱按按2.5Hz区区段段(总总频频率率范范围围0500Hz)取取200个个模模式式向向量量的的分分量量用用于于识识别分子结构。别分子结构。l用模拟的用模拟的NMR谱演示线性分类法识别乙基、谱演示线性分类法识别乙基、正丙基和异丙基等基团。但用正丙基和异丙基等基团。但用99个个NMR谱谱作线性判别函数分类时,因线性可分,预作线性判别函数分类时,因线性可分,预报能力仅报能力仅45%。改用。改用K最近邻法则分类结最近邻法则分类结果大有改进,预报能力达果大有改进,预报能力达93%。
限制150内