模式识别的基本理论(共6页).doc
精选优质文档-倾情为你奉上模式识别的基本理论蝙蝠的雷达系统、螳螂的视觉的灵敏度都是非常高的。这些动物通过这些特异的功能来识别各式各样的东西并赖以生存。识别也是人类的一项基本技能。当人们看到某事物或现象时,人们会先收集该事物或现象的信息,然后将其与头脑中已有的相关信息相比较,如果找到一个相同或相似的匹配,人们就可以将该事物或现象识别出来。随着计算机的出现以及人工智能的兴起,将人类的识别技能赋予计算机成为一项新兴课题。4.1 模式识别的概述模式识别(Pattern Recognition)是人类的一项基本智能,在日常生活中,人们经常在进行“模式识别”。随着20世纪40年代计算机的出现以及50年代人工智能的兴起,人们当然也希望能用计算机来代替或扩展人类的部分脑力劳动。(计算机)模式识别在20世纪60年代初迅速发展并成为一门新学科。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。例如自适应或自组织的模式识别系统包含了人工智能的学习机制;人工智能研究的景物理解、自然语言理解也包含模式识别问题。又如模式识别中的预处理和特征抽取环节应用图像处理的技术;图像处理中的图像分析也应用模式识别的技术。模式识别是人工智能最早的研究领域之一,它的狭义研究目标是为计算机配置各种感觉器官,以便直接接受外界的各种信息,如图形识别、语言识别等。它的研究目标可以包括对于许多复杂事物的分类,如故障诊断、气象分型等。但模式识别又不是简单的分类学,它的目标包括对于系统的描述、理解与综合,是通过大量信息对复杂过程进行学习、判断和寻找规律。模式识别的应用几乎遍及各个学科领域,同时模式识别也广泛地应用于石油工业领域。此章通过保护储集层钻井液体系的优选,介绍模式识别方法在保护油气储集层技术中的应用14。从模式识别用于对复杂类事物的分类来讲。模式识别就是已知某类事物有若干标准类别(模式),现判断某一具体对象属于哪一个模式。这里所说的模式是指标准样本、式样、样品、图形、症状等。模式识别与传统的数学观点不同,它暂不去追求精确地数学模型,而是在专家经验和已有认识的基础上,从所得的大量数据和历史出发,利用数学方法来完成识别过程。它是一门基于概念基础上的判断学科。4.2 模式识别的基本概念4.2.1 模式与模式识别一般认为,模式是通过对具体的事物进行观测所得到的具有时间与空间分布的信息,模式所属的类别或同一类中的模式的总体称为模式类,其中个别具体的模式往往称为样本。模式识别就是研究通过计算机自动的(或人为进行少量干预)将待识别的模式分配到各个模式类中的技术。样本预处理特征选择与提取分类器设计分类结果(识别结果)图4-1 模式识别的基本框架模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。它的研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家的研究内容,属于认知科学的范畴;后者通过数学家、信息学专家和计算机科学工作者近几十年的努力,已经取得了系统的研究成果。4.2.2 模式识别的特点从模式识别的起源、目的、方法、应用、现状及发展和它同其他领域的关系来考察,可以把他的特点概括的描述如下:(1) 模式识别是用机器模仿大脑的识别过程的,设计很大的数据集合,并自动的以高速度作出决策。(2) 模式识别不象纯数学,而是抽象加上实验的一个领域。它的这个性质常常导致不平凡的和比较有成效的应用,而应用又促进进一步的研究和发展。由于它和应用的关系密切,应此它又被认为是一门工程学科。(3) 学习(自适应性)是模式识别的一个重要的过程和标志。但是,编制学习程序比较困难,而有效地消除这种程序中的错误更难,因为这种程序是有智能的。(4) 同人的能力相比,现有模式识别的能力仍然是相当薄弱的(对图案和颜色的识别除外),机器通常不能对付大多数困难问题。采用交互识别法可以在较大程度上克服这一困难,当机器不能做出一个可靠的决策时,它可以求助于操作人。4.2.3 模式识别的主要方法模式识别方法大致可以分为4类:统计决策法、结构模式识别方法、模糊模式识别方法与基于人工智能方法。其中基于人工智能的方法本文主要介绍人工神经网络模式识别方法15。前两种方法发展得比较早,理论相对也比较成熟,在早期的模式识别中应用较多。后两种方法目前的应用较多,由于模糊方法更合乎逻辑、神经网络方法具有较强的解决复杂模式识别的能力,因此日益得到人们的重视。(1) 统计决策法统计决策法以概率论和数理统计为基础,它包括参数方法和非参数方法。参数方法主要以Bayes决策准则为指导。其中最小错误率和最小风险贝叶斯决策是最常用的两种决策方法。假定特征对于给定类的影响独立于其他特征,在决策分类的类别N已知与各类别的先验概率P(ui)及类条件概率密度P(X1i)已知的情况下,对于一特征矢量X根据公式计算待检模式在各类中发生的后验概率P(iX1),后验概率最大的类别即为该模式所属类别。在这样的条件下,模式识别问题转化为一个后验概率的计算问题。在贝叶斯决策的基础上,根据各种错误决策造成损失的不同,人们提出基于贝叶斯风险的决策,即计算给定特征矢量X在各种决策中的条件风险大小,找出其中风险最小的决策。参数估计方法的理论基础是样本数目趋近于无穷大时的渐进理论。在样本数目很大时,参数估计的结果才趋近于真实的模型。然而实际样本数目总是有限的,很难满足这一要求。另外参数估计的另一个前提条件是特征独立性,这一点有时和实际差别较大。(2) 结构模式识别结构模式识别是利用模式的结构描述与句法描述之间的相似性对模式进行分类。每个模式由它的各个子部分(称为子模式或模式基元)的组合来表示。对模式的识别常以句法分析的方式进行,即依据给定的一组句法规则来剖析模式的结构。当模式中每一个基元被辨认后,识别过程就可通过执行语法分析来实现。选择合适的基元是结构模式识别的关键。结构模式识别主要用于文字识别、遥感图形的识别与分析、纹理图像的分析中。该方法的特点是识别方便,能够反映模式的结构特征,能描述模式的性质,对图像畸变的抗干扰能力较强。如何选择基元是本方法的一个关键问题,尤其是当存在干扰及噪声时,抽取基元更困难,且易失误。(3) 模糊模式识别1965年Zadeh提出了他著名的模糊集理论,使人们认识事物的传统二值0,1逻辑转化为(0,1)区间上的逻辑, 这种刻画事物的方法改变了人们以往单纯地通过事物内涵来描述其特征的片面方式,并提供了能综合事物内涵与外延性态的合理数学模型隶属度函数。对于A、B两类问题,传统二值逻辑认为样本C要么属于A,要么属于B,但是模糊逻辑认为C既属于A,又属于B,二者的区别在于C在这两类中的隶属度不同。所谓模糊模式识别就是解决模式识别问题时引入模糊逻辑的方法或思想。同一般的模式识别方法相比较,模糊模式识别具有客体信息表达更加合理,信息利用充分,各种算法简单灵巧,识别稳定性好,推理能力强的特点。模糊模式识别的关键在隶属度函数的建立,目前主要的方法有模糊统计法、模糊分布法、二元对比排序法、相对比较法和专家评分法等。虽然这些方法具有一定的客观规律性与科学性,但同时也包含一定的主观因素,准确合理的隶属度函数很难得到,如何在模糊模式识别方法中建立比较合理的隶属度函数是需要进一步解决的问题。(4) 人工神经网络模式识别早在20世纪50年代,研究人员就开始模拟动物神经系统的某些功能,他们采用软件或硬件的办法,建立了许多以大量处理单元为结点,处理单元间实现(加权值的)互联的拓扑网络,进行模拟,称之为人工神经网络16。这种方法可以看作是对原始特征空间进行非线性变换,产生一个新的样本空间,使得变换后的特征线性可分。同传统统计方法相比,其分类器是与概率分布无关的。人工神经网络的主要特点在于其具有信息处理的并行性、自组织和自适应性、具有很强的学习能力和联想功能以及容错性能等,在解决一些复杂的模式识别问题中显示出其独特的优势。人工神经网络是一种复杂的非线性映射方法,其物理意义比较难解释,在理论上还存在一系列亟待解决的问题。例如在设计上,网络层数的确定和节点个数的选取带有很大的经验性和盲目性,缺乏理论指导,网络结构的设计仍是一个尚未解决的问题。在算法复杂度方面,神经网络计算复杂度大,在特征维数比较高时,样本训练时问比较长;在算法稳定性方面,学习过程中容易陷入局部极小,并且存在欠学习与过学习的现象范化能力不容易控制。这些也是制约人工神经网络进一步发展的关键问题。4.3 模糊识别算法4.3.1 模糊模式识别基本原理设U是给定的待识别对象的全体的集合,U中的每一对象u有p个特性指标u1,2,p 。每个特性指标所刻画的是对象u的某个方面的特征,于是由p个特性指标确定的每一个对象,可记成 (4-1)上式称为特性向量。 设识别对象集合U可分为n个类别,且每一类别均是U上的一个模糊集,记作:A1,A2,An,则称为它们为模糊模式。模糊模式识别的宗旨是把对象u=(u1,u2up)划归一个与其相似的类别Ai中。对于钻井液体系优选来说,模糊模式识别的宗旨是根据具体的特性参数得到相应的钻井液体系。当一个识别算法作用于对象u时,产生一组隶。它们分别表示对象隶属于类别A1,A2,An的程度。然后我们可以按某种隶属原则(通常为最大隶属原则)对对象进行判断,指出它归属于哪一类别。4.3.2 模糊识别的一般步骤(1) 识别对象的特性指标提取(特征提取)。在影响识别对象的各因素中,抽取与模式识别问题有显著关系的特性指标并测出对象各特性指标的具体数据,然后写出对象的特性向量14 (4-2)(2) 特征选择使特征数目从多变少,淘汰掉一些特征,保留一些其主要作用的特征的过程称为特征选择。(3) 确定标准模式标准模式是反映领域问题全部分类的样本。标准模式能覆盖问题的全部分类,每一种标准模式可以有许多样本,所有这些样本都代表这一标准模式。具体待识别样本只要能够与某一样式中的一个样本最接近,就可以确定属于这一模式。(4) 构造模糊模式的隶属函数隶属函数的确定在模糊数学应用中占有中有重要地位,因此恰如其分地定量刻划模糊性事物是利用模糊数学去解决各种实际问题的关键。(5) 完成由具体模式到类别的映射过程。4.3.3 模糊模型识别原则 (1) 最大隶属原则设A1,A2,An是给定的区域U上的n个模糊模式,是一识别对象,若14 (4-3)则认为优先隶属于。(2) 择近原则设A1,A2,An是给定的区域U上的n个模糊子集,构成一个标准模型库。B是U上的待识别模糊子集。若存在 (4-4)则称B与Ai最贴近,即认为B相对属于Ai。模糊模式识别有两大原则:最大隶属原则和择近原则。专心-专注-专业