模式识别研究进展.pdf
《模式识别研究进展.pdf》由会员分享,可在线阅读,更多相关《模式识别研究进展.pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 模式识别研究进展 模式识别研究进展 刘成林,谭铁牛 中国科学院自动化研究所 模式识别国家重点实验室 北京中关村东路 95 号 摘要 摘要 自20世纪60年代以来,模式识别的理论与方法研究及在工程中的实际应用取得了很大的进展。本文先简要回顾模式识别领域的发展历史和主要方法的演变,然后围绕模式分类这个模式识别的核心问题,就概率密度估计、特征选择和变换、分类器设计几个方面介绍近年来理论和方法研究的主要进展,最后简要分析将来的发展趋势。1.前言 1.前言 模式识别(Pattern Recognition)是对感知信号(图像、视频、声音等)进行分析,对其中的物体对象或行为进行判别和解释的过程。模式识别
2、能力普遍存在于人和动物的认知系统,是人和动物获取外部环境知识,并与环境进行交互的重要基础。我们现在所说的模式识别一般是指用机器实现模式识别过程,是人工智能领域的一个重要分支。早期的模式识别研究是与人工智能和机器学习密不可分的,如 Rosenblatt 的感知机1和 Nilsson 的学习机2就与这三个领域密切相关。后来,由于人工智能更关心符号信息和知识的推理,而模式识别更关心感知信息的处理,二者逐渐分离形成了不同的研究领域。介于模式识别和人工智能之间的机器学习在 20 世纪 80 年代以前也偏重于符号学习,后来人工神经网络重新受到重视,统计学习逐渐成为主流,与模式识别中的学习问题渐趋重合,重新
3、拉近了模式识别与人工智能的距离。模式识别与机器学习的方法也被广泛用于感知信号以外的数据分析问题(如文本分析、商业数据分析、基因表达数据分析等),形成了数据挖掘领域。模式分类是模式识别的主要任务和核心研究内容。分类器设计是在训练样本集合上进行优化(如使每一类样本的表达误差最小或使不同类别样本的分类误差最小)的过程,也就是一个机器学习过程。由于模式识别的对象是存在于感知信号中的物体和现象,它研究的内容还包括信号/图像/视频的处理、分割、形状和运动分析等,以及面向应用(如文字识别、语音识别、生物认证、医学图像分析、遥感图像分析等)的方法和系统研究。本文简要回顾模式识别领域的发展历史和主要方法的演变,
4、介绍模式识别理论方法研究的最新进展并分析未来的发展趋势。由于 Jain 等人的综述3已经全面介绍了 2000 年以前模式分类方面的进展,本文侧重于 2000 年以后的研究进展。2.历史回顾 2.历史回顾 现代模式识别是在 20 世纪 40 年代电子计算机发明以后逐渐发展起来的。在更早的时候,已有用光学和机械手段实现模式识别的例子,如在 1929 年 Gustav Tauschek 就在德国获得了光学字符识别的专利。作为统计模式识别基础的多元统计分析和鉴别分析4也在电子计算机出现之前提出来了。1957 年 IBM 的 C.K.Chow 将统计决策方法用于字符识别5。然而,“模式识别”这个词被广泛
5、使用并形成一个领域则是在 20 世纪 60 年代以后。1966 年由 IBM 组织在波多黎各召开了第一次以“模式识别”为题的学术会议6。Nagy 的综述7和 Kanal 的综述8分别介绍了 1968 年以前和1968-1974的研究进展。70年代几本很有影响的模式识别教材(如Fukunaga 9,Duda&Hart 10)的相继出版和 1972 年第一届国际模式识别大会(ICPR)的召开标志着模式识别领域的形成。同时,国际模式识别协会(IAPR)在 1974 年的第二届国际模式识别大会上开始筹建,在 1978 年的第四届大会上正式成立。统计模式识别的主要方法,包括 Bayes 决策、概率密度估
6、计(参数方法和非参数方法)、特征提取(变换)和选择、聚类分析等,在 20 世纪 60 年代以前就已经成型。由于统计方法不能表示和分析模式的结构,70 年代以后结构和句法模式识别方法受到重视。尤其是付京荪(K.S.Fu)提出的句法结构模式识别理论在 70-80 年代受到广泛的关注。但是,句法模式识别中的基元提取和文法推断(学习)问题直到现在还没有很好地解决,因而没有太多的实际应用。20 世纪 80 年代 Back-propagation(BP)算法的重新发现和成功应用推动了人工神经网络研究和应用的热潮。神经网络方法与统计方法相比具有不依赖概率模型、参数自学习、泛化性能1良好等优点,至今仍在模式识
7、别中广泛应用。然而,神经网络的设计和实现依赖于经验,泛化性能不能确保最优。90 年代支持向量机(SVM)的提出吸引了模式识别界对统计学习理论和核方法(Kernel methods)的极大兴趣。与神经网络相比,支持向量机的优点是通过优化一个泛化误差界限自动确定一个最优的分类器结构,从而具有更好的泛化性能。而核函数的引入使很多传统的统计方法从线性空间推广到高维非线性空间,提高了表示和判别能力。结合多个分类器的方法从 90 年代前期开始在模式识别界盛行,后来受到模式识别界和机器学习界的共同重视。多分类器结合可以克服单个分类器的性能不足,有效提高分类的泛化性能。这个方向的主要研究问题有两个:给定一组分
8、类器的最佳融合和具有互补性的分类器组的设计。其中一种方法,Boosting,现已得到广泛应用,被认为是性能最好的分类方法。进入 21 世纪,模式识别研究的趋势可以概括为以下四个特点。一是 Bayes 学习理论越来越多地用来解决具体的模式识别和模型选择问题,产生了优异的分类性能11。二是传统的问题,如概率密度估计、特征选择、聚类等不断受到新的关注,新的方法或改进/混合的方法不断提出。三是模式识别领域和机器学习领域的相互渗透越来越明显,如特征提取和选择、分类、聚类、半监督学习等问题成为二者共同关注的热点。四是由于理论、方法和性能的进步,模式识别系统开始大规 1 泛化性能指分类器在测试样本(没有用于
9、训练的新样本)上的分类正确率。提到“分类性能”时一般也是指泛化性能。模地用于现实生活,如车牌识别、手写字符识别、生物特征识别等。模式识别方法的细节可以参考一些优秀的教材,比如 Bishop(2006)11,Fukunaga(1990)12,Duda,Hart&Stork(2001)13等。3.模式识别研究现状 3.模式识别研究现状 3.1 模式识别系统和方法概述 3.1 模式识别系统和方法概述 模式识别过程包括以下几个步骤:信号预处理、模式分割、特征提取、模式分类、上下文后处理。预处理通过消除信号/图像/视频中的噪声来改善模式和背景间的可分离性;模式分割是将对象模式从背景分离或将多个模式分开的
10、过程;特征提取是从模式中提取表示该模式结构或性质的特征并用一个数据结构(通常为一个多维特征矢量)来表示;在特征表示基础上,分类器将模式判别为属于某个类别或赋予其属于某些类别的概率;后处理则是利用对象模式与周围模式的相关性验证模式类别的过程。模式识别系统中预处理、特征提取(这里指特征度量的计算,即特征生成)和后处理的方法依赖于应用领域的知识。广义的特征提取包括特征生成、特征选择和特征变换(维数削减)2。后两个过程和分类器设计一样,需要在一个样本集上进行学习(训练):在训练样本上确定选用哪些特征、特征变换的权值、分类器的结构和参数。由于句法和结构模式识别方法是建立在完全不同于特征矢量的模式表示基础
11、上且还没有得到广泛应用,本文与 Jain 等人3一样,主要关注统计模式识别(广义地,包括神经网络、支持向量机、多分类器系统等)的进展。Bayes决策是统计模式识别的基础。将模式表示为一个特征矢量x x(多维线性空间中的一个点),给定M个类别的条件概率密度(|)ipx,i=1,M,则模式属于各个类别的后验概率可根据 Bayes公式计算:1()(|)()(|)(|)()()(|)iiiiiMjjjPpPpppPp=xxxxx,其中()iP是第 i 类的先验概率。根据 Bayes 决策规则,模式 x 被判别为后验概率最大的类别(最小错误率决策)或期望风险最小的类别(最小代价决策)。后验概率或鉴别函数
12、把特征空间划分为对应各个类别的决策区域。模式分类可以在概率密度估计的基础上计算后验概率密度,也可以不需要概率密度而直接近似估计后验概率或鉴别函数(直接划分特征空间)。基于概率密度估计的分类器被称为生成模型(Generative model),如高斯密度分类器、Bayes 网络等;基于特征空间划分的分类器又被称为判别模型(Discriminative model),如神经网络、支持向量机等。生成模型每一类的参数在一类的 2“特征提取”在很多时候就是指特征变换或维数削减,有时候也指从模式信号计算特征度量的过程(特征生成)。这就需要根据语言的上下文来判断它的意思。训练样本上分别估计,当参数模型符合样
13、本的实际分布或训练样本数比较少时,生成模型的分类性能优良。判别模型在训练中直接调整分类边界,以使不同类别的样本尽可能分开,在训练样本数较多时能产生很好的泛化性能。但是,判别模型在训练时每一类参数的估计要同时考虑所有类别的样本,因而训练的计算量较大。3.2 概率密度估计 3.2 概率密度估计 概率密度估计和聚类一样,是一个非监督学习过程。研究概率密度估计主要有三个意义:分类、聚类(分割)、异常点监测(Novelty detection)。在估计每个类别概率密度函数的基础上,可以用 Bayes 决策规则来分类。概率密度模型经常采用高斯混合密度模型(Gaussian mixture model,GM
14、M),其中每个密度成分可以看作是一个聚类。异常点监测又称为一类分类(One-class classification),由于只有一类模式的训练样本,在建立这类模式的概率密度模型的基础上,根据相对于该模型的似然度来判断异常模式。高斯混合密度估计常用的 Expectation-Maximization(EM)算法14被普遍认为存在三个问题:估计过程易陷于局部极值点,估计结果依赖于初始化值,不能自动确定密度成分的个数。对于成分个数的确定,提出了一系列的模型选择准则,如 Bayes 准则15、最小描述长度(MDL)、Bayesian Information Criterion(BIC)、Akaike
15、Information Criterion(AIC)、最小消息长度(MML)等16。Figueiredo 和 Jain 在一个扩展的 EM 算法中引入密度成分破坏(Annihilation)机制16,可以达到自动确定成分个数的目的。Ueda 和 Ghahramani 提出一种基于变分 Bayes 的准则,并用分裂-合并算法进行估计自动确定成分个数17。分裂-合并算法还可以同时克服局部极值影响。高斯混合密度用于高维数据时会造成密度函数的参数太多,用于分类时还会降低泛化性能。这个问题可以通过限制协方差矩阵(为对角矩阵或单位矩阵的倍数)、参数共享或特征降维来克服。在多类分类时,不同类别的概率密度要建
16、立在相同的特征空间。如果对不同类别或不同密度成分提取不同的子空间,则要将子空间的密度函数反投影到原来的特征空间18。Moghaddam 和 Pentland的概率密度模型是主成分分析(PCA)子空间内的混合高斯密度和补子空间中的高斯密度的结合19。最近,Bouguila 等人提出一种新的混合密度形式:Dirichlet 混合密度2021。Dirichlet 分布表示离散概率(介于 0 到 1 之间且和等于 1)的联合分布,可以用于直方图、和归一化特征矢量等的概率密度估计。Dirichlet 密度可以是非对称的,比高斯密度函数更为灵活,但计算也更复杂。Dirichlet混合密度可以用类似于 EM
17、 的随机优化算法进行估计,在模式分类和图像聚类等应用中取得了优异的性能21。概率密度估计的另一种新方法是稀疏核函数描述(支持向量描述)2223。Schlkopf 等人采用类似支持向量机的方法,用一个核特征空间的超平面将样本分为两类,使超平面外的样本数不超过一个事先给定的比例22。该超平面的函数是一个样本子集(支持向量)的核函数的加权平均,可以像支持向量机那样用二次规划算法求得。Tax 和 Duin 的方法是用核空间的一个球面来区分区域内和区域外样本23,同样地可以用二次规划进行优化。3.3 特征选择 3.3 特征选择 特征选择和特征变换都是为了达到维数削减的目的,在降低分类器复杂度的同时可以提
18、高分类的泛化性能。二者也经常结合起来使用,如先选择一个特征子集,然后对该子集进行变换。近年来由于适应越来越复杂(特征维数成千上万,概率密度偏离高斯分布)的分类问题的要求,不断提出新的特征选择方法,形成了新的研究热点24。特征选择的方法按照特征选择过程与分类器之间的交互程度可以分为过滤式(Filter)、Wrapper25、嵌入式、混合式几种类型。过滤式特征选择是完全独立于分类器的,这也是最常见的一种特征选择方式,选择过程计算量小,但是选择的特征不一定很适合分类。在 Wrapper 方法中,特征子集的性能使用一个分类器在验证样本上的正确率来衡量,这样选择的特征比较适合该分类器,但不一定适合其他的
19、分类器。由于在特征选择过程中要评价很多特征子集(子集的数量呈指数级增长),即使采用顺序前向搜索,Wrapper 的计算量都是很大的,只适合特征维数不太高的情况。Wrapper 的另一个问题是当训练样本较少时会造成过拟合,泛化性能变差。嵌入式方法是在分类器的训练过程中包含了特征选择功能,因此跟 Wrapper 一样也是依赖于分类器的。一个经典的方法是 LASSO26。近来有代表性的两种嵌入式方法是稀疏支持向量机27和Boosting 特征选择28。混合式特征选择结合不同的方法以实现更好的计算复杂性-分类性能的折衷,在初始特征数量非常大时经常使用,如29的方法在三个阶段先后用三种方法削减特征个数:
20、过滤、聚类、组合式选择。过滤方法和 Wrapper 也经常结合使用。特征选择领域大部分的研究工作都集中在过滤式方法。模式识别领域早期的工作多把关注点放在搜索策略上3031,特征子集评价准则多采用基于高斯密度假设的距离准则,如 Fisher 准则、Mahalanobis 距离等。其实,特征子集的评价准则更为重要,当准则较好地衡量特征子集的可分性且比较稳定时,简单的搜索策略就能产生良好的分类性能。下面分析两类比较有代表性的特征评价方法:基于间隔(Margin)的方法和基于互信息的方法。RELIEF32是一种被广泛引用的过滤式特征选择方法,基本思想是根据特征空间中每个样本在正确类别和不同类别中的最近
21、邻距离之差迭代调整特征的权值。这两个距离之差即我们今天所说的间隔。不过 RELIEF 并没有对一个全局的目标函数进行优化。最近提出来的一种迭代 RELIEF(I-RELIEF)方法设计一种基于间隔的全局目标函数,用类似 EM 的算法对特征的权值进行优化33。另一种方法则对特征子集的空间中最近邻分类的间隔进行优化34。特征选择的基本原则是选择类别相关(Relevant)的特征而排除冗余的特征。这种类别相关性和冗余性通常用互信息(Mutual information,MI)来度量。特征与类别之间的互信息很好地度量了特征的相关性,而特征与特征之间的互信细则度量他们之间的相似性(冗余性)。因此,基于互
22、信息的特征选择方法一般遵循这样一种模式:在顺序前向搜索中寻找与类别互信息最大而与前面已选特征互信息最小的特征35。36中提出的条件互信息用来度量在一个已选特征的条件下另一个新的候选特征对分类的相关性。37通过分析一种相关度,Symmetrical Uncertainty(SU)与特征的Markov blanket 之间的关系,设计一种快速的两步特征选择方法:先根据单个特征与类别之间的相关度选出相关特征,第二步对相关特征根据特征-类别相关度和特征-特征相关度进行筛选。3.4 特征变换 3.4 特征变换 特征变换也常被称为特征提取,指从原始信号经过变换得到特征量的过程。传统的线性变换方法主要有主成
23、分分析(PCA)和线性鉴别分析(LDA),后者又叫 Fisher 鉴别分析(FDA)。LDA 的子空间学习是有监督的,目的是使子空间中类间离散度(Sb)和类内离散度(Sw)的行列式之比达到最大。LDA假设各类样本服从高斯分布且不同类的协方差矩阵相同,而且所有样本在总体上服从高斯分布。另外,LDA 提取的特征个数受到类别数的限制,而当训练样本数相对特征维数较小时,Sw 为奇异,会带来很多计算上的问题。由于非高斯分布、小样本等问题的存在,特征变换也是近年来研究的一个热点,这方面的工作可以分为以下几个方向:(1)针对小样本的线性特征提取方法;(2)类内协方差矩阵不同时的异方差(Heterosceda
24、stic)鉴别分析;(3)非高斯分布下的特征提取方法;(4)局部空间特性保持的特征提取方法;(5)非线性特征提取方法;(6)二维模式特征提取方法。小样本学习的一个典型例子是图像分类,如果直接用图像中所有象素点的值作为特征量,矢量的维数非常高,而每一类的样本数又很少。克服 Sw 奇异性的一个直接方法是正则化(Regularized)鉴别分析38,通过矩阵平滑使 Sw 变得非奇异。Fisherface 方法则用 PCA 把特征维数从 D 降到 N-M(N 是样本数,M 是类别数)使 Sw 变得非奇异39。但是,Sw 的维数由 D 降到 N-M 会损失一些鉴别信息,而降到 N-1 维则不会有损失40
25、。而这时 Sw 仍然是奇异的,就需要从 Sw 的零空间(对应本征值为0)提取一些特征41。与一般的LDA方法先对Sw对角化然后对Sb对角化相反,一种Direct LDA 方法先对 Sb 对角化后从变换后的 Sw 提取对应较小本征值的鉴别矢量42。对于类别协方差矩阵不同的情况异方差鉴别分析方法(如43)可以得到比 LDA 更好的分类性能。对于非高斯分布或任意分布的情况,非参数鉴别分析44是提取鉴别特征的一个基本思路。由此发展起来的方法还包括基于决策边界的鉴别分析4546。在不假设参数概率密度的情况下,也可以用分类性能准则直接对鉴别投影矢量进行优化,这样的准则如最小分类错误(MCE)47和特征与类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 研究进展
限制150内