模式识别ppt(钟珞).ppt
模 式 识 别2023/3/3模式识别2课程对象计算机学院(软件学院)本科生的专业选修课研究生的专业课2023/3/3模式识别3与模式识别相关的学科统计学概率论线性代数(矩阵计算)信号处理机器学习人工智能图像处理计算机视觉2023/3/3模式识别4教学方法着重讲述模式识别的基本概念,基本方法和算法原理。注重理论与实践紧密结合实例教学:主要通过实例讲述如何将所学知识运用到实际应用之中避免陷入过多的、繁琐的数学推导。2023/3/3模式识别5教学目标了解模式识别的基本概念和方法能够运用所学知识和方法解决部分实际问题为深入研究模式识别的理论和方法打下基础 2023/3/3模式识别6教材/参考文献钟珞,模式识别,武汉大学出版社边肇祺,模式识别(第二版),清华大学出版社蔡元龙,模式识别,西北电讯工程学院出版社第一章 绪 论2023/3/3模式识别81.1 模式识别和模式的概念什么是模式识别:模式识别是研究用计算机来实现人类模式识别能力的一门学科。模式识别 直观,无所不在,“物以类聚”周围物体的认知:桌子、椅子人的识别:张三、李四声音的辨别:汽车、火车,狗叫、人语人和动物的模式识别能力是极其平常的,但对计算机来说却是非常困难的。2023/3/3模式识别9什么是模式广义地说,模式是一些供模仿用的、完美无缺的标本。本课程把所见到的具体事物称为模式,而将它们归属的类别称为模式类。模式的直观特性:可观察性可区分性相似性2023/3/3模式识别10模式识别简史1929年 G.Tauschek发明阅读机,能够阅读0-9的数字。30年代 Fisher提出统计分类理论,奠定了统计模式识别的基础。50年代 Noam Chemsky 提出形式语言理论傅京荪 提出句法结构模式识别。60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别方法得以发展和应用。80年代以Hopfield网、BP网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。90年代小样本学习理论,支持向量机也受到了很大的重视。2023/3/3模式识别111.2 模式识别的研究方法模式识别系统识别方法2023/3/3模式识别121.2.1 模式识别系统信息获取预处理特征提取和选取分类器设计分类决策2023/3/3模式识别131 信息获取二维图象 如文字、指纹、地图、照片一维波形 如脑电图、心电图、机械震动波形物理参数和逻辑值2023/3/3模式识别142 预处理目的:去除噪声,加强有用信息,复原信息预处理:包括AD,二值化,图象的平滑,变换,增强,恢复,滤波等,主要指图象处理。2023/3/3模式识别153 特征提取和选取特征提取和选择:对原始数据进行变换,得到最能反映分类本质的特征测量空间:原始数据组成的空间特征空间:分类识别赖以进行的空间模式表示:维数较高的测量空间-维数较低的特征空间例如,一幅64x64的图象可以得到4096个数据,这种在测量空间的原始数据通过变换获得在特征空间最能反映分类本质的特征。2023/3/3模式识别164 分类器设计是一种分类判别规则。用一定数量的样本确定出一套分类判别规则,使得按这套分类判别规则对待识别模式进行分类造成的错误识别率最小或引起的损失最小。2023/3/3模式识别175 分类决策分类器按已确定的分类判别规则对待识别模式进行分类判别,输出分类结果,这就是分类器的使用过程,又称为分类决策。2023/3/3模式识别181.2.2 识别方法描述模式有两种方法:定量描述和结构性描述。定量描述就是用一组数据来描述模式;结构性描述就是用一组基元来描述模式。两种基本的模式识别方法:统计模式识别方法和结构模式识别方法。2023/3/3模式识别19统计模式识别被研究的模式用特征向量来描述,特征向量中的每一个元素代表模式的一个特征或属性,特征向量构成的空间叫做特征空间。研究统计模式识别方法的任务就是用不同的方法划分特征空间,从而达到识别的目的。2023/3/3模式识别20结构模式识别该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目的。模式是由一些模式基元按一定的结构规则组合而成,结构分析的内容就是分析模式如何由基元构成的规则。比较成功的是句法结构模式识别。通过检查代表这个模式的句子是否符合事先给定的某一类文法规则,如果符合,那么这个模式就属于这个文法所代表的那个模式类。2023/3/3模式识别21模糊模式识别利用模糊数学的理论和方法分析和解决模式识别问题。具有数学基础,又更接近人的思维。代表方法:模糊K均值、模糊ISODATA算法。2023/3/3模式识别22神经网络神经网络是受人脑组织的生理学启发而创立的。由一系列互相联系的、相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。增强或抑制是通过调整神经元相互间联系的权重系数来(weight)实现。神经网络可以实现监督和非监督学习条件下的分类。2023/3/3模式识别231.3 模式识别的应用(举例)生物学自动细胞学、染色体特性研究、遗传研究天文学天文望远镜图像分析、自动光谱学经济学股票交易预测、企业行为分析医学心电图分析、脑电图分析、医学图像分析2023/3/3模式识别24工程产品缺陷检测、特征识别、语音识别、自动导航系统、污染分析、字符识别军事航空摄像分析、雷达和声纳信号检测和分类、自动目标识别安全指纹识别、人脸识别、监视和报警系统模式识别的应用(举例)2023/3/3模式识别25模式分类器的获取和评测过程数据采集特征选取模型选择训练和测试计算结果和复杂度分析,反馈2023/3/3模式识别26训练和测试训练集:是一个已知样本集,在监督学习方法中,用它来开发出模式分类器。测试集:在设计识别和分类系统时没有用过的独立样本集。系统评价原则:为了更好地对模式识别系统性能进行评价,必须使用一组独立于训练集的测试集对系统进行测试。2023/3/3模式识别27实例:统计模式识别19名男女同学进行体检,测量了身高和体重,但事后发现其中有4人忘记填写性别,试问(在最小错误的条件下)这4人是男是女?体检数值如下:2023/3/3模式识别28实例:统计模式识别(续)待识别的模式:性别(男或女)测量的特征:身高和体重训练样本:15名已知性别的样本特征目标:希望借助于训练样本的特征建立判别函数(即数学模型)2023/3/3模式识别29实例:统计模式识别(续)从图中训练样本的分布情况,找出男、女两类特征各自的聚类特点,从而求取一个判别函数(直线或曲线)。只要给出待分类的模式特征的数值,看它在特征平面上落在判别函数的哪一侧,就可以判别是男还是女了。2023/3/3模式识别302023/3/3模式识别312023/3/3模式识别322023/3/3模式识别33本门课程的主要内容1、模式识别概述2、Bayes决策理论3、线性判别函数与非线性判别函数4、近邻法则5、特征提取和选择6、非监督学习方法(数据聚类)7、统计学习理论8、模式识别应用实例第二章 贝叶斯决策理论2023/3/3模式识别352.1 贝叶斯决策的基本概念随机模式与统计特性贝叶斯决策理论就是用概率统计的方法研究随机模式的决策问题各类别总体的概率分布是已知的要决策分类的类别是一定的如何使分类错误率尽可能小是研究各种分类方法的中心问题有关概念:先验概率、类条件概率密度、后验概率、贝叶斯公式2023/3/3模式识别36作为统计判别问题的模式分类模式识别的目的就是要确定某一个给定的模式样本属于哪一类。可以通过对被识别对象的多次观察和测量,构成特征向量,并将其作为某一个判决规则的输入,按此规则来对样本进行分类。2023/3/3模式识别37作为统计判别问题的模式分类在获取模式的观测值时,有些事务具有确定的因果关系,即在一定的条件下,它必然会发生或必然不发生。例如识别一块模板是不是直角三角形,只要凭“三条直线边闭合连线和一个直角”这个特征,测量它是否有三条直线边的闭合连线并有一个直角,就完全可以确定它是不是直角三角形。这种现象是确定性的现象。2023/3/3模式识别38作为统计判别问题的模式分类但在现实世界中,由于许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性。只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们观察到的特征具有统计特性。特征值不再是一个确定的向量,而是一个随机向量。此时,只能利用模式集的统计特性来分类,以使分类器发生错误的概率最小。2023/3/3模式识别39先验概率预先已知的或者可以估计的模式识别系统位于某种类型的概率。2023/3/3模式识别40类条件概率密度函数系统位于某种类型条件下模式样本X出现的概率密度分布函数。同一类事物的各个属性的变化范围,用一种函数来表示其分布密度。2023/3/3模式识别41后验概率系统在某个具体的模式样本X条件下位于某种类型的概率。后验概率可以根据贝叶斯公式计算,直接用做分类判决的依据。2023/3/3模式识别42贝叶斯公式两个事物X与w联合出现的概率称为联合概率。利用该公式可以计算后验概率。2023/3/3模式识别432.2 几种常用的决策规则研究在统计意义下的分类判决。用分类决策规则对模式进行分类。都存在判错的可能;不同的决策规则可能有不同的判决结果。最小错误率决策与最小风险决策。限定错误率的两类判别决策。最小最大决策。2023/3/3模式识别442.2.1 最小错误率的贝叶斯决策在模式分类问题中,往往希望尽量减少分类错误的概率,因此需要建立一种能使错误率为最小的决策规则。从这样的要求出发,利用概率论中的贝叶斯公式得出使错误率为最小得分类规则,称之为基于最小错误率得贝叶斯决策。基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判决的。2023/3/3模式识别45例子1癌细胞识别:只有两类情况,是与否。用d维向量X表示细胞测量数据,1代表正常细胞,2代表异常细胞。目的是要根据X把测量细胞判别为正常细胞或者异常细胞。2023/3/3模式识别46例子1根据大量统计资料,可以对正常细胞与异常出现的比例作出估计。这就是通常所说的先验概率:P(1)与P(2)2023/3/3模式识别47例子1下图是正常细胞的属性分布与异常细胞的属性分布。即类条件概率密度函数。得到样本的观测值x之后,可以根据先验概率和类概率密度得到后验概率。通过后验概率则可以作出分类判断。2023/3/3模式识别48例子1利用贝叶斯公式计算两类的后验概率2023/3/3模式识别49例子1基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判据,其规则为2023/3/3模式识别50例子2假设某个地区正常细胞1与异常细胞2的先验概率分别为对于某个待识别细胞,其观察值为x,根据类条件概率密度分布曲线上可知请对该细胞进行分类2023/3/3模式识别51例子2利用贝叶斯公式,分别计算1与2的后验概率如下2023/3/3模式识别52例子2根据最小错误率的贝叶斯决策规则,合理的决策是把x归类于正常状态。尽管类别2出现状态x的条件概率高于1出现此状态的概率,但是根据最小错误原则,该细胞被判断为正常。2023/3/3模式识别53证明(最小错误率)假设模式特征x是一个连续的随机变量,显然观察到的x不同,后验概率不同,分类错误率也不同。分类错误概率P(e|x)是随机变量x的函数。观察到大量模式,对它们作出决策的平均错误率P(e)是P(e|x)的数学期望。则可以计算这个随机变量x的函数P(e|x)的数学期望:P(x)为x出现的概率,P(e|x)是观测值为x时的条件错误概率,积分表示整个d维空间上的总和。在一维情况下,x取整个范围。2023/3/3模式识别54证明(最小错误率)对两类问题,从决策规则可知,如果那么决策为第2类,这时x的条件错误概率为所以有如下的公式:2023/3/3模式识别55证明(最小错误率)在例子2的决策中,实际包含了0.182的错误概率。所以如果把作出1决策的区域记为R1,作出2决策的区域记为R2,则在R1内的每个x,条件错误概率为P(2|x),所以有下面的公式。2023/3/3模式识别56证明(最小错误率)下图表示一维模式时的情况。H为R1与R2的分界。H的位置不同,错误率也不同。阴影部分为总的错误率。改变H的位置,可以改变错误率。选取决策面使得:则可消除小面积A,得到最小分类错误概率。这正是贝叶斯决策规则。2023/3/3模式识别572.2.2 最小风险的贝叶斯决策在一些实际问题中,错误率最小并不是一个最佳选择。有时候宁可扩大一些总的错误,也要使总的损失减少。对前面的例子可以看到,我们不仅要考虑到尽可能作出正确的判断,而且还要考虑万一作出了错误的判断后带来的后果,要比较哪一种的风险更小,或者损失更大。2023/3/3模式识别582.2.2 最小风险的贝叶斯决策这里引入一个与损失有关联的,更为广泛的概念:风险。在进行分类决策的时候,要考虑决策所承担的风险。最小风险的贝叶斯决策就是把各种分类错误引起的损失考虑进去的贝叶斯决策法则。期望风险与条件风险。2023/3/3模式识别592.2.2 最小风险的贝叶斯决策决策论中称采取的决定为决策或行动。所有可能采取的各种决策组成的集合称决策空间或行动空间。每个决策都会带来一定的损失,通常是决策和自然状态的函数,用决策表来表示这种关系。决策表的形成是困难的,需要大量的领域知识。2023/3/3模式识别602.2.2 最小风险的贝叶斯决策其基本思想是:在观测值X条件下,对各状态的后验概率求加权和,并根据加权和的大小来进行分类决策。而这个加权和就是所谓的风险。2023/3/3模式识别612.2.2 最小风险的贝叶斯决策如果希望尽可能避免将状态(j)错判为(i),则可以将相应的(j,i)的值选择得大一些。那么可以知道最小风险的判别方法就是根据下面的公式来实现的。找出条件风险最下的。2023/3/3模式识别62例子3在例子2的基础上进一步讨论。如X是2但被判断为1,会有损失用21来表示;如X是1但被判断为2,会有损失用12来表示;将X判断为1与2的风险分别为:2023/3/3模式识别63例子3如果已知11=0,21=6,12=1,22=0,按最小风险贝叶斯该如何分类。2023/3/3模式识别642.2.2最小风险的贝叶斯决策关于最小风险贝叶斯决策规则的一些相关术语。自然状态与状态空间:样本与类别决策与决策空间:决策总数可能大于类别数损失函数与决策表:决策表是一种先验知识期望损失:期望损失的最小值,就是最小风险的贝叶斯决策2023/3/3模式识别652.2.2最小风险的贝叶斯决策最小错误率与最小风险之间的关系定义决策表的损失函数为0-1损失函数根据前面的公式可以知道,最小错误率贝叶斯决策就是在0-1损失函数条件下的最小风险贝叶斯决策。即前者是后者的一个特例。2023/3/3模式识别662.2.3 限定错误率的两类判别决策在两类判别决策问题中,有两种错误分类的可能。这两种错误的概率为P(2)P2(e)和P(1)P1(e)最小错误率贝叶斯决策是使这两种错误率之和最小。实际中,有时要求限制某一类错误率不大于某个常数而使另一类错误率尽可能地小,即令:2023/3/3模式识别672.2.3 限定错误率的两类判别决策这样的决策,就是一个典型的条件极值问题,可以用Lagrange乘子法解决。按此方法建立数学模型:2023/3/3模式识别682.2.3 限定错误率的两类判别决策2023/3/3模式识别692.2.3 限定错误率的两类判别决策满足上面公式的边界面以及最佳,就可以让极小。此时,决策规则可以写为:2023/3/3模式识别702.2.4 最小最大决策在实际中,各类先验概率P(i)往往不能精确知道,或者在分析过程中是变化的。那么此时的判决不是最佳的,实际平均损失会变大。如何解决这种平均损失变大的问题,按决策论的思想,应该立足在最差情况下争取最好的结果。根据这种原则,可以知道最小最大决策是一种稳健的设计方法,也是一种保守的设计方法。2023/3/3模式识别712.2.4 最小最大决策对于两类问题,假设一种分类识别决策将特征空间分为两个区域,平均损失为:2023/3/3模式识别722.2.4 最小最大决策2023/3/3模式识别732.2.4 最小最大决策根据图和公式进行分析,在(0,1)区间内,对先验概率P(1)取若干个不同的值,按最小风险决策确定相应的决策域,从而计算相应的最小风险R,可以得出最小贝叶斯风险与先验概率的关系曲线,如图的曲线部分。图a曲线上A点的纵坐标是对应于先验概率为P*(1)时的最小风险。过A的切线CD,表示在判决面不作调整的情况下,当P(1)变化时,R的变化,是一个线性函数,在(a,a+b)之间变化。2023/3/3模式识别742.2.4 最小最大决策由于没有针对P(1)的变化重新求最佳判决面,所以平均损失要比最佳的判决面大,直线CD在曲线上方说明了此点。可以总结,在作最小决策时,考虑先验概率可能改变,则应选择使最小贝叶斯风险为最大值时的P*(1)来设计分类器,即对应图b中的B点。此时直线平行P(1),能保证在不调整判决面的情况下,不管P(1)如何变化,最大风险都为最小。2023/3/3模式识别752.2.4 最小最大决策具体的设计过程是:按最小损失准则找出对应于(0,1)中的各个不同值的P(1)的最佳决策面,计算相应的最小平均损失,得到曲线函数。找出使R最大的P*(1),最后运用最小损失的决策规则构造似然比函数:2023/3/3模式识别762.2.5 序贯分类方法前面的方法都没有考虑获取特征所花费的代价。有的问题需要考虑其余特征的获取代价是否大于分类错误的代价。解决这个问题的方法是序贯分类方法。先用一部分特征来分类,逐步加入分类特征减少分类损失;并且比较加入特征的花费代价与所降低分类损失的大小。2023/3/3模式识别772.2.6 分类器设计根据所学习的贝叶斯决策规则,可以进行分类器的设计。分类器设计就是在描述待识别对象的d维特征所组成的特征空间内,将其划分为c个决策域。决策域的边界称为决策面;用于表达决策规则的函数称为判别函数;判别函数决定了决策面。分类器,就是一个计算c个类别的判别函数并选取与最大判别值对应的类别为决策结果的一种机器。2023/3/3模式识别782.2.3 分类器设计两类情况判别函数:g(x)=g1(x)g2(x)决策规则表示为g(x)0,则决策1;反之决策2决策面方程:g(x)=02023/3/3模式识别792.2.3 分类器设计多类情况判别函数:gi(x)决策决策规则表示为如果gi(x)gj(x),则x决策为i;反之决策j。决策面方程:gi(x)=gj(x)2023/3/3模式识别802.3 正态分布的统计决策正态分布在数学上比较简单,有物理上的合理性正态分布概率模型有很多好的性质,有利于作数学分析。对于许多实际的数据集,正态假设通常是一种合理的近似。观测值较多地分布在均值附近,远离均值的样本比较少。2023/3/3模式识别812.3.1 正态分布概率密度函数的定义与性质单变量正态分布与多元正态分布单变量正态分布概率密度函数由两个参数完全确定,分别为均值与方差。正态分布的样本主要集中在均值附近,其分散程度用标准差来表征。标准差越大,分散程度也越大。约有95%的样本都落在2倍标准差范围之内。2023/3/3模式识别822.4 关于分类器的错误率问题在分类过程中任何一种决策规则都有对应的错误率。错误率反映了分类问题固有的复杂程度。对错误率的计算主要有3种方法。按理论公式计算(补充贝叶斯等协方差错误率计算)计算错误率上界(参照分别计算两类错误率上界)实验估计第三章 概率密度函数的估计2023/3/3模式识别843.1 引言在实际中先验概率和类条件概率密度函数常常是未知的。设计分类器的过程一般分为两步,称为基于样本的两步贝叶斯决策。利用样本集估计类条件概率密度与先验概率将估计量代入贝叶斯决策规则,完成分类器设计2023/3/3模式识别853.1 引言主要有3个问题需要讨论如何利用样本集估计估计量的性质如何利用样本集估计错误率的方法2023/3/3模式识别863.1 引言从样本集推断总体概率分布的方法可以归纳为2种参数估计监督参数估计:样本所属类别及类条件总体概率密度函数的形式已知,某些参数未知非监督参数估计:已知总体概率密度函数形式但未知样本类别,要推断某些参数非参数估计:已知样本类别,未知总体概率密度函数形式,要求直接推断概率密度函数本身。2023/3/3模式识别873.2 参数估计的基本概念统计量:针对不同要求构造出样本的某种函数,这种函数在统计学种称为统计量。构造描述未知参数的数学模型是关键性步骤。参数空间:在统计学中,把未知参数的可取值集合称为参数空间,记为 2023/3/3模式识别883.2 参数估计的基本概念点估计、估计量和估计值:针对某未知参数构造一个统计量作为的估计*,这种估计称为点估计;*称为的估计量;代入自变量的值得到*的值称为的估计值。区间估计:用一个区间作为的取值范围的一种估计。这个区间称为置信区间,这类问题称为区间估计。2023/3/3模式识别893.2 参数估计的基本概念我们要求估计总体分布的具体参数,这是点估计问题。两种主要的点估计方法:最大似然估计、贝叶斯估计。评价估计的好坏,不能按一次抽样结果得到估计值与参数真实值的偏差大小来确定,必须从平均和方差的角度来分析。2023/3/3模式识别903.2.1 最大似然估计似然函数的定义:N个随机变量x1,x2,xN的似然函数是N个随机变量的联合密度 这个密度可以看成是的函数。具体的说,若 是独立地抽取自密度 ,那么似然函数就是2023/3/3模式识别913.2.1 最大似然估计为了解释最大似然估计,我们有如下假定,就可以分别处理c个独立的问题。待估参数是确定的未知量。按类别把样本分成M类X1,X2,X3,XM,其中第i类的样本共N个,Xi =(X1,X2,XN)T,并且是独立从总体中抽取的。类条件概率密度具有某种确定的函数形式。Xi中的样本不包含j(ij)的信息。2023/3/3模式识别923.2.1 最大似然估计最大似然估计量:令 为样本集的似然函数,如果 是参数空间中能使似然函数 极大化的值,那么 就是的最大似然估计量。一般来说似然函数满足连续、可微的条件,对似然函数求导即可解出。为了便于分析,使用似然函数的对数往往比使用似然函数本身更容易些。2023/3/3模式识别933.2.2 贝叶斯估计贝叶斯估计和最大似然估计的结果近似相等,但从概念上来说他们的处理方法完全不同。最大似然估计把参数看作是确定而未知的,最好的估计值是在获得实际观察样本的概率为最大的条件下得到的。而贝叶斯估计则把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。2023/3/3模式识别943.2.2 贝叶斯估计最小风险贝叶斯决策中的期望风险与条件风险。贝叶斯决策与贝叶斯估计两者都是立足于使贝叶斯风险最小,只是要解决的问题不同,前者是要决策x的真实状态,而后者则是要估计X所属总体分布的参数。2023/3/3模式识别953.2.2 贝叶斯估计决策问题估计问题样本x决策真实状态状态空间是离散空间先验概率样本集估计量真实参数参数空间是连续空间参数的先验分布2023/3/3模式识别963.2.2 贝叶斯估计如果损失函数为平方误差损失函数,则贝叶斯估计量是给定x时的条件期望。求解贝叶斯估计量的步骤如下确定的先验分布P()求出样本的联合分布P(xi|),它是的函数利用贝叶斯公式,求的后验概率求出估计量2023/3/3模式识别973.2.3 贝叶斯学习贝叶斯学习是利用的先验分布及样本提供的信息求出的后验分布,然后直接求总体分布。当观察一个样本时,N=1就会有一个的估计值的修正值;当观察N=9时,对进行修正,向真正的靠的更近;当N,N就反映了观察到N个样本后对的最好推测,而N反映了这种推测的不确定性,N,N,N 随观察样本增加而单调减小,且当N,N 0;当N,P(|xi)越来越尖峰突起;这个过程成为贝叶斯学习。2023/3/3模式识别983.2.3 贝叶斯学习2023/3/3模式识别993.3 正态分布的监督参数估计正态分布是最通常的随机变量的分布方式,主要以单变量正态分布为例来对最大似然估计和贝叶斯估计进行学习。正态分布的参数主要是均值与方差。2023/3/3模式识别1003.3.1 最大似然估计示例利用最大似然估计方法对单变量正态分布函数来估计其均值和方差2。2023/3/3模式识别1013.3.1 最大似然估计示例2023/3/3模式识别1023.3.1 最大似然估计示例2023/3/3模式识别1033.3.2 贝叶斯估计示例其问题可以概括为:设 是取自正态分布 的样本集,其中为未知参数,且假定未知参数是随机参数,它有先验分布 ,要求我们用贝叶斯方法求出的估计量。关键问题在于先验分布的存在与否。第四章 线性判别函数2023/3/3模式识别1054.1 引言我们讨论了贝叶斯决策理论和统计判别方法。从原理上说贝叶斯决策理论采用了在d维特征空间中样本分布的最一般描述方式,即统计分布来描述。但是直接使用贝叶斯决策理论需要首先得到有关样本总体分布的知识,具体说来包括各类先验概率P(1)及类条件概率密度函数,从而可以计算出样本的后验概率P(1|X),并以此作为产生判别函数的必要数据,设计出相应的判别函数与决策面。2023/3/3模式识别1064.1 引言其中获取统计分布及其参数这部分是很困难的,实际问题中并不一定具备获取准确统计分布的条件。另一种分类器设计方法,是根据训练样本集提供的信息,直接进行分类器设计。这种方法省去了统计分布状况分析,直接对特征空间进行划分,也是当前的主要方法之一。2023/3/3模式识别1074.1 引言决策域的分界面是用数学表达式来描述的,如线性函数和各种非线性函数等,所以分界面的方程主要包括函数类型选择与最佳参数确定。一般来说,函数类型由设计者选择,其参数的确定则是依据一定的准则函数,通过一个学习过程来实现优化。2023/3/3模式识别1084.1 引言线性分类器以及作为设计依据的一些准则函数,准则函数包括:感知准则,最小平方误差准则,最小错分样本数准则,Fisher准则。贝叶斯分类器使错误率或风险达到最小,通常称为最优分类器;采用线性判别函数所产生的错误率或风险可能比贝叶斯分类器大,但是它简单,容易实现。2023/3/3模式识别1094.2 感知准则函数线性判别函数的基本概念感知器概念及其训练算法感知器准则函数及其梯度法2023/3/3模式识别1104.2.1 线性判别函数的基本概念 在一个d维的特征空间中,线性判别函数的一般表达式如下2023/3/3模式识别1114.2.1 线性判别函数的基本概念如果采用增广模式,可以表达如下2023/3/3模式识别1124.2.1 线性判别函数的基本概念在两类情况下,仅用一个判别函数g(x)来表示,对应的分界面就是g(x)=0。如果2023/3/3模式识别1134.2.1 线性判别函数的基本概念当g(x)为线性函数的时候,这个决策面便是超平面。假设X1和X2都在决策面H上,则有v这表明w与H上任一向量正交,即w是H的法向量,并且指向g(x)0的决策域。2023/3/3模式识别1144.2.1 线性判别函数的基本概念线性分类器的设计就是利用训练样本集建立线性判别函数式,也就是寻找最优的权向量w的过程。其主要步骤如下采集训练样本,构成训练样本集。样本应该具有典型性确定一个准则J=J(w,x),能反映分类器性能,且存在权值w*使得分类器性能最优设计求解w的最优算法,得到解向量w*2023/3/3模式识别1154.2.2 感知器概念及其训练方法感知准则函数是五十年代由Rosenblatt提出的一种自学习判别函数生成方法,由于Rosenblatt企图将其用于脑模型感知器,因此被称为感知准则函数。其特点是随意确定的判别函数初始值,在对样本分类训练过程中逐步修正直至最终确定。2023/3/3模式识别1164.2.2 感知器概念及其训练方法感知器是一个具有单层计算单元的神经元模型,是一个多输入单输出的非线性器件。v各个权值可以通过样本的训练学习来调整,从而实现线性可分函数。2023/3/3模式识别1174.2.2 感知器概念及其训练方法针对两类问题,利用增广模式向量与增广加权向量以及判决规则来介绍感知器训练算法。2023/3/3模式识别1184.2.2 感知器概念及其训练方法设训练样本集X=x1,x2,xn,其中xk属于wi或者wj,且xk的类别是已知的。为了确定加权向量w*,执行下面的训练算法给定初始值:置k=0,权向量w(k)为任意值,可选常数0c1输入样本xm x1,x2,xn,计算判决函数值g(xm)=wT(k)xm按如下规则修改权向量若xm wi,且g(xm)0,则w(k+1)=w(k)+cxm若xm wj,且g(xm)0,则w(k+1)=w(k)-cxm令k=k+1,返回第二步,直到w对所有样本稳定不变,结束2023/3/3模式识别119例子1已知两类训练样本,(0,0),(0,1)属于w1,(1,0),(1,1)属于w2,试用感知器算法求解w*训练样本分量增广化以及符号规范化。将训练样本增加一个分量1,且把来自w2的样本各分量乘以-1,得到训练模式集x1=(0,0,1),x2=(0,1,1),x3=(-1,0,-1),x4=(-1,-1,-1)运用训练算法,给权向量赋初值w(1)=(1,1,1)T,取增量c=1,置迭代步数k=1,下面是迭代过程2023/3/3模式识别120例子1K=1,xm=x1,w(k)Txm=10,w(2)=w(1)K=2,xm=x2,w(k)Txm=20,w(3)=w(2)K=3,xm=x3,w(k)Txm=-20,w(4)=w(3)+x3=(0,1,0)TK=4,xm=x4,w(k)Txm=-10,w(5)=w(4)+x4=(-1,0,-1)TK=5,xm=x1,w(k)Txm=-10,w(9)=w(8)2023/3/3模式识别121例子1K=9,xm=x1,w(k)Txm=0,w(10)=w(9)+x1=(-2,1,1)TK=10,xm=x2,w(k)Txm=20,w(11)=w(10)K=11,xm=x3,w(k)Txm=10,w(12)=w(11)K=12,xm=x4,w(k)Txm=0,w(13)=w(12)+x4=(-3,0,0)TK=13,xm=x1,w(k)Txm=0,w(14)=w(13)+x1=(-3,0,1)TK=14,xm=x2,w(k)Txm=10,w(15)=w(14)K=15,xm=x3,w(k)Txm=20,w(16)=w(15)K=16,xm=x4,w(k)Txm=20,w(17)=w(16)K=17,xm=x1,w(k)Txm=10,w(18)=w(17)2023/3/3模式识别122例子1通过上面的结果可以看出,经过对x1,x2,x3,x4一轮迭代后,使用w(14)已经能够对所有训练样本正确分类,增广权矢量的值不再发生变化,所以算法收敛于w(14),w(14)就是所求的解向量,即w*=(-3,0,1)T。由此可以得到区分界面为:-3x1+1=02023/3/3模式识别1234.2.3 感知器准则函数及其梯度法在两类样本线性可分的情况下,通过上面的例子可知,如果将属于wj的样本各分量同时乘以-1,则可以由所有满足wTx0的样本求出解w*,即可确定决策函数。但是,对于求解问题,可能存在多个可行解,因此问题进一步转化成如何按一定条件利用优化算法求得最优解的问题。感知器准则函数与梯度法。2023/3/3模式识别1244.2.3 感知器准则函数及其梯度法梯度法采用最优化技术求线性判别函数中的增广权向量,首先需要构造准则函数。其次再通过优化算法求得最优解,这里选用梯度法求解。一个可微函数某点的梯度给出函数在该点的变化率最大的方向;负梯度给出下降最快的方向。那么对于有极小值的函数而言,可以沿着负梯度的方向选择适当的步长进行搜索,求解函数的极小值点。2023/3/3模式识别125梯度法如果我们定义一个准则函数J(w,x),它的最小值对应着最优解w*,那么完全可以运用数学分析中这种求极值的方法来进行求解,这便是梯度法的基本思想。由于是迭代算法,所以它有一个迭代公式,并且可以找到数值解。迭代公式如下:4.2.3 感知器准则函数及其梯度法2023/3/3模式识别126感知器准则函数构造准则函数如下:当|wTx|-wTx=0,该准则函数可以达到最小值,此时有wTx0,所以可以得到最优解,也就是最优权向量w*。4.2.3 感知器准则函数及其梯度法2023/3/3模式识别127感知器准则函数令k=1/2,可以对J(w,x)求导得到:4.2.3 感知器准则函数及其梯度法2023/3/3模式识别128v感知器准则函数当p=c时,梯度下降法与感知器训练算法的修正公式一致,因此感知器训练算法是梯度下降法的一种特例,一般将p为常数的梯度法称为固定增量法。当p在迭代运算时随k变化,称为可变增量法。4.2.3 感知器准则函数及其梯度法2023/3/3模式识别1294.3 最小平方误差准则感知准则函数及其梯度下降法只适用于样本线性可分的情况,对于线性不可分情况,迭代过程永远不会终结,即算法不收敛。在实际问题中常常无法事先知道样本集是否线性可分,因此希望找到一种既适用于线性可分又适用于线性不可分的算法。通过这种算法得到的解都统一称为最优解。2023/3/3模式识别1304.3 最小平方误差准则在两类样本线性可分的情况下,如果将属于wj的样本各分量同时乘以-1,则应该有权向量w,对所有样本满足wTxi 0,设计分类器就是求解一组线性不等式。如果任意给定一个向量b=b1,b2,bnT0,那么上述问题可以转化成求解w,使之满足wTxibi。2023/3/3模式识别1314.3 最小平方误差准则2023/3/3模式识别1324.3 最小平方误差准则设分别属于wi与wj的样本数为n1与n2,n=n1+n2W为d+1维列向量,通常有:nd+1,那么方程是没有精确解存在的。定义误差向量:e=xw-b最小平方误差准则函数如下:2023/3/3模式识别1334.3 最小平方误差准则约束条件:要解w为最优,必须保证wTxibi02023/3/3模式识别1344.3 最小平方误差准则此时的w*并不是最小平方误差准则函数下的解,因为w*还依赖于b。根据平方误差准则函数,使用固定增量的梯度下降法建立b的迭代公式如下(即b的初始值可以任意给定)。2023/3/3模式识别1354.3 最小平方误差准则2023/3/3模式识别1364.3 最小平方误差准则从这个迭代表达式可以看出w*依赖于b与c的选择。令b=(1,1,1)T,在样本数无穷大时,最小均方误差解逼近贝叶斯判决。2023/3/3模式识别137例子2已知两类训练样本,(0,0),(0,1)属于w1,(1,0),(1,1)属于w2,试用最小均方误差算法求解w*2023/3/3模式识别138例子22023/3/3模式识别1394.3 最小平方误差准则可以重新设置b(1)的初始值,得到不同的决策面方程。与例子1的解对比,可以知道两种方法的差异。2023/3/3模式识别1404.4 最小错分样本数准则对于不等式wTxi 0,如果有解,可以得到解向量w*,如果无解,那么对于任何向量w,必然有某些样本被错分,那么我们可以寻找使最多数目的不等式得到满足的权向量,将它作为最优解向量w*。上述准则便是最小错分样本数准则的基本思想。2023/3/3模式识别1414.4 最小错分样本数准则最小错分样本数准则如下:v对于最小错分样本数准则函数,一般用共轭梯度法进行求解。2023/3/3模式识别1424.5 Fisher线性判别准则在应用统计方法进行识别时,在低维空间可行的方法,往往在高维空间行不通。因此,降维是解决实际问题的关键。在一般情况下,总可以找到某个最好的方向,使样本投影到该方向所对应的直线上最容易分开。如何找到最好的直线方向,如何实