《概率密度函数的参数估计精选PPT.ppt》由会员分享,可在线阅读,更多相关《概率密度函数的参数估计精选PPT.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别 概率密度函数的参数估计关于概率密度函数的关于概率密度函数的参数估计参数估计第1页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计3.0 引言引言贝叶斯分类器的学习贝叶斯分类器的学习:类条件概率密度函数的:类条件概率密度函数的估计。估计。问题的表示问题的表示:已有:已有c个类别的训练样本集合个类别的训练样本集合D1,D2,Dc,求取每个类别的类条件概率密,求取每个类别的类条件概率密度度 。第2页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计概率密度函数的估计方法概率密度函数的估计方法参数估计方法参数估计方法:预先假设每一个类别的概:预先假设每一个类别的概率密度
2、函数的形式已知,而具体的参数未率密度函数的形式已知,而具体的参数未知;知;最大似然估计最大似然估计(MLE,Maximum Likelihood Estimation);贝叶斯估计贝叶斯估计(Bayesian Estimation)。非参数估计方法非参数估计方法。第3页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计3.1 最大似然估计最大似然估计独立同分布假设独立同分布假设:样本集:样本集D中包含中包含n个样本:个样本:x1,x2,,xn,样本都是,样本都是独立同分布独立同分布的随机变量的随机变量(i.i.d,independent identically distributed
3、)。对类条件概率密度函数的函数形式作出假设,参对类条件概率密度函数的函数形式作出假设,参数可以表示为参数矢量数可以表示为参数矢量:第4页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计最大似然估计最大似然估计第5页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计似然函数似然函数样本集样本集D出现的概率出现的概率:对数似然函数对数似然函数:第6页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计最大似然估计最大似然估计最大似然估计最大似然估计:寻找到一个最优矢量:寻找到一个最优矢量 ,使得似,使得似然函数然函数 最大。最大。第7页,讲稿共61张,创作于星期二模式
4、识别 概率密度函数的参数估计正态分布的似然估计正态分布的似然估计Gauss分布的参数分布的参数:由均值矢量:由均值矢量和协方差矩和协方差矩阵阵构成,最大似然估计结果为:构成,最大似然估计结果为:第8页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计3.2 期望最大化算法期望最大化算法(EM算法算法)EM算法的应用可以分为两个方面:算法的应用可以分为两个方面:1.训练样本中某些训练样本中某些特征丢失特征丢失情况下,分布参数情况下,分布参数的最大似然估计;的最大似然估计;2.对某些对某些复杂分布模型复杂分布模型假设,最大似然估计很假设,最大似然估计很难得到解析解时的迭代算法。难得到解析
5、解时的迭代算法。第9页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计混合密度模型混合密度模型混合密度模型混合密度模型:一个复杂的概率密度分布函数:一个复杂的概率密度分布函数可以由多个简单的密度函数混合构成:可以由多个简单的密度函数混合构成:高斯混合模型高斯混合模型:GMM,Gauss Mixture Model第10页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计两个高斯函数的混合两个高斯函数的混合第11页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计样本的产生过程样本的产生过程高斯模型样本的产生高斯模型样本的产生:每一个样本都是按照:每一个样本都是按
6、照正态分布产生的;正态分布产生的;GMM样本的产生样本的产生:先按照先验概率:先按照先验概率ai选择选择一个子类,然后按照这个子类满足的正态一个子类,然后按照这个子类满足的正态分布产生样本。分布产生样本。第12页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计GMM模型产生的模型产生的2维样本数据维样本数据第13页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计GMM模型的参数估计模型的参数估计GMM的参数的参数:参数估计参数估计:已知样本:已知样本x1,xn,估计参数,估计参数。存在的问题存在的问题:每个样本是由哪一个子集产生:每个样本是由哪一个子集产生的未知。的未知
7、。第14页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计训练样本:训练样本:来自子类:来自子类:已知已知y的条件下,参数的估计:的条件下,参数的估计:已知参数条件下,已知参数条件下,y的估计:的估计:K-mean算法算法第15页,讲稿共61张,创作于星期二模式识别 无监督学习与聚类K-均值聚类均值聚类1.begin initialize 样本数样本数n,聚类数,聚类数K,初始聚类中,初始聚类中心心1,c;2.do 按照最近邻按照最近邻i分类分类n个样本;个样本;3.重新计算聚类中心重新计算聚类中心1,c;4.until i不再改变;不再改变;5.return 1,c;6.end第
8、16页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计存在的问题:样本存在的问题:样本xt可能来自于任何一个子类,但在可能来自于任何一个子类,但在参数估计时只出现在一个子类中。参数估计时只出现在一个子类中。修改计算过程:修改计算过程:EM算法算法第17页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计GMM的参数估计算法的参数估计算法(EM)1.随机初始化参数:随机初始化参数:2.计算:计算:3.重新估计参数重新估计参数;4.迭代计算迭代计算2,3步,直到收敛为止。步,直到收敛为止。第18页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计基本基本EM算法算法
9、样本集样本集:令:令X是观察到的样本数据集合,是观察到的样本数据集合,Y为丢为丢失的数据集合,完整的样本集合失的数据集合,完整的样本集合D=X Y。似然函数似然函数:由于:由于Y未知,在给定参数未知,在给定参数时,时,似然似然函数可以看作函数可以看作Y的函数:的函数:第19页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计基本基本EM算法算法由于由于Y未知,因此我们需要寻找到一个在未知,因此我们需要寻找到一个在Y的所有的所有可能情况下,平均意义下的似然函数最大值,即似可能情况下,平均意义下的似然函数最大值,即似然函数对然函数对Y的期望的最大值:的期望的最大值:E步:步:M步:步:第
10、20页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计基本基本EM算法算法1.begin initialize ,T,i0;2.do ii+13.E步:计算步:计算 ;4.M步:步:5.until 6.return第21页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计EM算法的性质算法的性质收敛性收敛性:EM算法具有收敛性;算法具有收敛性;最优性最优性:EM算法只能保证收敛于似然函数算法只能保证收敛于似然函数的局部最大值点(极值点),而不能保证的局部最大值点(极值点),而不能保证收敛于全局最优点。收敛于全局最优点。第22页,讲稿共61张,创作于星期二模式识别 概率密度
11、函数的参数估计隐含隐含Markov模型模型(Hidden Markov Model,HMM)应用领域应用领域:识别对象存在着先后次序信息,:识别对象存在着先后次序信息,如语音识别,手势识别,唇读系统等;如语音识别,手势识别,唇读系统等;模式描述模式描述:特征矢量序列。:特征矢量序列。第23页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计输入语音波形输入语音波形第24页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计观察序列观察序列观察序列观察序列:信号的特征需要用一个特征矢量:信号的特征需要用一个特征矢量的序列来表示:的序列来表示:其中的其中的vi为一个特征矢量,称为
12、一个观察值。为一个特征矢量,称为一个观察值。第25页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计一阶一阶Markov模型模型M个状态:个状态:w1,w2,wM时刻时刻t:处于状态:处于状态w(t);经过经过T个时刻:个时刻:WT=w(1),w(T)。第26页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计一阶一阶Markov模型的状态转移模型的状态转移Markov性性:模型在时刻:模型在时刻t处于状态处于状态wj的概率完全由的概率完全由t-1时刻的状态时刻的状态wi决定,而且与时刻决定,而且与时刻t无关,即:无关,即:第27页,讲稿共61张,创作于星期二模式识别 概
13、率密度函数的参数估计Markov模型的初始状态概率模型的初始状态概率模型初始于状态模型初始于状态wi的概率用的概率用 表示。表示。模型参数模型参数:一阶:一阶Markov模型可以用参数模型可以用参数 表表示,其中:示,其中:第28页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计一阶一阶Markov模型输出状态序列模型输出状态序列的概率的概率输出状态序列的概率输出状态序列的概率:由初始状态概率与各次状态:由初始状态概率与各次状态转移概率相乘得到。转移概率相乘得到。例如:例如:W5=w1,w1,w3,w1,w2,则模型输出该序列,则模型输出该序列的概率为:的概率为:第29页,讲稿共6
14、1张,创作于星期二模式识别 概率密度函数的参数估计一阶一阶Markov模型实例模型实例某个城市天气的变化可以采用一阶马尔科夫模型描某个城市天气的变化可以采用一阶马尔科夫模型描述述,每天的天气有每天的天气有4种状态种状态晴、阴、雨、雪晴、阴、雨、雪。第30页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计一阶隐含一阶隐含Markov模型模型隐含隐含Markov模型模型中,状态是不可见的,在中,状态是不可见的,在每一个时刻每一个时刻t,模型当前的隐状态输出一个,模型当前的隐状态输出一个观察值。观察值。隐状态输出的观察值可以是离散值,连续值,隐状态输出的观察值可以是离散值,连续值,也可以
15、是一个矢量。也可以是一个矢量。第31页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计一阶隐含一阶隐含Markov模型实例模型实例我们我们不知道不知道某城市某城市的天气情况,的天气情况,只只知道当地知道当地某人某人每天每天的活动情况的活动情况散步、购物、做家务散步、购物、做家务。第32页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计HMM的工作原理的工作原理观察序列的产生过程观察序列的产生过程:HMM的内部状态转移过程同的内部状态转移过程同Markov模型相同,在每次状态转移之后,由该状态输出一个观模型相同,在每次状态转移之后,由该状态输出一个观察值,只是状态转移过程
16、无法观察到,只能观察到输出察值,只是状态转移过程无法观察到,只能观察到输出的观察值序列。的观察值序列。输出概率输出概率:以离散的:以离散的HMM为例,隐状态可能输出的观察值为例,隐状态可能输出的观察值集合为集合为v1,v2,vK,第,第i个隐状态输出第个隐状态输出第k个观察值的概率个观察值的概率为为bik。例如:例如:T=5时,可能的观察序列时,可能的观察序列V5=v3v2v3v4v1第33页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计HMM的参数表示的参数表示状态转移矩阵状态转移矩阵:A,M*M的方阵;的方阵;状态输出概率状态输出概率:B,M*K的矩阵;的矩阵;初始概率初始概
17、率:,包括,包括M个元素。个元素。M个状态,个状态,K个可能的输出值。个可能的输出值。第34页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计HMM的三个核心问题的三个核心问题估值问题估值问题:已有一个:已有一个HMM模型,其参数已知,计算这模型,其参数已知,计算这个模型输出特定的观察序列个模型输出特定的观察序列VT的概率;的概率;解码问题解码问题:已有一个:已有一个HMM模型,其参数已知,计算模型,其参数已知,计算最有可能输出特定的观察序列最有可能输出特定的观察序列VT的隐状态转移序列的隐状态转移序列WT;学习问题学习问题:已知一个:已知一个HMM模型的结构,其参数未知,模型的结
18、构,其参数未知,根据一组训练序列对参数进行训练;根据一组训练序列对参数进行训练;第35页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计估值问题估值问题一个一个HMM模型产生观察序列模型产生观察序列VT可以由下式计算:可以由下式计算:rmax=MT为为HMM所有可能的状态转移序列数;所有可能的状态转移序列数;为状态转移序列为状态转移序列 输出观察序列输出观察序列 的概的概率;率;为为 状态转移序列状态转移序列 发生的概率。发生的概率。第36页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计估值问题的计算估值问题的计算计算复杂度:计算复杂度:第37页,讲稿共61张,创作于
19、星期二模式识别 概率密度函数的参数估计HMM估值算法的简化估值算法的简化第38页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计HMM的前向算法的前向算法1.初始化:初始化:2.迭代计算:迭代计算:3.结束输出:结束输出:计算复杂度:计算复杂度:第39页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计解码问题解码问题解码问题的计算:解码问题的计算:同估值问题的计算类似,同估值问题的计算类似,最直观的思路是遍历所有的可能状态转移序最直观的思路是遍历所有的可能状态转移序列,取出最大值,计算复杂度为:列,取出最大值,计算复杂度为:O(MTT)。同样存在着优化算法:同样存在着优
20、化算法:Viterbi算法。算法。第40页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计Viterbi算法算法1.因为需要回朔最优路径,所以建立一个矩阵因为需要回朔最优路径,所以建立一个矩阵,其元素,其元素 保存第保存第t t步,第步,第i i个状态在第个状态在第t-1t-1步的最优状态。步的最优状态。2.2.初始化:初始化:3.3.迭代计算:迭代计算:4.4.结束:结束:5.5.路径回朔:路径回朔:第41页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计Viterbi算法图示算法图示第42页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计学习问题学习问题
21、HMM的学习问题的学习问题:已知一组观察序列已知一组观察序列(训练样本集合训练样本集合):如何确定最优的模型参数如何确定最优的模型参数,使得模型产生训练集合,使得模型产生训练集合V V的联合概率最大的联合概率最大这同样是一个最大似然估计问题,需要采用这同样是一个最大似然估计问题,需要采用EMEM算法。算法。第43页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计图示图示第44页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计变量说明变量说明 :表示在:表示在t-1时刻时刻HMM处于状态处于状态i,并且从,并且从1t-1时刻之间时刻之间产生观察序列产生观察序列V1t-1的
22、概率;的概率;:表示在:表示在t时刻时刻HMM处于状态处于状态j,并且从,并且从t+1T时刻之间产生观时刻之间产生观察序列察序列Vt+1T的概率;的概率;第45页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计变量说明变量说明输出观察序列输出观察序列VT时,时,在在t-1时刻时刻HMM处处于于i状态,在时刻状态,在时刻t处于处于j状态的概率:状态的概率:第46页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计前向前向-后向算法后向算法(Baum-Welch算法算法)迭代公式:迭代公式:初始概率:初始概率:状态转移概率:状态转移概率:输出概率:输出概率:第47页,讲稿共6
23、1张,创作于星期二模式识别 概率密度函数的参数估计HMM的其它问题的其它问题连续连续HMM模型模型:在观察序列中每个观察值是一个特征矢:在观察序列中每个观察值是一个特征矢量,相应的模型中输出概率量,相应的模型中输出概率b就需要用一个概率密度函数描就需要用一个概率密度函数描述,其函数形式需要假设,通常使用述,其函数形式需要假设,通常使用GMM。训练问题训练问题:通常可以用每个训练样本分别计算:通常可以用每个训练样本分别计算值,然后分子和分值,然后分子和分母部分分别进行累加,最后统一进行参数修正;母部分分别进行累加,最后统一进行参数修正;模型的拓扑结构模型的拓扑结构:模型结构可以根据实际问题的需要
24、来设计,在:模型结构可以根据实际问题的需要来设计,在初始化状态转移矩阵初始化状态转移矩阵A时,将某些元素设为时,将某些元素设为0即可。即可。第48页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计“左左-右右”模型结构模型结构第49页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计带跨越的带跨越的“左左-右右”结构结构HMM模型模型第50页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计3.3 贝叶斯估计贝叶斯估计为什么要采用贝叶斯估计?为什么要采用贝叶斯估计?贝叶斯估计与最大似然估计有什么差别?贝叶斯估计与最大似然估计有什么差别?第51页,讲稿共61张,创
25、作于星期二模式识别 概率密度函数的参数估计贝叶斯估计与最大似然估计的差别贝叶斯估计与最大似然估计的差别观点不同观点不同:最大似然估计认为最大似然估计认为是一个确定的未知矢量是一个确定的未知矢量;贝叶斯估计认为贝叶斯估计认为是一个随机是一个随机矢量矢量。过程不同:过程不同:最大似然估计:样本集最大似然估计:样本集D D 估计最优参数估计最优参数*;贝叶斯估计:样本集贝叶斯估计:样本集D D和先验分布和先验分布p(p()估计参数的后验分估计参数的后验分布布p(p(|D)|D);优点优点:提高小样本集条件下的估计准确率;:提高小样本集条件下的估计准确率;缺点缺点:计算复杂:计算复杂第52页,讲稿共6
26、1张,创作于星期二模式识别 概率密度函数的参数估计贝叶斯估计的一般理论贝叶斯估计的一般理论识别过程识别过程:类条件概率密度的计算:类条件概率密度的计算学习过程学习过程:参数后验概率密度的估计:参数后验概率密度的估计第53页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计单变量正态分布的贝叶斯估计单变量正态分布的贝叶斯估计已知概率密度函数满足正态分布,其中方差已知概率密度函数满足正态分布,其中方差2 2已知,均值已知,均值未知,假设未知,假设的先验概率满足正的先验概率满足正态分布,即:态分布,即:第54页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计均值的后验概率均值的
27、后验概率经推导可得,在已知训练样本集合经推导可得,在已知训练样本集合D的条件下,的条件下,参数参数的分布:的分布:第55页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计均值的后验概率均值的后验概率均值的后验概率仍满足正态分布,其中:均值的后验概率仍满足正态分布,其中:第56页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计均值分布的变化均值分布的变化第57页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计类条件概率密度的计算类条件概率密度的计算第58页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计类条件概率密度的计算类条件概率密度的计算第59页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计共轭先验分布共轭先验分布如果假设参数的如果假设参数的先验分布先验分布为其为其共轭分布共轭分布,则,则参数的后验分布与先验分布属于参数的后验分布与先验分布属于同一分布同一分布族族。GMM中参数的共轭先验分布:中参数的共轭先验分布:的共轭先验为的共轭先验为Gauss分布;分布;的共轭先验分布为的共轭先验分布为Wishart分布;分布;的共轭先验分布为的共轭先验分布为Dirichlet分布。分布。第60页,讲稿共61张,创作于星期二模式识别 概率密度函数的参数估计感感谢谢大大家家观观看看第61页,讲稿共61张,创作于星期二
限制150内