逻辑斯蒂回归与最大熵.ppt
第第6 6章章 逻辑斯蒂回归与最大熵模型逻辑斯蒂回归与最大熵模型简介简介6.0逻辑斯蒂回归模型逻辑斯蒂回归模型6.1最大熵模型最大熵模型6.2第第6 6章章.简介简介v逻辑斯蒂回归是统计学中经典的分类方法逻辑斯蒂回归是统计学中经典的分类方法.v最大熵是概率模型学习的一个准则最大熵是概率模型学习的一个准则,推广到分类问题推广到分类问题得到最大熵模型得到最大熵模型.v逻辑斯蒂与最大熵都是线性模型。逻辑斯蒂与最大熵都是线性模型。6.1 6.1 逻辑斯蒂回归模型逻辑斯蒂回归模型6.1.1 6.1.1 逻辑斯蒂分布逻辑斯蒂分布定义6.1 设X是连续随机变量,逻辑斯蒂分布函数和密度函数:为位置参数 0 为形状参数6.1 6.1 逻辑斯蒂回归模型逻辑斯蒂回归模型v定义 6.2 二项逻辑斯蒂回归模型是如下概率分布:xRn是输入,y0,1输出,w,b参数,w权值向量,b偏置,w.x内积.6.1.2 二项逻辑斯蒂回归模型v有时为了研究方便,将权值和输入向量扩充w=(w(1),w(2),w(n),b)T,x=(x(1),x(n),1)T,此时逻辑斯蒂模型:v考察逻辑斯蒂回归模型特点.事件的几率:发生概率与不发生概率的比值.v对数几率:v对逻辑斯蒂回归而言v这就是说,RLM中,输出Y=1对数几率是输入x的线性函数.v换角度,考虑对输入x分类的线性函数w.x,通过LRM模型将线性函数转化为概率:v线性函数值接近正无穷,概率值接近1;反之,负无穷和0,-这就是逻辑斯蒂回归模型。训练集T=(x1,y1)(xN,yN),xRn,y0,1,用极大似然估计法估计模型参数,从而得到LRM.设:似然函数6.1.3 6.1.3 模型参数估计模型参数估计对数似然函数*对L求极大值得到w的估计值.v这样,问题就成为以对数似然函数为目标函数的最优化问题.路径斯蒂回归通常采用梯度下降法,拟牛顿法v假设离散随机变量Y的取值集合1,2K那么LRM为:6.1.4 6.1.4 多项逻辑斯蒂回归多项逻辑斯蒂回归v6.2.1 6.2.1 最大熵原理最大熵原理表述为在满足约束条件的模型集合中选取最大熵模型。若离散随机变量X的概率分布是P(X),其熵为:v熵满足下列不等式6.2 最大熵模型|X|为X取值个数,仅当X均匀分布时,右等号成立,熵最大。最大熵理论:熵增原理v在无外力作用下,事物总是朝着最混乱的方向发展v事物是约束和自由的统一体v事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则v在已知条件下,熵最大的事物,最可能接近它的真实状态v以最大熵理论为基础的统计建模v为什么可以基于最大熵建模呢?vJaynesJaynes证明证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势vTribusTribus证明证明,正态分布、伽玛分布、指数分布等,都是最大熵原理的特殊情况。基于最大熵的统计建模:建模理论基于最大熵的统计建模:建模理论最大熵原则下最大熵原则下点点的分布:的分布:对一随机过程,如果没有任何观测量,即没有任何约束,则解为均匀分布。增加约束条件继续增加约束条件v问题描述:问题描述:设最终输出值构成的语言学类别有限集为Y,对于每个yY,其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是:给定上下文xX,计算输出为yY的条件概率p(y|x)p(y|x)。基于最大熵的统计建模:数学描述基于最大熵的统计建模:数学描述v例例 6.1 6.1 随机变量X取值A,B,C,D,E,要估计各值的概率P(A),P(B)解:约束条件约束条件:P(A)+P(B)+P(C)+P(D)+P(E)=1P(A)+P(B)+P(C)+P(D)+P(E)=1v有时,能从先验知识得到一些约束条件,如:P(A)+P(B)=3/10P(A)+P(B)=3/10-P(A)=P(B)=3/20-P(A)=P(B)=3/20P(A)+P(B)+P(C)+P(D)+P(E)=1-P(C)=P(D)=P(E)=7/30P(A)+P(B)+P(C)+P(D)+P(E)=1-P(C)=P(D)=P(E)=7/306.2 最大熵模型这时认为A,B等可能,C,D,E等可能。以此类推,如果有3个约束条件等,以上模型学习方法正是遵循了最大熵最大熵原理原理满足条件的分布有无穷多,一个办法认为等可能的P(A)=P(B)=P(C)=P(D)=P(E)=1/5P(A)=P(B)=P(C)=P(D)=P(E)=1/5v图提供了用最大熵原理进行概率模型选择的集合解释。v假设模型是一个条件概率分布P(Y|X),给定输入X以P(Y|X)输出Y。给定训练集T=(x1,y1)(xN,yN),选择分类模型.先找约束条件.对T可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布v(X=x,Y=y)表示T中(x,y)出现频数,v(X=x)表示出现频数,N样本容量.用特征函数f(x,y)定义x,y之间某一事实6.2.2 最大熵模型的定义特征函数f(x,y)关于经验分布P(X,Y)的期望值:如果模型能获取T中信息那么假设这两个期望值相等,即Ep(f)=Ep(f)或:或:6.2.2 最大熵模型的定义特征函数f(x,y)关于模型P(X|Y)与经验分布P(X)的期望值:此为模型约束条件,如果有n个特征函数fi(x,y)就有n个约束条件。定义定义6.3 6.3 最大熵模型最大熵模型 假设满足约束条件模型集合为则模型集合C中条件熵H(P)最大的模型称为最大熵模型.6.2.2 最大熵模型的定义定义在条件概率分布P(Y|X)上的条件熵为v最大熵学习模型过程就是求解最大熵过程.可以形式化为约束最优化问题.对于训练集T以及特征函数fi(x,y),最大熵模型学习等价约束最优化v最优化习惯,求最大值问题等价改写为求最小值问题:6.2.3 最大熵模型的学习v求解约束最优化问题过程求解约束最优化问题过程这里将约束最优化原始问题转化为无约束最优化的对偶问题。v下面证明对偶函数极大化等价于最大熵模型的极大似然估计下面证明对偶函数极大化等价于最大熵模型的极大似然估计.已知T的经验概率分布P(X,Y),条件概率分布P(Y|X)的对数似然函数为:6.2.4 极大似然估计当条件概率分布P(y|x)是最大熵模型时,对数似然函数Lp(Pw)为:再看对偶函数 .由6.17及6.20得6.2.4 极大似然估计v既然对偶函数等价于对数似然函数Lp(Pw),于是证明最大熵模型学习中对偶函数极大化等价于最大熵模型的极大似然估计.v最大熵模型更一般形式v最大熵模型和逻辑斯蒂模型有类似形式,它们又称为对数线性模型.