深度学习基础Mchapter1ALL (4).pdf
《深度学习基础Mchapter1ALL (4).pdf》由会员分享,可在线阅读,更多相关《深度学习基础Mchapter1ALL (4).pdf(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(InformationEntropy)信息熵信息熵1信息论中的熵(entropy)热力学中的熵:是表示分子状态混乱程度的物理量2 经常使用的熵概念有下列几种:信息熵 交叉熵 相对熵 条件熵 互信息克劳德艾尔伍德香农(Claude Elwood Shannon,1916年4月30日2001年2月24日)是美国数学家、信息论的创始人。1936年获得密歇根大学学士学位。1940年在麻省理工学院获得硕士和博士学位,1941年进入贝尔实验室工作。香农提出了信息熵的概念,为信息论和数字通信奠定了基础。信息论中的熵:用来描述信源的不确定性的大小信息熵 信源信息的不确定性函数 通常满足两个条件:1)是概率
2、的单调递减函数。2)两个独立符号所产生的不确定性应等于各自不确定性之和,即?,?+?。对数函数同时满足这两个条件:?信息熵:要考虑信源所有可能发生情况的平均不确定性。若信源符号有n种取值:1,,对应概率为1,,且各种出现彼此独立。此时信源的平均不确定性应当为单个符号不确定性?log?的统计平均值(E),称为信息熵,即?log?3交叉熵(crossentropy)定义:交叉熵是信息论中一个重要的概念,用于表征两 个变量概率分布P,Q(假设P表示真实分布,Q为模型预测的分布)的差异性。交叉熵越大,两个变量差异程度越大。交叉熵公式:交叉熵公式:,?4相对熵相对熵(relativeentropy)也称
3、为KL散度(KullbackLeibler divergence,简称KLD)、信息散度(information divergence)、信息增益(information gain)。相对熵的定义:是交叉熵与信息熵的差值。表示用分布Q模拟真实分布P,所需的额外信息。计算公式为?|?5交叉熵信息熵相对熵相对熵(relativeentropy)举例举例举例:举例:假设某字符发射器随机发出0和1两种字符。且其真实发出概率分布为A。现在有两人的观察概率分布B与C。各个分布如下:A(0)=1/2,A(1)=1/2B(0)=1/4,B(1)=3/4C(0)=1/8,C(1)=7/8则则B和和C哪个更接近实
4、际分布哪个更接近实际分布A?6 求解过程:求解过程:用公式用公式?|?,则?|?log?/?/?log?/?/?|?log?/?/?log?/?/?结果:?|=0.14,?|?0.41相对熵的性质相对熵的性质 相对熵(KL散度)有两个主要的性质:相对熵(KL散度)不具有对称性不具有对称性,即?|?|。例如?|?log?/?/?log?/?/?=0.1438,?|?log?/?/?log?/?/?=0.1308即即?|?|相对熵具有非负性具有非负性。即?|?07JS散度散度 JS散度散度(JensenShannon divergence)具有对称性:具有对称性:由于由于KL散度不具对称性,因此J
5、S散度在KL散度的基础上进行了改进。现有两个分布p1和p2,其JS散度公式为:?|?|?|?8联合熵 联合熵联合熵(复合熵,复合熵,JointEntropy):用H(X,Y)表示 两个随机变量X,Y的联合分布的熵,形成联合熵联合熵9条件熵条件熵 条件熵(条件熵(theconditionalentropy):H(X|Y)表示在已知随机变量Y的条件下随机变量X的不确定性。H(X|Y)=H(X,Y)H(Y),表示(X,Y)的联合熵,减去Y单独发生包含的熵。推导推导过程:假设已知y?,则?对于y的各种可能值,需要根据出现概率做加权平均。即?,?,?10互信息 互信息互信息(MutualInformat
6、ion)可以被看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。;?,?1?1?,1?,?,?,?,?,?即互信息;是联合分布?,?与乘积分布?的相对熵11文氏图文氏图图解H(X)H(X,Y)H(Y)H(X|Y)H(Y|X)I(X;Y)H(X|Y)12Thanks!13(Gradientin Backpropagation)反向传播中的梯度反向传播中的梯度14反向传播(backpropagationbackpropagation)中的梯度反向传播需要通过递归调用链规则(chainrule)计算表达式的梯度。15?输入层输出层中间层
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度学习基础Mchapter1ALL 4 深度 学习 基础 Mchapter1ALL
限制150内