信息论基础 (12).ppt
《信息论基础 (12).ppt》由会员分享,可在线阅读,更多相关《信息论基础 (12).ppt(111页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第12章章 信息理论方法信息理论方法及其应用及其应用第第12章章 信息理论方法及其应用信息理论方法及其应用 本章主要内容:本章主要内容:1.信源熵的估计信源熵的估计 2.最大熵原理最大熵原理 3.最小交叉熵原理最小交叉熵原理 4.信息理论方法的应用信息理论方法的应用 5.小结和思考题小结和思考题 p本章主要介绍信源熵估计、最大熵原理和本章主要介绍信源熵估计、最大熵原理和 最小交叉熵原理及其部分应用。最小交叉熵原理及其部分应用。本节主要内容:本节主要内容:1.1.离散信源序列熵的估计离散信源序列熵的估计 2.2.连续信源熵的估计连续信源熵的估计 12.1 12.1 信源熵的估计信源熵的估计熵估
2、计熵估计v参数估计 给定一个信源概率密度的参数模型,首先从可能的密度函数空间中搜索最可能的密度函数,其次计算最可能密度函数所对应的熵。熵估计(续)熵估计(续)v非参数估计 (1)标准的最大似然或“插入”法,就是先估计信源符号的概率或概率密度,然后再将估计的概率代入熵的计算公式中来计算熵;(2)对于离散信源,可以利用无损信源压缩编码算法进行熵估计,通常使用通用压缩编码;(3)利用其他熵估计算法。12.1.1 12.1.1 离散信源序列熵的估计离散信源序列熵的估计 v插入熵估计v通用信源压缩编码熵估计v模板匹配熵估计插入熵估计(一)插入熵估计(一)离散无记忆信源熵估计离散无记忆信源熵估计 设一个离
3、散无记忆信源具有未知的概率分布 ,其中,符号集 ,为信源的熵,现用给定信源序列 作为训练序列,对信源熵进行插入法估计。首先利用训练序列估计信源符号的概率,表示为 其中n为训练样本数,通常估计值依赖与样本数。符号的概率采用下式估计:其中 ,成为经验分布插入熵估计(一)插入熵估计(一)离散无记忆信源熵估计离散无记忆信源熵估计 可以证明 是 的最大似然估计,且是无偏的,即 将概率的估计值代入信源熵的的公式,得信源熵的估计值:虽然概率的估计是无偏的,但熵的估计却不是无偏的。根据熵的上凸性有 可见,用插入估计得到的熵值的平均要比实际熵值低,是实际熵的欠估计。所以在进行熵估计时,要做适当的修正,以保证熵的
4、估计具有较小的偏差。插入熵估计(一)插入熵估计(一)离散无记忆信源熵估计离散无记忆信源熵估计vMiller等(1954年)提出,修正后的熵按下式计算 其中,为估计的信源符号集的大小,n为训练样本数,这里熵的单位是奈特。v还有一种偏差修正法,称为jackknife法,是统计学中对估计器的偏差和方差进行估计的有效方法,这种方法特别用于标准方法难于应用的场合。熵估计的公式为 其中,表示用样本 进行插入估计所得的熵。例12.1.1 一个二元离散无记忆信源,符号0和1的概率分别为1/4和3/4,长度为32的训练序列为1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1
5、1 0 1 1 1 0 1 1 1 1;(1)求信源熵的最大似然插入估计;(2)利用Miller修正法估计信源熵;(3)利用jackknife修正法估计信源熵。解:信源熵 比特(1)信源符号概率的ML估计为:,;信源熵的最大似然插入估计为 比特;插入熵估计(一)插入熵估计(一)离散无记忆信源熵估计离散无记忆信源熵估计(2)利用Miller修正估计信源熵为 比特;(3)比特 比特利用jackknife修正估计信源熵为 比特 插入熵估计(二)插入熵估计(二)一阶马氏链熵估计一阶马氏链熵估计设信源是一个J状态的一阶马氏链,其中状态集合 信源序列 为训练序列,现对信源的熵进行插入估计。定义示性函数在训
6、练序列中状态(i,j)同时发生次数的估计为状态i发生次数的估计为插入熵估计(二)插入熵估计(二)一阶马氏链熵估计一阶马氏链熵估计状态转移概率的估计:平稳概率的估计:注意,如果训练样本数量不够,会出现某些状态的概率统计值为零的情况。当 ,必有 ;当 ,必有 。为避免出现有些状态观察不到的情况,应该进行多次独立的观察。插入熵估计(二)插入熵估计(二)一阶马氏链熵估计一阶马氏链熵估计 信源熵的估计:与独立信源熵的估计类似,熵的估计也不是无偏的,用插入估计得到的熵值的平均要比实际熵值低。这也可根据熵的上凸性推出。插入熵估计(三)插入熵估计(三)N次扩展源(次扩展源(Ngram)的熵估计)的熵估计 (1
7、2.1.17)其中,为序列中状态 的个数N次扩展源的熵估计为 (12.1.18)修正后的熵为:(12.1.19)其中,为 的个数。插入熵估计(四)插入熵估计(四)高阶有记忆马氏源熵估计高阶有记忆马氏源熵估计v根据 ,所以一个N-1阶马氏源熵的估计为:(12.1.20)v研究表明,插入法熵估计随L的增大,熵估计精度增加。对于低阶马氏源,该方法能得到较精确的熵估计,但对于记忆长度较大的信源序列,数据长度往往不够,不能得到精确的估计结果。通用信源压缩编码熵估计通用信源压缩编码熵估计 根据仙农第一定理,无损信源编码码率的下界是信源的熵,即通过理想的信源编码后,编码器码率可以压缩到信源的熵。因此可以计算
8、无损编码后的压缩率(输出文件比特长度与输入文件比特长度的比)R,而 ,如果采用性能理想的无损信源编码算法,编码压缩率R可以作为信源熵的估计。(12.1.21)当然,压缩性能越好,估计值越接近信源的熵。通用信源压缩编码熵估计通用信源压缩编码熵估计(续续)v有很多通用信源压缩编码算法可用做熵估计,该方法相对于插入法的优点是,不依赖信源的模型,也不假设任何特殊的信源结构,主要考虑的是算法的收敛速度。v有几种常用的信源压缩编码算法可用做熵估计,例如:LZ77系列(自适应模板匹配编码)、GZIP算法(LZ77+Huffman编码)、BZIP(基于Burrows-Wheeler变换+Huffman编码)C
9、WT(上下文树加权+算术编码)等。模板匹配熵估计模板匹配熵估计 对于记忆逐渐消失的信源,设k和n为任意选择的正整数,给定观察,信源熵可由下式估计:(12.1.22)从估计过程可以看到,随着i的连续增加,匹配长度的计算在长度为n的滑动窗内进行。所以这种熵估计方法也称为滑动窗熵估计。模板匹配熵估计(续)模板匹配熵估计(续)可采用如下方法进行估计值的矫正:对给定信源序列进行信源符号概率的最大似然估计,再以估计的概率产生与信源序列长度相同的信源序列复制品,对这些复制序列做窗长不同的滑动窗熵估计。因为复制序列的熵是可以精确计算的,所以用复制序列的熵减去估计熵就得到估计偏差。在所有复制品序列中对这种偏差进
10、行平均就得到平均估计偏差。修正后的熵估计值是滑动窗熵估计加偏差值。例12.1.2:对于例12.1.1的二元离散无记忆信源,用相同的训练序列,用滑动窗熵估计法估计信源的熵,滑动窗口长度n=8,不要求对估计结果进行矫正。解 求得 ,分别为3,3,4,4,4,2,1,0,2,2,7,6,5,4,5,4,4,4,4,4,3,3,2,1;熵的估计为 比特 12.1.2 12.1.2 连续信源熵的估计连续信源熵的估计 连续信源熵的估计主要有以下两种方法:v用一个参数集合近似实际的概率密度,而这个参数集合所对应的熵是已知的;v基于对概率密度的直接估计,例如利用直方图等,然后计算信源的熵,实际上就是插入估计
11、12.2 12.2 最大熵原理最大熵原理本节主要内容:本节主要内容:1.1.最大熵原理的描述最大熵原理的描述 2.2.熵集中定理熵集中定理 3.3.几种重要的最大熵分布几种重要的最大熵分布 最大熵原理的描述最大熵原理:v在寻找满足某些约束的概率分布时,选择满足这些约束具有最大熵的概率分布。利用最大熵原理的依据:v主观依据v客观依据最大熵原理的描述离散信源 设离散信源熵:(12.2.1)满足约束 (12.2.2),(12.2.3)其中,(12.2.2)是概率的归一化约束;是已知函数,(12.2.3)通常是概率矩的描述(包括均值或方差)或其他特征的平均值,是已知常数,在解决实际问题时这些常数可能由
12、训练数据得到。最大熵原理的描述离散信源(续)定理12.2.1(离散最大熵分布定理)满足(12.2.2)和(12.2.3)的约束使(12.2.1)达到最 大值的概率分布为:,(12.2.4)其中,(12.2.5)最大熵为 (奈特)(12.2.6)参数 ,由下式确定:,(12.2.7)其中,。最大熵原理的描述离散信源(续)例12.2.1 做1000次抛掷骰子的试验,求抛掷点数的平均值。解 由于抛掷次数很多,所以各点出现的频率近似等于出现的概率。假定在每次抛掷后,骰子6个面中的每一个面朝上的概率都相同,即为1/6。这里我们利用了“不充分理由原理”,因为除知道骰子有6个面外,我们没有其他任何别的信息。
13、抛掷点数的平均值:m=(1+2+3+4+5+6)/6=3.5 最大熵原理的描述离散信源(续)例12.2.2 做1000次抛掷骰子的试验后得知抛掷点数的平均值为4.5,求骰子各面朝上的概率分布。解 很明显,骰子的各面朝上的概率是不均匀的。除概率的归一性外,我们知道的信息仅有平均值,这对于确定6个面的概率是不完整的信息,必须利用最大熵原理。根据题意,平均值的约束写为 结合(12.2.3),有m=1,且只有待定常数 、,最大熵原理的描述离散信源(续)由(12.2.7),得 ;代入(12.2.4),得所求概率分布为:最大熵原理的描述离散信源(续)例12.2.2(续)求本例概率分布所对应的熵。解 奈特
14、比特 由(12.2.5)得 ;也可利用(12.2.6),得 奈特 最大熵原理的描述连续情况信源的熵 (12.2.10)满足 (12.2.11),(12.2.12)与推导离散情况类似,可以得到以下结果:最大熵原理的描述连续情况定理12.2.2(连续最大熵分布定理)满足(12.2.11)和(12.2.12)的约束使(12.2.10)达到最大值的概率密度为:(12.2.13)其中,(12.2.14)最大熵等于 (12.2.15)参数 ,由下式确定:,(12.2.16)最大熵原理的描述连续情况例12.2.3 连续信源X的取值区间为(),求达到最大熵的X的分布度 和相应的最大熵hmax。解 因为只有归一
15、化约束,由(12.2.14),得Z=b-a,由(12.2.13),所求分布密度 最大熵为 熵集中定理定理12.2.3(熵集中定理)满足约束(12.2.3)的一组概率 所产生的熵在如下范围:(12.2.20)其中 (12.2.21)为在约束(12.2.2)、(12.2.3)下,(12.2.1)的最大值。(12.2.21)的含义是,当N足够大时,渐近为维数为k(=n-m-1,n为信源符号数,m为约束方程个数),置信度为1-F的 分布的值。通常,在很高的置信度的条件下,的也值很小。熵集中定理(续)例12.2.2(续)求置信度95%和99.99%时信源熵的范围。解 根据题意,为自由度6-1-1=4的
16、分布,查表,(1)在置信度95%条件下,得 ,信源熵的范围:1.609 H 1.614(奈特);(2)在置信度99.99%条件下,得 ,信源熵的范围:1.602 H 1.614(奈特)熵集中定理(续)v结论:在提供的信息不完全的情况下,最大熵分布不仅以最多的实现方式实现,而且随着试验次数的增多绝大多数可能的分布的熵都接近最大熵。当次数N时,除具有最大熵的分布外,其他满足约束的分布都是非典型的,出现的概率几乎为零。可以认为,具有最大熵的分布是所有满足给定约束的概率分布的代表;最大熵法是一种保险的策略,它能防止我们预测出数据没有提供的虚假结果。几种重要的最大熵分布v满足均值约束的连续最大熵分布是指
17、数分布v满足均值约束的离散最大熵分布是几何分布 v满足均值和均方值约束的最大熵分布是高斯分布 v满足几何平均值约束的最大熵分布是幂律分布。满足均值约束的连续最大熵分布是指数分布满足均值约束的连续最大熵分布是指数分布 例12.2.3 连续信源X的取值区间为0,),均值E(X)=,求达到最大熵的X的分布密度和相应的最大熵。解 根据(12.2.13)有 ,其中,;根据约束条件有 所求分布密度为 (12.2.22)根据(12.2.15),得最大熵为 (12.2.23)满足均值约束的连续最大熵分布是指数分布满足均值约束的连续最大熵分布是指数分布例12.2.4 离散信源X的取值为Ei,i=1,2,满足约束
18、,求达到最大熵的X的概率分布pi和相应的最大熵H(X)。解 根据(12.2.4),得 其中,。令 ,其中kB为波耳兹曼常数,T为绝对温度,那么 (12.2.24)v这就是物理学中的波耳兹曼分布,也称波耳兹曼吉布斯(Boltzmann-Gibbs)分布,也是指数分布,是平衡统计力学的基本定律。它指出,一个能量为Ei的某特殊状态的概率满足波耳兹曼分布。一个重要的特例就是,Ei=i,这时离散分布称为几何分布。满足几何平均值约束的最大熵分布是幂律分布满足几何平均值约束的最大熵分布是幂律分布 例12.2.6 设连续信源X的取值为正实数,概率密度为p(x),且满足约束,(12.2.25)求具有最大熵的分布
19、密度。解 根据(12.2.13)有 ,满足几何平均值约束的最大熵分布是幂律分布满足几何平均值约束的最大熵分布是幂律分布根据约束条件(12.2.25)有得,所以 (12.2.26)(12.1.26)所示的分布满足幂律分布。所谓幂律是指一个随机变量的概率密度是一个幂函数,即 (12.2.27)其中,为正数。12.3 12.3 最小交叉熵原理最小交叉熵原理本节主要内容:本节主要内容:1.1.最小交叉熵原理最小交叉熵原理 2.2.交叉熵的性质交叉熵的性质 3.3.最小交叉熵推断的性质最小交叉熵推断的性质 4.4.交叉熵法交叉熵法12.3.1 12.3.1 最小交叉熵原理最小交叉熵原理v信息散度在信号处
20、理领域常称为交叉熵。v对离散和连续信源,定义在同一概率空间的两概率测度P和Q的交叉熵分别定义为:v离散情况:(12.3.1)v连续情况:(12.3.2)v交叉熵表示概率分布P和Q之间的“距离”,也表示信源从概率P变化到概率Q所需要的信息量,所以Q称为先验概率,而P称为后验概率。v在很多情况下,可能存在关于概率分布的先验知识,此时可以用最小交叉熵原理推断后验概率分布。最小交叉熵原理就是,当推断一个具有先验分布Q的随机变量的概率分布P时,选择在满足X的已知约束下使交叉熵最小的概率分布。下面是最小交叉熵分布定理。v定理12.3.1(离散最小交叉熵分布定理)满足(12.2.3)的约束使(12.3.1)
21、达到最小值的后验概率分布为:,(12.3.3)其中,(12.3.4)参数 ,由下式确定:,(12.3.5)其中,。v定理12.3.2(连续最小交叉熵分布定理)满足(12.2.12)的约束使(12.3.2)达到最小值的后验概率密度为:(12.3.6)其中,(12.3.7)参数 ,由下式确定:,(12.3.8)v以上两定理的证明与最大熵分布定理的证明类似,此处略。v设满足约束条件(12.2.3)或(12.1.12)的概率分布的集合为P,那么最小交叉熵原理可以描述为:(12.3.9)其中,(12.3.10)满足(12.3.9)的概率密度称为最小交叉熵的解。v通过比较可知,最大熵原理是最小交叉熵原理的
22、特殊情况,此时的先验概率是均匀分布。v也可以说,最小交叉熵原理是最大熵原理的推广。v例12.3.1 设先验概率为N维独立高斯分布随机矢量:N维随机矢量满足约束:,求使交叉熵最小的后验分布密度。v解根据(12.3.6),得可以看到,仍然是独立的高斯分布,再根据给定的约束条件,得#v可见,所求的密度仍然是高斯分布,不过均值和方差被新的约束值代替。12.3.2 12.3.2 交叉熵的性质交叉熵的性质交叉熵的性质总结如下:1)非负性 ,仅当 时等式成立。(12.3.11)2)下凸性 是p的下凸函数,确切地说,已知概率分布(离散或连续),和正数 ,且 ,有 (12.3.12)3)可加性这类似于熵的可加性
23、,就是独立联合分布的交叉熵等于各独立合分布的交叉熵的和。确切地说,已知概率分布 ,有 (12.3.13)4)坐标变换下的不变性在离散情况转化成置换下的不变性。确切地说,设概率密度 ,有变换 ,有 (12.3.14)5)勾股性质定理12.3.3 设 为先验概率密度,、为满足(12.2.12)约束的后验概率密度,且 ,那么 (12.3.15)(12.3.15)式类似于勾股定理。如果把满足约束的概率分布看成一个子空间C,则r,p都在C内,而q在C外。p与q的距离长度最短,相当于连接p、q的矢量和C垂直,从C中任何一点r到q的距离的平方等于r到p距离的平方加上p到q的距离的平方。v证:v其中,a:p(
24、x)满足(12.3.6),b:r(x)和 p(x)都满足约束。12.3.3 12.3.3 最小交叉熵推断的性质最小交叉熵推断的性质vJ.E.Shore等提出4个公理化条件:(1)惟一性;(2)在坐标系变换下不变性;(3)系统独立性;(4)子集独立性。提出这些公理的指导性原则就是,如果问题可以用多于一种的方法解决,那么结果要一致。他们证明了,在给定先验概率和约束条件下,由最小交叉熵原理所推出的后验概率,即最小交叉熵的解是惟一满足上述公理条件下的结果。所以,最小交叉熵原理是惟一的一致推断系统,所有其它的推断系统都将导致矛盾。v下面对最小交叉熵推断满足以上4个公理化条件做具体说明:(1)惟一性 最小
25、交叉熵的解是惟一的。这可以从是p的下凸函数推出。(2)坐标变换下的不变性 在两个不同的坐标系中的最小交叉熵解具有坐标变换关系。也就是说,先求最小交叉 熵的解,再变换得到的后验概率密度和先变换再求最小交叉熵解结果是相同的。(3)系统独立性 系统独立性含义是,对于多维系统,对各维分别进行最小交叉熵推断实现和用联合概率用最小交叉熵直接推断实现得到相同的后验概率。下面以2维分布为例来说明。设先验概率密度 ,后验概率密度 及其边际概率密度 和 ,现通过 估计 。因为 所以,求 相当于求 ,而 ,因此相当于分别求 和 。(4)子集的独立性 子集独立性含义是,用最小交叉熵推断后验概率时,可以用整个概率密度计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论基础 12 信息论 基础 12
限制150内