第三章连续信源的信息熵精选文档.ppt
第三章连续信源的信息熵本讲稿第一页,共六十四页第三章第三章.连续信源的信息熵连续信源的信息熵 3.1 连续信源的离散化连续信源的离散化 (Discretization of Continuous Source)我们前面所介绍的信源均指离散信源,即信源所发的消息都是由符号或符号序列所组成;而且每一个符号的取值都属于一个有限元素组成的集合之中。而连续信源是指信源所发出的消息都是由一个个随机过程(stochastic process)所形成。如:语音信号 它不仅幅度上,而且在时间上也都是 连续的,即分别属于一个无限的集合之中。本讲稿第二页,共六十四页3.1 连续信源的离散化连续信源的离散化 因此,我们所研究的问题就复杂了,然而任何复杂的问题都可以分解成比较简单的问题分步解决。故通常我们有一些处理连续变量的方法。TimediscretizationStochastic processRandom vectorRandomvariableMemorylessMarkovianAmplitude discretizationAmplitudecontinuous正交变换正交变换Orthogonal Transformation 所谓正交变换是一种数学处理手段,将在T时间内的受限于最高频率为F的随机过程,无失真地变换成2FT个随机变量。最理想的正交变换是:KL expansion。本讲稿第三页,共六十四页3.1 连续信源的离散化连续信源的离散化 因此任何复杂的统计对象,经多种处理后就可由浅入深地逐步解决问题。正如我们在离散信源中:任何处理过程总要丢失信息,最任何处理过程总要丢失信息,最多保持不变。所以简化处理就得付出多保持不变。所以简化处理就得付出代价即:容忍信息的丢失,除非正交代价即:容忍信息的丢失,除非正交变换和极限处理。变换和极限处理。消息消息事件事件随机随机变量变量随机随机序列序列随机随机过程过程自信息自信息信息熵信息熵序列熵的表达类型序列熵的表达类型随机过程的熵随机过程的熵本讲稿第四页,共六十四页第三章.连续信源的信息熵 3.2 连续变量的相对熵连续变量的相对熵(The differential entropy of Continuous random Variable)一个连续变量总可以采用数字量化的方式简化成一个离散变量来近似,而且量化单位越小则所得的离散变量就越接近那个连续变量。因此我们针对连续变量的概率统计规律概率分布密度函数概率分布密度函数(probability density function)也可采用上述近似方法。0ab本讲稿第五页,共六十四页3.2 连续变量的相对熵连续变量的相对熵 如果把xa,b 的定义域划分成n个小区间,且每个小区间宽度相等。那么处于第i个区间的概率就等于:0ab1本讲稿第六页,共六十四页3.2 连续变量的相对熵连续变量的相对熵 以上我们将一个连续变量的概率空间量化成一个离散空间,从而得到连续信源的近似信息熵。如果将此近似手段在取极限的方式下就可逼近这个连续变量的熵。称为相对熵Differential entropy 称为绝对熵absolute entropy信息散度信息散度 D(p/q)(relative entropy)本讲稿第七页,共六十四页3.2 连续变量的相对熵连续变量的相对熵 在取极限的过程中由于n 相当于 0,此时这个离散变量越来越逼近一个连续变量;而离散集合中的信息熵Hn(X)就分解为两项,其中一项与划分精度 无关,趋于一个常量Hc(X)。而另一项,随着 0最终趋于一个无穷大的量。很显然这与取极限之前的离散熵差别很大,那么这种极限形式能否表达出信源平均不定度的概念吗?由于表达形式的不同,则它的物理意义也应有所不同。所以我们不能以离散熵的概念来理解上述表达式,特别是当某些离散熵的数学性质不在继续保持的情况下,如:非负性、对称性、扩展性等。但值得庆幸,上式中将熵函数中最能反映信源的固有属性的数学性质如可加性、极值性和上凸性仍旧依然保持着。因此有可能上述表达式的某些部分仍能代表连续信源的某些物理属性。(但我们要深入讨论离散向连续逼近时,物理属性的变化。)本讲稿第八页,共六十四页3.2 连续变量的相对熵连续变量的相对熵 因为对于一个连续变量,它的取值有无穷多个,无论它取任何值,其随机事件所对应的不定度一定是无穷大量。而对熵来说,应是这个随机事件集合的平均值,既然每一个事件的自信息都是无穷大,则它的集合平均值也应是无穷大才对。又因为从绝对的观点来看,每一个连续信源的平均不定度都是无穷大,那么这个熵的价值也就无意义了。但是再仔细分析一下,上式中只有H()项才与划分精度 有关,这说明只有此项能反映人为地利用离散模式向连续型逼近的近似程度。换句话说,这仅是强加上的人为因素,并不代表事物原有的客观属性。比如,对于同样概率分布的随机变量x,如果仅划分精度 不同时,可取 1,2代表两种划分精度,则我们所得到的熵的表达式:本讲稿第九页,共六十四页3.2 连续变量的相对熵连续变量的相对熵 为什么说相对熵反映连续变量的客观存在的平均不定度?首先一个随机变量,当它的概率分布一旦确定,则它的不定性就该给定,而不能随划分精度的变化而变化。第二,由于信息量的概念是不定度的解除量,如果在相同划分精度下,再讨论两者之差时,H()将会消失。所以我们可看到仅从Hc(X)上就可真正反映出信息的全部属性(包括非负性)。因此,我们只要相对熵的定义就足够了。同时我们也能给出两个连续变量的互信息问题:可见只有H()不同,因此我们说:能真正反映连续信源的客观属性的应该是第一项,而不是第二项。对于后者我们称之为绝对熵绝对熵(absolute entropy);而对于前者我们称之为相对熵相对熵(differential entropy)。本讲稿第十页,共六十四页3.2 连续变量的相对熵连续变量的相对熵本讲稿第十一页,共六十四页3.2 连续变量的相对熵连续变量的相对熵 可见当两个连续变量之间的互信息,实际上就是两熵之差,经绝对熵的相互抵消后,就剩下相对熵之差了。所以相对熵则完全反映出信息的基本属性。所谓“相对”一词也是由此而来。注:相对熵的定义与离散信源的信息熵有着明显的差别,即这种相对熵仅代表连续变量的相对平均不定度。同理,也有如下的相对熵的定义:本讲稿第十二页,共六十四页第三章第三章.连续信源的信息熵连续信源的信息熵 3.3 相对熵的性质相对熵的性质(The Properties of Differential Entropy)1.可加性可加性 1本讲稿第十三页,共六十四页3.3 相对熵的性质相对熵的性质本讲稿第十四页,共六十四页3.3 相对熵的性质相对熵的性质2.3.4.有此上凸性,则导致相对熵有最大熵定理。5.6.本讲稿第十五页,共六十四页第三章第三章.连续信源的信息熵连续信源的信息熵 3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵(The Differential Entropy of some Random Variables)1.均匀分布下的相对熵:(The Differential Entropy of Random Variable and Vector with Uniform Distribution)本讲稿第十六页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵本讲稿第十七页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵2.高斯分布下的相对熵:(The Differential Entropy of Random Variable and Vector with Normal Distribution)本讲稿第十八页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵 由此可见正态分布的相对熵仅与它的方差有关,而与它的均值m无关。这也是最简单的相对熵,是干扰最严重的随机变量高斯噪声源的数学特性。高斯信源不仅因为其数学描述简单,而且由于它的干扰最强,所以经常用它来作我们通信系统中干扰源的数学模型。本讲稿第十九页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵 如果L维的正态随机变量组成一个随机矢量 ,设每一个变量的均值为mi,则如果能知道任何变量间的协方差;(covariance)我们就能唯一地确定这个随机矢量。本讲稿第二十页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵按相对熵的定义就可推出L维正态矢量的相对熵:如果各个分量之间相互独立,则R形成一对角线矩阵:本讲稿第二十一页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵例31.求二维正态矢量的相对熵和两变量间的互信息。本讲稿第二十二页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵根据根据本讲稿第二十三页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵 可见二维正态矢量的相对熵,等于两个分量的相对熵之和与它们之间相关程度对熵的损失量之差。现在进一步分析I(X1;X2)的物理意义:本讲稿第二十四页,共六十四页3.4 几种常见随机变量的相对熵几种常见随机变量的相对熵 如果两个分量一一对应,则实际上是两个变量变成一个变量了。此刻硬要将一个连续量看成两个连续量,必然要引入一个无穷大量才对。所以此时的互信息就是无穷大量。还因为互信息的定义式为:可见互信息不仅是相对熵之差,而且也是连续熵之差。本讲稿第二十五页,共六十四页第三章第三章.连续信源的信息熵连续信源的信息熵 3.5 连续信源的最大熵定理连续信源的最大熵定理(Maximum Entropy Theorem of Continuous Source)在离散信源中也有最大熵问题,目的就是希望设计信在离散信源中也有最大熵问题,目的就是希望设计信源时使它具备最大发送信息的能力。从熵函数的上凸性质源时使它具备最大发送信息的能力。从熵函数的上凸性质看,它已具备最大值的充要条件,我们所面临的问题就是看,它已具备最大值的充要条件,我们所面临的问题就是如何把握最理想的概率分布。如何把握最理想的概率分布。显然在离散信源中等概率将是最理性的条显然在离散信源中等概率将是最理性的条 件,件,在工程设计中将遵循这一原则。在工程设计中将遵循这一原则。请看请看习题习题4.2:本讲稿第二十六页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 以上是一种最简单的信号设计方案,但不是最优方案,以上是一种最简单的信号设计方案,但不是最优方案,因为它的效率不高。因为它的效率不高。这是属于定长编码这是属于定长编码 Fixed-length code所以简单。所以简单。本讲稿第二十七页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 如果设信源发出了N个消息符号,则此刻信源发送“0”的概率是多少?如果我们按书中给出的代码设计,则情况就不同了。本讲稿第二十八页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理这是一种变长码字:Variable-length Code 利用算术平均法求出代码熵和利用集合平均所求的代码熵的结果比较:本讲稿第二十九页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 当然也可直接求出发当然也可直接求出发“1”的概率以及相应的条件概率的概率以及相应的条件概率:这里用这里用p(00)表示信源发出事件表示信源发出事件“00”的出现概率,我们可以的出现概率,我们可以看到,看到,只有事件只有事件“u0u0”,“u1u0”,“u2u0”出现时,才有事件出现时,才有事件“00”出现的可出现的可能性。但是能性。但是P(00)的概率可以这样求吗?的概率可以这样求吗?因为ui和vn分别属于不同的概率空间,统计概率或概率间的互换应有一个参考点。同样在统计时序列的排列顺序也是应要求一致,在一个公共的尺度下互换才为可行。本讲稿第三十页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理本讲稿第三十一页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 如果考虑发码顺序是从右向左的方向如果考虑发码顺序是从右向左的方向,也同样能统计:,也同样能统计:本讲稿第三十二页,共六十四页 在等概率的条件下,可使离散信源发送效率最大,这是最大熵定理在信号设计中的具体应用。这也是我们讨论连续信源的目的之一。本讲稿第三十三页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 从相对熵的数学性质中已证明它有最大值,但是如果不考虑约束条件,在求极大值是将有可能走向极端,即求出它的无穷大量。为此这与离散熵所不同,相对熵拥有不同条件下的最大熵。.The Maximum Entropy Theorem at Limited Peak Condition 即限峰功率条件下的最大熵定理限峰功率条件下的最大熵定理 所谓限峰条件:所谓限峰条件:所以限峰是指信号的幅度不能任意大,应属于有限的范围。本讲稿第三十四页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 上式表明:在限峰的条件下,只有连续变量x处于均匀分布下,才能使相对熵达到最大,这就是限峰条件的最大熵定理及其证明。本讲稿第三十五页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 约束条件改为平均功率(指信源的输出功率)受限,这实际上在均值为零的信号x来说,就是方差 受限。即:.The Maximum Entropy Theorem at Limited-in-mean Power Condition.即限平均功率条件下的最大熵定理:限平均功率条件下的最大熵定理:本讲稿第三十六页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 所以对于一维随机变量而言,在方差受限下则相对熵在概率密度为正态分布时达到最大值。这就是为什么说高斯噪声源是干扰最严重的噪声源。本讲稿第三十七页,共六十四页本讲稿第三十八页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 若若X X的取值为非负,且均值在限定为某一确定值,则的取值为非负,且均值在限定为某一确定值,则X X的分布的分布函数为指数分布时达到最大。即:函数为指数分布时达到最大。即:.The Maximum Entropy Theorem at Limited Mean Condition 即均值受限条件下的最大熵定理均值受限条件下的最大熵定理本讲稿第三十九页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理10本讲稿第四十页,共六十四页本讲稿第四十一页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理 所以在均值受限的条件下,概率密度为负指数分布时相对熵达到最大。本讲稿第四十二页,共六十四页3.5 连续信源的最大熵定理连续信源的最大熵定理解法二:Q.E.D本讲稿第四十三页,共六十四页第三章.例题分析例题分析例例3-2.(习题习题4.18)已知随机变量x与y的联合概率密度为:题解题解:因为只有二维正态随机矢量的联合概率密度才具有上式各项,因此试比较:(参见概率论书中135页公式)所以我们可以利用待定系数的数学方法避开求积分的麻烦。本讲稿第四十四页,共六十四页第三章第三章.例题分析例题分析设待定系数方程组:设待定系数方程组:再利用高斯变量的相对熵中只与其方差有关的特点得到:可根据二维正态熵的标准式,直接写出联合熵(书中197页):本讲稿第四十五页,共六十四页第三章.例题分析例题分析当然你也可以利用我们上面给出的多维正态熵的公式求出:本讲稿第四十六页,共六十四页第三章.例题分析例题分析例题例题3-3.(习题习题4.17)设随机变量设随机变量x的概率密度为的概率密度为:(注:这是语声信号的数学模型注:这是语声信号的数学模型)题解:因这是瑞利分布因这是瑞利分布 The Reyleigh Probability density:本讲稿第四十七页,共六十四页第三章.例题分析例题分析本讲稿第四十八页,共六十四页第三章.例题分析例题分析例题例题3-4.(习题习题4.19)连续变量x和y有联合概率密度为:Q.E.D.本讲稿第四十九页,共六十四页第三章.例题分析例题分析题解:题解:1xy R本讲稿第五十页,共六十四页第三章.例题分析例题分析本讲稿第五十一页,共六十四页本讲稿第五十二页,共六十四页第三章.例题分析例题分析=0本讲稿第五十三页,共六十四页第三章.例题分析例题分析根据概率函数的对称性,有:Q.E.D本讲稿第五十四页,共六十四页第三章第三章.连续信源的信息熵连续信源的信息熵 3.63.6 平稳高斯随机过程的信息熵与互信息平稳高斯随机过程的信息熵与互信息 (The entropy and mutual information for the stationary Gaussians stochastic process)当连续信源所发出的消息都是由一个个随机过程(stochastic process)所形成。如:语音信号 它不仅幅度上,而且在时间上也都是连续的,即分别属于一个无限的集合之中。假定这些随机过程均满足平稳性时,则我们所研究的对象就成为:平稳随机过程:平稳随机过程:从频域上讲我们将可用从频域上讲我们将可用功率谱密度功率谱密度来描述这个随机过程。来描述这个随机过程。从时域上我们可以由从时域上我们可以由自相关函数自相关函数 来描述。来描述。本讲稿第五十五页,共六十四页3.63.6平稳高斯随机过程的信息熵与互信息平稳高斯随机过程的信息熵与互信息本讲稿第五十六页,共六十四页3.63.6平稳高斯随机过程的信息熵与互信息平稳高斯随机过程的信息熵与互信息结论结论:在平均功率受限的前提下:即在平均功率受限的前提下:即平稳的高斯随机过程的熵最大,且为:平稳的高斯随机过程的熵最大,且为:本讲稿第五十七页,共六十四页3.63.6平稳高斯随机过程的信息熵与互信息平稳高斯随机过程的信息熵与互信息结论结论:如果如果 X(t)和和 Y(t)都是平稳的高斯随机过程都是平稳的高斯随机过程则:这两个随机过程间的互信息为:则:这两个随机过程间的互信息为:本讲稿第五十八页,共六十四页第三章第三章.连续信源的信息熵连续信源的信息熵 3.73.7 熵功率与熵功率不等式熵功率与熵功率不等式 (The entropy power and Entropy power inequality)在3.5节的最大熵定理中得知:当一个连续随机变量 X 的平均功率受限时,则高斯信源的熵最大,若令其平均功率为:P x2 则其熵为:从上式我们可得到:如果另一信号的平均功率也为 P,但它不是高斯分布,那它的熵一定比 H(X)小。为此我们引入一个“熵功率”概念:本讲稿第五十九页,共六十四页3.73.7 熵功率与熵功率不等式 定义:若平均功率为P 的非高斯信源具有熵为 H,则称熵也为H的高斯信源的平均功率为熵功率 ,即:根据限均方功率的最大熵定理,有:所以信号的熵功率所以信号的熵功率 PH 总小于信号的实际平均功率总小于信号的实际平均功率 P。本讲稿第六十页,共六十四页3.7 熵功率与熵功率不等式 根据上述关系可以得出以下结论根据上述关系可以得出以下结论:1.1.任何一个信源的熵功率不大于其平均功率(方差)任何一个信源的熵功率不大于其平均功率(方差);2.当且仅当信源为高斯分布时,熵功率等于平均功率当且仅当信源为高斯分布时,熵功率等于平均功率;3.连续信源的熵功率就是具有同样相对熵的高斯信源的平连续信源的熵功率就是具有同样相对熵的高斯信源的平均功率。均功率。因为熵功率一般不会等于平均功率,故熵功率的大小可以表因为熵功率一般不会等于平均功率,故熵功率的大小可以表示连续信源剩余多少,如果熵功率等于信号的平均功率,就表示示连续信源剩余多少,如果熵功率等于信号的平均功率,就表示没有剩余。熵功率和信号的平均功率相差越大,则说明信号的剩没有剩余。熵功率和信号的平均功率相差越大,则说明信号的剩余越大。因此,定义信号的余越大。因此,定义信号的平均功率与熵功率之差(平均功率与熵功率之差(PPH)为连续信源的)为连续信源的剩余度剩余度。本讲稿第六十一页,共六十四页3.73.7 熵功率与熵功率不等式 如果连续高斯信源 X(t)的功率谱给定,则根据上节给出的平稳高斯随机过程的相对熵结论,可得:下面我们给出熵功率不等式:下面我们给出熵功率不等式:可得连续高斯信源 X(t)熵功率:本讲稿第六十二页,共六十四页3.7 熵功率与熵功率不等式 定理:定理:如果 X 和Y 都是方差受限的随机变量,则:当且仅当 X 和Y 均为高斯随机变量时,则等式成立。以上不等式称为熵功率不等式,该式的证明较繁,从略。定理说明,两个随机变量的熵功率之和不大于两定理说明,两个随机变量的熵功率之和不大于两随机变量和的熵功率,除非两者都是高斯随机变量。随机变量和的熵功率,除非两者都是高斯随机变量。习题:求熵功率不等式中等号成立的充要条件。习题:求熵功率不等式中等号成立的充要条件。本讲稿第六十三页,共六十四页第三章(结束)本讲稿第六十四页,共六十四页