差错控制编码第2章--信息的统计度量优秀PPT.ppt
主要内容 从概率的角度探讨问题自信息量互信息量平均自信息量平均互信息量信息的大小多个信息之间关联的密切程度2.1 自信息和条件自信息n2.1.1 自信息量n事务发生的概率越大,它发生后供应的信息量越小。n张三今日吃饭了n事务发生的概率越小,一旦该事务发生,它供应的信息量就越大。n美国总统的专机发生空难2.1.1 自信息n定义定义2-1 随意随机事务随意随机事务的自信息量定义为该事的自信息量定义为该事务发生概率的对数的负务发生概率的对数的负值。值。n假设事务假设事务xi发生的概率发生的概率为为p(xi),则其自信息定,则其自信息定义式为义式为n依据该公式可能提出的依据该公式可能提出的问题问题n底数是多少?底数是多少?n常用底数:常用底数:2n真的成反比吗?真的成反比吗?nI(x)0n规定:规定:0log0=0自信息量的含义n自信息量表示了一个事务是否发生的不确自信息量表示了一个事务是否发生的不确定性的大小。一旦该事务发生,就消退了定性的大小。一旦该事务发生,就消退了这种不确定性,带来了信息量这种不确定性,带来了信息量.n自信息量表示了一个事务的发生带给我们自信息量表示了一个事务的发生带给我们的信息量的大小。的信息量的大小。n自信息量表示了确定一个事务是否发生,自信息量表示了确定一个事务是否发生,所需的信息量的大小。所需的信息量的大小。n自信息量表示了将事务的信息量表示出来,自信息量表示了将事务的信息量表示出来,所需的二进制位的个数。所需的二进制位的个数。自信息量的例子n假设“张三今日吃饭了”这个事务发生的概率是99.99%,则该事务的自信息量为:n这表明该事务的不确定性很小。n假设“美国总统的专机发生空难”这个事务发生的概率是0.01%,则该事务的自信息量为:n这表明该事务的不确定性很大。联合自信息量n定义定义2-2 二维联合集二维联合集XY上的元素上的元素(xiyj)的的联合自信息量定义为联合自信息量定义为n联合自信息量衡量的是多个事务同时出现联合自信息量衡量的是多个事务同时出现的不确定性;的不确定性;n或者,两个事务同时发生带给我们的信息或者,两个事务同时发生带给我们的信息量的大小;量的大小;n或者,将该信息量表示出来,所需的二进或者,将该信息量表示出来,所需的二进制位的个数。制位的个数。2.1.2 条件自信息量n定义2-3 事务xi在事务yj给定的条件下的条件自信息量定义为:n含义:知道事务yj之后,仍旧保留的关于事务xi的不确定性;或者,事务yj发生之后,事务xi再发生,能够带来的信息量。p(x):x出现的概率出现的概率 I(x):x的不确定性的不确定性p(x|y):y出现之后出现之后 x出现的概率出现的概率I(x|y):知道:知道y之后仍旧保留的关于之后仍旧保留的关于 x的不确定性的不确定性衡量的都是不确定性衡量的都是不确定性先验概率先验概率后验概率后验概率条件自信息量的例子n事务:nx=“美国总统的专机发生空难”ny=“今日是9.11”n概率:np(x)=0.01%np(x|y)=1%n事务x的自信息量为:n 事务x在事务y发生的状况下的条件自信息量为:2.2 互信息量n举例n张三今日没来上课n张三有可能病了n为什么没来上课就会猜到生病了?n因为二者有关系n互信息衡量的就是这种关系的大小象形字,本意:绞绳用的工具,又象握手象形字,本意:绞绳用的工具,又象握手互相,两者或者多者相互作用互相,两者或者多者相互作用两个或者多个事件之间关联的密切程度两个或者多个事件之间关联的密切程度2.2.1 互信息量n定义2-4 随机事务yj的出现给出关于事务xi的信息量,定义为互信息量。n定义式:n单位:同自信息量互信息量的含义n 还可表示为:n含义:本身的不确定性,减去知道了事务y之后仍旧保留的不确定性,即由y所供应的关于x的信息量,或者说由y所消退的x的不确定性。n互信息量=原有的不确定性-尚存在的不确定性对数的几特性质:对数的几特性质:互信息量的例子n事务:nx=“美国总统的专机发生空难”ny=“今日是9.11”n概率:np(x)=0.01%p(x|y)=1%n前面已求出自信息量和条件自信息量为:n 而x和y的互信息量为:2.2.2 互信息量的性质n概率乘法公式n全概率公式x1x2xn和y1p(x1y1)p(x2y1)p(xny1)p(y1)y2p(x1y2)p(x2y2)p(xny2)p(y2)ymp(x1ym)p(x2ym)p(xnym)p(ym)和p(x1)p(x2)p(xn)1全概率公式全概率公式互信息量的性质1互信息量的互易性nI(x;y)=I(y;x)n证明:n含义:由y所供应的关于x的信息量等于由x 所供应的关于y的信息量概率乘法公式全概率公式互信息量的性质2互信息量可为0n当事务x、y统计独立时,互信息量为0 n证明:n含义:当两个事务相互独立时,一个事务不能供应另一个事务的任何信息。n即一个事务发生之后,对于确定另一个事务是否发生没有任何帮助。p(x|y)=p(x)无论是否知道y,都对x出现的概率没有影响x和y没有什么关系概率乘法公式全概率公式互信息量的性质3互信息量可正可负n正:正:ny的出现有助于确定的出现有助于确定x的出的出现现n x:张三病了。:张三病了。n y:张三没来上课。:张三没来上课。n负:负:ny的出现有助于否定的出现有助于否定x的出的出现现n x:李四考了全班第一名。:李四考了全班第一名。n y:李四没有复习功课。:李四没有复习功课。n无论正负,互信息量的确定无论正负,互信息量的确定值越大,值越大,x和和y的关系越亲的关系越亲密。密。回想自信息量回想自信息量I(x)I(x)0:x的出现或多或少总能的出现或多或少总能带来一些信息带来一些信息互信息量的性质4互信息量不大于其中任一事务的自信息量n证明证明n同理:同理:I(x;y)=I(y;x)I(y)n互信息量互信息量=原有的不确定性原有的不确定性-尚存在的不确定尚存在的不确定性性2.3 离散集的平均自信息量(熵)n离散集X=x1,x2,xnn离散集的概率分布表示为n离散集中的每一个事务n 都有自己的自信息量n全部这些自信息量的均值,就是离散集的平均自信息量n定义2-5 集X上,随机变量I(xi)的数学期望定义为平均自信息量。n又称作集X的信息熵,简称熵。nH(X)又可记作H(p1,p2,pn)平均自信息量n含义n熵表示了集合中全部事务是否发生的平均不确定性的大小。n熵表示了集合中事务发生,带给我们的平均信息量的大小。n熵表示了确定集合中究竟哪个事务发生时,所需的平均信息量的大小。n熵表示了,假如用二进制数据将集合中的各个元素表示出来,所需的二进制位的个数的平均值。n熵的单位同自信息量的单位熵的例子n串口通信n某串口的概率空间为 n则熵为n n 熵的意义(对通信系统)熵的意义(对通信系统)n nH(X):表示信源中每个符号的平均信息量(信:表示信源中每个符号的平均信息量(信源熵)。源熵)。n nH(Y):表示信宿中每个符号的平均信息量(信:表示信宿中每个符号的平均信息量(信宿熵)。宿熵)。n nH(X|Y):表示在输出端接收到:表示在输出端接收到Y的全部符号后,的全部符号后,发送端发送端X尚存的平均不确定性。这个对尚存的平均不确定性。这个对X尚存的尚存的不确定性是由于干扰引起的。信道疑义度不确定性是由于干扰引起的。信道疑义度(损失损失熵,模糊度熵,模糊度)n nH(Y|X):表示在已知:表示在已知X的全部符号后,对于输的全部符号后,对于输出出Y尚存的平均不确定性。信道散布度尚存的平均不确定性。信道散布度(噪声熵噪声熵)n nH(XY):表示:表示X 和和Y 同时发生的不确定性(联同时发生的不确定性(联合熵)。合熵)。两事务间的互信息量 I(xi;yj):收到消息yj 后获得关于xi的信息量即:互信息量表示即:互信息量表示即:互信息量表示即:互信息量表示先验的不确定性减去尚存的不确定性先验的不确定性减去尚存的不确定性先验的不确定性减去尚存的不确定性先验的不确定性减去尚存的不确定性,这,这,这,这就是就是就是就是收信者获得的信息量收信者获得的信息量收信者获得的信息量收信者获得的信息量对于无干扰信道,对于无干扰信道,对于无干扰信道,对于无干扰信道,I(xI(xi i;y;yj j)=I(x)=I(xi i);对于全损信道,对于全损信道,对于全损信道,对于全损信道,I(xI(xi i;y;yj j)=0)=0;2.4、平均互信息平均互信息I(X;Y):I(xi;yj)的统计平均。l l它代表接收到符号集Y后平均每个符号获得的关于X的信息量,也表示了输入与输出两个随机变量之间的统计约束程度。关于平均互信息关于平均互信息I(X;Y)互信息互信息 I(x;y)代表收到某消息代表收到某消息y后后获得关于某事务获得关于某事务x的信息量。它可取正的信息量。它可取正值,也可取负值。值,也可取负值。I(X;Y)是是I(x;y)的统计平均,所以的统计平均,所以I(X;Y)=0。若若I(X;Y)=0,表示在信道输出端接收,表示在信道输出端接收到输出符号到输出符号Y后不获得任何关于输入符后不获得任何关于输入符号号X的信息量的信息量-全损信道。全损信道。I(X;Y)=H(X)-H(X|Y)I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)=H(X)+H(Y)-H(XY)其中:其中:其中:其中:平均互信息与各类熵的关系平均互信息与各类熵之间关系的集合图平均互信息与各类熵之间关系的集合图平均互信息与各类熵之间关系的集合图平均互信息与各类熵之间关系的集合图(维拉图)(维拉图)(维拉图)(维拉图)表示:表示:表示:表示:H(X)H(Y)H(X|Y)=H(X)-I(X;Y)=H(X)-I(X;Y)H(Y|X)=H(Y)-=H(Y)-I(X;Y)I(X;Y)I(X;Y)H(XY)图中,左边的圆代表图中,左边的圆代表图中,左边的圆代表图中,左边的圆代表随机变量随机变量随机变量随机变量X X的熵,右的熵,右的熵,右的熵,右边的圆代表随机变量边的圆代表随机变量边的圆代表随机变量边的圆代表随机变量Y Y的熵,两个圆重叠的熵,两个圆重叠的熵,两个圆重叠的熵,两个圆重叠部分是平均互信息部分是平均互信息部分是平均互信息部分是平均互信息I(XI(X;Y)Y)。每个圆减去。每个圆减去。每个圆减去。每个圆减去I I(X(X;Y)Y)后剩余的部分代后剩余的部分代后剩余的部分代后剩余的部分代表两个条件熵。表两个条件熵。表两个条件熵。表两个条件熵。I(X;Y)=H(X)-H(X|Y)I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)=H(X)+H(Y)-H(XY)=H(X)+H(Y)-I(X;Y)=H(X)+H(Y)-I(X;Y)n 两种特殊信道(1 1)离散无干扰信道)离散无干扰信道)离散无干扰信道)离散无干扰信道 (无损信道无损信道无损信道无损信道 )信道的输入和输出一一对应,信息无损失地传输,信道的输入和输出一一对应,信息无损失地传输,信道的输入和输出一一对应,信息无损失地传输,信道的输入和输出一一对应,信息无损失地传输,称为称为称为称为无损信道无损信道无损信道无损信道。H(X|Y)=H(Y|X)=0H(X|Y)=H(Y|X)=0 损失熵和噪声熵都为损失熵和噪声熵都为损失熵和噪声熵都为损失熵和噪声熵都为“0”0”由于噪声熵等于零,因此,输出端接收的信息就等于由于噪声熵等于零,因此,输出端接收的信息就等于由于噪声熵等于零,因此,输出端接收的信息就等于由于噪声熵等于零,因此,输出端接收的信息就等于平均互信息平均互信息平均互信息平均互信息:I(X;Y)=H(X)=H(Y)I(X;Y)=H(X)=H(Y)(2 2)输入输出独立信道)输入输出独立信道)输入输出独立信道)输入输出独立信道 (全损信道全损信道全损信道全损信道 )信道输入端信道输入端信道输入端信道输入端X X与输出端与输出端与输出端与输出端Y Y完全统计独立完全统计独立完全统计独立完全统计独立 H(X|Y)=H(X),H(Y|X)=H(Y)H(X|Y)=H(X),H(Y|X)=H(Y)所以所以所以所以 I(X;Y)=0 I(X;Y)=H(X)-H(X|Y)I(X;Y)=0 I(X;Y)=H(X)-H(X|Y)信道的输入和输出没有依靠关系,信息无法传输,称信道的输入和输出没有依靠关系,信息无法传输,称信道的输入和输出没有依靠关系,信息无法传输,称信道的输入和输出没有依靠关系,信息无法传输,称为全损信道。为全损信道。为全损信道。为全损信道。接收到接收到接收到接收到Y Y后不行能消退有关输入端后不行能消退有关输入端后不行能消退有关输入端后不行能消退有关输入端X X的任何不确定性,的任何不确定性,的任何不确定性,的任何不确定性,所以获得的信息量等于零。同样,也不能从所以获得的信息量等于零。同样,也不能从所以获得的信息量等于零。同样,也不能从所以获得的信息量等于零。同样,也不能从X X中获得任何中获得任何中获得任何中获得任何关于关于关于关于Y Y的信息量。的信息量。的信息量。的信息量。平均互信息平均互信息平均互信息平均互信息I(X;Y)I(X;Y)等于零,表明白信道两端随机变量等于零,表明白信道两端随机变量等于零,表明白信道两端随机变量等于零,表明白信道两端随机变量的统计约束程度等于零。的统计约束程度等于零。的统计约束程度等于零。的统计约束程度等于零。二种极限信道各类熵与平均互信息之间的关系二种极限信道各类熵与平均互信息之间的关系二种极限信道各类熵与平均互信息之间的关系二种极限信道各类熵与平均互信息之间的关系 H(X|Y)=H(X)H(X|Y)=H(X)H(Y|X)=H(Y)H(Y|X)=H(Y)I(X;Y)=0 I(X;Y)=0H(X|Y)=H(Y|X)=0 H(X|Y)=H(Y|X)=0 I(X;Y)=H(X)=H(Y)I(X;Y)=H(X)=H(Y)无损信道:完全重迭无损信道:完全重迭无损信道:完全重迭无损信道:完全重迭全损信道:完全独立全损信道:完全独立全损信道:完全独立全损信道:完全独立无损信道:无损信道:无损信道:无损信道:全损信道:全损信道:全损信道:全损信道:I(X;Y)I(X;Y)=H(X)=H(X)=H(Y)=H(Y)H(Y|X)H(Y|X)H(Y|X)H(Y|X)=H(Y)=H(Y)=H(Y)=H(Y)H(X|Y)H(X|Y)H(X|Y)H(X|Y)=H(X)=H(X)=H(X)=H(X)I(X;Y)=0I(X;Y)=0 定理定理2.1 2.1 对于固定的信道,平均互信息对于固定的信道,平均互信息I(X;Y)I(X;Y)是信源是信源概率分布概率分布p(x)p(x)的上凸函数的上凸函数 这就是说,对于确定的信道转移概率分布这就是说,对于确定的信道转移概率分布p(y|x)p(y|x),总可,总可以找到某一个先验概率分布的信源以找到某一个先验概率分布的信源X X,使平均交互信息量,使平均交互信息量I(X;Y)I(X;Y)达到相应的最大值达到相应的最大值ImaxImax,这时称这个信源为该信道的,这时称这个信源为该信道的匹配信源。可以说,不同的信道转移概率对应不同的匹配信源。可以说,不同的信道转移概率对应不同的ImaxImax。信宿信宿信道信道信源信源 通信系统的简化模型通信系统的简化模型噪声噪声例:对于二元对称信道例:对于二元对称信道假如信源分布假如信源分布X=p,1-pX=p,1-p,则,则 qq10YX而:而:所以:所以:当信道固定时,当信道固定时,q q为一个固定常数,平均互信息是信源分布为一个固定常数,平均互信息是信源分布的上凸函数,最大只为的上凸函数,最大只为1-H(q)1-H(q)。图示曲线表明,对于固定信道,。图示曲线表明,对于固定信道,输入符号输入符号X X的概率分布不同时,在接收端平均每个符号所获得的的概率分布不同时,在接收端平均每个符号所获得的信息量就不同。当输入符号为等概率分布时,平均互信息量为最信息量就不同。当输入符号为等概率分布时,平均互信息量为最大值,接收每个符号所获得的信息量最大。大值,接收每个符号所获得的信息量最大。信道容量的理论基础信道容量的理论基础1-H(q)0 0.5 1 pI(X;Y)定理定理2.2 2.2 对于固定的信源,平均互信息对于固定的信源,平均互信息I(X;Y)I(X;Y)信道传递信道传递概率分布概率分布p(y|x)p(y|x)的下凸函数的下凸函数 这就是说,对于一个已知先验概率为这就是说,对于一个已知先验概率为p p的离散信源,总可以的离散信源,总可以找到某一个转移概率分布的信道找到某一个转移概率分布的信道q q,使平均互信息量达到相应的,使平均互信息量达到相应的最小值最小值I Iminmin。信宿信宿信道信道信源信源 通信系统的简化模型通信系统的简化模型噪声噪声例:对于二元对称信道例:对于二元对称信道 当信源固定后,当信源固定后,p p为一个固定常数,变更信道特性为一个固定常数,变更信道特性q q可获得不可获得不同的平均互信息同的平均互信息I(X;Y)I(X;Y)。当。当q=1/2q=1/2时,时,I(X;Y)=0,I(X;Y)=0,即在信道输出端即在信道输出端获得的信息最小,这意味着信源的信息全部损失在信道中,这是获得的信息最小,这意味着信源的信息全部损失在信道中,这是一种最差的信道,其噪声最大。信息率失真理论的基础。一种最差的信道,其噪声最大。信息率失真理论的基础。qq10YX0 0.5 1 qH(p)I(X;Y)对于无损信道,有I(X;Y)=H(X)=H(Y)=H(XY)H(X/Y)=H(Y/X)=0对于全损信道,有I(X;Y)=0 H(X/Y)=H(X);H(Y/X)=H(Y)H(X)H(Y)H(X|Y)H(Y|X)I(X;Y)H(X,Y)ABABABABAB各类熵与集合图的类比 名称 符号 关 系 图 示 无 条 件 熵 条 件 熵 条 件 熵 联 合 熵 交 互 熵各种熵之间的关系2.3.2 熵函数的数学特性n对称性n非负性n确定性n扩展性n可加性n极值性n上凸性熵函数的数学特性1对称性n集合中各重量的次序随意变更时,熵值(平均自信息量)不变n从熵(平均自信息量)的公式上来看,该结论是明显的n深层含义:熵是有局限性的。它仅与随机变量的总体结构有关,抹煞了个体的特性。n例2-7n“加权熵”晴多云 雨冰雹A地1/21/41/81/8B地1/21/81/81/4加权熵晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4权重1112例2-8熵函数的数学特性2非负性nH(X)0n源于自信息量的非负性。n什么时候为0:有且仅有一个pi=1,其余的pi=0,即确定事务集。熵函数的数学特性3确定性n集合中只要有一个事务为必定事务,则其余事务为不行能事务,熵为0。nH(1,0)=H(1,0,0)=H(1,0,0)=0熵函数的数学特性4扩展性n集合X有q个事务,集合Y比X仅仅是多了一个概率接近0的事务,则两个集合的熵值一样。n证明:n含义:n集合中,一个事务发生的概率比其它事务发生的概率小得多时,这个事务对于集合的熵值的贡献可以忽视。n即在探讨这个集合的时候,该小概率事务可以不用考虑熵函数的数学特性5可加性nH(X,Y)=H(X)+H(Y|X)n当X、Y相互独立时,H(X,Y)=H(X)+H(Y)熵函数的数学特性6极值性n各事务等概率发生时,熵最大。n最大熵定理n例子nX=x1,x2:p(x1)=p,p(x2)=1-pnH(X)=-plogp-(1-p)log(1-p)nX=x1,x2,x3:p(x1)=p1,p(x2)=p2,p(x3)=1-p1-p2nH(X)=-p1logp1-p2logp2-(1-p1-p2)log(1-p1-p2)熵函数的数学特性7上凸性nH(p1,p2,pq)是概率分布(p1,p2,pq)的严格上凸函数n假如nfX1+(1-)X2 f(X1)+(1-)f(X2),n其中0 f(X1)+(1-)f(X2),n则称f(X)为严格上凸函数。n上凸函数的直观意义n除上凸函数之外,还有下凸函数对于凸函数,有詹森(Jenson)不等式Ef(x)f(Ex)2.5 连续随机变量的互信息和相对熵2.5.1 连续随机变量的统计特征n离散随机变量用概率描述n连续随机变量用概率密度描述n概率密度函数p(x)必需满足如下两特性质:np(x)0n n例如正态分布概率密度函数的主要特征n连续随机变量处在区间c,d之间的概率等于概率密度函数、x轴、x=c以及x=d所围起来的区域的面积2.5.2 连续随机变量的互信息n连续随机变量X和Y之间的平均互信息定义为n可以看出,连续随机变量定义的平均互信息I(X;Y)和离散集状况特别类似,只要将离散状况下的概率换成概率密度,求和化成积分即可。连续随机变量平均互信息的性质n非负性n当且仅当连续随机变量X与Y相互独立时,等号成立。n对称性2.5.3 相对熵n思路:从离散推导出连续n离散n对于一个连续随机事务x,xixxi+的概率约为p(xi)。n因此xixxi+的自信息量为-log p(xi)。n进而平均自信息量为n从离散到连续:0n此时-log,这说明连续随机变量的熵是无穷的