第二章信息论的基本概念精选文档.ppt
《第二章信息论的基本概念精选文档.ppt》由会员分享,可在线阅读,更多相关《第二章信息论的基本概念精选文档.ppt(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章信息论的基本概念本讲稿第一页,共一百一十二页2.1 离散随机变量的熵离散随机变量的熵2.1.1 熵的引入熵的引入2.1.2 香农熵与热力学熵的关系香农熵与热力学熵的关系2.1.3 熵可以作为信息的度量熵可以作为信息的度量(熵的物理意义)(熵的物理意义)2.1.4 熵函数的性质熵函数的性质2.1.5 联合熵和条件熵联合熵和条件熵本讲稿第二页,共一百一十二页信息无处不在,但:信息无处不在,但:信息用什么表示信息用什么表示?如何表示如何表示?不确定性携载的信息不确定性携载的信息可用随机变量的不确定性或随机性作为信息的表示可用随机变量的不确定性或随机性作为信息的表示“信息是事物运动状态或存在方式
2、的信息是事物运动状态或存在方式的不确定性的描述不确定性的描述”香农香农问题问题1:信息是随机的信息是随机的2.1.1 熵的引入熵的引入-1本讲稿第三页,共一百一十二页 如何度量信息?如何计算消息的信息量?如何度量信息?如何计算消息的信息量?某些消息比另外一些消息传递了更多的信息。某些消息比另外一些消息传递了更多的信息。类似于火车运输货物多少用类似于火车运输货物多少用“货运量货运量”衡量衡量 消息信号传输信息多少用消息信号传输信息多少用消息信号传输信息多少用消息信号传输信息多少用“信息量信息量信息量信息量”衡量衡量衡量衡量 概率论知识:概率论知识:事件出现的可能性愈小,概率愈小;事件出现的可能性
3、愈小,概率愈小;事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大 事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大 该事件是否会出现的不确定性就愈小该事件是否会出现的不确定性就愈小该事件是否会出现的不确定性就愈小该事件是否会出现的不确定性就愈小 信息量与消息出现的概率有关。信息量与消息出现的概率有关。问题问题2:2.1.1 熵的引入熵的引入-2本讲稿第四页,共一百一十二页研究思路一
4、:自信息概率空间的平均自信息熵自信息概率空间的平均自信息熵研究思路二:直接定义直接定义2.1.1 熵的引入熵的引入-3本讲稿第五页,共一百一十二页分析信息的特征,信息量(消息)关系式应反映如下规律:(1)信息量是概率的非负函数,即 I=fP(x)(2)P(x)越小,I越大;反之,I越小,且 P(x)1时,I0 P(x)0时,I(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即 IP(x1)P(x2)=IP(x1)+IP(x2)+自信息:自信息:研究思路一研究思路一本讲稿第六页,共一百一十二页信息量的直观定义:信息量的直观定义:信息量的直观定义:
5、信息量的直观定义:l l收到某消息获得的收到某消息获得的收到某消息获得的收到某消息获得的信息量信息量信息量信息量不确定性减少的量不确定性减少的量不确定性减少的量不确定性减少的量 (收到此消息收到此消息收到此消息收到此消息前前前前关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性)(收到此消息收到此消息收到此消息收到此消息后后后后关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性)l l在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,
6、在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此得得得得 收到某消息获得的收到某消息获得的收到某消息获得的收到某消息获得的信息量信息量信息量信息量 收到此消息收到此消息收到此消息收到此消息前前前前关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确
7、定性 信源输出的此消息中所含有的信源输出的此消息中所含有的信源输出的此消息中所含有的信源输出的此消息中所含有的信息量信息量信息量信息量自信息:自信息:本讲稿第七页,共一百一十二页可以用可以用可以用可以用泛函分析泛函分析泛函分析泛函分析方法解得满足条件的函数形式为方法解得满足条件的函数形式为方法解得满足条件的函数形式为方法解得满足条件的函数形式为用概率测度定义信息量:用概率测度定义信息量:用概率测度定义信息量:用概率测度定义信息量:设离散信源设离散信源设离散信源设离散信源X X,其概率空间为,其概率空间为,其概率空间为,其概率空间为如果知道事件如果知道事件如果知道事件如果知道事件x xi i已发
8、生,则该事件所含有的已发生,则该事件所含有的已发生,则该事件所含有的已发生,则该事件所含有的自信息定义自信息定义自信息定义自信息定义为为为为自信息:自信息:本讲稿第八页,共一百一十二页 自信息含义当事件当事件当事件当事件x xi发生以前:发生以前:表示事件表示事件表示事件表示事件x xi i发生的不确定性发生的不确定性发生的不确定性发生的不确定性。当事件当事件当事件当事件xi i发生以后:发生以后:发生以后:发生以后:表示事件表示事件表示事件表示事件x xi i所含有(或所提供)的信息量。所含有(或所提供)的信息量。所含有(或所提供)的信息量。所含有(或所提供)的信息量。在在在在无噪信道中,事
9、件无噪信道中,事件无噪信道中,事件无噪信道中,事件x xi i发生后,能正确无误地传输到收信者,所以发生后,能正确无误地传输到收信者,所以发生后,能正确无误地传输到收信者,所以发生后,能正确无误地传输到收信者,所以I I(x xi i)可代表接收到消息可代表接收到消息可代表接收到消息可代表接收到消息x xi i后所获得的信息量。这是因为消除了后所获得的信息量。这是因为消除了后所获得的信息量。这是因为消除了后所获得的信息量。这是因为消除了I I(x xi i)大大大大小的不确定性,才获得这么大小的信息量。小的不确定性,才获得这么大小的信息量。小的不确定性,才获得这么大小的信息量。小的不确定性,才
10、获得这么大小的信息量。本讲稿第九页,共一百一十二页 自信息的测度单位及其换算关系l l如果取以如果取以2 2为底,则信息量单位称为为底,则信息量单位称为比特比特(binary unitbinary unit)l l如果取以如果取以e为底,则信息量单位称为为底,则信息量单位称为奈特奈特(nature unitnature unit)l l如果取以如果取以1010为底,则信息量单位称为为底,则信息量单位称为哈特哈特(Hart unitHart unit)1 1 1 1奈特奈特奈特奈特1.441.441.441.44比特比特比特比特 1 1 1 1哈特哈特哈特哈特3.323.323.323.32比特
11、比特比特比特一般都采用以一般都采用以“2”2”为底的对数,为了书写简洁,有时把底数为底的对数,为了书写简洁,有时把底数2 2略去不写。略去不写。本讲稿第十页,共一百一十二页 信息论中“比特”与 计算机术语中“比特”区别l l如果如果如果如果p p(x xi i)=1/2=1/2,则,则,则,则I I(x xi i)=1=1比特。所以比特。所以比特。所以比特。所以1 1比特信息量就是两个互不比特信息量就是两个互不比特信息量就是两个互不比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。相容的等可能事件之一发生时所提供的信息量。相容的等可能事件之一发生时所提供的信息量。相容的等可能事件
12、之一发生时所提供的信息量。l l信息论中信息论中信息论中信息论中“比特比特比特比特”是指抽象的信息量单位;是指抽象的信息量单位;是指抽象的信息量单位;是指抽象的信息量单位;l l计算机术语中计算机术语中计算机术语中计算机术语中“比特比特比特比特”是代表二元符号(数字);是代表二元符号(数字);是代表二元符号(数字);是代表二元符号(数字);l l这两种定义之间的关系是:这两种定义之间的关系是:这两种定义之间的关系是:这两种定义之间的关系是:每个二元符号所能提供的每个二元符号所能提供的每个二元符号所能提供的每个二元符号所能提供的最大平均最大平均最大平均最大平均信息量信息量信息量信息量为为为为1
13、1比特。比特。比特。比特。本讲稿第十一页,共一百一十二页 信源熵平均信息量自信息是一个随机变量:自信息是一个随机变量:自信息是一个随机变量:自信息是一个随机变量:自信息是指某一信源发出某一消息所含有自信息是指某一信源发出某一消息所含有自信息是指某一信源发出某一消息所含有自信息是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。的信息量。所发出的消息不同,它们所含有的信息量也就不同。的信息量。所发出的消息不同,它们所含有的信息量也就不同。的信息量。所发出的消息不同,它们所含有的信息量也就不同。平均信息量平均信息量平均信息量平均信息量信源熵:信源熵:信源熵:信源熵
14、:自信息的数学期望。也称为信源的信息熵自信息的数学期望。也称为信源的信息熵自信息的数学期望。也称为信源的信息熵自信息的数学期望。也称为信源的信息熵/信源熵信源熵信源熵信源熵/香农熵香农熵香农熵香农熵/无条件熵无条件熵无条件熵无条件熵/熵函数熵函数熵函数熵函数/熵。熵。熵。熵。信息熵的单位:信息熵的单位:信息熵的单位:信息熵的单位:取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以2 2为底,其为底,其为底,其为底,其单位为比特单位为比特单位为比特单位为比特/符号。符号。符号。符号。信息熵的意义:信息熵的意义:信息熵的意义:信
15、息熵的意义:信源的信息熵信源的信息熵信源的信息熵信源的信息熵HH是从是从是从是从整个整个整个整个信源的统计特性来考虑的。信源的统计特性来考虑的。信源的统计特性来考虑的。信源的统计特性来考虑的。它是从它是从它是从它是从平均平均平均平均意义上来表征信源的总体特性的。对于某特定的信源,意义上来表征信源的总体特性的。对于某特定的信源,意义上来表征信源的总体特性的。对于某特定的信源,意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。其信息熵
16、只有一个。不同的信源因统计特性不同,其熵也不同。本讲稿第十二页,共一百一十二页熵(熵(Entropy)的直接引入的直接引入 一个离散随机变量一个离散随机变量一个离散随机变量一个离散随机变量X X,以不同的取值概率有,以不同的取值概率有,以不同的取值概率有,以不同的取值概率有N N个可能取值个可能取值个可能取值个可能取值,XP(x)a1a2aNp1p2pN信息论关心信息论关心:X的的不确定性不确定性不确定性大,获取的信息量多不确定性大,获取的信息量多研究思路二研究思路二本讲稿第十三页,共一百一十二页熵的引入熵的引入不确定性分析:不确定性分析:随机变量随机变量X、Y、ZXP(X)a1 1 a2 2
17、 0.01 0.99ZP(Z)a1 a2 a3 a4 a50.2 0.2 0.2 0.2 0.2YP(Y)a1 1 a2 2 0.5 0.5问题:问题:1、能否度量?、能否度量?小小大大2、如何度量?、如何度量?本讲稿第十四页,共一百一十二页香农指出:存在存在熵熵函数满足满足先验条件1、连续性条件:、连续性条件:是是 的连续函数的连续函数2、等概时为单调增函数:、等概时为单调增函数:是是N的增函数的增函数3、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确定取、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,值时,X在各次试验中的不确定性可加。在各次试验中的不
18、确定性可加。结论结论:唯一唯一的形式:C=常数0,即:本讲稿第十五页,共一百一十二页可加性条件进一步说明:可加性条件进一步说明:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,随机变量在各次试验中的不确定性可加,且其和始终与通过一次试验取得结果的不确定程度相同。本讲稿第十六页,共一百一十二页熵的定义熵的定义X为一随机变量样本空间Xx1 1,x2 2,.xn npi i或p(x xi i)是输出为xi的概率定义定义为随机变量的熵函数熵函数含义:含义:(1)通过观测随机)通过观测随机 变量变量X所获得的所获得的 平均信息量平均信息量(2)对随机变量)对随机变量X的的 “不确定性不确定性”
19、、“随机性随机性”的度量的度量本讲稿第十七页,共一百一十二页熵的单位熵的单位 与前面介绍自信息的单位时相同,与前面介绍自信息的单位时相同,信息熵信息熵的单位也与公式中的单位也与公式中的对数取的对数取底底有关。有关。通信与信息中最常用的是以通信与信息中最常用的是以2 2为底,这时单位为为底,这时单位为比特(比特(bitbit););理论推导中用以理论推导中用以e e为底较方便,这时单位为为底较方便,这时单位为奈特奈特(NatNat););工程上用以工程上用以1010为底较方便,这时单位为为底较方便,这时单位为哈特利哈特利(HartleyHartley)。)。它们之间可以引用对数换底公式进行互换。
20、比如:它们之间可以引用对数换底公式进行互换。比如:1 bit=0.693 Nat=0.301 Hartley 1 bit=0.693 Nat=0.301 Hartley本讲稿第十八页,共一百一十二页熵熵H(X)-通过观测随机变量通过观测随机变量X所获得的所获得的平均平均信息量信息量 进一步理解:进一步理解:进一步理解:进一步理解:平均统计平均(平均统计平均(平均统计平均(平均统计平均(区别与算术平均区别与算术平均区别与算术平均区别与算术平均)单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(量纲量纲量纲量纲 单位单位单位单位)比特不
21、同于计算机中的比特不同于计算机中的比特不同于计算机中的比特不同于计算机中的“比特比特比特比特”计算机:代表一个二元数字计算机:代表一个二元数字计算机:代表一个二元数字计算机:代表一个二元数字(bibinary diginary digit t)信息:对数取信息:对数取信息:对数取信息:对数取2 2为底时信息量的单位为底时信息量的单位为底时信息量的单位为底时信息量的单位 关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为1 1比特比特比特比特 认为:当认为:当认为
22、:当认为:当x x0 0时时时时 xlog(1/x)=0 xlog(1/x)=0 通信:信息速率通信:信息速率通信:信息速率通信:信息速率单位时间内信息的数量单位时间内信息的数量单位时间内信息的数量单位时间内信息的数量本讲稿第十九页,共一百一十二页2.1.2 香农熵与热力学中热熵的关系香农熵与热力学中热熵的关系熵熵 这个名词是香农从物理学中的统计热力学借用过来的,在物理这个名词是香农从物理学中的统计热力学借用过来的,在物理这个名词是香农从物理学中的统计热力学借用过来的,在物理这个名词是香农从物理学中的统计热力学借用过来的,在物理学中称它为学中称它为学中称它为学中称它为热熵,热熵,热熵,热熵,是
23、表示分子混乱程度的一个物理量,这是表示分子混乱程度的一个物理量,这是表示分子混乱程度的一个物理量,这是表示分子混乱程度的一个物理量,这里,香农引用它来描述随机变量的平均不确定性,含义是里,香农引用它来描述随机变量的平均不确定性,含义是里,香农引用它来描述随机变量的平均不确定性,含义是里,香农引用它来描述随机变量的平均不确定性,含义是类似的。但是在热力学中,任何孤立系统的演化,热熵只类似的。但是在热力学中,任何孤立系统的演化,热熵只类似的。但是在热力学中,任何孤立系统的演化,热熵只类似的。但是在热力学中,任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减能增加不能减少;
24、而在信息论中,信息熵正相反,只会减能增加不能减少;而在信息论中,信息熵正相反,只会减能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信息熵为少,不会增加。所以有人称信息熵为少,不会增加。所以有人称信息熵为少,不会增加。所以有人称信息熵为负热熵负热熵负热熵负热熵。二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲的。的。的。的。本讲稿第二十页,共一百一十二页(不确定性)(不确定性)2.1.3 熵可以作为信息
25、的量度熵可以作为信息的量度对于随机变量而言:对于随机变量而言:试验前试验前试验后试验后试验后试验后各取值的概率分布各取值的概率分布确切取值确切取值 (0)(不确定性)(不确定性)熵的差值熵的差值一定的确切性一定的确切性多次试验后多次试验后通过试验消除了不确定性获得了信息通过试验消除了不确定性获得了信息信息量获得的信息的数量信息量获得的信息的数量本讲稿第二十一页,共一百一十二页例例2.1:2.1:试验前:试验前:试验后:试验后:XP(x)1234561/61/61/61/61/61/6H(x)=log6=2.58bits=1.79natsX1P(x1)123456010000H(x1)=0H(x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 信息论 基本概念 精选 文档
限制150内