第二章信息论的基本概念优秀课件.ppt
《第二章信息论的基本概念优秀课件.ppt》由会员分享,可在线阅读,更多相关《第二章信息论的基本概念优秀课件.ppt(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章信息论的基本概念第1页,本讲稿共112页2.1 离散随机变量的熵离散随机变量的熵2.1.1 熵的引入熵的引入2.1.2 香农熵与热力学熵的关系香农熵与热力学熵的关系2.1.3 熵可以作为信息的度量熵可以作为信息的度量(熵的物理意义)(熵的物理意义)(熵的物理意义)(熵的物理意义)2.1.4 熵函数的性质熵函数的性质2.1.5 联合熵和条件熵联合熵和条件熵第2页,本讲稿共112页信息无处不在,但:信息无处不在,但:信息用什么表示信息用什么表示?如何表示如何表示?不确定性携载的信息不确定性携载的信息可用随机变量的不确定性或随机性作为信息的表示可用随机变量的不确定性或随机性作为信息的表示“信息
2、是事物运动状态或存在方式的不信息是事物运动状态或存在方式的不确定性的描述确定性的描述”香农香农问题问题1:信息是随机的信息是随机的2.1.1 熵的引入熵的引入-1第3页,本讲稿共112页 如何度量信息?如何计算消息的信息量?如何度量信息?如何计算消息的信息量?某些消息比另外一些消息传递了更多的信息。某些消息比另外一些消息传递了更多的信息。某些消息比另外一些消息传递了更多的信息。某些消息比另外一些消息传递了更多的信息。类似于火车运输货物多少用类似于火车运输货物多少用类似于火车运输货物多少用类似于火车运输货物多少用“货运量货运量货运量货运量”衡量衡量衡量衡量 消息信号传输信息多少用消息信号传输信息
3、多少用消息信号传输信息多少用消息信号传输信息多少用“信息量信息量信息量信息量”衡量衡量衡量衡量 概率论知识:概率论知识:概率论知识:概率论知识:事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大 事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大 该事件是否会出现的不确定性就愈小该事件是否会出现的不确定性就愈小该事件是否会
4、出现的不确定性就愈小该事件是否会出现的不确定性就愈小 信息量与消息出现的概率有关。信息量与消息出现的概率有关。信息量与消息出现的概率有关。信息量与消息出现的概率有关。问题问题2:2.1.1 熵的引入熵的引入-2第4页,本讲稿共112页研究思路一:自信息概率空间的平均自信息熵自信息概率空间的平均自信息熵自信息概率空间的平均自信息熵自信息概率空间的平均自信息熵研究思路二:直接定义直接定义直接定义直接定义2.1.1 熵的引入熵的引入-3第5页,本讲稿共112页分析信息的特征,信息量(消息)关系式应反映如下规律:(1)信息量是概率的非负函数,即 I=fP(x)(2)P(x)越小,I越大;反之,I越小,
5、且 P(x)1时,I0 P(x)0时,I(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即 IP(x1)P(x2)=IP(x1)+IP(x2)+自信息:自信息:研究思路一研究思路一第6页,本讲稿共112页信息量的直观定义:信息量的直观定义:信息量的直观定义:信息量的直观定义:l l收到某消息获得的收到某消息获得的收到某消息获得的收到某消息获得的信息量信息量信息量信息量不确定性减少的量不确定性减少的量不确定性减少的量不确定性减少的量 (收到此消息收到此消息收到此消息收到此消息前前前前关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的
6、不确定性关于某事件发生的不确定性)(收到此消息收到此消息收到此消息收到此消息后后后后关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性)l l在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此得消息后关于某事件发生的不确定性完全消除,此项为零。因此得消息后关于某事件发生的不确定性完全消
7、除,此项为零。因此得消息后关于某事件发生的不确定性完全消除,此项为零。因此得 收到某消息获得的收到某消息获得的收到某消息获得的收到某消息获得的信息量信息量信息量信息量 收到此消息收到此消息收到此消息收到此消息前前前前关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性 信源输出的此消息中所含有的信源输出的此消息中所含有的信源输出的此消息中所含有的信源输出的此消息中所含有的信息量信息量信息量信息量自信息:自信息:第7页,本讲稿共112页可以用可以用可以用可以用泛函分析泛函分析泛函分析泛函分析方法解得满足条件的函数形式为方法解得满足条件的函数形式为方法解
8、得满足条件的函数形式为方法解得满足条件的函数形式为用概率测度定义信息量:用概率测度定义信息量:设离散信源设离散信源设离散信源设离散信源X X,其概率空间为,其概率空间为,其概率空间为,其概率空间为如果知道事件如果知道事件如果知道事件如果知道事件x xi i已发生,则该事件所含有的已发生,则该事件所含有的已发生,则该事件所含有的已发生,则该事件所含有的自信息定义自信息定义自信息定义自信息定义为为为为自信息:自信息:第8页,本讲稿共112页 自信息含义当事件当事件x xi发生以前:发生以前:发生以前:发生以前:表示事件表示事件表示事件表示事件x xi i发生的不确定性发生的不确定性发生的不确定性发
9、生的不确定性。当事件当事件当事件当事件x xi发生以后:发生以后:发生以后:发生以后:表示事件表示事件表示事件表示事件x xi i所含有(或所提供)的信息量。所含有(或所提供)的信息量。所含有(或所提供)的信息量。所含有(或所提供)的信息量。在无噪信道中,事件在无噪信道中,事件在无噪信道中,事件在无噪信道中,事件x xi i发生后,能正确无误地传输到收信者,所发生后,能正确无误地传输到收信者,所发生后,能正确无误地传输到收信者,所发生后,能正确无误地传输到收信者,所以以以以I I(x xi i)可代表接收到消息可代表接收到消息可代表接收到消息可代表接收到消息x xi i后所获得的信息量。这是因
10、为消除了后所获得的信息量。这是因为消除了后所获得的信息量。这是因为消除了后所获得的信息量。这是因为消除了I I(x xi i)大小的不确定性,才获得这么大小的信息量。大小的不确定性,才获得这么大小的信息量。大小的不确定性,才获得这么大小的信息量。大小的不确定性,才获得这么大小的信息量。第9页,本讲稿共112页 自信息的测度单位及其换算关系l l如果取以如果取以如果取以如果取以2 2 2 2为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为比特比特比特比特(binary unitbinary unit)l l如果取以如果取以如果取以如果取以e e为底,则信息
11、量单位称为为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为奈特奈特奈特奈特(nature unitnature unit)l l如果取以如果取以如果取以如果取以10101010为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为哈特哈特哈特哈特(Hart unitHart unit)1 1 1 1奈特奈特奈特奈特1.441.441.441.44比特比特比特比特 1 1 1 1哈特哈特哈特哈特3.323.323.323.32比特比特比特比特一般都采用以一般都采用以“2”2”为底的对数,为了书写简洁,有时把底数为底的对数,为了书写简洁,有时把底
12、数2 2略去不写。略去不写。第10页,本讲稿共112页 信息论中“比特”与 计算机术语中“比特”区别l l如果如果如果如果p p(x xi i)=1/2=1/2,则,则,则,则I I(x xi i)=1=1比特。所以比特。所以比特。所以比特。所以1 1比特信息量就是两个互不相比特信息量就是两个互不相比特信息量就是两个互不相比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。容的等可能事件之一发生时所提供的信息量。容的等可能事件之一发生时所提供的信息量。容的等可能事件之一发生时所提供的信息量。l l信息论中信息论中信息论中信息论中“比特比特比特比特”是指抽象的信息量单位;是指抽象的信
13、息量单位;是指抽象的信息量单位;是指抽象的信息量单位;l l计算机术语中计算机术语中计算机术语中计算机术语中“比特比特比特比特”是代表二元符号(数字);是代表二元符号(数字);是代表二元符号(数字);是代表二元符号(数字);l l这两种定义之间的关系是:这两种定义之间的关系是:这两种定义之间的关系是:这两种定义之间的关系是:每个二元符号所能提供的每个二元符号所能提供的每个二元符号所能提供的每个二元符号所能提供的最大平最大平最大平最大平均信息量均信息量均信息量均信息量为为为为1 1比特。比特。比特。比特。第11页,本讲稿共112页 信源熵平均信息量自信息是一个随机变量:自信息是一个随机变量:自信
14、息是一个随机变量:自信息是一个随机变量:自信息是指某一信源发出某一消息所自信息是指某一信源发出某一消息所自信息是指某一信源发出某一消息所自信息是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不含有的信息量。所发出的消息不同,它们所含有的信息量也就不含有的信息量。所发出的消息不同,它们所含有的信息量也就不含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。同。同。同。平均信息量平均信息量平均信息量平均信息量信源熵:信源熵:信源熵:信源熵:自信息的数学期望。也称为信源的信息熵自信息的数学期望。也称为信源的信息熵自信息的数学期望。也称为信源的信息熵自信息的数学
15、期望。也称为信源的信息熵/信信信信源熵源熵源熵源熵/香农熵香农熵香农熵香农熵/无条件熵无条件熵无条件熵无条件熵/熵函数熵函数熵函数熵函数/熵。熵。熵。熵。信息熵的单位:信息熵的单位:信息熵的单位:信息熵的单位:取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以2 2为底,其单位为底,其单位为底,其单位为底,其单位为比特为比特为比特为比特/符号。符号。符号。符号。信息熵的意义:信息熵的意义:信息熵的意义:信息熵的意义:信源的信息熵信源的信息熵信源的信息熵信源的信息熵HH是从是从是从是从整个整个整个整个信源的统计特性来考虑的。信
16、源的统计特性来考虑的。信源的统计特性来考虑的。信源的统计特性来考虑的。它是从它是从它是从它是从平均平均平均平均意义上来表征信源的总体特性的。对于某特定的信源,其意义上来表征信源的总体特性的。对于某特定的信源,其意义上来表征信源的总体特性的。对于某特定的信源,其意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。信息熵只有一个。不同的信源因统计特性不同,其熵也不同。信息熵只有一个。不同的信源因统计特性不同,其熵也不同。信息熵只有一个。不同的信源因统计特性不同,其熵也不同。第12页,本讲稿共112页熵(熵(Entropy)的直接引入的直接引入 一
17、个离散随机变量一个离散随机变量一个离散随机变量一个离散随机变量X X,以不同的取值概率有,以不同的取值概率有,以不同的取值概率有,以不同的取值概率有N N个可能取值个可能取值个可能取值个可能取值,XP(x)a1a2aNp1p2pN信息论关心信息论关心:X的的不确定性不确定性不确定性大,获取的信息量多不确定性大,获取的信息量多研究思路二研究思路二第13页,本讲稿共112页熵的引入熵的引入不确定性分析:不确定性分析:随机变量随机变量X、Y、ZXP(X)a1 1 a2 2 0.01 0.99ZP(Z)a1 a2 a3 a4 a50.2 0.2 0.2 0.2 0.2YP(Y)a1 1 a2 2 0.
18、5 0.5问题:问题:1、能否度量?、能否度量?小小大大2、如何度量?、如何度量?第14页,本讲稿共112页香农指出:香农指出:存在存在存在存在熵熵熵熵函数函数 满足满足满足满足先验条件先验条件1、连续性条件:、连续性条件:是是 的连续函数的连续函数2、等概时为单调增函数:、等概时为单调增函数:是是N的增函数的增函数3、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,定取值时,X在各次试验中的不确定性可加。在各次试验中的不确定性可加。结论结论:唯一唯一的形式:C=常数0,即:第15页,本讲稿共112页可加性条件
19、进一步说明:可加性条件进一步说明:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,随机变量在各次试验中的不确定性可加,且其和始终与通过一次试验取得结果的不确定程度相同。第16页,本讲稿共112页熵的定义熵的定义X X为一随机变量为一随机变量样本空间样本空间X X x x1 1,x x2 2,.,.x xn n p pi i或或p p(x xi i)是输出为是输出为x xi i的概率的概率定义定义定义定义为随机变量的为随机变量的熵函数熵函数熵函数熵函数含义:含义:(1)通过观测随机)通过观测随机 变量变量X所获得的所获得的 平均信息量平均信息量(2)对随机变量)对随机变量X的的 “不确
20、定性不确定性”、“随机性随机性”的度量的度量第17页,本讲稿共112页熵的单位熵的单位 与前面介绍自信息的单位时相同,与前面介绍自信息的单位时相同,与前面介绍自信息的单位时相同,与前面介绍自信息的单位时相同,信息熵信息熵信息熵信息熵的单位也与公式中的单位也与公式中的单位也与公式中的单位也与公式中的对数取的对数取的对数取的对数取底底底底有关。有关。有关。有关。通信与信息中最常用的是以通信与信息中最常用的是以通信与信息中最常用的是以通信与信息中最常用的是以2 2 2 2为底,这时单位为为底,这时单位为为底,这时单位为为底,这时单位为比特(比特(比特(比特(bitbitbitbit););););理
21、论推导中用以理论推导中用以理论推导中用以理论推导中用以e e e e为底较方便,这时单位为为底较方便,这时单位为为底较方便,这时单位为为底较方便,这时单位为奈特奈特奈特奈特(NatNatNatNat););););工程上用以工程上用以工程上用以工程上用以10101010为底较方便,这时单位为为底较方便,这时单位为为底较方便,这时单位为为底较方便,这时单位为哈特利哈特利哈特利哈特利(HartleyHartleyHartleyHartley)。)。)。)。它们之间可以引用对数换底公式进行互换。比如:它们之间可以引用对数换底公式进行互换。比如:它们之间可以引用对数换底公式进行互换。比如:它们之间可以
22、引用对数换底公式进行互换。比如:1 bit=0.693 Nat=0.301 Hartley 1 bit=0.693 Nat=0.301 Hartley 1 bit=0.693 Nat=0.301 Hartley 1 bit=0.693 Nat=0.301 Hartley第18页,本讲稿共112页熵熵H(X)-通过观测随机变量通过观测随机变量X所获得的所获得的平均平均信息量信息量 进一步理解:进一步理解:进一步理解:进一步理解:平均统计平均(平均统计平均(平均统计平均(平均统计平均(区别与算术平均区别与算术平均区别与算术平均区别与算术平均)单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(
23、单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(量纲量纲量纲量纲 单位单位单位单位)比特不同于计算机中的比特不同于计算机中的比特不同于计算机中的比特不同于计算机中的“比特比特比特比特”计算机:代表一个二元数字计算机:代表一个二元数字计算机:代表一个二元数字计算机:代表一个二元数字(bibinary diginary digit t)信息:对数取信息:对数取信息:对数取信息:对数取2 2为底时信息量的单位为底时信息量的单位为底时信息量的单位为底时信息量的单位 关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均
24、信息量为关系:每一个二元数字所能提供的最大平均信息量为1 1比特比特比特比特 认为:当认为:当认为:当认为:当x x0 0时时时时 xlog(1/x)=0 xlog(1/x)=0 通信:信息速率通信:信息速率通信:信息速率通信:信息速率单位时间内信息的数量单位时间内信息的数量单位时间内信息的数量单位时间内信息的数量第19页,本讲稿共112页2.1.2 香农熵与热力学中热熵的关系香农熵与热力学中热熵的关系熵熵 这个名词是香农从物理学中的统计热力学借用过来的,在这个名词是香农从物理学中的统计热力学借用过来的,在这个名词是香农从物理学中的统计热力学借用过来的,在这个名词是香农从物理学中的统计热力学借
25、用过来的,在物理学中称它为物理学中称它为物理学中称它为物理学中称它为热熵,热熵,热熵,热熵,是表示分子混乱程度的一个物理量,是表示分子混乱程度的一个物理量,是表示分子混乱程度的一个物理量,是表示分子混乱程度的一个物理量,这里,香农引用它来描述随机变量的平均不确定性,含义这里,香农引用它来描述随机变量的平均不确定性,含义这里,香农引用它来描述随机变量的平均不确定性,含义这里,香农引用它来描述随机变量的平均不确定性,含义是类似的。但是在热力学中,任何孤立系统的演化,热熵是类似的。但是在热力学中,任何孤立系统的演化,热熵是类似的。但是在热力学中,任何孤立系统的演化,热熵是类似的。但是在热力学中,任何
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 信息论 基本概念 优秀 课件
限制150内