2022年2022年计算机的数据与编码 .pdf
1 计算机的数据与编码一、数据存储单位1数据:对事实、概念或指令的一种表示形式,可以由人工或自动装置进行处理。(1)数据的形式: 数字、文字、图形或声音等。(2)数据的分类: 数值数据、非数值数据。2信息 :经过解释赋予一定意义的数据。(1)控制信息 :指挥计算机的各种操作的指令。(2)数据信息: 计算机加工处理的对象。注意: (1)计算机能识别和处理的只能是二进制数。(2)计算机中有人读数据和机读数据两种状态。3位:一个二进制位称为比特( bit),,以 b 表示。一位可以表示0 和 1 两种状态。位是数据的最小单位 ,4字节 :八个二进制位称为字节(Byte),以 B 表示。字节是数据处理和数据存储的基本单位。一个字节的 8 位二进制自左至右排列,最左边为最高位,最右边为最低位。换算公式:1KB=1024B 1MB=1024KB=10241024B 1GB=1024MB=10241024KB=102410241024B=1073741824B 5字与字长(1)字: 在计算机中做为一个单元进行存储、传送等操作的一组字符或一组二进制位称为字( Word) 。(2)字长: 一个字中的字符数量或二进制的位数称为字长。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 13 页 - - - - - - - - - 2 字长决定计算机处理信息的速率,是计算机的一个重要性能指标。(3)字的组成: 一个字由若干个字节组成。二、字符及其编码1字符集字符:用来组织、控制或表示数据的字母、数字及计算机能识别的其它符号。字符集:为了某一目的而设计的一组互不相同的字符。在微机系统中普遍采用的是有128 个符号的键盘字符集,包括:(1)10 个十进制数码 09 (2)52 个大小写英文字母(3)32 个标点符号、专用符号、运算符号(4)34 个控制符2字符编码字符编码:规定用怎样的二进制编码表示数字、字母和各种专用符号。由于这是一个涉及世界范围内的有关信息表示、交换、处理、传输和存储的基本问题,因此都以国家标准或国际标准的形式颁布施行。目前在微型机中普遍采用的字符编码是ASC码。ASC是英文 American Standard Code for Information Interchange 的缩写,意为“美国标准信息交换代码” 。该编码后被国际标准化组织ISO(国际标准化委员会)采纳,作为国际通用的信息交换标准代码。ASC有 7 位版本和 8 位版本。(1)7 位 ASC码用七位二进制数表示一个字符,由于27128,所以可表示 128个不同的字符,其中包括:数码 09,26 个大写英文字母, 26 个小写英文字母以及各种运算符号、标点符号及控制命令等。注意: 7 位 ASC表示数的范围是0127 在微机中采用 7 位 ASC字符编码时,最高位b7 恒为零,因此,一个字符的ASC名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 13 页 - - - - - - - - - 3 码占一个字节位置。(2)8 位 ASC码使用 8 位二进制数进行编码,这样可以表示256 种字符。当最高位恒为 0 时,编码与 7 位 ASCII 码相同,称为基本 ASCII 码。当最高位为 1时,形成扩充 ASCII 码。通常,各国都把扩充ASCII 码部分作为自己本国语言字符代码。常用 ASCII 码:CR ESC SP 0 A a DEL 二0001101 0011011 0100000 0110000 1000001 1100001 1111111 十13 27 32 48 65 97 127 十六0D 1B 20 30 41 61 7F 字符大小比较:按 ASCII 码值的大小进行比较。CRESCSP(空格) 0.A.aDEL 字符串大小比较:先比较第一个字符,若相同,再比较第二个字符,以此类推。3汉字编码我国于1981 年颁布了信息交换用汉字编码字符集基本集,即国家标准GB2312-80。基本集中共收集汉字和图形符号7445 个,汉字 6763 个,分为两级。一级汉字有 3755 个,属常用汉字,按汉字拼音字母顺序排列;二级汉字为 3008 个,属次常用汉字,按部首排列。图形符号 682 个。规定:一个汉字用两个字节表示。为了使中文信息与西文信息兼容,每个字节的最高位用于区分汉字编码或是ASCII字符编码, 因此汉字编码每个字节只用低七位。此外,由于每个字节的低7 位中还有34 个控制字符编码,因此每个字节只能有128-34=94种状态可用于汉字编码。这样两个字节可以有9494=8836种状态。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 13 页 - - - - - - - - - 4 (1)区位码GB2312-80基本字符集将汉字按规则排成94行,94列,第一个字节用于表示区号,第二个字节用于表示位号,因此,每个汉字就有唯一的一个区号和一个位号,称为汉字的区位码。给定汉字编码表中的一个区号(十进制0194)和位号(十进制0194) ,则唯一对应一个汉字或图形符号。例如:区号 54,位号 48(均为十进制),对应汉字为“中”。区位码的安排:0115区:各种字母、数字及图形符号1655区:一级汉字5687区:二级汉字区位码是用十进制数表示的国标码,即国标 BG2312-80中的区位编码, 也可称为国标区位码。(1)国标码将汉字区位码的区码和位码分别用十六进制数表示,然后再加上十六进制数2020形成。例: “中” 的区位码为 5448,表示成十六进制3630,再加上 2020,则它的国标码为 5650。国标码的主要作用是用于统一不同的系统之间所用的不同编码。通过将不同的系统使用的不同编码统一转换成国标码,不同系统之间的汉字信息就可以相互交换。4汉字内码计算机系统内部进行存储、加工处理、传输统一使用的代码,简称汉字内码或机内码。不同系统使用的机内码可能不同,目前国内广泛使用的汉字内码是将国标码的两个字节的最高位分别置为“1”形成。即一个汉字在机器内部占两个字节,每个字节的最高位恒为1。汉字机内码 =汉字国标码 +8080H =区位码 +2020H+8080H 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 13 页 - - - - - - - - - 5 =区位码 +A0A0H 加十六进制 8080H 的目的是将表示汉字国标码的两个字节的最高位分别置为“1” 。在计算机中,由于机内码的存在,输入汉字时就允许用户根据自己的习惯使用不同的输入码,进入系统后再统一转换成机内码存储。5汉字外码为方便人工通过键盘键入汉字而设计的代码称为汉字输入码,又称为汉字外码。(1)以国标 GB2312-80为基准的区位码、国标码(2)以汉字拼音为基础的拼音类输入法(3)以汉字拼形为基础的拼形类输入法(4)以汉字拼音和拼形结合为基础的音形类输入法(5)在电信业中通用的电报码6汉字字形码是指汉字字库中存储的汉字字形的数字化信息。汉字是一种象形文字,每一个汉字都可以看成是一个特定的图形,这种图形可以用点阵来描述。用点阵来表示汉字,以16 16 点阵为例,表明一个汉字图形有16 行,每一行上有16 个点。一位二进制可以表示点阵中一个点的信息,因此用两个字节来存放每一行上的16 个点,并且规定某二进制位值“0” 表示对应点为白,而“ 1” 表示对应点为黑。由此可知,一个 16 16 点阵的汉字字形需要用2 1632 个字节来存放。其它点阵的汉字可以此类推。汉字字形点阵有: 1616、2424、3232 点阵等。随点阵数的不同,汉字字形码的长度不同。例 1616 点阵占 32 个字节, 2424点阵需 72 个字节。汉字字形码又称为汉字输出码或汉字发生器编码。7汉字字模字模:即汉字字库中存放的汉字字形。字模与字形的概念没有严格区别。字模可分为宋体字模、仿宋体字模、楷体字模、黑体字模。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 13 页 - - - - - - - - - 6 字模按点阵大小可分为1616 点阵字模、 2424点阵字模等。点阵数越大,字形质量越高。8汉字字库汉字字库:汉字字形数字化后,以二进制文件的形式存储在存储器中,构成汉字字形库或汉字字模库,简称汉字字库。汉字字库为汉字的输出设备提供字形数据,汉字字形的输出是将存储在汉字字库中的相应字形信息取出,送到所指定的汉字输出设备上输出。字库中汉字字形信息的存储方法:(1)整字存储法将汉字字形的点阵信息逐个字节存放在字形信息存储器中,需要输出时直接读出。(2)压缩信息存储法采用信息压缩办法,只存储汉字的压缩信息,使用时再还原成字形信息。汉字字库有硬字库和软字库之分。(1)硬字库将汉字库固化在 ROM 或 EPROM 中,称为硬字库。(2)软字库将汉字库存放在某种外设 (软、硬盘 )中,称为软字库。要输出一个汉字时,首先根据该汉字的机内码找出其字模信息在字库中的位置,然后取该汉字的字模信息作为图形在屏幕上显示或打印机上打印输出。三、计算机中数的表示1带符号数的表示用 0 表示正数,用 1 表示负数,使数的符号数字化, 符号和数一起进行存储和运算。(1)符号位位于数值最高位的左部, 0 表示正数, 1 表示负数。如果用八进制位表示一个有符号的整数,则最高位为符号位,具体表示数值的只有七位,其最小数为( 111111111 )2=(-127)10,最大数为( 01111111 )2=+127。如果用 16 进制位表示一个有符号的整数,除去最高位的符号位外,具体表示数值名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 13 页 - - - - - - - - - 7 的只有 15 位,所能表示数的范围为(-32767,+32767)显然,在表示一个数值时,使用的二进制位数越多,其表示数值的范围就越大。例如:用八位二进制数表示+50 和-50 (+50)10 =(00110010)2(-50)10 =(10110010)2 用十六位二进制数表示 +513 和-513 (+513)10 =(0000001000000001)2 (-513)10=(1000001000000001)2 显然,用八位二进制数无法表示513、-513。(2)真值真正表示数值大小的部分,并按一般书写规则表示的原值。(3)机器数在计算机中使用的,连同数符一起数码化了的数叫机器数。机器数表示的范围由计算机字长决定。如果数值越过机器所能表示的范围,运算就会因此出错而停止,称为“溢出”。例:用 8 位二进制数表示 +49 和-49 十进制数+49 -49 真值+0110001 -0110001 机器数00110001 10110001 机器数也有不同表示方法 ,常用的有三种 ,即原码 ,补码和反码。(1)原码用最高位表示数符, 0 代表正数, 1 代表负数,数值部分为真值的绝对值,这种表示方法称为原码。例:十进制73 73 127 127 0 0 真值1001001 1001001 1111111 1111111 0000000 0000000 原码01001001 11001001 01111111 11111111 00000000 10000000 由上可知,数值 0 在原码中有两种形式:两种形式均当0 处理+0原00000000 -0原10000000 (2)反码正数的反码和原码相同,负数的反码是对该数的原码除符号位外各位求反(即0 变名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 13 页 - - - - - - - - - 8 1,1 变 0) 。用数学式子表示如下:例:(+50)10原码 00110010 反码 00110010 (相同) (-50)10原码 10110010 反码 11001101 (不同) +0反=+0原=00000000 -0原=10000000,-0反=11111111 注意:一个数反码的反码是原码本身。(3)补码正数的补码与原码相同,负数的补码则是该数的反码未位加。例:(+50)10原码 00110010 反码补码(-50)10原码 10110010 反码 11001101 补码 11001110 +0补=00000000 -0=-0反+1=11111111+1=100000000=00000000 由于字长限定为 N 位,因此最高位前面的1 因表示不出来而丢失。 从而保留下来的结果与 +0补相同。 所以计算机中一般都采用补码进行运算。注意:负数补码的补码等于该负数的原码。即X补补=X原例:求下列数的原码、反码、补码。十进制数+1 -1 +127 -127 +0 -0 原码00000001 10000001 01111111 11111111 00000000 10000000 反码00000001 11111110 01111111 10000000 00000000 11111111 补码00000001 11111111 01111111 10000001 00000000 00000000 (4)各种码的十进制数范围二进制数无符号数原码反码补码00000000 0 +0 +0 +0 01111111 127 +127 +127 +127 10000000 128 -0 -127 -128 11111111 255 -127 -0 -1 范围0255 -127+127 -127+127 -128127 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 13 页 - - - - - - - - - 9 2小数点的表示由于计算机只能识别0 和 1,所以采用约定的方式表示小数点。在计算机中,小数点通常有两种表示法:定点表示法与浮点表示法。(1)定点数规定小数点的位置固定不变,总是隐含在某个预定位置上。采用定点数表示法的计算机称为定点计算机。定点纯整数:将小数点固定在数的最低位之后(隐含,小数点不占二进制位)。在这种表示法中,符号位右边的所有位数表示的是一个整数。格式如下:符号位尾数. 例:机器字长 16,符号位,数值位 15 011111111111111111111111111111132767 定点纯小数:将小数点固定在符号位之后,最高数值位之前(隐含,小数点不占二进制位) 。在这种表示法中,符号位右边的第一位是小数的最高位。格式如下:符号位尾数 S 例:机器字长 16 位,符号位 1,数值位 15 1000000000000001 .000000000000001 2-15 (2)浮点数小数点位置不固定的数(位置浮动) ,采用浮点数表示的计算机称为浮点计算机。浮点表示的一般表示形式为:N=2P S 其中: P称为阶码(含符号)S称为尾数(含符号)2阶码的底(隐含的,不必出现在数据表示中)在计算机中表示一个浮点数其结构如下:Pf阶码 P Sf尾数 S Pf:阶符,即指数部分的符号位。P: 阶码,表示幂次。Sf:数符,即尾数部分符号位。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 13 页 - - - - - - - - - 10 S: 尾数注意:浮点数表示法要规定字的格式。实际应用中,阶码用补码(或移码)表示成定点纯整数,尾数用补码(或原码)表示成定点纯小数。为了保证不损失有效数字,常对尾数进行规格化处理,即保证尾数部分最高位是,而数的大小可以通过阶码进行调整。四、多媒体数据简介1多媒体的概念(1)媒体存储信息的实体,磁盘、光盘、存储器等。承载信息的载体,数值、文字、图形、声音、视频、图像(2)多媒体文、图、声像等多种信息同计算机融合在一起形成的信息传播媒体。硬件配置在原有计算机系统基础上扩充了:数字信号处理器、大容量光盘、触摸式屏幕、其它外围设备,以多种形式表达、存储和处理信息。电视与信息系统的多媒体明显区别:被动与主动模拟与数字(3)多媒体信息用多媒体传播的信息(4)多媒体系统能产生、储存、传播多媒体信息的系统,全称为多媒体计算机系统。2多媒体数据类型(1)数字字符型关系数据完成信息抽象后建立与实体之间的关系。由字符和数值构成,具有规范的结构化形式。(2)文本数据是最常见的媒体形式。包括字母、数字、字、词、句、段落、文章、书及书库。(3)声音数据包括话音、音乐、机器声、雷声、雨声、风声以及各种动物发出的声音等。(4)图像数据名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 13 页 - - - - - - - - - 11 基于抽象程序或时间。图形数字化:位图(照片、绘图、医学图像数据)。图形矢量化:图形( CAD 图、地理图等)。3多媒体数据的特点(1)数据量大(2)媒体种类繁多使数据处理复杂(3)改变了数据库的接口,不仅使图、文、声并茂,且改变了数据库的操纵形式。4视频信息和音频信息的获取目的:将声频和视频信息数字化后送入计算机。(1)视频信息获取技术的简单原理和主要组成组成:彩色解码电路、同步锁相及时序电路、A/D 、D/A、编码器、输出显示器。(2)音频信息获取技术的工作原理和主要组成组成:拾音器、音频放大器、A/D、D/A 、滤波器、功率放大器和增益控制器。5多媒体数据压缩技术数据的压缩方法即为一种变换及其反变换,称为编码技术。(1)数据压缩方法分类无失真压缩:利用数据的统计冗余进行压缩,可完全恢复原始数据而不引入任何失真,但压缩率受到统计冗余度的理论限制。多用于文本数据、程序、图像数据的压缩。有失真压缩:利用人类视觉和听觉器官对图像或声音中某些频率成分不敏感的特性,允许在压缩过程中损失一定的信息,从而换来了较大压缩比。多用于语音、图像和视频数据的压缩。(2)压缩的国际标准静止图像压缩标准: JPEG 动态图像压缩标准: MPEG 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 13 页 - - - - - - - - - 12 在计算机中,各种信息都是以二进制编码的形式存在的;也就是说,不管是文字、图形、声音、动画,还是电影等各种信息,在计算机中都是以和组成的二进制代码表示的;计算机之所以能区别这些信息的不同,是因为它们采用的编码规则不同。比如:同样是文字,英文字母与汉字的编码规则就不同,英文字母用的是单字节的ASCII码,汉字采用的是双字节的汉字内码;但随着需求的变化,这两种编码有被统一的UNICODE码(由 Unicode 协会开发的能表示几乎世界上所有书写语言的字符编码标准)所取代的趋势;当然图形、声音等的编码就更复杂多样了。这也就告诉我们,信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领域。、字符(英文,包括字母、数字、标点、运算符等)编码字符的编码采用国际通用的ASCII 码(American Standard Code for Information Interchange ,美国信息交换标准代码), 每个 ASCII 码以 1 个字节 (Byte) 储存 ,从 0 到数字 127 代表不同的常用符号,例如大写A 的 ASCII 码是 65,小写 a 则是 97。由于 ASCII 码只用了字节的七个位,最高位并不使用, 所以后来又将最高的一个位也编入这套编码码中,成为八个位的延伸ASCII(ExtendedASCII)码,这套内码加上了许多外文和表格等特殊符号,成为目前常用的编码。基本的 ASCII 字符集共有128 个字符,其中有96 个可打印字符,包括常用的字母、数字、标点符号等,另外还有32 个控制字符。标准ASCII 码使用 7 个二进位对字符进行编码,对应的ISO 标准为 ISO646 标准。字母和数字的ASCII 码的记忆是非常简单的。我们只要记住了一个字母或数字的ASCII 码(例如记住A 为 65,0 的 ASCII 码为 48),知道相应的大小写字母之间差32,就可以推算出其余字母、数字的ASCII 码。虽然标准 ASCII 码是 7 位编码,但由于计算机基本处理单位为字节(1byte = 8bit),所以一般仍以一个字节来存放一个 ASCII 字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为0(在数据传输时可用作奇偶校验位)。由于标准ASCII 字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了 ISO2022标准,它规定了在保持与ISO646 兼容的前提下将ASCII 字符集扩充为8 位代码的统一方法。ISO陆续制定了一批适用于不同地区的扩充ASCII 字符集,每种扩充ASCII 字符集分别可以扩充128 个字符,这些扩充字符的编码均为高位为1 的 8 位代码(即十进制数128255 ),称为扩展ASCII 码。、汉字的编码()汉字内码汉字信息在计算机内部也是以二进制方式存放。由于汉字数量多, 用一个字节的128 种状态不能全部表示出来,因此在 1980 年我国颁布的信息交换用汉字编码字符集基本集,即国家标准GB2312-80方案中规定用两个字节的十六位二进制表示一个汉字,每个字节都只使用低7 位(与 ASCII 码相同),即有128128=16384种状态。由于 ASCII 码的 34 个控制代码在汉字系统中也要使用,为不致发生冲突,不能作为汉字编码,128 除去 34 只剩 94种,所以汉字编码表的大小是9494=8836 ,用以表示国标码规定的7445 个汉字和图形符号。每个汉字或图形符号分别用两位的十进制区码(行码)和两位的十进制位码(列码)表示,不足的地方补,组合起来就是区位码。把区位码按一定的规则转换成的二进制代码叫做信息交换码(简称国标码)。国标码共有汉字 6763 个(一级汉字,是最常用的汉字,按汉语拼音字母顺序排列,共3755 个;二级汉字,属于次常用汉字,按偏旁部首的笔划顺序排列,共3008 个),数字、字母、符号等682 个,共 7445 个。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 13 页 - - - - - - - - - 13 由于国标码不能直接存储在计算机内,为方便计算机内部处理和存储汉字,又区别于ASCII 码,将国标码中的每个字节在最高位改设为1,这样就形成了在计算机内部用来进行汉字的存储、运算的编码叫机内码(或汉字内码,或内码)。内码既与国标码有简单的对应关系,易于转换,又与ASCII 码有明显的区别,且有统一的标准(内码是惟一的)。()汉字外码无论是区位码或国标码都不利于输入汉字,为方便汉字的输入而制定的汉字编码,称为汉字输入码。汉字输入码属于外码。不同的输入方法,形成了不同的汉字外码。常见的输入法有以下几类:按汉字的排列顺序形成的编码(流水码):如区位码;按汉字的读音形成的编码(音码):如全拼、简拼、双拼等;按汉字的字形形成的编码(形码):如五笔字型、郑码等;按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC 。输入码在计算机中必须转换成机内码,才能进行存储和处理。()汉字字形码为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码(字形码)。全部汉字字码的集合叫汉字字库。汉字库可分为软字库和硬字库。软字库以文件的形式存放在硬盘上,现多用这种方式,硬字库则将字库固化在一个单独的存储芯片中,再和其它必要的器件组成接口卡,插接在计算机上,通常称为汉卡。用于显示的字库叫显示字库。显示一个汉字一般采用1616 点阵或 2424 点阵或 4848 点阵。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间。例:用1616 点阵表示一个汉字,就是将每个汉字用16行,每行 16 个点表示,一个点需要1 位二进制代码,16 个点需用 16 位二进制代码(即2 个字节),共16 行,所以需要 16 行 2 字节 /行=32 字节,即 1616 点阵表示一个汉字,字形码需用32 字节。即:字节数 =点阵行数 点阵列数 /8 用于打印的字库叫打印字库,其中的汉字比显示字库多,而且工作时也不像显示字库需调入内存。可以这样理解,为在计算机内表示汉字而统一的编码方式形成汉字编码叫内码(如国标码),内码是惟一的 。为方便汉字输入而形成的汉字编码为输入码,属于汉字的外码,输入码因编码方式不同而不同,是多种多样的。为显示和打印输出汉字而形成的汉字编码为字形码,计算机通过汉字内码在字模库中找出汉字的字形码,实现其转换。例 1:已知汉字 春的国标码为343AH ,求其机内码?机内码 =国标码 +8080H=343AH+8080H=B4BAH 例 2:用 2424 点阵来表示一个汉字(一点为一个二进制位),则2000 个汉字需要多少KB 容量?(2424/8 )2000/1024=140.7KB141KB名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 13 页 - - - - - - - - -