第5章 数字媒体及应用.ppt
《第5章 数字媒体及应用.ppt》由会员分享,可在线阅读,更多相关《第5章 数字媒体及应用.ppt(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、5.1 文本与文本处理文本与文本处理 5.2 图像与图形及应用图像与图形及应用5.3 波形声音的获取与播放波形声音的获取与播放5.4 数字视频及应用数字视频及应用第五章第五章 数字媒体及应用数字媒体及应用文字、文本文字、文本文文字字:一一种种书书面面语语言言,由由一一系系列列称称为为“字字符符”(character)character)的书写符号构成。的书写符号构成。文本:文字信息在计算机中的表示形式,是文本:文字信息在计算机中的表示形式,是基于特定字符集的、具有上下文相关性的一基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常个(二进制编码)字符流,是计算机中最常用
2、的一种数字媒体。组成文本的基本元素是用的一种数字媒体。组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。字符,字符在计算机中采用二进制编码表示。文本的输入文本的输入文本输入是将文字输入到计算机中,建立文本文件文本输入是将文字输入到计算机中,建立文本文件(电子文档)的操作。(电子文档)的操作。文字输入方法概述文字输入方法概述(1 1)人人工工输输入入。方方法法:键键盘盘输输入入、手手写写笔笔联联机机识识别别输入、语音识别输入。输入、语音识别输入。(2 2)文字自)文字自动识别输动识别输入。将入。将纸纸介介质质上的文本通上的文本通过识过识别别技技术术自自动转换为动转换为文字的文字的编码编
3、码。方法:印刷体文字。方法:印刷体文字识别输识别输入,手写体文字脱机入,手写体文字脱机识别输识别输入入。5.1.2 5.1.2 文本的表示与字符的编码文本的表示与字符的编码1 1、文本的表示、文本的表示文文本本是是计计算算机机表表示示文文字字及及符符号号信信息息的的最最常常用用也也是是最最基基本本的的一一种种数数字字媒媒体体。由由于于文文字字和和符符号号采采用用了了二二进进制制编编码码表表示示,因因而而可可以以方方便便地地进进行行编编辑辑、排排版版和和各各种种分分析析处处理理(如如统统计计、排排序序、分分类、索引、检索等)。类、索引、检索等)。西西文文字字符符集集:由由拉拉丁丁字字母母、数数字
4、字、标标点点符符号号及及一一些些特特殊符号组成。殊符号组成。字字符符的的编编码码:字字符符集集中中每每一一个个字字符符各各有有一一个个代代码码,即即字符的二进制表示,称为该字符的编码。字符的二进制表示,称为该字符的编码。(1 1)标准标准ASCIIASCII编码字符集。编码字符集。美国标准信息交换码美国标准信息交换码:使用使用7 7个二进位对字符进行编个二进位对字符进行编码(叫做标准码(叫做标准ASCIIASCII码),称为码),称为ISO-646ISO-646标准。基本标准。基本的的ASCIIASCII字符集共有字符集共有128128个字符。个字符。在计算机中的存储方法是:用一个字节在计算机
5、中的存储方法是:用一个字节(8(8位位)来存储一个字符的来存储一个字符的ASCIIASCII码。每个字节码。每个字节中多出来的最高位一般保持为中多出来的最高位一般保持为“0”“0”。常用的特殊字符的常用的特殊字符的ASCIIASCII码:空格码:空格(32)(32)、A(65)A(65)、a(97)a(97)、数字数字0(48)0(48)。(2 2)扩充)扩充ASCIIASCII编码字符集。编码字符集。每每个个扩扩充充ASCIIASCII字字符符集集分分别别可可以以扩扩充充128128个个字字符符,这这些些扩扩充充字字符符的的编编码码均均是是高高位位为为“1”“1”的的8 8位位代代码码(十十
6、进进制制数数128128255255),称称为为扩扩展展ASCIIASCII码。码。汉字编码字集汉字编码字集(1 1)GB2312-80GB2312-80汉字编码字符集。汉字编码字符集。信息交换用汉字编码字符集信息交换用汉字编码字符集基本集基本集(GB2312-80)GB2312-80)第第一一部部分分:字字母母、数数字字和和各各种种符符号号,包包括括拉拉丁丁字字母母、俄俄文文、日日文文平平假假名名与与片片假假名名、希希腊腊字字母母、汉汉语语拼拼音音等等共共682682个个(统称为(统称为GB2312GB2312图形符号)。图形符号)。第二部分:一级常用汉字,共第二部分:一级常用汉字,共375
7、53755个,按汉语拼音排列。个,按汉语拼音排列。第三部分:二级常用字,共第三部分:二级常用字,共30083008个,按偏旁部首排列。个,按偏旁部首排列。区位码:区位码:GB2312GB2312国标字符集构成一个国标字符集构成一个二维平面,它分成二维平面,它分成9494行、行、9494列,行号称为列,行号称为区号,列号称为位号。每一个汉字或符号区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用表示。每个汉字的区号和位号分别用1 1个字
8、个字节来表示。节来表示。国标交换码:国标交换码:将将GB2312GB2312字符集中每个汉字的区号和位号必字符集中每个汉字的区号和位号必须分别加上须分别加上3232(即二进制(即二进制0010 00000010 0000,十六,十六进制进制2020H H),),就可以得到该汉字的就可以得到该汉字的“国标交国标交换码换码”(简称交换码)。(简称交换码)。机内码:机内码:把一个汉字看作两个扩展把一个汉字看作两个扩展ASCIIASCII码,使表示码,使表示GB2312GB2312汉字的两个字节的最高位汉字的两个字节的最高位(b7)b7)都等都等于于“1”“1”。这种高位为。这种高位为1 1的双字节(
9、的双字节(1616位)位)汉字编码就称为汉字编码就称为GB2312GB2312汉字的汉字的“机内码机内码”,又称内码。,又称内码。国标码国标码=区位码区位码+2020+2020H H,机内码机内码=区位码区位码+A0A0HA0A0H 2 2)GBKGBK汉字编码字符集。汉字编码字符集。19951995年年发发布布GBKGBK,全全称称为为汉汉字字内内码码扩扩展展规规范范GBKGBK字字符符集集中中一一共共有有2100321003个个汉汉字字和和883883个个图图形形符符号号,它它与与GB2312GB2312国国标标汉汉字字字字符符集集及及其内码保持兼容。其内码保持兼容。GBK GBK的编码是
10、用的编码是用2 2字节编码表示,第字节编码表示,第1 1字节的字节的最高位必为最高位必为“1”“1”,第,第2 2字节的最高位不一字节的最高位不一定是定是“1”“1”。(3 3)UCS/UnicodeUCS/Unicode与与GB18030GB18030汉汉字字编编码码标标准准。通用编码字符集通用编码字符集UCS/UnicodeUCS/Unicode。UCS/UnicodeUCS/Unicode用用4 4个个字字节节对对全全世世界界现现代代书书面面文文字字所所使使用用的的所所有有字字符符、符符号号进进行行编编码码(记记作作UCS-4)UCS-4)。其优点是编码空间极大,能容纳足够多的各其优点是
11、编码空间极大,能容纳足够多的各种字符集(种字符集(1313亿字符);缺点是亿字符);缺点是4 4字节的字符字节的字符编码使存储空间浪费严重。编码使存储空间浪费严重。GB18030-2000GB18030-2000编码。编码。GB18030-2000GB18030-2000汉字编码标准是为了既兼容汉字编码标准是为了既兼容GB2312GB2312和和GBKGBK,又尽快向又尽快向UCS/UnicodeUCS/Unicode编码编码标准过渡,而在标准过渡,而在20002000年颁布的汉字编码国年颁布的汉字编码国家标准。该标准在家标准。该标准在GB-2312GB-2312和和GBKGBK的基础上的基础
12、上进行扩充,增加了进行扩充,增加了4 4字节编码。字节编码。例例 :(单单选选)在在ASCIIASCII编编码码中中,字字母母A A的的ASCIIASCII编编 码码 为为 4141H H,那那 么么 字字 母母 f f的的 ASCIIASCII编编 码码 为为()。A A46H B46H B66H C66H C67H D67H D78H78H参考答案:参考答案:B B由由题题目目中中所所给给的的字字母母A A的的ASCIIASCII编编码码为为4141H H这这个个已已知知条条件件,可可以以推推导导出出a a的的ASCIIASCII编编码码为为6161H H,再再考考虑虑ASCIIASCII
13、编编码码表表中中字字母母的的顺顺序序是是连连续续的的,所所以以可可以以得得出出b b的的ASCIIASCII编编码码为为6262H H,以以此此类类推推可可得得出出f f的的ASCIIASCII编码为编码为6666H H。例例 :(判判断断)西西文文字字符符在在计计算算机机中中通通常常采采用用ASCIIASCII码码表表示示,每每个个字字节节存存放放1 1个个字字符符。()参考答案:对参考答案:对目前计算机中使用得最广泛的西文字符集的编码称目前计算机中使用得最广泛的西文字符集的编码称为为ASCIIASCII码,它一共有码,它一共有128128个字符,每个字符使用个字符,每个字符使用7 7个二进
14、位进行编码。还有一种扩充个二进位进行编码。还有一种扩充ASCIIASCII码,每个码,每个字符使用字符使用8 8个二进位进行编码。无论是个二进位进行编码。无论是7 7位的标准位的标准ASCIIASCII码还是码还是8 8位的扩充位的扩充ASCIIASCII码,一个字节只存放码,一个字节只存放一个一个ASCIIASCII字符。若使用字符。若使用7 7位标准位标准ASCIIASCII码,每个字码,每个字节多余出来的一位(最高位)通常保持为节多余出来的一位(最高位)通常保持为“0”“0”。例例 :(判断)采用:(判断)采用GB2312GB2312、GBKGBK和和GB18030GB18030三三种不
15、同的汉字编码标准时,一些常用的汉种不同的汉字编码标准时,一些常用的汉字如字如“中中”、“国国”等,它们在计算机中等,它们在计算机中的表示(内码)都是相同的。(的表示(内码)都是相同的。()参考答案:对参考答案:对分析:分析:GB2312GB2312、GBKGBK和和GB18030GB18030是我国从是我国从2020世纪世纪8080年年代开始先后制订与发布的三个汉字编码标准,它们代开始先后制订与发布的三个汉字编码标准,它们的主要区别是字符集中所包含的图形符号和汉字的的主要区别是字符集中所包含的图形符号和汉字的数目不同,后发布的标准中收录的字符总是涵盖了数目不同,后发布的标准中收录的字符总是涵盖
16、了已发布标准中的所有字符,而且,它们在计算机中已发布标准中的所有字符,而且,它们在计算机中的表示(内码)也都保持相同的表示(内码)也都保持相同。(单选)有关我国汉字编码的叙述中,错误的是(单选)有关我国汉字编码的叙述中,错误的是A.GB2312A.GB2312国国标标字字符符集集所所包包含含的的汉汉字字许许多多情情况况下下已已不不够使用够使用B.GBKB.GBK字符集既包括简体汉字,也包括繁体汉字字符集既包括简体汉字,也包括繁体汉字C.GB18030C.GB18030编码标准中所包含的汉字数目超过编码标准中所包含的汉字数目超过2 2万字万字D.D.不不论论采采用用上上述述哪哪一一种种汉汉字字编
17、编码码标标准准,汉汉字字在在计计算算机中均采用双字节表示机中均采用双字节表示参考答案:参考答案:D D在在GB2312GB2312和和GBKGBK中,所有汉字在计算机中都使用中,所有汉字在计算机中都使用2 2个字节表个字节表示和存储,但示和存储,但GB18030GB18030汉字数量很大,多数汉字使用汉字数量很大,多数汉字使用2 2字节字节编码(且与编码(且与GB2312GB2312、GBKGBK保持相同),还有少数汉字使用保持相同),还有少数汉字使用4 4字节编码。字节编码。文本文件的类型q文本类型文本类型q简单文本简单文本q丰富格式文本丰富格式文本q超文本超文本文本的概念从由数字、字符和汉
18、字等构成的纯文本扩大到文本的概念从由数字、字符和汉字等构成的纯文本扩大到包含了若干带有格式控制的包含了若干带有格式控制的Word文档、网页制作软件生成文档、网页制作软件生成的的HTML文件等等。文件等等。简单文本文件(纯文本)简单文本文件(纯文本)简简单单文文本本是是由由一一连连串串的的字字符符组组成成的的,除除了了用用于于表表达达正正文文内内容容的的字字符符(包包括括汉汉字字)及及“回回车车”、“换换行行”、“制制表表”等等有有限限的的几几个个打打印印(显显示示)控控制制字字符符之之外外,几几乎乎不不包包含含任任何何其其他他格格式式信信息息和和结结构构信信息息。这这种种文文本本通通常常称称为
19、为纯纯文文本本或或ASCIIASCII文文本本,文文件件后后缀缀名是名是TXTTXT。2 2、丰富格式文本文件、丰富格式文本文件 文件内容有字符(汉字)的编码、数字图文件内容有字符(汉字)的编码、数字图像、数字声音、数字视频信息、标记信息像、数字声音、数字视频信息、标记信息(格式信息、结构信息、链接信息等)。(格式信息、结构信息、链接信息等)。例如,例如,RTFRTF文件、文件、DOCDOC文件、文件、PDFPDF文件、文件、HTMLHTML文件。文件。3 3、超文本文件、超文本文件 超文本也称为非线性文本,文本的组织结构超文本也称为非线性文本,文本的组织结构是网状结构,即包含链接信息的丰富格
20、式是网状结构,即包含链接信息的丰富格式文本。阅读时除顺序阅读方式之外,还可文本。阅读时除顺序阅读方式之外,还可以通过跳转、导航、回溯等操作,实现对以通过跳转、导航、回溯等操作,实现对文本内容更为方便的访问。例如,文本内容更为方便的访问。例如,WindowsWindows中的中的“帮助帮助”文件或者使用浏览器从文件或者使用浏览器从WebWeb服服务器上下载的网页(务器上下载的网页(htmlhtml或或htmhtm文件)。文件)。超超链链是是有有向向的的,起起点点位位置置称称为为链链源源,目目的的地地(目目标标)称称为为链链宿宿。链链源源可可以以是是节节点点中中的的一一个个标标题题、句句子子、关关
21、键键词词、字字、一一幅幅图图像像、一一个个图图标标等等。链链宿宿可可以以是是节节点点,也也可可以以是是系系统统中中的的一一个个文文件件(包包括括文文件件的的标标签签)或或者程序。者程序。网页中的超文本文件还分静态文档、动态文网页中的超文本文件还分静态文档、动态文档、主动文档。档、主动文档。例例 :(单选)关于文本的叙述中,错误的是。:(单选)关于文本的叙述中,错误的是。A.A.不不同同文文字字处处理理软软件件制制作作的的丰丰富富格格式式文文本本通通常互不兼容常互不兼容B.B.纯文本的文件扩展名为纯文本的文件扩展名为“txt”txt”C.“C.“doc”doc”文文件件中中不不只只包包含含西西文
22、文字字符符和和汉汉字字,并且含有许多字符属性和格式标记并且含有许多字符属性和格式标记D.D.超超文文本本既既可可以以是是丰丰富富格格式式文文本本,也也可可以以是是纯文本纯文本参考答案:参考答案:D D超文本虽然强调的是按信息块将文本组织成为网状结构,并超文本虽然强调的是按信息块将文本组织成为网状结构,并没有特别强调文本的外观和格式,但是,它使用的没有特别强调文本的外观和格式,但是,它使用的“链源链源”和和“链宿链宿”等均需要在文本中采用特定标记语言进行标记,等均需要在文本中采用特定标记语言进行标记,从这个角度而言,超文本一般都是丰富格式文本,而非纯文从这个角度而言,超文本一般都是丰富格式文本,
23、而非纯文本。本。例例 :(填空)有一本英文小说,它在计算机中:(填空)有一本英文小说,它在计算机中用纯文本形式表示,文件扩展名为用纯文本形式表示,文件扩展名为“txt”txt”,大小为大小为3535KBKB,该小说所包含字符(字母、该小说所包含字符(字母、数字、标点符号等)的总数大约是数字、标点符号等)的总数大约是 个个 参考答案:参考答案:3584035840分分析析:在在计计算算机机中中用用纯纯文文本本形形式式表表示示的的英英文文小小说说,其其中中包包含含的的仅仅仅仅是是采采用用ASCIIASCII码码(7(7位位或或8 8位位)表表示示的的西西文文字字母母、数数字字和和一一些些标标点点符
24、符号号,每每个个字字符符使使用用1 1个个字字节节进进行行存存储储,由由于于文文件件扩扩展展名名为为“txt”txt”,表表示示该该文文件件没没有有进进行行数数据据压压缩缩。因因此此,这这本本小小说说所所包包含含字字符符(字字母母、数数字字、标标点点符符号号等等)的的总总数数大大约约是是351024=35840351024=35840个。个。q文本的输出文本的输出q文本输出过程文本输出过程q文本阅读器文本阅读器q汉字字形生成过程汉字字形生成过程q字形库字形库q字符形状的描述字符形状的描述字形码字形码q点阵字形点阵字形:象素阵列。象素多,字清晰,存象素阵列。象素多,字清晰,存储容量大储容量大 汉
25、字字形点阵中每个点的信息用一位二进制汉字字形点阵中每个点的信息用一位二进制码来表示。对于码来表示。对于16 16点阵的汉字字形码,点阵的汉字字形码,需要用需要用32个字节(个字节(16 16 8=32)表示;)表示;24 24点阵的汉字字形码,需要用点阵的汉字字形码,需要用72个字个字节表示。节表示。q矢量字形矢量字形:折线。不占存储空间,字形美观折线。不占存储空间,字形美观q轮廓字形轮廓字形:直线或曲线描述轮廓。占用存储直线或曲线描述轮廓。占用存储空间小,字形质量高空间小,字形质量高.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.#.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 数字媒体及应用 数字 媒体 应用
限制150内