第四章 文字输入处理技术优秀PPT.ppt
《第四章 文字输入处理技术优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四章 文字输入处理技术优秀PPT.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章文字输入处文字输入处理技术理技术第一页,本课件共有66页n文字信息在计算机中的描述、记录、显示和处理,都要文字信息在计算机中的描述、记录、显示和处理,都要以文字的数字化编码为基础。以文字的数字化编码为基础。n数字化文字技术分为数字化文字技术分为西文西文和和中文中文两大类。两大类。n西文大多属于拼音和字母文字,西文大多属于拼音和字母文字,基础字符比较少,而且基础字符比较少,而且容易按一定顺序排列容易按一定顺序排列,数字化比较简单。,数字化比较简单。n而而中文数量大、字形复杂、同音字多、异体字多中文数量大、字形复杂、同音字多、异体字多等等特点,使其在计算机内部的表示、处理、传输、交换、
2、特点,使其在计算机内部的表示、处理、传输、交换、输入、输出带来了一系列的问题,同时也给汉字编码工输入、输出带来了一系列的问题,同时也给汉字编码工作带来了相当大的难度,排序方法多样。作带来了相当大的难度,排序方法多样。2第二页,本课件共有66页英文字母编码英文字母编码n由于计算机用二进制数,故文字信息、符号也要转换由于计算机用二进制数,故文字信息、符号也要转换成二进制数所进行编码,国际上统一用美国标准信息成二进制数所进行编码,国际上统一用美国标准信息编码,编码,ASCII码码,AmericanStandardCodeforInformationInterchange。nASCII码被国际标准化组
3、织为国际标准码被国际标准化组织为国际标准ISO646。它用于。它用于计算机内码,也用做数据通信中的编码标准。计算机内码,也用做数据通信中的编码标准。nASCII码标准规定,一个码标准规定,一个ASCII码占一个字节码占一个字节(长度为长度为8位位)的低的低7位,其中最高位为校验位,用于传输过程检位,其中最高位为校验位,用于传输过程检验数据正确性。其余验数据正确性。其余7位二进制数表示一个字符,这位二进制数表示一个字符,这样一个字节可表示样一个字节可表示2的的7次方即次方即128种状态,(从种状态,(从0000000001111111)。)。3第三页,本课件共有66页n每种编码状态与一个每种编码
4、状态与一个ASCII码字符唯一对应,即可表示码字符唯一对应,即可表示27=128个字符,其中包括个字符,其中包括26个英文大写字符、个英文大写字符、26个英个英文小写字符、文小写字符、10个数字字符、个数字字符、33个标点符号和个标点符号和33个控个控制符。制符。ASCII码采用码采用7位二进制数比特编码,可以表示位二进制数比特编码,可以表示128个字符。个字符。n字符又分为字符又分为图形字符图形字符与与控制字符控制字符两类。图形字符包括两类。图形字符包括数字、字母、运算符号、商用符号等。例如大写数字、字母、运算符号、商用符号等。例如大写A的的ASCII码是码是65,小写,小写a则是则是97。
5、4第四页,本课件共有66页n128个个ASCII码字符的编码规则码字符的编码规则5第五页,本课件共有66页nASCII码扩展字符的编码码扩展字符的编码6第六页,本课件共有66页汉字编码汉字编码n用计算机进行汉字处理,首先必须将汉字代码用计算机进行汉字处理,首先必须将汉字代码化,即对汉字进行编码,称为化,即对汉字进行编码,称为汉字输入码汉字输入码。n汉字输入码送入计算机后还必须转换成汉字输入码送入计算机后还必须转换成汉字内汉字内部码部码,才能进行信息处理。,才能进行信息处理。n处理完毕之后,再把汉字内部码转换成处理完毕之后,再把汉字内部码转换成汉字字汉字字型码型码,才能在显示器或打印机输出。,才
6、能在显示器或打印机输出。n因此汉字编码有因此汉字编码有输入码、内码、字型码输入码、内码、字型码三种。三种。7第七页,本课件共有66页n汉字从输入到输出,首先要用汉字的输入码汉字从输入到输出,首先要用汉字的输入码(外码外码)将汉字输入,再用对应的内码存储并处理汉字,将汉字输入,再用对应的内码存储并处理汉字,最后用汉字的字型码将汉字输出、显示或打印。最后用汉字的字型码将汉字输出、显示或打印。8第八页,本课件共有66页汉字的输入码汉字的输入码目前,为了能直接使用西文标准键盘输入汉字,必须目前,为了能直接使用西文标准键盘输入汉字,必须给汉字设计相应的输入编码方法。给汉字设计相应的输入编码方法。编码方案
7、有很多种,主要分为以下三类编码方案有很多种,主要分为以下三类u数字编码数字编码u拼音码拼音码u字形编码字形编码9第九页,本课件共有66页数字编码数字编码n常用的是常用的是国标区位码国标区位码,用,用数字串对应汉字输入数字串对应汉字输入。n区位码是将国家标准局公布的区位码是将国家标准局公布的6763个两级汉字分为个两级汉字分为94个个区,每个区分区,每个区分94位,即将汉字表示成二维数组,每个汉位,即将汉字表示成二维数组,每个汉字在数组中的字在数组中的位置坐标位置坐标就是区位码。区码和位码各就是区位码。区码和位码各两位十进制数字,因此输入一个汉字需按键四次。两位十进制数字,因此输入一个汉字需按键
8、四次。n例如例如“中中”字位于第字位于第54区区48位,区位码为位,区位码为5448。数字。数字编码输入的优点是编码输入的优点是无重码无重码,输入码与内部编码的转换比,输入码与内部编码的转换比较方便,缺点是较方便,缺点是代码难以记忆代码难以记忆。10第十页,本课件共有66页拼音码拼音码n拼音码是以拼音码是以汉语拼音为基础汉语拼音为基础的输入方法。凡掌握汉语的输入方法。凡掌握汉语拼音的人,不需训练和记忆,即可使用,拼音的人,不需训练和记忆,即可使用,容易掌握容易掌握,但汉字同音字太多,输入但汉字同音字太多,输入重码率很高重码率很高,因此按拼音输,因此按拼音输入后还必须进行同音字选择,影响了输入速
9、度。入后还必须进行同音字选择,影响了输入速度。n常见的有双拼、全拼、微软拼音、智能常见的有双拼、全拼、微软拼音、智能ABC、搜狗拼音、搜狗拼音、紫光拼音等。紫光拼音等。11第十一页,本课件共有66页字型编码字型编码n字型编码是用字型编码是用汉字的形状汉字的形状来进行的编码。汉字总数虽多,来进行的编码。汉字总数虽多,但是由一笔一划组成,全部汉字的部件和笔划其实是有但是由一笔一划组成,全部汉字的部件和笔划其实是有限的。因此,把汉字的笔划部件用字母或数字进行编码,限的。因此,把汉字的笔划部件用字母或数字进行编码,按笔划的顺序依次输入,就能表示一个汉字了,按笔划的顺序依次输入,就能表示一个汉字了,与手
10、工与手工书写自然融合,输入速度较高,重码率低,书写自然融合,输入速度较高,重码率低,但但字根字根(笔划笔划)与键位对应关系难记与键位对应关系难记。n例如五笔字型编码是最有影响的字形编码方法。例如五笔字型编码是最有影响的字形编码方法。12第十二页,本课件共有66页汉字的机汉字的机内码内码n汉字的机内码是汉字的机内码是供计算机系统内部进行存储、加工处理、供计算机系统内部进行存储、加工处理、传输统一使用的代码传输统一使用的代码。n目前使用最广泛的一种为两个字节长的机内码。这种格目前使用最广泛的一种为两个字节长的机内码。这种格式的机内码是将国标式的机内码是将国标GB2312-80交换码的两个字节的最交
11、换码的两个字节的最高位分别置为高位分别置为l而得到的。而得到的。n其最大优点是其最大优点是机内码表示筒单机内码表示筒单,且,且与交换码之间有明显的对与交换码之间有明显的对应关系应关系,同时也,同时也解决了中西文机内码存在二义性的问题解决了中西文机内码存在二义性的问题。例如例如“中中”的国标码为十六进制:的国标码为十六进制:5448(0101010001001000),其对应的机内码为十六进制:其对应的机内码为十六进制:D4C8(1101011011001000)。13第十三页,本课件共有66页汉字信息交换码(国标码)汉字信息交换码(国标码)n信息交换用汉字编码字符集信息交换用汉字编码字符集基本
12、集是我国于基本集是我国于1980年制定的国家标准年制定的国家标准GB2312-80,简称国标码,是国,简称国标码,是国家规定的家规定的用于汉字信息处理的基本依据用于汉字信息处理的基本依据。nGB2312-80中规定了信息交换用的中规定了信息交换用的6763个个汉字汉字和和682个个非汉字图形符号非汉字图形符号(包括几种外文字母、数字和符包括几种外文字母、数字和符号号)的代码。的代码。n6763个汉字又按使用频度、组词能力等分成个汉字又按使用频度、组词能力等分成一级常一级常用汉字用汉字3755个和个和二级常用汉字二级常用汉字3008个。个。17第十七页,本课件共有66页n一级汉字按拼音字母顺序排
13、列一级汉字按拼音字母顺序排列;若遇同音字,则;若遇同音字,则按起按起笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序排列,依次类推。所谓笔形顺序,就是横、竖、撇、序排列,依次类推。所谓笔形顺序,就是横、竖、撇、点和折的顺序。点和折的顺序。二级汉字按部首顺序排列二级汉字按部首顺序排列。n在此标准中,每个汉字在此标准中,每个汉字(图形符号图形符号)采用采用双字节表示双字节表示。每个字节只用低每个字节只用低7位,最高位恒为位,最高位恒为1。由于低。由于低7位中有位中有34种状态是用于控制字符,因此,只有种状态是用于控制字符,因此,只有94(128-3
14、4=94)种状态可用于汉字编码。这样,双字节的低种状态可用于汉字编码。这样,双字节的低7位只能表示位只能表示9494=8836种状态。种状态。18第十八页,本课件共有66页编码范围 二进制数码 十进制数码 基本 ASCII 码 0000000001111111 0127 控制字符 0000000000100000、01111111 032、127 可用汉字段 0010000101111110 33126(194)扩充 ASCII 码 1000000011111111 128255 控制字符 1000000010100000、11111111 128160、255 GB2312-80 10100
15、00111111110 161254(194)此标准的汉字编码表有此标准的汉字编码表有94行、行、94列,其行号称为列,其行号称为区号区号,列号称为,列号称为位号位号。双字节中,。双字节中,用高字节表示区号,低字节表示位号。非汉字图形符号置于第用高字节表示区号,低字节表示位号。非汉字图形符号置于第111区,一级区,一级汉字汉字3755个且于第个且于第1655区,二级汉字区,二级汉字3008个置于第个置于第5687区。区。常见中西文编码占用字节情况常见中西文编码占用字节情况19第十九页,本课件共有66页20第二十页,本课件共有66页汉字的字形码汉字的字形码n汉字字形码是汉字字形码是汉字字库中存汉
16、字字库中存储的汉字字形的数字化信息储的汉字字形的数字化信息,用于显示和打印。用于显示和打印。n汉字字形信息的表示大体汉字字形信息的表示大体上有两类形式:一类是上有两类形式:一类是点点阵阵表示法,另一类是表示法,另一类是矢量矢量表表示法。示法。21第二十一页,本课件共有66页n汉字字形点阵有汉字字形点阵有l616点阵、点阵、2424点阵、点阵、3232点阵、点阵、6464点阵、点阵、9696点阵、点阵、128128点阵、点阵、256256点阵等类型。点阵等类型。n一个汉字方块中行数、列数分得越多,描绘的汉字一个汉字方块中行数、列数分得越多,描绘的汉字也就越细微,但占用的存储空间也就越多。也就越细
17、微,但占用的存储空间也就越多。n汉字字形点阵中每个点的信息要用一位二进制码来表示。汉字字形点阵中每个点的信息要用一位二进制码来表示。对于对于1616点阵的字形码,需要用点阵的字形码,需要用32个字节个字节(16168=32)表示;表示;2424点阵的字形码需要用点阵的字形码需要用72个个字节字节(24248=72)表示。表示。22第二十二页,本课件共有66页n汉字字库,是汉字字形数字化后,以二进制文件形式存汉字字库,是汉字字形数字化后,以二进制文件形式存储在存储器中而形成的汉字字模库。储在存储器中而形成的汉字字模库。n汉字字模库亦称汉字字形库,简称汉字字模库亦称汉字字形库,简称汉字字库汉字字库
18、。汉字。汉字字库可分为软汉字字库和硬汉字字库。字库可分为软汉字字库和硬汉字字库。23第二十三页,本课件共有66页n通常,计算机中所有汉字的字形码集合起来组成汉字通常,计算机中所有汉字的字形码集合起来组成汉字库库(或称为字模库或称为字模库)存放在计算机里,当汉字输出时由存放在计算机里,当汉字输出时由专门的字形检索程序根据这个汉字的内码从汉字库里专门的字形检索程序根据这个汉字的内码从汉字库里检索出对应的字形码,由字形码再控制输出设备输出检索出对应的字形码,由字形码再控制输出设备输出汉字。汉字。n汉字点阵字形的汉字库结构简单,但是当需要对汉字进汉字点阵字形的汉字库结构简单,但是当需要对汉字进行放大、
19、缩小、平移、倾斜、旋转、投影等变换时,汉行放大、缩小、平移、倾斜、旋转、投影等变换时,汉字的字形效果不好。字的字形效果不好。n若使用若使用矢量汉字库、曲线字库的汉字,其字形用直线矢量汉字库、曲线字库的汉字,其字形用直线或曲线表示,能产生高质量的输出字形或曲线表示,能产生高质量的输出字形。24第二十四页,本课件共有66页文字信息处理文字信息处理:是依照用户提供的文字稿及对成品的要求,确:是依照用户提供的文字稿及对成品的要求,确定合适的字体、字号、行距、字距、版式要求等,再利用文字定合适的字体、字号、行距、字距、版式要求等,再利用文字信息处理设备对文字稿进行版面设计和排版,最后把排好的文信息处理设
20、备对文字稿进行版面设计和排版,最后把排好的文字信息输出到纸张、屏幕等介质上。字信息输出到纸张、屏幕等介质上。所以,文字处理技术就是日常说的所以,文字处理技术就是日常说的文字处理文字处理技术。技术。文字信息处理文字信息处理25第二十五页,本课件共有66页版面与版面基础知识版面与版面基础知识 版面与排版基础知识主要包括版面与排版基础知识主要包括版面构成要素、版面版面构成要素、版面技术术语技术术语及各种及各种版式处理版式处理等。这些知识是各种媒体设计中不等。这些知识是各种媒体设计中不可缺少的重要组成部分。可缺少的重要组成部分。一名合格的媒体设计人员和操作员只有掌握一名合格的媒体设计人员和操作员只有掌
21、握“排版排版语言语言”和版面设计知识,才能达到高效率和高质量。和版面设计知识,才能达到高效率和高质量。26第二十六页,本课件共有66页字字 体体 分分 类类 和和 用用 法法1 1文字字体、字号及字形文字字体、字号及字形 1 1)文字的字体)文字的字体 文字的字体是一种规范了的文字文字的字体是一种规范了的文字书写形式书写形式,不同的,不同的字体代表了不同的书写风格。字体代表了不同的书写风格。因此,在出版中,选用不同的字体对出版的质量因此,在出版中,选用不同的字体对出版的质量有重要作用。有重要作用。27第二十七页,本课件共有66页文字的字体分为文字的字体分为汉字字体汉字字体和和外文字体外文字体。
22、媒体常见的基本字体有媒体常见的基本字体有书书宋体宋体、仿宋体仿宋体、楷体楷体和和黑体黑体四种。为了美化版面,经过一四种。为了美化版面,经过一段时间的发展,在印刷中开始段时间的发展,在印刷中开始采用许多新的艺术字体。如,采用许多新的艺术字体。如,隶书隶书、综艺、综艺、行楷行楷、美黑美黑、魏魏碑碑等等。等等。28第二十八页,本课件共有66页对于外文字体而言,在我国版面设计中最为常用的字体有四种,对于外文字体而言,在我国版面设计中最为常用的字体有四种,它们是白正体、白斜体、黑正体、黑斜体。它们是白正体、白斜体、黑正体、黑斜体。汉字字体汉字字体和和外文字体外文字体需要需要区别对待区别对待!29第二十九
23、页,本课件共有66页2)文字的字号)文字的字号文文字字的的字字号号是是指指文文字字大大小小。对对文文字字大大小小采采用用以以“号号数数制制”为为主主,“点点数数制制”为为辅辅的的原原则则来来进进行行度度量量。因因此此,在在国国内内的的电电子子出出版版软软件件中中对对字字体体的的度度量量基基本本采采用用这这一一原原则则的的,这这种种度度量量的的方方法与原来的铅字排版统一起来了,符合了我国人员的编辑习惯。法与原来的铅字排版统一起来了,符合了我国人员的编辑习惯。比比如如,大大北北大大方方正正电电子子出出版版系系统统中中,特特大大号号(11号号)以以下下的的字字都都采采用用号号数数制制来来称称谓谓,如
24、如4号号字字、5号号字字,而而特特大大号以上的字是采用点数制来称谓,如号以上的字是采用点数制来称谓,如84P、72P等。等。30第三十页,本课件共有66页点点是是活活字字专专用用的的计计量量单单位位,点点的的英英文文名名称称是是Point,音音译译为为磅磅,采采用用Point的的第第一一个个定定母母P来来表示。表示。1P=0.35mm国国外外电电子子出出版版软软件件中中,字字的的大大小小大大都都以以“点点”来来表表示示,如办公软件如办公软件Word等。等。31第三十一页,本课件共有66页3 3)文字的字形)文字的字形 文字的字形是指文字的形文字的字形是指文字的形状,一般有:状,一般有:v方形方
25、形v长形长形v扁形扁形v粗体形粗体形v细体形细体形32第三十二页,本课件共有66页4 4)媒体中字体号的选用原则)媒体中字体号的选用原则 要要合合理理运运用用文文字字设设计计版版面面,对对于于字字体体字字号号的的选选用用原原则则需需要有基本了解,常用字体的特点和选用原则:要有基本了解,常用字体的特点和选用原则:宋宋体体:宋宋体体的的特特点点是是横横平平竖竖直直,横横细细竖竖粗粗,粗粗细细适适中中,疏疏密密布布局局合合理理,使使人人看看起起来来清清晰晰爽爽目目,久久读读不不易易疲疲劳劳,所所以以一一般般正正文文都都采采用用书书宋宋体体作作为为字字体体。宋宋体体的的另另一一个个优优点点是是阅阅读读
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四章 文字输入处理技术优秀PPT 第四 文字 输入 处理 技术 优秀 PPT
限制150内