第四章 文字输入处理技术精选文档.ppt
《第四章 文字输入处理技术精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章 文字输入处理技术精选文档.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章文字输入处文字输入处理技术理技术本讲稿第一页,共六十六页n文字信息在计算机中的描述、记录、显示和处理,都要以文文字信息在计算机中的描述、记录、显示和处理,都要以文字的数字化编码为基础。字的数字化编码为基础。n数字化文字技术分为数字化文字技术分为西文西文和和中文中文两大类。两大类。n西文大多属于拼音和字母文字,西文大多属于拼音和字母文字,基础字符比较少,而且基础字符比较少,而且容易按一定顺序排列容易按一定顺序排列,数字化比较简单。,数字化比较简单。n而而中文数量大、字形复杂、同音字多、异体字多中文数量大、字形复杂、同音字多、异体字多等特点,等特点,使其在计算机内部的表示、处理、传输、
2、交换、输入、输使其在计算机内部的表示、处理、传输、交换、输入、输出带来了一系列的问题,同时也给汉字编码工作带来了相出带来了一系列的问题,同时也给汉字编码工作带来了相当大的难度,排序方法多样。当大的难度,排序方法多样。2本讲稿第二页,共六十六页英文字母编码英文字母编码n由于计算机用二进制数,故文字信息、符号也要转换由于计算机用二进制数,故文字信息、符号也要转换成二进制数所进行编码,国际上统一用美国标准信息成二进制数所进行编码,国际上统一用美国标准信息编码,编码,ASCII码码,AmericanStandardCodeforInformationInterchange。nASCII码被国际标准化组
3、织为国际标准码被国际标准化组织为国际标准ISO646。它用于计算。它用于计算机内码,也用做数据通信中的编码标准。机内码,也用做数据通信中的编码标准。nASCII码标准规定,一个码标准规定,一个ASCII码占一个字节码占一个字节(长度为长度为8位位)的的低低7位,其中最高位为校验位,用于传输过程检验数位,其中最高位为校验位,用于传输过程检验数据正确性。其余据正确性。其余7位二进制数表示一个字符,这样一位二进制数表示一个字符,这样一个字节可表示个字节可表示2的的7次方即次方即128种状态,(从种状态,(从0000000001111111)。)。3本讲稿第三页,共六十六页n每种编码状态与一个每种编码
4、状态与一个ASCII码字符唯一对应,即可表示码字符唯一对应,即可表示27=128个字符,其中包括个字符,其中包括26个英文大写字符、个英文大写字符、26个英文小个英文小写字符、写字符、10个数字字符、个数字字符、33个标点符号和个标点符号和33个控制符。个控制符。ASCII码采用码采用7位二进制数比特编码,可以表示位二进制数比特编码,可以表示128个字符。个字符。n字符又分为字符又分为图形字符图形字符与与控制字符控制字符两类。图形字符包括数两类。图形字符包括数字、字母、运算符号、商用符号等。例如大写字、字母、运算符号、商用符号等。例如大写A的的ASCII码是码是65,小写,小写a则是则是97。
5、4本讲稿第四页,共六十六页n128个个ASCII码字符的编码规则码字符的编码规则5本讲稿第五页,共六十六页nASCII码扩展字符的编码码扩展字符的编码6本讲稿第六页,共六十六页汉字编码汉字编码n用计算机进行汉字处理,首先必须将汉字代码用计算机进行汉字处理,首先必须将汉字代码化,即对汉字进行编码,称为化,即对汉字进行编码,称为汉字输入码汉字输入码。n汉字输入码送入计算机后还必须转换成汉字输入码送入计算机后还必须转换成汉字内汉字内部码部码,才能进行信息处理。,才能进行信息处理。n处理完毕之后,再把汉字内部码转换成处理完毕之后,再把汉字内部码转换成汉字字汉字字型码型码,才能在显示器或打印机输出。,才
6、能在显示器或打印机输出。n因此汉字编码有因此汉字编码有输入码、内码、字型码输入码、内码、字型码三种。三种。7本讲稿第七页,共六十六页n汉字从输入到输出,首先要用汉字的输入码汉字从输入到输出,首先要用汉字的输入码(外码外码)将汉字输入,再用对应的内码存储并处理汉字,将汉字输入,再用对应的内码存储并处理汉字,最后用汉字的字型码将汉字输出、显示或打印。最后用汉字的字型码将汉字输出、显示或打印。8本讲稿第八页,共六十六页汉字的输入码汉字的输入码目前,为了能直接使用西文标准键盘输入汉字,必须目前,为了能直接使用西文标准键盘输入汉字,必须给汉字设计相应的输入编码方法。给汉字设计相应的输入编码方法。编码方案
7、有很多种,主要分为以下三类编码方案有很多种,主要分为以下三类u数字编码数字编码u拼音码拼音码u字形编码字形编码9本讲稿第九页,共六十六页数字编码数字编码n常用的是常用的是国标区位码国标区位码,用,用数字串对应汉字输入数字串对应汉字输入。n区位码是将国家标准局公布的区位码是将国家标准局公布的6763个两级汉字分为个两级汉字分为94个区,个区,每个区分每个区分94位,即将汉字表示成二维数组,每个汉字在数位,即将汉字表示成二维数组,每个汉字在数组中的组中的位置坐标位置坐标就是区位码。区码和位码各两位十进制就是区位码。区码和位码各两位十进制数字,因此输入一个汉字需按键四次。数字,因此输入一个汉字需按键
8、四次。n例如例如“中中”字位于第字位于第54区区48位,区位码为位,区位码为5448。数。数字编码输入的优点是字编码输入的优点是无重码无重码,输入码与内部编码的转,输入码与内部编码的转换比较方便,缺点是换比较方便,缺点是代码难以记忆代码难以记忆。10本讲稿第十页,共六十六页拼音码拼音码n拼音码是以拼音码是以汉语拼音为基础汉语拼音为基础的输入方法。凡掌握汉语拼音的输入方法。凡掌握汉语拼音的人,不需训练和记忆,即可使用,的人,不需训练和记忆,即可使用,容易掌握容易掌握,但汉字同,但汉字同音字太多,输入音字太多,输入重码率很高重码率很高,因此按拼音输入后还必须,因此按拼音输入后还必须进行同音字选择,
9、影响了输入速度。进行同音字选择,影响了输入速度。n常见的有双拼、全拼、微软拼音、智能常见的有双拼、全拼、微软拼音、智能ABC、搜狗拼音、搜狗拼音、紫光拼音等。紫光拼音等。11本讲稿第十一页,共六十六页字型编码字型编码n字型编码是用字型编码是用汉字的形状汉字的形状来进行的编码。汉字总数虽来进行的编码。汉字总数虽多,但是由一笔一划组成,全部汉字的部件和笔划多,但是由一笔一划组成,全部汉字的部件和笔划其实是有限的。因此,把汉字的笔划部件用字母或其实是有限的。因此,把汉字的笔划部件用字母或数字进行编码,按笔划的顺序依次输入,就能表示数字进行编码,按笔划的顺序依次输入,就能表示一个汉字了,一个汉字了,与
10、手工书写自然融合,输入速度较高,重与手工书写自然融合,输入速度较高,重码率低,码率低,但但字根字根(笔划笔划)与键位对应关系难记与键位对应关系难记。n例如五笔字型编码是最有影响的字形编码方法。例如五笔字型编码是最有影响的字形编码方法。12本讲稿第十二页,共六十六页汉字的机汉字的机内码内码n汉字的机内码是汉字的机内码是供计算机系统内部进行存储、加工处理、传供计算机系统内部进行存储、加工处理、传输统一使用的代码输统一使用的代码。n目前使用最广泛的一种为两个字节长的机内码。这种格式目前使用最广泛的一种为两个字节长的机内码。这种格式的机内码是将国标的机内码是将国标GB2312-80交换码的两个字节的最
11、高位交换码的两个字节的最高位分别置为分别置为l而得到的。而得到的。n其最大优点是其最大优点是机内码表示筒单机内码表示筒单,且,且与交换码之间有明显的对应与交换码之间有明显的对应关系关系,同时也,同时也解决了中西文机内码存在二义性的问题解决了中西文机内码存在二义性的问题。例如例如“中中”的国标码为十六进制:的国标码为十六进制:5448(0101010001001000),其对应的机内码为十六进制:其对应的机内码为十六进制:D4C8(1101011011001000)。13本讲稿第十三页,共六十六页汉字信息交换码(国标码)汉字信息交换码(国标码)n信息交换用汉字编码字符集信息交换用汉字编码字符集基
12、本集是我国于基本集是我国于1980年制年制定的国家标准定的国家标准GB2312-80,简称国标码,是国家规定的,简称国标码,是国家规定的用于汉字信息处理的基本依据用于汉字信息处理的基本依据。nGB2312-80中规定了信息交换用的中规定了信息交换用的6763个个汉字汉字和和682个个非汉字图形符号非汉字图形符号(包括几种外文字母、数字和符号包括几种外文字母、数字和符号)的的代码。代码。n6763个汉字又按使用频度、组词能力等分成个汉字又按使用频度、组词能力等分成一级常用汉一级常用汉字字3755个和个和二级常用汉字二级常用汉字3008个。个。17本讲稿第十七页,共六十六页n一级汉字按拼音字母顺序
13、排列一级汉字按拼音字母顺序排列;若遇同音字,则;若遇同音字,则按起按起笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序排列,依次类推。所谓笔形顺序,就是横、竖、撇、点和排列,依次类推。所谓笔形顺序,就是横、竖、撇、点和折的顺序。折的顺序。二级汉字按部首顺序排列二级汉字按部首顺序排列。n在此标准中,每个汉字在此标准中,每个汉字(图形符号图形符号)采用采用双字节表示双字节表示。每。每个字节只用低个字节只用低7位,最高位恒为位,最高位恒为1。由于低。由于低7位中有位中有34种状态是用于控制字符,因此,只有种状态是用于控制字符,因此,只有94(128
14、-34=94)种状态可用于汉字编码。这样,双字节的低种状态可用于汉字编码。这样,双字节的低7位只能表示位只能表示9494=8836种状态。种状态。18本讲稿第十八页,共六十六页编码范围 二进制数码 十进制数码 基本 ASCII 码 0000000001111111 0127 控制字符 0000000000100000、01111111 032、127 可用汉字段 0010000101111110 33126(194)扩充 ASCII 码 1000000011111111 128255 控制字符 1000000010100000、11111111 128160、255 GB2312-80 101
15、0000111111110 161254(194)此标准的汉字编码表有此标准的汉字编码表有94行、行、94列,其行号称为列,其行号称为区号区号,列号称为,列号称为位号位号。双字节中,用高。双字节中,用高字节表示区号,低字节表示位号。非汉字图形符号置于第字节表示区号,低字节表示位号。非汉字图形符号置于第111区,一级汉字区,一级汉字3755个且于第个且于第1655区,区,二级汉字二级汉字3008个置于第个置于第5687区。区。常见中西文编码占用字节情况常见中西文编码占用字节情况19本讲稿第十九页,共六十六页20本讲稿第二十页,共六十六页汉字的字形码汉字的字形码n汉字字形码是汉字字形码是汉字字库中
16、存汉字字库中存储的汉字字形的数字化信息储的汉字字形的数字化信息,用于显示和打印。用于显示和打印。n汉字字形信息的表示大体上有汉字字形信息的表示大体上有两类形式:一类是两类形式:一类是点阵点阵表示法,表示法,另一类是另一类是矢量矢量表示法。表示法。21本讲稿第二十一页,共六十六页n汉字字形点阵有汉字字形点阵有l616点阵、点阵、2424点阵、点阵、3232点阵、点阵、6464点阵、点阵、9696点阵、点阵、128128点阵、点阵、256256点阵等类型。点阵等类型。n一个汉字方块中行数、列数分得越多,描绘的汉字也一个汉字方块中行数、列数分得越多,描绘的汉字也就越细微,但占用的存储空间也就越多。就
17、越细微,但占用的存储空间也就越多。n汉字字形点阵中每个点的信息要用一位二进制码来汉字字形点阵中每个点的信息要用一位二进制码来表示。对于表示。对于1616点阵的字形码,需要用点阵的字形码,需要用32个字节个字节(16168=32)表示;表示;2424点阵的字形码需要用点阵的字形码需要用72个字节个字节(24248=72)表示。表示。22本讲稿第二十二页,共六十六页n汉字字库,是汉字字形数字化后,以二进制文件形式汉字字库,是汉字字形数字化后,以二进制文件形式存储在存储器中而形成的汉字字模库。存储在存储器中而形成的汉字字模库。n汉字字模库亦称汉字字形库,简称汉字字模库亦称汉字字形库,简称汉字字库汉字
18、字库。汉字字库。汉字字库可分为软汉字字库和硬汉字字库。可分为软汉字字库和硬汉字字库。23本讲稿第二十三页,共六十六页n通常,计算机中所有汉字的字形码集合起来组成汉字库通常,计算机中所有汉字的字形码集合起来组成汉字库(或称为字模库或称为字模库)存放在计算机里,当汉字输出时由专门存放在计算机里,当汉字输出时由专门的字形检索程序根据这个汉字的内码从汉字库里检索出的字形检索程序根据这个汉字的内码从汉字库里检索出对应的字形码,由字形码再控制输出设备输出汉字。对应的字形码,由字形码再控制输出设备输出汉字。n汉字点阵字形的汉字库结构简单,但是当需要对汉字进行汉字点阵字形的汉字库结构简单,但是当需要对汉字进行
19、放大、缩小、平移、倾斜、旋转、投影等变换时,汉字的放大、缩小、平移、倾斜、旋转、投影等变换时,汉字的字形效果不好。字形效果不好。n若使用若使用矢量汉字库、曲线字库的汉字,其字形用直线或矢量汉字库、曲线字库的汉字,其字形用直线或曲线表示,能产生高质量的输出字形曲线表示,能产生高质量的输出字形。24本讲稿第二十四页,共六十六页文字信息处理文字信息处理:是依照用户提供的文字稿及对成品的要求,确:是依照用户提供的文字稿及对成品的要求,确定合适的字体、字号、行距、字距、版式要求等,再利用文字定合适的字体、字号、行距、字距、版式要求等,再利用文字信息处理设备对文字稿进行版面设计和排版,最后把排好的文信息处
20、理设备对文字稿进行版面设计和排版,最后把排好的文字信息输出到纸张、屏幕等介质上。字信息输出到纸张、屏幕等介质上。所以,文字处理技术就是日常说的所以,文字处理技术就是日常说的文字处理文字处理技术。技术。文字信息处理文字信息处理25本讲稿第二十五页,共六十六页版面与版面基础知识版面与版面基础知识 版面与排版基础知识主要包括版面与排版基础知识主要包括版面构成要素、版面技术术语版面构成要素、版面技术术语及各种及各种版式处理版式处理等。这些知识是各种媒体设计中不可缺少的等。这些知识是各种媒体设计中不可缺少的重要组成部分。重要组成部分。一名合格的媒体设计人员和操作员只有掌握一名合格的媒体设计人员和操作员只
21、有掌握“排版语言排版语言”和版面设计知识,才能达到高效率和高质量。和版面设计知识,才能达到高效率和高质量。26本讲稿第二十六页,共六十六页字字 体体 分分 类类 和和 用用 法法1 1文字字体、字号及字形文字字体、字号及字形 1 1)文字的字体)文字的字体 文字的字体是一种规范了的文字文字的字体是一种规范了的文字书写形式书写形式,不同的字,不同的字体代表了不同的书写风格。体代表了不同的书写风格。因此,在出版中,选用不同的字体对出版的质量有重因此,在出版中,选用不同的字体对出版的质量有重要作用。要作用。27本讲稿第二十七页,共六十六页文字的字体分为文字的字体分为汉字字体汉字字体和和外文字体外文字
22、体。媒体常见的基本字体有媒体常见的基本字体有书宋书宋体体、仿宋体仿宋体、楷体楷体和和黑体黑体四种。四种。为了美化版面,经过一段时间的为了美化版面,经过一段时间的发展,在印刷中开始采用许多新发展,在印刷中开始采用许多新的艺术字体。如,的艺术字体。如,隶书隶书、综艺、综艺、行楷行楷、美黑美黑、魏碑魏碑等等。等等。28本讲稿第二十八页,共六十六页对于外文字体而言,在我国版面设计中最为常用的字体有四种,对于外文字体而言,在我国版面设计中最为常用的字体有四种,它们是白正体、白斜体、黑正体、黑斜体。它们是白正体、白斜体、黑正体、黑斜体。汉字字体汉字字体和和外文字体外文字体需要需要区别对待区别对待!29本讲
23、稿第二十九页,共六十六页2)文字的字号)文字的字号文文字字的的字字号号是是指指文文字字大大小小。对对文文字字大大小小采采用用以以“号号数数制制”为为主主,“点点数数制制”为为辅辅的的原原则则来来进进行行度度量量。因因此此,在在国国内内的的电电子子出出版版软软件件中中对对字字体体的的度度量量基基本本采采用用这这一一原原则则的的,这这种种度度量量的的方方法法与与原来的铅字排版统一起来了,符合了我国人员的编辑习惯。原来的铅字排版统一起来了,符合了我国人员的编辑习惯。比比如如,大大北北大大方方正正电电子子出出版版系系统统中中,特特大大号号(11号号)以以下下的的字字都都采采用用号号数数制制来来称称谓谓
24、,如如4号号字字、5号号字字,而而特特大大号号以以上上的的字字是是采采用用点点数数制来称谓,如制来称谓,如84P、72P等。等。30本讲稿第三十页,共六十六页点点是是活活字字专专用用的的计计量量单单位位,点点的的英英文文名名称称是是Point,音音译译为为磅磅,采用采用Point的第一个定母的第一个定母P来表示。来表示。1P=0.35mm国国外外电电子子出出版版软软件件中中,字字的的大大小小大大都都以以“点点”来来表表示示,如如办办公软件公软件Word等。等。31本讲稿第三十一页,共六十六页3 3)文字的字形)文字的字形 文字的字形是指文字的形文字的字形是指文字的形状,一般有:状,一般有:v方
25、形方形v长形长形v扁形扁形v粗体形粗体形v细体形细体形32本讲稿第三十二页,共六十六页4 4)媒体中字体号的选用原则)媒体中字体号的选用原则 要要合合理理运运用用文文字字设设计计版版面面,对对于于字字体体字字号号的的选选用用原原则则需需要要有有基基本本了解,常用字体的特点和选用原则:了解,常用字体的特点和选用原则:宋宋体体:宋宋体体的的特特点点是是横横平平竖竖直直,横横细细竖竖粗粗,粗粗细细适适中中,疏疏密密布布局局合合理理,使使人人看看起起来来清清晰晰爽爽目目,久久读读不不易易疲疲劳劳,所所以以一一般般正正文文都都采采用用书书宋宋体体作作为为字字体体。宋宋体体的的另另一一个个优优点点是是阅阅
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四章 文字输入处理技术精选文档 第四 文字 输入 处理 技术 精选 文档
限制150内