《第五章中文信息处理.ppt》由会员分享,可在线阅读,更多相关《第五章中文信息处理.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章第五章 中文信息处理中文信息处理汉字信息处理与汉字输入法汉字信息处理汉字信息处理自20世纪60年代以来,日本、中国及其他一些国家相继开展了汉字信息处理的研究。1974年,我国将汉字信息处理研究课题“748工程”列为国家重点工程,研制汉字精密照排系统和汉字情报检索系统。20世纪70年代末到80年代初,我国在汉字基本属性、编码和存储、输入与输出设备和汉字应用系统等方面的研究取得了迅速的进展。尤其是激光精密照排系统已达到世界领先水平,微型机汉字信息处理技术进入了实用阶段,使我国计算机应用的深度和广度都向前迈进了一大步。汉字信息处理的基本问题汉字信息处理的基本问题文字信息的计算机处理过程 要用计
2、算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。首先要解决用0、1代码串表示文字符号的问题,也就是前面提到的编码问题。以英文信息的计算机处理为例,英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。汉字信息处理的基本问题汉字信息处理的基本问题计算机的键盘原本就是为英文
3、输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。为了对输入的文字进行编辑加工,必须使用相关的应用软件,如Word 2000、WPS 2000,或其他文字处理软件。经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。汉字信息处理的基本问题汉字信息处理的基本问题文字、符号的点阵信息由显示器或打印机输出时,必须通过相应的驱动程序,将点阵信息转换为显
4、示器、打印机的电子或机械的操作。文字信息的计算机处理过程如图4.1所示。文字信息的计算机处理过程文字信息的计算机处理过程汉字信息处理的基本问题汉字信息处理的基本问题汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。汉字信息处理的基本问题汉字信息处理的基本问题为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。1981年5月,我国国家标准总局颁布信息交换用汉字编码字符集(GB 2312-80),作为汉字
5、交换码编码的国家标准,简称国家标准汉字编码,或国标码。收进该标准的字符共有7 445个。其中一级汉字3 755个,二级汉字3 008个,共计6 763个。一、二级汉字约占近代文献汉字累计使用频度的99.99%。为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。汉字编码标准累计使用频度不足0.001%的汉字数量接近1万个。为了满足计算机实际应用的需要,我国在GB 2312-80的基础上扩大收字的范围,制定了“汉字内码规范”GBK,包含了20
6、902个汉字,又称为扩展的国标码。在Windows 95/98和其后的Windows 2000中,装入了GBK的全部汉字和符合GBK和GB 2312-80的输入法。由于汉字的字符多,一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的ASCII 码混淆,在微型机汉字系统中,国标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机内码或其他汉字处理代码的依据。汉字编码标准汉字国标码就是GB 2312-80为汉字规定的代码,也称为交换码。国标码是汉字编码的国家标准。在GB 2312-80代码表中,纵向分为093,共94行;横向也是093,共94列。行与列分别用七位二进制码表示,
7、第一字节表示行,第二字节表示列。其值都从0100001到1111110。这正是ASCII 码的可打印字符的编码。其范围为十六进制的217E。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长,通常用十六进制表示。例如:汉字第一字节第二字节十六进制 区位码 啊 0110000 0100001 3021 1601 保 0110001 0100011 3123 1703 播 0110010 0100101 3225 1805国标码国标码还可以表示成区位码的形式。在GB2312-80代码表中,将行号称为区号,列号称为位号,分别有94个区和94个位。将汉字置于其中,由区号与位号标识出汉字在
8、代码表中的位置。区号与位号都用两位十进制数表示,不足两位的前面补零。每个汉字或符号的区号和位号连起来就组成这个汉字或符号的区位码。这样,每个汉字或其他符号都可以用位十进制数表示。因此,区位码可以用来作为汉字输入的编码。区位码区位码区位码在区位码表中,19区为字母、数字、特殊图形符号等;1015区是未定义的空区;1655区为一级汉字区;5687区为二级汉字区。例如,“啊”字的区位码是1601,“保”字的区位码是1703,“播”字的区位码是1805,等等。区位码与国标码之间有一定的对应关系:将区位码的区号和位号分别由十进制转换成对应的十六进制数,然后加上十六进制数2020H(H表示2020为十六进
9、制数码),就得到对应的国标码。例如,“啊”字的区位码是1601,分别将区号和位号转换成对应的十六进制数得1001H,再加上2020H就得到“啊”字的国标码为3021H。汉字机内码是在计算机内部实际用来表示汉字的代码。不同的计算机系统使用的机内码是不同的。在微型机中,多采用两字节代码作为机内码。在大、中型机中,多采用三字节或四字节代码作机内码。制订机内码必须考虑下列因素:汉字与西文易于区别;中、西文兼容;码长短,每个汉字所占字节数少;与国标码有较简单的对应关系,便于信息转换。机内码机内码目前,多数微机汉字系统的机内码是以国标GB 2312-80规定的双七位代码为依据,经一定转换后用两个字节表示一
10、个汉字。每个字节的最高位均为,以此作为汉字的标记,以便于与ASCII码编码的符号相区别。由国标码转换为机内码的规则是:将十六进制的国标码加上8080H,就得到对应的机内码。如“大”字的区位码为2083,国标码为3473H,机内码为3473H+8080H=B4F3H。将B4F3H 化为二进制数得:1011010011110011,这就是在计算机中实际使用的机内码的二进制形式。8080H等于二进制的1000000010000000,国标码加上8080H,可以保证机内码每个字节首位均为。机内码机内码汉字输入是指将汉字转换成对应的机内码,并送入计算机存储起来。由语音转换成文字输入计算机的技术目前还不成
11、熟。通过光学字符阅读器(OCR-Optical Character Reader)可以将印刷体汉字作为图形点阵输入,然后进行字符识别,把汉字点阵转换成对应的机内码。这种方法已经达到实用阶段。因此,常用的汉字输入方法是键盘输入。根据键入技术来分类,汉字的输入大致可分为整字、字素和编码三大类。大键盘整字输入采用一字一键的输入方法。这种方法需要特制的大键盘。在普通汉字系统上几乎不用,只是在专业系统(如电子照排)等某些特定的场合使用。汉字输入方法字素键入直接利用ASCII码标准键盘,把字素刻在键帽上,将汉字分解后按一般的笔顺键入。编码输入是用得最普遍的一种方法。它用ASCII码标准键盘输入汉字。由于汉
12、字字数多,键盘的键数目少,因此要用几个键的组合来表示一个汉字。这种组合称为汉字输入编码。目前国内、外提出的汉字输入编码方案不小于500种。不同的编码方案对应于不同的输入方法,这些方案各有千秋。编码长度、规则的复杂程度、重码率等因素决定了不同编码方案的优劣。实际上流行的汉字编码输入方案只有十几种。如拼音码、自然码、表形码、郑码、五笔字型码、国标区位码、首尾码、仓颉码以及电报码等。汉字输入方法以汉字字型特征来编码的方案俗称“形码”。形码编码规则往往较复杂,与阅读文稿时大脑的思维习惯(读出声音)不甚符合,要求用户熟悉汉字笔划、偏旁部首,且要经过较长时间的训练才能熟练使用。形码比较适合于以“看打”(边
13、看文稿边输入)为主的专业录入人员。以语音特征来编码的方案俗称“音码”。音码适合于“想打”(边构思边输入)和“听打”(口授输入),但要求汉语发音标准。音形混合的编码方法虽然较全面地利用了汉字提供的信息,但用户使用时,一时要想到汉字的读音,一时又要辨认汉字的字型,不但易疲劳,速度也难以提高。汉字输入方法汉字输入方法在汉字编码输入研制初期,以单个汉字的编码输入为主。重码少、单字输入速度快的方法,如五笔字型、区位码、电报码等,其学习负担往往较重。而较简单易学的输入方法如拼音码,往往重码较多,输入速度较慢。但是,自从汉字输入方法由单个汉字的输入发展到以词和词组为单位的输入后,重码大为减少,输入速度和实用
14、程度大为提高,各种输入方法之间速度的差别也在缩小。汉字输入方法汉字输入方法值得一提的是音码中的拼音输入法有了较大的发展,实现了以词为单位甚至以句子为单位的输入,实现了高频词先见、在线造词和词组等功能,使拼音输入法做到得心应手、运用自如。由于拼音输入法符合汉语拼音规范,学习负担轻,适合于普通用户。对于个人机用户而言,工作时多数是边想边打,对速度要求只要高于手写输入即可,选择输入法时应把适合“想打”、学习负担轻放在首位。从这个角度看应以学习拼音输入法为好。拼音输入与原有的知识基础相衔接,适应我国文字改革的方向,对于拼音基础较好的年青一代而言,尤其应大力提倡。汉字输入方法汉字输入方法不论哪一种输入方
15、案,在具体实现时都要有软件的支持。输入法软件将键盘输入的编码转换为国标码,再转换为机内码,就可在计算机内存储、处理。目前汉字的编码输入研究还在继续之中。不过研究的重点已经从编码方案本身转向软件技术和设计,试图通过更好的软件技术和设计来做到重码少、适应面广、学习负担轻。在汉字编码输入方面,我国已经走在世界的前列。汉字输入方法汉字输入方法汉字输出的方式有两种:显示和打印。不论哪一种输出方式,都是把一个汉字看成一个二维图形,并把笔划离散化,用点阵来表示汉字。点阵的每个点位只有两种状态:有笔画上的点或无笔划上的点。这就可以用一位二进制代码来表示。该位取值为1表示“有点”,取值为0表示“无点”。那么,一
16、个二进制代码串就可以表示点阵的一行。若干个代码串就表示整个汉字的点阵信息。在具体实现时,点阵上取值为1就显示或打印一个“点”,否则不显示或打印。如汉字“梅”就可用图所示的点阵图来表示。汉字字模库汉字字模库图图 4.3 汉字的点阵表示汉字的点阵表示 汉字字模库汉字字模库描述一个汉字点阵信息的二进制代码串称为汉字的“字模”,其作用跟铅字印刷所用的字模相当。所有汉字和各种符号的点阵信息就组成汉字的“字模库”(简称字库)。显然,要实现近8 000个常用汉字和符号的显示和打印,字库要占很庞大的存储空间。例如1616点阵的汉字库(包括一级和二级汉字)就需要约240KB 的存储空间。2424 点阵的汉字库需
17、 580KB,精密字库所需的存储空间更大。常用的几种汉字点阵类型的参数见下表字库可以存放在磁盘(软盘或硬盘)上,称为软字库。它不需要对硬件进行改动。每次开机时,将字库从磁盘调入计算机的内存中,供显示用。这样做查找速度快,但要占用机器的内存空间。由于微型机的内存容量已经大到128M以上,装入软字库不成问题,因此软字库得到普遍使用。另一种方法是把字库装在可擦除只读存储器(EPROM)或只读存储器(Mask-ROM)里,这就是所谓硬字库,俗称“汉卡”。把汉卡插到微机扩充槽内,作为机器的一个扩充ROM存储区使用。这种方法已经很少使用。汉字字模库汉字显示输出从键盘输入的汉字经过键盘管理模块,变换成机内码
18、。然后经字模检索程序,查到机内码对应的点阵信息在字模库的地址,从字库中检索出该汉字点阵信息。利用显示驱动程序将这些信息送到显示卡的显示缓冲存储器中。显示器的控制器把点阵信息整屏顺次读出,并使每一个二进制位与屏幕的一个点位相对应,就可以将汉字字形在屏幕上显示出来。如果显示彩色,则还要附加色彩信息。以上工作过程可用下图表示。汉字打印输出汉字打印输出PC机利用原有的打印机接口,配接具有图形打印功能的打印机,配上相应的汉字打印软件(驱动程序),就可以实现汉字打印输出。无论是针式打印机、喷墨打印机或激光打印机,都是将汉字分解为点阵,在输出时将汉字字模点阵作一定转换后用不同的方法打印到纸上。汉字打印的工作
19、原理:先将欲打印的汉字机内码送到内存的打印缓冲区。然后从中逐个取出机内码,通过字模检索程序从字模库中检索出该汉字的点阵信息,存入内存的字模缓冲区中。通过字模变换程序转换点阵信息,使之适合打印机输出。然后由接口卡送到打印机的打印数据缓冲区。等一行汉字的打印信息全部到齐(激光打印机则等待一页打印信息到齐),打印头就开始打印。打印数据不断送往打印数据缓冲区,直到全部数据送完为止。微机汉字信息处理系统的构成和使用微机汉字信息处理系统的构成和使用微机汉字信息处理系统必须具有汉字输入、汉字信息加工处理、汉字输出三个方面的部件。同时,还要有一个汉字字模库。考虑到中、西文处理的兼容性和技术上实现的易行性,现有
20、微机汉字信息处理系统构成的一个指导思想是:尽量利用原有西文计算机的硬件,通过改造系统软件,做到在原有处理西文的基础上,增加处理中文的功能,而不降低原系统的效率。汉字信息处理系统的硬件包括微机的主机和常用的外部设备,如磁盘驱动器、标准键盘、图形显示器、打印机等。以上设备原有的西文计算机都已具备。汉字库则有软字库和硬字库两种。软字库可以存放在软盘或硬盘上,使用时调入内存。有些打印机也自带硬字库。汉字信息处理系统的硬件汉字信息处理系统的硬件微机汉字信息处理系统的软件同样包括系统软件和应用软件两类。系统软件包括Windows中文版、能处理汉字的高级程序设计语言及其编译器(语言处理程序)等。其中支持Wi
21、ndows的高级语言如Visual Basic(VB)、Visual C(VC),以及近年针对网络应用的开发工具如Power Builder、Java等很流行。从Windows 95/98(中文版)起,Windows 操作系统已经具备汉字处理功能,一般的西文软件不必作专门的处理就可以在其上运行,做到了中西文兼容。汉字信息处理系统的软件最基本的汉字信息处理应用软件是文本编辑软件。功能最强的自然是电子出版系统,能适应专业出版的需要。如北大方正出版系统。办公使用的是桌面排版系统,其输出精度比专业排版系统差一些,但是其功能也相当强大,可满足一般排版需求。如Word、WPS 等。其他应用软件主要有能处理汉字的数据库管理系统,如Visual FoxPro和Access等。特定应用领域的应用软件则门类繁多。如财会软件、人事档案管理软件、工资管理软件、民航或铁路售票系统、计算机辅助设计专家系统、计算机辅助教学系统、决策支持系统等。可以说,汉字信息处理系统的软件已相当成熟。汉字信息处理系统的软件Windows Windows 操作系统汉字输入法的使用操作系统汉字输入法的使用Windows操作系统提供了多种汉字输入法。其中全拼、智能ABC、微软拼音、双拼、表形码、郑码等都是较常用的输入法。其他扩充的汉字输入法,如五笔字型,需要另行安装后方可使用。本本 章章 结结 束束
限制150内