藏文信息处理技术的研究现状与展望.docx
《藏文信息处理技术的研究现状与展望.docx》由会员分享,可在线阅读,更多相关《藏文信息处理技术的研究现状与展望.docx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、藏文信息处理技术的研究现状与展望*1陈玉忠 俞士汶(北京大学计算语言学研究所 100871)摘要本文主要对国内开展藏文信息处理以来的相关研究工作进行了介绍和评价。在此基础上对藏文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进藏文信息处理技术的发展。通过对藏文操作系统、藏文信息技术标准、藏语信息处理、综合应用等四个方面的历史和现状的介绍和评价,使我们得出如下的初步结论:目前状况下要加速藏文信息处理的发展,应重点开展藏文信息技术标准制定、藏文操作系统研制、藏文资源建设和人才培养工作,尤其是要把藏文操作系统的研制工作作为头等大事来抓。关键词藏文信息处理操作系统标准中图分类号 TP391;
2、H2 文献标识号 A文章编号 1、引言藏文已有近 1400 的历史,作为藏文化最主要和最基本的载体,用藏文记载的经典文献、古籍著述和译作浩如烟海。在国内用藏文记载的文献数量仅次于汉文历史文献,是中华民族文化遗产宝库中一颗璀璨的明珠。藏文自创制以来,无论过去作为藏民族传承佛教文化的主要工具,还是现在作为藏区传播科技知识的主要工具,甚至将来作为信息化社会中一个民族的主要标识符,其独特的人类文化价值和仍在广大藏区所发挥的巨大作用是不可估量的。自从人类进入以计算机和网络为主体的信息时代,古老的藏文字正面临着一场“生死存亡”的考验即能否跨入信息时代。藏文字一旦不能跨入信息时代,她必将失去语言文化载体的基
3、本功能和作用,就会被这个时代无情地抛弃。纵观国内外语言文字信息处理技术的发展历史和现状,我们可以清楚地看到,古老的藏文字能否跨入信息时代的关键就是能不能解决好藏文信息处理技术问题。因此,藏文信息处理是直接关系着藏文命运的一件大事,其重要意义是不言而喻的。鉴于目前几乎看不到反映藏文信息处理技术最新进展的综述性文章,相关领域的研究进展只是散见于各专业文献中。而另外一方面,新加入到这一领域的研究人员又非常渴望对藏文信息处理技术的现状能有个比较全面的了解,以便于开展各自的研究工作。此外,国家有关部门在宏观决策时也希望能有这方面的资料作为参考。因此,在这样一个背景下,对藏文信息处理技术的发展现状做一个全
4、面的考察是非常必要和及时的。由于藏文的故乡在中国,在这方面所作的研究和取得的成果也以国内居多,同时限于资料和篇幅,文章基本没有涉及国外学者在这方面的研究工作。文章的安排大致如下:第二部分对藏文信息处理中经常用到的几个术语进行了界定。第三部分首先把藏文信息处理划分为四个方面,以此为线索分别就其发展历史和现状作了一番简要的介绍,并说明了发展现状与实际需求之间的差距。第四部分我们在寻找现阶段差距的过程中提出了藏文信息处理中应重点关注的几个问题,并结合现状和发展趋势提出了我们的一些看法。1本文主要对国内开展藏文信息处理工作以来的相关研究工作进行了介绍和评价。由于一方面受篇幅限制,另一方面占有的相关资料
5、不全,再加之个人视野有限,有的重要研究工作文中没有提及势必难免,而对提及的研究工作评价不当或与实际工作有所出入也是很有可能的。疏漏有误之处恳请专家学者指正。本文写作过程中,得到李保利同学的诸多帮助,特此致谢。2、几个关键术语的界定在进入本文正题之前,首先花点笔墨对本文中用到的几个关键术语作出界定是很有必要的。这一方面有利于我们在清晰的背景下对所谈及的问题进行描述,另一方面便于在确定的层面上对相关问题展开讨论。首当其冲的就是我们用惯了的“中文信息处理”。“中文”是中国语言文字的简称,它包括汉文和中国境内其他少数民族的语言文字 1。很显然,“中文信息处理”自然包括汉文信息处理和中国境内其他少数民族
6、语言文字的信息处理。由于汉族是我国的主体民族,汉语又是国家法定的唯一官方语言,加之中文信息处理又以汉语信息处理为中心,因此,很多研究者经常用“中文信息处理”来特指汉语信息处理。我们认为这种称谓是不妥当的,也是不可取的。首先,这样容易产生误解,很容易使不了解具体情况的国内同胞和国外友人产生在中国只存在汉语信息处理的错觉;其次,这样不利于计算语言学术语的命名和规范,且不说“中文”二字的所指非常明确(中国语言文字或中国文字),如果以“中文信息处理”替代汉语信息处理,那么,汉文信息处理和少数民族语言文字信息处理的总称又是什么呢?除了“中文信息处理”之外我们很难再找到一个比它更贴切的术语。因此,我们认为
7、这种称谓是不科学的也是不可取的。我们的定义是:中文信息处理是利用计算机对中国语言文字信息(包括书面语的和口头的)进行处理22,包括汉文信息处理和藏文、蒙文以及维文等我国少数民族语言文字的信息处理。那么,“藏文信息处理”、“藏语信息处理”和“藏字信息处理”之间又是什么关系?各自又包括哪些具体研究课题呢?相关概念本文参照文献3和4中的描述性定义来进行说明。“藏文信息处理”可划分为“藏语信息处理”和“藏字信息处理”两个层次。藏字信息处理层面包括操作系统以及编码字符集、输入技术、字形描述与生成、存储、编辑、排版、字频统计和藏字属性库等课题;藏语信息处理层面包括机器翻译、信息检索、信息提取、文本校对、文
8、本生成、文本分类、自动摘要以及藏文文字识别和语音识别的后处理等等。两者之间也有交叉,藏语信息处理要以藏字信息处理的实现为基础。要提高藏字信息处理的智能水平,又要借助藏语信息处理的成果。3、藏文信息处理的历史和现状实现计算机语言文字信息处理必须依赖稳定的文字处理平台、统一的规范标准和可靠的语言知识资源,三者相辅相成、缺一不可。二十多年来,藏文信息处理在各个方面得到了长足的发展,取得了不少成绩。本节的介绍和讨论将主要围绕藏文操作系统、藏文信息技术标准、藏语信息处理、综合应用等四个方面来展开。鉴于藏文操作系统、藏文字符编码标准和藏语信息处理在藏文信息处理中又居于核心地位,为了使论述的主题更加集中和明
9、确,对这三个方面的发展历史和研究现状作了重点介绍。31、藏文操作系统311、基于 DOS 的藏文字处理技术探索2这一定义与文献2中的定义的主要区别在于本定义包含了我国少数民族语言文字。国内藏文信息处理的研究工作是从 20 世纪 80 年代初的字处理研究起步的5。最早见诸报道的是张连生于 1981 年用计算机进行的藏文词汇排序工作6。当时由于没有藏文操作系统,他使用英文操作系统,采用于道泉先生提出的以数码代替藏文的编码方案7,使用COBOL语言实现了一个藏文排序软件。此后,张连生于 1983 年在美国伊利诺斯大学利用PLATO计算机上的一个应用软件TUTOR,采用李方桂先生提出的罗马转写方案为藏
10、文输入编码方案,并通过TUTOR软件提供的图形叠加功能完成藏文字符显示,实现了一个集输入、显示和打印功能为一体的藏文字处理系统381984 年上海教育学院物理系俞乐等人在 VICTOR9000 微机上利用 BASIC 语言实现了一个具有输入、显示和打印功能的藏文字处理系统,并用 BASIC 编写了藏文报表软件9。在此前后,甘肃省计算中心胡彦发等人和西北民族学院合作也在 WANGVS/80 机上,用扩展BASIC 语言实现了一个藏文的字处理系统 ZWCL,他们还配套编写了藏文文献联机检索系统10。航天部 710 所罗圣仪等人在微机 PC-8001 和 IBM-PC 上实现了一个藏文字处理系统11
11、。该系统利用 TLLP 字符写入程序实现,并采用了一种藏文辅音字母和元音字母用拉丁转写、上下加字采用数字代码的编码方案。上述几个系统代表了这一时期藏文操作系统的发展水平。可以看到,当时的研究工作主要围绕藏文字处理系统在应用层面的基本实现方法展开。就字处理系统而言,在实现技术上尚有许多欠缺。具体表现在以下几个方面:(1)这些藏文字处理系统都是利用 BASIC 语言、TOTOR 软件等在应用软件层面实现的,而不是在操作系统层面实现的。因此,在这些系统下无法利用英文各类应用软件和编程语言;(2)都是单一文种(藏字)处理系统,无法与英文或汉文系统兼容;(3)还没有统一的相关技术标准(包括内部交换码、字
12、符集等)可参照,因而也无法实现各系统间的相互兼容;(4)系统的藏文字符集普遍偏小或不全,基本不具备梵音藏文字符的处理能力;(5)输入编码或采用拉丁转写或使用数字替代,输入繁琐且不便于记忆。当然,这一时期的探索工作也是非常有价值的,它为后来藏文基本字符集的确定、系统平台的开发积累了经验,提前作了技术上的储备工作。更加难能可贵的是,在当时的技术条件下有些科研人员还在语言信息处理层面进行了有益的探索7910。312、基于 DOS 的藏文操作系统开发 1980 年代中期,以 CCDOS 为代表的汉字信息处理技术极大地推动了与汉英文兼容的藏文操作系统的发展。1986 年青海省药品检验所俞汝龙、青海师范大
13、学赵晨星、青海民族学院毛继祖、熊涛等人与北京有线电厂合作,在 CCDOS2.13 下开发了与汉英文兼容的藏文操作系统 TCDOS12。后来在 TCDOS 基础上,熊涛等人与西北民族学院于洪志等人合作开发了可挂接在 WPS 下的藏文轻印刷系统兰海藏文系统13。在此前后,四川大学彭寿全等人开发了一个与汉英文兼容的藏文操作系统14。南京新技术研究所于江苏、葛小冲等人也开发了一个与汉英文兼容的藏文操作系统 ZWDOS15。1992 年 10 月,西藏大学尼玛扎西等人研究开发的TCE 藏汉英文信息处理系统通过了西藏自治区的审定16。这些研究促成了国内藏文信息处理领域内具有划时代意义和产生了深远影响的两个
14、与汉英文全兼容的实用化的藏文操作系统的诞生。其中之一是北大方正藏文系统,另一个则是华光藏文系统。在罗圣仪等人的研究基础上,中国藏学研究中心和航天部 710 所于 1988 年 8 月推出了3因为此类软件不具备系统一级的藏字支持功能,指称上为了与实际操作系统有所区别,在此我们暂称为字处理系统。藏文字处理及激光编辑排版印刷系统17,该系统后来与潍坊华光合作开发出了书林藏文排版和激光照排系统(简称华光藏文系统)。中国计算机软件与技术服务总公司、民族印刷厂、北京大学计算机研究所、中国民族语文翻译中心在华光藏文系统的基础上,于 1990 年底联合推出了北大方正藏文书报版系统(简称北大方正藏文系统)。以上
15、两个系统的藏文编码虽然没有相关国家标准可依,但由于这两个系统的编码有完整的对应关系,而且在国内外有着广泛的用户群,自然成为了国内事实上的“标准”系统。此后在很长一段时期内,这两个系统一直是国内藏文信息处理研究领域的基本平台。事实上,时至今日它们仍占据着广大藏区 90%以上的书版、报版印刷市场,也是大多数藏文信息处理研究者的首选基本平台。这一时期在国家的大力支持下,在国内各主要研究单位和企业的通力协作下,基于 DOS的藏文操作系统基本上与汉文操作系统同步实现了本地化工作。313、基于 WINDOWS 的藏文字处理软件研究进入 90 年代中期以来,随着软硬件技术的飞速发展,基于图形界面的 WIND
16、OWS 操作系统逐步替代了基于字符界面的 DOS 操作系统而成为了微机操作系统的主流。因此,基于图形界面的藏文 WINDOWS 操作系统的研制和开发便成为了这一时期藏字信息处理的核心任务之一。根据实现技术难度和相应功能的不同,藏文 WINDOWS 操作系统的开发有三种可选模式:一是直接在应用层面开发;二是挂接在现有汉英文 WINDOWS 系统下实现;三是系统内核一级实现藏化。由于 WINDOWS 系统结构庞杂,没有公开的系统内核代码可参照,加之产品更新换代速度极快,一般研究单位在系统一级实现藏化基本上是不可能的。因此,实际上可选的开发模式只有前两种。北大方正 1997 年推出了基于WIN31
17、的藏文维思彩色印刷系统,但藏文的输入、编辑过程仍需切换到DOS环境下进行;西北民族学院信息所于洪志、戴玉刚等人于 2000 年实现了一个基于WINDOWS的藏文字处理软件4,即同元藏文字处理软件18,其主要实现技术是通过WORD API的动态链接库WLL嵌入藏文输入法,并在WINDOWS下挂接一个TRUETYPE字库实现。在此前后,青海师范大学也采用类似的技术开发了一个基于WINDOWS的藏文字处理软件班智达藏文字处理软件19,并在汉藏机器翻译系统和藏药信息系统中有所应用20。2001 年西藏大学尼玛扎西、洛藏等人和四川火狐信息技术有限公司合作实现了一个基于WINDOWS的藏文字处理软件“火狐
18、”藏文字处理软件21。综上所述,目前实现的几个藏文字处理软件或在应用层面开发或部分在现有汉英文WINDOWS 下挂接实现。从这些系统所具备的功能来看,只具备一般的藏字处理功能,因此,我们最多只能称其为基于 WINDOWS 的藏文字处理软件,而不是真正意义上的藏文WINDOWS 操作系统。具体说来这些软件主要有以下缺憾:(1)所有系统设计时都没有采用国际标准编码。其中有的字库占用 00-FF 区 ASCII 码的码位,有的占用 GB-2312 的 10-15 区或 88-94 区的空余码位,有的字库干脆占用汉字GB-2312 的 15 区至 81 区的某段码位。(2)由于现有系统都没有采用国际标
19、准编码,就无法支持 INTERNET 藏文信息交换,更不能考虑到与汉英文在系统底层实现兼容处理和对其他应用软件的支持。4从这些系统所具备的功能来看,仍然不具备系统一级的藏文支持能力,即不具备真正的藏文WINDOWS操作系统的功能。为了与DOS下的“字处理系统”等有所区分,本文暂称为藏文字处理软件。(3)更有甚者只是针对某个WINDOWS应用软件实现藏文字处理功能,如SAMBHOTA5就是典型的仅在WORD上实现的一个藏文字处理软件。这类软件一旦脱离WORD字处理环境后就无法实现藏文字处理。(4)从技术实现角度来看,这些系统主要是在应用层面利用 WINDOWS 的 API 或WORD API 函
20、数挂接实现,因此,真正的系统一级的藏文 WINDOWS 操作系统的开发还任重而道远。重新审视这段藏文操作系统研发的历史,至少可以给我们今后开展藏文信息处理研究工作提供三点有益的启示:一是要培养一批懂藏语的专业软件开发队伍,这是藏文信息处理事业发展的根本;二是要有国家高强度的支持,这是藏文信息处理事业能够持续发展的保证;三是操作系统这样大型的系统软件开发必须要在政府强有力的支持下,要有大的企业参与开发才有可能形成实用的产品。这一点从汉字信息处理发展的历史来看是如此,从华光藏文系统和北大方正藏文系统的成功也证明了这一点。32、藏文信息技术标准化研究标准化是推动当今信息化社会进步的基础。信息技术标准
21、化是应用信息技术的前提,也是信息系统有效运行的保证22。没有相关标准作为技术先导和基础保证,藏文信息交换和信息处理技术也就无从谈起,藏文要成为信息化社会一员的愿望也很难实现。特别是INTERNET 得到迅猛发展和广泛普及的今天,藏文信息技术的标准化和国际化是藏文信息处理技术必须解决的首要问题。信息技术标准很多,据统计到 1997 年为止,国际标准化组织(ISO)已发布正式国际标准 900 多项,还有 300 多项标准正在制定当中。我国也已批准和发布信息技术国家标准450 余项23。已发布的这些标准中,有许多标准可在藏文信息处理中共用,但有些关键标准必须根据藏文的特点和要求另行制定。藏文信息技术
22、标准化的问题首先由国际标准化组织(ISO)于 1992 年提出,其核心任务是藏文编码体系的标准化问题。主要包括藏文编码字符集标准(交换码),包括基本集和构建集,藏文字符键盘布局标准(输入码)和藏文字形标准(字形码)等。经过 5 年的艰苦努力,在国家民委和国家技术监督局以及电子部的直接支持和指导下,由西藏自治区藏语文工作委员会办公室牵头,西藏大学、西藏技术监督局、西北民族学院、青海师范大学等单位于 1997 年共同完成了 GB16959-1997信息技术交换用藏文编码字符集基本集、GB/T16960.1-1997信息技术交换用藏文编码字符集(基本集)24*48 点阵字形第一部分:白体和 GB16
23、959-1997 藏文字符键盘布局等三项国家标准的研制任务。同年 7月由我国提交的藏文编码字符集国际标准在第 33 届 WG2 会议及 SC2 会议上经过国际标准化组织的多道严格程序和数轮投票正式获得通过,使藏文成为我国少数民族文字中第一个正式进入 ISO/IEC10646 标准编码体系结构的文字。藏文编码字符集标准是实现人-机、机-机、系统间信息交换的基础。在 ISO/IEC10646的基本平面中分配给藏文的有 192 编码空间,最后确定的编码字符为 169 个(小字符集)。包括藏文字母 30 个、梵音藏文字母 11 个、藏文组合用字符 58 个、藏文数字符 20 个、其他图形字符 49 个
24、、控制字符 1 个。除此之外,针对藏文近 6000 字(大字符集)的国家标准藏文编码字符集辅助集的研制工作也正在进行中。藏文字形标准只完成了 GB/T16960.1-1997信息技术交换用藏文编码字符集(基本5系国外开发,目前国内比较流行的一套藏文字处理软件。集)24*48 点阵字形第一部分:白体部分,其他字体标准也正在制定当中。藏文字符键盘布局标准将 GB16959-1997 中规定的 169 个藏文字符,一一分配到各个键位上。据称该标准键盘的编号系统、键数、键的排列分布和分组分级都采用了最新的国际标准。可以毫不夸张地说,藏文编码体系国家标准和藏文编码字符集国际标准的通过,标志着藏文开始步入
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 藏文 信息处理 技术 研究 现状 展望
限制150内