藏文信息处理技术的研究现状及展望14811.docx
《藏文信息处理技术的研究现状及展望14811.docx》由会员分享,可在线阅读,更多相关《藏文信息处理技术的研究现状及展望14811.docx(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、藏文信息处理技术的研究现状与展望*1陈玉忠 俞士汶(北京大学计算算语言学研究究所 1000871)摘要本文主主要对国内开开展藏文信息息处理以来的的相关研究工工作进行了介介绍和评价。在在此基础上对对藏文信息处处理的进一步步发展进行了了展望。目的的是为了探讨讨如何加速推推进藏文信息息处理技术的的发展。通过过对藏文操作作系统、藏文文信息技术标标准、藏语信信息处理、综综合应用等四四个方面的历历史和现状的的介绍和评价价,使我们得得出如下的初初步结论:目目前状况下要要加速藏文信信息处理的发发展,应重点点开展藏文信信息技术标准准制定、藏文文操作系统研研制、藏文资资源建设和人人才培养工作作,尤其是要要把藏文操
2、作作系统的研制制工作作为头头等大事来抓抓。关键词藏文文信息处理理操作系统统标准中图分类号 TP3991;H2 文献标识号 A文章编号 1、引言藏文已有近 11400 的的历史,作为为藏文化最主主要和最基本本的载体,用用藏文记载的的经典文献、古古籍著述和译译作浩如烟海海。在国内用用藏文记载的的文献数量仅仅次于汉文历历史文献,是是中华民族文文化遗产宝库库中一颗璀璨璨的明珠。藏藏文自创制以以来,无论过过去作为藏民民族传承佛教教文化的主要要工具,还是是现在作为藏藏区传播科技技知识的主要要工具,甚至至将来作为信信息化社会中中一个民族的的主要标识符符,其独特的的人类文化价价值和仍在广广大藏区所发发挥的巨大
3、作作用是不可估估量的。自从从人类进入以以计算机和网网络为主体的的信息时代,古古老的藏文字字正面临着一一场“生死存存亡”的考验验即能否否跨入信息时时代。藏文字字一旦不能跨跨入信息时代代,她必将失失去语言文化化载体的基本本功能和作用用,就会被这这个时代无情情地抛弃。纵纵观国内外语语言文字信息息处理技术的的发展历史和和现状,我们们可以清楚地地看到,古老老的藏文字能能否跨入信息息时代的关键键就是能不能能解决好藏文文信息处理技技术问题。因因此,藏文信信息处理是直直接关系着藏藏文命运的一一件大事,其其重要意义是是不言而喻的的。鉴于目前几乎看看不到反映藏藏文信息处理理技术最新进进展的综述性性文章,相关关领域
4、的研究究进展只是散散见于各专业业文献中。而而另外一方面面,新加入到到这一领域的的研究人员又又非常渴望对对藏文信息处处理技术的现现状能有个比比较全面的了了解,以便于于开展各自的的研究工作。此此外,国家有有关部门在宏宏观决策时也也希望能有这这方面的资料料作为参考。因因此,在这样样一个背景下下,对藏文信信息处理技术术的发展现状状做一个全面面的考察是非非常必要和及及时的。由于于藏文的故乡乡在中国,在在这方面所作作的研究和取取得的成果也也以国内居多多,同时限于于资料和篇幅幅,文章基本本没有涉及国国外学者在这这方面的研究究工作。文章的安排大致致如下:第二二部分对藏文文信息处理中中经常用到的的几个术语进进行
5、了界定。第第三部分首先先把藏文信息息处理划分为为四个方面,以以此为线索分分别就其发展展历史和现状状作了一番简简要的介绍,并并说明了发展展现状与实际际需求之间的的差距。第四四部分我们在在寻找现阶段段差距的过程程中提出了藏藏文信息处理理中应重点关关注的几个问问题,并结合合现状和发展展趋势提出了了我们的一些些看法。1本文主要对国内内开展藏文信信息处理工作作以来的相关关研究工作进进行了介绍和和评价。由于于一方面受篇篇幅限制,另另一方面占有有的相关资料料不全,再加加之个人视野野有限,有的的重要研究工工作文中没有有提及势必难难免,而对提提及的研究工工作评价不当当或与实际工工作有所出入入也是很有可可能的。疏
6、漏漏有误之处恳恳请专家学者者指正。本文文写作过程中中,得到李保保利同学的诸诸多帮助,特特此致谢。2、几个关键术术语的界定在进入本文正题题之前,首先先花点笔墨对对本文中用到到的几个关键键术语作出界界定是很有必必要的。这一一方面有利于于我们在清晰晰的背景下对对所谈及的问问题进行描述述,另一方面面便于在确定定的层面上对对相关问题展展开讨论。首当其冲的就是是我们用惯了了的“中文信信息处理”。“中中文”是中国国语言文字的的简称,它包包括汉文和中中国境内其他他少数民族的的语言文字 1。很很显然,“中中文信息处理理”自然包括括汉文信息处处理和中国境境内其他少数数民族语言文文字的信息处处理。由于汉汉族是我国的
7、的主体民族,汉汉语又是国家家法定的唯一一官方语言,加加之中文信息息处理又以汉汉语信息处理理为中心,因因此,很多研研究者经常用用“中文信息息处理”来特特指汉语信息息处理。我们们认为这种称称谓是不妥当当的,也是不不可取的。首首先,这样容容易产生误解解,很容易使使不了解具体体情况的国内内同胞和国外外友人产生在在中国只存在在汉语信息处处理的错觉;其次,这样样不利于计算算语言学术语语的命名和规规范,且不说说“中文”二二字的所指非非常明确(中中国语言文字字或中国文字字),如果以以“中文信息息处理”替代代汉语信息处处理,那么,汉汉文信息处理理和少数民族族语言文字信信息处理的总总称又是什么么呢?除了“中中文信
8、息处理理”之外我们们很难再找到到一个比它更更贴切的术语语。因此,我我们认为这种种称谓是不科科学的也是不不可取的。我我们的定义是是:中文信息息处理是利用用计算机对中中国语言文字字信息(包括括书面语的和和口头的)进进行处理22,包括括汉文信息处处理和藏文、蒙蒙文以及维文文等我国少数数民族语言文文字的信息处处理。那么,“藏文信信息处理”、“藏藏语信息处理理”和“藏字字信息处理”之之间又是什么么关系?各自自又包括哪些些具体研究课课题呢?相关关概念本文参参照文献33和4中的描述性性定义来进行行说明。“藏藏文信息处理理”可划分为为“藏语信息息处理”和“藏藏字信息处理理”两个层次次。藏字信息息处理层面包包括
9、操作系统统以及编码字字符集、输入入技术、字形形描述与生成成、存储、编编辑、排版、字字频统计和藏藏字属性库等等课题;藏语语信息处理层层面包括机器器翻译、信息息检索、信息息提取、文本本校对、文本本生成、文本本分类、自动动摘要以及藏藏文文字识别别和语音识别别的后处理等等等。两者之之间也有交叉叉,藏语信息息处理要以藏藏字信息处理理的实现为基基础。要提高高藏字信息处处理的智能水水平,又要借借助藏语信息息处理的成果果。3、藏文信息处处理的历史和和现状实现计算机语言言文字信息处处理必须依赖赖稳定的文字字处理平台、统统一的规范标标准和可靠的的语言知识资资源,三者相相辅相成、缺缺一不可。二二十多年来,藏藏文信息
10、处理理在各个方面面得到了长足足的发展,取取得了不少成成绩。本节的的介绍和讨论论将主要围绕绕藏文操作系系统、藏文信信息技术标准准、藏语信息息处理、综合合应用等四个个方面来展开开。鉴于藏文文操作系统、藏藏文字符编码码标准和藏语语信息处理在在藏文信息处处理中又居于于核心地位,为为了使论述的的主题更加集集中和明确,对对这三个方面面的发展历史史和研究现状状作了重点介介绍。31、藏文操操作系统311、基基于 DOSS 的藏文字字处理技术探探索2这一定义与文献献2中的的定义的主要要区别在于本本定义包含了了我国少数民民族语言文字字。国内藏文文信息处理的的研究工作是是从 20 世纪 800 年代初的的字处理研究
11、究起步的55。最早见见诸报道的是是张连生于 1981 年用计算机机进行的藏文文词汇排序工工作6。当当时由于没有有藏文操作系系统,他使用用英文操作系系统,采用于于道泉先生提提出的以数码码代替藏文的的编码方案7,使用用COBOLL语言实现了了一个藏文排排序软件。此此后,张连生生于 19883 年在美美国伊利诺斯斯大学利用PPLATO计计算机上的一一个应用软件件TUTORR,采用李方方桂先生提出出的罗马转写写方案为藏文文输入编码方方案,并通过过TUTORR软件提供的的图形叠加功功能完成藏文文字符显示,实实现了一个集集输入、显示示和打印功能能为一体的藏藏文字处理系系统381984 年上海教育育学院物理
12、系系俞乐等人在在 VICTTOR90000 微机上上利用 BAASIC 语语言实现了一一个具有输入入、显示和打打印功能的藏藏文字处理系系统,并用 BASICC 编写了藏藏文报表软件件9。在在此前后,甘甘肃省计算中中心胡彦发等等人和西北民民族学院合作作也在 WAANGVS/80 机上上,用扩展BBASIC 语言实现了了一个藏文的的字处理系统统 ZWCLL,他们还配配套编写了藏藏文文献联机机检索系统10。航航天部 7110 所罗圣圣仪等人在微微机 PC-8001 和 IBMM-PC 上上实现了一个个藏文字处理理系统111。该系统统利用 TLLLP 字符符写入程序实实现,并采用用了一种藏文文辅音字母
13、和和元音字母用用拉丁转写、上上下加字采用用数字代码的的编码方案。上述几个系统代代表了这一时时期藏文操作作系统的发展展水平。可以以看到,当时时的研究工作作主要围绕藏藏文字处理系系统在应用层层面的基本实实现方法展开开。就字处理理系统而言,在在实现技术上上尚有许多欠欠缺。具体表表现在以下几几个方面:(1)这些藏文文字处理系统统都是利用 BASICC 语言、TTOTOR 软件等在应应用软件层面面实现的,而而不是在操作作系统层面实实现的。因此此,在这些系系统下无法利利用英文各类类应用软件和和编程语言;(2)都是单一一文种(藏字字)处理系统统,无法与英英文或汉文系系统兼容;(3)还没有统统一的相关技技术标
14、准(包包括内部交换换码、字符集集等)可参照照,因而也无无法实现各系系统间的相互互兼容;(4)系统的藏藏文字符集普普遍偏小或不不全,基本不不具备梵音藏藏文字符的处处理能力;(5)输入编码码或采用拉丁丁转写或使用用数字替代,输输入繁琐且不不便于记忆。当然,这一时期期的探索工作作也是非常有有价值的,它它为后来藏文文基本字符集集的确定、系系统平台的开开发积累了经经验,提前作作了技术上的的储备工作。更更加难能可贵贵的是,在当当时的技术条条件下有些科科研人员还在在语言信息处处理层面进行行了有益的探探索79100。312、基基于 DOSS 的藏文操操作系统开发发 1980 年代代中期,以 CCDOSS 为代
15、表的的汉字信息处处理技术极大大地推动了与与汉英文兼容容的藏文操作作系统的发展展。19866 年青海省省药品检验所所俞汝龙、青青海师范大学学赵晨星、青青海民族学院毛继祖、熊熊涛等人与北北京有线电厂厂合作,在 CCDOSS2.13 下开发了与与汉英文兼容容的藏文操作作系统 TCCDOS112。后来来在 TCDDOS 基础础上,熊涛等等人与西北民民族学院于洪洪志等人合作作开发了可挂接在 WPS 下下的藏文轻印印刷系统兰兰海藏文系统统13。在在此前后,四四川大学彭寿寿全等人开发发了一个与汉汉英文兼容的的藏文操作系系统14。南京新技技术研究所于于江苏、葛小小冲等人也开开发了一个与与汉英文兼容容的藏文操作
16、作系统 ZWWDOS115。19992 年 10 月,西西藏大学尼玛玛扎西等人研研究开发的TTCE 藏汉汉英文信息处处理系统通通过了西藏自自治区的审定定16。这这些研究促成成了国内藏文文信息处理领领域内具有划划时代意义和和产生了深远远影响的两个个与汉英文全全兼容的实用用化的藏文操操作系统的诞诞生。其中之之一是北大方方正藏文系统统,另一个则则是华光藏文文系统。在罗罗圣仪等人的的研究基础上上,中国藏学学研究中心和和航天部 7710 所于于 19888 年 8 月推出了33因为此类软软件不具备系系统一级的藏藏字支持功能能,指称上为为了与实际操操作系统有所所区别,在此此我们暂称为为字处理系统统。藏文字
17、处理及激激光编辑排版版印刷系统17,该该系统后来与与潍坊华光合合作开发出了了书林藏文排排版和激光照照排系统(简简称华光藏文文系统)。中中国计算机软软件与技术服服务总公司、民民族印刷厂、北北京大学计算算机研究所、中中国民族语文文翻译中心在在华光藏文系系统的基础上上,于 19990 年底底联合推出了了北大方正藏藏文书报版系系统(简称北北大方正藏文文系统)。以以上两个系统统的藏文编码码虽然没有相相关国家标准准可依,但由由于这两个系系统的编码有有完整的对应应关系,而且且在国内外有有着广泛的用用户群,自然然成为了国内内事实上的“标标准”系统。此此后在很长一一段时期内,这这两个系统一一直是国内藏藏文信息处
18、理理研究领域的的基本平台。事事实上,时至至今日它们仍仍占据着广大大藏区 900%以上的书书版、报版印印刷市场,也也是大多数藏藏文信息处理理研究者的首首选基本平台台。这一时期在国家家的大力支持持下,在国内内各主要研究究单位和企业业的通力协作作下,基于 DOS的藏藏文操作系统统基本上与汉汉文操作系统统同步实现了了本地化工作作。313、基基于 WINNDOWS 的藏文字处处理软件研究究进入 90 年年代中期以来来,随着软硬硬件技术的飞飞速发展,基基于图形界面面的 WINNDOWS 操作系统逐逐步替代了基基于字符界面面的 DOSS 操作系统统而成为了微微机操作系统统的主流。因因此,基于图图形界面的藏藏
19、文 WINNDOWS 操作系统的的研制和开发发便成为了这这一时期藏字字信息处理的的核心任务之之一。根据实实现技术难度度和相应功能能的不同,藏藏文 WINNDOWS 操作系统的的开发有三种种可选模式:一是直接在在应用层面开开发;二是挂挂接在现有汉汉英文 WIINDOWSS 系统下实实现;三是系系统内核一级级实现藏化。由由于 WINNDOWS 系统结构庞庞杂,没有公公开的系统内内核代码可参参照,加之产产品更新换代代速度极快,一一般研究单位位在系统一级级实现藏化基基本上是不可可能的。因此此,实际上可可选的开发模模式只有前两两种。北大方方正 19997 年推出出了基于WIIN31 的的藏文维思彩彩色印
20、刷系统统,但藏文的的输入、编辑辑过程仍需切切换到DOSS环境下进行行;西北民族族学院信息所所于洪志、戴戴玉刚等人于于 20000 年实现了了一个基于WWINDOWWS的藏文字字处理软件44,即同元藏藏文字处理软软件18,其主要实实现技术是通通过WORDD API的的动态链接库库WLL嵌入入藏文输入法法,并在WIINDOWSS下挂接一个个TRUETTYPE字库库实现。在此此前后,青海海师范大学也也采用类似的的技术开发了了一个基于WWINDOWWS的藏文字字处理软件班智达藏文文字处理软件件19,并并在汉藏机器器翻译系统和和藏药信息系系统中有所应应用20。20011 年西藏大大学尼玛扎西西、洛藏等人
21、人和四川火狐狐信息技术有有限公司合作作实现了一个个基于WINNDOWS的的藏文字处理理软件“火火狐”藏文字字处理软件21。综综上所述,目目前实现的几几个藏文字处处理软件或在在应用层面开开发或部分在在现有汉英文文WINDOOWS 下挂挂接实现。从从这些系统所所具备的功能能来看,只具具备一般的藏藏字处理功能能,因此,我们最多只只能称其为基基于 WINNDOWS 的藏文字处处理软件,而而不是真正意意义上的藏文文WINDOOWS 操作作系统。具体体说来这些软软件主要有以以下缺憾:(1)所有系统统设计时都没没有采用国际际标准编码。其其中有的字库库占用 000-FF 区区 ASCIII 码的码码位,有的占
22、占用 GB-2312 的 10-15 区或或 88-994 区的空空余码位,有有的字库干脆脆占用汉字GGB-23112 的 115 区至 81 区的的某段码位。(2)由于现有有系统都没有有采用国际标标准编码,就就无法支持 INTERRNET 藏藏文信息交换换,更不能考考虑到与汉英英文在系统底底层实现兼容容处理和对其其他应用软件件的支持。44从这些系统所具具备的功能来来看,仍然不不具备系统一一级的藏文支支持能力,即即不具备真正正的藏文WIINDOWSS操作系统的的功能。为了了与DOS下下的“字处理理系统”等有有所区分,本本文暂称为藏藏文字处理软软件。(3)更有甚者者只是针对某某个WINDDOWS
23、应用用软件实现藏藏文字处理功功能,如SAAMBHOTTA5就是典典型的仅在WWORD上实实现的一个藏藏文字处理软软件。这类软软件一旦脱离离WORD字字处理环境后就无法实现现藏文字处理理。(4)从技术实实现角度来看看,这些系统统主要是在应应用层面利用用 WINDDOWS 的的 API 或WORDD API 函数挂接实实现,因此,真真正的系统一一级的藏文 WINDOOWS 操作作系统的开发发还任重而道道远。重新审视这段藏藏文操作系统统研发的历史史,至少可以以给我们今后后开展藏文信信息处理研究究工作提供三三点有益的启启示:一是要要培养一批懂懂藏语的专业业软件开发队队伍,这是藏藏文信息处理理事业发展的
24、的根本;二是是要有国家高高强度的支持持,这是藏文文信息处理事事业能够持续续发展的保证证;三是操作系统这这样大型的系系统软件开发发必须要在政政府强有力的的支持下,要要有大的企业业参与开发才才有可能形成成实用的产品品。这一点从从汉字信息处处理发展的历历史来看是如如此,从华光光藏文系统和和北大方正藏藏文系统的成成功也证明了了这一点。32、藏文信信息技术标准准化研究标准化是推动当当今信息化社社会进步的基基础。信息技技术标准化是是应用信息技技术的前提,也也是信息系统统有效运行的的保证222。没有相相关标准作为为技术先导和和基础保证,藏藏文信息交换换和信息处理理技术也就无无从谈起,藏藏文要成为信信息化社会
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 藏文 信息处理 技术 研究 现状 展望 14811
限制150内