谈银行信息系统生僻字问题(共3562字).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《谈银行信息系统生僻字问题(共3562字).doc》由会员分享,可在线阅读,更多相关《谈银行信息系统生僻字问题(共3562字).doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、谈银行信息系统生僻字问题(共3562字)谈银行信息系统生僻字问题 一、信息系统字符集情况介绍(一)字符集概述字符是各种文字和符号的总称,包括各国文字、标点符号、图形符号、数字等。字符集(Characterset)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,目前汉字字符集主要有:信息交换用汉字编码字符集基本集(GB2312-1980),汉字内码扩展规范(GBK),信息技术信息交换用汉字编码字符集基本集的扩充(GB18030-2000),信息技术中文编码字符集(GB18030-2005),信息技术通用多八位编码字符集(UCS)(GB13000-2010)。国外软件系统考虑跨语言
2、、跨平台处理需求,常用的字符集为Unicode,在操作系统、应用程序中广泛应用。从执行效力看,Unicode与GBK为行业性规范,GB2312-1980、GB13000-2010为国家推荐性标准,GB18030-2000和GB18030-2005为国家强制性标准。GB18030-2005现已代替GB18030-2000,其与GB18030-2000相同部分为强制性。从兼容、支持角度看,GB18030-2005能够与GB2312-1980完全兼容,与GBK基本兼容,支持Unicode4.0的全部统一汉字。GB13000-2010等同于国际标准化组织(ISO)的通用多八位编码字符集(ISO/IEC
3、10646:2003)和多语言软件制造商联盟的统一码(Unicode4.0)。详细信息见表1。(二)银行字符集采用情况以某省城市商业银行和农联社的487个信息系统为样本,统计其所涉操作系统、数据库、对外接口及应用(包括中间件、报文传输、源代码)字符集情况。从统计结果看,操作系统、数据库、对外接口及应用采用的字符集主要是Unicode、GBK,少数为GB2312、GB18030,且支持GB18030的全部为Linux平台,行业性规范成为应用主流,国家标准反而应用较少,详细情况见表2。造成这一现象的主要原因是:国际上,Unicode由大的软件制造商组成的联盟制定,具有跨语言、跨平台优势,使其成为应
4、用主流。国内来讲,作为基础软件的Windows操作系统自带字符集还是GBK,对于GB18030-2005,Windows虽然提供了扩展支持包,却没有实现全面的支持。加之GB18030-2005的宣传、推广不足,多年下来,形成了GBK的市场应用存量与惯性,一定程度上限制了对GB18030-2005的应用。二、生僻字原因分析金融行业生僻字是信息系统在存储、传输、显示等过程中无法正常处理的字符,按照产生原因可划分为三种情况:一是采用不同字符集的系统交互导致部分字符无法处理。比如当采用GB18030字符集的应用与采用GBK字符集的应用交互时,由于GBK字符只有21003个,在这范围之外的字符就会无法处
5、理。二是部分字符“一字多码”导致无法处理。“一字多码”的出现主要是因为Unicode的编码空间内存在用户自定义区(PUA),允许自定义编码来处理一些生僻字,这些生僻字后期又被Unicode正式收录,造成一个汉字既有PUA编码又有Unicode正式码的“一字多码”问题。例如“䶮”字,其在Unicode自定义区编码为“E863”,而其正式编码为“4DAE”。由于GB18030-2005与Unicode编码的一一对应关系,“一字多码”问题同样存在于GB18030-2005编码空间。这部分字大约有3000多个,包括GBK在1995年制定时收录的52个汉字和公安部人口信息系统中收录的方正自
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 银行 信息系统 生僻字 问题 3562
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内