中国人民银行-生僻字处理指南-27页.pdf
《中国人民银行-生僻字处理指南-27页.pdf》由会员分享,可在线阅读,更多相关《中国人民银行-生僻字处理指南-27页.pdf(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS 35.240.40CCS A 11JR中 华 人 民 共 和 国 金 融 行 业 标 准JR/T 02532022金融服务生僻字处理指南Financial servicesGuidelines for processing rarely used Chinesecharacters2022-6-24 发布2022-6-24 实施中国人民银行发 布每日免费获取报告1、每日微信群内分享7+最新重磅报告;2、每日分享当日华尔街日报、金融时报;3、每周分享经济学人4、行研报告均为公开版,权利归原作者所有,起点财经仅分发做内部学习。扫一扫二维码关注公号回复:研究报告加入“起点财经”微信群。JR/
2、T 02532022II目次前言.IV引言.V1 范围.12 规范性引用文件.13 术语和定义.14 缩略语.35 总体原则与策略.35.1 总体原则.35.2 信息系统处理汉字的通用架构.45.3 生僻字处理分级.45.4 生僻字处理策略.46 生僻字的输入.46.1 输入法.56.2 机读设备输入.56.3 其他方法输入.56.4 信息系统输入配备.67 生僻字的显示.67.1 字库.67.2 信息系统字库的配备.78 生僻字的打印.78.1 柜台 PC 通用打印机.78.2 报表高速打印机.88.3 打印机字库升级方法.89 生僻字的信息交换.99.1 机构内部系统间的信息交换.99.2
3、 机构与外部系统的信息交换.1010 生僻字的存储及内部处理.1010.1 数据库存储.1010.2 文件存储.1110.3 系统内部处理.1111 内部培训和投诉处理.1112 生僻字处理方法的开源.12附录 A(资料性)引用方法和示例.13A.1 生僻字处理成熟度评估.13A.2 UCS 汉字编码概况.13A.3 GBK 52 个双码字.14A.4 人名用生僻字全字符集示例.15JR/T 02532022IIIA.5 常见编码和伪码格式比较.16A.6 常用字符集“实心点”字符的编码.17附录 B(资料性)生僻字问题改造实例.18B.1 实例 1中信银行全系统生僻字改造.18B.2 实例
4、2中国银联全渠道系统生僻字改造.19B.3 实例 3中国农业银行核心银行系统生僻字改造.19参考文献.21JR/T 02532022IV前言本文件按照GB/T 1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国人民银行科技司提出。本文件由全国金融标准化技术委员会(SAC/TC 180)归口。本文件起草单位:中国人民银行科技司、北京金融科技产业联盟、招商银行股份有限公司、中信银行股份有限公司、中国工商银行股份有限公司、中国农业银行股份有限公司、中国银行股份有限公司、中国建设银行股份有限
5、公司、建信金融科技有限责任公司、中国人民银行营业管理部、中国人民银行济南分行、中国人民银行重庆营业管理部、中国人民银行杭州中心支行、中国人民银行广州分行、中国人民银行长沙中心支行、中国人民银行乌鲁木齐中心支行、交通银行股份有限公司、中国邮政储蓄银行股份有限公司、中国科学院软件研究所、中国金融电子化集团有限公司、成方金融科技有限公司、北京国家金融标准化研究院有限责任公司、中国银联股份有限公司、北京银联金卡科技有限公司、重庆国家金融科技认证中心有限责任公司、北京北大方正电子有限公司、北京郑码世纪信息技术有限公司。本文件主要起草人:李伟、杨富玉、聂丽琴、纪熙东、马良有、曲维民、冯蕾、刘子群、刘江涛、
6、胡达川、李寻、李言平、徐晓剑、孙炎森、梁宇、柯尚锋、杨启龙、李学鹏、张立建、王丽静、王学群、郭贞、柏杨、邱程昱、江山、马懿、赵磊、马征、刘妍、韩婷婷、刘启滨、刘赐麟、杨志、孙坚、叶茜、张伟宁、胡沐创、谭旺、刘曼齐、戴雪龙、许健、张嘉威、谢谨、潘以桢、谢晋、张兰英、胡军锋、张兰英、朱礼华、刘汇丹、刘书元、孙建智、李家琪、陈达炜、谢彦丽、白璐、邱鹏、缪海波、王琪、于鸽、李博文、李远、史艳语、毕小文、秦逞、吴娟、张建国、张国荣、陈恳、郑珑、蓝飞。JR/T 02532022V引言随着经济社会数字化程度越来越高,以及实名制要求越来越严格,姓名中含有生僻字的客户在办理金融业务时,因输入、显示、打印、存储、
7、交换等一个或多个环节中无法正常处理生僻字,可能造成的障碍包括以下内容。a)身份证鉴别仪读取客户证件信息失败,无法完成联网核查。b)服务人员知道客户姓名,但使用通用输入法找不到相应汉字。c)跨行转账户名一字多码,户名不能准确匹配,无法完成自动入账。d)信息交换时户名被当作非法字符或被转换成“?”,无法正确识别。e)与银行往来的第三方支付、社保、证券、保险等业务无法正常实名处理。本文件旨在针对上述情况,提供金融业处理生僻字的通用方法指南,提高金融业信息系统对生僻字的处理能力,提升金融业服务水平。本文件内容可能涉及信息系统关联的注册公司、产品名称或商标,仅作一般描述使用,无意侵权,更不表示推荐或不推
8、荐相关产品。JR/T 025320221金融服务生僻字处理指南1范围本文件提供了金融业信息系统生僻字处理指南,包括生僻字处理总体原则与策略,生僻字的输入、显示、打印、信息交换、存储和内部处理方法,以及生僻字内部培训和投诉处理、生僻字处理方法开源的机制。本文件适用于为客户提供金融服务的机构及参与金融服务信息交换的机构。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 18030信息技术中文编码字符集GB/T 23121980信息交换用汉字编码
9、字符集 基本集GB/T 13000信息技术通用多八位编码字符集(UCS)ISO/IEC 10646信息技术 通用编码字符集(UCS)(Information technology Universal CodedCharacter Set(UCS))ISO/IEC 8859-1信息技术8位单字节编码图形字符集第1部分:1号拉丁字母(Informationtechnology 8-bit single-byte coded graphic character sets Part 1:Lain alphabet No.1)3术语和定义下列术语和定义适用于本文件。3.1编码字符集coded chara
10、cter set一组无歧义的规则,用以建立一个字符集和该字符集中的字符及其编码表示之间的对应关系,通常也指按照这种规则确定的文字的有序集合。示例:1.GB 18030 是我国制订的以汉字为主并包含多种我国少数民族文字(例如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的大型中文编码字符集标准,业界对该标准的全字符集的技术实现一般称作 GB18030 编码,该编码包含单字节字符、双字节字符、四字节字符,其中双字节字符编码的技术实现又称作 GBK 编码。2.EBCDIC 是大型主机的 8 比特单字节或双字节编码字符集。注:GB 18030(含空格)指信息技术中文编码字符集标准;GB18030(无空格)指具体
11、字符编码。来源:ISO/IEC 8859-1:1998,4.5,有修改3.2编码字符集标识coded character set identifier标识大型主机当前字符使用的编码字符集(3.1)编号。JR/T 025320222示例:1.“1388”表示 GB 18030 中的强制部分用 EBCDIC 编码实现的字符集。2.“1392”表示GB 18030中的强制部分的字符集。3.3字库font library建立在计算机存储媒体上的字形数据集合。注:1.字库在存储方式上一般分硬字库、软字库。硬字库指预烧录在只读存储器等介质中且不能再更改的字库,软字库指以文件形式存储在光盘或者硬盘上的字库。
12、2.字库一般以ttf、otf、ttc等字体格式文件的形式存在。ttf指True Type Font字体文件,otf指Open Type Font字体文件,ttc指True Type Collection字体文件。3.4人口信息字库font library of population information户籍管理部门针对人口信息(人名、地名等)数据数字化而定制的字库(3.3),采用GB/T 13000编码。3.5用户自定义区private use area;PUA未在通用编码字符集中指定,由私有规则决定字符用途的一系列码点,使用三个编码区块:U+E000U+F8FF、U+F0000U+FFFF
13、D、U+100000U+10FFFD。注:1.一般指人口信息字库中使用的PUA编码,在人口信息字库中,户籍管理部门对未收录进GB/T 13000但实际使用的生僻汉字利用PUA编码予以补充,人口信息字库通过转换对照表提供编码转换解决方案。2.人口信息字库中部分PUA编码字符陆续被通用编码字符集收录而拥有正式编码,会导致一个字符同时存在正式编码和PUA编码,造成一字多码的情况。来源:GB 18030,3.3,有修改 3.6生僻字rarely used Chinese charactersGB/T 13000编码区间(U+4E00U+9FA5,20,902字)之外的汉字。注:1993年发布的GB 1
14、3000收录了U+4E00U+9FA5共20,902个汉字,1995年发布的汉字内码扩展规范(以下简称GBK)含21,003个汉字(增加了101个汉字及偏旁部首,包括“”“”“”等52个汉字),现已被GB 18030代替;由于GBK字符集内的20,902个汉字已能被国内外绝大部分技术产品和国内的应用系统所支持,而其他的汉字往往会遇到问题,故一般认为在20,902个汉字之外的汉字为生僻字。3.7通用编码字符集universal coded character set国际通用的多八位编码字符集。注:1.通用编码字符集(UCS)标准由国际标准化组织(ISO)与国际电工委员会(IEC)制订,编号为IS
15、O/IEC 10646,最新版本为ISO/IEC 10646:2020。我国现行GB/T 130002010采标自ISO/IEC 10646:2003。2.统一码(Unicode)是由统一码联盟依据UCS制定的可以容纳世界上所有文字和符号的编码字符集,UnicodeJR/T 025320223比UCS额外定义了与字符有关的语义符号学内容。3.UCS将中国、日本、韩国等国使用的汉字通称为中日韩统一表意文字(CJK)。4.CJK按编码区块分为基本集(URO)、扩充AG、兼容区,急用汉字会在各编码区块末尾增补(见附录A.2)。5.UCS在技术实现上,使用UTF-8、UTF-16、UTF-32三种编码
16、方式对字符进行编码。UTF-8是一种以一个或多个8位为单元的编码方式;UTF-16是一种以一个或两个16位为单元的编码方式;UTF-32是一种以一个32位为单元的编码方式。16位以2字节表示,32位以四字节表示。对于多个字节的排列顺序,如果第一个字节是整数二进制中的最高位字节,最后一个字节是整数二进制中的最低位字节,则该字节序称为“大端”(Big Endian,BE);如果第一个字节是整数二进制中的最低位字节,最后一个字节是整数二进制中的最高位字节,则该字节序称为“小端”(Little Endian,LE)。UTF-16分UTF-16BE和UTF-16LE两种方式,UTF-32分UTF-32B
17、E和UTF-32LE两种方式。6.本文件以U+XXXX或U+XXXXX表示UCS的一个码点或字符,如U+0000U+FFFF称为基本多文种平面(BMP),U+20000U+2FFFF称为辅助表意文字平面。4缩略语下列缩略语适用于本文件。APP:移动应用程序(Mobile Application)ASCII:美国信息交换标准代码(American Standard Code for Information Interchange)ATM:自动柜员机(Automatic Teller Machine)BOM:字节顺序标记(Byte Order Mark)CCSID:编码字符集标识(Coded Ch
18、aracter Set Identifier)CJK:中日韩统一表意文字(China,Japan and Korea unified ideographs)CTID:网络电子身份证(Cyber Trusted ID)EBCDIC:扩展二进制编码十进制交换码(Extended Binary Coded Decimal Interchange Code)FTP:文件传输协议(File Transfer Protocol)GDI:图形设备接口(Graphics Device Interface)HTML5:超文本标记语言第5版(HyperText Markup Language 5)JDK:Java
19、语言开发工具(Java Development Kit)MFC:微软基础类库(Microsoft Foundation Classes)OCR:光学字符识别(Optical Character Recognition)PC:个人电脑(Personal Computer)PUA:用户自定义区(Private Use Area)SDK:软件开发工具(Software Development Kit)UCS:通用编码字符集(Universal Coded character Set)XML:可扩展标记语言(Extensible Markup Language)5总体原则与策略5.1总体原则提供金融服
20、务的机构在处理生僻字时,宜遵守以下原则。a)遵循标准。以 GB 18030、GB/T 13000 为基础,便于客户和服务人员识读、辨别生僻字,便于信息系统持续优化。JR/T 025320224b)易于扩展。使用可扩展和安全可控的技术框架和方案,便于提升系统服务效率和客户体验。c)经济适用。以满足客户实际需要为基础,配置实用的字库、输入法、接口设备等。d)兼容处理。当在用的 PUA 字符正式编码发布后及时使用正式编码。在核验环节,兼容处理一字多码的互相认同,同时向客户详细说明一字多码情况。注:部分居民身份证件姓名数据包含的字符分布在UCS的CJK扩充AG范围内,部分超出现行GB 18030200
21、5强制要求的字符集范围。5.2信息系统处理汉字的通用架构信息系统处理汉字的通用架构见图 1,包括客户与柜台、客户与前置中台、柜台与前置中台、前置中台与后台系统、后台系统与外联系统、外联系统与其他机构等交互环节。在客户与柜台、客户与前置中台交互环节,输入、显示、打印处理涉及生僻字。在柜台与前置中台交互环节,流程、交换处理涉及生僻字。在前置中台与后台系统、后台系统与外联系统交互环节,开放、主机系统处理涉及生僻字。在外联系统与其他机构交互环节,流程、交换处理涉及生僻字。图 1信息系统处理汉字的通用架构图信息系统通常需要在 GBK、GB18030、EBCDIC、UTF-8、UTF-16 等编码间转换处
22、理汉字,因不同类型编码所支持的字符集不同,GBK、EBCDIC 不支持的汉字需实现无损透传处理。Unicode 字符编码详见附录 A.2。5.3生僻字处理分级本文件将生僻字处理分为以下三个级别。a)基础级:CJK 基本集和扩充 A,其中包含 52 个 GBK 双码字。通用规范汉字表全部汉字(含补字区、CJK 扩充 BE 共 199 个字)。人口信息字库 PUA 编码部分对应的正式编码汉字(含 CJK 扩充 BG)。b)实用级(包含基础级,增加实际在用汉字):CJK 扩充 BG 中已知的人名、地名在用汉字。人口信息字库 PUA 编码部分,虽有正式编码但仍在用 PUA 编码的汉字。人口信息字库 P
23、UA 编码部分,没有正式编码只能使用 PUA 编码的汉字。c)完整级:UCS 收录的全部 CJK 汉字,包含实用级。5.4生僻字处理策略生僻字的显示和打印宜通过操作系统支持完整级汉字,生僻字的输入宜支持实用级汉字。6生僻字的输入JR/T 0253202256.1输入法6.1.1输入法字符范围提供金融服务的机构宜选择实用级或完整级的汉字输入法,至少支持基础级的汉字输入法。6.1.2输入法编码适用于生僻字输入的输入法宜采用以下方法。a)使用拼音、笔画、字形等方法对汉字字符进行编码。b)综合使用部件拆分、拆字拼音、笔画等多种方法对汉字字符进行编码。c)按照汉字的字频、所处编码区块及其他属性对候选汉字
24、进行排序。d)对候选的 PUA 编码字、繁体字、异体字等给出标识,进一步提示其对应的正式编码字、简体字、规范字。注:生僻字读音通常难以识别,完整级汉字如使用拼音输入,因同音候选字最多可达3,000多个,造成查找和选字困难。6.1.3输入法实现形式提供金融服务的机构选用的输入法,可使用如下形式实现。a)常规输入法软件。通过外接键盘或软键盘输入字符的输入法软件,可配置在操作系统的输入法候选列表中并可切换选择。b)第三方软件。使用带有字符输入功能的第三方软件,用户通过软件界面操作以笔画、部件拆字等方式查询到候选字,使用拷贝或其他方式粘贴到信息系统的录入框中。c)内嵌输入法。在信息系统中自行实现的输入
25、法。d)云输入法。信息系统集成云输入客户端,用户在云输入客户端录入输入码,云输入客户端根据输入码从云输入服务器端查询到候选字,由用户选择录入信息系统的录入框中。6.1.4少数民族姓名间隔符的输入少数民族姓名间隔符须按照 关于在政府管理和社会公共服务信息系统中统一姓名采集应用规范的通知(民委发201633号文)要求的格式输入,统一用“”(UCS编码U+00B7,GB18030编码A1A4)。考虑到常用字符集中“实心点”字符有多个,宜在用户输入的前端检测少数民族姓名间隔符为非U+00B7的“实心点”时,自动转换成U+00B7。注:有些文字处理软件中U+00B7复制到其他应用有可能变成U+2022。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国人民银行 生僻字 处理 指南 27
限制150内