信息技术 中文编码字符集.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《信息技术 中文编码字符集.doc》由会员分享,可在线阅读,更多相关《信息技术 中文编码字符集.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS 35.040L71中中华华人人民民共共和和国国国国家家标标准准GB 18030XXXX代替 GB 180302005信息技术 中文编码字符集Information technologyChinese coded character set点击此处添加与国际标准一致性程度的标识(报批稿)2018-12XXXX - XX - XX 发布XXXX - XX - XX 实施在提交反馈意见时,请将您所知道的相关专利连同支持性文件一并附上。GB 18030XXXX目 次前 言.II1 范围.12 规范性引用文件.13 术语和定义.14 字汇.25 总体结构.26 字符的排列顺序.47 码位分配.4
2、8 部分字符和代码的说明.7附录 A(规范性附录) 双字节字符表 .8附录 B(规范性附录) 表意文字描述符 .90附录 C(规范性附录) 四字节字符表 .91附录 D(资料性附录) 部分字符和代码的说明 .545GB 18030XXXXI前 言本标准的单字节编码部分、双字节编码部分和四字节编码部分的 CJK 统一汉字扩充 A(即 0x8139EE390x82358738)部分为强制性的。 本标准按照 GB/T 1.12009 给出的规则起草。 本标准代替 GB 180302005信息技术 中文编码字符集 。本标准与 GB 180302005 相比,除 编辑性修改外主要技术变化如下: 在双字节
3、编码区对 10 个竖排标点和 8 个汉字构件所对应的 GB/T 13000 代码位置进行了调整, 并删除了 6 个重复编码的汉字构件和 9 个重复编码的汉字; 在四字节编码区调整了 18 个 GB/T 13000 代码位置; 在四字节编码 0x82358F330x82359636 部分增加了 CJK 统一汉字增加的 66 个汉字; 在四字节编码 0x9835F7380x98399E36 部分增加了 CJK 统一汉字扩充 C 的 4149 个汉字; 在四字节编码 0x98399F380x9839B539 部分增加了 CJK 统一汉字扩充 D 的 222 个汉字; 在四字节编码 0x9839B63
4、20x9933FE33 部分增加了 CJK 统一汉字扩充 E 的 5762 个汉字; 在四字节编码 0x993481380x9939F730 部分增加了 CJK 统一汉字扩充 F 的 7473 个汉字; 在四字节编码 0x81398B320x8139A135 部分增加了康熙部首 214 个; 在四字节编码 0x8134F9320x81358437 部分增加了 83 个西双版纳新傣文字符; 在四字节编码 0x81358B320x81359935 部分增加了 127 个西双版纳老傣文字符; 在四字节编码 0x823695350x82369A32 部分增加了 48 个傈僳文字符; 在四字节编码 0x
5、9034C5380x9034C730 部分增加了 13 个蒙古文 BIRGA 符号; 在四字节编码 0x9232C6360x9232D635 部分增加了 149 个滇东北苗文字符; 删除了 GB 180302005 的附录 C追加的汉字及部首/部件 ; 本标准由工业和信息化部提出并归口。 本标准起草单位:中国电子技术标准化研究院、北京北大方正电子有限公司、北京亚细亚智业科 技有限公司、微软(中国)有限公司。 本标准主要起草人:陈堃銶、黄疆、胡万进、张建国、陈壮、熊涛、陈恳、樊毅。 本标准印制所采用的字库由北京北大方正电子有限公司和潍坊北大青鸟华光照排有限公司提供。 本标准所代替标准的历次版本发
6、布情况为: GB 180302000; GB 180302005。GB 18030XXXX0信息技术 中文编码字符集1 范围本标准规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。 本标准适用于中文和其他文字图形字符信息的处理、交换、存储、传输、显现、输入和输出。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 23121980 信息交换用汉字编码字符集 基本集 GB/T 113831989 信息处理 信息交换用八位代码结构和编码规则 GB/T 1
7、3000 信息技术 通用多八位编码字符集(UCS)3 术语和定义下列术语和定义适用于本文件。3.1 字符 character供组织、控制或表示数据用的元素集合中的一个元素。3.2 编码字符 coded character字符及其编码表示。3.3 用户自定义区 private use area使用符合本标准的产品的使用者可以自行规定的区域。3.4 字汇 repertoire用编码字符集表示的一个指定的字符集合。3.5 保留区 reserved zone留作未来国家标准规定的区域。GB 18030XXXX14 字汇4.1 概述本标准收录的字符以单字节、双字节或四字节编码。4.2 单字节部分单字节的
8、部分收录了GB/T 113831989的0x00到0x7F全部128个字符。4.3 双字节部分双字节的部分收录了GB/T 23121980中收录的全部图形字符、GB/T 13000中收录的CJK统一汉字以及 部分图形字符,见附录A。其中,表意文字描述符的图形、代码位置和功能描述见附录B。4.4 四字节部分四字节的部分收录了上述双字节字符之外的GB/T 13000的66个CJK统一汉字(9FA6到9FEF,不包括 9FB4到9FBB共8个) 、CJK统一汉字扩充A、CJK统一汉字扩充B、CJK统一汉字扩充C、CJK统一汉字扩充 D、CJK统一汉字扩充E、CJK统一汉字扩充F和已经在GB/T 13
9、000中编码的少数民族文字的字符。见附录C。5 总体结构正文中凡数字前标有0x的表示采用十六进制,未标有0x的表示采用十进制。附录中凡编码的表示均采 用十六进制,其他数字的表示均采用十进制。 单字节部分采用GB/T 113831989的编码结构,使用0x00至0x7F码位。 双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81至0xFE,尾字节码位分别是 0x40至0x7E和0x80至0xFE。 四字节部分采用GB/T 113831989未采用的0x30到0x39作为对双字节编码扩充的后缀,编码范围为 0x81308130到0xFE39FE39。四字节字符的第一个字节编码范围为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息技术 中文 编码 字符集
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内