欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    信息技术 中文编码字符集.doc

    • 资源ID:790714       资源大小:225.68KB        全文页数:10页
    • 资源格式: DOC        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息技术 中文编码字符集.doc

    ICS 35.040L71中中华华人人民民共共和和国国国国家家标标准准GB 18030XXXX代替 GB 180302005信息技术 中文编码字符集Information technologyChinese coded character set点击此处添加与国际标准一致性程度的标识(报批稿)2018-12XXXX - XX - XX 发布XXXX - XX - XX 实施在提交反馈意见时,请将您所知道的相关专利连同支持性文件一并附上。GB 18030XXXX目 次前 言.II1 范围.12 规范性引用文件.13 术语和定义.14 字汇.25 总体结构.26 字符的排列顺序.47 码位分配.48 部分字符和代码的说明.7附录 A(规范性附录) 双字节字符表 .8附录 B(规范性附录) 表意文字描述符 .90附录 C(规范性附录) 四字节字符表 .91附录 D(资料性附录) 部分字符和代码的说明 .545GB 18030XXXXI前 言本标准的单字节编码部分、双字节编码部分和四字节编码部分的 CJK 统一汉字扩充 A(即 0x8139EE390x82358738)部分为强制性的。 本标准按照 GB/T 1.12009 给出的规则起草。 本标准代替 GB 180302005信息技术 中文编码字符集 。本标准与 GB 180302005 相比,除 编辑性修改外主要技术变化如下: 在双字节编码区对 10 个竖排标点和 8 个汉字构件所对应的 GB/T 13000 代码位置进行了调整, 并删除了 6 个重复编码的汉字构件和 9 个重复编码的汉字; 在四字节编码区调整了 18 个 GB/T 13000 代码位置; 在四字节编码 0x82358F330x82359636 部分增加了 CJK 统一汉字增加的 66 个汉字; 在四字节编码 0x9835F7380x98399E36 部分增加了 CJK 统一汉字扩充 C 的 4149 个汉字; 在四字节编码 0x98399F380x9839B539 部分增加了 CJK 统一汉字扩充 D 的 222 个汉字; 在四字节编码 0x9839B6320x9933FE33 部分增加了 CJK 统一汉字扩充 E 的 5762 个汉字; 在四字节编码 0x993481380x9939F730 部分增加了 CJK 统一汉字扩充 F 的 7473 个汉字; 在四字节编码 0x81398B320x8139A135 部分增加了康熙部首 214 个; 在四字节编码 0x8134F9320x81358437 部分增加了 83 个西双版纳新傣文字符; 在四字节编码 0x81358B320x81359935 部分增加了 127 个西双版纳老傣文字符; 在四字节编码 0x823695350x82369A32 部分增加了 48 个傈僳文字符; 在四字节编码 0x9034C5380x9034C730 部分增加了 13 个蒙古文 BIRGA 符号; 在四字节编码 0x9232C6360x9232D635 部分增加了 149 个滇东北苗文字符; 删除了 GB 180302005 的附录 C追加的汉字及部首/部件 ; 本标准由工业和信息化部提出并归口。 本标准起草单位:中国电子技术标准化研究院、北京北大方正电子有限公司、北京亚细亚智业科 技有限公司、微软(中国)有限公司。 本标准主要起草人:陈堃銶、黄疆、胡万进、张建国、陈壮、熊涛、陈恳、樊毅。 本标准印制所采用的字库由北京北大方正电子有限公司和潍坊北大青鸟华光照排有限公司提供。 本标准所代替标准的历次版本发布情况为: GB 180302000; GB 180302005。GB 18030XXXX0信息技术 中文编码字符集1 范围本标准规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。 本标准适用于中文和其他文字图形字符信息的处理、交换、存储、传输、显现、输入和输出。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 23121980 信息交换用汉字编码字符集 基本集 GB/T 113831989 信息处理 信息交换用八位代码结构和编码规则 GB/T 13000 信息技术 通用多八位编码字符集(UCS)3 术语和定义下列术语和定义适用于本文件。3.1 字符 character供组织、控制或表示数据用的元素集合中的一个元素。3.2 编码字符 coded character字符及其编码表示。3.3 用户自定义区 private use area使用符合本标准的产品的使用者可以自行规定的区域。3.4 字汇 repertoire用编码字符集表示的一个指定的字符集合。3.5 保留区 reserved zone留作未来国家标准规定的区域。GB 18030XXXX14 字汇4.1 概述本标准收录的字符以单字节、双字节或四字节编码。4.2 单字节部分单字节的部分收录了GB/T 113831989的0x00到0x7F全部128个字符。4.3 双字节部分双字节的部分收录了GB/T 23121980中收录的全部图形字符、GB/T 13000中收录的CJK统一汉字以及 部分图形字符,见附录A。其中,表意文字描述符的图形、代码位置和功能描述见附录B。4.4 四字节部分四字节的部分收录了上述双字节字符之外的GB/T 13000的66个CJK统一汉字(9FA6到9FEF,不包括 9FB4到9FBB共8个) 、CJK统一汉字扩充A、CJK统一汉字扩充B、CJK统一汉字扩充C、CJK统一汉字扩充 D、CJK统一汉字扩充E、CJK统一汉字扩充F和已经在GB/T 13000中编码的少数民族文字的字符。见附录C。5 总体结构正文中凡数字前标有0x的表示采用十六进制,未标有0x的表示采用十进制。附录中凡编码的表示均采 用十六进制,其他数字的表示均采用十进制。 单字节部分采用GB/T 113831989的编码结构,使用0x00至0x7F码位。 双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81至0xFE,尾字节码位分别是 0x40至0x7E和0x80至0xFE。 四字节部分采用GB/T 113831989未采用的0x30到0x39作为对双字节编码扩充的后缀,编码范围为 0x81308130到0xFE39FE39。四字节字符的第一个字节编码范围为0x81至0xFE;第二个字节编码范围为0x30 至0x39;第三个字节编码范围为0x81至0xFE;第四个字节编码范围为0x30至0x39。即, 0x81308130至0x81308139; 0x81308230至0x81308239; 0x8130FE30至0x8130FE39; 0x81318130至0x81318139; 0x8131FE30至0x8131FE39; 0x82308130至0x82308139; 0x8230FE30至0x8230FE39; 0xFE308130至0xFE308139; 0xFE39FE30至0xFE39FE39。GB 18030XXXX2总体结构见图1及表1。0x00 0x7F 单字节结构单字节结构双字节结构双字节结构 图 1 总体结构图0x810x7E 0x80首字节尾字节0xFE0x400xFE0x810xFE第三字节0x300x39第四字节0x810xFE第一字节0x300x39第二字节第一、二字节第一、二字节 结构结构第三、四字节第三、四字节 结构结构0x810xFE第三字节0x390x30 第四字节共 1260 组四字节总体结四字节总体结 构构GB 18030XXXX3表 1 码位范围分配图编码类型码位空间码位数目单字节0x000x7F128第一字节第二字节 双字节 0x81 0xFE0x40 0x7E, 0x80 0xFE23940第一字节第二字节第三字节第四字节 四字节0x81 0xFE0x30 0x390x81 0xFE0x300x3915876006 字符的排列顺序6.1 单字节部分字符的排列顺序字符按照GB/T 113831989中相应字符的顺序排列。6.2 双字节部分字符的排列顺序字符排列顺序见附录A。6.3 四字节部分字符的排列顺序自 0x81308130 至 0x8439FE39 共 50400 个码位,对应双字节部分未包括的所有 GB/T 13000 基本多文 种平面的字符,按照 GB/T 13000 基本多文种平面相应字符的顺序排列。 自 0x90308130 至 0xE339FE39 共 1058400 个码位用于对应 GB/T 13000 的 16 个辅助平面,字符排列顺 序完全遵照 GB/T 13000 的 16 个辅助平面的相应码位顺序依次排列。 四字节部分字符表见附录C。7 码位分配7.1 单字节部分的码位分配单字节部分的码位依据GB/T 113831989的规则分配。见图2。GB 18030XXXX4b80000000011111111 b70000111100001111 b60011001100110011 b50101010101010101 b4 b3 b2 b1000102030405060708091011121314150 0 0 0 00SP0Pp 0 0 0 1 01!1AQaq 0 0 1 0 02“2BRbr 0 0 1 1 03#3CScs 0 1 0 0 04¥4DTdt 0 1 0 1 05%5EUeu 0 1 1 0 06Kk 1 1 0 0 12´Nn 1 1 1 1 15/?O_oDEL图 2 单字节区码位图7.2 双字节部分的码位分配双字节部分的码位安排分为0x8140至0xFE7E和0x8180至0xFEFE两部分,共23940个码位。见图3及表 2。图 3 双字节部分编码空间结构图GB 18030XXXX5表 2 双字节部分的码位安排类别区名码位范围码位数字符数字符类型双字节 1区首字节 0xA10xA9尾字节 0xA10xFE846728图形符号符号区双字节 5区首字节 0xA80xA9尾字节 0x400x7E 和 0x800xA0192166图形符号双字节 2区首字节 0xB00xF7尾字节 0xA10xFE67686763汉字双字节 3区首字节 0x810xA0尾字节 0x400x7E 和 0x800xFE60806080汉字汉字区双字节 4区首字节 0xAA0xFE尾字节 0x400x7E 和 0x800xA081608160汉字双字节用户区 1首字节 0xAA0xAF尾字节 0xA10xFE564双字节用户区 2首字节 0xF80xFE尾字节 0xA10xFE658用户自定义区双字节用户区 3首字节 0xA10xA7尾字节 0x400x7E 和 0x800xA06727.3 四字节部分的码位分配四字节部分收录了汉字和部分少数民族文字,码位分配见表3。表3中没有指明的四字节码位分配见 6.3。表 3 四字节部分的码位安排码位范围码位数字符数字符类型0x813181320x8131993424342维吾尔、哈萨克、柯尔克兹文0x8430BA320x8430FE3568459维吾尔、哈萨克、柯尔克兹文0x843187300x8431953014184维吾尔、哈萨克、柯尔克兹文0x8132E8340x8132FD31208193藏文0x8134D2380x8134E337170149蒙古文(包括满文、托忒文、锡伯文和阿礼嘎礼字)0x9034C5380x9034C7301313蒙古文 BIRGA0x8134F4340x8134F8303735德宏傣文0x8134F9320x813584379683西双版纳新傣文0x81358B320x81359935144127西双版纳老傣文0x823598330x8236943512231215彝文0x823695350x82369A324848傈僳文0x81339D360x8133B63525069朝鲜文字母0x8139A9330x8139B73414251朝鲜文兼容字母0x8237CF350x8336BE36111723431朝鲜文音节0x9232C6360x9232D635160133滇东北苗文0x81398B320x8139A135224214康熙部首0x8139EE390x8235873865306530CJK 统一汉字扩充 A0x82358F330x823596367466CJK 统一汉字GB 18030XXXX60x953282360x9835F3364271142711CJK 统一汉字扩充 B表 3 (续)码位范围码位数字符数字符类型0x9835F7380x98399E3641494149CJK 统一汉字扩充 C0x98399F380x9839B539222222CJK 统一汉字扩充 D0x9839B6320x9933FE3357625762CJK 统一汉字扩充 E0x993481380x9939F73074737473CJK 统一汉字扩充 F自0xFD308130至0xFE39FE39共25200个码位为用户自定义区。 其它未占用的四字节码位为保留区,留待未来标准扩展使用。8 部分字符和代码的说明本标准对GB 18030-2005部分代码位置上的字形和/或所对应的GB/T 13000代码位置进行了调整。参见 附录D。

    注意事项

    本文(信息技术 中文编码字符集.doc)为本站会员(恋****泡)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开