2022年2022年各种文字编码简介+常见的编码都有介绍 .pdf
《2022年2022年各种文字编码简介+常见的编码都有介绍 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年各种文字编码简介+常见的编码都有介绍 .pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、各种文字编码简介ASCII ASCII码是7 位编码,编码范围是0 00-0 7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中000-020 和07F共33 个控制字符。只支持 ASCII码的系统会忽略每个字节的最高位,只认为低7 位是有效位。HZ字符编码就是早期为了在只支持7 位ASCII系统中传输中文而设计的编码。 早期很多邮件系统也只支持ASCII编码, 为了传输中文邮件必须使用BASE64或者其他编码方式。GB2312 GB2312 是基于区位码设计的,区位码把编码表分为 94 个区,每个区对应 94 个位,每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般
2、 用 10 进制数来表示, 如 1601 就表示16 区1位,对应的字符是“ 啊” 。在区位码的区号和位号上分别加上0 xA0 就得到了 GB2312 编码。区位码中 01-09 区是符号、数字区,16-87 区是汉字区,10-15 和88-94 是未定义的空白区。它将收录的汉字分成两级:第一级是常用汉字 计 3755 个,置于16-55区,按汉语拼音字母/ 笔形顺序排列; 第二级汉字是次常用汉字计3008 个, 置于56-87 区, 按部首/ 笔画顺序排列。 一级汉 字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。GB2
3、312 字符集中除常用简体汉字字符外还包括希腊字母、 日文平假名及片假名字母、 俄语西里尔字母等字符, 未收录繁体中文汉字和一些生僻字。 可以用繁体汉字测试某些系统是不是只支持 GB2312编码。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 8 页 - - - - - - - - - GB2312 的编码范围是0 xA1A1-0 7E7E,去掉未定义的区域之后可以理解为实际编码范围是0 xA1A1-0 xF7FE 。EUC-CN 可以理解为GB2312 的别名,和GB2
4、312 完全相同。区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312 及EUC-CN 是实际计算机环境中支持这 种字符集的编码。HZ 和ISO-2022-CN是对应区位码字符集的另外两种编码,都是用7 位编码空间来支持汉字。区位码和 GB2312 编码的关系有点像 Unicode 和UTF-8 。GBK GBK编码是GB2312 编码的超集, 向下完全兼容GB2312,同时GBK收录了Unicode 基本多文种平面中的所有 CJK汉字。 同 GB2312 一样, GBK也支持希腊字母、 日文假名字母、 俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。GBK还收
5、录了GB2312 不包含的 汉字部首符号、竖排标点符号等字符。GBK的整体编码范围是为0 8140-0 xFEFE ,不包括低字节是0 7F 的组合。高字节范围是0 81-0 xFE ,低字节范围是 0 40-7E和0 80-0 xFE 。低字节是 040-07E的 GBK字符有一定特殊性, 因为这些字符占用了 ASCII码的位置,这样会给一些系统带来麻烦。有些系统中用 040-07E中的字符(如“| ”)做特殊符号,在定位这些符号时又没有判断这些符号是不是属于某个 GBK字符的低字节, 这样就会造成错误判断。 在支持GB2312 的环境下就不存在这个问题。需要注意的是支持GBK的环境中小于0
6、80 的某个字节未必就 是ASCII符号;另外就是名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 8 页 - - - - - - - - - 最好选用小于 040 的ASCII符号做一些特殊符号,这样就可以快速定位,且不用担心是某个汉字的另一半。Big5 编码中也存在相应问题。CP936 和GBK的有些许差别,绝大多数情况下可以把CP936 当作 GBK的别名。GB18030 GB18030 编码向下兼容GBK和GB2312 ,兼容的含义是不仅字符兼容,而且相同字符的编码
7、也相同。GB18030 收录了所有 Unicode3.1 中的字符,包括中国少数民族字符,GBK不支持的韩文字符等等,也可以说是世界大多民族的文字符号都被收录在内。GBK和GB2312 都是双字节等宽编码,如果算上和ASCII兼容所支持的单字节,也可以理解为是单字节和双字节混合的变长编码。GB18030 编码是变长编码,有单字节、双字节和四字节三种方式。GB18030 的单字节编码范围是0 00-0 7F,完全等同与 ASCII ;双字节编码的范围和 GBK相同,高字节是 081-0 xFE,低字节 的编码范围是 040-07E和080-FE;四字节编码中第一、三字节的编码范围是081-0 x
8、FE,二、四字节是030-039。Windows 中CP936 代码页使用 0 80 来表示欧元符号, 而在GB18030 编码中没有使用0 80 编码位,用其他位置来表示欧元符号。这可以理解为是GB18030 向下兼容性上的一点小问题;也可以理解为 080 是CP936 对GBK的扩展,而GB18030 只是和GBK兼容良好。BIG5 Big5 是双字节编码,高字节编码范围是 0 81-0 xFE ,低字节编码范围是0 40-0 7E和0 xA1-0 xFE 。和GBK相比,少了低字节是0 80-0 xA0 的组合。0 8140-0 xA0FE是保留区域,用于用户造字区。名师资料总结 - -
9、 -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 8 页 - - - - - - - - - Big5 收录的汉字只包括繁体汉字,不包括简体汉字,一些生僻的汉字也没有收录。GBK收录的日文假名字符、俄文字符Big5也没有收录。因为 Big5 当中收录的字符有限,因此有很多在Big5 基础上扩展的编码,如倚天中文系统。 Windows 系统上使用的代码页CP950 也可以理解为是对Big5 的扩展,在 Big5 的基础上增加了 7 个汉字和一些符号。Big5编码对应的字符集是GBK字符集的子集,
10、也就是说 Big5 收录的字符是 GBK收录字符的一部分,但相同字符的编码不同。因为 Big5 也占用了 ASCII的编码空间(低字节所使用的040-07E),所以Big5 编码在一些环境下存在和 GBK编码相同的问题, 即低字节范围为 040-07E的字符有可能会被误处理, 尤其是低字节是 05C(”/ ”)和07C(”| ”)的字符。可以参考GBK一节相应说明。尽管有些区别,大多数情况下可以把CP950 当作Big5 的别名。ISO-8859-1 ISO-8859-1编码是单字节编码,向下兼容 ASCII ,其编码范围是0 00-0 xFF ,0 00-0 7F之间完全和 ASCII一致,
11、080-09F之间是控制字符,0 xA0-0 xFF 之间是文字符号。ISO-8859-1收录的字符除ASCII收录的字符外,还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。欧元符号出现的比较晚,没有被收录在ISO-8859-1当中。因为 ISO-8859-1编码范围使用了单字节内的所有空间, 在支持 ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。 这是个很重要的特性, MySQL数据库默认编码是 Latin1 就是利用了这个特性。 ASCII编码是一个7 位的容器,ISO-88
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年各种文字编码简介+常见的编码都有介绍 2022 各种 文字 编码 简介 常见 介绍
限制150内