欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    字符编码基础知识汇总-2023年个人用心.docx

    • 资源ID:93878860       资源大小:80.63KB        全文页数:41页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    字符编码基础知识汇总-2023年个人用心.docx

    ASCH、Unicode和UTF-8之间的关系字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识。一、ASCII 码我们知道,计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为 一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从00000000到11111111。上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。ASCII码一共规定了 128个字符的编码,比如空格SPACE是32 (二进制00100000),大写的字母A是65 (二进制01000001)。这128个符号(包括 32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为0。二、非ASCII编码英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些 欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的e的编码为130 (二进制10000010)。这样一来,这些欧洲国家使用的编码体 系,可以表示最多256个符号。但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表 了 6 ,在希伯来语编码中却代表了字母GimelQ),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0-127表示的符号是一样的, 不一样的只是128255的这一段。至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如, 简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256 x 256 = 65536个符号。十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description160201000010000DLE&#016;数据链路转义170211100010001DC1&#017;设备控制1180221200010010DC2&#018;设备控制2190231300010011DC3&#019;设备控制3200241400010100DC4&#020;设备控制4210251500010101NAK&#021;拒绝接收220261600010110SYN&#022;同步空闲230271700010111ETB&#023;传输块结束240301800011000CAN&#024;取消250311900011001EM&#025;介质中断260321A00011010SUB&#026;替换27033IB00011011ESC&#027;换码符十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description280341C00011100FS&#028;文件分隔符29035ID00011101GS&#029;组分隔符30036IE00011110RS&#030;记录分离符31037IF00011111US&#031;单元分隔符ASCII打印字符(字符编码:32-127)32126(共95个)是字符:32是空格,其中4857为0到9十个阿拉伯数字,6590为26个大写英文字母,97122号为26个小写英文字母,其余为一些标点符号、运算符号等。第127个字符表示的是键盘上的删除命令。十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description320402000100000&#032;空格3304121001000011&#033;感叹号34042220010001011&#034;双引号十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description350432300100011#&#035;井号360442400100100$&#036;美元符370452500100101%&#037;百分号380462600100110&&#038;与390472700100111f&#039;单引号400502800101000(&#040;左括号410512900101001)&#041;右括号420522A00101010*&#042;星号430532B00101011+&#043;加号440542C00101100&#044;逗号450552D00101101&#045;连字号或减号460562E00101110&#046;句点或小数点十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description470572F00101111/&#047;斜杠4806030001100000&#048;04906131001100011&#049;15006232001100102&#050;25106333001100113&#051;35206434001101004&#052;45306535001101015&#053;55406636001101106&#054;65506737001101117&#055;75607038001110008&#056;85707139001110019&#057;9580723A00111010 *&#058;冒号十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description590733B00111011&#059;分号600743C00111100<&#060;小于610753D00111101&#061;等号620763E00111110>&#062;大于630773F001111119 .&#063;问号641004001000000&#064;电子邮件符号651014101000001A&#065;大写字母A661024201000010B&#066;大写字母B671034301000011C&#067;大写字母C681044401000100D&#068;大写字母D691054501000101E&#069;大写字母E701064601000110F&#070;大写字母F十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description711074701000111G&#071;大写字母G721104801001000H&#072;大写字母H731114901001001I&#073;大写字母I741124A01001010J&#074;大写字母J751134B01001011K&#075;大写字母K761144C01001100L&#076;大写字母L771154D01001101M&#077;大写字母M781164E01001110N&#078;大写字母N791174F010011110&#079;大写字母0801205001010000P&#080;大写字母P811215101010001Q&#081;大写字母Q821225201010010R&#082;大写字母R十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description831235301010011S&#083;大写字母s841245401010100T&#084;大写字母T851255501010101U&#085;大写字母U861265601010110V&#086;大写字母V871275701010111w&#087大写字母W881305801011000X&#088;大写字母X891315901011001Y&#089;大写字母Y901325A01011010Z&#090;大写字母Z911335B01011011&#091;左中括号921345C01011100&#092;反斜杠931355D01011101&#093;右中括号941365E01011110zv&#094;音调符号十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description951375F01011111&#095;下划线961406001100000&#096;重音符971416101100001a&#097;小写字母a981426201100010b&#098;小写字母b991436301100011c&#099;小写字母c1001446401100100d&#100;小写字母d1011456501100101e小写字母e1021466601100110f&#102;小写字母f1031476701100111g&#103;小写字母g1041506801101000h&#104;小写字母h1051516901101001*1&#105;小写字母i1061526A01101010J&#106;小写字母j十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码文解释Description1071536B01101011k&#107;小写字母k1081546C011011001&#108;小写字母11091556D01101101m&#109;小写字母m1101566E01101110n小写字母n1111576F011011110小写字母。1121607001110000P&#112;小写字母p1131617101110001q&#113;小写字母q1141627201110010r小写字母r1151637301110011s小写字母s1161647401110100t&#116;小写字母t1171657501110101u&#117;小写字母u1181667601110110V&#118;小写字母v十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description1191677701110111W&#119;小写字母w1201707801111000X&#120;小写字母X1211717901111001y&#121;小写字母y1221727A01111010z&#122;小写字母Z1231737B01111011&#123;左大括号1241747C011111001&#124;垂直线1251757D01111101)&#125;右大括号1261767E01111110&#126;波浪号1271777F01111111&#127;删除ASCH扩展码(字符编码:128-255)后128个称为扩展ASCH码。许多基于x86的系统都支持使用扩展(或"高” )ASCIIo扩展ASCII码允许将每个字符的第8位 用于确定附加的128个特殊符号字符、外来语字母和图形符号。中文编码的问题需要专文讨论,这篇笔记不涉及。这里只指出,虽然都是用多个字节表示一个符号,但是GB类的汉字编码与后文的Unicode和UTF-8是毫无 关系的。三.Unicode正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用 错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名 字都表示的,这是一种所有符号的编码。Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain, U+0041表示英 语的大写字母A, U+4E25表示汉字严。具体的符号对应表,可以查询unicode, org,或者专门的汉字对应表。四、Unicode的问题需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。比如,汉字严的Unicode是十六进制数4E25,转换成二进制数足足有15位也就是说,这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。这里就有两个严重的问题,第一个问题是,如何才能区别Unicode和ASCII ?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问 题是,我们已经知道,英文字母只用一个字节表示就够了,如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个 字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。它们造成的结果是:1)出现了 Unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示Unicodeo 2) Unicode在很长一段时间内无法 推广,直到互联网的出现。五、UTF-8十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description1282008010000000&#128;国盟符号12920181100000011302028210000010&#130;单低9引号1312038310000011f带钩的拉丁小写字母f1322048410000100&#132;双低9引号1332058510000101 &#133;水平省略号11342068610000110t&#134;剑号1352078710000111t&#135;1362108810001000八&#136;修正字符 抑扬音符号1372118910001001%o&#137;千分号十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description1382128A10001010S&#138;带弯音号的拉丁大写字母S1392138B10001011<&#139;左单书名号1402148C10001100(E&#140;拉丁大写组合0E1412158D100011011422168E10001110z&#142;带弯音号的 拉丁大写字母z1432178F1000111114422090100100001452219110010001&#145;左单引号1462229210010010&#146;右单引号1472239310010011a&#147;左双引号十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description1482249410010100,&#148;右双引号1492259510010101&#149;1502269610010110一&#150;半长破折号1512279710010111&#151;全长破折号11522309810011000&#152;小波浪线1532319910011001TM&#153;1542329A10011010&#154;带弯音号的拉丁小写字母S1552339B10011011>&#155;右单书名号1562349C10011100oe&#156;拉丁小写组合oe1572359D100111011582369E10011110z&#158;带弯音号的十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description拉丁小写字母z1592379F10011111 Y&#159;带弯音号的拉丁大写字母Y160240AO10100000&#160;161241Al10100001*1&#161;反向感叹号162242A2101000100&#162;分币符号163243A310100011£&#163;英磅符号164244A410100100&#164;165245A510100101¥&#165;人民币符号166246A610100110 &#166;167247A710100111§&#167;章节符号168250A810101000 &#168;通用货币符号十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description169251A910101001©&#169;版权符号170252AA10101010a&#170;阴性顺序指示符号171253AB10101011«左角引号172254AC10101100-1&#172;173255AD10101101&#173;174256AE10101110&#174;175257AF10101111&#175;176260BO10110000o温度符号177261Bl10110001±&#177;加/减号178262B2101100102&#178;上标2179263B3101100113&#179;上标3十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML 实体编码中文解释Description180264B410110100&#180;181265B510110101&#181;微符号182266B610110110&#182;段落符号,pi 1crow183267B710110111&#183;中点184270B810111000J&#184;185271B9101110011&#185;上标1186272BA101110100&#186;阳性顺序 指示符187273BB10111011»&#187;右角引号188274BC10111100%&#188;分数四分之一189275BD10111101%&#189;分数二分之一十进制DEC八进制OCT十六进制HEX二进制BIN190276BE10111110191277BF10111111192300CO11000000193301Cl11000001194302C211000010195303C311000011196304C411000100符号SymbolHTML 实体编码中文解释Description%&#190;6&#191;反向问号A&#192;带重音符的大写字母AA&#193;带尖锐重音的大写字母A人 A&#194;带音调符号的大写字母A A&#195;带代字号的大写字母A A&#196;带元音变音(分音符号) 的大写字母A十进制DEC八进制OCT十六进制HEX二进制BIN197305C511000101198306C611000110199307C711000111200310C811001000201311C911001001202312CA11001010203313CB11001011符号SymbolHTML 实体编码中文解释DescriptionA&#197;带铃声的大写字母AR&#198;大写字母AE 双重元音q&#199;带变音符号的大写字母CE&#200;带重音符的大写字母Er E&U201;带尖锐重音 的大写字母E/X E&#202;带音调符号的大写字母E E&#203;带元音变音十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML1 实体编码文解释Description(分音符号)的大写字母E204314CC11001100i&#204;带重音符的大写字母I205315CD11001101&#205;带尖锐重音 的大写字母I206316CE11001110/I&#206;带音调符号的大写字母I207317CF11001111 I&#207;带元音变音(分音符号) 的大写字母I208320DO11010000D&#208;209321DI11010001 N&#209;带代字号十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML1 实体编码文解释Description的大写字母N210322D2110100100&#210;带重音符的大写字母0211323D3110100110&#211;带尖锐重音的大写字母0212324D411010100人 0&#212;带音调符号的大写字母0213325D511010101 0&#213;带代字号的大写字母0214326D611010110 0&#214;带元音变音 (分音符号) 的大写字母0215327D711010111X&#215;大写字母互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16 (字符用两个字 节或四个字节表示)和UTF-32 (字符用四个字节表示),不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用4个字节表示一个符号,根据不同的符号而变化字节长度。UTF-8的编码规则很简单,只有二条:1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的Unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。2)对于n字节的符号(n > 1),第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个 符号的Unicode码。下表总结了编码规则,字母X表示可用编码的位:Unicode符号范围(十六进制)UTF-8编码方式(二进制)0000 0000-0000 007F0000 0080-0000 07FF0000 0800-0000 FFFF0001 0000-0010 FFFFOxxxxxxx1lOxxxxx lOxxxxxx11lOxxxx lOxxxxxx lOxxxxxx111lOxxx lOxxxxxx lOxxxxxx lOxxxxxx十进制DEC八进制OCT十六进制HEX二进制BIN216330D811011000217331D911011001218332DA11011010219333DB11011011220334DC11011100221335DD11011101符号SymbolHTML 实体编码中文解释DescriptionOE连字0&#216;带斜杠的大写字母0u&#217;带重音符的大写字母Uu&#218;带尖锐重音的大写字母u人 u&#219;带音调符号的大写字母U u&#220;带元音变音(分音符号) 的大写字母UY&#221;带元音变音十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML1 实体编码文解释Description(分音符号)的大写字母Y222336DE11011110D&#222;223337DF11011111B&#223;德语高调小写字母s224340E011100000a&#224;带重音符的小写字母a225341El11100001/ a&#225;带尖锐重音的小写字母a226342E211100010人 a&#226;带音调符号的小写字母a227343E311100011a&#227;带代字号的小写字母a十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML1实体编码文解释Description228344E411100100 a&#228;带元音变音(分音符号) 的小写字母a229345E511100101o a&#229;带铃声的小写字母a230346E611100110纪&#230;小写字母ae双重元音231347E711100111q&#231;带变音符号的小写字母C232350E811101000e&#232;带重音符的小写字母e233351E911101001e&#233;带尖锐重音的小写字母e十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML1实体编码文解释Description234352EA11101010人 e&#234;带音调符号的小写字母e235353EB11101011 e&#235;带元音变音(分音符号) 的小写字母e236354EC11101100X1&#236;带重音符的小写字母i237355ED11101101/ 1&#237;带尖锐重音的小写字母i238356EE11101110A1&#238;带音调符号的小写字母i239357EF111011111&#239;带元音变音 (分音符号)十进制DEC八进制OCT十六进制HEX二进制BIN符号SymbolHTML1 实体编码文解释Description的小写字母i240360F011110000S&#240;241361Fl11110001 n&#241;带代字号的小写字母n242362F2111100100&#242;带重音符的小写字母0243363F3111100116&#243;带尖锐重音的小写字母0244364F411110100人 0&#244;带音调符号的小写字母0245365F511110101 0&#245;带代字号的小写字母0十进制DEC八进制OCT十六进制HEX二进制BIN246366F611110110247367F711110111248370F811111000249371F911111001250372FA111110102

    注意事项

    本文(字符编码基础知识汇总-2023年个人用心.docx)为本站会员(太**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开