2022年python的中文处理 .pdf

上传人：Che****ry

文档编号：34262903

上传时间：2022-08-15

格式：PDF

页数：6

大小：70.68KB

( 4.5 )

《2022年python的中文处理 .pdf》由会员分享，可在线阅读，更多相关《2022年python的中文处理 .pdf（6页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、Python 的中文处理一、使用中文字符在 python 源码中如果使用了中文字符，运行时会有错误，解决的办法是在源码的开头部分加入字符编码的声明，下面是一个例子： #!/usr/bin/env python # -*- coding: cp936 -*- Python Tutorial 中指出， python 的源文件可以编码ASCII 以外的字符集，最好的做法是在#!行后面用一个特殊的注释行来定义字符集：# -*- coding: encoding -*- 根据这个声明，Python 会尝试将文件中的字符编码转为encoding 编码，并且，它尽可能的将指定地编码直接写成Unicode 文

2、本。注意， coding:encoding 只是告诉Python 文件使用了encoding 格式的编码，但是编辑器可能会以自己的方式存储.py 文件，因此最后文件保存的时候还需要编码中选指定的ecoding才行。二、中文字符的存储 str = u 中文 str uxd6xd0 xcexc4 str = 中文 str xd6xd0 xcexc4 u中文只是声明unicode，实际的编码并没有变。这样子就发生变化了： str = 中文 str xd6xd0 xcexc4 str = str.decode(gb2312) str uu4e2du6587 更进一步： s = 中文 s.deco

3、de(gb2312) uu4e2du6587 len(s) 4 len(s.decode(gb2312) 2 s = u中文 1名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 6 页 - - - - - - - - - len(s) 4 s = 中文 test len(s) 8 len(s.decode(gb2312) 6 s = 中文 test， len(s) 10 len(s.decode(gb2312) 7 可以看出，对于实际Non-ASCII编码存储的字符串，p

4、ython 可以正确的识别出其中的中文字符以及中文上下文中的标点符号。前缀“ u”表示“后面这个字符串“是一个Unicode 字符串”，这仅仅是一个声明，并不表示这个字符串就真的是Unicode 了；就好比某正太声称自己已满18 岁，但实际上他的真实年龄并不确定，现在体育界年龄造假可不稀罕幺! 那么声明成u 有什么作用呢？对于Python 来说，只要你声明某字符串是Unicode，它就会用Unicode 的一套机制对它进行处理。比方说，做字符串操作的时候会动用到内部的Unicode 处理函数，保存的时候以Unicode 字符（双字节）进行保存。等等。显而易见，对于一个实际上并不是Unicode

5、的字符串，做Unicode 动作的处理，是有可能会出问题的。u前缀只适用于你的字符串常量真的是 Unicode 的情况。三、中文字符的IO 操作用 python 处理字符串很容易，但是在处理中文的时候需要注意一些问题。比如：a = 我们是 python 爱好者 print a0 只能输出“我”字的前半部分，要想输出整个的“我”字还需要： b = a0:2 print b 才行，很不方便，并且当一段文本中同时有中英文如何处理？最好的办法就是转换为unicode。像这样： c = unicode(a, gb2312) print c0 这个时候c 的下标对应的就是每一个字符，不再是字节，并且

6、通过len(c)就可以获得字符数！还可以很方便的转换为其他编码，比如转换为utf-8 ： d = c.encode(utf-8) 四、和 2名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 6 页 - - - - - - - - - 将字符串看作是字节的序列，而则将其看作是字符的序列，单个字符可能占用多个字节；字节相对于字符，其在存储层次中更低一些。str 转换为unicode 要 decode，可以这样想，因为要把字节序列解释成字符序列，字节序列是底层的存放方式，解码（

7、 decode）成更高层的字符以便使用；同理，unicode 转换为str 要 encode，就象信息编码（ encode）后才存储一样： s.decode(encoding) to u.encode(encoding) to 例如： s = str type(s) type(s.decode() s = ustr type(s) type(s.encode() 处理中文数据时最好采用如下方式：1. Decode early（尽早 decode, 将文件中的内容转化成unicode 再进行下一步处理) 2. Unicode everywhere (程序内部处理都用unicode) 3. En

8、code late (最后 encode 回所需的 encoding, 例如把最终结果写进结果文件) 下面是一个简单的演示，用re 库查询一个中文字符串并打印： p = pile(unicode( 测试 (.*), gb2312) s = unicode( 测试一二三 , gb2312) for i in p.findall(s): print i.encode(gb2312) 一二三五、跨平台处理技巧如果一个project 必须在两个平台上开发，程序应该使用同样的encoding，比如要求所有的文件都使用UTF-8 ，如果实在不能统一（一般是为了满足许多所谓专家学者莫名其妙的要求），可以退

9、而求其次，用当前系统编码决定文件内的编码： import locale import string import re #根据当前系统的encoding 构造需要的编码取值 lang = string.upper(locale.setlocale(locale.LC_ALL, ) textencoding = None 3名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 6 页 - - - - - - - - - #检查编码的值是不是满足我们需要的情况 if re.matc

10、h(UTF-8, lang) != None: # UTF-8 编码textencoding = utf-8 elif re.match(rCHINESE|CP936, lang): # Windows 下的 GB 编码 textencoding = gb18030 elif re.match(rGB2312|GBK|GB18030, lang): # Linux 下的 GB 编码 textencoding = gb18030 else: # 其他情况，抛个错误吧 raise UnicodeError fd = file(filename, r) fulltextlist = fd.readl

11、ines() # 把每一行转换成unicode for each in len(fulltextlist): fulltextlisti = unicode(each, textencoding) fd.close() # 如果要打印的话，可以用text.encode(encoding)来恢复成多字节编码六、异常处理编码 encoding 发生在 Unicode 字符串转换为字节序列时，而解码 decoding 发生在字节序列转换为Unicode 字符串时（ encoding always takes a Unicode string and returns a bytes sequence,

12、 and decoding always takes a bytes sequence and returns a Unicode string）。UnicodeDecodeError UnicodeDncodeError 通常发生在将str 字符串解码为特定Unicode 字符串时。由于不同的编码只能映射部分 str 字符串到对应的Unicode 字符，所以遇到一些字符时解码会失败。UnicodeEncodeError UnicodeEncodeError通常发生在将Unicode 字符串编码为特定字节序列时。由于不同的编码只能映射部分 Unicode 字符到对应的str 字符串，所以遇到

13、一些字符时编码会失败。处理 python 编码转换时的UnicodeDecodeError异常python 提供的unicode 转换不像iconv 或是mbstowcs 之类的方便。如果转换一段unicode(1234 中文 ,ascii) 到 utf8，会直接出现UnicodeDecodeError 的错误。如果在你能预知字串符的编码的时候，比如你用unicode(1234 中文 , gbk) 就不会出现错误；不过很多时候，会出现CJK 混合的情况，如果要做到将一段CJK 文件转换成unicode 可能就行不通了。好在 python 的 codecs提供了 register_error 这

14、个功能：register_error(name, error_handler) 原理很简单，不过要先看unicode 是如何处理异常的。unicode 这个函数是将一段string 按输入的编码转换成目标的编码，如果出现了不与输入编码相符的，会出现一个4名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 6 页 - - - - - - - - - UnicodeDecodeError 的异常，通常有三种处理方法

15、：strict 、replace 、ignore ；默认是 strict,就是直接 raise UnicodeDecodeError 。通过 register_error，我们也可以有自己的处理方法，如果遇到与输入的编码不符的时候，我们就自己识别，比如GBK 、BIG5、JP的字符。 def cjk_replace(exc): if not isinstance(exc, UnicodeDecodeError): raise TypeError(dont know how to handle %r % exc) if exc.end + 1 len(exc.object): raise Typ

16、eError(unknown codec ,the object too short!) ch1 = ord(exc.objectexc.start:exc.end) newpos = exc.end + 1 ch2 = ord(exc.objectexc.start + 1:newpos) sk = exc.objectexc.start:newpos if 0 x81=ch1=0 xFE and (0 x40=ch2=0 x7E or 0 x7E=ch2=0 xFE): # GBK return (unicode(sk,cp936), newpos) if 0 x81=ch1=0 xFE

17、and (0 x40=ch2=0 x7E or 0 xA1=ch2=0 xFE): # BIG5 return (unicode(sk,big5), newpos) raise TypeError(unknown codec !) codecs.register_error(cjk_replace, cjk_replace) 我们的 cjk_replace 现在只能处理GBK 与 BIG5 的，因为我对编码也不是特别了解，只是大概知道 GBK 与 BIG5 的，不太了解JP的。在 cjk_replace 这个函数里，我们对不认识的文字进行手工识别，如果认识的编码，就用正确的方法，并返回编码后的

18、内容与新的pos，比如“ 1234 中文” ，在 pos为 4 的时候，会调用我们的cjk_replace，我们会返回一个从gbk 转换成 utf8 的“中”字，并返回下个正确的位置“文”的起始位置。当然了，处理“文”的时候，还会再调用一次。下面看看是如何使用的： filedata = open(test.txt,r).read() #gbk and big5 file data = unicode(filedata,ascii,cjk_replace).encode(utf8) 小结一个比较一般的Python 中文处理的流程：* 将欲处理的字符串用unicode 函数以正确的编码转换为Uni

19、code * 在程序中统一用Unicode 字符串进行操作* 输出时，使用encode方法，将Unicode 再转换为所需的编码有几点要说明一下：* 所谓“正确的”编码，指得是指定编码和字符串本身的编码必须一致。这个其实并不5名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 6 页 - - - - - - - - - 那么容易判断，一般来说，我们直接输入的简体中文字符，有两种可能的编码： GB2312 （GBK 、GB18030）、以及 UTF-8 * encode成本

20、地编码的时候，必须要保证目标编码中存在欲转换字符的内码。encode这种操作一般是通过一个本地编码对应Unicode 的编码转换表来进行的，事实上每个本地编码只能映射到Unicode 的一部分。但是映射的区域是不同的，比如Big-5 对应的 Unicode 的编码范围和 GBK对应的就不一样（实际上这两个编码有部分范围是重叠的）。所以，Unicode的一些字符（比如本身就是从GB2312 转换来的那些），可以映射到 GBK ，但未必可以映射到 Big-5，如果你想转换到Big-5 ，很有可能就会出现编码找不到的异常。但UTF-8 的码表范围实际上和Unicode 是一样的（只是编码形式

21、不同而已），所以，理论上来说，任何本地编码的字符，都可以被转换到UTF-8 * GB2312 、GBK 、GB18030 本质上是同一种编码标准。只是在前者的基础上扩充了字符数量* UTF-8 和 GB 编码不兼容* 出现编解码异常时可能需要自己编写编解码解析函数，这需要了解一些字符编码的知识参考资料1、 http:/ Python 的中文处理及其它http:/www.go4pro.org/?p=383、 Python 处理中文的时候的一些小技巧http:/ Unicode In Python, Completely Demystified. Kumar McMillan http:/ pyt

22、hon 中文处理好方法http:/ Python 的中文处理http:/ UnicodeDecodeError http:/wiki.python.org/moin/UnicodeDecodeError8、 UnicodeEncodeError http:/wiki.python.org/moin/UnicodeEncodeError9、如何处理python 编码转换时的UnicodeDecodeError 异常http:/ Codec registry and base classes http:/docs.python.org/library/codecs.html6名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页，共 6 页 - - - - - - - - -

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022年python的中文处理 2022 python 中文处理

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年python的中文处理 .pdf
链接地址：https://www.taowenge.com/p-34262903.html