语言程序设计Python (31).ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《语言程序设计Python (31).ppt》由会员分享,可在线阅读,更多相关《语言程序设计Python (31).ppt(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、jieba库的使用6.5.1 jieba库概述英文文本用字符串的split()方法中文文本中的单词不是通过空格或者标点符号分隔,因此需要通过分词获得单个的词jieba是优秀的中文分词第三方库,需要额外安装 china is a great country.split()china,is,a,great,country 中国是一个伟大的国家.split()中国是一个伟大的国家jieba库安装和使用(cmd命令行)pip install jieba jieba库分词原理利用一个中文词库,确定中文字符之间的关联概率中文字符间概率大的组成词组,形成分词结果除了分词,用户还可以添加自定义的词组jieba
2、库3种分词模式:精确模式:将句子最精确地打开,适合文本分析全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。同时结巴分词支持繁体分词和自定义字典方法。6.5.2 jieba解析Jieba 库常用的分词函数函数函数描述描述jieba.lcut(s)精确模式,返回一个列表类型的分词结果jieba.lcut(中国是一个伟大的国家)中国,是,一个,伟大,的,国家jieba.lcut(s,cut_all=True)全模式,返回一个列表类型的分词结果,存在冗余jieba.lcut(中国是一个伟大的国家,cut_all=True)中国,国是,一个,伟大,的,国家6.5.2 jieba解析Jieba 库常用的分词函数函数函数描述描述jieba.lcut_for_search(s)搜索引擎模式,返回一个列表类型的分词结果,存在冗余jieba.lcut_for_search(“中华人民共和国是伟大的)中华,华人,人民,共和,共和国,中华人民共和国,是,伟大,的jieba.add_word(w)向分词词典增加新词wjieba.add_word(“给力)jieba.lcuts()
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言程序设计Python 31 语言程序设计 Python 31
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内