语言程序设计Python (31).ppt

上传人：刘静

文档编号：84315373

上传时间：2023-04-04

格式：PPT

页数：8

大小：2.14MB

( 4.5 )

《语言程序设计Python (31).ppt》由会员分享，可在线阅读，更多相关《语言程序设计Python (31).ppt（8页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、jieba库的使用6.5.1 jieba库概述英文文本用字符串的split()方法中文文本中的单词不是通过空格或者标点符号分隔，因此需要通过分词获得单个的词jieba是优秀的中文分词第三方库，需要额外安装 china is a great country.split()china,is,a,great,country 中国是一个伟大的国家.split()中国是一个伟大的国家jieba库安装和使用(cmd命令行)pip install jieba jieba库分词原理利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果除了分词，用户还可以添加自定义的词组jieba

2、库3种分词模式：精确模式：将句子最精确地打开，适合文本分析全模式：把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。同时结巴分词支持繁体分词和自定义字典方法。6.5.2 jieba解析Jieba 库常用的分词函数函数函数描述描述jieba.lcut(s)精确模式，返回一个列表类型的分词结果jieba.lcut(中国是一个伟大的国家)中国,是,一个,伟大,的,国家jieba.lcut(s,cut_all=True)全模式，返回一个列表类型的分词结果，存在冗余jieba.lcut(中国是一个伟大的国家,cut_all=True)中国,国是,一个,伟大,的,国家6.5.2 jieba解析Jieba 库常用的分词函数函数函数描述描述jieba.lcut_for_search(s)搜索引擎模式，返回一个列表类型的分词结果，存在冗余jieba.lcut_for_search(“中华人民共和国是伟大的)中华,华人,人民,共和,共和国,中华人民共和国,是,伟大,的jieba.add_word(w)向分词词典增加新词wjieba.add_word(“给力)jieba.lcuts()

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语言程序设计Python 31 语言程序设计 Python 31

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：语言程序设计Python (31).ppt
链接地址：https://www.taowenge.com/p-84315373.html