欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    面向大规模信息检索的中文分词技术研究29205.pptx

    • 资源ID:91089315       资源大小:872.67KB        全文页数:73页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    面向大规模信息检索的中文分词技术研究29205.pptx

    面向大规模信息检索的中文分词技术研究 王小飞指导教师:王斌前瞻研究中心2006-6-6提纲 l 一、引言l 二、面向大规模中文信息检索的分词算法 l 三、基于双数组Trie 树优化算法的词典 l 四、歧义消除l 五、未登录词识别l 六、查询扩展层面的覆盖歧义处理 l 七、实验结果和分析 l 八、总结一、引言 l 研究意义l 信息检索简介l 中文分词简介l 常用评测指标研究意义l 分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。l 目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。l 目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。速度:每秒几十k 几M 切分正确率:80%98%研究意义l 针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。l 信息检索:目前跟人们生活最接近,应用最频繁而且技术发展也最成熟的一项信息处理技术。信息检索简介 l 信息检索(Information Retrieval,IR):对收集的信息进行标引(Index),在接收到用户提交的查询请求以后在标引过的数据中进行查找,然后将查找到的相关结果信息返回给用户。用户接口文本操作查询操作标引检索排序数据库管理模块文本数据库索引检出文献查询用户回馈逻辑视图用户需求逻辑视图倒排文档文本文本图1 检索过程示意图中文分词简介和困难l 中文分词(Chinese Word Segmentation):将一个汉字序列切分成一个一个单独的词。比如将“组合成分子时”切分成“组合/成/分子/时”。l 困难 分词规范:词的概念和不同应用的切分要求 分词算法:歧义消除和未登录词识别分词规范方面的困难l 汉语中词的界定“教育局长”:“教育/局长”?“教育局/长”?“教育/局/长”?核心词表如何收词?词的变形结构问题:“看/没/看见”,“相不相信”l 不同应用对词的切分规范要求不同 输入法:“这是”、“每一”、“并不”、“不多”、“不在”、“就是”信息检索:“中国/科学院”、“计算/语言学”分词算法上的困难l 切分歧义的消除 交集型歧义(交叉歧义):“组合成”我们/小组/合成/氢气了;组合/成/分子;组合型歧义(覆盖歧义):“马上”他/从/马/上/下/来;我/马上/就/来/了;“学生会组织义演活动”:“学生/会/组织/义演/活动”or“学生会/组织/义演/活动”?分词算法上的困难l 未登录词识别 命名实体:数词、人名、地名、机构名、译名、时间、货币 缩略语和术语:“超女”、“非典”、“去离子水”新词:“酱紫”、“星盘”l 先识别已知词还是先识别未登录词 先识别已知词:“内塔尼亚/胡说”先识别未登录词:“胜利取决/于勇/气”常用评测指标 l 召回率(Recall)分词:检索:l 准确率(Precision)分词:检索:常用评测指标 l TREC(Text Retrieval Conference)的评测指标 Interpolated Recall-Precision Averages:用插值法计算在11 个召回点(0.01.0)下相对的准确率。Average precision(non-interpolated):表示平均每篇相关文档被检索出来时的准确率。表示对于Query j 检索出的所有相关文档数,表示对于Query j,在第i 篇相关文档被检索出时总共检索出的结果文档数。常用评测指标 l TREC(Text Retrieval Conference)的评测指标 Precision:在检索到x篇文档时的准确率。x为5、10、15、20 到1000不等。例如Precision:At 30 docs(通常用P30 表示)的值为0.5784 就是表示前30 篇文档中检索的准确率是0.5784。R-Precision:一个查询检索到R 篇文档时的准确率。R 为该查询真正相关的文档数。如果一个查询的相关文档数为30,在检索系统检索出的前30 篇文档中相关文档数为18,则该查询的R-Precision 为18/30 0.6。二、面向大规模中文信息检索的分词算法 l 分词方面的相关研究成果l 分词和大规模中文信息检索之间的关系探讨l 适用于大规模中文信息检索的分词算法 分词方面的相关研究成果l 基于词典和规则的方法 l 基于大规模语料库的统计方法l 规则和统计结合的方法l 基于字的切分法 基于词典和规则的方法l 最大匹配 正向最大匹配、反向最大匹配和双向最大匹配 实现简单,而且切分速度快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。l 全切分 利用词典匹配,获得一个句子所有可能的切分结果。时空开销非常大。l 基于理解的分词算法 模拟人的理解过程,在分词过程中加入句法和语义分析来处理歧义问题。难以将各种语言信息组织成机器可直接读取的形式,还处在试验阶段 基于词典和规则的方法l 基于规则的消歧和未登录词识别 规则消歧CONDITION FIND(R,NEXT,X)%X.ccat=wSELECT 1CONDITION FIND(L,NEAR,X)%X.yx=听|相信|同意SELECT 1CONDITION FIND(L,NEAR,X)%X.yx=假如|如果|假设|要是|若SELECT 2OTHERWISE SELECT 1 用规则识别未登录词 LocationName Person Name LocationNameKeyWordLocationName Location Name LocationNameKeyWordOrganizationName Organization Name OrganizationNameKeyWordOrganizationName Country Name D|DD OrganizationNameKeyWord 基于大规模语料库的统计方法l N 元语法(N-gram)模型l 隐马尔可夫模型(HMM)对于一个随机事件,有一个状态序列X1X2,Xn,还有一个观察值序列Y1Y2,Yn。隐马模型可以形式化为一个五元组(S,O,A,B),其中:S=q1,q2,qn:状态值的有限集合O=v1,v2,vm:观察值的有限集合A=aij,aij=p(Xt+1=qj|Xt=qi):转移概率B=bik,bik=p(Ot=vk|Xt=qi):输出概率=,=p(X1=qi):初始状态分布基于大规模语料库的统计方法l 互信息(MI,Mutual Information)MI 越大,表示两个字之间的结合越紧密。反之,断开的可能性越大。当x 与y 关系强时,MI(x,y)=0;x与y关系弱时,MI(x,y)0;而当MI(x,y)0 时,x与y称为“互补分布”。l 最大熵模型(ME,Max Entropy)在已知条件下选择一个合适的概率分布来预测事件。规则和统计结合的方法l 通常利用词典进行初切分,然后用其它的概率统计方法和简单规则消歧和进行未登录词识别。l 比如:利用词典匹配进行初切分得到一个切分词图,然后利用词频信息求词图N 条最短路径的N-最短路径法。最大匹配算法、state-of-the-art 分类器和支持向量机的结合。通过词典匹配找出所有交叉歧义,利用Bigram 语言模型或其变形来消除歧义。基于字的切分方法N 元切分法(N-gram):对一个字符串序列以N 为一个切分单位进行切分。如二元切分法:“ABCDEFG”“ABCDEFG”交叉二元切分法(Overlapping Bigram):“ABCDEFG”“ABBCCDDEEFFG”简单快速,但会产生大量无意义的标引词,导致标引产生的索引文件的空间,以及检索和进行标引的时间都大大增加。同时,因为它的切分单位并非语言学意义上的词语,所以也会导致检索的查准率下降。分词和大规模中文信息检索之间的关系探讨l 在当前的信息检索技术中,中文切分是必要的。l 问题 是否需要按语言学意义上的词进行切分。文档和查询二者的切分方法是否需要一致。是否检索系统使用的分词算法切分精度越高其检索结果就越好。分词和大规模中文信息检索之间的关系探讨表1.TREC5 和TREC6 中文信息检索实验比较 分词和大规模中文信息检索之间的关系探讨l 基于字的切分:单字切分,二元切分和交叉二元切分 l 基于词的切分:基于词典的匹配和基于统计的方法 l 7 组关于切分方法的实验比较结论:字比词好:3 组;词比字好:3 组;二者差不多:1 组l 3 组关于切分一致的实验比较结论:切分方法一致更好:1 组 切分方法不一致的更好:2 组l 查询是基于字的切分时,文档是最大匹配切分的结果更好。l 查询是基于词的切分时,文档是基于字的切分的结果更好。分词和大规模中文信息检索之间的关系探讨l 两组实验:1 基于单字切分、交叉二元切分和利用ICTCLAS 系统切分的检索性能比较。文档和查询采用同一种切分方法。2 基于单字切分、交叉二元切分和利用ICTCLAS 系统切分的检索性能比较。查询采用人工切分的方法。实验环境:数据:北大提供的中文网页测试集CWT 部分数据。检索系统:麻州大学和卡内基梅隆大学合作开发的检索工具包Lemur 分词和大规模中文信息检索之间的关系探讨表2 实验1 的结果分词和大规模中文信息检索之间的关系探讨查询切分文档切分人工切分(Average precision/R-Precision)和文档切分方法一致(Average precision/R-Precision)单字切分 0.3021/0.3511 0.3192/0.3565交叉二元切分 0.3312/0.3756 0.3427/0.3823ICTCLAS 0.3496/0.3812 0.3583/3872表3 实验2 的结果分词和大规模中文信息检索之间的关系探讨分词精度与检索性能的实验比较(Fuchun Peng 等,2002)测试数据:TREC-5 和TREC-6 的中文测试集 检索系统:OKAPI 系统 三种分词算法:基于词典的前向最大匹配71%和85%基于文本压缩的PPM 算法90%和95%基于EM的自监督算法44%,49%,53%,56%,59%,70%,75%,77%分词和大规模中文信息检索之间的关系探讨图2 Kd=10 时的12 组检索结果比较 分词和大规模中文信息检索之间的关系探讨原因:1.查询切分和文档切分采用相同的分词算法,有一些文件切分错误的词,在查询时也遇到相同的切分错误,所以即使切分阶段错误,但最后相同错误匹配,使得仍然可以正确检索到;2.有些词被错误的切分成几个部分,尽管这样会导致分词正确率下降,但对于检索来说,最后可以通过结果合并得到正确的结果,分词的错误并不影响检索的性能;3.分词测得的准确率高低并不是绝对的,有时跟用标准答案有关。这涉及到对词的定义问题,有些标准答案认为是该切分的词,实际上不切分用于检索更加准确一些。如:“国 内”vs”国内“、“民进党团”vs”民进党团“vs”民进党 团“适用于大规模中文信息检索的分词算法1.分词算法的时间性能要比较高。尤其是现在的web 搜索,实时性要求很高。所以作为中文信息处理基础的分词首先必须占用尽可能少的时间。2.分词正确率的提高并不一定带来检索性能的提高。分词到达一定精度之后,对中文信息检索的影响不再会很明显,虽然仍然还是有一些影响,但是这已经不是CIR 的性能瓶颈。所以片面的一味追求高准确率的分词算法并不是很适合大规模中文信息检索。在时间和精度之间存在矛盾无法兼顾的情况下,我们需要在二者之间找到一个合适的平衡点。3.切分的颗粒度仍然可以依照长词优先准则,但是需要在查询扩展层面进行相关后续处理。在信息检索中,分词算法只需要集中精力考虑如何消除交叉歧义。对于覆盖歧义,我们可以利用词典的二次索引和查询扩展来解决。4.未登录词识别的准确率要比召回率更加重要。要尽量保证未登录词识别时不进行错误结合,避免因此切分出错误的未登录词。如果将单字错误的结合成未登录词了,则有可能导致无法正确检索到相应的文档。适用于大规模中文信息检索的分词算法待切分文本初切分结果核心词典消除交叉歧义未登录词识别新词词典切分结果交叉歧义检测图3 面向大规模中文信息检索的分词算法流程图 三、基于双数组Trie 树优化算法的词典 图4.传统的Trie 树结构转换成两个线性数组三、基于双数组Trie 树优化算法的词典 s tcbasescheckstc图4.双数组Trie 树的状态转移示意图三、基于双数组Trie 树优化算法的词典l 数组构造的基本思想:对6763 个常用汉字根据其内码相应的赋予从1 6763 的序列码,放入base1-base6763。若首字序列码是i 的词语有n 个,设所有第二个字的序列码依次为a1,a2,a3,an,则这n 个第二字在base 数组中的位置依次为 basei+a1,basei+a2,basei+an。依次类推第三字、第四字第k字的位置。如果basei 和checki 同为0,表示位置i 为空;如果basei 为负值,表示该状态为一个词语。三、基于双数组Trie 树优化算法的词典 CDBAEFSG H I JK L以前的处理顺序:S-A-B-C-D-E-F-G-H-I-J-K-L加入优化策略之后的处理顺序:S-A-C-B-F-D-E-G-H-I-J-K-L三、基于双数组Trie 树优化算法的词典 实验环境:1.CPU 1.5G,内存512M,操作系统为Windows XP 2.词典词条总数:757843.所有算法均用c+实现。实验一 分别用未加入优化策略的双数组Trie 树(Double-Array Trie)算法与优化后的双数组Trie 树(Double-Array Trie)算法生成词典的双数组文件,比较空间利用率。结果:未加入优化策略生成的数组长度为140438,加入优化策略后生成的数组长度为114624,数组长度减少了2 万5 千多。数组的空间利用率由85.44%提高到91.27%。三、基于双数组Trie 树优化算法的词典 实验二 比较双字Hash 索引机制算法和优化的双数组Trie 树(Double-Array Trie)算法查找词语的速度。

    注意事项

    本文(面向大规模信息检索的中文分词技术研究29205.pptx)为本站会员(jix****n11)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开