面向大规模信息检索的中文分词技术研究29205.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《面向大规模信息检索的中文分词技术研究29205.pptx》由会员分享,可在线阅读,更多相关《面向大规模信息检索的中文分词技术研究29205.pptx(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、面向大规模信息检索的中文分词技术研究 王小飞指导教师:王斌前瞻研究中心2006-6-6提纲 l 一、引言l 二、面向大规模中文信息检索的分词算法 l 三、基于双数组Trie 树优化算法的词典 l 四、歧义消除l 五、未登录词识别l 六、查询扩展层面的覆盖歧义处理 l 七、实验结果和分析 l 八、总结一、引言 l 研究意义l 信息检索简介l 中文分词简介l 常用评测指标研究意义l 分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。l 目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。l 目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快
2、的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。速度:每秒几十k 几M 切分正确率:80%98%研究意义l 针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。l 信息检索:目前跟人们生活最接近,应用最频繁而且技术发展也最成熟的一项信息处理技术。信息检索简介 l 信息检索(Information Retrieval,IR):对收集的信息进行标引(Index),在接收到用户提交的查询请求以后在标引过的数据中进行查找,然后将查找到的相关结果信息返回给用户。用户接口文本操作查询操作标引检索排序数据库管理模块文本数据库
3、索引检出文献查询用户回馈逻辑视图用户需求逻辑视图倒排文档文本文本图1 检索过程示意图中文分词简介和困难l 中文分词(Chinese Word Segmentation):将一个汉字序列切分成一个一个单独的词。比如将“组合成分子时”切分成“组合/成/分子/时”。l 困难 分词规范:词的概念和不同应用的切分要求 分词算法:歧义消除和未登录词识别分词规范方面的困难l 汉语中词的界定“教育局长”:“教育/局长”?“教育局/长”?“教育/局/长”?核心词表如何收词?词的变形结构问题:“看/没/看见”,“相不相信”l 不同应用对词的切分规范要求不同 输入法:“这是”、“每一”、“并不”、“不多”、“不在”
4、、“就是”信息检索:“中国/科学院”、“计算/语言学”分词算法上的困难l 切分歧义的消除 交集型歧义(交叉歧义):“组合成”我们/小组/合成/氢气了;组合/成/分子;组合型歧义(覆盖歧义):“马上”他/从/马/上/下/来;我/马上/就/来/了;“学生会组织义演活动”:“学生/会/组织/义演/活动”or“学生会/组织/义演/活动”?分词算法上的困难l 未登录词识别 命名实体:数词、人名、地名、机构名、译名、时间、货币 缩略语和术语:“超女”、“非典”、“去离子水”新词:“酱紫”、“星盘”l 先识别已知词还是先识别未登录词 先识别已知词:“内塔尼亚/胡说”先识别未登录词:“胜利取决/于勇/气”常用
5、评测指标 l 召回率(Recall)分词:检索:l 准确率(Precision)分词:检索:常用评测指标 l TREC(Text Retrieval Conference)的评测指标 Interpolated Recall-Precision Averages:用插值法计算在11 个召回点(0.01.0)下相对的准确率。Average precision(non-interpolated):表示平均每篇相关文档被检索出来时的准确率。表示对于Query j 检索出的所有相关文档数,表示对于Query j,在第i 篇相关文档被检索出时总共检索出的结果文档数。常用评测指标 l TREC(Text R
6、etrieval Conference)的评测指标 Precision:在检索到x篇文档时的准确率。x为5、10、15、20 到1000不等。例如Precision:At 30 docs(通常用P30 表示)的值为0.5784 就是表示前30 篇文档中检索的准确率是0.5784。R-Precision:一个查询检索到R 篇文档时的准确率。R 为该查询真正相关的文档数。如果一个查询的相关文档数为30,在检索系统检索出的前30 篇文档中相关文档数为18,则该查询的R-Precision 为18/30 0.6。二、面向大规模中文信息检索的分词算法 l 分词方面的相关研究成果l 分词和大规模中文信息检
7、索之间的关系探讨l 适用于大规模中文信息检索的分词算法 分词方面的相关研究成果l 基于词典和规则的方法 l 基于大规模语料库的统计方法l 规则和统计结合的方法l 基于字的切分法 基于词典和规则的方法l 最大匹配 正向最大匹配、反向最大匹配和双向最大匹配 实现简单,而且切分速度快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。l 全切分 利用词典匹配,获得一个句子所有可能的切分结果。时空开销非常大。l 基于理解的分词算法 模拟人的理解过程,在分词过程中加入句法和语义分析来处理歧义问题。难以将各种语言信息组织成机器可直接读取的形式,还处在试验阶段 基于词典和规则的方法l 基于规则的消歧和未登
8、录词识别 规则消歧CONDITION FIND(R,NEXT,X)%X.ccat=wSELECT 1CONDITION FIND(L,NEAR,X)%X.yx=听|相信|同意SELECT 1CONDITION FIND(L,NEAR,X)%X.yx=假如|如果|假设|要是|若SELECT 2OTHERWISE SELECT 1 用规则识别未登录词 LocationName Person Name LocationNameKeyWordLocationName Location Name LocationNameKeyWordOrganizationName Organization Name
9、OrganizationNameKeyWordOrganizationName Country Name D|DD OrganizationNameKeyWord 基于大规模语料库的统计方法l N 元语法(N-gram)模型l 隐马尔可夫模型(HMM)对于一个随机事件,有一个状态序列X1X2,Xn,还有一个观察值序列Y1Y2,Yn。隐马模型可以形式化为一个五元组(S,O,A,B),其中:S=q1,q2,qn:状态值的有限集合O=v1,v2,vm:观察值的有限集合A=aij,aij=p(Xt+1=qj|Xt=qi):转移概率B=bik,bik=p(Ot=vk|Xt=qi):输出概率=,=p(X1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 大规模 信息 检索 中文 分词 技术研究 29205
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内