一个基于搜索的中文分词模型.pdf
《一个基于搜索的中文分词模型.pdf》由会员分享,可在线阅读,更多相关《一个基于搜索的中文分词模型.pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一个基于搜索的中文分词模型吕强钱培德(苏州大学计算机科学与技术学院)(江苏省计算机信息处理技术重点实验室)摘要:中文分词问题需要在方法上进行新的突破。本文分析了中文分词问题的难点,提出了中文分词主体不同将导致分词的接受信息量的不同,从而计算机分词应该注重分词规范的研究。提出了人脑分词的模型,作为计算机分词仿真的终极目标。提出了基于图搜索的中文分词模型,将现有分词方法统一在一个框架内,并且可以很好地承载中文分词问题现有的和潜在的领域知识。指出了中文分词问题是一个多目标优化问题。关键词:中文分词,搜索,优化A Search-based Model of Chinese Word Segmentat
2、ionL u QiangQian Peide(School of Computer Science and Technology,Soochow Univeristy)(Jiangsu Provincial Key Lab of Computer Information Processing)Abstract:Chinese word segmentation(CWS for short)is expecting new approaches toachieve higher quality.Some critical issues of CWS are analyzed in this pa
3、per,and it is pointedout that the difference of the executants of CWS leads to the different input information forthe segmentation.Therefore the specification of CWS should be focused on by the researchcommunity.A CWS model of human brain is raised,which can be the final target of computerCWS.A sear
4、ch-based model of CWS is proposed.Not only can this model unify the existingCWS approaches,but also integrate and take potential domain knowledge.Finally CWS isinterpreted as a Multi-objective optimization problem.Keywords:Chinese word segmentation,search,optimizationEmail: Tel:0512-67451516 Addr:江苏
5、省苏州市十梓街1号158信箱邮编21500611中文分词问题再认识21中文分词问题再认识1.1什么是中文分词问题我们从简单的几个定义开始形式化描述中文分词问题。定义 1 字符集=c1,.,ci,.,cn|ci表示相关的汉字字符,表示在字符集上的字符串集合。作为字符集,对中文信息处理来说,就是GB2312所对应的字符。从中文分词的概念和技术角度来看,字符集从GB2312扩展到GBK,或CJK,或UNICODE,或ISO10646,都对分词问题本身的研究没有本质的影响。定义 2 针对应用d(Application domain)的词汇集(词库):Vd=w1,.,wi,.,wv|wi,且应用d认为S
6、egd(wi)=1。一般地,我们可以省去针对某种应用d的限制,认为任何词库都是针对一种应用的,Vd简记为V。于是V表示在V的词汇串集合。定义 3 分词规范是一个函数Seg:K 7 1,0,K表示一定的语境,对于w,k K,Seg(w,k)=1就表示w是词,Seg(w,k)=0就表示w不是词。一般来说,当把K退化为一个词库V时,Seg(w,k)=1 iffw V otherwise Seg(w,k)=0。这里,Vd强调了依赖于某种应用d!Segd(.)与Seg(.)既关联又不同,前者可以来自于后者,也可以完全不受后者约束。这样,我们强调了语言的社会属性,所以认为任何先验的规范Seg(.)都不完全
7、限制针对某个后验应用d所需要认定的词;但是,这种认定在大多数情况下,应该符合先验规范。从这个角度来看,Vd是Seg(.)的最简单的一种表达(representation)和实现(implementation)。区分Vd和Seg(.)的重要意义在于,当我们评价不同的分词方法的时候,特别是分词结果的时候,一定要注意到作为前提条件的Vd或Seg(.)是否一致,即需要保证Vd或Seg(.)的知识来自同样的分词规范。接下来定义几个操作函数:定义 4 tail(s)=tail(c0c1.ck)=ck,head(s)=c0,cat(ci,cj)=cicj,ki=0,ci,cj s定义 5 char(s)=c
8、|c c s于是,中文分词问题可以描述为:1中文分词问题再认识3定义 6 对于待切分字符串s S,s是s=的一种分词切分,记为 s=c1.ci/ci+1.cj/cj+1./.cn/。定义 7 把分词知识标记为k,中文分词问题就是通过计算机求解这样一个映射:k:s 7 s(1)1.2当前的分词方法一般来说,中文分词问题的难点表述为:歧义切分和未登录词问题。但是,实际上,中文分词问题的难点还应该加上分词规范这一重点问题。分词规范、歧义切分和未登录词是中文分词问题的三大难点。而且,其难度性质不同,问题本身所处的层次也不同。同时,它们之间又有一定的关联。其中,分词规范问题是核心问题,而这恰恰分词研究忽
9、略的问题。分词问题的解决必然涉及到分词知识的提取和应用,从这个角度来说,分词问题是指:通过分词知识的计算机化,计算机主体把一个无间隔的汉字串映射到有间隔的汉字词串的问题。目前所说的分词方法有三大类,机械分词、统计分词和规则分词。实际上只是公式(1)中k的三种表现形式而已。1.所谓机械分词,把k实现为一本机器词典,这样的话,k这个映射就不能保证对待切分串s的唯一分割,从而导致所谓的歧义切分问题。这是最早的歧义切分的来源。机械分词就是如下这样的映射:kv:s 7,=s|s=w1/.wn/,wi V(2)很显然,对于s S,kv不能保证|=1。2.所谓统计分词,就是利用统计信息,找出s=arg ma
10、x sP(s),P(s)是 s的概率,可以有各种统计语言模型SLM来计算P(s)。一般来说,统计分词都会用到V。虽然有一种特殊情况,“无词典”分词1,实际上也是对训练语料库中的词用一种统计规律表示,从而形成一本不是真正语义意义上的“词典”,对分词问题来说,只是V的表达方式不同而已:即从枚举型表达转化为概率模型产生型而已。3.所谓规则分词,就是首先定义一组分词规则G,它可以是基于词法、句法、语法等等一系列于语言相关的规则,本质上是描述一个个pattern。一般来说,每个pattern都可以转化为一棵语法树或者计算机可以处理的数据结构。对于待切1中文分词问题再认识4分句子s,用G去扫描生成语法树之
11、类的数据结构,如果生成一个合法的结果就是切分结果。很显然,规则分词不能穷尽(哪怕是覆盖大量的)所有的语言现象,因为自然语言是一种社会现象,而不是严格规则现象。同时,不一致性问题对于规则分词来说,尤为严重。所以,需要更多的更大的上下文窗口来消除规则的不一致性。而这些上下文窗口的描述和判断,又是可能同分词问题难度不相上下的问题。统计方法,目前是自然语言处理的主流方法2,因为其结果最好。但是,统计方法的缺点在于:1.把语言知识通过处理共现外表(字形或词形)的方式来提取,显然这样的方法没有考察到字形或词形背后的语义属性,因而也是不能完全提取语境的信息,从而不可能根本解决分词问题。所以,统计方法不应该是
12、唯一可行的自然语言处理的方法。2.统计方法对小概率事件固有的偏见,对于自然语言问题来说,是一个致命的缺点。在自然语言中,只出现一次的表达,与出现千万次的表达,应该是同等价值的100%正确!不应该认为出现千万次的共现比出现百十次的共现更能够影响最后的提取的知识。至于说未出现的表达,它的一旦出现,也不应该只判定其是否符合或者已经符合多少现有的已经出现的事件。3.统计方法不能很好处理远距离的共现问题。由于受到计算复杂度的限制,统计方法一般只处理近距离的共现,例如n-gram模型,一般实际处理中,只实现到4-gram,也就是说,处理当前字或词的概率的上下文窗口只有最大4个语言单位。而自然语言中,往往需
13、要完整的语义群作为考察当前字或词的功能属性的背景,而不是绝对的几个数目的语言单位。1.3分词的接受信息量分词知识的源泉来自于人类的智慧。从某种程度上讲,分词系统的好坏本质上取决于计算机系统能够承载和实现多少人类的分词知识。我们不妨来看一看人类是如何分词的。首先,必须把人类分词至少要区分成两种情形:对书面汉语的分词和对非书面汉语的分词。区分这两种情形的目的,在于强调在这两种分词情形下,人类所接受的信息量是不同的,从而所使用到的分词知识的方式也有本质不同。对于非书面汉语的分词情形,人类的接受的信息是多模(multi-modal)且基于理解的(understandable),例如,语音语调、表情、周
14、围场景等等,都是重要的可靠的分1中文分词问题再认识5词信息来源。例如,人们在街上看到一块饭店的招牌,上书“阿三炒饭店”。这时,我们可以不费吹灰之力就可以切分“阿三/炒饭/店”,而不会去考虑是否某位员工“阿三”在“炒/饭店”的鱿鱼。因为,我们在这个场景中接受的信息是如此之丰富:它在一家店的招牌上,我们看到了是一家店铺,可能还有橱窗,我们还看到了食客模样的人进进出出.。对于书面汉语的分词情形,人类的接受的信息是单模(uni-modal)和基于理解的,这些信息是在一定语境中的字符串信息。同样对于“阿三炒饭店”,正确切分为“阿三/炒/饭店”还是“阿三/炒饭/店”,必须取决于上下文的语境和语义信息。如果
15、上下文的语境中,告诉了你,阿三是个人名,且这段文字出现在招牌上(且慢,如果不能理解了“招牌”的含义呢?!).。如果把中文分词的主体从人类改变为计算机,那么,计算机所接受的信息就是单模且基于存储的(storable),而不是基于理解的。计算机所接受到的字符信息只是面向存储的,本质上说,只是一种字符数据!这些数据必需经过某种表示器处理(viewer rendering)后表征给用户的,目前还没有别的附加信息依附在字符串或单个的字符上面,所以,计算机不能理解所有的这些字符数据背后的概念和含义。事实上,要正确理解这些字符数据背后的概念,可能还依赖于分词后的结果!总结下来,分词规范问题是设计问题,属于概
16、念层上的问题。歧义切分首先是分词规范的实现问题,属于技术层面上的问题。如何完全消解歧义切分,只在分词问题层面上是不可能完全解决的。而未登录词问题则是介于两者之间、或者说两者兼而有之,甚至从某种程度上讲,也可以是分词问题之外的问题。因为所谓未登录,是相对于分词系统所知的词库而言。如果说该分词系统能够在分词知识的层面上识别出一个“未登录”词,那么它就是“词库”中的词,只是表示形式不同而已。而分词规范问题最终转化为分词知识的可计算问题。重点研究分词规范的意义在于,分词规范实际上是定义“分词问题”这一个题目的唯一表述!不统一在一个分词规范基础上的分词研究,实际上就好比在做不同的题目,那结果比较的意义也
17、就要打折扣3。1.4人脑分词的模型我们不妨来讨论一下,人类的分词知识是如何习得的,虽然这只是过程性的描述,本文认为对计算机如何实现分词知识,以及实现哪些类型的分词知识是很有帮助的。人类的分词知识实际上是其生活知识在语言范畴内的一种表达或者应用,不仅仅是语言范畴内的智能。从低级到高级,人类的分词方法可以描述为:1中文分词问题再认识61.实例方法(Instance Approach),或称查表方法。也就是说,儿童阶段,对词的认知是依靠被告知,从而累积了不少实例。通过死记硬背,精确匹配,儿童完成了分词第一阶段认识。假定有s S的正确切分的实例句子 s,那么,如果待切分句子s0与s完全匹配,那么s0的
18、切分就使用 s的切分结果。这里的一个关键问题是:如何判定一个待切分字符串?一般来讲,应该是由标点符号断下来的自然切分单位。但是,具体地,逗号、句号和感叹号等等,对句断的作用绝然不同,所以,如何取得向S匹配的待切分句子s0,对计算机来说,还是一个比较复杂的问题。例 1 已知 s=“研究/生命/运动/现象”,那么,当s0=“研究生命运动现象”时,实例方法给出分词结果s0=s。2.模板方法(Pattern Approach),或称替换方法。把S进行分类,对具有同一类属性segi的s都具备如下的特性:其部分成分(一个或多个)wj都具有相同“分词”属性,这个wj可以被替换成其它没有被S包含的实例成分。如
19、果要判定待切分句子s0是否可以使用这种模式,只进行非替换部分的匹配:例如,在S中有个segi的s与s0匹配,除了wj部分对应的w0j。而wj和w0j又具有相同的“分词”属性,那么,就用这个s的切分结果作为s0的切分结果。所谓相同的“分词”属性,是指一些语法句法属性。例如,相同的词性等等。需要注意的是,虽然理论上S中的每一个s都可以是一个独立的类别,但是,需要大量的s实例来巩固这个类别可以被将来模板化套用的准确性,因为进行替换的必要的前提条件是非替换部分的完全匹配。例 2 已知 s1=“研究/生命/运动/现象/”,s2=“研究/生命/运动/规律/”。“现象”和“规律”被归类为分词属性wn=“名词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一个 基于 搜索 中文 分词 模型
限制150内