基于依存关系的句法分析统计模型.pdf
《基于依存关系的句法分析统计模型.pdf》由会员分享,可在线阅读,更多相关《基于依存关系的句法分析统计模型.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第40卷第6期 中南大学学报(自然科学版)Vol.40 No.6 2009 年 12 月 Journal of Central South University(Science and Technology)Dec.2009 基于依存关系的句法分析统计模型 袁 里 驰1,2 (1.江西财经大学 信息学院数据与知识工程江西省重点实验室,江西 南昌,330013;2.中南大学 信息科学与工程学院,湖南 长沙,410083)摘 要:利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验。研究结果表明:利用依存关系、互信息对词聚类,能解决模型数据稀疏
2、问题;模型可同时考虑几种语义依存关系;该模型是一个词汇化的句法分析模型,能结合分词、词性标注进行句法分析;概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到有效解决;精确率和召回率分别为 86.96%和 85.25%,其综合指标 F 与 Collins 的头驱动句法分析模型的 F 相比提高 4.75%。关键词:自然语言处理;词聚类;中心词驱动;句法分析统计模型 中图分类号:TP391.1 文献标志码:A 文章编号:16727207(2009)06163006 Statistical language paring model based on depend
3、ency YUAN Li-chi1,2 (1.School of Information Technology,Jiangxi University of Finance and Economics,Nanchang 330013,China;2.School of Information Science and Engineering,Central South University,Changsha 410083,China)Abstract:By incorporating linguistic features such as semantic dependency and synta
4、ctic relations,a novel statistical Parsing model was proposed.The experiments were conducted for the refined statistical parser.The results show that the model is constructed on word cluster,so the problem of data sparseness is not serious.The model can take advantage of a few semantic dependencies
5、at the same time.The model is a parser based on lexicalized model,it is combined with segmentation and POS tagging model and thus a language parser is built.The questions caused by context-free hypothesis and ancestor-free hypothesis in probability context free grammar are solved well in this model.
6、It achieves 86.96%precision and recall 85.25%,F value is improved by 4.75%compared with that of the head-driven parsing model introduced by Collins.Key words:natural language processing;word clustering;head-driven parsing model;statistical parsing model 句法分析1,就是指根据给定的语法,自动地识别出句子所包含的句法单位和这些句法单位之间的关系。
7、句法分析是自然语言理解的一个关键组成部分,是对自然语言进行进一步语义分析的基础。随着自然语言应用的日益广泛,特别是对文本处理需求的进一步增加,句法分析的作用愈加突出,它几乎成为大多数自然语言处理应用的关键因素,如机器翻译、信息抽取、问答系统、检索系统等。句法分析的研究大体分为 2 种途径:基于规则的方法和基于统计的方法。基 于 规 则 的 方 法 是 以 知 识 为 主 体 的 理 性 主 义(Rationalism)方法2,以语言学理论为基础,强调语言学家对语言现象的认识,采用非歧义的规则形式描述 收稿日期:20090323;修回日期:20090612 基金项目:国家自然科学基金资助项目(6
8、0763001,60663007);中南大学博士后科学基金资助项目(2007 年)通信作者:袁里驰(1973),男,湖南邵阳人,博士,副教授,从事自然语言处理与语音识别研究;电话:13576126095;E-mail: 第 6 期 袁里驰:基于依存关系的句法分析统计模型 1631 或解释歧义行为或歧义特性。基于统计的句法分析1,3必须以某种方式对语言的形式和语法规则进行描述,而且这种描述必须可以通过对已知句法分析结果进行训练获得,这便是句法分析模型。基于树库的统计句法分析4-6是现代句法分析的主流技术。构建统计句法分析模型的目的是以概率的形式评价若干个可能的句法分析结果(通常表示为语法树形式)
9、并在这若干个可能的分析结果中直接选择一个最可能的结果。基于统计的句法分析模型其实质是一个评价句法分析结果的概率评价函数,即对于任意一个输入句子s和它的句法分析结果 t,给出一个条件概率 P(t|s),并由此找出该句法分析模型认为概率最大的句法分析结果,即找到tstPt)|(maxarg=,句法分析问题的样本空间为ST(其中:S 为所有句子的集合,T 为所有句法分析结果的集合)。统计句法分析面临的一个主要问题是如何发现和利用具有强消歧能力的语言特征知识79,同时保证语言知识的应用不会使模型的参数急剧膨胀而导致严重的数据稀疏问题。本模型从 3 个方面来融合丰富语言特征知识:a.利用依存关系、互信息
10、对词聚类,解决了模型数据稀疏问题;b.同时考虑几种语义依存关系;c.将句法分析模型与分词、词性标注模型结合进行句法分析。1 头驱动句法分析模型 Collins 使用 Penn tree bank 实现的头驱动的英语句法分析器10,是目前所知在相同的训练语料和测试集下获得的最好结果。Collins 所提出的句法分析模型是一种词汇化模型,其基本思想是在上下文无关规则中引入每个短语的核心词信息。Collins 把分析树的概率分解为 BaseNPs(B)概率和依存关系(D)概率的乘积:),|()|()|,()|(BSDPSBPSDBPSTP=。(1)式中:S 为带有词性标记的待分析的长度为 n 的英语
11、句子。词性标记采取最大熵标注方法,在 S 中去掉标点符号,并把 BaseNPs 用其中心词表示,形成S,则待分析的句子成为 词,词性标记 对的系列。=S),(,),(),(2211mmtwtwtwL,mn。分析树到依存结构的映射是依存模型的核心,该系统采取了以下步骤计算),|(BSDP。步骤 1 对于分析树中每个句法成分 P C1,C2,Cn,确定 P 的中心词,中心词从分析树的叶节点向上传播。步骤 2 中心词修饰关系的抽取,形成三元组,定义),()(jiRhjAF=,它表示在S中的第 j 个词是第jh个词的修饰词。它们之间具有关系jR,D定义为有依存关系的m元组。)(,),2(),1(mAF
12、AFAFDL=;(2)=mjBSjAFPBSDP1),|)(),|(。(3)模型中,非终结符形如X(x)。其中:x=w,t,w为短语对应核心词,t为核心词的词性标记,终结符形如t(w)。)()()()()()(1111mmnnrRrRhHlLlLhPLL。(4)式中:P为非终结符;h为核心结点所在短语的符号标记和词信息;Li为核心成分的左边成分;Ri为核心成分右边成分。由于引入词汇信息,不可避免将出现严重的数据稀疏问题。为了避免数据稀疏问题,Collins 采取把规则分解的方法,即在训练语料中把每一条规则分解成若干个对应其头节点的依存规则。已知规则:LL)()()()()(1111rRhHlL
13、lLhPnn)(mmrR,规则的概率由核心成分的概率、核心成分的左依存概率和右依存概率组成,即:+=),|)(),|(1,1hHPlLPhPHPniiLH+=1,1),|)(miiRhHPrRP。(5)头驱动的句法分析模型与 PCFG 模型最主要的区别为如下 2 个方面:a.在规则中引入核心结点的词汇信息。b.对上下文无关规则进行分解,弱化了上下文无关规则的结构信息,结构信息通过当前结点在核心结点的左或右来体现。引入词汇信息,无疑增强了句法分析的消歧能力。将上下文无关规则进行分解,一方面解决了引入词汇信息所带来的数据稀疏问题;另一方面,规则进行分解后可以重新组合出训练过程中未出现的上下文无关规
14、则,也在一定程度地解决了上下文无关规则的数据稀疏问题。但进一步的实验结果表明,句法分析时,规则的结构信息所具有的消歧能力强于词汇信息所起的作用。与 PCFG 的对比实验结果表明,使用式(5)所构建 中南大学学报(自然科学版)第 40 卷 1632 的句法分析器效果不如 PCFG 模型的效果。为此,Collins10在模型中增加了一个距离函数来补偿结构信息的缺失。距离信息考虑了 3 种情况:a.该成分前是否有成分。b.该成分前是否出现动词。c.该成分前是否出现标点符号。最终规则的概率评价函数为:+=)1(,|)(),|(1,1ihHPlLPhPHPlniiLH+=1,1)1(,|)(miriRi
15、hHPrRP。(6)头驱动句法分析模型加入词汇信息,提高了句法分析模型的歧义消解能力,但不可避免地又带来了数据稀疏问题,为此,Collins 采用回退法对数据进行平滑。在头驱动的句法分析模型中,解决数据稀疏问题是提高句法分析性能的关键。2 基于依存关系和互信息的词聚类 方法 在汉语的基本句型中,绝大多数句子的中心语是由动词(短语)担当,只有少数句子的中心语是由形容词或体词担当。同样,在汉语的基本句型中,绝大多数句子的主语和宾语都是由名词(短语)担当,只有少数句子主语和宾语是由形容词或动词(短语)担当。由于句子的中心语支配着句子中的其他成分(主语、宾语、状语和补语),所以,有必要对动词、名词和形
16、容词等各种词的语义知识进行分析并加以分类,进而从中总结出中心语与各被支配成分之间的语义关系。动词对名词类别的选择决定了什么类的名词能添入什么样的槽内,作者称之为动词对名词的制约选择。从原则上说,动词的概念定义就决定了动词的制约选择。例如,依据作用动词的概念定义,动词的施事必然是能发出使感官直接感受到具体活动的义类名词,其受事则必然使能接受这种活动的义类名词。其余依此类推。2.1 词的相似度定义 综上所述,根据语义依存关系11和语法特性对词进行分类很为必要。当然,这些分类可以由语言学家依据语言知识进行,但利用统计模型、结合语言学知识对词自动聚类1213的方法可能更可取。设w1和w2是具有依存关系
17、 rel 的词对,用三元组(w1,rel,w2)表示词对和它们之间的依存关系。则词对(w1,w2)在依存关系 rel 下的互信息定义为:)rel|()rel|()rel|,(lg),(212121relwpwpwwpwwI=。(7)其中:)rel(),rel,()rel|,(2121pwwpwwp=。这里计算要用到的概率使用极大似然估计(Maximum likeihood estimation)的方法统计:),(Count),rel,(Count),rel,(2121=wwwwp;),rel,(Count),rel,(Count)rel|(11=wwp;),rel,(Count),rel,(C
18、ount)rel|(22=wwp;),(Count),rel,(Count)rel(=p。(8)式中:*表示可能的词或依存关系,因而有 ),rel,(),rel,(Count),rel,(Count),rel,(Countlg),(212121relwpwwwwwI=。(9)定义 1 词对w1和w2在依存关系 rel 下的相似度定义为:=wwwwIwwIwPwwIwwIwPww),(),(max()(),(),(min()(),(sim212121rel。(10)定义 2 词对w1和w2之间的相似度则定义为:=rel21rel21),(sim)rel(),(simwwpww。(11)2.2 聚
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 依存 关系 句法 分析 统计 模型
限制150内