《并列构造识别研究.docx》由会员分享,可在线阅读,更多相关《并列构造识别研究.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、并列构造识别研究(电脑与信息技术杂志)2014年第三期并列构造分为有标记的并列构造和无标记的并列构造。吴云芳8指出,对于有标记的并列构造,处理的关键是确定并列构造的边界;对于无标记的并列构造,处理的关键是辨别同类词连用形式的歧义格式。下面介绍并列构造识别的三种方法:自底向上的图表算法、中心词驱动的并列构造识别、基于条件随机场的并列构造识别。1自底向上的图表算法自底向上的图表算法是Hara5等提出的,解决嵌套的和非嵌套的并列构造的识别。自底向上的图表算法即能够处理非嵌套的可以以处理嵌套的并列构造。该方法包含下面两个步骤:定义并列构造的语法构造;并列构造树分值的选取。1并列构造的语法构造并列构造的
2、语法构造是为了确保两个或多个并列成分的一致性。对于任何两个并列构造,它们或者是没有重叠的两个独立的并列构造非嵌套或者是一个并列构造是另一个并列构造的一个并列成分的内部部分嵌套。并列构造分为完全并列构造COORD和部分并列构造COORD,主要是为了处理包含三个或三个以上并列成分的并列构造。例如,a,b,c在句子中有下面三种形式的并列构造树,如图1所示。其中,图1a中的内部树bandc是部分并列构造,它与前面的并列成分a一起构成一个完好的并列构造,部分并列构造用COORD表示。图1b是嵌套的并列构造,bandc是完好的并列构造,a与bandc有构成一个并列构造,且bandc是该并列构造的一个并列成
3、分。图1c中不包含并列构造。2并列构造树分值的选取自底向上的图表算法能够有效的获取由一个句子产生的分值最高的并列构造树。并列构造树的分值取所有节点的加和,并且每个节点的分值的计算都是独立的。这里只将COORD和COORD两种类型的节点设为非空值。并列构造节点的得分是通过捕捉连词下方的序列对的对称性获得的。2中心词驱动的并列构造识别中心词驱动的并列构造识别算法是由吴云芳8提出的,该算法分为下述3个步骤:1利用边界特征词划定并列构造的大致范围。2对于名词性的右中心构造如图2所示,并列标记之前第一个词语被认定为前并列成分中心词,根据一系列类似性原则,在并列标记后搜索与前中心词类似度最大的词语作为后并
4、列成分中心词,后并列成分由此确定;对于动词性的左中心构造如图3所示,算法类似只是方向相反。3根据并列成分构造平衡与类似的原则,在并列构造前端搜索与后并列成分平衡性和类似性最大的词串作为前并列成分。步骤1中提到的边界特征词是指大多位于并列构造外部而不位于并列构造的内部的词语,假如位于并列构造内部,该词一般情况下只与其本身构成的并列构造。吴云芳将并列构造的边界特征词分为3类。前边界特征词、前边界特征词类、后边界特征词。其中,前边界特征词主要有:来自、遭到、得到、有利于、包括、具有、涉及、是、作为、如、诸如、例如、来等;前边界特征词类主要是连词C和介词P;后边界特征词主要有:等、等等、都、分别、均、
5、共同、也、之间、来、联合等。3基于条件随机场的并列构造的识别用于自然语言处理的统计机器学习模型有很多种,如:最大熵、隐马尔科夫、条件随机场等。条件随机场作为一个无向图模型在序列标注问题上比隐马尔科夫模型、最大熵模型等有向图模型识别的效果好18。王东波11,19运用条件随机场识别有标记的联合构造。条件随机场模型是Lafferty20在最大熵和隐马尔科夫模型的基础上提出的一种用于标注和切分的序列化标注模型。基于条件随机场Crf的并列构造识别的系统流程图,如图4所示。4结束语并列构造是一种特殊的语言形式,且并列构造识别是自然语言处理不可或缺的一部分。并列构造各并列成分的类似性除了构造平行性之外,还有中心语类似的特性。并列构造能得到很好的识别,很多自然语言处理的其它问题都能迎刃而解。但是,目前并列构造的识别效果并不理想。本文对已有的并列构造识别的研究方法和研究成果作了相应介绍,希望能对并列构造研究的学者给予帮助。
限制150内