摘要本文利用隐马尔可夫模型( Hidden Markov Model,简称.pdf
《摘要本文利用隐马尔可夫模型( Hidden Markov Model,简称.pdf》由会员分享,可在线阅读,更多相关《摘要本文利用隐马尔可夫模型( Hidden Markov Model,简称.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 基于隐马尔可夫模型和候选排序的汉语基本名词短语识别基于隐马尔可夫模型和候选排序的汉语基本名词短语识别*马艳军 刘 颖 清华大学中文系计算语言学研究室 北京 100084 E-mail:yj- 摘 要:本文利用隐马尔可夫模型(Hidden Markov Model,简称HMM),并利用A*启发式搜索算法得出N-Best最优路径作为汉语基本名词短语标注的候选集。利用边界匹配和基本名词短语模板对候选集进行过滤,并利用基本名词短语模板的可信度信息对候选集进行重新排序,取得了不错的标注效果。本文的实验模型有较强的鲁棒性和可扩展性,能够通过不断添加不同领域的知识来提高性能。关键词:汉语基本名词短语,隐马
2、尔可夫模型,基本名词短语模板,短语模板的可信度,过滤规则 Base Noun Phrase Identification Based on HMM and Candidates Sorting by Weighted Templates Ma Yanjun Liu Ying Computational Linguistics Laboratory,Department of Chinese Language and Literature,Tsinghua University,Beijing,100084 E-mail:yj- Abstract:This paper uses HMM appr
3、oach and heuristic decoder to get candidates of Chinese base noun phrase tagging.We filter the noisy candidates by applying boundary match rule and phrase template match rule.Furthermore,the candidates are sorted according to the reliability of the base noun phrase templates they matched.This is a r
4、obust model.The performance is expected to be further improved by adding new features.Key words:Chinese base noun phrase;HMM;base noun phrase template;the reliability of phrase template;filter rules 1 引言 基本名词短语是自然语言的重要结构单位,也是信息传递的基本单位。在自然语言处理领域,基本名词短语的识别和分析是自然语言浅层句法分析的重要任务之一,其分析结果可以简化句子的结构,从而降低句法分析的
5、复杂度;同时,基本名词短语的识别对于信息检索、*清华大学亚洲研究中心 2005 年度青年项目。自动问答和机器翻译等都有重要的意义。自然语言学习国际会议(CoNLL-2000)提出了语块共享任务,定义了英语中11种基本语块:NP,VP,ADJP,ADVP,PP,SBAR,CONJP,PRT,INTJ,LST,UCP4。语块的特点是语块之间不相交而且无嵌套1,即句子中的每个词能且只能属于一个语块而且每个语块的内部都不能包含其他的语块。英语基本名词短语的识别5已经得到了广泛的研究,在英语基本名词短语定义的问题上也有着比较一致的看法。而汉语基本名词短语的研究还相对滞后,并且针对不同的研究目标,对基本名
6、词短语的界定也不尽相同。比较有代表性的是从限定性定语的角度出发对基本名词短语下的定义7。本文的基本名词短语也与该定义基本一致。目前,基本名词短语识别的主要方法之一就是将其转化为与词性标注同构的问题2。对句子中的每个词,标注它在短语中所处的位置。从语言模型的角度看,基本名词短语识别的方法主要有三种:一是生成模型,以隐马尔可夫模型(HMM)为代表;另一种是最大熵模型,综合利用各种名词短语的特征3;还有基于相似度计算的模型,有代表性的如MBL(Memory-Based Learning)方法5。当然这些方法都有内在的联系并且有融合的趋势。国内学者也尝试利用上面的方法进行汉语短语识别。678 2 本文
7、基本名词短语的界定 结合汉语自身的特点和当前对英语名词短语、汉语基本名词短语的定义,我们将汉语基本名词短语(简称BaseNP)作如下界定:BaseNP?BaseNP+BaseNP BaseNP?BaseNP+名词 BaseNP?限定性定语+BaseNP BaseNP?限定性定语+名词 限定性定语?形容词|区别词|动词|名词|处所词|西文字串 在对句子中的基本名词短语进行识别时,对每个词而言,它只有四种可能的标注:名词短语外部(NNP)、名词短语左边界(LNP)、名词短语内部(INP)、名词短语右边界(RNP)。这样基本名词短语的识别问题就转化为对每个词进行标注的问题。例如对于汉语句子:迈向/v
8、 充满/v 希望/n 的/u 新/a 世纪/n/wp 一九九八年/nt 新年/nt 讲话/n 正确的标注为:NNP NNP NNP NNP LNP RNP NNP NNP LNP RNP 隐马尔可夫模型已经在词性标注方面取得了令人满意的结果,本文尝试利用隐马尔可夫模型进行基本名词短语的识别。3 基本名词短语模板的获取与可信度估计 本文利用词性信息和依存库*中词的依存信息抽取基本名词短语,并以所抽取的基本名词 *本文利用哈尔滨工业大学提供的 10000 句汉语依存树库获取基本名词短语模板,特此致谢!短语的词性序列作为基本名词短语的模板。利用获取的模板对测试语料进行标注,S为能够匹配当前基本名词短
9、语模板的词串集合,B是S中构成基本名词短语的词串集合。我们采用最大似然估计可以计算每条短语模板的可信度(Reliability)。对于每条基本名词短语模板PT,其可信度为:Reliability=|BS,|B|和|S|分别表示集合B和S中元素个数。基本名词短语模板PT|S|B|Reliability a n 2446 1451 59.32%a n n 374 175 46.79%v ns n n 141 11 7.80%表一:基本名词短语模板的可信度示例 由表一看出,能够与模板“a n”相匹配的词串在语料中出现了2446次,而其中是基本名词短语的为1451次,故其可信度为59.32。同时,我们
10、发现很多短语模板的可信度比较低,如何构造可信度较高的短语模板需要进一步研究。4 基于隐马尔可夫模型的基本名词短语标注实验 隐马尔可夫模型是由转移连接的状态集合,其中每个转移上都有两组概率:转移概率(transition probability)给出执行某个转移的概率;发射概率(emission probability)是当前状态输出有限字母表中某个符号的概率。给定带词性标注的句子S=w1w2wi.wn,其中wi(1 i n)代表句子中的第i个词;句子S的词性标记串为pos1pos2posiposn,其中posi(1 i n)代表句子中第i个词wi的词性。对S进行基本名词短语的标注,T=t1t2
11、titn(tiNNP,LNP,INP,RNP)是句子S对应的基本名词短语标注串。句子S标注为T的概率为:()(|)(|)()P T P S TP T SP S=(4.1)公式(4.1)的分子代表了词性标注的统计模型,对于分子的第二项,可以简化认为每个词的标注只与这个词的词性有关,即HMM中的发射概率:1(|)(|)niiiP S Tp pos t=(4.2)对于分子中的第一项,即HMM中的转移概率,我们采用三元语言模型,:121123()()(|)(|)niiiiP Tp t p ttp t t t=(4.3)正确标注串的概率为:1211122123*(|)argmax(|)argmax()(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 摘要本文利用隐马尔可夫模型 Hidden Markov Model 简称 摘要 本文 利用 隐马尔可夫 模型 Model 简称
限制150内