基于上下文相关的未知实体词识别方法-夏虎.pdf
《基于上下文相关的未知实体词识别方法-夏虎.pdf》由会员分享,可在线阅读,更多相关《基于上下文相关的未知实体词识别方法-夏虎.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第 45 卷 第 5 期 电 子 科 技 大 学 学 报 Vol.45 No.5 2016年 9月 Journal of University of Electronic Science and Technology of China Sep. 2016 复杂性科学 基于上下文相关的未知实体词识别方法 夏 虎1,2,黄文茜2(1. 电子科技大学大数据研究中心 成都 611731; 2. 电子科技大学互联网科学中心 成都 611731) 【 摘要 】 现有的未知实体词识别方法主要针对人名、地名、机构名等具有特定结构的实体词进行识别,而随着电子商务和社交网络的快速发展,出现了大量结构不确定的专有
2、领域未知实体词。针对该问题,提出两种基于上下文相关的未知词识别算法,通过计算词 (字 )和词 (字 )之间的上下文相关性,得到其潜在组合的支持度,并通过过滤模块过滤掉错误的组合,实现具有非确定型结构的未知实体词识别。实验表明,该算法具有较高的准确率,并且可以通过调整参数适应不同的应用场景。 关 键 词 关联规则 ; 上下文相关 ; 未知词识别 ; 词义消歧 中图分类号 TP181 文献标志码 A doi:10.3969/j.issn.1001-0548.2016.05.022 Unknown Words Recognition Based on Context-Sensitive Algori
3、thm XIA Hu1,2and HUANG Wen-qian2(1. Big Data Research Center, University of Electronic Science and Technology of China Chengdu 611731; 2. Web Sciences Center, University of Electronic Science and Technology of China Chengdu 611731) Abstract Existing unknown words recognition methods mainly focus on
4、unknown words with some specific structure, such as names, places and organizations. However, with the booming of e-commerce and social networking, more and more unknown entity words with uncertain structures appear in specific areas. In order to handle this problem, this paper presents two algorith
5、ms of unknown words recognition based on context-sensitive method. We first calculate correlations between any two words in sequence to get support of any potential combination, then filter out wrong combinations by filtering module, and achieve the recognition aiming at the non-deterministic struct
6、ure of unknown words. Experiment results indicate that two algorithms can achieve a high accuracy. Besides, they can adapt to different application scenarios by adjusting the parameters. Key words association rules; context-sensitivity; unknown word recognition; word sense disambiguation 收稿日期:2015 0
7、2 06;修回日期:2015 06 15 基金项目:国家自然科学基金 (61250110543);中央高校基本科研业务费 (ZYGX2013J079, ZYGX2014Z012, ZYGX2011J067);四川省科技项目(2012RZ0002, 2013TD0006) 作者简介:夏虎 (1981 ),男,博士,主要从事数据挖掘、复杂网络方面的研究 . 命名实体是文本中承载信息的重要语言单位,命名实体的识别在网络信息抽取、网络内容分析和知识工程等领域都占有非常重要的地位。传统的命名实体识别主要针对人名、地名、机构名以及产品命名实体等具有特定结构的实体词1。然而,随着互联网的快速发展,网络上出现
8、了大量结构不确定的专有领域未知实体词,例如电子商务中大量出现的新商品名称、网络用语“酱紫 (这样子 )、斑竹 (版主 )”等,这类未知词结构多样,没有特定的规律,用传统的未知词识别方法难以有效识别。 目前未知词识别领域的研究主要有 3种方法: 基于统计的方法、基于规则的方法以及两者结合的方法。基于统计的方法认为:如果若干个相邻的字或词经常同时出现,它们则可能是一个新词。这种方法简单高效易实现,但需要大量训练数据,而且由于未考虑不同词的构词能力2和构词模式,识别的准确率不高。基于规则的方法通过标注词典和成词规则来识别新词,这些规则往往需要专家针对特定领域来具体制定,该方法准确率高,但规则制定费时
9、费力,且不同领域需要重新制定相应规则,领域适应性差。针对上述两种方法中的问题,越来越多的研究者采用统计与规则相结合的思路,取得了许多显著的成果,本文采用的基于上下文相关的算法即为其中一种。 万方数据 电 子 科 技 大 学 学 报 第 45 卷 840一个字或词的上下文是指出现在它前后的那些字或词, 在文本中相邻的字词共同出现的次数越多,它们越有可能是一个“未知词” ,例如“清仓 /圣 /丽 /奴 /时尚 /女 /挎包” 、 “横款 /圣 /丽 /奴 /两用 /包” 、 “高级 /提花布 /深 /咖 /圣 /丽 /奴 /女 /挎包”的分词结果可以看出, “丽” 的上下文信息中总是包括 “圣”
10、和 “奴” ,也就是说“圣” 、 “丽” 、 “奴” 3个字经常依此顺序共同出现,而“圣丽奴”整体并没有固定的上下文信息,因此本文认为“圣丽奴”有较大概率为一个未知实体词。 以上述理论为基础,本文提出了两种基于上下文信息进行未知词识别的方法。其中,基于最大组合的上下文相关算法 (MC)利用统计的手段,获取由二元组、三元组、四元组、五元组构成的候选未知实体词集,然后利用上下文信息对候选未知实体词进行支持度过滤、歧义过滤和最大组合过滤,获取真正的未知实体词。 进一步,本文提出了一种基于关联规则的上下文相关算法 (FPC), 在 FP树构建和频繁模式挖掘过程中加入各“项” (分词后的字或词 )在文中
11、出现的下标信息,利用此信息保证挖掘出的频繁模式中各项在文中的相邻关系以及前后顺序。从而避免了传统FP-growth算法不能保证挖掘出各项之间原始的相邻关系和前后顺序而不适合用于未知实体词识别的问题。 实验结果表明,在某电子商务网站的 2 000个商品网页源文件上进行的 3个类别数据集上, 本文的两种方法均能有效地对结构不确定的专有领域未知实体词进行识别,具有较高的准确率。 1 相关研究 文献 3提出了一种基于角色标注的中文未登录词识别通用方法。该方法依据角色,即未登录词的内部组成成分、上下文及句子中的其他成分来识别未登录词。算法简单可行,具备较好的准确率和召回率,尤其适用于中国人名和音译名的识
12、别。 文献 4提出了一种隐马尔科夫模型 (hidden Markov model, HMM)和一个基于 HMM的块标注器,并在此基础上建立了命名实体识别系统 (NER)以识别姓名、时间以及数字量。系统整合了四方面的证据:词语包含的简单且确定性的内部特征,如大写、数字、触发器等内部语义特征以及外部上下文特征。该系统在蛋白基因 (MUC-6和 MUC-7)的英文命名实体识别任务中分别达到了 96.6%和 94.1%的准确率。 文献 5提出了一种基于支持向量机 (SVM)的命名实体识别系统。该系统从文档中提取名称、数字信息并将其分类成人名、组织名以及日期。该系统取得了较高的准确率,并且解决了传统 S
13、VM效率不高的问题。 文献 6则提出利用 SVM进行生物医学命名实体识别。 该系统采用了字词缓存以及 HMM状态两个新特征,在 GENIA语料库上取得了令人满意的结果。 文献 7提出了一种组合分类器的实验框架以识别命名实体。该框架组合了 4个不同的分类器:鲁棒的线性分类器、最大熵模型、迁移学习及隐马尔科夫模型。文献 8提出基于最大熵模型的命名实体识别系统,该系统直接利用整篇文档的全局信息来分类每一个具体的词,并且仅使用了一个分类器而不是二级分类器。 文献 9提出了一种基于网络资源的未登录词扩展识别方法。该方法利用统计的思想,以左右邻信息判断未登录词边界,对已识别出的二元候选未登录词进行扩展,找
14、出具有更完整语义的不限长度复合未登录词。该方法简单高效,但没有充分考虑不同词的构词能力和构词模式,容易因成词率低的高频词引发扩展错误,因此准确率不高。 文献 10提出了一种基于统计和规则的未登录词识别方法。该方法将文本分词后的碎片切分形成临时词典, 再利用规则和词频对其赋以不同的权值,最后用贪心算法得到碎片的最长路径,从而识别出未登录词,并进一步利用互信息提取若干个词组成未登录词 (组 )。 该方法能正确识别出碎片中的大部分未登录词,但是识别正确性依赖于分词性能且对人名的识别规则不够完善。 文献 11提出先将文本进行分词,再利用N-Grams方法得到候选未登录词集,之后通过概率统计的手段从中识
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 上下文 相关 未知 实体词 识别 方法 夏虎
限制150内