基于非线性规划理论的事件主题词过滤方法-高影繁.pdf
《基于非线性规划理论的事件主题词过滤方法-高影繁.pdf》由会员分享,可在线阅读,更多相关《基于非线性规划理论的事件主题词过滤方法-高影繁.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报 2018年1月 第37卷 第1期 Journal of the China Society for Scientific and Technical Information, Jan. 2018, 37(1): 61-67 收稿日期: 2017-03-15;修回日期: 2017-06-15 基金项目:国家科技支撑计划项目“面向科技情报分析的信息服务资源开发与支撑技术研究”(2015BAH25F01)。 作者简介:高影繁,女,1974年生,博士,副研究员,主要研究方向为文本挖掘、知识组织,E-mail:;苏娜,女,1983年生,博士,助理研究员,主要研究方向为计算情报学理论方法与应用,
2、科技评价与科技管理,E-mail: ;张运良,1979年生,博士,研究员,主要研究方向为知识组织,E-mail:;韩红旗,1971年生,博士,副研究员,主要研究方向为数据挖掘,E-mail:。 DOI: 10.3772/j.issn.1000-0135.2018.01.007 基于非线性规划理论的事件主题词过滤方法 高影繁1,苏 娜2,张运良1,韩红旗1(1. 中国科学技术信息研究所,北京 100038;2. 中国科学院科技战略咨询研究院,北京 100190) 摘 要 本文提出一种基于非线性规划理论的突发事件主题词自动过滤方法。首先以左右邻接熵为主题短语的边界识别依据,选出更具信息量的短语作为
3、候选主题词,然后通过将候选主题词回溯原始文档集合的方式过滤掉部分噪声词,最后采用基于非线性规划理论的函数,对抽取到的候选主题词按权重进行排序,选定更具突发事件类别表征能力的主题词。在几个类别突发事件语料上与传统的TF-IDF算法的对比实验结果说明了本文方法的有效性和实用价值。 关键词 突发事件主题词;左右邻接熵;噪声词过滤;非线性规划理论 A Method of Event Subject Words Filtering Based on Nonlinear Programming Theory GAO Yingfan1, SU Na2, ZHANG Yunliang1and HAN Hong
4、qi1(1. Institute of Scientific and Technical Information of China, Beijing 100038; 2. Institute of Science and Development, Chunese Acaolemy of Science, Beijing 100190) Abstract: This paper presents a method of event subject words filtering based on nonlinear programming theory. We identify the boun
5、daries of subject phrases by computing the left and right adjacent entropy. This method can help in selecting more informative phrases as candidate keywords. We counted the fre-quency of the candidate keywords by searching the original document sets. Some noise words are filtered using this method.
6、Finally, a nonlinear programming theory based function can be used to filter the noisy phrases. The experimental results proved that the method in this paper showed better performance com-pared with the classical TF-IDF filtering method. Key words: subject words of emergencies; left and right adjace
7、nt entropy; noise word filtering; nonlinear programming 1 引 言 进入20世纪以来,随着人口、资源与环境的矛盾日益加深,全世界范围内各种突发事件的发生频次与不良影响程度都呈持续上升的态势。我国地理环境复杂、人口众多,经济飞速发展的同时不可避免地产生了各种社会问题,各类突发事件不仅对人们的正常生活构成了威胁,而且影响了整个社会和谐有序的发展。对于我国应急管理基础研究近5-10年内要研究解决的科学问题,范维澄院士将其概括万方数据62 情 报 学 报 第37卷 为五大板块1,分别是:应急管理体系的复杂性科学问题;应急心理与行为的科学问题;突发
8、公共事件的信息获取及分析的科学问题; 多因素风险评估和多尺度预测预警的科学问题;复杂条件下应急决策的科学问题。在现今海量的突发事件数据背景下,“突发公共事件的信息获取及分析的科学问题”研究将为其他几个重要问题的解决提供重要支撑,而其中的基础环节就是突发事件主题词的抽取。事件主题词是指用以表征事件主题的规范化的词或词组,用户可以通过读取事件主题词来快速获取事件的主要信息。主题词识别与过滤是在事件语料文本集合中发现主题词并过滤掉不重要的噪声词的方法。 2 相关研究及本文目标 图书馆学中单个媒体在制作使用索引时所用到的词汇被称作关键词,关键词能够表达文献的主题内容,所以常用于学术论文或科技报告之中。
9、在自然语言处理研究中,遗传算法、支持向量机、最大熵模型、条件随机场2等机器学习方法已逐渐应用到关键词提取领域中,可分为有监督学习和无监督学习两类。Kea3是有监督学习的经典算法,算法的主要思想是根据文本中的标识如句、停顿词将文本转换为句子,再将句子分成词块(Token)。如果一个词块的开始和结束都不含有停用词,那么就可以将这个Token看作候选词,词的长度根据语料不同来选取不同的长度,再生成每个候选词的词根。Kea算法的主要不足在于对语义特征考虑不足,Popescu等4考虑了文章的不同结构对关键词抽取的影响如:引言、摘要、应用、参考文献,把这些作为关键词识别的特征。在无监督学习方法中,Text
10、Rank算法5很具代表性,它借鉴于PageRank的思想,但判定重要性的不再是网页而是一个个词语,在TxetRank算法中设定每个词只能给它周边k个词进行投票。该算法继承了PageRank算法中没有主题性计算的缺点,且依赖于分词软件的质量高低,所以对于新词和组合词基本上没有涉及。 在突发事件领域,将用于表征突发事件内容的关键词称为事件主题词。事件主题词抽取最常采用的方法是各种加权算法,通过计算主题词对文本主题的贡献大小来选定主题词,比如通过词本身的属性(词在文本中的绝对词频、相对词频、文中出现的位置)进行加权计算,或是根据文章与文章之间的引用关系进行加权计算。陈炯等6提出了一种基于加权信息论的
11、主题抽取方法,既考虑主题词在文本中所含的统计信息,又考虑了突发事件新闻文本中主题词出现的位置信息;张永奎等7从主题词的类别表征能力出发,提取了突发事件新闻文本中的类别主题词;杨建林8将共词分析方法引入关键词选择,提出了综合词频阈值、共现强度阈值两种策略的选词方案;金保华等9运用框架理论,选用词频、词性已经存在预案框架中的位置作为关键词特征值,再训练关键词权重调节因子来提高关键词提取的准确率。这些方法的主要问题是仅以中文分词后的实词(主要是名词)为主题词候选词时信息量有限,不足以表征突发事件的内容,因此选出的主题词质量不佳。研究者们开始将目光投向更具信息量的短语,即抽取短语作为突发事件主题词。郑
12、魁等10采用合并多单位关键词的方法获取突发事件热点信息关键词,但该方法合并关键词的复杂度较高、且噪声词判断阈值的给出主观性较强,在大规模文本下可用性不佳。樊梦佳等11采用基于语言规则和基于统计相结合的方法12,巧妙地将常用于新词发现的左右邻接熵法13用于短语识别,基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频-逆文档频率领域度筛选策略来进一步过滤获取的短语,该方法在候选短语识别上效率较高,但短语的类别鉴别能力14不足。 突发事件主题词应该具有两个特征:其一是包含足够信息量的短语,其二是短语具有类别属性,本文的目标就是从多个类别的突发事件语料中抽取具有类别表征的短语。
13、但是,由于左右邻接熵等常用的算法抽取到的候选短语噪声词众多,如何有效地过滤噪声词、将具有不同突发事件类别表征的短语保留下来,成为本文要解决的关键问题。 3 基于非线性规划理论的类别主题词过滤 3.1 非线性规划理论 文献15-16中对非线性规划问题有如下定义:考虑如下形式的极小(大)化问题, min f(x) (or max f(x) (1) 问题(MP) s.t. gi(x)0, i=1,2,m hp(x) =0, p =1,2,t (2) 万方数据第1期 高影繁等:基于非线性规划理论的事件主题词过滤方法 63 其中,f(x)、gi(x)、hp(x)都是定义在n维欧氏空间En中的实值函数,x
14、是En中的点(n维实向量),其分量为x1,x2,xn。如果所有这些函数都是线性函数,问题(MP)就被称为线性规划问题;如果这些函数中至少有一个是非线性函数,问题(MP)就被称为非线性规划问题。f(x)称为目标函数,式(2)为约束条件,称满足约束条件的向量x为问题(MP)的一个可行解(或可行点),称全体可行解组成的集合为问题(MP)的可行解集。如果极小(大)化问题中没有约束条件,则它被称为无约束的极小(大)化问题;如果约束条件是由一些线性函数组成的,此时(MP)被称为带有线性约束的极小(大)化问题;当约束条件不全是线性函数时,问题(MP)被称为一般的非线性规划问题。 3.2 非线性规划理论与主题
15、词过滤 本文假设:在已有突发事件类别体系下,类别主题词在类别间的分布越不均匀,则该主题词的类别鉴别能力越强,只出现在一个类别中的主题词具有对该类最强的鉴别能力,应该赋予更大的权重值。根据信息论中熵的性质,熵H的取值范围是0 H logn,各个事件在等概率发生时熵取得最大值logn;各个事件发生的概率相差越大,熵的值就越小。熵取最小值时,是在某一事件的概率为1而其他事件的概率均为0的情况。也就是要获得具有类别鉴别能力的主题词,可以归结为如下非线性规划问题。 一个求解目标函数的过程:求目标函数Q(P1, P2, Pn),它满足约束条件 P1, P2, Pn0 (3) 11njjP=(4) 当P1=
16、P2=Pn=1/n时目标函数达到极小值1/n; 当且仅当某个分量Pj=1,其余(n-1)个Pj分量为0时目标函数达到最大值1。 在满足上述的极值条件下,目标函数Q(P1, P2, Pn)不可能是线性函数,根据非线性规划问题定义,这是一个带有线性约束的极小化非线性规划问题,只不过这里已知的是极值条件,而要求的是目标函数。文献15的作者参阅文献16,提出函数21nijP=在满足式(3)式(4)的约束条件下,在且仅在P1=P2=Pn=1/n时达到极小值1/n,在且仅在某个分量Pj=1,其余(n-1)个Pj分量为0时达到最大值1。 针对含有n个类别和m个主题词的突发事件文档集,用Pij来表示主题词te
17、rmi出现在类别Cj中的概率(i=1,2,m; j=1,2,n),fij表示主题词termi在类别Cj中的发生频率,Fi表示主题词termi在全部类别中的发生频率之和,则有Pij=fij/Fi。 在得到满足非线性规划约束条件与极值条件的目标函数21nijjP=基础上,本文采用函数 21111nijjZnPn= -(5) 作为主题词过滤因子。可以看出,当主题词在类间等概率分布时,21nijjP=达到极小值1/n,根据式(5)计算,此时Z也达到极小值0;当主题词仅在某一类别中出现时,21nijjP=达到最大值1,此时Z也达到最大值1。主题词在类别间的其他分布时Z的取值介于0、1之间。 4 实验及结
18、果分析 4.1 数据来源 实验用突发事件案例来源于新浪、百度、搜狐、腾讯、凤凰网、新华网、人民网、观点中国、观察者等包含新闻事件的网站。实验中选择了“暴力恐怖”、“地质灾害”、“公路安全”、“环境污染”等四类突发事件,突发事件案例如图1所示。 四类突发事件集合的文本数和平均长度如表1所示。 4.2 数据预处理 数据预处理的分词工具选择的是开源的HanLP自然语言处理包,版本1.2.8。该版本开源工具训练自2014年人民日报切分语料,含35万词的词典,词语标注集兼容ICTPOS3.0汉语词性标记集,由一系列模型与算法组成的Java工具包,支持中文分词、命名实体识别等自然语言处理需求。本文的数据预
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 非线性 规划 理论 事件 主题词 过滤 方法 高影繁
限制150内