学术文本的结构功能识别——基于章节内容的识别-黄永.pdf
《学术文本的结构功能识别——基于章节内容的识别-黄永.pdf》由会员分享,可在线阅读,更多相关《学术文本的结构功能识别——基于章节内容的识别-黄永.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报 IssN looo一叭35第35卷第3期293300,2016年3月JOURNAL 0F THE CHINA SOCIETY FOR SCIENTlFICAND TECHNICAL INFORMATlON lSSN 10000135V0135 No3293300 March 2016doi:103772jissn1000-01352016003008学术文本的结构功能识别基于章节内容的识别u黄 永 陆 伟 程齐凯(武汉大学信息管理学院,信息检索与知识挖掘研究所,武汉430072)摘要 学术文本的结构功能是对学术文本结构及章节功能的阐述和概括,主要分为引言、相关研究、方法、实验、结论五
2、种。根据研究对象的不同,结构功能识别的方法可分为基于章节标题的识别、基于章节内容的识别和基于段落的识别三个层次。然而,基于章节标题的结构功能识别法存在较多的局限性,如数据集构建困难、含未登录词的标题的识别率较低等。因此本文以章节内容为研究对象,探讨学术文本结构功能识别的第二个层次,并将基于章节内容的结构功能识别问题转化为文本分类问题,在特征选择上,除了传统的词汇特征,还引入词汇的聚类特征,并使用支持向量机作为分类器在基于自然标注的实验数据集上进行了实证研究。实验结果表明相比较于只使用词汇特征,本文所提方法的识别效果有明显提升。关键词 结构功能文本分类词汇特征The Structure Func
3、tion Recognition of Academic TextChapter Content Based RecognitionHuang Yong,Lu Wei and Cheng Qikai(sco“矿,扣rm口lion Monogemen,形口n u凡i口e船iy,彤u口n 430072)Abstract The stnlcture function of the academic text refers to the summarization of academic text strucIure andsection fbnction,mainly dividing into f
4、ive parts,introduction and related research,method,experiment,and conclusionI)epending on the research object, three different analytjcal levels can be applied to recognize Ihe stmcture fhnction,namely titlebased,chapter-based and paragraph-based However,there are many 1imitations of the titlebased
5、method,suchas unknown words problem,dalaset conslll】cion diIhculny and so on。 This paper studies the chapter conent,recognizes thestructure fhnction of academic text at the chapterbased level and regards it as a text classification problem This paper applieshe bagof-word feature and clustering featu
6、fes into support Vecor machine(SVM),the resulis jmproved signj6cantlyKeywords stnlcture function,text classification,lexical feature1 引 言学术文本的结构功能,是指使用“引言”、“相关研究”、“方法”、“实验”、“结论”这五类标签对学术文本的结构及章节功能进行阐述和概括,它们是对文章思想不同方面的描述,如阐述研究依据、提出研究思想、得出研究结论等。在之前的研究中,收稿日期:2015年5月5日作者简介:黄永,男,1991年生,博士研究生,主要研究方向:信息检索、数
7、据挖掘。陆伟,男,1974年生,博士,教授,主要研究方向:信息检索、知识管理、数据挖掘等,Email:weiluwhueducn。程齐凯,男,1989年生,博士研究生,主要研究方向:信息检索、数据挖掘。1) 本文系国家自然科学基金面上项目“面向词汇功能的学术文本语义识别与知识图谱构建”(项目编号:71473183);教育部人文社会科学基地重大项目“面向细粒度的网络信息检索模型及框架构建研究”(项目编号:10JJD630014)的研究成果之一。一293万方数据情报学报第35卷第3期2叭6年3月笔者基于章节标题识别章节结构功能,将基于章节标题的结构功能识别问题转化为序列标注问题,并在人工标注的数据
8、集上取得了较高的准确率。但是这种方法具有很大的局限性,如训练集构建难,易出现过拟合,可扩展性较差;训练集中含未登录词的章节标题识别准确率较低;部分学术论文的内部章节不具顺序性等。为了解决上述问题,本文从章节内容出发,将结构功能识别问题转化为文本分类问题。词汇特征是文本分类问题中最常用的特征,词汇的出现、共现、共缺等是分类的主要依据。2。词汇特征也是文本分类问题中最直接明显的特征,它通过一些潜在因素作用于文本分类,例如主题分布、词汇的类型分布等。在词特征的基础上,本文首先使用深度学习方法在无标记的学术文本上进行无监督学习得到词的词向量(Word Embedding)一。,然后利用词向量对词汇进行
9、聚类,最后使用章节内容中聚类类别的比例作为词汇特征的辅助特征来解决基于章节内容的学术文本结构识别问题。在基于自然标注数据集上的实验表明,使用两种混合特征能取得令人满意学术文本结构功能识别效果。本文的主要贡献有以下几点:(1)考虑到学术文献章节标题的随意性以及基于章节标题识别方法的局限性,本文提出了从章节内容角度解决结构功能识别这一全新视角;(2)提出了一个基于文本分类的解决方法,在不考虑章节标题的情况下,仍然能够取得较好的识别效果;(3)在词汇特征的基础上,本文引入深度学习方法,取得具有统计显著性的效果提升。文章后续结构如下:第二部分对相关研究进行了调研,第三部分对所提出的方法进行阐述,第四部
10、分对数据集的构建、实验的设计以及最终的实验结果进行了论述,最后总结工作,并对下一步的研究工作做出展望。2 相关研究结构功能是在章节层次上对于文章结构和章节功能的一种描述,基于章节内容的结构功能识别是一种文本分类问题。传统的文本分类研究大都使用词汇作为分类特征,研究的核心在于不同的特征选择方法、不同模型口3的效果比较。除此之外,也有将词汇的潜在主题作为特征用于面向主题分类任一294一务中的相关研究。1。深度学习能够在浅层特征中根据不同的任务学习得到深层次的潜在影响因素,因此在各个领域取得了不错的效果拍o。例如在自然语言处理领域中,通过神经语言模型7。训练得到的使用多维浮点数来表示词汇的各个方面的
11、语义特性的词向量,不断地被用于各种自然语言处理任务1,如分词H1、词性标注1、命名实体识别。81、语义角色标注旧。等。也有其他深度学习方法在文本分类中的应用,如文献11使用约束波兹曼机(RBM)模型堆叠构成深度致信网络(DBN)对词汇特征进行深层次的特征提取,并将深层次特征传入支持向量机(SVM)中进行分类;或是使用RBM构建新的文档主题模型。1“,用来改善文本的分类效果。这些文本分类研究使用新的算法解决文本分类问题,使用深度学习方法完成了对于浅层词汇特征之下的深层次特征的抽取,可见对于文本分类的潜在影响因素的有效分析将有助于提升分类效果。本文在词汇特征的基础上,加人基于word2vec词向量
12、的聚类特征,用于基于章节内容的结构功能识别,在实验中取得了令人满意的效果。3 方法描述31 结构功能识别框架在学术文本中,句子是有意义的最小结构单元。句子围绕文章的主题,构成章节、段落,对文章的方法、实验、结论进行描述;章节构成文章,传递作者的观点、思想、知识;文章累积而成期刊、领域,反映整个领域的动态和热点。在这样的嵌套层次结构中,高层次结构单元对低层次结构单元施加约束,但都可以通过观察词汇分布在各层次上进行分析和研究。结构功能识别是一种章节层次的面向结构的文本分类,词汇特征是重要的分类依据。基于词汇特征的文本分类框架,如图l所示左图所示。假设数据集中词汇表中有y个词汇,则每一个段落可以表示
13、成为词汇的词频向量,也是图中的c。其中i1,2,m,J1,2,I,章节也是其包含段落的累积,使用特征选择方法得到最有用的词汇特征(F,F:,F。),最终使用文本分类算法,学习特征与结构功能类别的映射。不同的结构功能中,其包含的不同类型词汇的比例是不同的,因此本文希望通过聚类方法对相同万方数据(段落)金 (段落)量1丁 :(段落)察节溺汇特征结构功能固C11C21Cml图1 结构功能识别框架图2语言模型训练框架类型的词汇进行聚类,将聚类的类别在各章节中的分布作为深层次的特征。相比较于基于词汇特征的文本分类流程,本文提出分类框架如图1的右图所示,在词汇特征的基础上使用聚类方法对词汇类型进行聚类,使
14、用聚类特征和词汇特征混合进行最终的文本分类。右边框架图中虚线箭头表示词汇特征与聚类特征同时作用于最终的分类任务。32 词汇聚类不同结构功能的章节包含的词汇类型比例是不同的。词汇的类型一般是由词汇所在上下文决定的,词汇类型的划分可认为是具有相同上下文的词汇聚类,最基本的问题是词汇的表示。共现词汇的向量空间模型是最常用的词汇表示方法,但是其前提假设是词汇之间相互独立,且与顺序无关,而词汇在句子中的词汇类型与其在句子中的位置、角色紧(段落)(段落)(段落)(词汇凝类)结掏功畿么融密相关,显然使用空间向量模型表示词汇进行聚类是不可行的。词向量是一种根据词汇上下文训练出的分布式表示方式,一般是通过神经语
15、言模型进行训练,模型的框架结构一般具有以下几种,如图2所示。图(a)是最常用的神经语言模型的框架1,图(b)是连续词袋模型,去掉了最耗时的非线性隐藏层并且所有词共享隐藏层。图(c)是Skipgram模型41,与连续词袋模型相反,通过对邻近词的预测来进行模型训练。本文使用图(c)的框架对词向量进行训练,不仅缩减了传统模型中非线性的神经元运算消耗的时间,而且具有很高的准确率。该训练过程独立于整个识别框架,可以预先完成。神经语言模型通过使用词汇的上下文信息,将词汇映射到多维空间中去。具有类似的上下文的词汇在空间中的距离越近,也就是相同类型的词汇在空间中的距离越近。本文使用Kmeans聚类方法对一29
16、5一圈吣了;:圈兰;锄jLL万方数据情报学报第35卷第3期2016年3月相同类型的词汇聚类,同时计算不同类型词汇在不同章节中所占的比例,完成词汇聚类。33使用SVM进行分类支持向量机(sVM)在文本分类任务中有非常好的分类效果。由于文本分类的特征维度高,训练数据大,线性sVM可以克服该缺点,且分类效果与其他核函数的sVM相差不大,所以本文使用LIBLINEAR作为分类器。LIBLINEAR是从由Lin等副开发的LIBsVM独立出来的用于文本分类的线性SVM工具。完成章节的词汇聚类之后,可得到不同类型词汇在章节中所占的比例,随后以词汇频次和不同类型词汇比例为特征进行结构功能分类,其中词汇频次是指
17、词汇在章节中出现的次数。4实验及结果41数据集构建结构功能的训练数据集可以根据文章的章节标题自动构建。章节标题可以认为是作者对于章节结构功能的标注,使用以下标题(表1)与学术文本中的章节标题进行完全匹配,并将匹配得到的章节标注为对应的结构功能。表l 使用章节标题筛选结构功能结构功能 对应的章节标题引言 introduction相关研究 related work, lilerature review, background方法 method,methodology,model实验 experiment,result,datacDnc】usion conclusion and discussion
18、,结论discussion本文对ScienceDirect中20002013年计算机领域128本期刊26万篇论文全文进行抽取,最终得到约27万条样本,其中引言有13万条,相关研究和方法各2万多条,实验4万多条,结论约6万条,各个结构功能类别的样本分布十分不平衡。因此在抽取得到的样本中对每种结构功能随机抽取了5000条训练样本,构建出规模为25000的平衡数据集。42 特征选择特征选择过程主要包括词汇的特征选择和词汇聚类的类别数量的确定两个过程。对于词汇特征,首先将所有词汇作为特征进行特征抽取,然后使用信息增益进行特征选择。具体步骤如下:(1)预处理:将数据集中所有词进行转为小写,去除所有标点符
19、号、数字,使用Porterstemmer进行词干提取,去除停用词。(2)统计词频:统计每个词在数据集中出现的次数,将词频大于10的词汇作为词汇特征,得到一个大小为23 122的词汇表。(3)特征抽取:根据得到的词汇表对章节内容进行特征抽取,考虑到因章节长度带来的影响,以每一个词汇在章节中出现的频次与章节中所有词出现的频次的比值作为词汇特征值。(4)特征选择:本文使用的是信息增益,选择信息增益最大的K个词作为词汇特征。以下为不同K值对分类实验结果的影响。图3显示了不同的K值对于分类实验的效果的影响,纵坐标为五折交叉检验所得准确率。由图中可以明显看出,在K值取4000时,准确率达到第一个高峰,随着
20、K值的增大,准确率没有明显上升。所以本文选择信息增益最大的4000个词汇作为词汇特征。对于词汇的聚类特征,处理步骤如下:(1)预处理:对于计算机领域的128本期刊的正文进行分句、词干提取、小写转换、去除标点符号处理。(2)词向量训练:使用word2vec工具“,在计算机领域的128本期刊的正文上进行词向量训练。(3)词汇聚类与统计:基于训练得到的词向量,使用七一means将相同类型的词汇进行聚类,得到个类别,并计算出章节中不同类型词汇所占比例。以下为类别数对于分类效果的影响:如图4中所示,纵坐标为不同类别数生成的聚类特征的五折交叉检验的准确率。可以明显看出,在750时准确率逐步上升,在=750
21、时,准确率达到最高,在之后准确率上下波动。在本文之后的试验中,聚类类别数量设置为750。万方数据学术文本的结构功能识另l0塞668 086672 08668八oss,ss八颦A攀斛ossb瓣28 0866 16 08662吣苫572o86424 o86508o86432 O86404一荟 堇 蓉 董 堇 董 誊 荟 董 童 荟 董 董 蔓 荟 董 荟 荟 荟 荟 荟 董= 呙 高 寻 高 高 瓷 吝 吝 = 高 高 寺 诘 甚 高 磊 吕 吕 = 呙HN fq N图3 不同的K值对分类准确率的影响08一广、o697186o73296 72()08 o73444弋广吒7j848嘶,蝴嘶s嗲面爱淼
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学术 文本 结构 功能 识别 基于 章节 内容
限制150内