学习食品安全事件实体抽取模型分析.docx
学习食品安全事件实体抽取模型分析摘要:实体在非构造化文本中不仅与词汇具有密切的关系,而且是构成短语的关键部分,十分是实体本身具有丰富的语义性,能够为后续语义知识的深度挖掘奠定基础。为了更好地从食品安全事件文本中挖掘出愈加有价值和意义的知识,结合LSTM-CRF模型,笔者提出了食品安全事件实体抽取的基本流程,并构建了相应的食品安全事件实体抽取模型。在选取领域食品安全事件文本上,构建的食品安全事件实体抽取模型的调和平均值到达了相对能够接受的程度。基于深度学习的食品安全事件实体自动抽取模型不仅为实体的抽取提供了策略,而且在一定程度上验证了深度学习性能的整体状况。关键词:食品安全事件;实体;LSTM-CRF1引言食品安全涉及到千家万户的亲身利益,因而怎样对食品安全进行全面、细致且有效的监管成为了控制食品安全事件发生的关键。通过构建细颗粒度的食品安全事件知识库是一种有效的方式和手段。在构建食品安全事件知识库的经过中,核心步骤是识别食品安全事件文本中的相关实体。由于实体在文本当中从形式上不仅是句法的有效构成部分,而且从语义上看扮演了极为重要的语义角色。所以,笔者基于经过人工标注的大规模带有命名实体的文本,结合BiLSTM-CRF这一深度模型,探究了食品安全事件中实体的识别问题。随着食品安全事件数据逐步的增加,目前针对食品安全事件文本进行的实体抽取主要基于新闻文本数据展开,主要通过机器学习的方法进行。基于ICTCLAS对新闻文本的自动分词,首先,江美辉等界定了新闻文本中的时间、地点、主体、事件这四类实体,并完成了对相应实体的抽取1。其次,在抽取的实体基础上构建了实体关系网络。最后,构建了一体化的食品安全事件实体抽取和分析平台。基于1500万字构成的食品安全事件语料库,王东波等首先获取了食品安全事件实体的内部和外部特征2,其次制定了相应的抽取模板,并验证了模板的不同性能和特征。最后构建了基于条件随机场的食品安全事件实体抽取模型。许华等对医疗文本中实体的抽取与本研究相近3,该研究首先完成了对医疗语料的分词,其次基于相应的词性标记集,对文本进行了词性标注,最后基于规则完成了对医疗文本中实体的抽取。基于统计获取的多特征,吴毅完成了对食品安全事件当中食品名称与诱因的实体的自动识别4。随着人工智能的兴起,基于深度学习的实体抽取逐步发展起来。例如,通过观察实体的分布特征,把深度信念网络有效扩展到神经网络上,冯蕴天等结合详细的实体抽取特征和任务,给出了一种基于深度学习的实体抽取框架5。通过分析实体所构成汉字的特征,利用深度学习模型能够自动开掘实体字与字之间的语义组合特征,Liang等利用BILSTM-CRF深度学习模型6,开掘字与字之间的语义特征,构建了基于深度学习的实体识别模型,并在公开的数据集上获得相对突出的成果。通过分析中文地名的分布特征,沈思等针对中文地名实体抽取的详细研究任务7,充分利用RNN这一深度学习模型,完成了对中文地名的自动识别,并比拟基于字与基于词两种策略的优劣,通过详细的实验验证了基于字进行实体识别的有效性。上述基于深度学习的实体识别方法和技术,为本文构建基于深度学习模型的食品安全事件实体识别提供了直接而有效的借鉴。2食品安全事件语料和模型介绍2.1语料讲明通过对2195篇食品安全事件语料的分析,笔者定义了四类食品安全事件实体,即食品及食品安全事件实体、时间实体实体、人物及组织实体和地点实体,并通过人工的方式分别对以上四类实体进行了标注。为了将语料转化为可供神经网络模型训练和测试的格式,为了便于进行深度学习模型的训练,针对食品安全事件实体的内容特征,定义了17位标记集进行标注,并根据82的比例将标注后语料分为训练文本和测试文本,在基于BiLSTM-CRF模型上进行自动标注测试。然后抽取了与“瘦肉精有关的食品安全事件新闻语料,在同样的模型上对其进行十折穿插训练。通过计算Precision准确率、Recall召回率和F-measureF值对BiLSTM-CRF模型的识别效果进行评价。本文定义了17位标记集B-f,I-f,E-f,S-f,B-l,I-l,E-l,S-l,B-t,I-t,E-t,S-t,B-p,I-p,E-p,S-p,O,以字或词为最小单位,对食品安全事件实体进行标记,各个标记的含义见下表1。例如对于食品及食品安全事件实体中的“瘦肉精,对应的标记是“S-f;人物及组织实体中的“北京市工商局,相应的标记为“北京市B-p,“工商局E-p2.2模型介绍在深度学习系列模型中,循环神经网络RecurrentNeuralNetworkRNN是一种高效的序列标记人工神经网络8,该模型能够有效解决反应机制的问题,有效解决某一时刻下反应结果计算的问题,详细隐藏层和输出层的计算公式如下。ht=f(Uxt+WHt-1)1yt=g(Vht)2固然循环神经网络解决了反应机制的问题,但是对于长距离依靠的特征知识问题,这一深度学习模型整体表现效果相对较差,其突出表现为会造成梯度消失和梯度爆炸问题。在上述这一背景下,长期短期记忆网络LongShort-TermMemoryLSTM这一深度学习模型被提了出来9。LSTM模型通过记忆单元和门能够有效控制历时信息的存在和消失,详细使用的门包括输入控制门、输出控制门和遗忘门,详细记忆单元的计算如下。通过三个门,LSTM有效解决了RNN难以保留较远距离信息的问题,而BiLSTM双向LSTM模型能够有效控制正向和逆向的信息,进而实现存储两个方向的历时信息的目的。固然能够有效保留相应的历时信息,但是当LSTM输出时会存在非常强的依靠关系,因而会影响模型的整体性能。在这一背景下,LSTM和CRF组合模型被提了出来,这一组合模型不仅能够有效考虑分词、词性、实体等上下文的信息和知识特征,而且在输出时CRF还能有效解决输出独立标签之间的依靠问题。为了确保面向海量食品安全事件抽取实体的整体性能,在详细实体抽取的经过中,使用了BiLSTM-CRF模型进行实体识别的实验10。根据对深度学习系列模型识别效果的评价指标要求,本文对基于BiLSTM-CRF模型的食品安全事件实体自动识别性能的评价主要通过三个指标进行衡量:准确率Precision、召回率Recall、F值F-measure。详细计算公式如下。式中,A代表正确识别出的食品安全事件实体个数,B代表错误识别出的食品安全事件实体个数,C代表未识别出来的食品安全事件实体个数。其中F值能够有效平衡精准率和召回率之间的关系。3实体抽取结果分析本文基于人工标注的2195篇食品安全事件语料,构建了包含164万行tokens的深度学习语料库。在详细的实验中将语料库根据82的比例分为训练语料和测试语料进行实验。在详细实验经过中只使用了食品安全实体的字为基本单位。在详细实验经过中所使用的参数信息为:隐藏单元维度设置为300;batchsize的值设定为64;迭代次数界定为200;BiLSTM所使用的层数为3;earlystop界定为了100;特征数量设定成了6,而学习率的值为0.002。由于在基于深度学习训练实体识别经过中需要使用到GPU,因而对本文的实验环境介绍如下,CPU:Intel(R)Core(TM)i5-4590CPU3.30GHz内存:16GBDDR4;GPU:NVIDIAQuadroK1200显存:4GBGDDR5;操作系统:ubuntu16.04。服务器上高性能的GPU能够支持大规模的并行运算。基于BiLSTM-CRF模型的实体识别结果如表2所示。在大规模语料上,本文得到的所有食品安全事件文本当中识别的结果,在调和平均值上到达了65.12%,仅从字的角度来看,获得的模型整体性能较为合理。在详细训练经过中,Trainloss总体趋势如图1所示。为了更进一步的探究模型性能,并在小规模语料和主题比拟一致的语料上探究模型的性能。本文从现有语料中以瘦肉精为主题抽取了包含9000行的tokens深度学习语料在此模型中进行十折穿插训练,基于BiLSTM-CRF模型的在主题为瘦肉精的食品安全事件实体识别十折穿插实验结果如表3所示。从表3能够看出,在所选择的食品安全事件主题上最优的模型性能到达了90.11%,整体上到达了实用的程度,该模型的精准率到达了95.35%,这一组模型的性能指标充分讲明了深度学习与条件随机场组合模型的突出的性能。但是从表3能够看出,个别模型的性能并不是太突出,究其原因,是所选语料的规模过小,由于在小规模的语料中,语料中实体的分布会存在不平衡和偏颇的问题。4结语食品安全事件中的实体不仅具有多维度的语义知识,而且是构成应对食品安全事件应对策略的重要知识单元,食品安全事件中实体识别的精准度对整个食品安全事件的知识挖掘具有重要的意义和价值。笔者在所选取的特定语料文本上,构建了基于深度学习的食品安全事件实体模型,并对该模型的整体性能进行了3个指标上的分析。在后续的研究中,应适当扩展训练模型的语料规模,并增加新的特征以提高整个模型的性能。