学习食品安全事件实体抽取模型分析.docx
《学习食品安全事件实体抽取模型分析.docx》由会员分享,可在线阅读,更多相关《学习食品安全事件实体抽取模型分析.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习食品安全事件实体抽取模型分析摘要:实体在非构造化文本中不仅与词汇具有密切的关系,而且是构成短语的关键部分,十分是实体本身具有丰富的语义性,能够为后续语义知识的深度挖掘奠定基础。为了更好地从食品安全事件文本中挖掘出愈加有价值和意义的知识,结合LSTM-CRF模型,笔者提出了食品安全事件实体抽取的基本流程,并构建了相应的食品安全事件实体抽取模型。在选取领域食品安全事件文本上,构建的食品安全事件实体抽取模型的调和平均值到达了相对能够接受的程度。基于深度学习的食品安全事件实体自动抽取模型不仅为实体的抽取提供了策略,而且在一定程度上验证了深度学习性能的整体状况。关键词:食品安全事件;实体;LSTM-
2、CRF1引言食品安全涉及到千家万户的亲身利益,因而怎样对食品安全进行全面、细致且有效的监管成为了控制食品安全事件发生的关键。通过构建细颗粒度的食品安全事件知识库是一种有效的方式和手段。在构建食品安全事件知识库的经过中,核心步骤是识别食品安全事件文本中的相关实体。由于实体在文本当中从形式上不仅是句法的有效构成部分,而且从语义上看扮演了极为重要的语义角色。所以,笔者基于经过人工标注的大规模带有命名实体的文本,结合BiLSTM-CRF这一深度模型,探究了食品安全事件中实体的识别问题。随着食品安全事件数据逐步的增加,目前针对食品安全事件文本进行的实体抽取主要基于新闻文本数据展开,主要通过机器学习的方法
3、进行。基于ICTCLAS对新闻文本的自动分词,首先,江美辉等界定了新闻文本中的时间、地点、主体、事件这四类实体,并完成了对相应实体的抽取1。其次,在抽取的实体基础上构建了实体关系网络。最后,构建了一体化的食品安全事件实体抽取和分析平台。基于1500万字构成的食品安全事件语料库,王东波等首先获取了食品安全事件实体的内部和外部特征2,其次制定了相应的抽取模板,并验证了模板的不同性能和特征。最后构建了基于条件随机场的食品安全事件实体抽取模型。许华等对医疗文本中实体的抽取与本研究相近3,该研究首先完成了对医疗语料的分词,其次基于相应的词性标记集,对文本进行了词性标注,最后基于规则完成了对医疗文本中实体
4、的抽取。基于统计获取的多特征,吴毅完成了对食品安全事件当中食品名称与诱因的实体的自动识别4。随着人工智能的兴起,基于深度学习的实体抽取逐步发展起来。例如,通过观察实体的分布特征,把深度信念网络有效扩展到神经网络上,冯蕴天等结合详细的实体抽取特征和任务,给出了一种基于深度学习的实体抽取框架5。通过分析实体所构成汉字的特征,利用深度学习模型能够自动开掘实体字与字之间的语义组合特征,Liang等利用BILSTM-CRF深度学习模型6,开掘字与字之间的语义特征,构建了基于深度学习的实体识别模型,并在公开的数据集上获得相对突出的成果。通过分析中文地名的分布特征,沈思等针对中文地名实体抽取的详细研究任务7
5、,充分利用RNN这一深度学习模型,完成了对中文地名的自动识别,并比拟基于字与基于词两种策略的优劣,通过详细的实验验证了基于字进行实体识别的有效性。上述基于深度学习的实体识别方法和技术,为本文构建基于深度学习模型的食品安全事件实体识别提供了直接而有效的借鉴。2食品安全事件语料和模型介绍2.1语料讲明通过对2195篇食品安全事件语料的分析,笔者定义了四类食品安全事件实体,即食品及食品安全事件实体、时间实体实体、人物及组织实体和地点实体,并通过人工的方式分别对以上四类实体进行了标注。为了将语料转化为可供神经网络模型训练和测试的格式,为了便于进行深度学习模型的训练,针对食品安全事件实体的内容特征,定义
6、了17位标记集进行标注,并根据82的比例将标注后语料分为训练文本和测试文本,在基于BiLSTM-CRF模型上进行自动标注测试。然后抽取了与“瘦肉精有关的食品安全事件新闻语料,在同样的模型上对其进行十折穿插训练。通过计算Precision准确率、Recall召回率和F-measureF值对BiLSTM-CRF模型的识别效果进行评价。本文定义了17位标记集B-f,I-f,E-f,S-f,B-l,I-l,E-l,S-l,B-t,I-t,E-t,S-t,B-p,I-p,E-p,S-p,O,以字或词为最小单位,对食品安全事件实体进行标记,各个标记的含义见下表1。例如对于食品及食品安全事件实体中的“瘦肉精
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学习 食品安全 事件 实体 抽取 模型 分析
限制150内