基于模式的语义信息抽取及应用研究大学学位论文.doc
《基于模式的语义信息抽取及应用研究大学学位论文.doc》由会员分享,可在线阅读,更多相关《基于模式的语义信息抽取及应用研究大学学位论文.doc(95页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、论文题目:基于模式的语义信息抽取及应用研究基于模式的语义信息抽取及应用研究Semantic information extraction technology and application based on patternsMaster Degree Candidate: Wang ShuangSupervisor: Sun YiSchool of Computer &Comunication EngineeringUniversity of Science and Technology Beijing30 Xueyuan Road,Haidian DistrictBeijing 10008
2、3,P.R.CHINA北京科技大学硕士学位论文致 谢本课题能够顺利完成,与我所得到的多方面的无私而热情的帮助是分不开的。我首先要感谢我的导师孙义教授。在本人读研期间,孙老师无论在学习还是在生活上,都给予了无微不至的关心。在整个毕业论文完成过程中,孙老师定期了解课题进展,积极提出宝贵意见,在老师严谨治学、精益求精的工作作风中体会到了老师崇高的人格魅力。另外我还要感谢实验室的另外两位老师张德政老师和刘宏岚老师,感谢张老师和刘老师对我的鼓励和肯定。张老师积极的人生态度和拼搏精神,对我们产生深远影响,同时感谢张老师为我们提供的良好的工作和学习环境。我还要感谢帮助和鼓励过我的每一位同学,他们是韦仕伟、于
3、留宝、付彬、华镇。感谢在这近三年时间里给予我知识的老师们,正是由于他们的辛勤施教,使我学到了许多宝贵的知识,能够顺利完成学业。真诚感谢我的父母、姐姐和朋友们。在他们的鼓励下,我勇敢前进,克服很多困难。他们的关心与帮助是我学习和生活最大力量来源。最后,感谢所有在百忙之中参加我论文答辩的老师们,在此致以我崇高的敬意和衷心的感谢。- XIII -摘 要中医学作为中国特色的传统医学具有重要的社会价值,但是由于中医学理论体系的复杂性和特殊性,对中医理论和技术的全面把握需要较长的时间。特别是经过多年临床实践,而且拥有多年中医实践经验的专家,很好的反映出了中医学的特色。从而可以通过研究这些医案,进而了解中医
4、学的方法和理论,从而快速、全面地了解中医理论和技术。面对海量文本形式的医案,目前普遍采用手工填写结构化采集模板的方法结构化病案信息,不仅耗费大量人力物力,而且不能反应各个专家的特点。因此,本文主要研究如何通过计算机技术自动结构化文本形式的病案信息,从而为挖掘名老中医的临床经验和诊疗思路打下基础。本文针对中医病案文本信息的特点,从多个方面、不同角度对基于中医病案信息的自动抽取进行了深入研究,实现了一个基于模式匹配的医案信息自动抽取系统。本文的主要工作包括以下几个方面:1、综述信息抽取及相关技术方法,主要内容包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的分析。2、重点研究了基于聚类
5、的模式获取问题,以及基于模式的中医医案的信息抽取问题。实现了利用机器学习方法自动获取模式,利用模式识别文本中的人名、地名、时间以及实体间关系信息。3、设计并实现了一个基于中医医案的信息抽取原型系统。该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。关键词:自然语言处理,信息抽取,模式生成,模式匹配Semantic information extraction technology and application based on patternsAbstractTraditional Chinese medicine as a Chinese traditional med
6、icine has important social value .Medical records as the doctor clinical thinking and treatment based on syndrome differentiation process records, is a concrete reflection of comprehensive application forms of traditional Chinese medicine. Pattern matching is a commonly used method in information ex
7、traction system, how to generate the model is the key problem in the field of information extraction. This paper presents a method of clustering based machine learning, the system can automatic pattern acquisition from text. The application of this method in traditional Chinese medical experiments i
8、n the literature, has achieved a good result. According to the characteristicsof text informationofmedical records, Study is conducted for theautomatic extraction ofChinese medical recordinformation based onmany aspects,from different angles, amedical informationautomatic extraction system ofpattern
9、 matching.The main work of this paperinclude the following aspects:1. Summary of informationextractionand relatedtechniques, The main contentsinclude therelated concepts introduced, Technicalterminologyexplanation, also includes theanalysis of all kinds oftechnology. 2. Focus on the information extr
10、actionproblembased on the pattern oftraditional Chinese Medicine, Construction of patternlibrary.3. The design and implementation of aprototype systembased oninformation extractionoftraditional Chinese medicine.The system provides amethodfor the user touse,can be achieved on thetraditional Chinese m
11、edicineinformation extractionis verygood.Key Words:Natural Language Processing , Information Extraction,Pattern Acquisition,Pattern Matching(用英文逗号“,”分隔)目 录致 谢I摘 要IIIAbstractV插图和附表清单XI1 绪论11.1 课题背景11.1.1 课题的来源,目的和意义11.1.2 课题的研究内容11.2 论文的主要工作21.3 本文的组织结构22 信息抽取模式学习系统综述32.1 信息抽取模式学习系统分类32.2 基于人工语料标注的IE
12、模式学习系统32.2.1 基于人工语料标注的IE模式学习系统的原理32.3 基于人工语料分类的IE模式学习系统62.4 基于自举的IE模式学习系统72.5 基于WordNet和语料标注的IE模式学习系统92.6 本章小结113 中医医案特征分析133.1 中医医案特征分析133.1.1 中医医案结构特征分析133.1.2 中医医案内容特征分析153.1.3 中医领域本身的特点153.2 中医医案语义信息抽取的研究基础及存在的问题163.3 本章小结174 一种基于聚类的信息抽取模式自动生成方法184.1 基于聚类的模式生成方法的比较与选择184.2 单链法聚类的基本思想184.3 相关概念18
13、4.4 模式生成流程204.4.1 文本处理与聚类214.4.2 同类之间的模式合并244.5 实验结果和分析264.6 本章小结295 基于模式匹配的信息抽取方法305.1 国内外研究进展305.1.1 本课题国外研究进展305.1.2 本课题国内研究进展305.2 中医医案信息抽取过程中模式的表示方式315.3 信息抽取程序的实现过程335.3.1 自动分词的实现345.3.2 加载模式库385.3.3 读取医案文件395.3.4 确定医案文件的段落主题415.2.5逐句遍历415.2.6正则匹配算法425.2.7存储提取结果435.4 本章小节446 基于模式匹配的中医医案信息抽取系统的
14、设计与实现456.1 信息抽取系统的通用体系结构456.2 需求分析456.2.1 用户登录456.2.2 中医医案管理456.2.3 用户词典管理466.2.4 模板匹配466.3 系统设计466.3.1 系统功能结构466.3.2 定义抽取任务476.3.3 构建开发程序486.3.4 数据库设计496.4 详细设计506.4.1 用户登录模块506.4.2 系统主界面516.4.3 用户词典模块526.4.4 中医医案管理模块536.4.5 基于模板匹配的抽取模块536.5 软件测试546.5.1 软件测试的步骤546.5.2 本系统的测试方案556.6 本章小结567 结论577.1
15、总结577.2 进一步的工作57参考文献59附录 人工提取的语言模式63作者简历及在学研究成果69独创性说明71关于论文使用授权的说明72学位论文数据集73插图清单图2. 1 AutoSlog采用的语言表达模式及IE模式4图2. 2一个标注后的语句及AutoSolg从中学出的一个概念节点5图2. 3 PALKA的一个FP-structure的例子6图2. 4 AutoSlog-TS学习IE模式的流程7图2. 5 ExDisco中用到的”管理职位继任”IE领域的两个种子IE模式8图2. 6 Exdisco的IE模式学习流程9图2. 7TIMES中的模式例子10图2. 8 TIMES的IE模式学习
16、流程10图2. 9一个语句经过相应的NLP步骤处理后所得到的内部结构11图2. 10 TIMES形成的特例模式11图3. 1 一份典型的中医肝病病案14图4. 1信息抽取模式生成流程21图4. 2相关文档集21图4. 3相关文档集经过预处理后的结果22图4. 4分词后的文本划分为不同的类别23图4. 5相关文档集的聚类结果24图4. 6模式合并结果26图4. 7泛化后的模式结果26图4. 8中医医案文本27图4. 9测试语料划分为不同的类别27图4. 10实验得到的信息抽取模式28图4. 11信息抽取模式28图4. 12不适宜全部合并的实例29图5. 1中医信息抽取流程图33图5. 2典型中医
17、肝病医案35图5. 3典型中医肝病医案分词标注结果36图5. 4MapRules的数据结构39图5. 5典型中医肝病医案信息抽取结果44图6. 1基于模式匹配的中医医案信息抽取系统结构图47图6. 2信息抽取模块流程图49图6. 3用户登录界面设计50图6. 4用户管理界面设计51图6. 5系统主界面设计51图6. 6用户词典管理界面52图6. 7基于模版匹配的抽取界面53附表清单表5. 1模式库-系统用到的16个模式31表5. 2模式中数字的含义32表5. 3模式中字母的含义32表5. 4中医医案的用户词典34表5. 5 VecWordCate数据结构图39表5. 6基本信息部分实例40表5
18、. 7主诉部分存储实例40表5. 8治则部分存储实例41表5. 9 VecWordCate数据结构图41表6. 1用户信息表49表6. 2案例信息表501 绪论1.1 课题背景1.1.1 课题的来源,目的和意义该研究课题来源于“十二五”国家科技支撑计划“名老中医临床经验、学术思想传承研究(一)”项目。本课题研究目标是从中医传承的临床需求出发,汇聚中医学、认知科学、信息技术,研发中医医案信息抽取系统,即临床医案收集、储存、分析、管理为一体的系统,实现临床患者病案采集、数据存储、结构化处理等功能。研发模式库生成系统,实现自动化地从文本中获取模式,生成模式库,用于支持信息抽取的过程。研发信息抽取系统
19、,实现系统自动识别出医案文本中特定语义信息。随着近几年来中医学研究的深入进行,对中医医案的信息分析需求越来越迫切,经历了中国五千年的文化变迁,中医历史积累了海量的中医医案,收录散杂,在内容和文字上不免也存在着讹、漏、误、衍等错误现象15,采用人工手段进行查找与分析已经不能满足快节奏需求。利用信息抽取的办法,将形式多样、内容丰富繁杂的中医医案以统一、完整结构化的形式提取出来,有效而抢救性地整理和保留了临床经验,将无形的经验变成有形的可供大家共享的知识,这对我国中医药领域的传承意义重大。1.1.2 课题的研究内容本文研究基于模式的信息抽取技术及应用,课题解决的主要技术难点及技术方案:(1)模式匹配
20、是信息抽取普遍采用的方法,如何生成模式是课题研究的难点和重点。本文根据中文自身的特点,考虑到模式即为在文本中经常出现的句法结构, 同时借鉴英文文本的模式获取方法, 提出一种基于聚类的模式获取方法,实现了从中医医案中自动获取模式。首先对文本进行预处理,然后对分词后的文本聚类,将分词后的短语划分为不同的类别, 则每个类别为一个模式集。将同一模式集中的模式实例进行合并, 就可以得到最终的信息抽取模式。(2)研究信息抽取技术在中医医案领域的应用,实现机器自动识别中医医案里包含的“病”、“证”、“症候”等相关属性及病人基本信息形成最小数据冗余的数据。本文尝试采用基于模式匹配的正则匹配算法。第一步对文本进
21、行分词、词性标注处理,第二步在模式库的支持下,采用模式匹配算法,最终实现了机器对医案的“人名”、“出诊时间”、“症候”信息的识别,以及实体间关系识别。1.2 论文的主要工作本文的主要工作包括以下几个方面:1)综述信息抽取及相关技术方法,主要内容包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的分析。2)重点研究了基于模式的中医医案的信息抽取问题。构建动词库、模式库。3)设计并实现了一个基于中医医案的信息抽取原型系统。该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。1.3 本文的组织结构本文共分7章,每部分的组织如下:第一章首先介绍了本课题的课题背景,阐述了课题
22、的来源,目的及意义,说明了课题的研究内容。第二章给出了模式自动生成的学习方法以及它们的优缺点。第三章介绍了中医领域中文文本的特点,提出了信息抽取的任务。第四章介绍了模式自动生成方法的思想和具体步骤,并给出了实验结果。第五章介绍了基于模式匹配的信息抽取方法第六章完成基于模式匹配的中医医案信息抽取系统,实现了其中的命名实体识别(人名、地名、时间等名词性短语)的工作第七章总结与展望最后是本文的参考文献,及本文作者对导师和实验室同学的衷心感谢!2 信息抽取模式学习系统综述2.1 信息抽取模式学习系统分类为了进行IE(Information Extraction)模式的学习,人们先后设计过各种IE模式获
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 模式 语义 信息 抽取 应用 研究 大学 学位 论文
限制150内