科技文献语义检索系统的分类与功能特点,文献检索论文.docx
《科技文献语义检索系统的分类与功能特点,文献检索论文.docx》由会员分享,可在线阅读,更多相关《科技文献语义检索系统的分类与功能特点,文献检索论文.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、科技文献语义检索系统的分类与功能特点,文献检索论文语义检索是信息检索的发展趋势, 早在 20 世纪80 年代, 语义检索的思想就已经出现, 并且信息检索领域已经开展了相关研究工作。企业级的语义搜索引擎最近几年已经开场应用, 例如 Kosmix 和 等, 十分等让搜索变得更智慧。百度框计算搜狗知立方代表了国内搜索引擎在该领域的成功实践。在文献信息检索领域,作为语义检索系统的典型代表, 做出了创始性的工作, 一些面向科技文献的语义检索系统不断出现。 传统基于本文关键词语的检索系统具有一定的局限性,如无法解决词汇的模糊性问题, 分散在多个文档中的相关信息不容易被发现等。语义检索基于含义而不是通过本文
2、关键词语匹配寻找用户查询的答案:, 用以实现实体检索、概念检索、分类检索、关系查询等知识检索方式来知足用户的多种信息需求, 使得搜索智能化, 根据用户的意图给出用户想要的结果。当前, 语义检索主要有两个方向: 语义网资源的检索和对于传统检索系统的语义扩展。面向科技文献的语义检索研究主要偏向于后者, 利用语义技术改良传统文献检索系统,利用叙词表、主题词表、本体等知识组织体系实现语义丰富化, 采用语义标注、自动抽取、关系发现的文本挖掘技术从非构造化的文本中发现细粒度的数据,使得检索系统更智能化。本文根据文本语义处理程度对科技文献语义检索系统进行分类, 提出科技文献语义检索系统的基本框架, 并讨论科
3、技文献语义检索系统的功能特性。 2 科技文献语义检索系统分类 根据系统的智能化、语义化程度, 将现有科技文献语义检索系统分为: 语义查询扩展的检索系统、以概念或实体为中心的检索系统、以关系为中心的检索系统、面向知识发现的检索系统 4 种类型。这 4 类检索系统对科技文献的文本语义化处理程度不同, 检索系统的智能化和语义化程度也不同, 如此图 1 所示: 【1】 2.1 语义查询扩展的检索系统 语义查询扩展的检索系统在传统本文关键词语检索基础上, 对检索词进行处理, 利用受控词表和本体对检索词进行扩展。PubMed支持基于 MeSH 的查询扩展,也有利用 UMLS 的同义词对 PubMed 查询
4、进行扩展,QuExT执行面向概念的查询扩展, 检索结果根据用户预先分配给概念类别的不同权重进行排序。 GO2PUB利用基因本体中术语之间的语义继承对PubMed 查询进行语义扩展, 基因名称、符号和同义词都作为额外的本文关键词语提交给查询处理器。 2.2 以概念或实体为中心的检索系统 以概念或实体为中心的检索系统利用本体、主题词表、叙词表等对科技文献进行语义标注, 辨别文献中的知识, 检索经过通过匹配用户查询和语义标注结果执行, 这使得检索系统能够利用标注信息查询到更精到准确的结果。GoPubMed是这类系统中最典型的, 它利用 Gene 本体和 MeSH 标引 PubMed 文献, 并用于检
5、索结果的构造化展示, 能够让用户看到与查询相关的主要的生物医学概念。相比 PubMed, GoPubMed 能够更快地找到相关的检索结果。NextBio 文献检索系统利用基于本体的语义工具和创新界面, 对 ScienceDirect 内容和 PubMed、临床实验、生物医学新闻等受权开放使用的研究数据进行文本挖掘, 并通过自然语言处理技术实现命名实体辨别和消歧, 进而提高检索性能。Kleio 系统对文本的语义概念如 genes、protein和其他生物医学术语进行标注, 提供对于 MEDLINE的文本和元数据相结合的检索, 利用标注的命名实体类型对检索结果进行分面, 进而实现检索结果的过滤。
6、2.3 以关系为中心的检索系统 以关系为中心的检索系统通过文本挖掘技术从科技文献中发现概念或实体之间的关系, 能够提供基于关系的检索服务。Quertle是一个关系驱动的生物医学文献检索工具, 使用基于语义的自然语言处理方式方法从生物医学文献集中抽取主谓宾关系, 发现生物医学实体如疾病、基因、药物之间的一般或特殊关系。 用 咖啡因偏头痛 作为搜索词, Quertle 会发现两个检索词之间的关系如 咖啡因治疗偏头痛 , 而不是通常搜索 PubMed 所返回的同时包含 咖啡因 和 偏头痛 两个检索词的记录。CoPub是以共现关系为中心的检索工具, 利用文本挖掘技术检测 PubMed 内容摘要现的生物
7、医学概念, 如基因本体中的人类/鼠基因、生物经过、分子功能、细胞组成以及病理、疾病、药物和途径等。在 CoPub 系统中检索某个生物医学概念, 能够获得与其共现的其他生物医学概念以及共同出现的文摘。PolySearch抽取人类疾病、基因、突变、药物和代谢物之间的关系, 利用各种文本挖掘和信息检索技术对内容内容摘要、段落或句子进行辨别和排序, 支持面向十几个不同类型的文本、科学文摘或生物信息学数据库的50多种查询类型, 例如检索 与乳腺癌有关的基因 . 2.4 面向知识发现的检索系统 面向知识发现的检索系统通过发现隐含的关系和知识, 进而为用户提供更深层次的语义检索服务。 CoPub 5.0在
8、CoPub 共现关系挖掘的基础上开发了称为CoPub Discovery的新技术, 从文献中挖掘间接关系, 用于研究疾病背后的机理、连接基因和途径, 发现现有药物的新型应用等。CoPub 5.0 提供了三种分析形式, term search 形式为一个术语检索文摘和术语关系, pair search 形式分析术语对之间的已经知道关系或新关系, set terms 形式用以给出多个术语之间的关系。 FACTA+从 MEDLINE 文摘中发现并可视化如基因、疾病、化合物等生物医学概念之间的间接关联, 利用机器学习模型发现文本中的生物分子事件, 利用概念之间的共现关系统计出信息挖掘隐藏的关联。Evi
9、denceFinder实现对 PMC 全文数据从化合物基因、蛋白质、疾病等生物医学实体到如磷酸化、绑定、激活等生物相关性事实的多层次文本标注。Evidence-Finder 将标注事实转化为一系列的问题, 作为文献检索的推荐, 帮助用户找到问题答案:对应的文章。例如, 输入检索词 粘蛋白 , 系统自动给出一系列相关问题, 如 降低肠道粘蛋白的是什么? 、 什么产生粘蛋白? 等。 3 科技文献语义检索系统的基本框架 根据对典型科技文献语义检索系统的分析, 提出系统基本框架, 分为语义知识获取、数据集成与融汇、语义索引构建、查询处理、结果展示 5 个主要的系统功能, 如此图 2 所示。实现科技文献
10、的语义丰富化, 基于领域叙词表或本体, 利用语义标注、实体抽取、关系抽取等技术从科技文献文本信息中获取语义知识。以这些语义知识为基础, 借助实体或概念匹配、本体集成、Linked Data 之间的关联实现潜在语义知识、科技文献以及外部资源的数据集成与融汇, 支持细粒度的语义检索以及相关知识的扩展检索。在文献元数据索引的基础上, 构建实体、概念、关系、文本事实根据的索引, 支撑基于语义的检索功能。在查询处理方面, 采用术语匹配、自然语言处理、类似度计算、知识库图遍历、本体推理等技术手段理解用户的搜索意图, 通过基于语义知识的分类、聚类、排序等对检索结果进行重新优化计算。通过结果列表、可视化展示、
11、分面阅读、树形导航、本体导航等方式将检索结果展示给用户, 同时提供基于语义知识的相关推荐和统计预测等功能。 4 科技文献语义检索系统的功能特点 语义信息的引入影响了科技文献检索系统从数据处理、索引构建、查询处理到结果管理的各个方面, 使得检索系统具有一些新的特性。 4.1 科技文献语义丰富化 在传统文献标引的基础上, 一些文献检索系统已经进行了深层的语义丰富化处理, 并且在这里基础上提供更准确的检索服务。例如, ProQuest在文本标引基础上将蕴含在学术出版物中的表格、地图、照片和其他图形中的数据、变量以及其他内容进行深度的标引,平均使用8个术语描绘叙述一个图像。Wiley的SmartArt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内