基于信息检索的词汇本体知识研究,文献检索论文.docx
《基于信息检索的词汇本体知识研究,文献检索论文.docx》由会员分享,可在线阅读,更多相关《基于信息检索的词汇本体知识研究,文献检索论文.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于信息检索的词汇本体知识研究,文献检索论文随着网络技术的进步和互联网用户的猛增,网上的信息呈几何级数爆炸性地增长.华而不实,约80%是用自然语言表示的信息,简称 文本信息 .在这海量信息中,用户要发现自个所需要的信息,如同大海捞针一样困难.于是,信息的组织和提供,十分是如何从文本中找到用户所需要的信息,就成为语言信息处理技术研究的一个紧迫的课题.近期几年来,一些面向真实文本的自然语言处理(Natural Language Processing,NLP)技术,包括信息检索、自动文摘、信息抽取等,发展很快,也开发出一些实用的产品,但其处理效果并不能知足用户的需要.比方,环球网上提供的各种搜索引擎
2、,基本上都采用基于本文关键词语匹配的技术,即根据用户提出的本文关键词语,把包含这个本文关键词语的各种文档根据某种顺序返回,让用户费时费力地从中寻找自个所关心的信息.用发展的目光来看,它们最终都要被基于内容理解的智能检索技术(即语义搜索)所淘汰.要想开发基于语义和内容的检索系统,又依靠于充分的词汇本体知识资源的支持. 有鉴于此,本文介绍信息检索、语义搜索、本体知识、词汇本体知识等基本概念及其互相之间的关系,十分是Ontology这个概念的内涵从哲学本体论到信息技术的本体知识的演进、本体知识系统的构造与类别、跟汉语相关的词汇本体知识库的建设、本体知识十分是词汇本体知识对于信息检索和语义搜索的作用.
3、希望向自然语言处理及其应用研究的学者展示词汇本体知识的特殊资源价值,同时也为语言学研究人员提供一些通向现代语言信息处理技术的途径,为汉语词汇学的研究注入面向工程应用的活力. 二、语义搜索和词汇本体知识 所谓信息检索(information retrieval)是指把信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的经过和技术.显而易见,在当今网络化的信息时代,为了有效地利用互联网上海量的信息,必须有卓越的信息检索技术,来根据用户的信息需求,从大规模、非构造化的信息集合中搜索特定的信息项目(包括文本、声音、图像、数据等).但是,当前通行的基于本文关键词语匹配的搜索技术不考虑查询请求跟
4、网上文本在语义上的匹配,因此在查全率和查准率两个方面都不尽人意.为了解决这个问题,必须发展智能性的语义搜索技术,让真正符合用户信息需求的文档即时返回给用户. 所谓语义搜索(semantics-based search),指基于查询(queries)和文档在知识和语义上的匹配的搜索技术,区别于当前常规的基于本文关键词语匹配的搜索技术.华而不实,如何为用户的信息需求建立模型,就成为语义搜索首先必须解决的技术难题.由于语义搜索追求的是查询和文档之间在语义(包括知识和内容)上的匹配,所以对用户的查询请求必须用适宜的语义(概念)框架来进行系统的表示.在当前的技术条件下,本体知识无疑是一种最适宜的概念模型
5、和知识表示工具.所谓本体知识(ontology),在人工智能领域指对于分享概念的明确、规范的表述,其目的是描绘叙述相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇/术语,并从不同层次的形式化形式上给出这些词汇/术语及其互相之间关系的明确定义.也就是讲,一个本体知识能够为需要在某个领域共享信息的用户定义这个领域的概念词典/术语表,华而不实包括了这个领域的基本概念及其关系的机器可读定义.有了适宜的基于词汇的本体知识体系,就可用以对用户的查询词语和网页文档进行语义内容和概念类别分析,进行语义和概念层面的比对和匹配,进而帮助搜索引擎系统能够检索到跟用户的查询需求比拟吻合的文档序列
6、,并根据两者的相关性进行合理的排序. 由于用户的查询通常是用一个词或短语来表示他对信息的需求,因此基于语义的搜索技术需要词汇本体知识作为基础资源.所谓词汇本体知识(lexical ontology),指对一种语言的有关词汇所表示的概念(词义及相关的百科知识)的明确、规范的表述,通常用类框架构造,通过机器可读的格式,把概念、定义、关系、规则、目的语翻译、同义词、词性、父域信息和子域信息等知识内容有效地组织起来. 三、Ontology的内涵演进和本体知识的构造与类别 由于本文讨论的本体知识对很多语言学者来讲还是比拟陌生的,因此下面首先介绍国内外学术界对于本体知识的有关研究,内容包括 :Ontolo
7、gy这个概念的内涵的技术演进、服务于信息处理的本体知识的构造与类别. 1. Ontology的内涵的技术演进 本体论(ontology)本来是哲学上研究存在(being)的性质及其内在关系等抽象本质的理论.在人工智能、知识工程等计算机科学与技术领域中,本体知识(ontology)指有关领域对分享概念的正规、明确的表述.即以机器可读的格式来定义概念及其关系,用概念的层级体系来反映概念之间的关系. 在人工智能领域,Neches等1将Ontology定义为 给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义 .Gruber2给出了最为流行的定义 : Ont
8、ology是概念模型的明确的规范讲明. 在这里基础上,Borst3给出了另外一种定义 : Ontology是分享概念模型的形式化规范讲明. Studer等4对上述两个定义进行了研究,以为Ontology是分享概念模型的明确的形式化的规范讲明.华而不实包括4个要素 : (1)概念模型(conceptualization),即通过抽象出关于客观世界中一些现象的相关概念而得到的模型.因而,概念模型所表现的含义独立于详细的环境状态 ;(2)明确(explicit),指所使用的概念以及使用这些概念的约束条件都有明确的定义 ;(3)形式化(formal),指计算机可读的,即能够被计算机处理 ;(4)分享(
9、share),指Ontology中具体表现出的是共同认可的知识,反映的是相关领域中公认的概念集合.因而,本体知识针对的是团体而非个体的共鸣. 可见,建构本体知识的目的是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并且从不同层次的形式化形式上给出这些词汇/术语和词汇关系的明确定义.由此可见,本体知识的建构与语言学中的词汇研究有着天然的联络. 2.本体知识的构造和类别 一般来讲,本体知识的建模元语(modelingprimitive)主要有 :类(classes)、属性(attributes)、关系(relations)、函数(functions)、公理(axiom
10、s)、实例(instances)等.华而不实,实例代表元素,类是元素的集合,表示某一类型的事物,可以以写成概念(concepts),指涉任何事物.属性是个体或者类所具有的性质或特征,而关系是个体和类互相联络的方式.个体和类能够通过其在层级系统中的位置,可以以通过属性互相关联.本体知识中最常见的基本关系包括 :part-of,kind-of,instance-of和attribute-of.华而不实,part-of表示出概念之间部分与整体的关系 ;kind-of表示出概念之间的继承关系,类似于面向对象的知识表示中的父类和子类之间的关系 ;instance-of表示出概念的实例和概念之间的关系,类
11、似于面向对象的知识表示中的对象和类之间的关系 ;attribute-of表示出某个概念是另外一个概念的属性,attribute能够设定为具有不同的值.比方,概念 价格 可作为概念 桌子 的一个属性,相当于概念 桌子 的不同子类,其属性 价格 的值能够分别是 80元 、 120元 、 280元 等.公理是根据某种逻辑形式构成的永真式断言(tautological assertions),代表本体知识中允许进行的形式化的逻辑推导,能够看作是本体知识中的约束.而函数是一种特殊的关系,在这种关系中,前n-1个元素能够唯一地决定文档中都会出现的词,构成一个查询词表.然后,用这个词表跟系统内核中已经预先处
12、理好的文档进行匹配,系统根据匹配的程度输出查询结果.在这种后台处理经过中,语义词典起到非常关键的作用.根据李晓明等8的讲法,词典就是搜索引擎系统内核和外围之间的一座桥梁,它所起的作用如此图2所示 : 在一个搜索引擎系统中,外围应用通常是跟系统的输入和输出打交道的,它们面临的数据差异不同很大.假如让核心直接处理这些形态各异的数据,就会导致系统核心代码的急剧膨胀,系统运行效率迅速降低.而词典能够将各种数据以统一的整型编码的形式交给系统内核,使得系统内核的处理简单化,进而保证系统的运行效率. 2.Web环境下的搜索系统需要本体知识的支持 众所周知,如今的信息搜索系统是在Web环境下运行的.Web的特
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内