基于信息检索的词汇本体知识研究,文献检索论文.docx
基于信息检索的词汇本体知识研究,文献检索论文随着网络技术的进步和互联网用户的猛增,网上的信息呈几何级数爆炸性地增长.华而不实,约80%是用自然语言表示的信息,简称 文本信息 .在这海量信息中,用户要发现自个所需要的信息,如同大海捞针一样困难.于是,信息的组织和提供,十分是如何从文本中找到用户所需要的信息,就成为语言信息处理技术研究的一个紧迫的课题.近期几年来,一些面向真实文本的自然语言处理(Natural Language Processing,NLP)技术,包括信息检索、自动文摘、信息抽取等,发展很快,也开发出一些实用的产品,但其处理效果并不能知足用户的需要.比方,环球网上提供的各种搜索引擎,基本上都采用基于本文关键词语匹配的技术,即根据用户提出的本文关键词语,把包含这个本文关键词语的各种文档根据某种顺序返回,让用户费时费力地从中寻找自个所关心的信息.用发展的目光来看,它们最终都要被基于内容理解的智能检索技术(即语义搜索)所淘汰.要想开发基于语义和内容的检索系统,又依靠于充分的词汇本体知识资源的支持. 有鉴于此,本文介绍信息检索、语义搜索、本体知识、词汇本体知识等基本概念及其互相之间的关系,十分是Ontology这个概念的内涵从哲学本体论到信息技术的本体知识的演进、本体知识系统的构造与类别、跟汉语相关的词汇本体知识库的建设、本体知识十分是词汇本体知识对于信息检索和语义搜索的作用.希望向自然语言处理及其应用研究的学者展示词汇本体知识的特殊资源价值,同时也为语言学研究人员提供一些通向现代语言信息处理技术的途径,为汉语词汇学的研究注入面向工程应用的活力. 二、语义搜索和词汇本体知识 所谓信息检索(information retrieval)是指把信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的经过和技术.显而易见,在当今网络化的信息时代,为了有效地利用互联网上海量的信息,必须有卓越的信息检索技术,来根据用户的信息需求,从大规模、非构造化的信息集合中搜索特定的信息项目(包括文本、声音、图像、数据等).但是,当前通行的基于本文关键词语匹配的搜索技术不考虑查询请求跟网上文本在语义上的匹配,因此在查全率和查准率两个方面都不尽人意.为了解决这个问题,必须发展智能性的语义搜索技术,让真正符合用户信息需求的文档即时返回给用户. 所谓语义搜索(semantics-based search),指基于查询(queries)和文档在知识和语义上的匹配的搜索技术,区别于当前常规的基于本文关键词语匹配的搜索技术.华而不实,如何为用户的信息需求建立模型,就成为语义搜索首先必须解决的技术难题.由于语义搜索追求的是查询和文档之间在语义(包括知识和内容)上的匹配,所以对用户的查询请求必须用适宜的语义(概念)框架来进行系统的表示.在当前的技术条件下,本体知识无疑是一种最适宜的概念模型和知识表示工具.所谓本体知识(ontology),在人工智能领域指对于分享概念的明确、规范的表述,其目的是描绘叙述相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇/术语,并从不同层次的形式化形式上给出这些词汇/术语及其互相之间关系的明确定义.也就是讲,一个本体知识能够为需要在某个领域共享信息的用户定义这个领域的概念词典/术语表,华而不实包括了这个领域的基本概念及其关系的机器可读定义.有了适宜的基于词汇的本体知识体系,就可用以对用户的查询词语和网页文档进行语义内容和概念类别分析,进行语义和概念层面的比对和匹配,进而帮助搜索引擎系统能够检索到跟用户的查询需求比拟吻合的文档序列,并根据两者的相关性进行合理的排序. 由于用户的查询通常是用一个词或短语来表示他对信息的需求,因此基于语义的搜索技术需要词汇本体知识作为基础资源.所谓词汇本体知识(lexical ontology),指对一种语言的有关词汇所表示的概念(词义及相关的百科知识)的明确、规范的表述,通常用类框架构造,通过机器可读的格式,把概念、定义、关系、规则、目的语翻译、同义词、词性、父域信息和子域信息等知识内容有效地组织起来. 三、Ontology的内涵演进和本体知识的构造与类别 由于本文讨论的本体知识对很多语言学者来讲还是比拟陌生的,因此下面首先介绍国内外学术界对于本体知识的有关研究,内容包括 :Ontology这个概念的内涵的技术演进、服务于信息处理的本体知识的构造与类别. 1. Ontology的内涵的技术演进 本体论(ontology)本来是哲学上研究存在(being)的性质及其内在关系等抽象本质的理论.在人工智能、知识工程等计算机科学与技术领域中,本体知识(ontology)指有关领域对分享概念的正规、明确的表述.即以机器可读的格式来定义概念及其关系,用概念的层级体系来反映概念之间的关系. 在人工智能领域,Neches等1将Ontology定义为 给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义 .Gruber2给出了最为流行的定义 : Ontology是概念模型的明确的规范讲明. 在这里基础上,Borst3给出了另外一种定义 : Ontology是分享概念模型的形式化规范讲明. Studer等4对上述两个定义进行了研究,以为Ontology是分享概念模型的明确的形式化的规范讲明.华而不实包括4个要素 : (1)概念模型(conceptualization),即通过抽象出关于客观世界中一些现象的相关概念而得到的模型.因而,概念模型所表现的含义独立于详细的环境状态 ;(2)明确(explicit),指所使用的概念以及使用这些概念的约束条件都有明确的定义 ;(3)形式化(formal),指计算机可读的,即能够被计算机处理 ;(4)分享(share),指Ontology中具体表现出的是共同认可的知识,反映的是相关领域中公认的概念集合.因而,本体知识针对的是团体而非个体的共鸣. 可见,建构本体知识的目的是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并且从不同层次的形式化形式上给出这些词汇/术语和词汇关系的明确定义.由此可见,本体知识的建构与语言学中的词汇研究有着天然的联络. 2.本体知识的构造和类别 一般来讲,本体知识的建模元语(modelingprimitive)主要有 :类(classes)、属性(attributes)、关系(relations)、函数(functions)、公理(axioms)、实例(instances)等.华而不实,实例代表元素,类是元素的集合,表示某一类型的事物,可以以写成概念(concepts),指涉任何事物.属性是个体或者类所具有的性质或特征,而关系是个体和类互相联络的方式.个体和类能够通过其在层级系统中的位置,可以以通过属性互相关联.本体知识中最常见的基本关系包括 :part-of,kind-of,instance-of和attribute-of.华而不实,part-of表示出概念之间部分与整体的关系 ;kind-of表示出概念之间的继承关系,类似于面向对象的知识表示中的父类和子类之间的关系 ;instance-of表示出概念的实例和概念之间的关系,类似于面向对象的知识表示中的对象和类之间的关系 ;attribute-of表示出某个概念是另外一个概念的属性,attribute能够设定为具有不同的值.比方,概念 价格 可作为概念 桌子 的一个属性,相当于概念 桌子 的不同子类,其属性 价格 的值能够分别是 80元 、 120元 、 280元 等.公理是根据某种逻辑形式构成的永真式断言(tautological assertions),代表本体知识中允许进行的形式化的逻辑推导,能够看作是本体知识中的约束.而函数是一种特殊的关系,在这种关系中,前n-1个元素能够唯一地决定文档中都会出现的词,构成一个查询词表.然后,用这个词表跟系统内核中已经预先处理好的文档进行匹配,系统根据匹配的程度输出查询结果.在这种后台处理经过中,语义词典起到非常关键的作用.根据李晓明等8的讲法,词典就是搜索引擎系统内核和外围之间的一座桥梁,它所起的作用如此图2所示 : 在一个搜索引擎系统中,外围应用通常是跟系统的输入和输出打交道的,它们面临的数据差异不同很大.假如让核心直接处理这些形态各异的数据,就会导致系统核心代码的急剧膨胀,系统运行效率迅速降低.而词典能够将各种数据以统一的整型编码的形式交给系统内核,使得系统内核的处理简单化,进而保证系统的运行效率. 2.Web环境下的搜索系统需要本体知识的支持 众所周知,如今的信息搜索系统是在Web环境下运行的.Web的特点是信息量大,来源复杂多样,这些不同来源的数据存在语义异构的问题.造成Web语义异构的原因是 :不同的信息源用多种术语来表示同一概念,而同一术语在不同的信息源中表示不同的含义.比方,在XML中,能够用 Author 来表示作者,可以以用 Creator 或 Writer 来表示作者.假如某个医院和大学的Web页面上都有 Doctor 这一词语,在没有其他属性特征描绘叙述的情况下,将很难判别Doctor表示的是医生还是博士.要解决上述两个问题,就需要引入本体知识. 上文已经指出,本体知识是对于分享概念的明确而规范的形式化讲明.华而不实, 分享 讲明本体知识具体表现出的是相关人员共同认可的知识,它确定的是相关领域中公认的概念集 ;并且,对其所刻画的概念有严格的定义,对概念之间的关系有明确的讲明.对于一般的语义词典来讲,由于它们跟词项(item)直接关联,所以通常是处在词汇的层次,而本体知识表示的是人脑中的概念,对应于人脑中的百科知识,处在概念的层次.由于概念跟词项并不是一种逐一对应的关系,所以在本体知识的建构经过中,一方面需要利用词汇知识(由于概念要通过词汇来表示出),另一方面也需要注意词项与概念之间的区别.因而,在上一节中,我们特意介绍在已有的语义知识库中,它们是怎样处理词汇与概念之间的关系的. 3.基于本体知识的信息检索上文讲过,当前搜索引擎所用的主流技术是基于本文关键词语匹配,这已经不能知足用户在语义上和知识上的需求.于是,基于语义和理解的检索技术被提到议事日程上来了.由于本体知识具有良好的概念层次构造和对于逻辑推理的支持,因此在信息检索,十分是基于语义和知识的检索中,能够发挥重要的作用. 基于本体知识的信息检索的步骤能够总结如下 : (1)在领域专家的帮助下,建立相关领域的本体知识. (2)收集信息源中的数据,参照已经建立起来的本体知识,把收集来的数据根据规定的格式存储在元数据库(关系数据库、知识库等)中. (3)对用户检索界面获取的查询请求,查询转换器根据本体知识,把查询请求转换成规定的格式 ;并且,在本体知识的帮助下,从元数据库中匹配出符合条件的数据集合. (4)对检索的结果进行定制处理,然后返回给用户. 我们以为,对于上面的第3步,假如有了搜索意图的自动分析,那么就能够增加一个工作模块 :查询意图的展开和用户确认.由于,在web环境下的搜索经过中,用户输入的检索词经常存在歧义,这种歧义不仅包括语义歧义,更重要的是检索意图上的歧义.比方,用户输入 购物 这样一个词.固然 购物 作为一种活动,它本身在语义上是没有歧义的,但是它却存在检索意图上的歧义 :用户可能想在某个购物网站上买东西,可以能是想在网站上查询某一商场的购物信息. 而前者属于事务型的检索,后者属于信息型的检索.对于我们来讲,在建构本体知识的时候,就不仅要反映某个词项在语义上的特征,也要反映用户的搜索意图(词项的交际功能特征),十分是事务性的搜索意图. 假如检索系统不需要太强的推理能力,那么本体知识能够用概念图的形式表示并且存储,数据能够保存在一般的关系数据库中,采用图匹配的技术来完成信息检索.假如检索系统需要比拟强的推理能力,那么本体知识需要用一种描绘叙述语言(如Loom、Ontolingua等)来表示,数据保存在知识库中,利用描绘叙述语言的逻辑推理能力来完成信息检索.由于本体知识能够通过概念之间的关系来表示出概念语义的能力,所以能够提高检索的查全率和查准率. 4.服务于网络搜索的本体知识的建构 根据网络搜索的特点,参考上述几个词汇本体知识库的建构形式,我们以为服务于网络搜索的本体知识的建构,能够分下面几个步骤来进行: 第一,先确定一个服务于通用的搜索引擎的词项表,并将词项整合到一个层级系统之中.这一步骤能够借鉴SUMO和WordNet的建构方式.首先收集搜索引擎服务网站(如百度、Google)及一些导航性的网站(如新浪、搜狐)等已经存在的分类体系,然后对收集到的分类体系根据通用的系统进行整理,根据词项和概念逐一对应的原则将这些分类体系整合到一个层级系统之中.假如在同一节点上存在多个词项,则选定一个优先/权威词(preferred word)作为索引词,其他非优先词项(non-preferred word)与优先词项构成同义词集. 第二,对已经构成的分类系统进行核查,能够借鉴从WordNet到SUMO的映射方式.分析用户的搜索日志,将某一时间跨度内用户日志中所牵涉的词语映射到已经构成的分类体系之中,看分类体系所构成的概念空间能否覆盖所有的词语.假如存在缺口,则需要用词项去填补.另外,看分类体系所提供的术语的抽象程度能否适宜.假如不适宜则根据核查的结果,对分类系统进行调整. 第三,对词项进行定义,借鉴HowNet对于词项释义的方式.除了对系统中已经存在的词项进行概念上的描绘叙述外,还需利用搜索日志的分析结果对词项的查询意图进行描绘叙述.如某一种商品应分别对应于信息型和事务型两种意图,而对于机构名称,则一般有信息型和导航型两种意图. 第四,在通用的搜索用本体知识基础上,建立服务于详细目的的领域性本体知识.例如,我们能够参考购物网站,建立服务于电子购物的本体知识. 六、词汇本体知识研究的理论意义和应用价值 词汇本体知识的研究,牵涉哲学上的本体论、语言学上的词汇语义学、心理学上的概念空间和概念的心理表征、计算机科学和人工智能上的知识表示和数据构造等方面.把这些相关领域的有关理论和方式方法整合起来,对汉语中跟搜索有关的查询词语进行本体概念分析,进而建立一个汉语词汇本体知识体系,这对于开拓汉语词汇语义学的研究范围,更新词汇语义学的研究方式方法,具有重要的理论意义和学术价值.这种研究成果能够为文本信息的组织、提取和整合提供跨学科的理论基础和概念化框架,能够直接应用到搜索引擎系统中,帮助其检索系统更快速、更精准地返回符合用户查询意图的文档序列,这对于中文信息处理技术和中文信息技术产业都具有重要的应用价值和实践意义.由于,本体知识对于搜索引擎的工作原理由基于本文关键词语匹配技术向基于语义的内容匹配技术转变,进而提高搜索的效率和精度,具有重要的提供基础资源的作用. 我们相信,词汇本体知识的研究结果,将为智能检索和语义搜索提供可靠的语言学知识和资源支持,同时也会为词汇语义学和话语交际理论的研究提供新的研究角度并开拓新的研究领域. 并且,这种由实际应用驱动的 词汇-语义-概念 研究,对于拓展词汇语义学的研究范围、更新语义表示的理论和方式方法、发展新的面向人机交互的话语交际理论,都具有直接的推动作用.还能够为语言学研究人员提供一些通向现代语言信息处理技术的途径,为汉语词汇学的研究注入面向工程应用的活力. 以下为参考文献 1Neches R,Fikes R E,Gruber T R,et al. Enabling technology for knowledge sharingJ. AI Magazine,1991,(3). 2Gruber T R. A translation approach to portable ontology specificationsJ. Knowledge Acquisition,1993,(5). 3Borst W N. Construction of engineering ontologies for knowledge sharing and reuseD. Enschede :Twente,1997. 4Studer R,Benjamings V R,Fensel D. Knowledge engineering,principles and methodsJ. Data and KnowledgeEngineering,1998,(1-2). 5Fellbaum C. WordNet :an electronic lexical databaseM. Cambridge,Massachusetts :MIT Press,1998. 6于江生,俞士汶.中文概念词典的构造J.中文信息学报,2002,(4). 7Niles I,Pease A. Linking lexicons and ontologies :mapping wordnet to the suggested upper merged ontologyC. Proceedings of the IEEE International Conference on Information and Knowledge Engineering. Las Vegas,Nevada,June23-26,2003. 8李晓明,闫宏飞,王继民.搜索引擎 :原理、技术和系统M.北京 :科技出版社,2004.