一种基于参考本体的多本体映射方法-张凌宇.pdf
《一种基于参考本体的多本体映射方法-张凌宇.pdf》由会员分享,可在线阅读,更多相关《一种基于参考本体的多本体映射方法-张凌宇.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、48卷第5期 四川大学学报(工程科学版) v0148 No52016年9月 JOURNAL OF SICHUAN UNIVERSITY(ENGINEERING SCIENCE EDITION) Sept2016文章编号:10093087(2016)05国l 1410 DOI:10t5961jjsuese2016050t7一种基于参考本体的多本体映射方法张凌宇,姜廷慈,陈淑鑫(齐齐哈尔大学现代教育技术中心,黑龙江齐齐哈尔市161006)摘要:随着领域内本体数量的不断增多,很多本体映射方法已经不适用于多本体映射任务。为此,提出一种基于参考本体的多本体映射方法(multiple ontology m
2、apping based on reference ontology,MOMRO)。在多本体映射过程中,方法MOMRO从源本体集合中提取共享概念集合并建立参考本体;然后利用参考本体来构建一个统一的向量空间模型;然后,将源本体中的概念表示成该模型中的向量,从而使用向量之间的欧氏距离来计算概念之间的相似度;最后,建立源本体之间的映射关系。实验结果表明,方法MOM-RO可以有效地完成多本体映射的任务。关键词:本体映射;相似度;参考本体;向量空间模型中图分类号:TPl82 文献标志码:AA Method of Multiple Ontology Mapping Based on Reference O
3、ntologyZHANG Lingyu,JIANG Tingci,CHEN Shuxin(Modem Educational Techn01Centre,Qiqihar Univ,Qiqihar 161006,China)Abstract:A method of multiple ontology mapping based on reference ontology,called MOMRO,Was put forwardIn the process of map-ping multiple ontologies,MOMRO extracted the shared concept set
4、from sets of source ontologies,and created a reference ontologyThen,the reference ontology was used to create a uniform vector space model(VSM)Then concepts in source ontologies were repre-sented 8S vectors in the VSM。In this way,the similarity of concepts was calculated by the Euclidean distance of
5、 the corresponding vec-totsFinally,the mappings among soarce ontologies were created。Experimental results indicated that MOM-RO performs eneouraginglywell when creating mappings among multiple ontologiesKey words:ontology mapping;similarity:reference ontology;vector space model本体是一种可以表示并处理语义信息的半结构化知
6、识模型1。随着本体应用领域的不断扩展,研究者可以根据各自的需要建立大量的本体模型。但是,本体之间普遍存在异构性,这严重影响了同一领域内或相关领域内的知识共享、重用和集成,以及本体之间的语义互操作。为了解决本体异构性所产生的问题,国内外很多研究者都针对本体映射方法及技术展开了深入的研究。国际语义Web联盟(ISWC)还提供了一个统一的、开放的本体映射测试集合盟。然而,在这些研究成果中,大多数的本体映射方法都是以2个本体模型作为输入,研究如何建立它们之间的映射关系。而多本体映射方法还未受到很多本体研究者的关注与重视。但是,在现实世界中,同一领域或者相关领域内的所有本体模型之间都会存在异构性。如果采
7、用现有的本体映射方法,则需要依次建立任意2个本体模型之间的映射关系。显然,随着本体模型数量的不断增长,这些方法不能有效地建立多本体之间的映射关系。关于本体映射方法的研究一直是语义Web领域内的一个热点研究课题。方法GLUE【31通过机器收稿日期:20160127基金项目:国家自然科学基金资助项目(61204127);黑龙江省自然科学基金资助项目(1;2015024);齐齐哈尔市科学技术计划资助项目(GYGG一201412);齐齐哈尔大学青年资助项目(2014kM08)作者简介:张凌宇(198l一),男,讲师,博士研究方向:语义web、(模糊)本体映射与集成E-mail:zhangtingyu0
8、0217126toni网络出版时间:201699 11:36:02 网络出版地址:http:wwwcnkinetkcmsdetail511596T201609091136012htmlhttp:jsueseseueduca万方数据第5期 张凌宇,等:一种基于参考本体的多本体映射方法 115学习的方法训练出多种学习器(名称学习器、文本块学习器和实例学习器),然后计算概念之间的相似度并建立本体之间的映射关系。方法RiMOMM o在概念相似度计算的基础上提出了一种风险概率最小化模型,并使用决策方法解决本体映射问题。方法CIDERCL51使用概念的名称,概念的父概念和子概念集合来计算概念之间的相似度。
9、方法OMEN峥。、BAYOWL71和MSBN81将贝叶斯网络模型引入到本体映射,然后使用推理的方式解决本体映射问题。文献9提出了基于描述逻辑的本体桥接公理的表示方法,从而建立本体之间的映射关系。文献10提出了一种交叉语言的转换方法,以建立不同语言版本的本体之间的映射关系。文献11提出一种基于多Agent的本体映射方法,该方法还给出一种新的信任评估机制来完善Agent之间的协作关系,以提高映射的精确度。文献12使用本体中与概念直接相关的信息来构建虚拟文档,以消除概念之间的歧义,然后建立本体之间的映射关系。方法SMContext驯是一种可以建立本体之间语义映射的方法,它基于概念所在本体的上下文(语
10、境)将概念表示成逻辑公式,再解决概念之间的命题可满足问题(SAT),以完成语义映射任务。上面所提到的本体映射方法都是以两个异构本体作为输入,输出它们之间的映射关系集合。显然,这些方法不能有效地解决领域内多个本体之间的异构性问题。为此,国内外的一些研究者对参考本体和多本体映射方法展开了深入的研究工作,目的在于:降低领域内本体之间异构的可能性并提高领域知识的共享性和重用性。目前,很多的参考本体都是以人工方式构建的,例如:FMA【14和KOSO【I 5|。FMA是由美国华盛顿大学根据解剖学领域内的知识结构而构建的,很多生物医学领域内的研究者都是在本体FMA的基础上提出应用本体的构建方法6。参考本体K
11、OSO是为了解决不同知识管理系统之间的异构性而设计的,KOSO包含多个知识模块,每个知识模块都是本体专家从相应知识库中抽取的,而且本体专家还为各个知识模块之间建立映射关系。基于参考本体,很多本体研究者提出了多本体映射方法。其中,文献17将参考本体和源本体转换成全局模式和局部模式,然后使用模式匹配方法来建立这些模式之间的映射关系。文献18使用参考本体将源本体中的所有概念表示成模糊集合,然后根据模糊集合的相似性建立多个源本体之间的映射关系。然而,为一个领域构建参考本体模型是一项非常复杂的任务,而且很多领域没有可供使用的参考本体,本体构建者只能根据各自所掌握的知识基础来构建满足应用需要的源本体。因此
12、,从源本体中抽取共享知识结构来构建领域的参考本体已经成为一项重要的研究课题。但是,很少的研究者从事这方面的研究工作。另外,现有的多本体映射方法只能根据参考本体与源本体之间的映射关系,建立源本体之间的映射关系。如果不同的源本体中存在相似的概念,但是这些概念不属于领域的共享知识结构,即它们没有与参考本体之间没有建立映射关系,那么现有的多本体映射方法很难为它们建立映射关系。为此,基于参考本体提出一种可以建立多个本体之间映射关系的方法MOM-RO(multiple ontology mapping based on reference ontology)o该方法适用于解决一个领域或者相似领域内的多个本
13、体之间映射问题。首先,方法MOMRO使用参考本体中的元素(属性集合和实例集合)构建一个统一的向量空间模型VSM(vector space model);然后,方法MOMRO根据参考本体和源本体之间元素集合的相似性,将源本体中的所有概念表示成该向量空间模型中的向量,这样每个源本体则被表示成相应的向量组;最后,利用欧式距离计算出任意两个本体之间概念的相似度矩阵,并根据预先设定好的的阈值找出本体之间的映射关系。在方法MOM-RO中,参考本体在建立多个本体之间映射关系的过程中发挥着极其重要的作用。一般来说,参考本体是由本体专家在深入了解领域知识的内涵以及知识结构的基础上构建得到的。但是,构建参考本体一
14、项非常复杂而又艰巨的工程,很多领域内的源本体并不是基于参考本体而构建的。为此,方法MOMR0在映射多本体的过程中提出了一种构建参考本体的方法,该方法还可以使用源本体之间共享的知识来不断地完善参考本体内部的知识体系结构。1 基础知识11本体模型为了解决概念之间相似度的计算问题,本文给出的本体模型形式化定义如下所示:定义1本体模型的形式化定义为:O=C,R,P,A,其中:1)C:概念集合。C中的元素也可称为类,每个概念都是由它的属性集合和实例集合组成。万方数据116 四川大学学报(工程科学版) 第48卷2)R:关系集合。兄中的每个关系都是本体模型中父类概念与子类概念之间的上下位关系。3)P:属性集
15、合。集合P可分为2类:(a)数据类型属性(op)表示概念所具有的特征,如:年龄、性别等;(b)对象类型属性(OP)表示概念与其他概念之间的非上下位关系,如上课、连接等。4),:实例集合。,中的每个实例都是本体模型中具体的、唯一的个体,它与概念之间是隶属关系,它是概念的具体表现。5)A:公理集合。A中的每条公理代表领域知识中的永真断言,它可用于描述属性对概念的约束形式、实例隶属于概念的表示形式以及概念与概念之间非上下位关系的表示形式。在本体模型中,父类概念(P)与子类概念(e)之间的上下位关系也被称为继承关系,C继承了P的所有属性,同时P继承了C的所有实例。因此,P的属性集合(P Set,)包含
16、于c的属性集合(P_Setc),P_SetPP_Setc,P的实例集合(I_SetP)包含C的实例集合(I_Set。),I_SetP21 Setc。12本体的向量化表示向量空间模型(vector space model,VSM)最早是由Salton等于20世纪70年代提出。它是一种基于词频和文频的文本表示模型,可被广泛地用于信息检索领域。后来,很多研究者将该模型引入到本体映射方法中。这些方法将本体文件OWL视为文档,本体所包含的实体(概念、属性和实例)视为单词。然后使用VSM来比较本体之间的相似性。为了将VSM应用于多本体映射,本文给出向量空间模型的定义如下所示:定义2向量空间模型的定义为V=
17、E。,露:,E。,其中:噩(1 s in)是从具体的OWL文档集合中抽取出来的实体(Entity),它们组成了y的维集合(特征集合),n为所有实体的数量,也是y的维数。 在VSM中,本体中的每个概念将被转换成空间内的一个n维向量,即C=,其中,伽i(1 s i s n)为第i维的权重。为本体模型构建向量空间模型以及权重计算是本文的重要研究内容,具体方法详见第22节。13 概念相似度计算概念相似度计算方法可分为2大类:基于编辑距离的计算方法和基于信息量的计算方法。以概念C,和c:为计算对象,基于编辑距离的计算方法需要将概念C,和C:的名称视为字符串String(C。)和String(c2),然后
18、使用编辑距离来计算概念之间的相似度。计算公式如式(1)所示,其中,函数ed()可以计算2个字符串之间的编辑距离,即将一个字符串转换能另一个字符串所需要的最小操作数,每次操作只能是增加、删除或者换一个字符。SimED(Cl,c2)=, ed(String(C1),String(C2) 1 max(I String(C1)I,I String(C2)I)7基于信息量的计算方法需要将概念C,和c2放在同一个分类词典中,例如:WordNet,然后利用概念之间的上下位关系找到它们之间最小公共父概念C,最后使用这3个概念的信息量来计算概念c,和C2之间的相似度。计算公式如式(2)所示,其中Syn表示概念的
19、分类(同义词集合),函数IC()可以根据概念在分类词典中的出现概率计算概念的信息量,例如:IC(C)=一ln(P(C)。如果概念C,和C:隶属于同一个分类集合,它们之间语义等价并且相似度为1;否则需要使用概念C。、G和c的信息量来计算相似度。m陀(cl,c2)=1,ClSynl A C2Syn2 ASynl=Syn2;j黑,clSrnt。AIC(C1)+IC(c2)一1 1c2Syn:A跏,Syn:(2)在现实世界中,很多概念包含多种语义,而且很多概念的名称非常相似但它们之间的含义却相差很大,例如:概念“map”的含义有:地图、计划和映射;而概念“bad”和“bed”之间虽然编辑距离为1,但是
20、它们表示2个相似性极小的实体。因此,方法MOMRO需要结合这2种计算方法来计算概念之间的相似度。2基于参考本体的多本体映射方法提出一种可以有效建立多个本体之间映射关系的方法:MOMRO。该方法使用参考本体中的元素为一个领域内的所有源本体建立统一的向量空间模型,然后将源本体中的概念表示成该模型中的向量,最后通过向量计算的方法来建立任意2个源本体之间的映射关系。方法MOMRO主要由2个模块构成:1)参考本体构建模块,负责从一个领域内的所有源本体中获取共享的知识以及知识结构并为该领域建立参考本万方数据第5期 张凌宇,等:一种基于参考本体的多本体映射方法 117体模型,如果领域内已经存在参考本体,则该
21、模块还可以根据源本体集合之间的交集来发现领域内的共享知识,从而不断完善参考本体;2)多本体映射模块,负责向量空间模型的构建、概念的向量化表示、基于向量计算的相似度计算和映射发现。图1给出参考本体以及源本体集合与这2个模块之间的关系。图1模块之间的关系图Fig1 Relation graph between modules21参考本体构建模块参考本体也被称为领域本体(domain ontolo一韶),它提供了领域的共享知识结构,并与领域内其他源本体保持语义映射关系。参考本体是实现领域内源本体之间知识共享、重用以及查询等语义互操作的核心知识模型。由于构建本体是一项非常复杂的工程,本体构建者可以使用
22、领域内的参考本体作为模板来构建新的源本体。这样做不仅可以降低源本体之间出现语义异构的可能性,而且还可以减小本体的开发周期。但是,关于参考本体的研究尚处于开始阶段,很多本体研究者在创建源本体时没有可供使用的参考本体。为此,方法MOM-RO系一种基于共享概念集合的参考本体构建方法。该方法首先从源本体集合中找出并删除“孤立本体”,从而建立候选参考本体集合,该集合内所有源本体的交集正是共享概念集合(shared conceptset);然后,从候选参考本体集合中选择包含概念数量最少的源本体作为参考本体模板;最后,使用共享概念集合中的概念到参考本体模板中定位,并利用参考本体模板的关系集合来构建领域的参考
23、本体。2I1建立共享概念集合通常情况下,参考本体中的知识信息不一定会被该领域内的所有源本体共享。这是因为任何领域都可能存在一些“孤立本体”,这类源本体数量极少(据统计这类本体仅占总源本体数量的5一10),它们与其他源本体之间关联很少,而且它们所包含的共享信息也非常少。如果在构建参考本体的过程中将它们考虑进来,领域内的很多共享信息不能被包含到参考本体。因此,在构建参考本体之前,不仅要明确共享概念集合,而且还要将“孤立本体”从源本体集合中删除,以获取候选参考本体集合。为了实现这一目的,方法MOMRO采取以下步骤:1)计算源本体之间的相似度。每个源本体都是由一个源概念集合组成,因此方法MOM-RO使
24、用Jaccard相似性系数(J系数),计算任意2个源本体的相似度。接下来,方法MOMRO为每个源本体计算它与之其他源本体的相似度之和,并统计出与该本体相交的源本体个数。如果相似度不为O,则源本体之间有交集,否则源本体之间不相交。式(3)给出了J系数的计算公式,其中,函数C()返回源本体的概念集合。Sim(SO。,SO:)=J(C(SO。),C(S0:)=鬻C SO勰U C SO (3)( ,) ( :) ”72)排序。方法MOMRO根据相交的源本体个数对所有源本体按升序排列,并将排序结果放入一个队列(Queue)。如果有多个源本体的相交源本体个数相同,则比较它们的相似度的和,并按升序排列。这样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 参考 本体 映射 方法 张凌宇
限制150内