基于抽取规则和本体映射的领域xml语义集成-李华昱.pdf
《基于抽取规则和本体映射的领域xml语义集成-李华昱.pdf》由会员分享,可在线阅读,更多相关《基于抽取规则和本体映射的领域xml语义集成-李华昱.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第37卷第4期 河北科技大学学报 VoI37,No42016年8月 Journal of Hebei University of Science and Technology Aug2016文章编号:1008 1542(2016)04041607 doi:107535hbkd2016yx04015基于抽取规则和本体映射的领域XML语义集成李华昱,张培颖,肖 晗(中国石油大学(华东)计算机与通信工程学院,山东青岛 266580)摘 要:油气井工程领域中存在大量的XML文档,传统的XML集成方案无法提供面向语义的信息查询,导致数据利用率不高。针对油气井XML文档WeXML语义集成与查询应用需求,提
2、出一种基于抽取规则和本体映射的语义集成方法。首先定义一系列类、属性抽取规则,分别将WeXMLSchema中的元素、属性映射为WeOWI。本体中的类和属性;然后,利用实例转换算法将WeXML文档转换为本体实例数据;由于WeOWL提供有限的局部语义模型,需要在两者之间建立语义映射,并借助weOWI。中的术语对全局语义模型中的类和属性进行解释,进而提供面向领域全局本体的语义查询。通过构建WeXML数据语义集成原型系统,对提出的转换规则、转换算法和映射规则进行了验证。关键词:计算机信息管理系统;抽取规则;本体映射;领域XMI。;语义集成中图分类号:TP391 文献标志码:ADomain XML sem
3、antic integration based on extractionrules and ontology mappingLI Huayu,ZHANG Peiying,XIAO Han(College of Computer and Communication EngineeringChina University of Petroleum,Qingdao,Shandong 266580,China)Abstract:A plenty of XM。documents exist in petroleum engineering field,hut traditional XMIintegr
4、ation solution cantprovide semantic query,which leads tO low data use efficiencyIn light of WeXML(oil&gas well XML data)semantic integration and query requirement,this paper proposes a semantic integration method based on extraction rules and ontology mappingThe method firstly defines a series of ex
5、traction rules with which elements and properties of WeXML Schema are mapped tOclasses and properties in WeOWL ontology,respectively;secondly,an algorithm is used tO transform WeXML documents intoWeOWL instancesBecause WeOWI,provides limited semantics,ontology mappings between two ontologies are the
6、n built tOexplain class and property of global ontology with terms of WeOWL,and semantic query based on global domain concepts model is providedBy constructing a WeXML data semantic integration prototype system,the proposed transformational rule,thetransfer algorithm and the mapping rule are tested收
7、稿日期:201510 13;修回日期:20151l一24;责任编辑:陈书欣基金项目:山东省自然科学基金(ZR2014FQ018);中央高校基本科研业务费专项资金(14CX02030A)作者简介:李华昱(1 977一),男,山东寿光人,副教授,博士,主要从事语义Web与数据集成方面的研究。Email:lhyzjupceducn李华昱,张培颖,肖 晗基于抽取规则和本体映射的领域XMI。语义集成J河北科技大学学报,2016,37(4):416-422II Huayu,ZHANG Peiying,XIAO HanDomain XMI。semantic integration based on extr
8、action rules and ontology mappingJJournal ofHebei University of Science and Technology,201 6,37(4):41 6-422ng比HMXmmnm时mm玎m沁盯mmOw?万方数据第4期 李华昱,等:基于抽取规则和本体映射的领域XML语义集成 417XML是领域数据重要的信息表示和存储形式,也是应用系统之间进行数据交换的主要标准。然而,由于XML缺乏足够的语义信息,传统的XML集成方案无法提供基于领域术语的语义查询,而利用语义Web与本体技术,对XML文档进行语义集成,是一种有效的解决方案,也是领域数据集成的
9、研究热点之一。目前,XML语义集成主要采用2类方法:1)定义一系列映射规则,从XML文档或XML Schema中抽取本体,并利用映射信息将XML数据转换为本体实例数据,再通过构建基于语义的查询访问接口,实现语义集成。针对此类方法,刘显敏等口1提出了一种基于XML键规则语义实体抽取方法,以此提高XML查询效率;XML20WL系统首先采用XSLT描述语义抽取规则建立OWL本体,再通过实例转换过程生成本体实例数据2;FERDINAND等31提出了XML Schema映射为OWL本体和将XML转换为RDF数据的2种独立方法;XU等n巧提出了一种基于映射规则的领域本体构建方法,该方法能够从XML Sch
10、ema抽取语义信息并构建XML本体。乔卫61设计了XML语义信息抽取模型,通过4个功能模块解决了XML的语义信息抽取问题,特别是XML结构所隐含的语义。2)在XMI。Schema与已有本体之间建立语义映射,利用本体模型描述XML数据并通过实例转换或者查询重写,提供面向本体模型的语义查询。例如,WEESA71和XMLTOWL83采用XML和XSI。T定义XML Schema与本体之间的映射规则,自动将XML文档转换为本体实例;文献9采用2个子过程,借助XSLT,分别将XML Schema和XML文档映射为本体模型和实例数据;LEHTI等1叩提出的本体映射方法中,不提供实例数据转换功能,而是利用查
11、询重写,将基于语义的查询转换为面向XML的Xquery查询。CRUZ等11。1 23和XIAO1 3提出了一个基于本体的XML语义数据集成框架,该框架首先将局部XML本体进行合并生成全局RDF本体,再构造一个模式映射表,记录全局和各个局部本体之间的映射,进而实现语义集成。石油、材料领域中存在若干个XML模型1“,如PetroXML,WellLogML,WITSM153和MatMLcl63等,针对油气井XML文档WeXML,基于文献17和文献D8中的MatML语义集成方法及相关领域数据集成方案口争20,提出了语义解决方案,首先通过定义抽取规则从WeXML Schema中抽取油气井局部本体WeOW
12、L,并通过实例转换部件将WeXML文档转换为WeOWL本体实例数据;由于MatOWL是从WeXMLSchema中抽取而来,仅提供油气井的基本语义信息,需要利用逻辑规则,在WeOWL与领域本体之间建立语义映射,并借助语义映射信息和逻辑规则,实现面向领域语义概念模型的油气井XML数据的语义集成与语义查询。l WeXML语义集成框架11 WeXML基本结构WeXML(well XMI。)是一种描述油气井日常生产相关数据的XML文档,通过XML数据类型、complexType和simpleType,WeXML Schema定义了Dept,Well和Geology 3类一级元素和75种其他子元素和属性,
13、WeXML基本结构如图1所示。图1 WeXML基本结构Fig1 Basic sturcture of WeXML图1中,实线矩形框表示元素类型,以开头的矩形框表示属性。Dept,Well和Geology是3类一级元素类型:Dept描述油气井单位隶属关系,包括矿区和小队;Well是WeXML中的核心类型,包括油井和气井万方数据418 河北科技大学学报2种类型,记为OilWell和Gaswell,每种类型定义产量、压力、泵工艺等子元素,分别描述日产油、日产液、日产气、月产油、月产液、月产气、工艺措施、含水、含砂、压力类型、泵压力、泵排量、泵径、泵深等相关数据;Geology类型描述油田、区块和储层
14、等信息。12相关定义定义1 WeXML Schema=(CT,ST),ST=st st is xsd:simpleType,CT一Ct ct is xsd:complesType=EU ATT,其中:E一eI e is a xsd:Element),ATT=att att is a xsd:Attribute)定义2 XSDType为XML Schema类型集合,XSDType=string,date,dieimal,integer,)建立函数集合FSchema一getEles,getAttrs,getXSDType:1)getEles(ct),getAttrs(ct)分别获取ct的子元素和属
15、性;2)getXSDType(attst)分别获取attst的名称、类型和对应的XML Schema数据类型。定义3 WeOWL一(C,0P,DP,I,A。)WeOWL(well OWL ontology)是从WeXML Schema抽取而来,其中,C是概念集合,OP是对象属性集合,DP是数据类型属性集合,I是实例集合,Ao是公理集合。针对weowL定义,建立函数集合Fw。ow。一hasDomain,hasRange,hasSuperclass:1)V POPUDP,V X,YECUXSDType,PhasDomain(x)表示属性P的Domain中包含类x,PhasRange(y)表示属性p
16、的Range中包含类Y;2)V C,xEC,xhasSuperclass(c)用于表示类X为类C的一个父类。由于WeOWL是从WeXML Schema抽取而来,无法表达比WeXML Schema更丰富的语义信息,需要将WeOWL与领域本体建立映射关联,才能提供更为有效的语义集成服务,为此,引入油气井工程领域本体WeDOWL(well engineering domain 0WL ontology)。定义4 WeDOWL一(Cd,OPd,DPd,Id,A3)WeDOWL是领域全局本体,描述地质、日常生产、工艺措施和隶属单位相关概念和概念之间的语义关联。其中,C。是概念集合,OP。是对象属性集合,
17、DPa是数据类型属性集合,Ia是实例集合,A3是公理集合。定义5 yfcP(x)为语义抽取函数:XESTUCTUXSDType,YECUOPUDP,X为WeXML Schema中的类型或者属性;yfcP(x)表示Y是由X抽取生成的WeOWL类、对象属性或者数据类型属性13语义集成框架WeXML语义集成框架如图2所示, 商用层包括WeXML数据层、本体实例转换层、语义集成业务层和应用层。1)WeXML数据层:包括由各个采油 语生产单位提交的WeXML文档。 :2)本体实例转换层:参照语义抽取规 成则,通过实例转换算法,将WeXML中的 茇油气井数据转换为WeOWL实例数据,即 层填充WeOWL实
18、例集合I。3)语义集成业务层:针对WeXMLSchema结构,定义语义抽取规则,将 本体实WeXML Schema中元素和属性映射为WeOWL中的类、属性以及层次关系并建立WeOwL本体;在WeOWL与WeDOwL之间建立语义映射,提供基于领域概念模型的语义查询。w。舭D。态1态1态叠晒图2 WeXML语义集成框架Fig2 Semantic integration framework of WeXML4)应用层:基于WeOWL语义概念模型,提供可视化查询构造界面,能够根据查询需求构造SPARQLE。3查询语句;通过读取规则库中的逻辑规则并借助推理机,实现面向WeOWL实例数据进行语义查询。万方
19、数据第4期 李华昱,等:基于抽取规则和本体映射的领域XML语义集成 4192 WeOWL构建21语义抽取规则通过对WeXML Schema结构进行分析,并参照HUNTER等223提出的方法,分别针对类、层次结构、对象属性、数据对象属性和基数定义5项抽取规则,从WeXML Schema中抽取语义信息并建立WeOWL本体,规则如下。规则1 Class抽取规则V tE CTU STR一(3 cE C)A(cid=getName(t)规则说明:对于任意CT或ST。类型t,它将被转换为WeOWL中的一个类e,并将t的名称作为C的标志符。该规则简记为c=f。(t)。规则2 Class Hierarchy生
20、成规则规则21 3 elECA(c1id一Well)A 3 c2C(c2id一OilWellV c2id一GasWeU)一elhasSuperclass(c2)规则22 3 clECA(cl。id一ProdO)八hasSuperclass(c2)规贝0 23 j clC(c1id一ProdG)hasSuperclass(c2)c2C(c2id一DOProdV c2id=MOProd)一el一了c2 E C(c2id一DGProdV c2id=MGProd)一c1一规则说明:21将Well类设置为OilWell和GasWell的父类,即将“油井”和“气井”设置为“井”的子类;22将ProdO类设
21、置为DOProd和MOProd的父类,即将“日产油”和“月产油”设置为“产油”的子类;23将ProdG类设置为DGProd和MGProd的父类,即将“日产气”和“月产气”设置为“产气”的子类。定义子类集合C。hId=Oilwell,Gaswell,DOProd,MOProd,DGProd,MGProd),C。hd包含上述6个子类。规则3 ObjectProperty抽取规则V ctE CT A(V xE getEles(ct)U getAttrs(ct)A(xC。Md)A(getType(x)E CTU STR)一(j opEOP)(op=f(JP(x)(opid=getName(x)(oph
22、asDomain(fc(ct)(ophasRange(fc(getType(x)。规则说明:对于任意CT类型et,如果其包含的元素或属性x是CT类型或是ST类型,并且x不包含在C出a集合,则X将被抽取为对象属性op。同时,类fC(ct)被添加到op的domain中,类f。(getType(x)被添加到op的range中。该规则简记为opfP(ctx)。规则4 DataTypeProperty抽取规则V etE CT A(V XE getElements(ct)U getAttributes(ct)A(getType(x)E ST)(getXSDType(x)EXSDType)一(3 dpEDP
23、)A(dpfcDP(x)A(dpidgetName(x)A(dphasDomain(fcP(ct)A(dphasRange(getXSDType(x)。规则说明:对于任意CT类型ct,如果其包含的元素或属性x为ST简单类型或为XML Schema数据类型,X将被抽取为一个数据类型属性dp。同时,类FcP(ct)将被添加到d,的domain中,类FcP(getXSDType(x)将被添加到dp的range中。该规则简记为dp=fP(ctx)。规则5 PropertyCardinality生成规则V ctE CT A(V xE getEles(ct)U getAttrs(ct)(j cfc(ct)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 抽取 规则 本体 映射 领域 xml 语义 集成 李华昱
限制150内