基于形式概念分析的本体构建方法研究-韩道军.pdf
《基于形式概念分析的本体构建方法研究-韩道军.pdf》由会员分享,可在线阅读,更多相关《基于形式概念分析的本体构建方法研究-韩道军.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第42卷V0142第2期NO2计算机工程Computer Engineering2016年2月February 2016开发研究与工程应用 文章编号:1000-3428(2016)02-0300-07 文献标识码:A 中图分类号:TP311基于形式概念分析的本体构建方法研究韩道军8,甘 甜6,叶曼曼6,沈夏炯钆6(河南大学a数据与知识工程研究所;b计算机与信息工程学院,河南开封475004)摘要:针对传统本体构建方法依靠人工费时费力、主观干扰较大、对隐含概念和关系提取不足等问题,提出基于形式概念分析构建本体的方法。根据本体构建数据源的结构化程度,将这些构建方法分为3类,即基于结构化资源、基于非
2、结构化资源和异构资源的合并本体构建方法。针对这3种类别,分析和阐述代表性的本体构建方法的优缺点,在比较结果中发现基于形式概念分析构建本体具有较大的改进空间,结合具体应用领域构建时需要在对象和属性的取舍、针对不同语言特点构建形式背景等问题上作进一步研究。关键词:形式概念分析;概念格;本体构建;结构化资源;非结构化资源中文引用格式:韩道军,甘 甜,叶曼曼,等基于形式概念分析的本体构建方法研究J计算机工程,2016,42(2):300-306英文引用格式:Han Daojun,Gan Tian,Ye Manman,et a1Research of Ontology Construction Meth
3、od Based on FormalConcept AnalysisJComputer Engineering,2016,42(2):300306Research of Ontology Construction MethodBased on Formal Concept AnalysisHAN Daojun4一,GAN Tian6,YE Manman6,SHEN Xiion986(aInstitute of Data and Knowledge Engineering;bSchool of Computer and Information EngineeringHenan Universit
4、y,Kaifeng,Henan 475004,China)【Abstract】To solve these problems during traditional ontology construction like relying on artificial,wasting time andenergy,subjective interference,lack of latent concept extraction and SO on,researchers propose methods of ontologyconstruction based on Formal Concept An
5、alysis(FCA)According to the structure level of data resource using in ontologyconstruction,these methods are divided into three classes:methods based on structured resource,methods based onunstructured resource,combine ontology construction based on different structure resourceThis paper analyses a
6、series ofrepresentational methods of these three classes respectively about their advantages and disadvantages,and finds that thereis big improvement space on the choice between objects and attributes as well as making context aiming at differentlanguage combined with the constrction of the specific
7、 application domain【Key words】Formal Concept Analysis(FCA);concept lattice;ontology construction;structured resource;unstructuredresoUrCeDOI:103969jissn100034282016020531 概述随着语义Web和信息大爆炸的到来,大规模抽取并表示信息的系统研究变得越发重要。近年来,本体学习逐渐为研究人员熟知,原因是获取信息较为简单且能提供可共享的高级结构。此外,由于本体能够概念化地描述事物的特征并在它们之间建立逻辑关系,这种结构化的可共享信息被广
8、泛应用,目前主要集中在信息检索、人工智能、信息抽取、异构信息系统集成、语义Web等领域。但是,作为一种较为抽象的概念表达方式,本体在具体应用中受到一些挑战:本体在描述庞大的信息并对其概念化时难度较大;随着本体应用领域实体的多样化,本体描述语言相应也变得更需要具有兼容性。基金项目:国家自然科学基金资助项目(61272545,61402149);河南省科技攻关计划基金资助项目(142102210390);河南省教育厅科技攻关计划基金资助项目(14A520026)。作者简介:韩道军(1979一),男,副教授、博士,主研方向为形式概念分析、空间数据处理、信息安全;甘 甜、叶曼曼,硕士研究生;沈夏炯,教
9、授、博士。收稿日期:20141231 修回日期:2015-02-12 Email:15937666029163com万方数据第42卷第2期 韩道军,甘 甜,叶曼曼,等:基于形式概念分析的本体构建方法研究 301研究人员提供了许多经典本体构建方法,如Tore法、Idef-5方法、Kactus工程法、Methontology、Sensus法、骨架法、七步法等:这些方法都有自己的特点和适用领域,再加上本体构建本身也没有统一标准,因此难以在不同领域本体的构建中保持一致3。客观上,本体构建是一件复杂且费时的过程。而对领域专家来说,从给定的数据和文本中发现本体十分困难,需要一种能够半自动获取本体的方法,降
10、低本体构建的复杂度和成本。观察到本体和形式概念分析(Formal ConceptAnalysis,FCA)都是对概念的形式化表达,并且其表现形式都是概念和关系组成的层级结构,所以基于FCA构建本体具有可行性,并且具有以下特点:(1)概念格算法的研究已经较为成熟,在基于FCA构建本体的过程中,原本依赖人工的初始本体构造可以转化为概念格构造,实现了本体构建的半自动化;(2)概念格中的概念是算法自动从形式背景中获取,并按照序关系形成格结构,避免了传统本体构建中人工主观因素的干扰;(3)FCA同时关注对象和属性,而本体只注重属性,将FCA引入本体构建,丰富了本体概念关系提取方法,发现更多隐含概念关系;
11、(4)本体在视觉上像“树”,而概念格则像“网”,树中的节点非此即彼,网中的节点四通八达,通过使用概念格表示本体,可以使本体更像一张“网”,增加节点知识的互联性。本文根据数据源的结构化程度,将基于FCA的本体构建方法分为3类:(1)基于结构化资源进行本体构建;(2)基于非结构化资源进行本体构建;(3)将结构化和非结构化资源合并进行本体构建。其中,结构化资源主要包括关系数据库或主题词表;非结构化资源是指没有固定结构的数据,例如纯文本,在使用这类资源构建本体时,必须先对文本资源进行自然语言处理(Nature Language Processing,NLP),去除冗余信息,并且最大限度地保留用户感兴趣
12、的内容,以使得机器理解文本并从中获取知识,并使构建好的领域本体实现对领域概念和领域关系的高度覆盖。2 FCA和本体中的概念21形式概念分析形式概念分析理论是德国数学家Wille教授在1982年提出的4,用于概念的发现、排序和显示,并且在1999年Ganter对形式概念分析理论的早期成果作了总结一。文献6指出:FCA不会像其他数据分析方法那样粗粒度减少给定的信息,并且能够包含所有数据细节。其在本体构建过程中的概念提取和关系提取(分类关系和非分类关系)部分的应用被许多学者研究。尤其是对非分类关系的提取,FCA的表现尤为突出。关于形式概念和概念的主要定义如下:定义1 一个形式背景K=(G,M,)是由
13、2个集合G和M以及G与M之间的关系,组成。G的元素称为对象,M的元素称为属性。(g,m),或glm表示对象g具有属性m。定义2设A是对象集合G的一个子集,定义A中对象共有属性的集合:,(A)=tmMl V gA,glm)相应地设B是属性集合M的一个子集,定义具有曰中所有属性的对象的集合:g(B)=g E GI V mB,glm)性质 对于给定形式背景K=(G,肘,)K=(G,M,),其中的2个概念(A。,B),(A:,B:),以下结论成立:(1)对于A,A:G,如果A。A:,那么,(A:)厂(A);(2)对于B。,B:肘,如果日。B:,那么g(B:)g(B,)。定义3 若(A,B),(A:,B
14、:)是某个形式背景的2个概念,而且A。A:,则称(A。,B,)是(A:,B:)的子概念,(A:,B:)是(A,B)的父概念,并记作(A,B)(A:,曰:),关系称为是概念的“序层次”(简称“序”)。形式背景中所有概念用这种序组成的集合称为概念格,记作:L(G,M,)K=(G,M,)。22本体Gruber于1993年给出了Ontology的定义7,本体是对概念模型明确的形式化说明,概念可以被理解为对世界或领域的抽象描述。文献8中总结了Ontology的5个基本建模元语。这些元语分别为:类(classes),关系(relations),函数(functions),公理(axioms)和实例(ins
15、tances),通常也把classes写成concepts;概念可以指任何事物;关系表示概念间的相互作用;函数是一种特殊的关系,表示前n一1个元素唯一确定第n个元素;公理表示永真断言;实例表示元素9。本体的结构可以表示为O:=(C,C,R,6,尺),其中,c和尺分别表示概念集合和关系集合;c上的偏序关系C叫做概念层级;函数6:Rc+,定义域是尺,值域是CC;R上的偏序集尺是关系层级。3 基于FCA构建本体方法的三层结构本文通过分析7种典型的基于FCA构建本体的方法,将基于FCA构建本体的方法体系划分为3个层次:数据源技术层,处理层,输出层,并分别对万方数据302 计算机工程 2016年2月15
16、日7种方法中所使用的数据源和技术,在数据源技术层处理层以及处理层一输出层之间建立联系,明确了基于FCA构建本体过程中的输入输出、因果关系以及构建流程,使原本离散的数据源、技术以及相关处理之间有迹可循,有源可溯。基于FCA构建本体方法的层次如图1所示。图1基于FCA构建的本体方法层次4基于结构化资源的本体构建方法结构化资源作为一种本身就具有二维表结构的数据资源,在被用来构建本体时,省去了自然语言处理,可以简化构建形式背景的过程;其蕴含的分类信息可以为本体概念的提取提供参考;由于结构化资源间具有相似的结构,使得不同的结构化资源能够较为便利地合并(相对于非结构化资源和异构资源)。在基于结构化资源构建
17、本体的基础上,分别提出了循环迭代本体构建方法和实例-属性一属性值矩阵本体构建方法。41循环迭代法文献10认为,以传统分类学作为构建本体概念间关系的基础并按照包含关系来构造概念间的层次,有以下2个弊端:(1)建立对象的层级体系时,一些对象仅按照分类学的序列来组织,但却不具有属性差异,这会在知识共享时带来问题;(2)一旦结构和位置已经被定义将很难再改变。为了解决这些问题,必须用一种更优的方法描述概念和概念之间的关系,而不是仅使用传统的分类学方法进行组织。因此,在GACR项目中提出使用形式概念分析来构造本体的方法,这种方法具有以下特点:(1)概念由属性来描述;(2)属性决定概念的层次,即层级体系不再
18、仅由设计者定义;(3)当不同概念具有相同属性时,认为这些概念等价;(4)该方法可用于合作环境,多个设计者工作于一个本体,每个人都可对本体做改变,由管理者决定哪些改变被采纳。具体步骤是:(I)初始为空对象集合和空属性集合。(2)向背景表中添加对象和属性。(3)显示形式背景对应的概念格或其中的一部分。(4)用户可以在可视化的概念格的基础上做如万方数据第42卷第2期 韩道军,甘甜,叶曼曼,等:基于形式概念分析的本体构建方法研究 303F操作:1)直接编辑(依据本体的实际需要)。添加或删除对象;添加或删除属性;从概念中添加或删除某一属性。2)按照本体构建工具的提示编辑本体。当2个概念重合(具有相同属性
19、)时,要么将其合并成一个概念,要么通过给概念添加属性来加以区别(添加相反属性);FCA能产生直接由属性构成的新概念,作为已有概念的父概念,但它们并不在背景表中显示。(5)重复整个过程,直到设计者满意为止。该方法是一种分布式构建本体的手段,并且可以循环往复对本体进行完善,但其从无到有的本体构建机制使得这种方法不能有效地利用现有本体。42 DOCFCA方法2013年提出了结合一种基于形式概念分析的领域本体半自动构建方法(Domain Ontology Construction based on FCA,DOCFCA)“,该方法的主要流程如图2所示。图2 DOCFCA流程该方法依据概念格生成领域本体
20、模型的主要思想是:(1)去除底层节点,为每个概念命名。(2)根据概念格层次关系获取本体概念间的关系。(3)分别将概念格中的内涵和外延映射为本体中的概念属性和实例。(4)扩充初始本体。该方法与其他方法的不同之处在于,它增加了实例-属性属性值矩阵向实例属性二值形式的转变,拓宽了基于形式概念分析构建本体方法可用数据源范围。此外,该方法还将实例属性属性值矩阵中具有相同属性的实例归并到同一概念,避免概念冗余并且保证了领域本体最大可扩展性的构建原则。5 基于非结构化资源的本体构建方法除了上节介绍的结构化资源,还有一类资源无法用统一的结构表示,如文本、网页等。这类非结构化资源在本体构建中占有很大的比重,并且
21、其中蕴含着比结构化资源更庞大、更复杂的信息。为了使这类资源能够被机器所理解,需要首先对其进行自然语言处理,获得用户关心的词汇,然后对这些词汇建立形式背景,用于本体构建。基于非结构化资源,提出了构建本体的方法。分别为对概念进行约减,以及利用动词名词的关系,将动词转化为属性。51概念格约简法文献12认为现有的本体构造方法可以分为2类,其中大多数方法以自动发现分类关系为基础,仅有少部分方法可以学习本体意义上的概念间的关系,而将这2类方法结合的本体构建研究则处于缺失状态。因此,提出一种可应用在多领域的半自动本体抽取构建方法,该方法将FCA和基于规则的语言相结合,从特定领域文本中抽取概念的分类,为表示非
22、分类关系,自动将初始本体转化为规则语言。其中,对象为领域实体名;属性为实体文本中出现的名词短语。其流程如图3所示。+图3文献12】方法的流程概念格约减包含3个部分:(1)消除冗余的元素。对于关系对(A,B),B可能会在所有父概念中出现,因此被继承的元素应当消除。令曰为B中没有在其子概念出现的部分,用(A,B)代替(A,B)。(2)消除格中的外延。(3)为概念命名。对于依然存在内涵的概念节点,直接用其内涵命名;对于内涵和外延都被消除的概念节点,自动命名为c。,c:。该方法实现了概念格的自动构建,对概念格中的概念进行约减,较为简便地获取本体。但在约减时删除了所有的对象,造成数据资源的缺失。52动词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 形式 概念 分析 本体 构建 方法 研究 韩道军
限制150内