基于领域本体的电子学习资源库模型(终稿).doc
《基于领域本体的电子学习资源库模型(终稿).doc》由会员分享,可在线阅读,更多相关《基于领域本体的电子学习资源库模型(终稿).doc(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 基于领域本体的电子学习资源库模型摘 要: 随着电子学习系统快速的发展,电子学习资源呈现爆炸式的增长,如何有效地组织海量电子学习资源成为构建高效电子学习系统的重要因素。针对现有资源库在资源组织方面存在的不足,提出了一个基于领域知识本体的电子学习资源库检索模型,该模型利用领域知识来构建领域知识本体库并通过抽取电子学习资源元数据构建元数据库,通过映射关系完成对电子学习资源的语义组织,并在此基础之上构建一个语义检索模型,以有效地解决现有电子学习资源检索中丢失语义背景的问题,使检索结果在查全率、查准率方面有所提高,更加符合用户的需求。关键词:电子学习资源库;检索;语义;领域本体;元数据abstract
2、:with the rapid development of e-learning system, e-learning resources grow explosively. how to effectively organize e-learning resources is a key factor of constructing efficient e-learning system. concerning the existing resources organization deficiency of e-learning resource library, this paper
3、proposed an e-learning resource retrieval model based on domain ontology. this model built a domain knowledge library by making use of the domain knowledge and constructed e-learning resources metadata database by extracting resources metadata, realized semantic organization of e-learning resources
4、through mapping relations, and constructed a semantic retrieval model on this basis, in order to effectively solve the problem of the loss of semantic background in the e-learning resource retrieving. the model has also enhanced the recall rate and the precision rate on the retrieval results, and it
5、 is more in line with the needs of the users.key words:e-learning resource library; retrieval; semantic; domain ontology; metadata0 引言随着信息技术的发展与普及,以此为基础的电子学习技术也得到了大家的充分重视,在世界范围为掀起了教育资源建设热潮。各国在教育资源建设方面也投入了大量的资金:美国国家自然科学基金投资1亿美元建设了nsf/abpa/nasa数字图书馆,还投资3000万美元建设美国数字图书馆联盟项目;英国高等教育基金计划投资1500万英镑作为“电子图书馆”
6、的启动资金。国内的教育信息化经过10多年的发展,教育资源建设也得到了长足的进步,cnki数字图书馆已成为全世界最大规模的知识信息资源基地,建成了中国期刊全文数据库等系列数据库1。随着大规模教育资源的建设,电子学习资源组织方面的问题日益凸显,学习资源利用率低下、共享不足造成重复建设、出现资源“孤岛”等问题,这些问题严重影响了电子学习的发展,已经成为电子学习领域亟待解决的问题2-3。许多研究者在这方面也做了大量的研究,本体论的提出为解决电子学习资源组织方面的问题提出了一个解决途径,人们尝试利用本体的语义表达能力来实现电子学习资源的语义组织和语义检索。文献4提出了一个语义扩展方法,首先建立词汇数据库
7、,然后通过计算数据库中词汇的语义距离对用户的查询进行语义扩展;文献5中,作者设计了一个搜索引擎swoogle,它是基于爬虫的语义web信息检索系统,可以对网络中的语义web文件进行检索,并利用本体排序算法对返回的结果进行排序;文献6以产品信息检索为例,研究了产品信息检索系统框架以及语义相似度算法,提出了一个基于本体的产品信息检索模型;文献7以玉米种植领域为例,提出了基于领域本体的语义标注方法以及用户查询处理和查询推荐算法,设计了一个面向玉米种植领域的语义检索系统。本文以“计算机网络”领域为例介绍了领域本体构建,提出了一个基于领域本体的语义检索模型,并深入研究了知识映射。基于领域知识本体的语义检
8、索主要利用领域本体表示某一领域知识概念以及它们之间的语义关系,将用户输入的关键词转化为本体概念,通过语义相似度的计算扩展概念并建立知识映射以实现语义检索的效果。1 基于领域本体的电子学习资源库模型在以上研究的基础上,本文提出了基于领域本体的电子学习资源库模型,该资源库模型主要有三个库组成:本体库、元数据库以及资源库,如图1所示。本体库存放的是领域本体。电子学习资源库用来存放各种电子学习资源,如各种文本文件、视频文件、音频文件等,是整个电子学习资源模型的基础。学习资源库由教学管理者来管理维护,并搜集学习资源。抽取电子学习资源的属性信息,通过元数据标注形成元数据信息,这些元数据信息就存在元数据库中
9、。相对于其他基于本体的学习资源库,本文中多了一个元数据库,它具有以下作用:1)将对电子学习资源库的操作管理转化为对元数据库的操作管理,而元数据数据量小,可以利用关系数据库进行存储,极大地方便了操作管理;2)便于对电子学习资源进行元数据标注,本体一经建立很难经常进行改动,而资源库中的资源却经常变动不断增加,通过元数据库,资源入库时通过元数据标注接口可以直接对资源进行标注,然后将语义元数据存入源数据库中,标注过程不涉及到本体库,因此便于资源的元数据标注。该资源库模型中三个库之间具有两个映射关系:元数据库与资源库之间的映射关系,本体库与元数据库之间的知识映射关系。对于元数据库与资源库之间的映射,通过
10、提取资源库中的电子学习资源属性,进行元数据标注形成资源的元数据,然后将元数据存入元数据库中,即元数据与电子学习资源建立了映射关系。对于本体库与元数据库之间的知识映射,在本文第3章中将详细进行介绍。2 基于领域知识本体的电子学习资源库模型2.1 领域本体的概念swartout等于1999年提出:“本体是用于描述或表达某一领域知识的一组概念或者术语集,既可用于组织知识库较高层次的知识抽象,也可以用来描述特定领域的知识。”8。该定义说明了本体的用处,本体用于对领域知识建模,是对领域知识的抽象表示。它提供明确定义的共识,是知识共享的基础。本文的领域知识本体包括6个构成要素:类(概念)、实例、属性、关系
11、、公理和规则9-10。这些构成要素可以定义某一领域知识本体。定义1 领域本体是描述某一领域知识的概念或术语以及它们之间关系的集合,因此领域知识本体可以用一个6元组dko(c, i, at, re, ax, ru)表示,6个元素的定义如下。1)类或者概念(class)。这个类的概念与面向对象编程语言中的类的概念相似,用来表示事物的分类,从语义上讲,它表示的是实例的集合,是概念的定义描述。2)实例(instance)。代表的一个具体个体,从语义上讲,实例表示的就是上述类的一个具体对象或者实例。3)属性(attribute)。用于描述类和实例所具有的属性、特征、属性值以及属性约束条件。4)关系(re
12、lation)。是在特定领域中,概念、实例以及它们相互之间的关联方式。在语义上关系对应于实例元组的集合,形式上定义为n维笛卡儿积的子集,r:a1a2a3an。常用的有以下4种关系:part-of、kind-of、instance-of、attribute-of。5)公理(axiom)。代表领域知识本体中的永真断言。6)规则(rule)。规则是用来描述根据某一断言逻辑推论出的语句形式声明,其形式是if-then。2.2 领域知识本体设计本体描述语言主要用于概念形式化描述,目前有许多本体描述语言,如xol、rdf、rdfs、oil、owl等11。本文使用owl实现领域知识本体的描述。owl是w3c
13、推荐的本体描述语言标准,它处于w3c的本体语言栈中最上层,是在daml+oil基础上发展起来的,是目前表达能力最强的本体描述语言。根据表达能力和计算能力的不同,owl提供了3种子语言:owl lite、owl dl和owl full,它们满足了不同需求用户的需要12。它们的情况如表1所示。本文采用owl dl语言来构建领域知识本体,它兼顾了表达能力和推理计算能力。本文使用protg4.0作为本体开发工具,protg是斯坦福大学医学信息化研究小组开发的,它是基于java语言开发的开源本体编辑和知识获取软件,具有良好的扩展性,它扩展的owl插件是功能很强大的知识建模工具。选择本体开发工具和编码语言
14、以后,本文以计算机网络领域知识为例,建立一个领域知识本体。领域知识本体的构建首先需要确定领域知识概念模型,目前有三种概念模型建模方法:自上而下的方法、自下而上的方法、核心扩展法。本文采用核心扩展法,根据计算机网络经典教材,通过头脑风暴法产生计算机网络领域核心概念,通过认真识别、分析最终确定了“传输介质”、“网络类型”、“交换设备”、“网络协议”、“网络拓扑结构”、“网络管理”和“网络体系结构”7个核心概念。概念如图2所示。3 知识映射资源库模型中有两个映射关系:元数据库与资源库之间的映射关系,本体库与元数据库之间的知识映射关系。这两种映射关系都是通过语义相似度计算来定义的。而本文中二者的语义相
15、似度计算函数是相同的,因此这两种映射关系本质上是一致的。首先对本体库与元数据库之间的知识映射关系做出如下定义。定义2 设m=(me,o,fmap)为元数据me到本体o的知识映射,fmap为知识映射函数,定义:fmap=sim(eme,eo)(1)其中:eme表示元数据概念元素,eo为本体概念元素,sim(eme,eo)为语义相似度计算函数。由上面的定义可以看出,通过语义相似度计算建立元数据库与本体库之间的知识映射关系。领域本体表示了某一领域知识概念、属性以及它们之间的语义关系,形成了一个具有语义的知识概念层次结构,通过知识映射的计算语义相似度,得到具有语义相似性的元数据元素,形成语义关联,从而
16、使电子学习资源也具有语义层次结构。由于两种映射关系本质上是相同的,参照知识映射关系的定义对元数据库与资源库之间的映射关系做出如下定义。定义3 设e=(me,r,smap)为元数据me到资源r的映射,smap为映射函数,定义:smap=sim(eme,er)(2)其中:eme表示元数据概念元素,eo为资源概念元素,sim(eme,er)为语义相似度计算函数。对于语义相似度的计算,需要遵循一定的基础和原则,所遵循的基础是:用于语义相似度计算的概念集中的元素具有语义相似度,它们之间具有树状层次结构关系,即本文可以将概念元素集看作是一个树状结构。所要遵循的原则如下。1)量化原则。相似度是一个取值在0,
17、1范围的数值,即如果两个概念是同义的,则语义相关度为1,当两个概念之间没有联系时,语义相似度为0。2)简单性原则。在考虑各种影响语义相似度的因素的情况下,应该使语义相似度计算尽可能地简单,尽可能地降低计算的复杂度。3)结合概念属性关系。本体中概念的关系有:is-a, instance-of等。概念之间不同的关系,它们之间的相似度不一样。4)可调节性。它是指语义相似度的计算结果可通过某些参数来调节,语义相似度本身是一个主观性很强的概念,对于不同的应用环境相似度是不同的,因此可调节性保证了语义相似度的计算能满足不同的应用环境需求。5)对称性。概念之间的相似度计算应该符合下面等式:sim(a,b)=
18、sim(b,a),这样有便于多个概念间相似度的比较和换算。本文将综合考虑语义重合度、节点属性等方面的因素,计算语义相似度,得到符合本文实际需求的语义相似度计算方法。1)节点层次深度。本体中概念可以看成一个层次树,概念所处层次越深,概念越具体,概念之间的相似度越大。用depth()表示节点j在本体树中的深度,up(j)表示节点j的父节点,设根节点为root,则:depth(root)=1任一非根节点j的深度计算公式为:depth(j)=depth(up(j)+1本体概念树t的深度depth(t)为:depth(t)=max(depth(j)其中j为任意节点,即本体树的深度等于所有节点中深度最大值
19、。节点深度相应的语义相似度计算式如式(3)所示:weight1(i, j)=min(depth(i),depth(j)n=112n(3)2)节点距离。概念语义距离是指概念集中两个概念对应的节点在层次树中构成最短路径所经历的边数,语义距离也是决定语义相似度的一个因素,通常,语义距离越远,说明两个概念关系越稀疏,相似度也就越小。设dis(i, j)为节点i和j之间最短路径的边数,节点距离相应的语义相似度计算式如式(4)所示:weight2(i, j)=2depth(t)dis(i, j)2depth(t)(4)3)节点密度。节点密度是概念树中节点的疏密程度。在概念树中,不同的部分节点有密有疏,节点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 领域 本体 电子 学习 资源库 模型 终稿
限制150内