欧美国家图书馆书目数据关联化案例研究_邹美辰.docx
《欧美国家图书馆书目数据关联化案例研究_邹美辰.docx》由会员分享,可在线阅读,更多相关《欧美国家图书馆书目数据关联化案例研究_邹美辰.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信 息管理与信息学 61 欧美国家图书馆书目数据关联化案例研究 邹美辰 1,2,胡 瀛 2 ( 1 中国科学院大学; 2 中国科学院文献情报中心) 摘 要:针对当前我国图书馆对书目关联化的研究不够深入、广泛的问题,剖析欧美国家图书馆书目数据关联 化的 9 个典型案例,总结其特点与不足,以期提高我国图书馆对书目数据关联化的关注度,促进我国图书馆的 书目数据关联化进程。采用网站调研法、案例分析法和对比分析法,详细分析欧美国家图书馆书目数据关联化 的数据来源、数据规模、数据模型、发布格式和许可协议等内容。 总结欧美国家图书馆书目数据关联化的成效 与不足之处,并针对我国图书馆的书目数据关联化提供可行性
2、建议。 关键词:书目数据;关联数据;数据发布;数据模型 中图分类号: G254.3 文献标志码: A 文章编号: 1005 8214( 2016) 11 0061 06 Research on Bibliographic Data Association of National Libraries in Europe and America Zou Mei- chen, Hu Ying Abstract: In viewof solving existing problems of domestic research on bibliographic data association in d
3、omestic libraries such as not in- depth and broad, this article analyzes 9 typical cases of national libraries in Europe and America to improve the attention degree and promote the process of bibliographic data association in domestic libraries. Applying the methods of website research, case analysi
4、s and comparative analysis, this article makes a detailed analysis on some issues of bibliographic data association of national libraries in Europe and America. Meanwhile, it summarizes their achievements and deficiencies to provide feasible sug- gestions for domestic libraries. Keywords: Bibliograp
5、hic Data; Linked Data; Data Dissemination; Data Model 1 引言 书目数据是图书馆领域最具价值的信息资源之 一,是图书馆服务的基础和核心,也是连接用户和图 书馆的桥梁 。 传统的书目数据一直是图书馆的内部独 立资源,大部分采用面向数值的机器可读目录 ( Ma- chine Readable Cataloguing, MARC) 格 式 进 行 编 目 , 即将所有的对象和属性值当作文字看待 。 随着网络环 境的变化,用户对于书目数据的需求开始发生转变, 用户希望通过书目数据获取更加丰富的信息,也希望 通过搜索引擎发现和获取书目数据 。 201
6、0 年联机计算 机图书馆中 心 ( Online Computer Library Center, O- CLC) 的研究报告显示,在数字化网络环境中,信息 消费者的检索起点大部分为搜索引擎,图书馆网站的 占比很低 。 1 因此,书目数据急需打破自身的资源壁 垒,摆脱信息孤岛的束缚,融入更加广阔的网络环境 中,更多的被搜索引擎索引,提升资源的利用率 。 针 对上述情况 , 图书馆 界 开 始寻求新的技术手段 和 解 决 方 案 。 2006 年 , “ 万 维 网 之 父 ” Tim Bern- ers- Lee 提出关联数据的概念,即构建数据之间的关 联,形成一个能被计算机理解的数据网络,从
7、而将现 存的信息孤岛整合成一个巨大数据库 。 2 这一概念的 提出为书目数据的发展提供了新的契机,将书目数据 发布为关联数据,实现书目数据关联化已经成为各个 图书馆打破资源壁垒的共识 。 书目数据关联化之所以 能够实现与其他资源的关联,其根本在于从面向数值 到面向对象的思想转变,即将所有的对象和属性值当 作实体看待,构建实体之间的关联 。 本文选取了欧美 国家图书馆书目数据关联化的若干案例进行研究与分 析,并阐述其对我国图书馆书目数据关联化的启示 。 2 欧美国家图书馆书目数据关联化的现状 欧美国家图书馆一直关注书目数据关联化的相关 研究 。 2008 年,瑞典国家图书馆首次将书目数据发布 为
8、关联数据,是世界上第一个被整体发布为关联数据 的联合目录,并且建立了与 DBpedia 和美国国会图书 馆 主 题 词 表 ( Library of Congress Subject Headings, LCSH) 之间的连接,标志着书目数据开始真正融入网 信 息管理与信息学 622 络环境中 。 3 2010 年 5 月, W3C 成立了图书馆关联数 据孵化小组,推动了关联数据在图书馆领域的发展, 提升了数据的互操作性 。 4 2010 年后,书目数据关联 化达到高潮,欧美各国的国家图书馆纷纷开始进行书 目数据关联化实践 。 笔者以 datahub 5 数据中心为主 要调查对象,结合最新的检
9、索结果和欧美国家图书馆 网站调研结果可知,欧美共有 8 个国家图书馆实现了 书目数据关联化 (分别为瑞典 、 匈牙利 、 西班牙 、 英 国 、 法国 、 意大利 、 德国和俄罗斯) 。 本文选取了 9 个典型案例进行剖析,其书目数据关联化情况统计如 表 1 所示 。 OCLC 和欧盟数字图书馆虽然不是国家图 书馆,但属于欧美十分重要的图书情报机构,其书目 数据关联化具有一定的代表性 。 表 1 典型案例的书目数据关联化情况统计 机构名称 关联书目数据集 发布时间 瑞典国家图书馆 LIBRIS3 2008 年 匈牙利国家图书馆 Hungarian National Library (NSZL)
10、 catalog 6 2010 年 4 月 西班牙国家图书馆 datos.bne.es 7 2011 年 4 月 大英图书馆 British National Bibliography(BNB) 8 2011 年 7 月 法国国家图书馆 data.bnf.fr 9 2011 年 7 月 意大利众议院图书馆 Bibliography of the Italian Parliament and Electoral Studies(BPR)102011 年 德国国家图书馆 Deutsche Nationalbibliografie(DNB) 11 2012 年 1 月 欧盟数字图书馆 data.eu
11、ropeana.eu 12 2012 年 2 月 OCLC WorldCat 13 2012 年 6 月 3 欧美国家图书馆书目数据关联化的分析 3.1 数据来源与规模 实现书目数据关联化,首先需要考虑的就是书目 数据的来源,图书馆在选择数据来源时需要思考两个 问题:一是要进行关联化的数据类型,二是要进行关 联化的数据比例 。 数据类型决定了后续实体及实体属 性的构建,当前的书目数据类型除了书籍 、 期刊等传 统类型外,还包括地图 、 乐谱 、 音频和视频等新兴类 型 。 数据比例则关系着该机构进行书目数据关联化的 目的,是实施一项实验性工作,还是提供实质性的用 户服务 。 经过调研,欧美国家
12、图书馆的书目数据来源 与规模如表 2 所示 。 由表 2 看出,欧美国家图书馆在书目数据关联化 过程中,其数据类型是十分多元的,大部分都同时涵 盖传统和新兴类型 。 在数据比例上,除欧盟数字图书 馆外,其他机构都选择将其内部的全部书目数据进行 关联化,表明其目的大多着眼于提供实质性的用户服 务,在其网站上都有相应的用户服务界面 。 欧盟数字 图书馆只选择一部分数据进行关联化的原因在于有一 些数据提供者不愿意将数据公开,因此只能进行部分 关联化 。 12 此外,有些国家在书目数据关联化过程 中,还将自身的主题词表和规范文档也一同进行了关 联 数 据 化 。 例 如 , 法 国 国 家 图书馆的主
13、题词表 RAMEAU,德国国家图书馆的人名 、 机构和主题规范 文档 GND,以及 OCLC 的虚拟国际规范文档 VIAF 等 。 其次要考虑的就是数据规模,它关系着存储技术 方案的选择 。 原先一般采用书目记录的条数作为图书 馆数据规模的定量指标,但由于现在转换为 RDF 形 式,因此大多采用 Triple 的条数来反映数据规模 。 一 条 Triple 代表书目数据的一条描述,书目数据的数量 越多,描述得越详尽,产生的 Triple 越多 。 由表 2 可 以看出,各机构的数据规模基本都在千万级以上 。 表 2 欧美国家图书馆的书目数据来源与规模 关联书目数据集 数据来源 数据规模 ( T
14、riple) LIBRIS 瑞典联合目录 175 个成员馆的全部 600 万条书目数 据。 14 5000 万 NSZL catalog 匈 牙 利 国 家 图 书 馆 的 整 个 联 机 公 共 检 索 目 录 ( OPAC) 和数字图书馆。 151930 万 datos.bne.es 西班牙国家图书馆的全部超过 400 万条书目资源 包括现代和古代的书籍、电子资源、手稿、期刊 地图、蚀刻画、照片、印刷乐谱以及音频和视听材 料。 16 , 、 5805 万 BNB 大英图书馆的整个英国国家书目,大概 300 万条记 录,包括 1950 年至今的全部出版物。 179648 万 data.bnf
15、.fr 法国国家图书馆的出版物总目录、档案手稿目录以 及 Gallica 数字图书馆,包括几个世纪以来收集到 的 3000 万条记录。出版物总目录中的资源包括音 乐作品、连续出版物和表演等。 18 14377 万 BPR 有关意大利议会和选举历史的期刊文章、书籍及相 应参考书目所在的整个数据库。 1037 万 DNB 德国国家图书馆主要馆藏的全部书目数据 (除印刷 乐谱) 以及德国联合期刊目录中的连续出版物 (杂 志、报纸和期刊)。 11 20142 万 data.europeana.eu 欧盟数字图书馆愿意进行公开的数据集,包括有关 文本、图像、视频和音频的 2000 万条记录。 19117
16、00 万 WorldCat WoldCat 的全部书目数据 (书籍、期刊和其他书目 资源),共 1.97 亿条记录。 20无统计信息 3.2 关联数据模型 3.2.1 实体抽取 书目数据的原始格式大多为一维线性的 MARC 格 式,包含标识项 、 题名与责任者项 、 主题信息项和附 注项等,采用面向数值的思想,信息对象为一条记录 。 但随着网络环境的变化,信息对象越来越细小,从记 录逐步发展为数据,需要更具结构化的组织方式 。 实 体抽取的本质就是从面向数值到面向对象的思想转变, 即根据书目数据的特点从 MARC 记录中抽取不同类型 的实体,将对象和属性值当做实体看待 。 欧美国家图 书馆的书
17、目数据实体类型如表 3 所示 。 由表 3 看出,欧美国家图书馆的书目数据实体抽 取可以分为三大类 。 第一类是根据已有模型进行实体 抽取 。 例如瑞典 、 匈牙利 、 西班牙和法国都是根据 信 息管理与信息学 63 表 3 欧美国家图书馆的书目数据实体类型 、 , FRBR 模型,而 OCLC 则以 Schema.org 为基础模型 。 这 些国家采用已有模型的原因有两点:一是这些模型由 权威机构发布,并且经过实践验证具有可行性;二是 这些模型与其书目数据的特点相契合,符合自身需求 。 下面笔者将以法国国家图书馆为例进行具体分 析 。 法国国家图书馆于 2010 年 11 月正式启动 dat
18、a. bnf.fr 项目,其目标是提升其内部数据在网络上的影 响力, 并发布到关联开放数据 ( Linked Open Data, LOD) 云图中供大家获取和使用 。 该项目根据 FRBR 模型进行实体抽取,实体类型共分为三大类,分别为 作 品 ( frbr:Work、 frbr:Expression、 frbr:Manifestation) 、 责任者 ( foaf:person、 foaf:Organization) 和主题 ( skos: 的最新报告中明确指出要重新建立一个基于 FRBR 的 实体模型 。 意大利没有采用已有模型的原因则是其数 据类型比较特殊,重新设计可以更好地定义实体
19、间的 关系 。 而欧盟则是由于其目标是将全欧洲的图书馆馆 藏聚合起来,涉及的问题比较复杂,已有模型无法满 足其需求 。 以大英图书馆为例进行具体分析 。 2011 年 7 月, 大英图书馆提出要将英国国家书目 ( British National Bibliography, BNB) 发布为关联数据,并开放到 LOD 云图中 。 大英图书馆之所以作出这样的决定,有两点 原因:首先,从 2009 年起英国政府就承诺开放公共 数据,以达到广泛使用的目的, BNB 的关联数据化正 好可以作为大英图书馆对于此项承诺的回应;其次, 大英图书馆希望在关联数据化的过程中受益,成为关 联数据浪潮中的一部分 。
20、 17 大英图书馆针对图书和连 续出版物抽取了不同的实体类型,以图书为例其实体 类型可以划分为四大部分,分别为出版事件 、 主题 、 责任者和其他 。 出版事件包括出版事件类以及与其相 关的主体类 、 空间类和时间类,其中出版事件类是事 件类的子类,出版开始事件类和出版结束事件类是出 版事件类的子类 。 主题包括七大类,概念类 、 LCSH 主题类 、 人名概念类 、 家族概念类 、 机构概念类 、 DDC 主题类和地点概念类,其中概念类是其他六类的 父类 。 责任者包括人名类 、 机构类 、 出生日期类和死 亡日期类 。 其他则包含标识符 、 题名 、 语言和附注类 等 。 虽然大英图书馆根
21、据实体类型构建了相应的模 型,但只是将现有的 MARC 书目记录直接转化为 RDF 格式,其本质的内容描述规则没有改变 。 第三类则是直接在 MARC 格式的基础上进行转 化 。 例如, 德国国家图书馆就是直接进行 MARC21 Concep) t , 并 通 过 dc:contributor、 foaf:focus、 rdarela- 字段到词表属性的映射,没有改变其本质的内容描 tionships:expressionOfWork 等 属性实现了实体间的 关 联 。 为了扩展书目数据的内容,法国国家图书馆还建 立了与外部数据集的连接,包括法国研究图书馆联合 目录 SUDOC、 法国联合目录
22、 CCFR、 OCLC 的在线编 目联合目录 WorldCat、 欧盟数字图书馆 data.europeana. eu 和 DBpedia 等 。 该项目于 2011 年 7 月正式开通网 上服务,并获得了斯坦福图书馆研究创新奖 ( Stanford Prize for Innovation in Research Libraries, SPIRL)。 18 第二类是机构自行抽取 。 例如英国 、 意大利和欧 盟都是根据书目数据特点自行抽取,并构建了相应的 模型 。 英国没有采用 FRBR 模型的原因是当时的设计 者认为 FRBR 是一个过于复杂的模型 , 17 但在其网站 述规则 。 MAR
23、C21 字段可以被划分为题名信息 、 责 任者信息 、 出版信息 、 标识信息 、 丛书系列信息和 语言信息等 。 以题名信息为例,其映射情况见表 4。 表 4 德国国家图书馆题名信息映射表 27 MARC21 字段 MARC21 子字段 RDF 245 题名与责任说明 $a dc:title 245 题名与责任说明 $b、 $n、 $p rdau:P60493 130 主 要 款 目 统 一 题名 $a dcterms:alternative 240 统一题名 $a dcterms:alternative 210 缩略题名 $a bibo:shortTitle 246 变异题名 第二指示符为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 欧美 国家图书馆 书目 数据 关联 案例 研究 邹美辰
限制150内