《古籍数字化工作指南(DB34-T 4333-2022).pdf》由会员分享,可在线阅读,更多相关《古籍数字化工作指南(DB34-T 4333-2022).pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 ICS 01.140.20 CCS A 14 34 安徽省地方标准 DB34/T 43332022 古籍数字化工作指南 Digitization guideline of ancient Chinese books 2022-10-26 发布 2022-11-26 实施 安徽省市场监督管理局 发 布 DB34/T 43332022 I 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由安徽省文化和旅游厅提出并归口。本文件起草单位:安徽省文化和旅游厅、安徽省图
2、书馆。本文件主要起草人:白宫、王东琪、曹冬生、葛小禾、姚夙阳、刘双葆、陈红军、黄静静、石梅、彭红、王永光。DB34/T 43332022 1 古籍数字化工作指南 1 范围 本文件确立了古籍数字化工作的基本要求,并给出了古籍数字化工作项目遴选、数字资源制作、数据库建设、数字资源发布的一般性方法。本文件适用于古籍数字化工作。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 18030 信息技术 中文编码字符集 GB/T 21712 古籍修复
3、技术规范与质量要求 GB/T 31076.1 汉文古籍特藏藏品定级 第1部分:古籍 GB/T 31219.2 图书馆馆藏资源数字化加工规范 第2部分:文本资源 WH/T 66 古籍元数据规范 WH/T 91 汉文古籍集外字描述规范 3 术语和定义 下列术语和定义适用于本文件。古籍 ancient Chinese books 中国古代典籍的简称,主要指书写或印制于 1911 年以前(含 1911 年)的普通形制典籍。注:凡内容具备“三性”(历史文物性、学术资料性、艺术代表性)之一,且采用中国传统装帧形式的书籍,其时代断限可适当延伸至 1949 年。古籍数字化 digitization of an
4、cient Chinese books 古籍整理工作的一部分,从保护和利用古籍的目的出发,采用计算机技术对古籍进行数字化处理,制成可以再现或检索、阅读、分析的古籍数据库,从多个角度揭示古籍文献信息资源的一项系统工作。古籍数字资源 digital resources of ancient Chinese books 将古籍原件信息转化为数字存储而获得的资源总和。古籍数据库 ancient Chinese books database 按一定的概念结构组织的数据集合,其概念结构描述古籍数据的特征及其对应实体间的关系。古籍修复 restoration of ancient Chinese books
5、 使破损古籍尽可能恢复原貌,而对其进行去污、脱酸、修补、装订等处理。DB34/T 43332022 2 4 职责与要求 组织与职责 4.1.1 组织 宜成立古籍数字化项目组,分配古籍数字化管理人员、古籍数字化制作人员、古籍书库管理人员、古籍修复人员和缩微胶片库管理人员工作职责。4.1.2 职责 4.1.2.1 古籍数字化管理人员 负责古籍数字化项目的选题、申报、数字化制作来源与方式、制定项目实施方案;管理与过程相关的人员、设备、财产、数字资源与档案,确保古籍文献和数据资源的安全。4.1.2.2 古籍数字化制作人员 负责古籍数字化的前期准备工作,进行古籍图像的采集、输出、标引、发布、存档、备份和
6、各项统计,办理古籍原典的出入库交接,对数字化设备进行维护保养。4.1.2.3 古籍书库管理人员 根据古籍数字化计划合理调取古籍,办理古籍出入库交接手续。4.1.2.4 古籍修复人员 修复破损古籍,使其满足数字化需求。4.1.2.5 缩微胶片库管理人员 对缩微胶片进行检验,按数字化制作要求对缩微胶片采取技术处理。工作环境 应确保古籍安全及古籍受环境影响的合理范围,宜选择在古籍存藏机构内部开展。工作流程 宜按照项目遴选、数字资源制作、数据库建设、数字资源发布四项流程开展古籍数字化工作。知识产权 4.4.1 宜采用数字水印、安全加密封装等方法保护古籍数字化资源的知识产权。4.4.2 宜对古籍数字化资
7、源规定清晰的版权声明,建立纠纷应对机制,及时发现和管控知识产权风险。5 项目遴选 对象选择 根据古籍存藏情况,优先开展具有地方特色的古籍数字化工作。版本选择 DB34/T 43332022 3 5.2.1 宜优先选择已入选国家珍贵古籍名录、地方名录或已文物定级的古籍。5.2.2 宜依据 GB/T 31076.1 的规定进行定级,优先选择级别较高的古籍。5.2.3 宜辨别版本优劣,择其善者为数字化底本。所选底本应体现古籍版刻工艺、装帧形式、纸张行款、字体墨色以及藏印、题跋等版本细节信息。数据库选择 按照古籍数字资源使用需求确定建设古籍数据库的类型,如书目数据库、全文数据库等。6 数字资源制作 制
8、作流程 宜按照前期准备、数据采集、数据加工、数据验收、数据归档五项基本流程开展工作。图像制作级别 6.2.1 古籍数字化宜按照不同使用要求制作档案典藏级、复制加工级和发布服务级三种级别的数字图像。6.2.2 档案典藏级用于数字图像的长期保存,可作格式转换和复制的母本。需满足以下技术要求:色彩位深 24 bit;分辨率不低于 600 DPI;像素不低于 3600 万;文件保存格式为 TIFF(LZW)或 RAW(sRAW);色调再现使用 ICC 配置文件。6.2.3 复制加工级由档案典藏级图像经技术手段转换而成,是用于加工复制各种精度、大小的屏幕浏览图像的母本文件。需满足以下技术要求:色彩位深
9、24 bit;分辨率不低于 600 DPI;文件保存格式为 JPG 或 JPEG;色调再现使用 ICC 配置文件。6.2.4 发布服务级由复制加工级图像转换或压缩生成,用于古籍数据库建设,直接面向公众发布。宜满足以下技术要求:扫描或拍照制作而成的资源色彩位深 24 bit,缩微胶片转换制作而成的资源色彩位深 8 bit 灰度;分辨率不低于 200 DPI;像素不低于 1000 万;文件保存格式为 JPG 或 PDF。制作前准备 6.3.1 器材准备 按照数字化制作需求,可选择扫描设备、拍照设备或缩微数字转换设备进行古籍数字化工作。扫描设备宜选择零边距或非接触式扫描仪。需满足以下技术要求:应为无
10、紫外线的同步冷光源;设备实际光学分辨率不低于 600 DPI;DB34/T 43332022 4 CCD感光元件不低于 5000 像素点;色彩位深 24 bit;宜在A4(210 mm 297 mm)A0(1189 mm 841 mm)画幅间自由调整。拍照设备宜选择数码相机或数码后背,并配置托稿台、背景等配套设备。需满足以下技术要求:数码相机或数码后背有效像素不低于 3600 万;托稿台材质应经过脱酸处理,托架稳定牢固;宜选择中灰色的纸板作为扫描或拍照背景。缩微数字转换设备宜选用专业级缩微胶片扫描仪。需满足以下技术要求:扫描设备具有胶片保护装备,不划伤、损伤胶片;设备光学分辨率 400 DPI
11、以上;画幅最短边CCD感光元件不低于 7000 像素点;色彩位深 8 bit灰度。6.3.2 整理准备 6.3.2.1 数字化制作人员对古籍书况进行全面检查,重点记录阙叶、错叶、重叶、夹叶位置及破损面貌,并形成记录文档。6.3.2.2 缩微胶片库管理人员对缩微品进行检查,缩微品质量不合格的古籍,可提取古籍原件进行数字化。6.3.2.3 古籍修复人员依据 GB/T 21712 对修复后方可进行数字化制作的古籍实施修复,以满足数字化加工的技术要求。数据采集 6.4.1 采集方式 资源采集方式主要包括扫描/拍照、缩微胶片数字转化以及图文转换等。6.4.2 数字扫描(拍照)采用扫描或拍照的方式进行数字
12、化制作应满足以下要求:应确保古籍安全及古籍受环境影响在合理范围内;宜注意拍摄光源及环境光源,避免透光或反射光的影响;扫描或拍照后的图像清晰,没有重叶、缺叶、错叶、折页等情况(原书缺叶、错叶除外);扫描或拍照后的图像与古籍原件颜色一致;扫描或拍照后的图像以中缝为中心线,保持原文献的天头、地脚尺寸不变,图像倾斜角度不大于 0.2 度,尽量减少畸变与失真;每部古籍第一册封面宜与色卡及标尺一同拍摄,色卡及标尺宜放置于古籍原件左侧,距古籍0.1 cm1.0 cm;按 1:1 比例扫描或拍摄,拍摄图像外围应有留白,宽度不超过 1 cm;扫描或拍照时原则上不进行拆卷处理,如遇特殊情况(夹字、粘连等),需经古
13、籍数字化管理人员与古籍修复人员会商核定后,由古籍修复人员进行拆卷、修整与还原;扫描或拍照时出现透字现象,由古籍修复人员选择纸性相近的修复纸进行托衬;古籍原件表面如粘贴有其他物件时(如签条等),需先将原件与粘贴物一同扫描,然后将粘贴物揭开,再次扫描;DB34/T 43332022 5 古籍原件内夹有其他物件时(如夹页、夹签),可记录夹签位置,取出单独扫描或拍照后置于该册末尾。6.4.3 缩微胶片数字转换 采用缩微胶片数字转换的方式进行数字化制作需满足以下要求:应注意对缩微胶片的保护;宜选择第二代负像缩微品进行数字化;宜选择专业级缩微胶片数字转换设备;缩微胶片整体密度较为均匀、图像质量较好、图像大
14、小基本相同时,宜采用高速扫描仪对其进行快速整卷/盘扫描,否则宜采用低速扫描仪逐画幅扫描。6.4.4 图文转换 对扫描或拍摄后的图像进行图文转换需满足以下要求:宜照实录入,保留原始文献中的错别字及各种文字变体,保持古籍内容的原始面貌;宜采用光学字符识别和人工录入实现文字的数码转换,文字的处理应依据 GB/T 31219.2 对文本录入和光学识别质量进行控制;字符编码处理应符合 GB 18030 的规定。数据加工 6.5.1 档案典藏级图像处理 档案典藏级图像处理应在不改变采集到的图像数据的色彩、分辨率、格式等情况下进行,主要包括:图像纠偏:对方向与角度不正确的图像进行旋转纠偏,使其更好满足阅读习
15、惯;图像裁剪:对图像外边缘空白处进行裁切修剪,可根据实际裁至 0.5 cm0.75 cm;图像拼接:对画幅较大导致分幅扫描或拍摄的图像进行拼接,接缝处无缝吻合,不应缺失或增加内容,可完整还原古籍原件全貌。6.5.2 6.5.2 复制加工级图像制作 复制加工级图像由档案典藏级图像加工制作而来,要求如下:制作时宜使用档案典藏级图像的备份文件,避免制作中损坏原始数据;制作完成后的图像应与档案典藏级图像的分辨率和像素相同,且一一对应。6.5.3 发布服务级图像制作 发布服务级图像由复制加工级图像加工制作而来,要求如下:制作时宜使用复制加工级图像的备份文件,避免制作中损坏原始数据;制作时宜添加水印,但不
16、应对正常阅读产生影响;制作时可适当压缩图片分辨率和像素,但不应对正常阅读产生影响。6.5.4 元数据制作 宜优先采用excel表单著录,包括但不限于以下三方面:古籍元数据:应符合 WH/T 66 的要求;描述元数据:包括古籍的书目信息和卷目信息;管理元数据:包括古籍的外字信息和数字化加工的过程、主要技术指标。注:外字描述应符合 WH/T 91 的相关要求。DB34/T 43332022 6 数据验收 6.6.1 古籍数字资源制作完成后应由古籍数字化管理人员对成品质量进行验收。6.6.2 图像数据应满足但不限于以下要求:图像数据完整、连续;图像数据比例放大至 100%后无模糊、透字等现象;图像的
17、规格要求和技术参数满足不同制作级别的要求;图像数据按要求保存并命名。6.6.3 文本数据应满足但不限于以下要求:文本数据忠实于原文献,完整有序;文件格式与编码无误;字符错误率不超过 0.3;文本数据按要求保存并命名。6.6.4 元数据应满足但不限于以下要求:元数据能够准确全面描述古籍原件及数字化成品,无缺漏项;元数据描述符合相应规范,便于识别利用;元数据储存格式具备通用性,可与各类型系统兼容。数据归档 6.7.1 数据分类 宜以传统四部分类法为基础但不限于此分类方法。6.7.2 长期储存 宜配置专门的数据空间用于存储数据,记录与数字资源保存、调用、迁移等活动关联的元数据信息。为防止古籍数字资源
18、因存放时间久远无法识读,宜每 5 年10 年进行一次设备介质更新。6.7.3 异地备份 入选国家珍贵古籍名录、地方名录或已文物定级的善本古籍数据宜托管备份至省级有关单位服务器。7 古籍数据库建设 建设原则 古籍数据库应兼具实用性、规范性与开放性,数据库中的数据、软硬件系统宜采用通用的格式与标准化协议,便于交换和共享,数据库及数字资源应安装至本地服务器。数据库功能要求 7.2.1 数据库基本功能 数据库系统应具有输入、输出、存储、修改、更新等基础功能。7.2.2 查询、检索功能 DB34/T 43332022 7 宜首先建立起基于元数据仓储模式下的查询、检索平台,逐步实现词义匹配、全文检索以及多
19、种知识信息关联。7.2.3 应用服务功能 应提供图像基础细节及缩放、翻页、目录、册次选择等基本功能;设置访问统计及用户反馈模块,确保古籍数字化项目应用的有效性。7.2.4 安全管理功能 应包括系统用户管理、系统日志管理、数据库备份与恢复功能。8 数字资源发布 发布平台 宜优先选择关系型数据库系统,提供数据接口供其他系统调用,平台应支持OAI(Open Archives Initiative 开放文档先导)协议。发布模式 根据古籍数字化项目选题确定发布模式,网站发布优先选择B/S(Browser/Server,浏览器/服务器模式)直接浏览访问,支持移动端展示。访问控制 遵循 W3C(国际互联网联盟)的易用性原则和分析要求,优先保障各种复杂条件下的用户方便地获取系统服务,实现信息安全访问和产权保护。DB34/T 43332022 8 参考文献 1 GB/T 18391.32009 信息技术 元数据注册系统(MDR)第3部分:注册系统元模型与基本属性 2 GB/T 36369-2018 信息与文献 数字对象唯一标识符系统 3 GB/T 25100 信息与文献 都柏林核心元数据元素集 4 GB/T 31219.3 图书馆馆藏资源数字化加工规范 第2部分:图像资源 5 GB/T 3792.7 古籍著录规则 6 WH/T 90 汉文古籍文字认同描述规范
限制150内