CY∕T 102.2-2020 新闻出版数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换(新闻出版).pdf
《CY∕T 102.2-2020 新闻出版数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换(新闻出版).pdf》由会员分享,可在线阅读,更多相关《CY∕T 102.2-2020 新闻出版数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换(新闻出版).pdf(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 ICS01.140.40 A 19 CY 中 华 人 民 共 和 国 新 闻 出 版 行 业 标 准 CY/T 102.22020 代替 CY/T 102.22014 新闻出版数字内容对象存储、复用 与交换规范 第 2 部分:对象封装、存储与交换 Specification of press and publication digital content object storage,reuse and exchangePart 2:Object encoding,storage and exchange 2020-11-16 发布 2021-02-01 实施 国家新闻出版署发 布 CY/T
2、 102.22020 I 目 次 前言.II引言.III1 范围.12 规范性引用文件.13 术语和定义.14 缩略语.25 数字内容对象封装.25.1 对象封装方式.25.2 交换信息包文件结构.25.3 证实方法.56 数字内容对象存储.56.1 信息包存储.56.2 实例文件存储.66.3 数据文件存储.76.4 证实方法.87 数字内容对象交换.87.1 交换方式.87.2 资源标识符获取接口.87.3 指定资源 IRI 获取接口.107.4 元数据获取接口.117.5 数据文件 URL 获取接口.127.6 数据流获取接口.137.7 交换信息包获取接口.137.8 交换信息包上传接
3、口.147.9 资源检索接口.15参考文献.20 CY/T 102.22020 II 前言 本文件按照 GB/T 1.12020标准化工作导则 第 1 部分:标准化文件的结构和起草规则的规定起草。本文件是 CY/T 102新闻出版数字内容对象存储、复用与交换规范的第 2 部分。CY/T 102 已经发布了以下部分:第 1 部分:对象模型;第 2 部分:对象封装、存储和交换;第 3 部分:对象一致性检查方法。本文件代替 CY/T 102.22014数字内容对象存储、复用与交换规范 第 2 部分:对象封装、存储和交换,与 CY/T 102.22014 相比,除结构调整和编辑性改动外,主要技术变化如
4、下:a)修改了本文件的适用范围,由适用于图书单一出版物类型扩展为适用多类型出版物;b)修改了数字内容对象的封装方式。CY/T 102.22014 中采用 OAI-ORE 资源图文件对符合PUBO 本体模型的数字内容对象进行封装,本次修订采用“PUBO RDF 实例文档(RDF/XML文档)”对符合本次修订版 PUBO 本体模型的出版物数字内容对象进行封装;c)修改了信息包结构,其内容包括:1)将 CY/T 102.22014 中 CONTAINER 文件夹下的各级资源图文件及相关文件夹修改为采用“PUBO RDF 实例文档”进行表示;2)修改了清单文件 pubomanifest.xml 的内容
5、,除包含 CY/T 102.22014 中媒体文件清单(dataFileList)之外,新增了对象清单(objectList),用于表示各资源实例作为主体时,与之相关的客体及语义关系。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国新闻出版信息标准化技术委员会(SAC/TC 553)提出并归口。本文件起草单位:北京大学、中宣部机关服务中心(中宣部信息中心)、北京拓标卓越信息技术研究院、中国科技出版传媒股份有限公司。本文件主要起草人:王文清、陈鹏飞、刘成勇、刘勇、张沫、南志弘、陆新民、关涛、张志、姜磊、郭昱锦。本文件及其所代替文件的历次版本发布情况为:201
6、4 年 1 月首次发布为 CY/T 102.22014;本次为第一次修订。CY/T 102.22020 III 引言 随着互联网技术的发展和数字加工与出版相关技术的逐步成熟,传统的新闻出版机构陆续应用信息技术开展数字出版。在数字加工与出版过程中,图书、期刊等出版内容资源不仅包括可交付印刷或电子出版与服务的各类媒体对象(如整书或篇章的PDF文件,以及期刊某期及某论文的PDF文件等)、排版或加工过程中产生的媒体对象(如排版设计源文件等),还包括封面、目次、元数据、各类内容主体、各类辅文(如参考文献、摘要、术语表等)数字内容实体构件。对于这些出版内容资源,需要建立一个新闻出版领域统一的数字内容对象模
7、型,以系统地表示和记录资源的内容结构、特征、表现形式、载体方式以及资源之间的关联关系,并能按不同粒度进行相关数据的封装、存储、复用与交换。近年来,在出版内容资源的知识表示与建模领域,受应用需求的驱动,国内外相关行业及企业标准应运而生。2017年11月,数字内容对象存储、复用与交换规范系列国家标准的起草工作正式启动;2020年3月,该系列国家标准正式发布,为出版内容资源本体的建立奠定了模型基础。以GB/T 38371.12020数字内容对象存储、复用与交换规范 第1部分:对象模型等3项推荐性国家标准为基础,结合新闻出版行业出版内容资源的加工及应用要求,本标准的制订需求提上日程。在本标准的起草过程
8、中,起草组对多项现行国家标准、行业标准及工程标准进行了调研,同时参考了大量国内外数据标准和模型,从对象模型、对象封装、存储和交换以及对象一致性检查等多个方面给出一套统一的行业标准,以实现新闻出版领域对出版内容资源的规范化表示,消除数据复用和交换障碍,降低资源管理和利用成本,推动出版内容资源的融合和深入利用。CY/T 102.22020 1 新闻出版数字内容对象存储、复用与交换规范 第 2 部分:对象封装、存储与交换 1 范围 本文件规定了出版内容资源对象的封装、存储与交换方式,并给出了对象交换服务接口。本文件适用于新闻出版行业有关数字内容资源的数字化统一管理和共享。2 规范性引用文件 下列文件
9、中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 74082005 数据元和交换格式 信息交换 日期和时间表示法(ISO 8601:2000,IDT)GB/T 38371.22020 数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换 CY/T 102.12020 新闻出版数字内容对象存储、复用与交换规范 第1部分:对象模型 CY/T 102.32020 新闻出版数字内容对象存储、复用与交换规范 第3部分:对象一致性检查方法 3 术语和定义 GB
10、/T 20000.1界定的以及下列术语和定义适用于本文件。3.1 信息包 information package 通过打包信息进行封装和识别的一种逻辑容器。来源:GB/T 38371.22020,3.2 3.2 交换信息包 exchange information package;EIP 在不同系统之间,用于数据交换的信息包。来源:GB/T 38371.22020,3.3 3.3 存档信息包 archive information package;AIP 为资源存档和长期保存而规定的逻辑存储格式。来源:GB/T 38371.22020,3.4 CY/T 102.22020 2 3.4 PUBO
11、 RDF 实例文件 PUBO based RDF instance file 基于出版内容资源本体模型的符合RDF表示规范的实例数据存储文件。4 缩略语 下列缩略语适用于本文件。AIP:存档信息包(Archive Information Package)DCOO:数字内容对象本体(Digital Content Object Ontology)EIP:交换信息包(Exchange Information Package)MIME:多用途互联网邮件扩展(Multipurpose Internet Mail Extensions)OAIS:开放档案信息系统(Open Archival Inform
12、ation System)PUBO:出版内容资源本体(Publication Content Resource Ontology)RDF:资源描述框架(Resource Description Framework)SRU:基于URL的搜索/检索(Search/Retrieve via URL)SRW:搜索/检索Web服务(Search/Retrieve Web Service)URL:统一资源定位符(Uniform Resource Locator)5 数字内容对象封装 5.1 对象封装方式 5.1.1 容器级封装 容器级封装用以封装出版物数字内容对象及其相关的所有对象信息。5.1.2 对象级
13、封装 对象级封装用以封装出版物数字内容对象及其所包含的单一媒体对象信息。5.2 交换信息包文件结构 5.2.1 交换信息包类型 根据交换信息包所封装的资源粒度,可分为容器级交换信息包与对象级交换信息包。5.2.2 容器级交换信息包结构 容器级交换信息包封装了一个完整的容器级封装所包含的所有信息,其结构如下:Container_Local_ID.zip/mimetype META-INF/container.xml pubomanifest.xml CONTAINER/pubo_rdf_instance.xml(实例文件)dataFile/CY/T 102.22020 3 audio/音频数据文
14、件 video/视频数据文件 image/图像数据文件 text/文本数据文件 other/其他类型数据文件 注1:“Container_Local_ID”为容器级封装的本地标识符;交换信息包以“Container_Local_ID.zip”命名,采用 ZIP 压缩格式对信息包进行压缩;注2:每个交换信息包均含有一个名为 mimetype 的文件,其中内容为固定值“application/pubo+zip”,用于说明交换信息包文件的格式;mimetype 文件不含新行或回车,自身不作压缩;注3:“META-INF”文件目录用于存放容器级封装相关的信息,其中包含 container.xml 和
15、pubomanifest.xml 两个文件:a)container.xml:其文件内容如下面的 XML 片段所示。该 XML 示例片段中,“”元素的属性包括:full-path:当前容器级封装的 PUBO RDF 实例文件的相对路径;media-type:该交换信息包文件的打开方式;package-type:表示包类型,容器级交换信息包类型为“pubo-container+xml”。b)pubomanifest.xml:该清单文件给出了该容器级封装所包含的媒体对象文件(即数据文件)列表及对象实例关系列表,文件命名为“pubomanifest.xml”。该文件的根元素为“”,其属性包括:iden
16、tifier:取值为出版物数字内容对象实例 IRI,在该内容清单中是唯一的;version:内容清单的版本号,用来区分具有相同标识符的内容清单。“”下包含子元素“”(数据文件列表),示例 XML 片段如下所示:CY/T 102.22020 4 该 XML 示例片段中,“”元素的属性包括:id:必备属性;每一个“item”对应一份数据文件,“id”为当前媒体对象的 IRI(“&myNamespace;”表示应用单位的命名空间取值);href:必备属性;取值为当前媒体对象对应数据文件的相对路径(相对于 CONTAINER 文件目录);media-type:必备属性;取值为当前数据文件的 MIME
17、类型取值。“”下包含的另一个子元素“”(对象清单),示例 XML 片段如下所示:该 XML 示例片段中,“”及“”元素的属性包括:subjectId:必备属性;当前主体对象实例的 IRI(“&myNamespace;”表示应用单位的命名空间取值);subjectId 来自于当前 PUBO RDF 实例文件(即 pubo_rdf_instance.xml 文件);predicate:必备属性;当前“”(关系)所对应的属性类型;objectId:必备属性;当前客体对象实例的 IRI;objectId 是“”中某一个“”的 subjectId。注4:“CONTAINER”文件目录包含两部分:pubo
18、_rdf_instance.xml:当前容器级封装实例的 PUBO RDF 实例文件;dataFile 文件目录:其下的文件子目录包括“audio”“video”“image”“text”“other”等;每个文件子目录下包含对应类型的数据文件。5.2.3 对象级交换信息包结构 对象级交换信息包用以封装出版物数字内容对象及其所包含的单一媒体对象(及相关数据文件)信息,其结构如下:Object_Local_ID.zip/mimetype META-INF/container.xml pubomanifest.xml CONTAINER/CY/T 102.22020 5 pubo_rdf_inst
19、ance.xml(实例文件)dataFile/media_type_label/某一媒体类型数据文件 注1:“Object_Local_ID”为出版物数字内容对象的本地标识符;交换信息包以“Object_Local_ID.zip”命名,采用ZIP压缩格式对信息包进行压缩;注2:“mimetype”文件的内容及要求与容器级交换信息包中同名文件一致;注3:“META-INF”文 件 目 录 用 于 存 放 当 前 出 版 物 数 字 内 容 对 象 相 关 信 息,其 中 包 含 container.xml和pubomanifest.xml两个文件:a)container.xml:其文件内容如下面
20、的 XML 片段所示:该 XML 示例片段中,“”元素的属性包括:full-path 及 media-type 属性含义及内容与容器级交换信息包中对应属性一致;package-type:表示包类型;对象级交换信息包类型为“pubo-object+xml”;class:在上例中,class 属性表示当前对象实例的类型为 DCOO 类或 PUBO 新扩展类的某一对象类型。b)pubomanifest.xml:该清单文件的内容格式与容器级交换信息包中同名文件要求一致。注4:“CONTAINER”文件目录包含两部分:pubo_rdf_instance.xml:当前对象实例的 PUBO RDF 实例文件
21、;dataFile 文件目录:其下的文件子目录名“media_type_label”可为“audio”“video”“image”“text”或“other”中的一种;该文件子目录下包含对应类型的数据文件。5.3 证实方法 出版物数字内容对象封装的证实方法见CY/T 102.32020的5.2。6 数字内容对象存储 6.1 信息包存储 信息包的存储包括出版物数字内容对象(及其相关资源对象)的实例文件及数据文件的存储。实现这两类文件的逻辑存储结构即为出版物数字内容对象存档信息包结构。CY/T 102.22020 6 6.2 实例文件存储 6.2.1 文件系统存储 完整的PUBO RDF实例文件可
22、单独存储于文件系统中。如果文件中涉及媒体对象相关数据文件的具体存储位置时,该存储位置可是当前PUBO RDF实例文件存储位置的相对路径,也可是其他路径。示例:当前PUBO RDF实例文件存储为“/Base_Path/pubo_rdf_instance.xml”(“Base_Path”为存储PUBO RDF实例文件的基础存储路径)。该实例文件中涉及的媒体对象相关数据文件可存储于同一路径下,其RDF/XML示例片段如下所示:dataFile/other/mediaObj_1.pdf 注1:“&myNamespace;”表示应用单位的命名空间取值;注2:“dataFile”是位于“Base_Path
23、”下的文件子目录。6.2.2 关系数据库存储 关系数据库以二维表结构对实例数据进行组织和存储。将PUBO RDF实例文件存储于关系数据库中时,每个实例作为独立的文本单元,存储于数据库表中。表结构见表1所示。表1 RDF 实例存储表 序号序号 字段名字段名 说明说明 类型类型 非空非空 备注备注 1 Id 当前实例的本地标识符 字符串型 是 主键 2 IRI 当前实例的 IRI 字符串型 是 唯一键 3 Description 某一完整的 rdf:Description 节点XML 片段内容 长文本型 是 注:IRI字段内容的示例形如:“&myNamespace;example/chapter_
24、1”(其中“&myNamespace;”表示应用单位的命名空间取值);Description元素内容的RDF/XML示例片段如下:章的名称 实例关系表用于存储PUBO RDF实例文件中各个实例之间的关系。表结构见表2。表2 实例关系表 序号序号 字段名字段名 说明说明 类型类型 非空非空 备注备注 1 Id 当前关系的标识符 数值型 或字符串型 是 主键 CY/T 102.22020 7 表 2(续)序号序号 字段名字段名 说明说明 类型类型 非空非空 备注备注 2 subjectId 当前主体实例对象的 IRI 字符串型 是 取值形如:&myNamespace;example/chapter
25、_1 3 predicate 当前属性的 IRI 字符串型 是 取值形如:&pubo;x60_section 4 objectId 当前客体实例对象的 IRI 字符串型 是 取值形如:&myNamespace;example/section_1 注1:该表的存储内容与交换信息包中pubomanifest.xml的节点下的内容一致(见5.2.2);注2:该表采用“&pubo;”简化表示PUBO命名空间取值“http:/pubo_authority_domain/standards/pubo#”。6.2.3 图数据库存储 PUBO对象模型具有图特性,当出版物数字内容对象及其相关资源对象的实例文件数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CYT 102.2-2020 新闻出版数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换新闻出版 CY 102.2 2020 新闻出版 数字 内容 对象 存储 交换 规范 部分 封装
链接地址:https://www.taowenge.com/p-67534811.html
限制150内