CY∕T 101.4-2014 新闻出版内容资源加工规范 第4部分:数据加工质量(新闻出版).pdf
-
资源ID:67538514
资源大小:280.16KB
全文页数:13页
- 资源格式: PDF
下载积分:12金币
快捷下载
![游客一键下载](/images/hot.gif)
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
CY∕T 101.4-2014 新闻出版内容资源加工规范 第4部分:数据加工质量(新闻出版).pdf
新闻出版内容资源加工规范 第 4 部分:数据加工质量2014-01-29 发布2014-01-29 实施中华人民共和国新闻出版行业标准 Specification of content resource processing in press and publication Part 4:Data processing qualityCY/T 101.42014ICS 35.240.30L70发 布中华人民共和国国家新闻出版广电总局I前言 I1范围 12规范性引用文件 13术语和定义 14数据质量结构和要求 24.1数据质量结构 24.2质量评定基本流程 24.3完整性 24.4规范性 34.5有效性 34.6准确性 35质量准确性评定 35.1质量准确性评定原则 35.2评定方法 35.3差错率计算 35.4检测抽样范围 35.5质量准确性要求和错误统计方法 36质量准确性检测报告 5附录 A(资料性附录)质量准确性检测报告单样例 6参考文献7目 次CY/T 101.42014ICY/T 101新闻出版内容资源加工规范分为以下 10 个部分:第 1 部分:加工专业术语;第 4 部分:数据加工质量;第 5 部分:资料管理;第 6 部分:数据管理;第 7 部分:数据交付;第 8 部分:图书加工;第 9 部分:报纸加工;第 10 部分:期刊加工。本部分为 CY/T 101 的第 4 部分。本部分的附录 A 为资料性附录。本部分由中华人民共和国国家新闻出版广电总局科技司提出。本部分由全国新闻出版信息标准化技术委员会归口。本部分起草单位:方正国际软件有限公司、北京拓标卓越信息技术研究院、新闻出版总署信息中心。本部分主要起草人:赵海涛、周长岭、安秀敏、刘成勇、蔡京生、周卫国、吴治强、张沫。前 言第 2 部分:数据加工与应用模式;第 3 部分:数据加工规格;11范围CY/T 101 的本部分规定了新闻出版内容资源数字化加工的数据质量结构和要求、质量准确性评定和质量检测报告等方面的要求。本部分适用于新闻出版内容资源的数字化加工及电子资源的制作和应用。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 16159 汉语拼音正词法基本规则GB/T 5271.14 信息技术词汇 第 14 部分:可靠性、可维护性与可用性3术语和定义GB/T 5271.14 和 CY/T 101.1-2014 中所界定的以及下列术语和定义适用于本文件。3.1资料 materials新闻出版的印刷品、存档胶片或原始排版数据的统称。CY/T 101.1-2014,4.1.23.2成品数据 finished data已经完成全部数据处理过程且符合预先设定的规格和质量要求,可实现交付的最终数据形态。CY/T 101.1-2014,7.1.13.3差错 error误差算出的、观察的或测量的值或状况,规定的或理论上正确的值或状况之间的差异。GB/T 5271.142008,14.01.083.4版式文件 fixed-layout document版式文档排版后生成的,包含版面固化呈现需要的全部数据的一种文件。CY/T 101.1-2014,6.3.103.5流式文件 reflowing document流式文档按照内容逻辑顺序,内容呈现可适应终端设备屏幕或窗口变化的一种文件。CY/T 101.1-2014,6.3.113.6单层图像版式文件 imaged fixed-layout document新闻出版内容资源加工规范 第 4 部分:数据加工质量CY/T 101.420142图像版式文件通过扫描方式,生成与原加工对象版式完全一致的图像文件集合,并打包成独立完整的可浏览的数字版式文件(含书签信息及书签信息和版式文件页面之间的链接关系)。CY/T 101.1-2014,6.3.123.7双层矢量化版式文件 vectorized dual-layer fixed-layout document双层版式文件在单层图像版式文件基础上,同时生成与图像层对应的透明字体模式的文字层,可支持选取、拷贝和查找的版式文件。CY/T 101.1-2014,6.3.133.8单层矢量化版式文件 vectorized fixed-layout document矢量版式文件按照原加工对象的文字位置,文字采用矢量字,修饰性图片、艺术字、底纹、线条、图表和公式等以图像形式显示的版式文件。CY/T 101.1-2014,6.3.144数据质量结构和要求4.1数据质量结构数据质量应包含数据的完整性、规范性、有效性和准确性,如图 1 所示。图 1数据质量结构4.2质量评定基本流程评定成品数据的完整性、规范性和有效性,在这 3 个方面均符合质量要求后,再评定成品数据的准确性。4.3完整性4.3.1类型完整成品数据的类型应与数据加工目标的要求保持一致,不允许出现缺漏和错误。4.3.2内容完整成品数据的内容范围与数量应与数据加工目标的要求保持一致,不允许出现缺漏和乱序等错误。4.3.3质量管理文档完整完整的成品数据质量管理文档应包括:a)质量检测方案;b)质量检测报告。数据质量完整性规范性有效性准确性34.4规范性4.4.1数据格式成品数据的数据格式应与数据加工的要求保持一致,通常采用如下格式:a)长期保存图像使用无损压缩 TIFF 格式;b)一般发布应用图像使用 JPEG 格式;c)内容结构化文档采用 XML1.0 及以上版本,结构化规范描述文件采用 XSD1.0 及以上版本;d)版式文档采用 PDF 等格式;e)流式文档采用 Epub 等格式。4.4.2数据文件命名成品数据的命名应与数据加工要求一致,命名方式由唯一 ID 信息与数据类型的类别信息构成。4.4.3数据存储成品数据的存储应以与数据加工的要求保持一致,通常以加工对象基本单位为存储文件夹,其下分类存储此加工对象的各类成品数据。图书按本存储,报纸和期刊按期存储。4.5有效性成品数据应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开等错误。读出的数据应完整,不允许出现编码混乱、图像失真等无法使用的错误。4.6准确性成品数据的质量准确性应与数据加工的要求保持一致,包括:a)文字准确性;b)图像准确性;c)内容结构化准确性;d)版式文件准确性;e)流式文件准确性。5质量准确性评定5.1质量准确性评定原则5.1.1基本原则数据质量判定依据应建立在数据加工所使用的资料基础之上,即原资料中存在的错误、缺漏、顺序颠倒等质量问题在数据加工时未纠正,不计入数据加工质量错误。5.2评定方法数据加工要求中应明确不同类型成品数据的差错率指标,并采用抽样检测等方式进行质量准确性评定。对于实际差错率不高于成品数据差错率指标的,视为符合质量准确性目标,反之则不符合。5.3差错率计算检测标准单位一般按千、万、十万取值。差错率的计算公式为:差错率=检测标准单位中的错误数/检测标准单位5.4检测抽样范围抽样检测范围应不低于检测标准单位的 20 倍。5.5质量准确性要求和错误统计方法5.5.1文字准确性5.5.1.1文字准确性要求采用内容索引级、全文标准级、版式重构级(全文基础级加工的双层版式文件不包括在内)、版式复杂级等加工方式生成的包含文字内容的成品数据,其文字质量评定标准单位为 10000 个字符,质量应符合相关出版质量管理规定。CY/T 101.4201445.5.1.2文字差错统计方法差错率统计方法包括:a)文字差错的计算方法如下:1)封底、版权页、正文、目录、出版说明(或凡例)、前言(或序)、后记(或跋),注释、索引、图表、附录、参考文献等中的一般性错字、别字、多字、漏字、倒字,每处按 1 个差错计数;2)重复出现同一错字,每页按 1 个差错计数,全书最多按 4 个差错计数。多、漏 1 5 个字,每处按 1 个差错计数,5 个字以上按 4 个差错计数;3)封一、扉页上的文字差错,每处按2个差错计数;相关文字不一致,有一项计1个差错;外文、少数民族文字、国际音标,以单词为单位,无论错误出现几处,均按 1 个差错计数。4)汉语拼音不符合相关规定的,以一个对应的汉字或词组为单位,每处按 1 个差错计数;5)简化字、繁体字混用,每处按0.5个差错计数;同一差错在全书超过3处,按1.5个差错计数;内容本身需要的或原纸质图书简繁混用的不计差错。b)标点符号和其他符号的计算方法如下:1)标点符号的一般错用、漏用、多用,每处按 0.1 个差错计数;2)小数点误为中圆点,或中圆点误为小数点的,以及冒号误为比号,或比号误为冒号的,每处按 0.1 个差错计数;3)破折号误为一字线、半字线,每处按0.1个差错计数。标点符号误在行首、行末的,每处按0.1个差错计数;4)法定计量单位符号、科学技术各学科中的科学符号、乐谱符号等差错,每处按0.5个差错计数;同样差错同一面内不重复计算,全书最多计 1.5 个差错。c)同一位置的文字差错在元数据集、内容结构化数据、版式文件和流式文件等不同成品数据中重复出现的,统一按 1 处差错计数。5.5.2图像准确性5.5.2.1图像准确性要求图像质量评定标准单位为 1000 页,图像差错率要求在千分之一以下。5.5.2.2图像差错统计方法以页面为基本检测单位,页面中出现任何一种或几种错误均按 1 个差错计数,差错类型包括:a)文件格式错误、图像分辨率错误、色彩模式错误、压缩算法错误等规格类错误;b)图像尺寸与原版不一致;c)颜色失真、图像过浓或过淡;d)水平倾斜大于 0.5 度;e)文件损坏。5.5.3内容结构化准确性5.5.3.1内容结构化准确性要求内容结构化质量评定标准单位为 10000 个字符,内容结构化差错率要求在万分之三以下。5.5.3.2内容结构化差错统计方法内容未标引、标引错误、结构化名称错误、结构化层级错误等每处按 1 个差错计数;5.5.4关联关系准确性5.5.4.1关联关系准确性要求关联关系质量评定标准单位为 1000 个链接点,差错率要求在千分之三以下。5.5.4.2关联关系差错统计方法关联关系缺失或指向错误即为差错,一处关联关系错误按 1 个差错计数,关联关系包括:5a)目次与正文章节的链接关系;b)目次的层级关系;c)脚注引用点与脚注的引用关系;d)插图引用点与插图的引用关系;e)表格引用点与表格的引用关系;f)参考文献引用点与参考文献的引用关系;g)图像引用点与图像文件的链接关系。5.5.5版式文件准确性5.5.5.1版式文件准确性要求版式文件质量评定标准单位为 10000 个字符,差错率要求在万分之三以下(图像版式文件除外)。5.5.5.2版式文件差错统计方法版式文件差错计算方法如下:a)矢量版式文件与原版排版方式上不一致的错误,每出现一处按 1 个差错计数,差错包括:1)文字对位错误:单个或单行文字与其他文字不平行;2)排版格式错误:段落、文字或图片位置等不符合要求;3)字体信息错误:字体、字号、加粗、倾斜、颜色、底色、上下脚标等不符合要求;4)行外信息错误:注音、着重符等不符合要求。b)双层版式文件中文字层与图像层偏差超过当前文字 1/3 个字符大小的按 0.2 个差错计数,单行文字最多按 1 个差错计数。5.5.6流式文件准确性5.5.6.1流式文件准确性要求流式文件质量评定标准单位为 10000 个字符,差错率要求在万分之三以下。5.5.6.2流式文件差错统计方法重排后与原版排版方式上不一致的错误,每出现一处按 1 个差错计数,差错包括:a)排版格式错误:段落、文字或图片位置等不符合要求;b)字体信息错误:字体、字号、加粗、倾斜、颜色、底色、上下脚标等不符合要求;c)行外信息错误:注音、着重符等不符合要求。6质量准确性检测报告质量准确性检测报告(参见附录 A)应包含:a)加工方全称;b)检测方全称;c)提交日期;d)检测日期;e)提交数据总量并附符合规范要求的数据清单;f)各类提交资源文件抽检比例及抽检数目,并附有抽检数据清单;g)各检测项差错率,并附有各项明细错误清单(清单应描述错误所在文件的具体位置,文件路径 及命名、纸质出版物页 码、电子文件电子 页码、元数据字段名称、文字语境等);h)检测结论;i)问题描述及错误修改说明。j)检测人及签名。CY/T 101.420146附录 A(资料性附录)质量准确性检测报告单样例A.1质量准确性检测报告单质量准确性检测报告单样例见表 A.1。质量准确性检测报告单项目编号项目名称数据类型检测类型提交日期检测日期加工方检测方检测情况检测项规格要求抽检率检测数据检测工具检测结果数据及检测明细清单检测结论问题描述及错误修改说明检测人表 A.1质量准确性检测报告单71 出版管理条例 20112 图书质量管理规定 20053 图书质量保障体系 19974 报纸期刊审读暂行办法5 报纸质量管理标准(试行)19956 报纸质量管理标准 实施细则(试行)19957 社会科学期刊质量管理标准(试行)19958 音像制品管理条例 20019 图书、期刊、音像制品、电子出版物重大选题备案办法 199710 图书编辑工作基本规程 199811 CY/T101.1-2014 新闻出版内容资源加工规范 第 1 部分:加工专业术语参考文献