档案数字化加工方案.docx
《档案数字化加工方案.docx》由会员分享,可在线阅读,更多相关《档案数字化加工方案.docx(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、档案数字化加工方案 (三)数字化加工部分 . 2 6.1. 需求分析与总结 . 2 6.2. 参考的国家标准及技术规范 . 2 6.3. 数字化加工实施细则 . 3 6.9.1. 本项的扫描加工流程 . 3 6.9.2. 生产流程有以下几个主要的步骤组成:. 4 6.9.3. 档案整理 . 5 6.9.4. 著录标引 . 6 6.9.5. 纸件扫描 . 7 6.9.6. 图像处理 . 8 6.9.7. 质量检验 . 10 6.9.8. 档案还原装订 . 10 6.9.9. 数据存储与备份 . 12 6.9.10. 档案电子数据与 XXXXXX 烟草档案系统的无缝挂接 . 12 6.4. 项目所
2、采纳的 OCR 处理技术介绍 . 12 6.10.1. OCR(光学字符识别)技术 . 12 6.10.2. 所采纳的 OCR 及双层 PDF 生产流程 . 13 6.10.3. 生产流程逻辑示意图 . 14 6.5. XXXXXX 档案数字化服务特点 . 15 6.11.1. 自动化程度高 . 15 6.11.2. 标准化程度高 . 15 6.11.3. 严格的质量限制 . 15 6.11.4. 文档平安性高 . 15 6.11.5. 标准的格式 . 15 6.11.6. 便利存储与管理 . 16(三)数字化加工部分6.1. 需求分析与总结此次项目是将中国烟草总公司 XXXXXX 省公司及所
3、属 11 个市烟草公司的约183 万页纸质档案进行数字化加工并将成品数据挂接到档案管理系统中,纸质档案的折分整理、扫描与图像处理、数据的挂接与光盘备份都将严格根据国家档案局相关标准及 XXXXXX 省档案局相关规定,结合 XXXXXX 烟草档案现状定制加工技术规范与生产加工流程。据上述现状,详细人员支配,项目实施周期,采纳标准及实施细则如下。6.2. 参考的 国家标准及技术规范纸质档案数字化技术规范(DA/T 312005)连续色调静态图像的数字压缩及编码(GB/T 17235.1-1998)电子文件归档与管理规范(GB/T 18894-2002)中心档案馆接收档案的标准 XXXXXX 省档案
4、接收和收集管理相关规定 归档文件整理规则(DA/T22-2000)档案著录规则(DA/T 18-1999)无酸档案卷皮卷盒用纸及纸板(DA/T 24-2000)档案修裱技术规范(DA/T 25-2000)XXXXXXXXXXXX 档案数字化技术规范 XXXXXX 烟草档案数字化技术规范 6.3. 数字化加工 实施细则6.9.1. 本项的扫描加工流程6.9.2. 生产流程有以下几个主要的步骤组成:纸质档案的整理 从档案室进行档案提卷,并记录提卷的内容,接着拆卷,并进行去污、平整化,并依据档案纸张的大小和厚薄分类。档案的整理工作主要是为了以后档案的扫描做打算。6.9.2.1. 扫描及图像处理依据不
5、同档案纸张的大小和厚薄,选择不同的扫描仪,较为规整的选择快速扫描仪,较薄、较厚和不规整的用平板扫描仪,这样既能达到爱护档案(高速扫描仪会发生卷纸,损坏档案)的目的,也能提高档案数字化加工的速度。查重查漏 在扫描的过程中,难免会发生重复扫描和漏扫的现象,人工的再次校对能够发觉档案数字化过程中出现的状况,并即使订正。数据项录入 依据档案著录规范或者依据客户档案的实际著录项,录入标题、责任者、归档时间、档号等各种信息。6.9.2.2. 质量检测对扫描图像和著录的标引数据进行检验,图像主要是检验其扫描和净化处理质量,数据项的质量检测主要是检测其录入正确率。6.9.2.3. 档案还原完成档案数字化后,要
6、把原先的档案原件还原成原样。6.9.3. 档案整理 6.9.3.1. 档案交接档案按年度、案卷提档,提档时数字化实施方的提卷人员对每卷的全部页面进行统一的编号,全卷全部文件页号编写完成后,再依据 XXXXXX 烟草的要求抽出不须要扫描的文件页,然后再次按序编写须要扫描的文件页号,页号编写完成后,按实际文件页数填写具体的纸质档案交按清单,并由双方主管人员签字。6.9.3.2. 档案拆分档案拆分前要对档案进行统一的编号,编制总页号后,要从中选中须要扫描的页面。再一次编制所需扫描的页号,两个页号需用铅笔的颜色或位置区分,以确保档案还原时能够清晰区分和核时页数。6.9.3.3. 书目数据打算根据档案著
7、录规则(DA/T18)等的要求,规范档案中的书目内容。包括确定档案书目的著录项、字段长度和内容要求。如有错误或不规范的案卷题名、文件名、责任者、起止页号和页数等,应进行修改。6.9.3.4. 拆除装订在不去除装订物状况下,影响扫描工作进行的档案,应拆除装订物。拆除装订物时应留意爱护档案不受损害。6.9.3.5. 区分扫描件和非扫描件按要求把同一案卷中的扫描件和非扫描件区分开。普发性文件区分的原则是:无关和重份的文件要剔除,有正式件的文件可以不扫描原稿。6.9.3.6. 页面修整破损严峻、无法干脆进行扫描的档案,应先进行技术修复,折皱不平影响扫描质量的原件应先进行相应处理(压平或熨同等)后再进行
8、扫描。6.9.3.7. 档案整理登记制作并填写纸质档案数字化加工过程交接登记表单,具体记录档案整理后每份文件的起始页号和页数。6.9.4. 著录标引 6.9.4.1. 标引著录标引著录为了便利查阅与管理,打印制作档案书目及档案封面,对文字录入的精确性要求较高,但要录的文本域并不是完全统一的在某一页面上,一些文本域要在多个文件中选择,所以录入时须要相关学部专家进行指导,确保文本域录入的精确率。对所需录入的文本进行标引、或对不同类别的档案录入特征制作相应的文字录入工作说明书,供录入员和校对人员参考。6.9.4.2. 录入方式由于文本类型不一,有印刷体、手写体、有表格内的也有表特别的文本信息,所以采
9、纳手工录入和 OCR(光学字符识别)软件相结合的方式录入。即手写体或不清楚的印刷体采纳手工录入,较规整的印刷体采纳 OCR 技术的录入方式。6.9.4.3. 校对方式校对以软件校对和打印输出对比校对相结合的方式,即对手工录入和 OCR自动录入的文本打印输出进行对比校对的一校、二校、抽查校对,确保索引信息达到出版质量万分之一以下。6.9.5. 纸件扫描 原件的扫描与存储格式完全根据国家档案管理的统一标准和 XXXXXX 烟草的相关要求扫描。扫描人员根据扫描与处理工作说明书的要求,填写移交清单(此移交清单是档案拆分人员和扫描人员共同填写)并签字领取并进行纸件扫描。扫描图像运用先进的图像扫描处理软件
10、(快图像系统),扫描人员可依据原稿质量,对系统进行定义,如自动倾斜校正、自动去污、自动分文件等批处理功能。在由系统自动处理功能的同时,扫描人员依据原件的实际状况做相应的调整,如超大页面的处理、纸张颜色深浅及薄厚的处理、扫描时可依据不同原件的状况,调整图像的辨别率、阀值、光明度以及扫描方式和扫描速度,确保在扫描图像质量清楚的状况下,使原件完好无损。图像的辨别率正常状况下为 300dpi,如遇字间距和行行距过密、原件本身是复印件等字迹不清晰的状况,可适当增加扫描的辨别率但要保正图像清楚的同时,又不影响远程查询和巡游的速度。6.9.5.1. 扫描方式依据档案幅面的大小(A4、A3、A0 等)选择相应
11、规格的扫描仪或专业扫描仪(如工程图纸可采纳 0 号图纸扫描仪)进行扫描。大幅面档案可采纳大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采纳小幅面扫描后的图像拼接方式处理。纸张状况较差,以及过薄、过软或超厚的档案,应采纳平板扫描方式;纸张状况好的档案可采纳高速扫描方式以提高工作效率。6.9.5.2. 扫描色调模式扫描色调模式一般有黑白二值、灰度、彩色等。通常采纳黑白二值。页面为黑白两色,并且字迹清楚、不带插图的档案可采纳黑白二值模式进行扫描。页面为黑白两色,但字迹清楚度差或带有插图的档案,以及页面为多色文字的档案,可以采纳灰度模式扫描。页面中有红头、印章或插有黑白照片、彩色
12、照片、彩色插图的档案,可视须要采纳彩色模式进行扫描。6.9.5.3. 扫描辨别率扫描辨别率参数大小的选择,原则上以扫描后的图像清楚、完整、不影响图像的利用效果为准。采纳黑白二值、灰度、彩色几种模式对档案进行扫描时,其辨别率一般均选择大于或等于 200dpi。特别状况下,如文字偏小、密集、清楚度较差等,可适当提高辨别率。须要进行 OCR 汉字识别的档案,扫描辨别率建议选择大于或等于dpi。6.9.5.4. 扫描登记仔细填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一样,不一样时应注明详细缘由和处理方法。6.9.6. 图像处理 XX
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 档案 数字化 加工 方案
限制150内