行业动态
档案数字化的标准规范是怎样的 来源: | 发布时间:2020/12/5 10:58:29
档案数字化是指“利用数据库技术、数据压缩技术、高速扫描技术等技术手段,将纸质文件、音像文件等传统媒体文件和归档电子文件系统地组织成一个结构有序的档案信息库。”档案数字化可以节省档案的存储空间,减轻库房的压力,减少原始档案频繁使用带来的磨损,妥善解决珍贵档案的利用问题,有助于保护原始档案,尤其是珍贵档案的保存。目前,数字化在中档案事业中发挥着重要作用,已经成为档案工作发展的必然趋势。

二、文件数字化和扫描技术

文件数字化实现文本输入,主要采用扫描方式将纸质文档和文件转换成数字形式。扫描处理是通过中高速扫描仪和专用扫描软件,将档案分批转化整理归类成图像文件,并自动实现图像压缩存储的过程。

(一)中国家标准

除了《电子文件归档与管理规范》,档案数字化的直接标准是《纸质档案数字化技术规范》。本技术规范指出“扫描应根据文件格式的大小选择相应规格的扫描仪或专业扫描仪进行。大格式文件可以使用大格式数字平台,或者缩微后的数字胶片转换设备进行扫描,也可以在小格式扫描后通过图像拼接进行处理。”另外,“纸张条件差,太薄、太软或太厚的文件要用平板扫描;纸质条件好的文件可以高速扫描,提高工作效率。”

扫描颜色模式一般包括黑白二进制、灰度、彩色等。通常采用黑白二进制。具体可细分为三种:“黑白页、字迹清晰无插图的文件可用黑白二进制模式扫描。黑白页但字迹清晰度或插图较差的文件,以及多色页的文件可以用灰度扫描模式。中这一页有一个红色的头像、一个印章或一个文件,上面有黑白照片、彩色照片和彩色插图。可以根据需要进行彩色扫描模式。”

原则上,扫描分辨率参数的选择应基于清晰完整的扫描图像,而不影响图像的利用率效果。由于高分辨率使文件易于复制,基于此,中,国家标准规定,扫描黑白二进制、灰度和彩色模式文件时,分辨率一般100dpi。在小、密、清晰度差等特殊情况下,可以适当提高分辨率。对于需要OCR汉字识别的文件,扫描分辨率一般建议选择200dpi。

(二)中的实际操作

在中,的实际工作中,根据档案的不同情况,档案部门一般使用各种扫描仪进行扫描,而数码相机很少使用。此外,实际扫描中受文件状态或扫描设备的限制,也有一些文件暂时无法数字化,如纸张过于破损易碎,或一些过大的图纸等。而这些只有在设备或者技术先进之后才能解决。

颜色模式的选择取决于现有设备和文件本身的状态,可以遵循循序渐进的原则。例如,杭州市档案馆纸质档案数字化时,一阶段主要是黑白扫描,第二阶段是红头文件和其他有红色印章的文件的彩色扫描,第三阶段是全彩色扫描。毫无疑问,彩色扫描具有更丰富的层次和更高的清晰度,可以更真实地显示文件的原貌。

分辨率的选择和设备有很大关系,不同地区不同部门也不一样。比如中, 杭州市档案馆纸质档案数字化项目一期将扫描分辨率设为300dpi,浙江省档案馆的数字扫描分辨率一般在200 ~ 300 dpi左右,有的高达600 dpi;但在一些设备相对落后的部门和地区,扫描分辨率大多是按照国家标准设定的,甚至很多部门达不到200dpi。分辨率越高,扫描的图像会越清晰,但同时必须考虑图像文件的大小。

(3)扫描技术的发展趋势

颜色模式选择和分辨率选择是中扫描技术重要的方面

彩色模式无疑会向彩色扫描方向发展,分辨率的选择需要根据实际业务灵活设置。一般为了满足网络查询和利用的需求,黑白图像可以满足200dpi的要求,彩色图像的扫描分辨率可以更低。具体参数可以根据扫描清晰度和质量因素综合选择。对于一些特殊用途,如举办展览,可以采用更高的扫描分辨率。值得注意的是,分辨率既不能太低,也不能太高。例如,福建采用了50dpi的扫描分辨率。虽然容量小,成本低,但无法实现在线查询和利用,相当于做了无用功;另一方面,如果一味追求过高的分辨率,会导致容量过大,也是网络资源传播的负担。

档案数字化后,还应考虑字符识别(OCR)的应用。一般来说,字符识别主要用于全文检索,而不是真正将扫描的图像文件还原为文档。因此,在这方面,不要根据OCR的识别率来设置扫描分辨率。《纸质档案数字化技术规范》建议需要OCR识别的图像文件分辨率应该200dpi,这是一个比较中的标准。