馆藏纸质档案数字化存在的问题及对策

2021-11-26 09:42武向峰
山东档案 2021年2期
关键词:数字图像题名馆藏

文·武向峰

档案信息资源建设是档案信息化建设的重点,馆藏纸质档案数字化是信息资源的重要来源和基础。纸质档案数字化是采用扫描仪等设备对纸质档案进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的数字图像,并按照纸质档案的内在联系,建立起目录数据与数字图像关联关系的处理过程。纸质档案数字化能有效地保护档案原件,查阅起来也极为方便快捷。各级各类档案馆都已开展馆藏纸质档案数字化工作,笔者拟对纸质档案数字化加工中的若干问题进行分析探讨,并提出意见以供商榷。

一、馆藏纸质档案数字化存在的问题

(一)档案机读目录缺失、漏编情况,表现为纸质档案实体及其纸质目录存在,其机读目录不存在,致使扫描件无法挂接。

(二)题名录入错误。题名指文件的标题,一般应照实抄录。有些机读目录在题名录入时没有照实录入,出现了以下错误。一是简写题名,不能准确全面体现文件材料的内容。如某全宗 1985年的“关于公布干部任职的通知”的题名简写成“通知”;二是题名出现错别字,尤其是婚姻档案中的姓名错误,如“王芬”录入为“王芳”,“刘友栋”录入为“刘支栋”;三是题名全错,如带有文件处理单的某份文件,题名录入为“文件处理单”,没有录入文件的题名。

(三)文号漏录、录入不全或录入错误。文号一般是由“发文机关代字+年份+顺序号”组成。一是档案原件的文号在录入机读目录时漏录;二是录入文号不完整,只录入文号中的年度和发文顺序号,如〔1985〕5号;三是出现发文机关代字录入错误或年份录入错误,如沭政办发〔2009〕13号,录入为“沭政发〔2009〕13号”。

(四)责任者漏录、录入错误。责任者是指制发文件的组织或个人,录入机读目录时有的“责任者”一项空着,有的错把发文机关录入为归档单位。

(五)成文日期漏录、录入错误或录入不全。成文日期指文件形成的日期,是由年月日八位阿拉伯数字组成,比如2001年2月23日的一份文件,其成文日期录入为“20010223”。有的档案机读目录成文日期这一项空着,有的只有年度,有的只有年份和月份,没有具体的日期等。

(六)档案机读目录与档案数字图像不关联。如有的档案,能检索到其档案机读目录数据,检索不到原文的数字图像,其原因是没有关联其档案数字图像。

(七)档案目录数据与档案数字图像关联不准确。如有的婚姻档案,其卷内目录有50件婚姻档案。由于挂接错误,每件档案的机读目录数据与其关联的档案数字图像不能一一对应。

(八)档案数字图像模糊、偏斜,或数字图像不完整。如某“审批预备党员转正存根”扫描档案共44页,其中第20、22、32页数字图像不完整,其“石门镇”“青云镇”“临沭一中”三个单位名称经扫描裁边后成了“门镇”“云镇”“沭一中”。

二、馆藏纸质档案数字化问题应采取的对策

(一)对馆藏纸质档案机读目录漏编、错编的处理方法

1.对档案机读目录漏编的处理

对照馆藏纸质档案一件一件地核对其机读目录,对于漏编的档案机读目录,根据《档案著录规则》,按照目录数据库建立时制定的数据规则,对照档案原件内容,照实录入目录内容。

2.对档案机读目录数据著录项内容与实体档案不吻合的处理

一在档案数字化前期发现档案目录数据录入内容与其纸质档案不吻合,有两种处理方法。一是如果需要修改的机读目录量很小,可以在档案管理系统内检索出录入错误的机读目录,如上文提到的1985年“关于公布干部任职的通知”这份档案的题名简写成“通知”,可先检索出这条错误的机读目录,点击编辑进入包括题名、文号、件号等十二个著录项的界面,然后补充正确题名,最后点击保存即可。二是如果需要修改的机读目录量大,工作人员可以在数字档案管理系统中,检索出需要修改的机读目录,以查询报表的方式导出EXCEL格式的档案机读目录,对照纸质档案进行一一修改。然后从档案管理系统中检索出录入错误的机读目录,进行删除。最后打开档案管理系统,导入修改后的EXCEL表格中正确的档案机读目录即可。档案机读目录中,不管是题名、文号、件号、责任者、年度,还是成文日期、全宗号、目录号、保管期限、盒号,如果出现录入错误内容的现象,都可以通过以上方法进行修改。

二在档案扫描件挂接后,发现档案目录数据录入内容与实体档案不吻合,不仅要重新编辑机读目录,还要修改原文进行数字图片挂接。各档案馆虽然使用的档案管理软件不同,但基本功能应大致相同。下面以八九数码档案管理软件为例,处理档案目录和数字图像出现的问题。如婚姻档案中误将“王芬”录入为“王芳”,按照前文所说方法,应重新编辑这条机读目录,把“王芳”改为“王芬”并保存。然后再检索出修改过的这条带有“王芬” 题名的目录,点击修改原文,出现“电子文件修改”界面,再点击浏览,找到相应的PDF格式的图片文件夹,点击修改,这样这条机读目录就与其档案数字图片挂接上了。

(二)对纸质档案数字图像模糊、偏斜、不完整的处理方法

1.对于档案数字图像模糊、不完整的处理方法

一数字图像不完整、无法清晰识别或图像失真度较大时,应重新扫描、去污、存储。扫描色彩模式一般有黑白二值、彩色、灰度等,通常采用黑白二值。页面为黑白两色且不带插图、字迹清晰的档案可采用黑白二值模式进行扫描。页面为黑白两色,但字迹清晰度差或带有插图的档案以及页面为多色文字的档案,可采用灰度模式扫描。页面中有红头、印章或插有彩色照片、黑白照片、彩色插图的档案,可视需要采用彩色模式进行扫描。采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率应选择 ≥200dpi 。特殊情况下,如文字偏小、密集、清晰度较差等,以及需要进行OCR汉字识别的档案,可适当提高分辨率,建议选择≥300dpi 。对于图像页面中出现的影响图像质量的杂质如黑点、黑线、黑框、黑边等应进行去污处理。处理过程中应遵循展现档案原貌的原则。重新扫描后的图像存储时,应先删除原来模糊或者不完整的扫描件,再按照原来图像文件名命名。

二把重新扫描后的清晰完整的数字图像与对应的机读目录挂接。一是在档案数据库中按照存储的路径找到包含这份文件的文件夹,双击打开文件夹,搜索出全部PDF格式的文件,然后删除。二是在计算机桌面上找到PDF打包软件,双击打开,选择好档案数字图像存储路径,点击执行操作,这份PDF格式的文件就自动生成了。如果是卷内文件,需要按照这份文件的存储路径在数据库中找到包含这份文件的文件夹,打开文件夹删除卷皮和目录数字图像生成的PDF格式的文件。三是登录档案管理系统检索到这件档案,然后点击这条目录前面的原文就可以看到所挂接上的清晰完整的数字图像了。

2.对于档案数字图像偏斜的处理方法

一对偏斜的档案数字图像纠偏。从档案数据库中,根据存储路径找到这张偏斜的数字图像并双击,在图像的菜单栏里找到编辑并点击,出现向右旋转、向左旋转、向下旋转3个箭头标志,根据需要调整的角度来点击相对应的旋转箭头;如果调整的角度不是90°或者90°的倍数,可以直接输入需要调整的角度来纠偏,使图像立正不偏斜,然后点击确定保存图像。

二把纠偏后的数字图像与对应的机读目录挂接。纠偏后的数字图像与对应的机读目录挂接的方法,与重新扫描后的数字图像与对应的机读目录挂接是一样的,需要根据存储路径找到包含纠偏的数字图像文件夹,搜索出全部PDF格式的文件,然后删除。再利用PDF打包软件,对这个文件夹的所有数字图像进行打包。如果是以卷为单位的卷内文件,需要删除由封面和卷内目录生成的PDF文件。这样纠偏后的数字图像与对应的机读目录就挂接好了。

三、馆藏纸质档案数字化的几点思考

(一)精心谋划是做好馆藏纸质档案数字化工作的必要前提。档案数字化工作内容繁琐,每个工作项目开展前都必须做好充分的准备。为此,档案馆要精心谋划,总体把握项目的实施,制定出完善可行的工作方案,保证每个工作项目顺利实施。

(二)科学管理是做好馆藏纸质档案数字化工作的关键方法。根据馆藏纸质档案门类多、起止年度长、卷件数多、数字资源建设管理从理论到实践需要逐渐深化等特点,根据数字化项目进展情况,对人力、技术、资金进行及时有效地调整控制,以确保完成各个年度、各个项目的工作目标。

(三)强化质量是做好纸质档案数字化工作的核心要求。质量是档案数字化建设的核心。档案数字化工作的质量直接影响着档案信息资源建设的质量。档案数字化工作由多个工作环节组成,每个工作环节的工作质量都将影响到整个数字化工作的质量。纸质档案机读目录数据核对、档案扫描、图像处理、图像存储、数据汇总挂接、数据抽检验收等每一个工作环节都需要档案馆工作人员积极跟进,有效检查监督,及时发现问题,防止操作失误,杜绝安全隐患,提高馆藏纸质档案数字化工作水平。

猜你喜欢
数字图像题名馆藏
名家书画:浙江省文史研究馆馆藏书画作品选刊
基于Blob算法的多特征联合数字图像转换仿真
栖凤阁题名记
馆藏高句丽铁器的显微共聚焦激光拉曼光谱分析
馆藏几件残损《佚目》书画琐记
论文写作技巧—题名
论文写作技巧—题名
一种对矢量地图的理论研究
《数字图像处理》课程的驱动教学实践
佳石选赏