智慧档案馆数据化管理功能的实现

2021-03-02 07:51陈嘉钰
档案管理 2021年1期
关键词:数据化数字档案馆

陈嘉钰

摘  要:本文认为数字技术为智慧档案馆奠定了数字化的基础,智慧技术则能使数字技术更加智能化;只有通过运用物联网、云计算、云存储等技术来提高档案馆系统的数据传输与计算能力、应用扩展能力和安全存储能力,才能促进智慧档案馆持续健康的发展。

关键词:智慧档案馆;数字档案馆;数据化

Abstract: This article believes that digital technology has laid the foundation for digitization of Intelligent Archive, and smart technology can make digital technology more intelligent; only through the use of Internet of Things, cloud computing, cloud storage and other technologies to improve the data transmission and computing capabilities of the archives system, Application scalability and secure storage capabilities can promote the sustainable and healthy development of Intelligent Archive.

Keywords: Intelligent Archive; Digital Archives; Digitalization

档案馆是各类信息资源的主要保存和服务机构,长期致力于数字记忆保护工作,其中既包括文本内容的长期保存,也包括元数据的有效获取。[1]面对大数据时代这一新型学术需求,智慧档案馆数据化管理应当借助数字技术,提高资源的语义化、智慧化水平,扩大信息共享的范围和深度,积极创新服务方式和方法。

1 智慧档案馆数据化管理的必要性

1.1 档案数据化转型。档案馆收藏和保存了社会活动中的各政府机构和职能机构的重要文件、特殊手稿以及具有文化、历史和文学意义的珍贵资料。档案通常属于未公开发表的唯一版本资料,更具有珍贵性与稀缺性的特点。另外,档案的史料价值和证据价值也决定了其必然成为网络基础设施建设中的主力军。新环境下,档案馆必须转换思路,变藏为用,变被动为主动。

档案数据化转型指的是在档案中,以数据作为载体和表现形式的那部分档案,其外延既包括档案内容、结构、背景数据,也包括非档案内容本身但档案产生的软硬件环境数据、档案业务活动过程中产生的数据以及应该归档但未进行归档的政务数据等,既具有档案性也具有数据性。

1.2 做好数据的前端控制和版本的永续存储。对于数据的质量控制和长期存储来说,档案馆具有理论和经验优势。档案专家应该积极加入数据的前端控制和版本的永续存储方案设计、实施和维护的各个阶段中,帮助实现数字环境下的动态、原生数字数据进行实施数据采集、质量监控和版本的永续存储,以备后期人文研究查考、利用。[2]因此,必须保证数据安全、可靠、完整。可读的措施付诸数据“采集-处理-呈现”的全过程中,才可以有效防止数据的丢失和损坏。档案专家应该积极介入专题数据库及服务平台的建设,在系统设计阶段实行前端控制,对数据生成和管理质量进行监控,保证项目的后续实施效果和版本的永续存储。

2 智慧档案馆数据化管理功能的实现路径

2.1 数字技术支持让档案数字资源有了更为宽广的生存空间。尽管网络技术和数字技术飞速发展,让档案数字资源有了更为宽广的生存空间,存储技术、搜索技术、编目技术的出现使档案数字资源各个管理环节更加趋于自动化、智能化、高效化,并且管理成本也在大幅降低。但对于其中档案内容的数字化来说,智慧技术并不能取代数字技术。智慧档案馆对实体档案可以运用射频识别标签实现泛在感知,可以运用3D库房技术实现实时监测,但将实体档案转化成为不受时空利用限制的数字化资源则需要数字技术,数字技术将传统载体档案进行扫描、转录等,以数字信号形式保存在计算机中,同时还可以结合数字技术实现声影档案展示,为用户提供虚拟体验。如果没有数字技术实现的数字化馆藏,那么智慧档案馆的智慧将要大打折扣。

2.2 数字技术将人工智能与传统文字识别技术进行结合。传统的文字识别技术是将图像进行二值化和灰度化后,将文字作为前景信息,其他部分作为背景信息,通过区分两者的明暗不同来判别哪些是识别区域,再对文字识别区域进行切割和分类,最后基于统计模型进行纠错和识别。但传统识别方法在面对复杂的识别环境时难以提高识别准确率,如多语言混合、低分辨率、非均匀光照、艺术字体、复杂版式等情况,研究人员为了克服这些难点,尝试了很多种方法。近年随着深度学习的兴起,打破了传统OCR的技术瓶颈。传统的机器学习需要先确定特征和标签,然后用一系列算法对这些数据进行计算,然后保存模型,最后对分类的准确性进行预测。这种方法有其缺点,如果提取的特征数量过多,可能会因为偏向于某个特征而出现过拟合的情况,如果提取的特征数量过少,则可能没办法进行精确分类,出现欠拟合的情况。

传统神经网络算法采用全连接的网络结构,一个28×28的矩阵可能需要11万多个参数,参数实在太多,计算量巨大,在图像识别中显然不是很适合。于是开始考虑卷积神经网络。卷积神经网络的思想是在识别一个物体时,通常通过某个局部特征就能识别出该物体为何,并不需要全部识别,所以也可以通过局部特征识别整体而不是全连接的方式。卷积神经网络通过卷积神经元提取上一层图像的局部特征在自身所在隐层单元上映射成一个平面,并通过同平面层具有同一神经元权重值来保证特征映射具有位移不变性和旋转不变性,同时特征提取后还有一个亚取样层或称下采样层,用来求局部平均和二次特征提取,以提高神经网络的畸变容忍能力。[5]这种方法的优点是,只需对初始值进行设置,隨后机器通过自适应和自学习的过程不断调整卷积核的数量和滑动步长,而且参数数量可以减少几个量级。

2.3 数字技术实现智慧档案馆管理功能的全面感知。智慧档案馆在档案实体、档案内容信息和档案管理信息上具备全面感知特点,在数据运算和存储方面采用“自有”和“云”的双模模式,能通过利用移动数字信息查阅服务中心等现有信息发布利用平台和三网融合实现泛在应用,最后从上到下,从内到外,全面运用所有技术进行综合管理。

智慧档案馆期望通过运用物联网、云计算、云存储等技术来提高档案馆系统数据传输与计算能力、应用扩展能力和安全存储能力,但由于没有相关成功案例参考,建设过程中遇到资金不足、人才短缺、技术难关、政策支持和法律规范缺失等问题,需要长期的建设和研究,才能促进智慧档案馆持续健康发展。[6]

3 智慧档案馆数据化管理功能的实现价值

3.1 智慧档案馆数据化实现档案的“活化”。智慧档案馆馆藏数据化管理功能的价值主要体现在两个方面[3]:一方面体现在档案数据中,档案数据这一部分本身即具备数据特征,是智慧档案馆馆藏的数据基础。另一方面是对数字化馆藏进行数据化,通过将数字态档案转变为数据态,实现档案的“活化”,使档案可以被计算机检索、组织、复用等,从而进行内容管理和智能分析。

在智慧档案馆的建设中,物联网的应用是其中一大创新,其前端设备层承担整个档案馆环境内的各类信息感知服务,包括射频识别、传感器、视频监控系统等,这些前端设备每时每刻都在与周围环境交互,产生实时数据。相比于数字档案馆的数字化特征主要体现在数字态馆藏上,智慧档案馆的数据化特征已不仅体现在馆藏层面上,还体现在管理过程中的各个方面,包括了档案与档案之间、档案与人之间、人與人之间交互的所有数据,数据化特征已经渗透到智慧档案馆管理的方方面面。

3.2 实现数据化带来了智慧档案馆管理理念的改变。数字档案馆的馆藏主要有传统载体档案、数字化馆藏以及原生电子文件等三种类型。原生电子文件种类很多,包括文本文件、图形文件、数据文件、图像文件、声音文件、影像文件和命令文件等,[4]涵盖了非结构化、半结构化和结构化三种类型文件,其中对文本文件的管理相比于数字档案馆的纸质数字化档案来说,减少了图像转变为文字的过程。

数字化馆藏则多以PDF、JPEG、MP3等数字态形式存储,针对不同格式进行数据化转换的方式不尽相同,其中纸质档案的内容除了文本,可能还包含图像信息,在对此类档案的数字态成果进行数据化时,关键在于将图像形式的档案转变为文本文件。通常采用OCR技术对图像内容进行文字识别,随着多年的发展,OCR识别的准确率不断提高,有些公司的OCR产品声称可达到99%的准确率,但运用OCR并不是一劳永逸的,还需要后期进行人工核对和纠正,成本较高。经过OCR识别后,可采用PDF双层格式存储来避免后续转换的麻烦,PDF双层格式是将图像层置于上层,而文本置于底层,这样既能保证用户对档案内容进行文档操作,又能保证档案的传输安全。OCR是全文检索的基础,但如果想要实现档案内容智能服务,还远远不够。

经过OCR识别后的文本内容多为非结构化或半结构化,原生电子文件的类型更加多样化,为了有效利用不同结构类型的档案,首先应对非结构化和半结构化的文档进行结构化处理,处理的颗粒度可以根据需要按照章节、段落或句子等来拆分,拆分后形成一个个XML片段,再对这些片段打上标签,目的是为多维度检索做铺垫。标签的另一个作用是为人工智能打下基础,利用海量档案内容对机器进行训练,使机器能够对内容分类做出判断,将分类结果与人工标识的标签进行抽样检查,计算出人工智能分类的准确率,再进行调整。人工智能分类只是档案内容智能管理的一个部分,还需利用其他技术,如知识挖掘技术对档案内容进行深度分析和总结,才能实现档案内容的智能知识推送。

档案从传统介质到数字态,再到数据态的转变,体现了管理颗粒度由粗到细的不断深入。每次转变都离不开技术的进步,同时也带来了管理理念的冲击和改变。

参考文献:

[1]刘潇.档案信息化与数字化的发展趋势分析[J].陕西档案,2020(08): 35-37.

[2]卢钰.电子文件管理的前端控制原则[J].兰台世界,2016(12): 52-56.

[3]赵跃.大数据时代档案数据化的前景展望:意义与困境[J].档案学研究,2019(10): 52-60.

[4]王英,蔡盈芳,黄磊.电子文件管理[M].清华大学出版社,2016.

[5]尹文枫,梁玲燕,彭慧民等.卷积神经网络压缩与加速技术研究进展[J].计算机系统应用,2020(09): 16-25.

[6]李桦.谈智慧档案馆建设的认识误区及对策[J].北京档案,2020(06): 33-35.

(作者单位:郑州轻工业大学 来稿日期:2020-10-04)

猜你喜欢
数据化数字档案馆
数字档案馆建设对档案管理体制的影响分析
“互联网+”背景下的智能互联汽车数据化媒体服务
浅议企业数字档案馆建设
台湾数位典藏计划对内地数字档案发展的启示
浅析人力资源管理的E化
对“未来教室”的初步探索
档案管理和档案服务
基于临床病历数据化的名老中医经验传承方法学研究