历史档案专题知识库案例分析与思考

2023-05-30 07:58郭立鑫刘雨晴袁嘉新
档案管理 2023年1期
关键词:数字人文数据挖掘

郭立鑫 刘雨晴 袁嘉新

摘  要:本文通过对国内外多个经典历史档案专题知识库案例进行分析,梳理总结出历史档案专题知识库构建的思路脉络、叙事主题、实施流程、技术应用、可视化展示和人文关怀的共性特点,并提出当前历史档案专题知识库建设中面临的困难以及应对策略,旨在为历史档案专题知识库的建设和发展提供参考。

关键词:历史档案;专题知识库;数据挖掘;数字人文

Abstract: Through the analysis of several classic cases of historical archives thematic knowledge base at home and abroad, this paper summarizes the common features of the construction of historical archives thematic knowledge base, including the train of thought, narrative theme, implementation process, technology application, visual display and humanistic care, and puts forward the difficulties faced in the construction of historical archives thematic knowledge base and coping strategies, aiming to provide reference for the construction and development of historical archives thematic knowledge base.

Keywords: Historical archives; Thematic knowledge base; Data mining; Digital Humanities

歷史档案是指形成时间较早,离当前较久远且主要起历史文化作用的档案。随着信息技术的发展,大量历史档案已经完成数字化、数据化,海量信息资源给档案利用带来新挑战。从“小而深”的角度开展历史档案资源开发利用,建立历史档案专题知识库成为众多文化机构和档案机构的首选方案。本文所讨论的历史档案专题知识库主要是指以特定专题历史档案作为知识来源,对档案信息进行整理、分析和重组,利用计算机来表达、存储和管理历史档案元数据,对历史档案资源进行知识管理,并主动为用户提供知识服务的历史档案资源开发利用方式。近年来,数字人文视角下的历史档案开发利用研究逐渐深入。ALISON ABBOTT认为“威尼斯时光机项目”将揭露隐藏的历史,帮助学者重塑对过去的理解。[1]牛力、高晨翔等学者将档案研究路径概括为“发现”“重构”与“故事化”三层原语。[2]姚天泓、陈艳梅等人基于CIDOC-CRM本体模型对张学良史料资源进行了语义化知识组织研究。[3]这些研究成果为历史档案专题知识库的建设开辟了新的数字人文研究视角,推动了历史档案从“数字化”向“数据化”“知识化”方向转型发展。

1 典型案例介绍

1.1 “欧洲时光机”(European Time Machine)。威尼斯时光机是由EPFL和威尼斯Ca'Foscari大学发起的一项先驱性国际数字人文科学计划,该项目的第一阶段(2012-2019年)创建了最大的威尼斯地质历史及其演变数据库,第二阶段(2020-2028年)专注于开发威尼斯镜像世界,全新的“欧洲时光机”则是“威尼斯时光机”项目的延伸与发展。“时光机”旨在利用最新的数字技术和基础设施结合欧洲丰富的历史,构建一个集体数字信息系统,用于描绘欧洲经济、社会、文化和地理跨时代的演变,[4]各领域专业知识共同赋能“时光机”工程,为欧洲城市规划提供新视域。[5]

1.2“协作欧洲数字档案研究基础设施”(CENDARI)。协作欧洲数字档案研究基础设施(Collaborative European Digital Archival Research Infrastructure,简称CENDARI)是一项由欧盟资助的历史档案资源类人文研究项目(2012-2016),旨在开发一个研究基础设施,以促进对跨国历史问题的资源获取和研究。CENDARI立足于全球各文化遗产机构已有的数字化工作基础,筛选出第一次世界大战和中世纪文化两大专题档案资源进行整合和管控。[6]采取参与式设计的方式,将80多万份档案和历史资料集成到项目开发的工具和服务集合中,由专业的历史学家提出一个通用的历史知识整理框架,用户可通过CENDARI对历史资源进行深度著录标引、关联重构和可视化呈现。[7]

1.3 “盛宣怀档案知识库”。上海图书馆建设的“盛宣怀档案知识库”是研究中国近代史的第一手史料宝库,是盛宣怀家族自1850年至1936年间的记录,内容涉及政治、经济、社会、军事、外交、金融、贸易和教育等方面。该项目在档案领域应用了数字人文方法和关联数据技术,利用时空分析法、社会关系分析法和交互式的可视化手段来挖掘、分析、构建、绘制和展示档案资源中显性知识、隐形知识以及它们之间的关联。“盛宣怀档案知识库”网站不但以关系图谱的形式表现人物收发信函、电报的往来关系,而且上载了馆藏盛宣怀档案扫描件供读者查阅利用。

1.4 “记忆高迁”数字记忆。“记忆高迁,爰得我所——高迁数字记忆”项目依据“多维叙事”的理念,以“前站后库”架构同步建设“记忆高迁”网站和“高迁数字资源库”,设计相关数字创意产品,旨在对高迁古村历史文化进行数字化保护与传承。[8]“高迁数字资源库”中的数字资源分别以文献遗产、建筑空间、家族先贤和精神文化等主题进行分类管理,并以关联实体方式对文本资源进行深度标签化,为更深层次的文本挖掘和数据关联奠定基础。项目利用知识图谱工具Protégé软件创建本体网络--高迁古村文脉图谱,实现了面向内容的语义组织,形成古村落实体库,并以可视化的形式呈现。[9]

2 案例共性特征分析

2.1 主线脉络清晰。历史档案具有多维多模多态的特点,在建设知识库过程中,由于要素关系杂乱、涉及方面广等问题,易出现叙事主线不明确、难以厘清脉络、无法深入挖掘专题亮点、叙事平庸以及缺少特色展示的情况。但上述四个典型案例均具有主题特征鲜明,主线描述清晰的具象化特点,比如,单独的专题人物知识库围绕着人物线索进行延伸设计,而城市记忆则可认为是多个小型专题知识库的集合关联体,选取了具有共同特点的历史档案材料,对事件、人物、组织、地点和时序五个要素进行合理关联,确定建设脉络主线。

2.2 叙事主题多元。合适的开展角度以及清晰的叙事主题影响着历史档案专题知识库建设成效,数字化的历史档案被认为是待挖掘的数据,在数据挖掘过程中应注重档案之间的内在联系,对各要素进行精准标注以及合理关联。上述案例在明确叙事主线的前提下(如围绕着某人物/某事件/某地区展开),选择了多种主题(要素)关联展示的形式,叙事主题和展现方式如图1所示。

2.3 构建流程规范。对上述历史档案专题知识库案例分析后不难发现,历史档案资源经历了“数字化-数据化-知识化-可视化”的处理流程。数字化阶段,上述案例都在建设初期完成了历史档案资源数字化或立足于已有的数字化工作基础,包括了对所选专题相关的历史档案资源进行收集筛选、整理集合,在资料相对完善的基础上,利用扫描、格式转换和文本识别等技术将历史档案资源转换为机器可读的信息流。数据化阶段,如“盛宣怀档案知识库”应用各类技术手段(数据分析、分類筛选)对盛宣怀档案数据进行了分类整合与数据清理,清理掉重复的、无用的知识,对专题档案知识进行归类,为后续的历史档案知识组织与管理做准备。知识化阶段,案例应用前沿数字技术在海量的、成熟的、完整的数据资源基础上进行深度挖掘,开发档案数据内在关联与价值,以不同要素进行合理关联。可视化阶段,主要体现在历史档案知识展示平台的搭建,实现档案检索、档案展示和知识发现功能,上述案例的可视化成果分别以模型展览、档案系统、门户网站、微信小程序和移动端APP等形式展现。

2.4 知识获取可视化。案例都充分结合传统媒介方法、数字技术和数字艺术对历史档案开发利用,后端以复杂数据处理的历史档案数据库作为支撑,前端以简约实用的网站形式创意呈现。这种挖掘原本隐藏在档案之中的信息并搭建交互式平台进行可视化展示,其本质是简化社会公众、专家学者们获取历史档案内在知识的流程,强化用户与历史档案资源之间的交互联系,以期用户可以从历史档案可视化成果展示中获取更多的知识与灵感。[10]如“记忆高迁”以古色古韵的门户网站作为展示窗口,CENDARI可通过webvowl工具进行可视化探索,利用者知识获取的途径更加简单快捷。

2.5 数字人文技术得以深入应用。数字人文从方法论角度颠覆了学科的基本边界,为历史档案知识库提供了搭建新型研究方法、知识体系、呈现方式和理论框架的途径。威尼斯时光机案例中,研究者通过原始档案材料,利用自然语言处理、数据挖掘、数据关联、本体构建等新兴技术与理念,对历史档案资源进行数据分析与处理,并利用H5、VR/AR、GIS、知识图谱、3D建模等视觉交互方式对生成的知识进行展示,以此探寻以数据驱动的历史档案知识库开发利用的新方法。

2.6 用户体验更加注重人文关怀。历史档案专题知识库区别于商业、物联网等类别知识库的一点是:除了利用数字技术完成数据挖掘、关联和展示外,还更加注重在数字技术维度外的人文关怀价值的展现。上述成功案例中,都极其重视宗教、文化、民俗甚至人们精神世界之间的关联,且在展示上也尝试契合人们多维视听融合的需求,如“欧洲时光机”勾勒模拟出千年前的生活场景,“盛宣怀档案知识库”以时空结合的形式还原历史事件,“记忆高迁”则给观众带来沉浸式的浏览体验,体现出了对利用者更加需要的人文关怀设计理念。

3 启示与思考

3.1 专题知识库建设是数据化转型的要求。目前,国内历史档案专题知识库建设整体处于萌芽期,即数字化建设阶段,大规模的历史档案已完成数字化转换,以非结构化的形式进行存储,辅助以少量结构化描述,如标题、简介、图片描述等,在这一阶段的历史档案仍具有巨大开发潜力,知识亟须挖掘。国内外也有相当一部分的档案馆、图书馆等公共文化事业机构正处于建设发展期,即数据化建设阶段,已完成历史档案材料数字化,将研究重心转移至档案材料的数据化,如利用文本识别工具对海量档案资源进行“翻译”,对其内容进行分析、标注和摘要提取,该阶段是知识库进一步建设发展的重要基础。当下国内外历史档案专题知识库研究的热点集中在数字人文上(知识化建设阶段),通过多领域、多学科通力协作,引入知识图谱、AI、GIS、AR/VR和本体等前沿技术对海量历史档案数据进行知识组织与关联,并以可视化的形态展现,一些前沿项目如“欧洲时光机”仍在如火如荼地进行中。

3.2 历史档案专题知识库建设面临诸多挑战。一是历史档案专题知识库的理论和实践研究不够深入,表现在国内学者在档案领域知识库的研究主要集中在构建原则、构建方法、系统设计等理论层面,但对历史档案知识库的基本概念还没有科学系统的定义,与档案资源库的区别与联系界定上仍然模糊,在数字人文指导下的历史档案专题知识库的研究路径和方法还不够具体,特别是建设实证依然偏少,相关标准规范仍然缺位;二是专题知识库产品复用困难,随着全国数字档案馆的加快建设,档案信息资源管理系统已经比较成熟,出现了不同功能的市场化产品可供选择,但在专题资源知识库建设上,档案信息资源管理系统复用较为困难,难以满足知识库需求,市场上产品研发薄弱导致相关软件产品还不成熟;三是档案资源由“分散”至“高度集中”,在知识库建设过程中可能会出现历史档案资源分散保存的情况,不同文化机构和档案机构各自为政,开发多以自身拥有资源为主,一定程度上影响了对整体历史发展动态的理解与阐述;四是档案资源数据化工程量大,耗时久,历史档案项目跨度久,一部分原因是在档案收集与整理环节,历史档案数据转换工程浩大,“大而全”的项目一时之间难以完成;五是公众重“观看”轻“参与”,虽然一些项目依托数字技术完成了历史档案的知识化与展示,但通常情况是用户“走马观花”式的浏览网站,无法代入到“历史重现”的场景;六是多元主体协同机制尚未得以建立,历史档案专题知识库的建设离不开政产学研多元融合以及多方机构的深入合作,同时也离不开公众的参与,这不同程度制约了知识库服务效能的释放。

3.3 历史档案专题知识库建设的应对策略。针对上述挑战,笔者提出如下应对策略:一是加强历史档案专题知识库的可行性研究。在保证档案资源相对完整的情况下,可选取已有数据化基础或数据化工作量经评估合理的,且具有代表性的档案专题进行“试水”,在实施“小而深”的知识库建设中总结偏差与不足,今后可在初期经验的基础上持续拓展推广,逐步完成历史档案专题知識库建设工作,特别是用标准化、规范化推进知识库的产品化。二是可从宏观和微观两个角度开展档案资源收集工作。在宏观层面上,需将分散在不同组织、个体手中历史档案资源进行汇总,微观层面上,需在浩如烟海的档案资源中进行所需专题的筛选、收集与整合,最终目的是将分散在各处的多源异构数据源化零为整,建立“历史专题档案资源池”。三是增强历史档案专题知识库展示平台的交互性。首先提供互动渠道,可通过网络征集档案素材甚至收集专家学者的指导建议,其次增加平台趣味性,以游戏的形式来邀请社会公众作为“玩家”,在玩乐的同时加深知识记忆,最后可以考虑推出知识定向服务,吸引稳定用户群体参与进来。四是协调多方配合、协同开发建设。可以考虑由政府牵头敲定方向,档案馆、图书馆等机构作为核心驱动力量提供数据源,推动学界、社会界的联动(高校人才、科技企业协同创新),借助数字技术研发专题库、知识库产品,除了横向的多方机构跨界合作,也可考虑纵向不同层级间的合作,以及采取邀请社会公众参与的众包形式。

4 结语

历史档案专题知识库的建设是一项长期且艰巨的数字人文工程,不仅对历史文化传承有着重要意义,对学术研究、红色教育以及旅游宣传也极具价值。笔者认为在数字人文环境下,历史档案专题知识库的建设可从以下两方面推动:一是综合现有历史档案资源,围绕着地区特色、文化研究和革命历史等热点,加强专题数据库建设,尽可能保证历史档案的完整性与连续性;二是借鉴国内外优秀案例,引入数字人文理念,应用AI、知识图谱等先进技术赋能历史档案开发,打破传统档案利用服务的局限,在数字环境下对历史档案资源进行深度挖掘、知识组织与互动展示利用。通过以上两方面推动历史档案专题知识库建设,可以解决历史档案资源分散的问题,增加历史档案对公众的吸引力,变被动为主动,加强历史档案知识服务,达到历史档案资源增值再利用的效果,从而实现历史档案资源开发利用工作的创新发展。

*本文系国家档案局科技项目“面向深度利用的历史档案资源专题知识库构建技术与方法研究”(项目编号2021-X-30)的研究成果之一。

参考文献:

[1]Alison Abbott.The‘time machine reconstructing ancient Venices social networks[J].

Nature,2017,546:341-344.

[2]牛力,高晨翔,张宇锋,闫石,徐拥军.发现、重构与故事化:数字人文视角下档案研究的路径与方法[J].中国图书馆学报,2021,47(01):88-107.

[3]姚天泓,陈艳梅,刘革,鲁超.基于CIDOC-CRM的数字人文史料资源语义化知识组织研究——以张学良史料资源为例[J].图书馆学刊,2019,41(07):35-43.

[4]Time Machine EU.About Us:Members[EB/OL].[2022-06-09].https://www.timemachine.eu/members/.

[5]龙家庆.数字人文项目中档案数据开发工具及应用研究——以“欧洲时光机”为例[J].北京档案,2021(03):10-15.

[6]杨茜茜.数字人文视野下的历史档案资源整理与开发路径探析——兼论档案管理中的历史主义与逻辑主义思想[J]档案学通讯,2019(02):17-22.

[7]Boukhelifa N,Bryant M,Boulatovic N,et al.The CENDARI Infrastructure[J/OL].ACM Journal on Computing and.

Cultural Heritage,2018,11(02):Article 8[2022-09-14].https://arxiv.org/pdf/1612.05239v1.pdf.

[8]冯惠玲,梁继红,马林青.台州古村落数字记忆平台建设研究——以高迁古村为例[J].中国档案,2019(05):74-75.

[9]冯惠玲.数字人文视角下的数字记忆——兼议数字记忆的方法特点[J].数字人文研究,2021,1(01):87-95.

[10]张卫东,左娜.面向数字人文的馆藏资源可视化研究[J].情报理论与实践,2018(09):102-107.

(作者单位:1.河南省档案馆 郭立鑫,硕士,一级主任科员;2.上海信联信息发展股份有限公司 刘雨晴,硕士,咨询顾问;袁嘉新,硕士,计算机高级咨询顾问  来稿日期:2022-10-20)

猜你喜欢
数字人文数据挖掘
探讨人工智能与数据挖掘发展趋势
数字人文时代公共图书馆经典阅读推广研究
数字人文目标下图书馆信息服务模式研究
基于并行计算的大数据挖掘在电网中的应用
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文
大规模古籍文本在中国史定量研究中的应用探索
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索