知识关联视角下的文化遗产知识大图研究:理论、方法和趋势

2022-06-11 05:17洪亮宋睿朱丽雅侯雯君
图书情报知识 2022年2期
关键词:语义关联文化遗产

洪亮 宋睿 朱丽雅 侯雯君

(1.武汉大学信息资源研究中心,武汉,430072; 2.武汉大学信息管理学院,武汉,430072; 3.武汉大学大数据研究院,武汉,430072; 4.图书情报国家级实验教学示范中心(武汉大学),武汉,430072)

1 引言

文化遗产是人类文明的重要载体。我国拥有海量的文化遗产,是建设社会主义文化强国的重要力量源泉。习近平总书记提出要“让收藏在博物馆里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来”[1]。借助智能化的理论方法对文化遗产进行活化利用、精神内涵挖掘和文化基因提炼,是文化遗产“活起来”的关键。数据资源是文化遗产数字记忆现代化的支撑,用数字手段来构建数字时代的记忆数据框架,能够保障数字文明的连续发展[2]。目前,文化遗产与数字技术相结合的新兴研究领域包括数字人文、文化计算、智慧考古等。这些领域均对不同的文化遗产数据资源进行整合、关联和分析,为决策和行动提供支持[3]。

文化遗产数据资源的价值源于其中蕴含的事物之间广泛存在的知识关联,这些关联位于不同角度、不同层次,对这些事物间的知识关联进行分析将进一步发现新的知识关联,从而产生更多的价值。随着文化遗产的研究与应用进入智能化时代,通过对数据资源中蕴涵的领域知识进行局部关联,文化遗产领域的知识资源以元数据、知识图谱等智慧数据形态被大量生成。例如,欧洲“时光机项目”(Time Machine Project)对文化遗产数字资源进行了智能化处理,主要包括跨机构和跨领域的数据互联、历史数据的空间化、大规模数据集成、多媒体内容的分析与理解等[4]。该项目将数字资源进行语义信息提取和局部关联,启发和支撑了文化遗产知识大图的研究。然而,文化遗产知识资源仍然存在价值挖掘分析不足、活化利用不够的问题。从知识关联视角来看,以上问题的根源在于文化遗产知识缺少全局的关联,制约了文化遗产知识资源的价值分析、发现与创造。为了进一步促进文化遗产的保护、传承和活化利用,建立文化遗产的数字化记忆,需要构建文化遗产知识大图,对知识进行全局的关联,从而实现从价值密度较高的知识大图中进行价值分析、发现和创造活动。欧洲“时光机项目”构建了历史、地理、建筑、家谱等专题数据库,这些数据库之间缺乏全局的关联。在现实世界,“时光机”中的事物存在错综复杂的关联,同时与“时光机”之外的事物也存在关联。目前,“时光机”并没有将以上知识的复杂关联进行组织和表示,限制了“时光机”对于文化遗产知识资源的价值挖掘和分析能力。比如,历史题材数据库中历史事件之间仅包含简单的时序关系,忽略了这些事件之间存在的顺承、因果、子事件等多角度、多层次的关联。如果缺乏以上这些关联,时光机就难以准确地分析历史事件的潜在关联,发现事件的演化规律,促进历史题材数据的活化利用。

知识及其关联可以自然地表示为一个以知识单元为结点、以关联为边的图,即知识大图[5]。文化遗产知识大图是文化遗产领域关联知识的集合,其中知识单元由文化遗产领域的事物和属性构成,知识关联表示这些事物、属性间的语义关系。文化遗产知识大图可以为文化遗产领域的智能问答、演绎推理、可视分析等应用场景提供全方位的知识底座。文化遗产知识大图具有的可描述、可计算和可演化特性,使其成为人工智能时代的新型数字人文基础设施。文化遗产知识大图利用多重语义蕴涵对文化遗产大数据中的事物及其之间被认知的联系进行了多角度、多层次的表达。“多角度”体现在知识单元结点之间可以存在多种关联,是横向的关联;“多层次”体现在知识关联之间存在上下位层次关系,是纵向的关联[6]。

图1 唐诗知识大图中的多角度、多层次知识关联Fig.1 Multi-angle, Multi-level Knowledge Association in Big Knowledge Graph of Tang Poetry

文化遗产知识大图利用知识关联分析实现了文化遗产领域知识的全局关联,对多源异构的文化遗产知识资源进行统一的语义化表达,支撑文化遗产智能服务,有效地提升文化遗产知识的表达能力与规模。以唐诗知识大图为例(如图1所示),诗人、诗歌、事件三类知识单元中存在多角度、多层次的知识关联。比如,诗人之间存在社会关系、引用关系、流派关系;诗人与诗歌间存在创作和评论关系;诗人与事件间存在经历、歌颂(讽刺)关系;诗歌与事件间存在描述、提及关系。这些不同角度的关联可以帮助研究者更好地理解唐诗中包含的知识脉络。此外,诗歌在格律、表达方式上还具有多层次关联,在格律属性上向下可划分为绝句和律诗,根据句式结构又可进一步划分为五言绝句、七言绝句、五言律诗和七言律诗;在表达方式上可划分为直接抒情和间接抒情,而间接抒情根据对象可划分为借景、借物、借事三种。格律和表达方式都是诗歌学习过程中的重要知识点,多层次的知识关联将有助于诗歌的主题结构分析、理解诗歌的创作意图等。目前的知识图谱、概念层次模型等知识组织与表示方法只能对单一角度和层次的知识关联进行表达,无法实现文化遗产知识的全局关联,因而难以支撑知识脉络梳理、诗歌主题结构分析、诗歌创作意图理解等智能知识服务应用。

文化遗产知识大图的构建目标是进行文化遗产知识的描述、组织、关联和发布,提供文化遗产智能服务,最终实现文化遗产在数字空间的活化利用。在知识关联视角下,文化遗产相关领域的研究可以归约为文化遗产知识大图的分析与计算问题,推动了大数据时代人文领域研究范式的跃迁,拓展了文化遗产研究的内涵与外延,并催生文化遗产保护、传承和活化利用的新模式。

目前,多学科协同已成为文化遗产相关领域研究的重要特征,传统的历史、考古、文学等文化遗产研究相关学科正不断与地理学、计算机科学、测绘学等学科结合,将不同学科的理论和方法运用于跨学科的文化遗产创新性研究[7]。然而,随着研究不断深入,新的研究问题不断涌现,应用场景不断丰富,传统学科范畴内的理论难以独立地支撑文化遗产知识大图的研究;同时,目前的研究方法难以有效地表达和分析知识大图中多角度、多层次的知识关联,因而无法很好地解决一些跨学科、跨领域复杂研究问题,并应用于新的场景。因此,文化遗产知识大图的研究需要探索出一套可行的理论框架和方法体系,推动该方向的成熟和发展。

本文从知识关联视角,首先系统梳理和分析不同学科中现有的理论基础,明晰不同理论之间的逻辑关系,从而给出文化遗产知识大图研究的理论框架;其次,对文化遗产知识大图的相关研究方法进行总结,并依据知识大图构建过程中的资源转化流程,建立文化遗产知识大图的研究方法体系。最后,在理论框架和方法体系的基础上,总结未来研究趋势,以期为文化遗产知识大图后续研究提供进一步的参考与借鉴。

2 文化遗产知识大图研究的理论框架

2.1 理论基础

文化遗产知识大图研究涉及到多个相关学科的理论,包括智慧数据资源建设理论、知识关联理论、文化基因理论,它们有效地支撑了文化遗产知识大图的整个生命周期。

2.1.1智慧数据资源建设理论

智慧数据是将不同的数据源( 包括大数据)进行整合、关联、分析后,所得到的一种具有更高级组织形态、高度可解释性、可追溯的数据资源[7]。智慧数据资源建设理论是信息资源建设理论在大数据时代的新发展,能够解释文化遗产区别于其他文化现象的文化内涵、内在联系、逻辑关系,为多维度文化遗产知识组织、管理与利用提供依据。

文化遗产领域中的智慧数据资源建设需要从多源异构的文化遗产数据中抽取并融合知识关联,构建文化遗产多模态知识图谱等智慧数据资源,在保证构建效率的前提下提高领域知识抽取和融合的质量。例如,Colace等人开发了一个综合知识关联系统,构建了意大利萨勒诺历史中心信息系统专题地图集,以关联开放数据形式进行文化遗产数据的储存与处理,旨在更好地管理老城区的文化遗产[8]。近几年,文化遗产数据管理与计算系统开始出现,可以对文物三维模型等文化遗产数据进行全生命周期的管理,同时提供开源分布式计算环境,为社会公众共享利用文化遗产数据提供了新的参与模式[9]。

智慧数据资源建设理论作为文化遗产知识大图构建的理论基础,指导领域智慧数据建设。在深入剖析文化遗产语义特征和文化内涵的基础上,研究文化遗产知识的多刻面、多层次语义表示与统一语义建模方案;促进文化遗产数据资源的互通共享、融合分析,并实现领域知识的部分关联,为领域知识的全局关联奠定基础。

2.1.2知识关联理论

知识关联是指人们在创造和利用知识的活动中因其某种内在或外在的联系而使其显示关联的行为及状态。知识关联使得知识转变为智慧,实际上是一种动态行为,反映了知识间的联系从隐性到显性的演化过程。知识关联具有可描述、可计算、可演化的特征[6]。因此,知识关联理论能够将传统学科与大数据、人工智能技术融合,从而促成学科知识之间的开发与协同建设[10]。程结晶等人构建了敦煌遗书知识关联模型,将凌乱分散的敦煌遗书图像资源进行整合,使其重组为相互联系的有机整体,提高敦煌遗书图像的智能化检索质量和服务质量[11]。高劲松等人针对馆藏文物信息资源关联和智能问答现状,构建了一个基于关联数据的知识关联模型,目的是将馆藏绘画类文物知识发布为关联数据形式,便于不同需求的用户了解不同的文物知识[12]。

知识关联理论作为文化遗产知识大图构建的理论基础,为文化遗产大数据的统一语义表示、多模态细粒度的语义关联以及文化遗产智能知识服务提供了理论指导,同时为建立统一的、全局的知识关联提供理论支撑,有利于缓解文化遗产大数据语义揭示不足和语义鸿沟等问题。

2.1.3文化基因理论

文化基因理论是一种同时具有稳定性与可变性的整体理论,其中不仅承载了前代文化的累积,也能根据不断变化的环境发生内部重建[13],从而保证了文化发展、演变过程中稳定和变革的统一。从知识关联视角,文化基因的外在表现为文化遗产的关联知识,是多源异构的文化遗产数据资源中具有普遍性的语义单元。

随着文化遗产信息传播渠道的增加,关于文化基因理论的研究开始关注智能知识服务的提供。例如,Limor Shifman提出应该“从传播导向的角度来看文化基因”,从微观层面上看,文化基因通过各种互联网知识服务平台进行传播,但在宏观层面上塑造了社会文化结构,是探索数字文化的一个重要方面[14]。部分研究将文化基因理论进行细化,能够更准确地指导文化遗产知识大图研究的相关实践。例如,刘明月等人从文化基因理论出发,引申出了知识基因的概念,提出以知识基因作为节点进行文献表达的方式,有助于为未来智能知识服务模式研究与实践提供参考和启示[15]。此外,探索数字化记忆再造的产品化和产业化路径也成为了目前文化基因理论指导下的新型研究[4]。

文化基因理论作为文化遗产知识大图研究的理论基础,将突破原有的学科藩篱,在新的技术发展和应用场景中进行延伸和拓展。关联知识将成为文化基因的主要载体,在此基础上,文化基因的提取和利用分别转化为知识关联的分析和挖掘。文化基因理论将促进文化遗产知识大图研究的跨领域融合,从而更好地构建文化遗产的数字化记忆,提升文化遗产智能服务的能力。

2.2 理论框架

从知识关联视角出发,基于知识生命周期理论构建文化遗产知识大图的理论框架。知识生命周期包含着以下几个阶段:识别与存储、共享与使用、学习与改进,其中每一个阶段都影响着知识的产生与发展[16]。文化遗产领域知识大图的特殊性在于,识别与存储需要基于知识关联,共享与使用需要利用知识大图,学习与改进需要考虑历史和文化维度。因此,文化遗产知识大图的生命周期可以分为三个阶段:文化遗产知识体系建立、文化遗产知识大图构建和文化基因提取利用。这三个阶段形成了一个知识循环利用的过程,使得文化遗产知识的价值不断被分析、发现和创造,如图2所示。以上阶段的理论基础分别对应于知识组织理论、知识关联理论和文化基因理论。

图2 文化遗产知识大图研究理论框架Fig.2 Theoretical Framework for the Study of the Big Knowledge Graph of Cultural Heritage

针对文化遗产数据(如考古报告、档案资料和文献、互联网数据等)存在的多源异质、资源分散等问题,文化遗产知识大图的构建需要首先对数据进行清洗和转换。基于智慧数据建设理论,研究文化遗产知识分类标引、复杂语义形式化表示、可视化表征方法,将文化遗产数据进行局部关联,转化为文化遗产本体、元数据、知识图谱等智慧数据,从而建立文化遗产知识体系。文化遗产知识体系不仅包括文化遗产的类别、历史、传承谱系、文化内涵、价值等抽象知识,也包括人物、实物等实体。

在文化遗产知识体系建立的基础上,构建文化遗产知识大图。针对文化遗产知识体系庞杂、语义关系复杂等问题,从文化遗产知识全局关联的需求出发,需要以知识关联理论为指导,首先建立文化遗产知识组织与表示模型,实现对文化遗产知识大图的统一语义表示,同时需要进一步从智慧数据资源中进行关联知识的分析、融合和发现,构建通用的、可扩展的文化遗产领域知识大图,实现多角度、多层次的文化遗产知识全局关联。在此基础上,研究文化遗产知识大图的自动构建和高效管理方法,以支撑基于文化遗产知识大图的文化基因提取与分析。

文化基因承载了文化遗产中携带的语义信息,是建立起不同文化遗产之间的知识关联,实现文化遗产“跨系统、跨地域、跨部门、跨层级、跨业务”知识共享、交换和服务的主要媒介。因此,以文化基因理论为基础,针对文化遗产领域研究、展览、教育等方面的知识服务需求,研究基于文化遗产知识大图的智能检索与推荐、精准知识问答、辅助考古、远程数字展览等关键技术,对文化遗产蕴涵的文化基因进行提取和利用,提升文化遗产智能服务水平,传承和发展中华优秀传统文化。提取出的文化基因作为智慧数据的一种形态,进一步对文化遗产知识大图进行知识补全,使得整个文化遗产知识体系更为完备。

综合来看,该理论框架通过互相关联的内外两层循环,从知识关联视角融合了现有的理论,形成具有内在逻辑关系的有机整体,指导文化遗产知识大图的研究,驱动全生命周期的知识大图处理与应用。例如,周莉娜等[16]使用智慧数据资源建设理论,针对唐诗领域知识图谱服务需求,构建唐诗本体模型,建立唐诗领域的概念体系,并在知识关联理论的指导下建立唐诗知识图谱,实现唐诗领域海量知识的关联与存储,最后以文化基因理论为基础,提取诗歌的意象、情感、用典、诗人的行迹与关系等文化基因,并在此基础上提供唐诗领域的智能化知识服务,包括诗歌的智能问答、诗人行迹的时空分析等。这表明该理论框架能够有效应用于实际,在后续文化遗产知识大图研究中发挥指导作用。

3 文化遗产知识大图研究的方法体系

文化遗产知识大图研究的基础是文化遗产知识大图构建。文化遗产知识大图构建的路径为:建立知识组织与表示模型,文化遗产大数据知识关联分析,关联知识融合与发现,以及设计人机协同的迭代式构建框架。文化遗产领域的特殊性给文化遗产知识大图的构建与应用带来了以下挑战:首先,如何统一组织和表示文化遗产领域知识,缓解多源异构、时序高维的文化遗产数据资源之间存在的语义鸿沟;其次,由于文化遗产包含丰富的历史背景和文化内涵,文化遗产知识大图的构建需要领域专家的深度参与,如何建立人机协同的知识大图构建机制,同时提高构建的质量和效率;最后,面向文化遗产的应用需求,如何基于文化遗产知识大图提供智能服务,实现文化遗产的活化利用和创新性发展。

针对以上挑战,文化遗产知识大图的构建和应用的解决方案为:首先,基于知识关联建立文化遗产领域的知识组织与表示模型,形成知识大图构建的领域知识体系基础;其次,在文化遗产领域知识统一组织与表示的基础上,从文化遗产大数据中发现并融合关联知识,通过人机协同的方式建立文化遗产知识大图,设计多主体协同机制提高领域专家知识贡献的质量,同时充分利用智能计算技术提高构建的效率;最后,提出文化遗产知识大图的查询、推理和呈现方法,面向文化遗产领域的应用需求,提供智能知识服务。本章结合以上方案,总结出知识关联视角下文化遗产知识大图研究的三类方法:模型验证法、协同构建法和关联分析法,并在此基础上建立文化遗产知识大图研究的方法体系。

3.1 研究方法

3.1.1模型验证法

模型验证法是在一定的标准规范基础上,建立文化遗产知识组织与表示模型,对文化遗产知识进行语义标注、概念提取和组织表示的方法,可以解决多模态数据资源的语义鸿沟问题,建立文化遗产领域知识表示体系,支撑文化遗产知识资源的关联聚合。从底层语义描述框架角度,模型验证法可以分为三种类型:基于主题词表的方法、基于元数据的方法和基于本体的方法。

基于主题词表的模型验证方法采用领域术语描述资源的语义特征,其适用于独立的数据资源描述。如王晓光等提出一种主题词表模型,对数字图像中的底层视觉特征、对象特征和语义特征进行语义层次拆分,以细粒度方式实现了敦煌壁画数字图像的语义描述[17]。

基于元数据的模型验证法采用元数据元素描述资源的语义特征。目前,已有成熟的元数据标准框架被广泛运用,包括CIDOC CRM、DC、CDWA等。由于文化遗产数据资源在形式和内容上相较通用领域的数据资源具有领域专业性,研究者大多在这些框架的基础上做进一步改进,如许鑫等在利用DC元数据中的12个元素基础上,添加“所属批次”“遗产等级”等元素来描述非物质文化遗产[18];Ye 等基于我国非物质文化遗产数字化保护项目的调研分析,提出了CIDOC CRM中适用于我国非物质文化遗产语义描述的元数据元素,并讨论了其适用范围[19]。

基于本体的模型验证方法是在元数据框架的基础上引入规范的类别定义对资源进行体系化的组织。例如,何琳等将先秦典籍从内容上分为“军事、政治、外交、婚姻、民生”五个核心类别,归纳出面向典籍的本体模型,实现了对典籍内容特征的统一[20]。在非物质文化遗产领域,Dou等选取行为人、事物、事件、时间、地点作为主要类别,并从CIDOC CRM框架中提取属性定义概念间的关系,构建中国传统节气的领域本体[21]。

模型验证法可以较好地应对多源异质文化遗产数据资源带来的挑战,支撑文化遗产知识资源的建设。针对不同模态的文化遗产数据,研究者可以选择适合的描述框架并进行调整和改进,从而准确、完整地刻画文化遗产多层次、多角度的语义特征与内涵,为文化遗产知识大图研究提供底层逻辑。在具体案例中,可以依据构建的知识资源的结构特性作统计分析和可视化分析,从而对模型进行评价和验证。

3.1.2协同构建法

文化遗产知识存在多角度、多层次的复杂关联,因此需要进一步发现并建立知识间的语义关联,将文化遗产知识资源转变为更高级的数据组织形态:文化遗产知识大图。然而,现实世界的文化遗产知识资源形式多样、体量庞大、关联类型丰富、语义结构复杂,借助单一的人力和机器在短时内都难以完成资源的有效组织,因此往往采用协同构建方法完成。协同构建法是指以文化遗产领域研究人员作为协同主体,采用众包、人在环路等协同策略实现知识资源的关联,构建文化遗产知识大图的方法。

协同构建法多采用人机协同的方式,需要研究者对文化遗产的主题、类目、关联类型等进行定义和描述,运用智能计算技术从知识资源中抽取和发现关联知识,并对部分结果进行人工验证和修正。协同构建法基于一定的知识关联模型对知识资源进行有效的组织和融合,常用的知识关联模型主要包含主题图、关联数据和知识图谱三种。

主题图采用主题、关联和资源指引三个基本要素实现资源的有效组织[22]。在协同构建过程中,需要自主定义主题类别和主题关联,然后运用工具完成主题编辑和浏览。例如,施旖等针对黄梅戏领域通过借鉴、查找和抽取获取主题词和关联词,运用OKS知识开发组件构建主题图[23]。

关联数据的处理对象往往是体量庞大、多质异构的数据,需要不同机构的协同获取和整理,并基于链接特性使用机器实现知识关联。如瑞典国家图书馆的LIBRIS项目[24]、英国的国家书目项目[25]、美国国会图书馆的BIBF RAME 项目[26]、欧洲数字图书馆的Europeana项目[27]等,根据不同文化机构提供的数据源,通过执行元数据语义化操作,对跨机构、跨领域的文化语义资源进行关联整合,形成一个语义关联数据网络,支持信息发布和检索等应用服务。除此之外,Nuno Freire等人提出引入外部成熟的Web技术构建聚合元数据资源,为关联数据的协同构建提供了多元化的协同方案[28]。

知识图谱构建需要人和智能计算模型进行多主体的协同构建。欧阳剑等采用“题目+编撰者”的规则模板来融合多源异构的典籍数据,并在操作界面中加入人工干预来编辑和校验结果[29]。除此之外,Liu等通过大众协同对百度百科、维基百科等网站的中国古代历史文化数据进行标注,采用深度学习模型从语料中挖掘朝代、地点、人物等实体并识别彼此间的语义关系[30]。

协同构建法可以实现文化遗产知识资源的进一步关联融合,为文化遗产知识大图的构建与研究提供关联知识。关联知识的融合可以减少知识大图中的知识冗余,确保关联知识指向的准确性与一致性,并将关联知识集合转化为知识大图,促进了知识的整合。关联知识融合主要有两种策略,一种是将关联知识中的实体与知识大图中的知识单元进行链接,如果两个实体链接到同一个知识单元,则两个实体可以融合;另一种策略是计算实体的语义相似度,如果相似度大于阈值,则两个实体可以融合。

协同构建方法一方面通过领域专家的参与提高了关联知识的准确性,另一方面也充分利用智能计算技术实现了高效可扩展的构建过程。

3.1.3关联分析法

关联分析法是从文化遗产大数据中抽取和发现多维度、多层次知识关联的方法。该方法基于文化遗产知识大图实现文化遗产知识关联查询、推理、应用等智能服务并通过可视化、虚拟建模等方式对关联知识进行演绎和呈现,从而更好地理解、保护和传承文化遗产资源。关联分析法从分析手段上主要划分为三类,分别是关联查询、关联推理和关联呈现。

关联查询基于自然语言处理技术理解用户的搜索意图,运用关联查询语言获取知识大图中满足检索需求的关联知识。例如,侯西龙等通过将项目类型、代表性传承人物、地理位置等实体映射到RDF数据模型中构建非物质文化遗产关联数据集,可用于查询非物质文化遗产项目类别间层次关系、传承人间的传承关系等[31]。周莉娜等聚焦到唐诗领域,结合诗歌-诗人及时空经历本体构建唐诗知识图谱,用于支持唐诗领域的关联知识查询和获取,如诗人的引用关系、诗歌在情感、意象、典故等不同维度的关联[16]。关联查询的目的是在文化遗产知识大图中快速定位和获取目标关联知识。

关联推理是从文化遗产知识大图中通过信息整合、逻辑推导的方式从已有的关联信息中发现新的关联知识,从而进一步丰富知识大图。例如,夏翠娟等基于RDF模型构建家谱知识关联数据,将人、地、时等不同类型的实体串联为迁徙事件,并基于共同的先祖名人进行关联检索,从而推理出古代名人的迁徙路线[32]。关联推理实际上是对关联查询获取的知识在逻辑和事理上作进一步的分析,发现潜在的知识关联。

关联呈现将知识大图中的关联知识通过可视化的方式展现出来,辅助研究者进一步分析和挖掘潜在知识。例如,王伟等以湖口青阳腔为例,将时间和地域两个维度耦合进行传承可视化研究,运用社会网络分析和地理信息可视化生成青阳腔艺人的传承时间和传承地域关系图,从中分析出不同派系的核心传承人物、上下位传承特点等[33]。

关联分析法与前两种方法的区别是基于知识关联从已有的文化遗产知识大图中挖掘和产出更深层次和更广维度的知识。关联分析法可以借助不同的知识关联技术手段,从人、时、地等不同维度对文化遗产知识大图中的研究对象进行定性或定量的实证分析,支撑文化遗产领域的智慧知识服务。

3.2 方法体系

文化遗产数据资源需要基于知识关联形成知识大图才能为文化遗产的传承和传播提供智慧化服务,如何将价值密度稀疏、模态语义复杂的数据资源转化为知识大图,并实现基于知识大图的智能服务,需要一个完整的方法体系作为支撑。结合知识关联视角下的文化遗产知识大图研究理论基础和技术,本文提出适应大数据环境、满足智能服务需求、具有文化内涵的方法体系,为文化遗产“活起来”提供解决方案。

本文以数字人文学者提出的一般方法论为基础,从文化遗产知识大图构建流程出发,提出文化遗产知识大图研究的方法体系,如图3所示。该方法体系由理论层、技术层、资源层、方法层共同构成。其中,理论层以知识关联理论为核心,智慧数据资源建设理论和文化基因理论为重要组成部分。技术层包含了实现和运用知识关联的相关智能计算技术,如信息抽取、语义挖掘、知识组织、数字孪生、虚拟现实、增强现实等。资源层是文化遗产知识大图研究过程中使用到的以不同结构形态存在的文化遗产资源,包含数据资源、知识资源、知识大图和智能服务资源。方法层由模型验证法、协同构建法和关联分析法构成,属于方法体系的核心部分,在理论层的指导和技术层的支持下完成文化遗产知识大图构建过程资源层中不同形态资源间的转化任务。方法体系利用了数字人文的“五原语论”和“七原语论”,包括发现(discovering)、参考(referring)、收集(collecting)、注释(annotating)、比较(comparing)、发布(delivering)、说明(illustrating)、表示(representing)等不同类型的原语[34-35]。

方法与资源转化过程的对应关系来源于资源转化需求的不同,如数据资源的语义化处理过程需要规范化的框架定义;知识资源的组织过程具有大体量、丰富关联的特性,需要多要素间的协同配合来提升知识资源的构建效率;知识大图需要平台资源下的科学实证保证智慧服务的精准化。在此基础上,三种方法都随着文化遗产知识大图研究的发展而不断演进。模型验证法从非结构化的历史文本或数字图像中提取满足语义框架的元数据,对文化遗产作注释和表示;协同构建法逐步利用专业化工具平台组织文化遗产工作者进行协作标注;关联分析法在知识大图的基础上分析或推理文化遗产的知识关联,支持文化遗产的知识服务和传承传播。

在文化遗产资源转化过程中,我们提出的方法体系结合了数字人文方法论中的原语,如模型验证法通过发现和参考对数据资源进行预处理,而后通过组织和表示产出知识资源。

图3 文化遗产知识大图研究的方法体系Fig.3 Methodology for the Study of the Big Knowledge Graph of Cultural Heritage

4 研究趋势

目前,文化遗产知识大图研究的理论和方法正在不断发展。理论上,文化遗产知识大图研究服务于文化遗产数字化保护、传承和传播,因此,文化遗产研究者在关注知识关联理论的同时,聚焦于拓展和深化文化基因相关理论。方法上,由于文化遗产数据资源的急速增长与智慧服务需求不断涌现,人类与机器的高效协作产生文化遗产认知智能。因此,人机交互的新方法将成为热点研究问题。数据资源上,需要探索融合多模态资源,构建具有完善体系、超大规模、全局关联的文化遗产知识大图,并在此基础上打造可供沉浸式体验和分析的数字空间。我们从研究理论、研究方法和研究目标上,将文化遗产知识大图研究的趋势概括为以下三点:

(1)形成以文化基因为核心的多学科融合研究理论

在知识关联视角下,文化遗产知识大图构建需要运用案例挖掘、文化组学分析等手段从多源异构的碎片数据中提取出多角度、多层次的关联知识。这些关联知识本质上是文化基因的语义表达。因此,构建以文化基因为核心的多学科融合研究理论,可以在知识层面打通多学科研究范式,支撑文化遗产知识大图的跨学科研究。其中,文化基因作为文化遗产知识大图研究的核心要素,可以结合历史学、考古学、文学、信息管理、计算机科学、遥感测绘等多学科的工具方法对其进行研究,并结合多维度的特征进行文化基因提取和表征。比如,对于不可移动的文化遗产,包括遗址、古建筑等,需要借助遥感测绘学科的科学装置获取可以反映其地理信息和空间构造的图像数据资源,并借助计算机学科的图像识别技术作标注,最后运用信息管理学科的知识组织与表示方法对文化基因进行提取和语义关联。

推动该研究理论的形成与完善,需要将研究重心转移到文化基因库构建和基因推理分析两部分内容。文化遗产的视觉特征和蕴涵的丰富语义都属于文化基因的表征信息,需要基于知识组织理论对这些信息进行语义挖掘和融合,形成文化基因库或文化基因知识大图。然后,依据社会网络分析理论通过归纳演绎的方式从聚合化的表征知识中推导出共性基因,通过时空分析的方式从网络化的基因图谱中溯源出原始基因,从而形成可溯源、可推导的以关联知识为载体的文化基因。

(2)开创“脑机融合”模式下的科学实验研究方法

大数据场景下,单一地依赖专家和智能计算技术都难以胜任文化遗产知识大图的研究任务,因此人机的高度协同是研究方法的发展方向。然而目前的协同方法并没有真正意义实现人类智能与机器之间的无缝连接,而是让人类为机器提供可理解的模式、规则,或是对机器处理后的结果进行修正和补充,协同质量低、成本高。引入“脑机融合”的模式既可以让人类认知更好地被机器理解运用,又可以将人类在体验文化遗产时的特定感受和行为作为系统反馈。

“脑机融合”模式下的科学实验研究方法,是指运用交互设备将人类的判断和决策性思维传输到实验装置中,控制或参与文化遗产知识大图的构建和服务过程,实现基于知识关联的人机协同科学实验。从效用层面,此时人类提供的是算法输入,而机器提供的是算力输出,二者有机结合,可以根据应用场景进行实时的交互调控。

该方法一方面可以将人类的知识、经验输入到机器中完成一系列文化遗产知识大图研究。比如文化遗产知识大图构建中的语义标注、信息抽取、知识组织等关键任务,将信息转换为决策行为操控机器定位,并识别文化遗产图片、视频的视觉要素,标注和提取文本资源中术语、概念,或是对资源进行分类组织。另一方面,机器可以使用虚拟或增强现实技术,结合面部表情捕捉和脑波分析,从知识层面分析文化遗产对用户心理和行为的影响机制,从而为文化遗产的活化、利用和传播提供决策支持。

(3)开展基于知识大图的文化遗产数字空间构建研究

文化遗产作为携带多元文化基因的实体,具有极高的历史价值、文化价值和科学价值。为了对文化遗产进行保护传承和活化利用,目前的研究和应用聚焦于文物数字展览、遗址三维复原、场景虚拟再造等方向,以避免对文化遗产实物造成损害,并实现文化遗产的活化利用。然而,以上研究和应用所构造的数字空间是局部的,缺乏语义信息与知识关联,难以将文化遗产进行完整的、细粒度和场景化的再现,因而无法支撑文化遗产数字空间构建体系化、专业化和全方位的研究。我们认为,在未来研究中不仅要将文化遗产本身的物理属性从元数据和数字孪生体两种信息承载形式映射到知识大图,同时需要将文化遗产间在人物、时间、空间、属性多个维度上的逻辑关系映射到知识大图中的关联中,从而满足丰富的文化遗产智能语义搜索、知识推理需求。

文化遗产知识大图将建立多模态的文化遗产数据资源的多角度、多层次的知识关联。目前的考古研究与人工智能技术结合的关键是统一多源异质的数据形态,因此研究如何融合多模态的信息到知识图谱中将能够有效促进文化遗产的数据资源管理和共享。随着元宇宙技术的逐步成熟,基于知识大图构建文化遗产元宇宙将打造一个时空关联、沉浸体验、交互协作的文化遗产数字孪生空间。元宇宙将虚拟世界和现实世界密切融合,因此基于文化遗产知识大图构建元宇宙将真正整合和关联离散的虚拟空间,实现文化遗产“活起来”和数字记忆的赓续。人们可以进入到文化遗产元宇宙中获得与真实世界中完全相同的虚拟体验,充分感知文化遗产的价值和魅力。

近年来,已经有一些研究工作在以上方向上进行了尝试。例如,周莉娜等人融合诗学、文献学和史学三大学科,对唐诗领域文化基因作了深入挖掘,并从量化的、客观的、动态的视角建立唐诗知识关联[16];Chen等在构建中国古籍数字人文研究平台时,采取人机协同科学实验方法,对人文研究者的使用过程进行记录,目的是了解研究者在角色社交网络关系图工具的支持下解读历史文本和人物社交网络关系时的感知,并开发了一个内嵌在平台中的监控程序,记录人文研究者使用该平台的过程[36],该实验能够打破人机间的信息障碍,深度整合人力、算法和算力资源;中国历代人物传记资料库(CBDB)[37]将历史文献中的人物信息进行全面汇总,再以适合大批量查询和分析的数据形式提供给研究者,将多模态的信息和多维度的关联融入到知识大图,实现了数据、历史文献和可视化图表的有机融合和深度分析。

5 总结

基于知识关联构建文化遗产知识大图,可以支撑文化遗产大数据的价值分析、发现与创造。文化遗产知识大图研究是人文社会科学与信息技术相结合的新的研究方向,经过交叉融合逐步形成独有的理论和方法。首先,我们总结了在构建过程中,多学科融合背景下形成的三大文化遗产理论基础:智慧数据资源建设理论、知识关联理论和文化基因理论,不同理论贯穿文化遗产知识大图研究的全生命周期,共同构成文化遗产知识大图研究的理论体系。其次,我们总结了文化遗产知识大图的研究方法:模型验证法、协同构建法和关联分析法,不同方法服务于文化遗产资源转化的不同阶段。基于理论的指导和技术的支持,本文构建了文化遗产知识大图研究的方法体系。最后,我们提出了文化遗产知识大图的研究趋势:一是逐渐形成以文化基因为核心的跨学科融合研究理论,指导文化基因库及文化基因知识大图的构建;二是开发“脑机融合”模式下的科学实验研究方法,解决文化遗产智能计算传统研究中人类思维无法与机器智能高度融合的挑战;三是开展基于知识大图的文化遗产数字空间构建,运用数字孪生、虚拟现实、增强现实等技术实现文化遗产的数字活化和场景再造,构建文化遗产元宇宙,为未来的文化遗产知识大图研究打造更广阔、更智慧的数字生态。

目前,文化遗产知识大图研究还处于初始阶段,其产出的关联知识在标准上还没有形成共识,在质量上也缺乏一定的检验标准。一方面,研究者基于元数据、本体等技术提出的文化遗产描述框架,虽然从数据结构上具有统一性,但在内容的描述角度、层次上缺乏统一的标准,不具有可迁移性。未来需要综合分析文化遗产知识服务的具体需求,从需求层面确立统一的框架标准,以进一步促进不同来源关联知识的融合。另一方面,关联知识的质量直接决定了文化遗产智能服务的质量,需要研究者针对关联知识的特征维度提出可量化的质量评估标准,对文化遗产知识大图进行质量检验,保证其准确性、完整性和可用性。

作者贡献说明

洪亮:提出论文选题与研究框架,撰写和修改论文;

宋睿,朱丽雅,侯雯君:收集文献资料,撰写和修改论文。

猜你喜欢
语义关联文化遗产
World Heritage Day 世界遗产日
Task 3
“一带一路”递进,关联民生更紧
Tough Nut to Crack
奇趣搭配
智趣
汉语依凭介词的语义范畴
试论棋例裁决难点——无关联①
文化遗产与我们的生活