基于方志物产知识库的数字人文研究框架设计与实证研究

2022-08-15 07:52徐晨飞
中国科技史杂志 2022年2期
关键词:物产方志知识库

徐晨飞 包 平

(1. 南通大学经济与管理学院,南通 226019; 2. 南京农业大学数字人文研究中心,南京 210095)

1 引言

近年来,数字人文作为一种方法论的实践在许多人文学科中开始兴起,有学者闻风而至也有学者冷眼旁观,学术共同体仍未形成清晰轮廓。普适的理论框架尚未成型仍在建构当中[1],其应用价值还需学者在各种学术研究实践中进行探讨与验证[2],但不可否认的是,数字人文概念的出现正在引发人文学科传统研究范式的革新与转变。

相较于其他人文学科,史学领域有关数字人文研究理论与应用的争鸣与探讨似乎更盛,如“计量史学”“量化史学”“数字史学”“信息史学”“互联网历史学”等相关概念层出不穷,这些概念都昭示出史学研究的传统范式已开始悄然转变。国内相关学者也在此方面提出许多见解,让人耳目一新。

在农史领域,跨学科研究属性特征较为明显,如南京农业大学科学技术史学科点早在2003年就设立了“科技史信息组织”方向,之后也培育出一系列优秀的研究成果,而彼时数字人文概念还未在国内生根,这说明我国农史学者是较早意识到采用数字人文研究方法来拓展和丰富研究领域与内容的。本文将基于面向农史领域的数字人文研究基础设施重要组成部分——方志物产知识库的相关功能[3],尝试对农史领域数字人文研究范式进行理论化探索,提出较为具体的研究框架与实现路径,并围绕相关主题展开实证研究。

2 方志物产知识库介绍

《方志物产》是1949年建国前后,大批有识之士在我国著名农史学家万国鼎先生的策划和组织下集一代人心血精心搜集、挑选和抄写装订起来的大型方志类资料汇编[4],具有唯一性和不可替代性,海内外未见同类型的其他文献可与之媲美。针对这一套珍贵资料,如何运用现代信息技术手段进行保护、组织、利用与传播,使其更好地为各类人群所用,显得尤为重要。依托国家社会科学基金重大项目“方志物产知识库构建及深度利用研究”,本研究设计构建的方志物产知识库主要是面向领域用户,提供数字人文研究应用场景下的知识服务。通过与领域专家的深度访谈,提炼得到知识库系统的核心功能主要包括方志物产领域知识系统化存储、知识检索与统计、多源知识聚合以及知识可视化等四个方面:

(1)方志物产领域知识系统化存储

方志物产领域知识系统化存储有两层含义:一是需要将方志物产领域知识概念以及与之相关联的领域外部概念,包含它们之间的语义关系,以知识本体(Ontology)的方式进行存储;二是将方志物产领域中的知识实体以及实体之间的联系以关联数据(Linked Data)的形式存储并对外发布。这种存储方式有别于传统的文本或图像信息资源的存储形式,此处存储的内容是经过深度数字化与数据化加工,并采用知识本体模型进行语义化描述后的知识。通过知识存储,可实现《方志物产》手抄本资料从纸质文本形态到网络化可关联的结构化数据形态,方便用户随时随地进行检索与查阅。

(2)方志物产领域知识检索与统计

检索与统计功能一向是各类知识库的必备功能。方志物产领域知识以物产知识为中心,通过设定多种检索途径来全方位揭示物产知识,比如简单检索、高级检索、分类检索、随机检索等,其中分类检索途径按不同角度又可分为物产来源地区、物产分类、物产名称首字母等。此外,知识库的知识检索功能还包括基于关联数据的语义检索,一般可通过W3C发布的RDF数据的标准化查询语言SPARQL[5]来实现。统计功能是基于不同维度对方志物产领域知识进行总结,如各来源志书中的物产数量、物种数量,不同地区、不同物产分类下的物产数量等等。知识检索与统计功能可帮助用户以更多元化的视角来观察与分析数据。

(3)方志物产领域多源知识聚合

方志物产知识库系统中的知识不应局限于内部单一知识源,还应与多种外部异构知识源通过各类应用程序接口进行对接,为用户提供与方志物产领域相关联的各类知识。通过知识的关联,还可将来自不同源头的知识单元凝聚在一起,构建多维度多层次且互相关联的知识体系,实现知识聚合应用,进而可提供更为精准、有针对性的知识服务。比如,与物产相关的中文百科知识、诗词知识等,还有与方志、古籍书目以及人物、地名、时间等实体相关联的其他机构的开放数据等,这些开放数据所形成的多维度知识将成为方志物产领域知识的有益补充,可进一步扩大和挖掘领域知识的广度与深度。

(4)方志物产领域知识可视化

领域知识可视化是以各种图形或图像化界面的呈现方式向终端用户进行展示,也是知识库系统的重要功能之一。通过前期调研,领域学者最希望获得的可视化内容是以历史地图的方式展现各种物产在不同时期的空间分布情况,而运用地理信息系统(GIS)技术可以较为完美地解决领域用户的这一需求。此外,近年来较为流行的知识图谱技术也可运用于领域知识可视化中,可以将领域知识中的各类实体及实体之间的关系描绘出来,并且还可以根据用户的需求不断扩展延伸。

总之,方志物产知识库系统的核心任务是将《方志物产》资料中的物产知识进行多维度呈现,同时与外部开放知识源进行关联,实现知识的聚合与共享,为领域用户提供可视化的知识服务。我们通过数字化、数据化、知识化、平台化等四个开发步骤[3],以《方志物产》云南卷资料为基础,同时将《方志物产》未收录的民国省志《新纂云南通志》[6],以及《云南古代物产大系》[7]中的物产史料进行辑录、整理以及数字化处理,作为知识库的有益补充(总计67,062条物产数据),设计并实现了方志物产知识库系统——“古云南物语”,首页如图1所示。

图1 方志物产知识库系统“古云南物语”首页

该知识库系统功能模块主要包括:物产知识检索、物产知识展示、物产时空展现、方志知识呈现以及领域知识聚合等。例如,在物产知识展示页面中,主要有三部分内容:首先是对《方志物产》资料中有关物产详细信息的展示,包括物产的名称、物产来源方志信息、物产的分类信息、物产所属地区、物产描述信息、物产描述信息中的别名、引书、人物、产地等实体信息;其次,页面还展示了物产来源其他古籍资料信息,包括古籍中对相关物产的描述信息;最后是与物产相关的第三方机构的开放知识展示,包括物产相关的诗词、物产的百科知识以及地图展示等,进而实现多源异构知识的聚合。此外,在物产知识展示页面中,还提供RDF、XML、JSON三种格式的物产关联数据的共享以及物产的知识图谱展示。图2是物产“孔雀”的知识展示页面。

图2 物产“孔雀”知识展示页面

此外,选用“中华文明之时空基础架构”(CCTS)(1)见网址:http://ccts.ascc.net/。的1582年的明代历史地图、“中国历史地理信息系统项目”(CHGIS)(2)见网址:http://yugong.fudan.edu.cn/views/chgis_index.php。V6版本的1820年的清代历史地图与1911年的近代历史地图等三张地图作为物产时空展现的底图数据,不仅可通过物产记载时间来自动调用其所属时代的底图进行呈现,也可以通过人工切换的方式来选择底图。如图3是出自明天启五年《滇志》的物产“甜菜”的时空展现图,系统自动选择CCTS的明朝1582年底图作为展示地图,地图上会出现红色的位置标记表示各种志书中“甜菜”的记载地区;在页面右边区域为“甜菜”在知识库中的所有简要记载信息,并按照年份先后次序进行了排序,点击其中某一条物产记载信息的年份可在左边地图上高亮显示该物产的地理位置。物产简要记载信息包括记载的来源志书、志书中物产的归属地以及物产的所属分类等,这些记载信息有助于探究某物产的地方知识书写模式的变化。

图3 物产“甜菜”时空展现图

作为面向农史领域的数字人文研究基础设施,方志物产知识库可为领域学者提供多源、精准知识以及平台工具。但是,我们需要更进一步思考的是,该知识库系统能否有效帮助领域学者改进传统研究方法,掌握数字人文研究思维,进一步拓展传统研究的边界?本文尝试设计面向农史领域的数字人文研究框架,以期对上述问题进行解答。

3 面向农史领域的数字人文研究框架设计

数字人文研究作为一种跨学科融合的研究范式,要短时间内被领域内科学共同体一致接受是较为困难的,但毋庸置疑的是,它与信息技术一样不会停止向前发展的脚步。在农史领域,传统研究范式随着时代的发展也在不断发生改变,从传统史学、文献学为主流的研究方法到开始借鉴其他学科的研究方法,如计量与统计的方法等,为领域学者提供了更多元更新兴的研究视角。迈入大数据时代,信息技术革命颠覆了学者检索史料、获取史料以及诠释史料的过程,尽管技术对于人文学者而言可能还是一道屏障,但也有不少领域学者开始尝试并愿意付出一定的学习成本去掌握新技能,运用于其研究活动中。相关技术性研究工具的出现,如研究基础设施的建成从某种程度上可提高人文学者的学习效率,但这些技术工具目前是无法模拟出人文学者的问题意识、思辨模式、人文关怀以及价值取向的。有学者提出数字人文研究框架的概念,即描述了数字人文的研究过程,包含若干功能模块,模块之间的相互作用构成数字人文研究范式[8]。笔者认为在新研究范式的形成过程中,研究框架与研究基础设施均必不可少,相较于研究基础设施提供客观的物理条件支撑,研究框架更从逻辑思维层面提供指导。

西北农林科技大学张波教授对于农史研究方法研究颇有心得,上世纪九十年代初就撰文从不同角度对农史研究方法体系进行划分,包括具体研究方法、基本研究方法以及哲学意义方法[9];后于2019年出版专著《农史研究法》,对农史学科理论、农史研究方法进行了系统化阐述。比如:他提出农史研究方法的主导思想应是科学的思维方法;研究方法类型包括文献型研究、考古型研究及民族学调查研究等;具体研究方法又包括如何开展资料工作、选题谋篇及论著写作等等。思维方法应是农史认识层次的根本性方法,张波教授基于康德哲学的三个重要概念,提出农史研究中存在感性——知性——理性的过程,是农史最基本的思维方法[10]。感性认识方法是通过农史资料建立农史个别认识的科学方法;知性认识是通过全面的史料研究认识农史过程的科学方法;理性认识是把握农史本质和农史规律的科学方法。从感性到知性再到理性,包含了观察、调查、比较、类比、归纳、演绎、分析、综合、假说、系统化以及逻辑与历史统一等哲学方法,这一循序渐进的认识过程体现出传统农史研究范式的内在机理。而在数字人文研究领域,也有学者基于研究者的主体视角,提出相类似的方法论,如J. Unsworth将数字人文常用方法归纳为七大“学术原语”[11],具体为探索、注释、比对、参考、取样、阐释和表达。不难看出,数字人文研究方法也是同样遵循感性——知性——理性这样的思维方式,当然相较于传统方法,其优势是可对这一系列方法进行技术性层面的改进,比如扩大观察资料对象的数量,从宏观层面实现文本多维度可视化,达到“观其大略,豁然贯通”的效果。总之,数字人文研究的目标并不是要机器完全取代人,邓小南教授也提出“研究不靠搜章摘句,真能充分利用数据库优势而不被其限制的,首先是具备史学训练基础、具备清晰问题意识的学人”[2],要相对完美地实现“人机结合”,才会真正带来研究范式上的革新。

本研究尝试从领域学者的需求和研究视角出发,将农史研究思维方法与数字人文研究方法相结合,设计一个面向农史领域的数字人文研究框架,如图4所示。该框架主要包含感性认识、知性认识、理性认识等三个层次。接下来,结合方志物产知识库来详细阐述该研究框架的实现路径。

图4 面向农史领域的数字人文研究框架

3.1 感性认识层

在感性认识层,领域学者可通过使用数字人文研究基础设施中的平台或工具来初步解决自己的研究需求,对研究目标、所需研究资料、研究方法、研究路径等有一个大致的思路与方向。此处的研究需求包括两种类型:“启发式需求”与“问题式需求”。“启发式需求”是指领域学者在选择基础设施之前并没有提出明确的研究问题,而是需要通过使用基础设施,通过获取相关运算数据结果、可视化图谱等,逐步地启发学者明确其研究命题,进而发现可能存在的新史实或现象来重构历史认知与理论。有学者认为这是一种“数据驱动”下的侧重于发现而非解释的新研究范式[12]。“问题式需求”是指领域学者在展开数字人文研究之前对自己所要解决的一系列研究问题都非常明确,比如对提出的研究假设应如何开展实证研究都了然于心,即属于传统意义上“问题驱动”的研究范式。对于某些对数字人文研究有较为深刻理解与研究经验的领域学者而言,这两种类型的研究需求往往可以合二为一,构成一个“基于问题的数据型论证范式”[8],即先基于需求提出问题获取相关数据,受数据分析与计算结果启发后,再利用人文学理进行阐释发现新的知识。

确定研究需求后,领域学者基于数字人文研究基础设施进入到下一阶段研究活动,此处基础设施包括领域知识库系统,可实现文本分析、统计与相关性分析、社会网络分析、GIS分析等等功能的数字人文相关研究工具集等。在基础设施中,可以通过检索功能获得相关数据资源,通过可视化功能多角度观察数据,通过工具集来比较、分析数据等,这些结果也为领域学者的“启发式需求”或“问题式需求”提供感性认识。例如:领域学者提出“有关明清云南鱼类物产分布情况”的问题式研究需求,可先基于方志物产知识库系统进行物产知识检索,通过关键字“鱼”进行匹配获得1,372条数据;然后对不同种类的鱼类物产进行观察,获取来源方志、来源其他古籍、《方志物产》描述内容、其他古籍描述内容、物产分类、物产记载地区、物产百科知识、物产时空分布等一系列内容;基于上述内容可进行同一物产的多方资料的比较,比如各种志书对同一物产知识书写的差异,还可以基于GIS工具获取物产的分布情况等。通过使用方志物产知识库,学者对于来源资料、资料的量级、相关物产记载情况、物产的分布状况有了一个初步的印象,并且在这过程中产生的大量数据集、数据分析的结果也可能会激发学者产生新的学术问题意识,进而形成有益的迭代式研究。

3.2 知性认识层

在知性认识层,领域学者需基于自身的人文学理素养,对上一阶段的研究进展进行总结,对基于数字人文研究基础设施获得的研究素材进行判别筛选,对下一阶段的研究步骤再进行规划。首先,领域学者应先再审视自己最初的研究需求,有哪些需求是可通过基础设施得以直接解决,哪些需求还未能解决。如果未解决,接下来打算通过何种方式解决,是继续采用数字人文研究的方法,还是回归传统人文研究方法?如果继续采用数字人文研究的方法,应该转向选择其他何种平台、工具来解决研究需求。其次,若研究需求得以完全或某种程度上的解决,领域学者对于基础设施提供的数据或基于相关分析模型与可视化工具得到的结果大致会存在两种判断:一是对其存疑,二是确定其真实有效。若存疑,基础设施应提供相应线索以供领域学者进行考证,领域学者也可以借助其他线上或线下的平台工具进行数据核验,以此达到“去伪存真”的目的。如果学者认定基础设施提供的数据或分析的结果是可信任的,则可直接从中获取并生成相关格式的数据作为自己的研究素材。这类研究素材从知识类型的角度分为“事实型知识”与“计算型知识”,“事实型知识”包括各类实体知识如物产知识、人物知识、古籍知识等,以及一些通用型知识如地理经纬度、中国历史纪年等,这些知识大多直接来源于原始资料或是其他权威机构,其内容一般较为精确,不易出错;“计算型知识”是指通过数字人文研究基础设施内置的算法与模型,如量化分析、文本分析、GIS空间分析、社会网络分析等进行计算处理而获得的知识。一般而言,“计算型知识”的质量取决于分析模型的构建质量,因此在模型建立之初开发人员就应与领域学者展开良好的互动,以学者的研究需求为导向进行构建,这样获得的“计算型知识”才有可能受到领域学者的采信与青睐。总之,在数字人文研究框架的知性认识阶段更强调资料获取的全面性与精准性。

例如,领域学者通过方志物产知识库系统获取到明清时期云南地区鱼类物产的相关数据以及数据分析结果后,可先判断哪些内容存疑,需要通过其他方式进行考证,方志物产知识库的相关功能也为学者考证提供了诸多线索。如来源方志知识中包含详细的所属方志目录信息、馆藏信息等,与华东师范大学“数字方志集成平台”(3)见网址:http://fangzhi.ecnu.edu.cn/。也进行了知识关联与聚合,因此学者可以较为便捷地通过这些线索迅速获取到原文资料进行对比、核查。再如物产知识不仅源于方志,还源于大量其他类型的古籍,我们将这些古籍与上海图书馆的“中文古籍联合目录及循证平台”(4)见网址: https://gj.library.sh.cn/。中的古籍资料也进行了知识关联,可以获取到相关古籍的多个版本信息以及藏录信息,这也为领域学者后续基于文献的史料考证提供便利。此外,方志物产知识库还提供大量的“事实型知识”与“计算型知识”。“事实型知识”包括方志记载的物产知识,链接到百度百科、维基百科、互动百科上的物产百科知识、人物相关知识、地名知识等等,这些知识大多来自原始资料如手抄本《方志物产》以及第三方机构的网络开放资源如“上海图书馆开放数据平台”(5)见网址:http://data.library.sh.cn/。、“中国历代人物传记资料库(CBDB)”(6)见网址:https://projects.iq.harvard.edu/chinesecbdb。等。“计算型知识”包括基于地图模型的物产时空展现、基于本体模型的各类实体如物产、方志、古籍等之间的关系呈现、通过SPARQL检索得到的开放关联数据集等等。如果领域学者认为这些知识的组织、加工、计算及产生过程是符合人文学理的,即可直接采用知识库生成的各类型数据作为研究素材,如某种物产的分布地图、RDF格式的关联数据等;反之,若存疑则再基于各类线索进行考证。

3.3 理性认识层

理性认识层需要领域学者回归学科的逻辑,采用归纳、演绎、综合的方法将前阶段获取的相关资料、数据,以及基于基础设施计算后的结果进行系统化整理,透过现象究其本质,把握农史研究的规律并最终以成果的形式对外发布。在这一阶段,基于获得的各类资源,领域学者需要结合其自身学科的学理进行思辨、类比,证明相关假设或发现新的知识并最终撰写成文,这部分与传统研究范式较为相似;但是数字人文研究的成果不应只是论文、专著等形式,相关研究数据、实验方法、计算模型工具等都应同时公开,让第三方可以还原研究结论的生成过程,即与自然科学实验数据一样可以被检验与评价,这点是有别于传统人文学科研究范式的。数字人文研究属于跨学科研究,需要多方学者共同参与协作完成,这与传统人文学者“单打独斗”的方式又不尽相同。打破传统人文成果的评价与传播体系,也是建立成熟数字人文研究框架的重要一环,主要体现于两个方面:一是传统的评价机制或不能满足多方面的利益需求,因此也无法有效地调动参与人员的积极性,健全数字人文研究成果的学术评价机制就显得尤为重要;二是学科之间存在不可通约性,跨学科学者来自不同的科学共同体,其之间的交流不可避免地存在很多问题,相关部门或机构应尽快推出相关业界标准来消除信息鸿沟。

目前,针对数字人文研究方面的论文,已有许多国内外学术期刊要求作者需同步提交论文支撑数据。以笔者为例,之前曾以《方志物产》云南卷语料为基础,运用深度学习模型进行物产相关实体的自动识别实验,后撰写成文发表于相关期刊上,而实验数据如“《方志物产》云南卷原始文本数据集”“深度学习模型训练所用标注语料数据集”“深度学习十折测试结果数据集”等均需要提交并对外公开[13]。可以说,这样的方式即是从学理与数据层面共同反映出数字人文研究框架中的“理性认识”。

4 数字人文研究框架探索性实证研究——基于方志物产知识库

本节运用上文设计的数字人文研究框架,并基于方志物产知识库对“云南茶叶”这一主题进行探索性研究,来验证该数字人文研究框架的可用性,同时也可展现方志物产知识库作为数字人文研究基础设施之于农史研究的价值。

4.1 研究设计

中国从发现茶至今已约有5000年的历史。地处我国西南的云南具有得天独厚的自然环境与悠久的种茶历史。吴觉农先生曾指出,中国西南区是世界茶树的原产地,云南则是原产地的中心[14]。云南产茶历史悠久,据傣文记载,早在1700多年前东汉时期已有茶叶栽培[15],民间称茶为“武侯遗种”,至今西双版纳一带仍沿袭着祭祀孔明的“茶组会”活动。正式文献中出现记载始于唐代,樊绰《蛮书》中提到“茶出银生城界诸山,散收无采造法,蒙舍蛮以椒、姜、桂和烹而饮之”,其中银生城界诸山指位于西双版纳的六大茶山和无量山、哀牢山等产茶地区[16]。元代,云南茶叶的贸易开始扩展,李京在《云南志略》中记载金齿百夷“以毡、布、茶、盐互相贸易”[17]。其后,各个时期云南地区经济作物均以茶叶为大宗,价值也最高。

鉴于茶叶在云南农业历史上的显著地位,“云南茶叶”这一主题也是领域学者的研究热点,传统的研究方法主要还是基于历史学、文献学及考古学的方法,目前还鲜有学者基于数字人文视角对这一主题展开研究。接下来,本文尝试通过数字人文研究框架对该主题的研究路径进行设计。首先,领域学者需对“云南茶叶”主题研究有感性认识。这一阶段的主要任务是明确研究需求,例如可通过研究基础设施对相关关键词进行检索,此处的研究基础设施为专题知识库以及数字人文分析工具等,通过浏览基础设施所提供的各种形态内容(文献、数据、可视化图表等),将学者的“问题式需求”或“启发式需求”逐渐转化为清晰的研究命题。然后,在知性认识阶段,学者需要掌握更为详尽全面的各类资料,同时对基础设施所提供的内容进行甄别,对于存疑的内容通过多方途径进行考证,对于确认无误的内容可直将其接纳入学者研究素材库。最后,结合各类资料,进行归纳总结,对“云南茶叶”相关研究命题形成理性认识并撰写成文。

4.2 “云南茶叶”概览——基于方志物产知识库

对于“云南茶叶”这一研究对象,假设用户在使用方志物产知识库之前,脑海中还未形成精准的研究议题,这时可先通过知识库对其中相关内容进行检索,通过“遥读”[18]与“近读”[19]相结合的方式来观察检索结果,同时还可利用软件工具进行初步的数据分析,在此过程中逐渐受到启发明确自身的研究需求。

例如,在方志物产知识库中,由于不确定研究需求,我们采用模糊查找的方式,以关键字“茶”进行搜索,一共得到510条物产记录,意味着在《方志物产》云南卷及其他古籍中有510条物产名称中含有“茶”这个字,如图5所示;还可对这些物产进行详细浏览,掌握《方志物产》及其他古籍对其的描述信息、分类信息以及地理位置信息等。图6为《方志物产》云南卷第一卷明景泰六年《云南图经志书》中所载“感通茶”的物产知识展示页,从中可获取“感通茶”词条在《方志物产》中的描述信息为“产于感通寺其味胜于他处所出者”,其中包含产地实体“感通寺”,物产分类标签为“土产”,物产记载地区为“大理府”等。另外,还可发现在《滇略》《御定佩文斋广群芳谱》《徐霞客游记·滇游日记八》《明一统志》《滇南杂记》等古籍中亦有“感通茶”的记录,同时可获取这些古籍对“感通茶”的描述信息,如《御定佩文斋广群芳谱》中有载:“感通寺在点苍山圣应峰麓,旧名荡山,又名上山,有三十六院,皆产茶,树高二丈,性味不减阳羡,名曰感通茶……”通过知识检索与细致阅读可对这些包含“茶”关键字的物产有初步印象。

图5 关键字“茶”的搜索结果

图6 “感通茶”物产知识展示页面

对检索的510条结果通过软件工具进行二次统计与分析,可从更多角度来观察云南“茶”。通过去重筛选共得到133条记录,按照物产出现频次进行统计,有88条“茶”相关物产只出现过1次,出现5次以上的见表1。出现频率较高且相关的“茶”物产均可作为潜在的研究对象,例如雪茶、感通茶、太华茶、普洱茶等等。但是,由于采用了模糊检索的方式,从中匹配出来的物产记录并非都与“茶”相关,有些则属于花属,如茶花、山茶花、白茶花等,这些物产数据需要清洗过滤掉。

表1 “茶”相关物产出现频次(5次以上)

方志物产知识库还提供基于GIS技术的物产时空展现功能,通过该功能可对各历史时期云南茶叶种植情况进行分析。以明代为例,我们选择“茶”物产作为研究对象,获取其时空分布图,如图7所示,再结合明代各种方志以及其他古籍对“茶”物产的描述,可快速了解到:明代云南滇南茶产地主要有车里宣慰司地(今西双版纳地区),但产量不高,包括普洱茶;滇西茶产地主要有南甸州、湾甸州、金齿军民指挥使司的保山及德宏地区,其中滇西大理府感通寺所产感通茶较为知名,但价格也颇高;滇东地区主要集中于曲靖府、云南府、澂江府、广西府和临安府等地。基于该种方法,还可对清代、民国时期各地产茶情况进行“遥读”,获取更多感性层面的认识。

图7 “茶”时空展现图

此外,还有一些名称上包含“茶”字,但或不属于“茶叶”类的物产,应该进一步观察方志记载内容再加以判别。这时可将同种物产进行聚类考察,获得物产在不同时期不同来源方志的记载情况,动态获取物产知识书写的变化情况。例如“儿茶”究竟是否为一种茶叶?将知识库中所有“儿茶”的记载内容罗列出后,答案呼之欲出。“儿茶”聚类情况如表2所示。

从该表中可看出,方志物产知识库中的“儿茶”最早始于清康熙四十一年(1702)的《永昌府志》,到民国二十二年(1933)的《车里》共有10条记录。可以通过这些记录中的物产分类以及物产描述信息来了解“儿茶”到底为何物。先从分类上来看,各志书编纂者给“儿茶”的分类标签包括“物产、食货属、药、制造品”;再从物产描述中可知其为“车里特产车人和槟榔嚼食并能治口齿诸病”,基于“药”“治口齿诸病”等文本可以初步判断儿茶并非茶叶,而有可能是一种中药材。这也属于数字人文研究框架中的感性认识阶段,若要深入研究“儿茶”这一物产,可以通过其他途径搜集更多资料,进而迈入知性认识阶段。比如查得有文献记载:“儿茶又名鸟爹泥、鸟垒泥、孩儿茶……有关文献中多记述原产于热带南洋诸国,少见有国内出产的记载……云南的儿茶产于西双版纳傣族自治州,尤以勐罕产量最多。……儿茶多用作收敛剂,本草纲目载有‘清上隔热、化痰生津,涂金疮一切诸症,生肌定痛,止血收湿’等功效……”[20]。另外通过知识库的知识聚合功能,可获得“儿茶”的百科词条数据。其中“百度百科”中的“儿茶”知识为:“儿茶,中药名。为豆科植物儿茶Acacia catechu (L.f.)Willci.的去皮枝、干的干燥煎膏。冬季采收枝、干,除去外皮,砍成大块,加水煎煮,浓缩,干燥。分布于云南南部地区,海南有栽培。具有活血止痛,止血生肌,收湿敛疮,清肺化痰的功效……”结合这些资料可以明确“儿茶”确属于中药材。

表2 物产“儿茶”来源方志记载情况

这些资料中提及“儿茶”的产地主要是在云南的南部地区西双版纳一带,但是在方志物产知识库中清代方志中记载“儿茶”出自“永昌府”(今保山市)、“龙陵县”“车里县”等,其时空展现如图8所示,因此随之而来会引发诸多疑问:为何现今资料不提永昌府、龙陵县?“儿茶”原产热带南洋诸国,是先传至永昌、龙陵还是车里宣慰司地?对于领域学者,这些疑惑有可能会形成一系列的研究灵感或启发,从而获得新的研究命题。至此,下阶段研究迈入至数字人文研究框架的知性认识层。

图8 物产“儿茶”时空展现

当领域学者明确自己的研究需求后,可进一步借助方志物产知识库,针对自己的详细研究命题展开研究工作。知识库可提供事实型知识与计算型知识供学者作为研究素材,如基于GIS的物产时空分布图就是一种典型的计算型知识;同时知识库还可为学者提供“考镜源流”的线索,即通过关联数据技术将本地方志、古籍关联至其他机构的开放知识源,方便学者一站式地进行二次检索与知识的再发现。通过线上或线下的不断考证,在广泛获取、累积了一定数量与质量的研究素材之后,即可从知性认识进入理性认识层。在最后阶段,领域学者需对相关农史研究规律、资料进行全盘把握,开始撰写、修改、发布其研究成果,并且通过外界的评价机制与交流反馈不断完善其研究工作。

5 结语

数字人文研究范式带来的新科学革命依旧任重道远,而“范式再构与转换”的过程难免产生新旧科学共同体之间的分歧与对立。因此,笔者认为数字人文研究的统一学术共同体构建不应急于求成,不同学科均可在实践中逐步摸索、探讨符合自身学科属性及发展的研究范式,可先各自构建小学术共同体,从而达成“星星之火”之势;另外,数字人文研究基础设施与研究框架是研究范式创新的前置基础条件,需学界花大力气按学科领域进行建设与探讨。作为面向农史领域的数字人文研究基础设施的重要一环,方志物产知识库可为领域学者开展人文研究提供数据与工具,但是仅仅依靠数据与工具往往也不足以支撑起一项完整的学科主题研究活动,正如有学者曾深刻地指出“抛弃人性的历史学没有存在价值”[21],传统人文研究过程中依然有大量的步骤是信息技术无法取代的。

本文提出的面向农史领域的数字人文研究框架还有待未来开展更多的实证工作来加以验证与完善,同时还应注意收集与整理领域学者的各类研究需求,以及在使用方志物产知识库过程当中发现的各类问题。知识库的构建过程不是一蹴而就的,其功能与内容均需要不断迭代来满足各种知识服务需求。在今后研究工作中,我们将继续升级知识库系统,为领域学者提供用户研究数据管理、研究专题服务、众包编辑、智能史料考证等一系列功能;同时将全国范围的物产资料录入知识库,通过文本分析、社会网络分析、时空序列分析、可视化分析等数字人文研究常用方法发现隐含知识或新问题,再结合传统历史学、文献学等研究方法进行多方面考证,进而开展一系列相关主题研究。将这些研究的方法、过程、结果及经验进行总结并反复论证,最终提出面向农史领域的数字人文研究范式,推动农史研究的不断深化与发展。

猜你喜欢
物产方志知识库
Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
汉语近义词辨析知识库构建研究
Development of a battery-operated floatingelectrode dielectric barrier discharge plasma device and its characteristics
The investigation of OH radicals produced in a DC glow discharge by laser-induced fluorescence spectrometry
Activated persulfate by DBD plasma and activated carbon for the degradation of acid orange II
实践活动—教学设计案列
东北地域物产及其词语缘由
机构知识库建设的动力研究
风险警示:香溢融通、物产中拓、申达股份
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比