数字人文研究热点与发展趋势的断面考察
——以《数字人文季刊》和《人文学科中的数字计算》为中心

2020-01-08 01:01刘晗月
图书馆研究与工作 2020年1期
关键词:人文学科期刊人文

陈 苗 刘晗月

(中山大学资讯管理学院 广东广州 510006)

1 引言

数字人文是近年来中外学界研究的热点领域之一,有不少学者对这一领域的研究情况给予了高度关注,对数字人文研究状况进行总结梳理的文章也越来越多。例如,柯平等人研究了数字人文的演化路径和发展趋势,提出数字人文领域的研究热点包括基本理论研究、技术驱动下的人文学术实践转向、新合作模式引发的人文学术文化变革、面向数字人文研究的基础设施建设[1];肖鹏等人总结了学术型图书馆馆员开展数字人文研究时应遵循的基本原则和应注意的关键问题[2];还有学者指出,数字人文的研究重点在于文化遗产数字化保护、数字历史项目开发、数字人文基础设施和相关的图书馆服务[3]。

在我国,由于原创性研究相对滞后,大部分数字人文研究相关论文带有综述性质。其中最有价值的是针对国外文献的分析,但目前相关分析多以Web of Science核心数据集为数据源,采用纯粹的文献计量方法,往往以揭示宏观趋势为目标,对于微观的考察反而有所不足。最典型的是,当前有许多关于数字人文发展方向的讨论,但缺乏对具体的数字人文研究的开展、每个方向之下的研究范式的讨论。

本文将选用两本典型的数字人文期刊为研究对象,通过文献计量和内容分析的方法,结合相关文献,既从宏观的视角分析、整理和归纳本领域的研究热点和发展趋势,同时也尝试以微观视域,在一定范围内探讨数字人文研究的知识基础,分析具体内容及主要领域的研究范式。

2 方法论

2.1 研究对象的选取

本文选择《数字人文季刊》(Digital Humanities Quarterly)和《人文学科中的数字计算》(Digital Scholarship in the Humanities)两本典型的数字人文期刊作为数据源。

所谓典型的数字人文期刊,本文的理解是:以整个数字人文学科领域的学术文章作为主要收录范围的期刊。以典型数字人文期刊为数据源,相比在数据库中进行主题检索获取相关数据的方式,可以将研究数据更准确地锁定在数字人文领域内,从而更准确地揭示数字人文的发展状况。此外,期刊时效性强、专业性强,加上较高的收录标准,其提供的数据也具有较高的质量。《数字人文季刊》发布有关数字人文学科各方面的文章、评论、案例研究和观点,收录范围覆盖“人文学科”和“数字学”领域,并为数字人文的从业者、研究人员和教师提供交流分享的论坛。《人文学科中的数字计算》(原用名《文学与语言计算》)是数字人文领域历史最悠久的期刊之一,收录的不仅限于数字人文领域的学术文章,也包括数字人文学科相关领域的其他学术作品,为数字人文和人文领域的发展服务。这两本期刊从收录范围和作用定位上看,都是当前较为典型的数字人文期刊。

当前在世界范围内,已出现了若干专门以数字人文为主题的期刊,选择这两本期刊作为研究对象的主要原因有以下几点。

(1)两本期刊都是综合性的数字人文刊物。由于不同刊物的主要编辑团队有着不同的学科立场和学术诉求,因此,不少数字人文刊物都存在一定的学术偏好。文章所选择的两本刊物接收数字人文各个方面的学术作品,所涉及的数字人文领域较为全面,相对来说偏向性较不明显。当我们准备通过研究有限的数字人文期刊来推测数字人文整体发展状况时,选择内容更全面、偏向性更弱的期刊可以减少期刊学术偏好的影响,使研究结果具有更强的代表性。

(2)两本期刊数据的时间跨度包含数字人文快速发展时期。根据搜集到的历年文献发表量来看,数字人文在最近十年才得到更多的关注,在2008年后文献增长率显著提高,因此本文将数字人文的快速发展时期界定为2008年至今。从创刊时间来看,《数字人文季刊》创刊于2007年,《人文学科中的数字计算》创刊于1986年,二者距今已有超过10年的历史,因此较为完整地记录了整个数字人文快速发展时期的发展状况。而其他大部分数字人文期刊的创刊时间是在2012年以后,在反映数字人文快速发展时期时有缺失。

(3)这两本数字人文期刊在学界的认可度较高。大部分数字人文的文献集中在这两本期刊即是一个证明。举例说明:笔者在Web of Science核心数据集上,以“digital humanities”为主题进行搜索,检索时间为2018年11月7日,得到检索结果2 135条。根据期刊收录的文献数量对各个期刊进行排序,排序结果如表1所示。《数字人文季刊》排名第一,相关文章数量为79篇;《人文学科中的数字计算》及其前身《文学与语言计算》分别排名第四和第三,相关文章数量为55篇和56篇。尽管《计算机科学系列讲义》(Lecture Notes In Computer Science)排名第二,但由于其本身是发文量巨大的会议论文集,所以从比例上讲,这本期刊相对其他两本期刊相关度较低,也不是学者们发表数字人文学术文章的优先选择。因此,数字人文的研究成果在这两本期刊的集中程度可见一斑。

2.2 数据来源

本文的数据来自Web of Science核心数据集,检索出版物名为Digital Humanities Quarterly、Digital Scholarship in the Humanities或Literary and Linguistic Computing的文献,时间跨度选择“所有年份”,共得到757条检索结果。其中,《数字人文季刊》共有151篇,时间跨度为2015—2017年,数据更新至第11卷第4期;《人文学科中的数字计算》及其前身(《文学与语言计算》)共有606篇,时间跨度为2008—2018年,数据更新至第33卷第3期。检索时间为2018年11月7日。本文使用Citespace 5.3进行数据分析。

表1 相关文章数量最多的期刊(TOP 10)

本文通过选择期刊作为数据源,规避了手工检索的局限,选择近十年的数据进行具体分析,弥补了对数字人文快速发展阶段描述分析的空缺,但也存在着不足:①数据不完整。受Web of Science核心数据集中数据资源的限制,本文未能收集到《数字人文季刊》和《人文学科中的数学计算》(含《文学与语言计算》)的所有数据,数据缺失较为严重,但是由于未找到将期刊官网上的数据转化成WOS格式的方法,无法统一爬取数据和数据库数据的格式,集中分析。②代表性不足。只以两本期刊作为数据源,在代表数字人文整体上不够有力。③当前仍然处于数字人文的快速发展阶段,在这个阶段尚未成为历史之前就进行分析,难免存在不全面的地方。

3 数字人文的知识图谱分析

研究数字人文具体如何展开,了解主要方向下的研究范式,可以从数字人文领域的高被引文献和高频关键词入手。通过阅读高被引文献,可以发现数字人文领域的研究重点和理论来源;高频关键词代表了这一领域学者主要关注的方向,其变迁一定程度上反映了该领域的发展趋势。通过研究高被引文献和高频关键词,可以从理论来源、研究热点和发展趋势三个角度展示数字人文的具体发展状况。在微观层面,通过对同一方向的高频关键词下的文献进行阅读,可以归纳出研究领域主要方向的研究范式。

高被引文献构成了知识基础,高频关键词揭示了研究热点及其发展趋势。本文将结合知识图谱,从知识基础和研究热点及其发展趋势两方面,对两本典型的数字人文期刊进行分析。

3.1 知识基础

研究领域的发展状况,即研究前沿,它的引文就是该研究领域的知识基础[4]。在从宏观层面分析组成知识基础的所有引文的特征时,着重研究高被引文献,可以实现从微观的视角考察数字人文的知识基础。将Citespace时间切片设置为1年,得到参考文献共现网络图谱,如图1所示。

图1 参考文献共现网络图谱

图中共有18 191篇被引参考文献,但被引频次大于10次(包括10次)的文献只有9篇(如表2所示),可见在这一时期高影响力的文献数量较少。如图2所示,被引文献出版的年份主要集中在2009—2013年,被引文献数量在2012年以前基本呈递增的态势,学术活跃度较高,学科发展迅速。在对两本期刊参考文献的整体有了部分宏观认识之后,结合9篇高被引文献,从微观的角度考察数字人文研究的内容。

表2 高被引文章(被引频次>=10)信息表

图2 出版时间分布图

被引频次最高的9篇文献中,有4本是数字人文专著,其他5篇都是期刊论文,说明这个领域已经得到较为系统、专业的研究。这些文献根据内容可以分为理论研究和应用研究两类。理论研究中,包括对整个数字人文领域的综述性著作[5-6]、文学计算领域的开创性著作[7]和文化组学的开创性著作[8]。应用研究中,最受关注的是作者身份识别方法的研究及其应用,如作者身份自动识别方法的最新进展的综述[9]、寻找分辨作者特点或风格的最佳分类器[10]、对作者身份识别实际操作中遇到的候选作者不确定和机器学习分类法训练不足问题的解决方法研究[11]等等。此外,数字人文应用程序[12]等数字人文应用领域的主题也受到重视,体现了数字人文与其他学科的深度交融正在进行,数字人文正尽力发挥本身对其他人文学科的服务价值。

3.2 研究热点及发展趋势

关键词在一定程度上体现文献关注的方向,因此研究高频关键词可以展现学科研究的热点。图3中共有39个关键词,图中节点大小与对应关键词共现频次呈正相关。由图3可知,作者身份识别(authorship attribution)是最大的节点。其次,文本(text)、语言(language)、归属(attribution)、信息(information)等节点也相对较大,反映出数字人文的研究热点。节点外有紫圈突出的是突现性较高的关键词,突现性高意味着共现频次快速增加。图3中突现性高的节点有信息(information)、识别(recognition),同时,这两个节点之间存在较粗的连线,共现频次高,表明信息识别是数字人文的研究前沿之一。

图3 关键词共现图

从图4可看到,低频关键词占主要部分,关键词间的频次差距较小,最高频次的关键词也只有10次,说明研究主题广,跨学科特性较明显。高频关键词在时间上的分布揭示了研究热点的变迁,预示着学科的发展趋势。如图5所示,从节点的数量上看,随着时间发展,两本期刊反映的数字人文的研究范围扩大,研究的对象、方法更加丰富,广度与深度进一步得到拓展。数字人文研究早期主要是对文本,包括文字、谈话等信息材料本身的研究。之后,利用信息技术对人文学科的研究增多,学者们尝试从新的角度理解人文学科知识,拓展人文学科的研究领域,创新人文学科的研究方法。

图4 关键词频次分布图

图5 关键词时区图

在对关键词进行总体分析之后,结合具体的关键词,总结归纳出主要研究方向,并结合知识图谱和具体文献进行分析。

(1)作者身份识别问题的研究

在高频关键词中,作者身份识别(authorship attribution,10)、归属(attribution,7)、识别(recognition,4)揭示了作者身份识别是这两本数字人文期刊中最热门的应用研究。这一领域主要有两大方向,一是探索作者身份识别的技术与方法,其中,文体学是很重要的一个角度;二是作者身份识别方法的应用,主要是在文学领域。

作者身份识别的技术研究方面,机器学习方法和词频分析是主要的方法。具体的研究有探究机器学习分类计数训练集的文本选择问题[13]、用机器学习方法检测作者欺骗[14]等等。在词频分析上,有学者讨论了词频方法的一些基本问题和特点,包括如何定义一个词,使用什么参考语料库,或采取什么频率截止[15]等等。

作者身份识别的主要应用领域之一是文学研究。传统的文学研究具有高度的主观性,缺乏保证成果有效性的方法,面临存在危机。采用文学计算等远距离阅读的方式,做可重复的研究,是文学研究的新方向[16]。随着作者身份识别方法的发展,作者身份识别已经扩展到新的应用领域,如作者身份剖析和计算社会语言学[17]。学者们研究作者身份识别的技术和方法,尝试尽可能降低识别过程中噪音或无关信息的影响,致力于提高自动识别的准确率。作者身份识别也和语言学相结合,研究在不同语言中识别理论与方法的推广。2016—2018年,以作者身份识别和语言学为主要领域的数字人文应用与实践成为数字人文学科的研究前沿。

(2)数字人文的研究对象

文本(text,9)、文字(word,6)、信息(information,5)、英语(english,4)揭示了数字人文的研究对象,即各种形式的信息。信息是图书馆学的研究对象,“信息”一词体现了图书馆学与数字人文学科存在交叉。在实践上,许多数字人文项目也是由图书馆承担的。在研究广度和深度上,“信息”也拓展了数字人文的研究基础,使数字人文研究扩展到更多领域。在2008—2012年,对信息资源本身的研究是热点,对这些信息的处理,包括信息管理和整合、信息内容分析等。其中,运用技术对信息进行解读和表达是重要的研究方向,应用的主要领域是计算语言学和自然语言处理。

随着信息技术和数字化的发展,研究不仅包括书面的“文本”,也包括非传统意义上的“文本”,比如演讲(speech,2)、口语(discourse,2)。人文资料的数字化是数字人文研究的前提。数字化也是这一时期的研究热点。谷歌图书(google book,2)就是这一时期数字化的代表性成果之一。

(3)数字人文的技术研究

信息技术的发展使得网络(web,5)这一基础设施更加完善,许多基于网络的研究方法也得以实现,许多基于网络的研究工具被发明出来。在2016—2018年间,语料库(corpus,2)、模型(model,2)、算法(algorithm,2)等关键词显示信息技术在数字人文的应用更为深入和广泛。语料库既是数字化的成果之一,也是语言学研究的基础资源。模型是对现实的抽象与简化。它既可以抽象出信息和信息运动的特征,也可以辅助信息分析、提取、生成等操作,如将计算模型应用于叙事语篇的生成系统[18],建立基于距离的手势相似模型进行手势研究[19]。算法是对人文学科进行计算机分析的重要基础。图像(image,2)、表格(graph,2)等关键词体现了可视化技术的应用。这些技术、工具、理论结合网络,创造了许多新的研究人文学科的方法。这既是信息技术与人文学科深度融合的实践,也促进了人文学科的发展。

(4)数字人文应用领域

21世纪初人文学科的主要变革因素之一是从模拟材料向数字材料的转变,这种转变将以多种方式影响人文学科[20]。其中数字人文在人文学科的应用是重要方式之一。语言(language,7)所代表的语言学是数字人文主要应用的领域。在语言学上,数字人文学者主要是利用语料库进行实证研究和定量研究,同时信息技术带来的语言变化也扩展了语言学的领域。此外,在非高频关键词中,还有历史(history,2)、社会科学(social science,2)等人文学科,可见这些人文领域也出现了数字人文应用。结合关键词时区图可以发现,2013—2015年,社会科学、人文学科(humanity,5)成为高频关键词,数字人文在人文学科应用更为广泛、深入。数字人文不仅给传统的社会科学和人文科学研究带来了新的研究工具,也催生出新的研究方法和研究范式,成为社会科学和人文学科发展的新的驱动力,文学研究中远距离阅读的兴起就是一例。

4 结论

本研究选择综合程度较高、收录范围较广、时间跨度适当,同时具有一定权威性的典型数字人文期刊作为数据源,对数字人文期刊的内容和形式进行分析,展示近十年数字人文的发展状况。本研究不仅从宏观的角度进行分析,也做了微观的考察,对该领域的重要文献进行了单篇的阅读和分析,结合单篇文献的具体内容,展现近十年数字人文具体是如何发展的。通过本次研究,本文主要总结得到以下结论。

(1)知识基础分为理论和应用研究两类,理论研究包括数字人文及其分支领域,如文学计算、文化组学的基础理论研究;应用研究包括各种具体实践方法的研究,其中作者身份识别是一个重要的研究方向,主要有两个研究问题:探索作者身份识别的技术、方法,与作者身份识别方法的应用。

(2)快速发展阶段的数字人文相较以往,研究范围进一步扩大,研究对象更加丰富,研究方法更加多样,广度与深度进一步得到拓展,并且这些变化的速度都比以前更快。总体而言,两本期刊反映的数字人文研究热点主要可以分为四类:一是作者身份识别;二是数字人文研究对象的分析;三是相关的技术研究;四是数字人文在各个学科的应用实践。文本内容分析是早期的研究热点;作者身份识别是一个新的研究热点,并成为研究前沿;数字人文实践在各个时期都是研究的热点,只是其内容在不断扩展、深化。数字人文技术随信息技术的发展更加先进、更加多样化,应用对象更加广泛,应用方式更加成熟,这些应用既促进了人文学科的发展,也提出了新的研究理论和研究方法。总体来说,数字人文正在致力于实现信息技术与人文学科更深度的结合,研究与实践相较于以往更具突破性,并出现由技术应用引领的研究范式变革。数字人文从简单的辅助人文学科研究到开始对人文学科研究发展施加影响。人文计算向数字人文的转变在这一时期体现得尤为明显。展望未来,数字人文还将为更多领域的研究服务,比如在非遗数字化研究方面,参考MIDAS Heritage,思考我国国家级非物质文化遗产元数据标准设计的方法[21];在人文学者信息行为和数字行为的研究方面,运用数字人文研究方法,揭示人文研究者在线文献求助与交流行为的特征[22]。

通过对《数字人文季刊》和《人文学科中的数字计算》两本数字人文领域较为典型的期刊的研究,本文对数字人文进行了比较近距离的观察,并且认为对数字人文期刊的研究是非常必要的。但本文仅反映了这两本期刊的特点,在未来的研究中,还需要对更多的数字人文期刊进行研究,对更广泛的数据集进行分析,以探索在更大数据范围里数字人文的具体发展状况。

猜你喜欢
人文学科期刊人文
期刊更名启事
期刊简介
美在山水,魂在人文
最朴素的人文
期刊问答
别再这样为人文学科辩护了
再论哲学人学的学术性质
论高师人文学科教师教育者的“师士”使命的源起
人文社科
期待您的加入