基于“计算批评”的疫情文学情感主题比较研究
——以《鼠疫》和《白雪乌鸦》为例

2023-07-03 08:29
关键词:词频鼠疫白雪

王 悦

(天津师范大学外国语学院,天津 300387)

主题学研究作为比较文学平行研究的重要分支,是中西文学文化交流互鉴的重要切入点。传统意义上,人们对主题的获取主要依靠人的直觉或逻辑概括,[1](P451)主题通常体现在人物和情节上。[2](P174)但这种传统“文本细读”方式很难做到文本信息的全面覆盖,尤其当涉及多个文本或文本规模较大时,准确性和处理效率将进一步降低。当前,随着“新文科”建设的不断推进,计算机以其快速、准确以及大规模处理能力为包括主题学在内的各类人文研究打开了新视野,展现出广阔的研究前景。海斯(Heise)在2017 年的美国比较文学协会(ACLA)报告的开篇中也曾反复指出,当前的比较文学研究更加多元,更加接近世界文学,未来的比较文学面临的最大挑战是人文研究版图的快速重塑,需要在继续划清学科边界的同时加强跨学科、新媒体融合和数字量化研究。[3](P1-7)数字化研究已经成为当前比较文学研究的重要方向,而“计算批评”作为“数字人文”研究的崭新路径,也开始引起学界的关注和探索。

一、从“数字人文”到“计算批评”

2000年莫莱蒂(Moretti)在《世界文学猜想》[4](P54-68)一文中第一次提出了“远读”概念,使文学研究获得一种“鸟瞰式的宏观视野”。[5](P9)该范式颠覆性地革新了文学研究传统的“文本细读”范式,提出不直接阅读文本,以牺牲细节的丰富性为代价,获得一种对系统的整体理解,潜藏着一种对文学研究中文本细读的经典方法的颠覆性挑战。[6](P178)如都岚岚教授所言,“远读实践不仅为世界文学提出了切实可行的研究路径,而且推动了文学研究与计算机技术交叉的趋势”。[7](P191)过去的20年间,各大学和研究机构纷纷开始建立数字人文实验室,极大地扩大了影响研究的范围和视角,提高了研究精度。

但是,随着“数字人文”研究的不断深入,在巨大的人力物力投入的背后,也有许多质疑的声音。布罗姆(Harold Bloom)在《纽约时报》上曾言称莫莱蒂是“荒谬的”,小说、诗歌、戏剧等文学带给我们的不是冷冰冰的数据,而是指引我们走向充满智慧的哲理性的思考,而定量研究将文学从智慧贬为信息。[8](P218)斯皮瓦克(Gayatri Spivak)也认为文学史不是一大堆事实性数据的罗列,而是像百科全书一样复杂。许多学者认为莫莱蒂主张放弃对单一文本的阅读是只见“森林”,不见“树木”的做法,[9](P191)他们担心远读会取代文本细读的乐趣。甚至莫莱蒂本人也曾在2016年的访谈中感叹,“数字人文研究的成果要低于预期”。[10](P37)对“数字人文”研究成果的失望使莫莱蒂在2016年提出了“计算批评”[10](P33)这一概念,试图探索数字技术与文学研究融合的新模式。

“计算批评”的概念柔和了“数字人文”彻底革命人文研究方法的做法,它不否认和抛弃传统的人文批评方法,恢复了文学文本的核心地位,“从而消解了文学阐释和经验研究之间由来已久的敌意”。[11](P181)这种数字化研究不追求世界范围内的宏大图景,而是更加聚焦作品文本特征的挖掘和比较,因此也被称为“中距离阅读”。日本现代文学研究者霍伊特·朗(Hoyt Long)和美国和亚太地区文学研究学者苏真(Richard Jean So)建立的芝加哥大学文本实验室,在“远读”的基础上提出一种“可伸缩阅读”(Scalable Reading)的概念,即“利用一系列工具和阐释方法,通过多尺度的‘透镜’来阅读和分析文本文档”,[11](P182)进一步将“数字人文”推向“计算批评”。这种研究在立足人文学科自身方法的同时,保持人文领域对数字时代的开放性,是一种数据驱动和算法支持的人文研究。

二、研究模型和步骤

本文选择了法国文学大师加缪出版于1947 年的《鼠疫》和中国知名作家迟子建2009年出版的描写20世纪三十年代哈尔滨鼠疫灾害的《白雪乌鸦》这两部“存在主义”作品作为分析文本,选取Wordsmith 8.0,Editplus,Antsegment 和Excel 作为主要研究工具,对两部小说进行了全文本数据考察和情感极性分析。

(一)研究模型建立 传统意义来看,主题学研究大多从人物和情节入手。现有研究对这两部作品进行的主题分析均采用“人物-主题”的分析模式,基于“文本细读”进行定性研究,聚焦在“里厄医生”“伍连德医生”“朗贝尔”“柯塔尔”“太监翟役生”“于秀晴”“喜岁”等典型人物的形象分析上。这种关注个体人物分析的方式可能会忽略整部作品作为一个整体表现出的作品情绪。但如果采用大数据分析模式,对人物名称进行提取很难形成明显趋势,情节方面作为可抽取指标的词类过于复杂和多元,也较难捕捉。所以,我们需要对统计指标进行重新思考。

情感极性分析是基于文本的一种数据挖掘分析模式,指对文本的倾向性和观点态度的分析挖掘,也称为倾向性分析,包括情感的极性和强度两个维度。按任务粒度可划分为词语级情感分析、语句级情感分析和篇章级情感分析。[12](P78)语料库主题学研究主要是基于词频统计进行的。这种研究模式下,认为文本是由主题构成的,主题却是由词语构成的。当一些具有语义内容的实义词在多个文本中频繁出现时,便可能形成一个主题。[1](P452)词语级的情感分析主要基于两类词汇进行,即属性词和情感词。属性词是关于描述主体的部位、属性、性能等方面的词语,如外观、价格等;情感词是对主题或其特征发表褒贬观点的词语,如好、不错、糟糕等。[13](P1)文学文本中,属性词和情感词通常不会成对或相邻出现,因此关联性较弱。所以本文选取了情感词这一更加确定并凸显的词类进行提取分析。

在生成的两部作品的情感词频表的基础上,我们手动筛选出情感词,并将他们分别归入包括正极性、弱正极性、弱负极性、负极性四个情感极性的17个情感子极性中,具体极性架构见图1:

(二)研究步骤 由于两部作品书写语言不同,而汉语和法语的分词机制不同可能对最后的词频统计对比造成误差。汉语语料的词数和字数存在较大差距,和英语材料进行对比时词频统计的可比性将有所降低。因此本文选取了上海译文出版社2013 年出版的《鼠疫》中文版和人民文学出版社2010 年出版的《白雪乌鸦》中文版作为建库文本,来统一文本语言。

1.语料库建立

首先,使用EditPlus 软件对原始文本进行降噪处理,使用AntSegment软件对文本进行分词处理,最终导入WordSmith8.0生成两个可比语料库。其中《鼠疫》库容486674词,标准类符型符比(STTR)44.15%,平均句长9.45;《白雪乌鸦》库容553200 词,标准类符型符比(STTR)55.43%,平均句长16.95。总的来看,库容词数相当,可比性较强,《白雪乌鸦》的词类稍显丰富。使用WordSmith8.0词表功能生成两部作品的词频表(Word list),最低词频设定为8。生成的两个词表中,《鼠疫》词频大于8次的词条2658个,《白雪乌鸦》2919个,两部作品生成的有效词汇类符数量大致相当,可比性较强。

2.情感极性聚类处理

在WordSmith 生成词表的基础上,筛选出《鼠疫》中情感词135个,《白雪乌鸦》中情感词99个。依照情感极性架构(图1),我们将两部作品中的情感词汇进行聚类处理,并计算出每个子极性词汇的聚类总词频。从统计结果来看,《白雪乌鸦》中的正极性总词频(1272)略多于负极性总词频(1228),而《鼠疫》中的负极总词频(1636)略多于正极性总词频(1562),这说明后者的整体情感氛围较为低沉,而前者情感氛围则较为温暖。另外,在生成的总词表中,《白雪乌鸦》出现大于8 次的类符数较之《鼠疫》多出261 个,但生成的情感词汇表中,《鼠疫》中的情感词汇总词频却多于《白雪乌鸦》,这表明相比之下,《鼠疫》这部作品的情感表达更为频繁和密集。此外,两部作品中的情感子极性分布也体现出较大差异性,所以我们需要生成情感子极性分布图来进行更进一步的观察。

3.情感极性分析

将两部作品统计出的聚类情感词频数据导入Excel 软件,生成情感正负极分布饼形图和子极性分布雷达图(图2、图3)。我们可以看到,《白雪乌鸦》中的正极性情感词汇占比52%,明显多于《鼠疫》中的41%,这表示《白雪乌鸦》这部作品的情感表达较为积极外显。而《鼠疫》中的弱极性情感表达(33%)则明显多于《白雪乌鸦》(23%),说明《鼠疫》中的情感表达较为含蓄内敛,也就是说《鼠疫》在情感表达方面的表述更加理智和冷静。负极性情感词汇在两部作品中的占比大致相当,表示两部作品对悲伤和痛苦的直接表达程度大致相同。

图2 《鼠疫》情感词汇子极性分布图

图3《白雪乌鸦》情感词汇子极性分布图

在情感词汇子极性分布图(图2、图3)中,我们可以看到更精确的情感构成情况。首先,在正向极性一侧,《白雪乌鸦》中词频数最高的四个子极性为高兴(464)、肯定(338)、喜爱(316)和憧憬(70);《鼠疫》中词频数最高的三个子极性为高兴(558)、肯定(208)、反抗(198)和喜爱(180)。我们确实可以看到,《白雪乌鸦》这部作品更加凸显“憧憬”这种情感,更着重体现了绝望中的希望和温情。而《鼠疫》中“反抗”这个子极性却非常突出,《白雪乌鸦》中“反抗”这个子极性基本没有出现,词频总数为零,而且《鼠疫》中“勇气”子极性词频总数(154)也明显多于《白雪乌鸦》(28),因此《鼠疫》中一个较为突出的主题就是面对无序荒诞世界所进行的希绪弗斯式的反抗。这两方面的突出数据与之前“文本细读”模式下得出的结论基本一致。

但我们也发现了一些模糊地带和新的主题分支。现有研究普遍认为《鼠疫》的主题相对冷峻,而《白雪乌鸦》则更多地表达“苦难中的温情”以及“对死亡的终极关怀”。[14](P39-43)但从数据上来看,《鼠疫》中表达“憧憬”的总词频为136,占到正向总词频的8.7%,而《白雪乌鸦》中“憧憬”子极性词频总数为70,在正向总词频中的占比仅为5.5%。事实上,《鼠疫》中也表达了憧憬和希望的主题,而且占比高于《白雪乌鸦》,只是由于《鼠疫》中的情感极性较为丰富,在文本细读过程中很难发现。除此之外,在两部作品情感极性的对比中,我们可以看到“理性”这一子极性也存在巨大差异。《鼠疫》中反复出现“冷静”“耐心”“理智”等表现理性的情感词,占到正向总词频的6.3%左右,但《白雪乌鸦》中却没有明显体现。这就构成了《鼠疫》中另一个差异性主题,即西方民族在重大危机面前的个人智慧和理性,这与西方文明从文艺复兴到启蒙运动建立起的理性主义文化是十分契合的,同时这与中国的集体主义人文关怀也存在显著差异,这一点在现有的作品主题分析中则很少提及。

相对正极性词汇一侧,负极性词汇一侧体现出更大的差异性,蕴藏了更多的差异性主题。《白雪乌鸦》和《鼠疫》中“悲伤”这个子极性都占到了最大份额,表明两部作品都表达了人类面临疫情和死亡时所表现出了共通的悲伤情绪。但《白雪乌鸦》中更加突出“恐惧”和“愤怒”,词频总数分别为318和138,在负极性一侧占比28.2%和11.2%。而《鼠疫》中更为突出的子极性则为“痛苦”和“忍受”,词频总数分别为390和198,在负极性一侧占比23.8%和12.1%。除此之外,《鼠疫》中还出现了《白雪乌鸦》中很少出现的两个情感子极性,“孤独”和“焦虑”。综合负极性词汇一侧我们可以看到,在情绪的表达方面两部作品存在巨大差异,《白雪乌鸦》中的负面情绪表达较为外显,而《鼠疫》中的负面情绪更多体现在个体人物内心,较为内敛。

三、结论与反思

在语料库文本挖掘工具的帮助下,我们发现《白雪乌鸦》和《鼠疫》这两部同题材的中西疫情小说虽然都是基于重大灾难这一母题展开,却体现出“理性”和“感性”、“内”和“外”、“散”和“聚”的异质主题,折射出中西方民族的异质文化身份和价值体系:《白雪乌鸦》中的人物更加感性,面对苦难更倾向于在倾诉中获得慰藉和希望,体现为集体主义精神;而《鼠疫》中人们则表现出更多的理性力量、孤独的感受以及对苦难的忍受,体现为个人主义精神。这些结论在现有研究中都鲜有提及,在一定程度上体现了“计算批评”主题学研究对现有研究范式的补充作用和方法论意义。另外,此次研究抛弃了较为成熟的以“人物”和“情节”构建作品主题的方式,尝试从“情感”角度提取作品主题,进行了主题学“计算批评”领域的进一步探索。

“远读”概念催生的大数据研究方法推动了“计算批评”研究范式的发展。数字时代来临后,研究者有限的精力与几乎无穷的文本之间的矛盾更加突出。[6](P180)借助计算机技术,我们可以伸缩文学观察批评的视野,在“细读”和“远读”之间建立起一座桥梁。“数字人文”研究方法不是对传统文学研究方法的替代和抛弃,而是多维度补充。正如纽约城市大学教授理查德·麦克斯威尔曾提到的那样:“莫莱蒂的《欧洲小说地图》关键并不在于他所说的一切都正确无误,而在于它开启了讨论的空间”。[8](P215)虽然当前“计算批评”文学研究还不够成熟,但这并不妨碍它成为文学研究的重要研究方向。

猜你喜欢
词频鼠疫白雪
基于词频分析法的社区公园归属感营建要素研究
白雪和红玫(一)
重新认识鼠疫
一场改变历史的鼠疫
鼠疫促进现代医学
等待白雪的龙门山(外一章)
The Ways of Creating “Information Gap Activities” in the Communicative Language Teaching
韦白雪,我负责给你好日子
词频,一部隐秘的历史
存在主义思想下《蝇王》与《鼠疫》的比较