叙事性文学作品的情节自动分析方法

2020-07-20 07:18杨江刘娇萍甘苗
语文学刊 2020年3期
关键词:叙事性分析

○ 杨江 刘娇萍 甘苗

(湖南科技大学 外国语学院,湖南 湘潭 411201)

一、引 言

叙事性作品是以记叙事件或讲述故事为主要特征的一类文学作品,承担着叙述故事情节、刻画人物形象、解释现实世界的基本功能[1]239,又分为虚构性和非虚构性叙事作品,主要包括小说、剧本、童话、寓言、神话、编年史、报告文学、日记等。情节是叙事性作品中表现人物之间相互关系的一系列事件的发展过程,一般包括开端、发展、高潮和结局四个部分。情节分析是理解和欣赏叙事性文学作品最重要的手段。

一直以来,对于叙事性文学作品的情节分析,人们采用的唯一方法是人工阅读,即通过人对作品的阅读活动来了解和掌握情节,从而或获得对叙述内容的深入理解,以达成对文学的审美需求,或进一步总结和归纳情节的结构规律和演化模式,以实现对叙事本身进行研究的目的。无论是读者还是研究者,人工阅读的方法都能准确、深刻、相对全面地理解作品的情节,是理想、可行、最为人接受的方法。随着数字人文(digital humanities)的兴起和大数据时代的到来,学界和业界对叙事性作品中与情节相关的信息产生了新的需求,使得人工阅读的方法逐渐显露出一些力所不逮之处,这主要体现在四个方面:(1)工作所需涉及的资料和数据在数量上均大大超过了人工阅读所能处理的范畴;(2)不能引入计算分析的方法,通过大量数据的汇集使研究结论“自动涌现”[2-3];(3)难以开展和实施更宏观、长历时的集群研究;(4)不易从海量作品中挖掘新的信息。因此,探索一种基于机器阅读的新的情节分析方法,使其既能适应时代需要和满足各种需求,又能弥补人工阅读固有的局限性,是非常必要的。

文学研究中的叙事理论,尤其是经典叙事学中的结构主义叙事学,对叙事性作品的情节分析具有直接的指导作用。从普洛普归纳的民间故事中的7种人物角色和31种人物行为功能,到后来叙事学家建立的叙事结构和叙事语法[4-6],都为情节分析提供了理论上的支持。此后,莱恩在《可能的世界、人工智能与叙事理论》一书中借鉴人工智能的分析方法,描述了不同体裁的叙事作品的结构特征[7],又为叙事性作品的自动化分析方法的有效性提供了有力的证据。另一方面,结合自然语言处理技术和社会网络分析理论进行文学作品人物关系分析的相关研究,为情节自动分析展示了方法上的可能性。其中,Still分析了莎士比亚戏剧中的人物关系,证明其具有同现实社会网络相同的“小世界”属性[8];Elson着重探讨了从19世纪英国小说中自动抽取人物关系方法的有效性,并证实都市和乡村两种背景下的小说在社会网络结构上不具有文学研究者通常所认为的显著差异性。[9]可以说,前述三类研究为情节自动分析在理论、方法和可行性上做出了有益的探索,具有启发和借鉴意义,是本文工作开展的基础。但颇为遗憾的是,就情节自动分析而言,这些研究相对分散,未能默契、紧密地串接在一起,因而也不能形成一个相对统一的研究框架和路径。从这个角度看,国内外学界至今未见有同类研究。

基于上述背景,本文提出一种基于人物关系演变的叙事性文学作品情节自动分析方法,该方法在较少人工干预的情况下,利用自然语言处理技术,基于叙事学、语言学、社会网络分析理论,对叙事性文学作品的叙事过程进行探索性分析,以达到自动推理叙事过程的发展和演变的目的。需要特别指出的是,本文所指的“情节分析”,是针对叙事过程的开端、发展演变和结局所进行一种探索性分析,与传统意义上的情节分析相比,在深度和广度上有所局限,属于浅层的情节“理解”。

本文的研究价值和意义在于:(1)研究方法具有创新性。文章运用计算语言学常用的自然语言处理技术,借鉴文学、语言学知识和理论以及社会科学的计量、统计、计算的研究方法,对小说情节进行自动分析。(2)研究内容较为深入,研究领域归属新兴交叉学科。本文针对小说情节展开,是实质性的文学研究范畴;在研究方法上综合运用自然语言处理技术、文学知识和理论、语言学知识和理论、社会网络科学知识等,属新兴交叉学科。(3)本文有望建立一套研究文学作品的“外部”方法。(4)本文成果能有效促进文本分析、内容挖掘、自然语言处理等相关研究。

二、叙事性文学作品的情节结构

文学叙事(narration)用话语虚构社会生活事件的过程,叙事的构成一般通过叙述内容、叙述话语和叙述行为三个方面进行分析。其中,叙述内容即构成一段叙述话语主题的故事内容, 是被讲述的故事, 包括事件、情节、人物、场景等[1]242。这些叙事要素之间的关系较为复杂,但如果将情节看作故事内容中的“动态”要素,是统领故事发展的上层单位,那么事件、人物和场景则是相对“静态”的下位组成单位;而如果暂且舍弃故事内容中的其他要素不谈,对故事的分析则可近似等同于对情节的分析,如图1所示。这是本文的第一个假设。

图1 叙事内容分析的层次结构

情节是按照因果逻辑组织起来的一系列事件[1]244,但事件不是孤立存在的。叙事作品中的事件,绝大多数具有社会性,其活动主体通常是人物,他们参与到事件当中,成为推动事件发展的行动要素。缺乏人物的事件则丧失了社会性,只能称作自然现象。事件还包括人物的动作行为以及由此产生的结果。事件的发生要在一定的场所或环境下进行,由此形成一个个场景。可见,对事件的分析需要融合人物和场景,才能更加准确地把握情节。当然,倘若从人物的角度来看情节,道理也是相同的,即需要把事件和场景因素考虑进去。将事件做切分,可以得到情节的组成单位——情节单元(motif),它们叙事完整,是事件、人物和场景相互交错的综合体,是情节分析的最小单位,如图2所示。这是本文的第二个假设。

图2 情节的构成

情节按照事件叙述的顺序在时间的线条上展开。情节单元在时序上的绵延,实现了叙事要素从静态到动态的转变;在特定时点或时段,情节单元占据着一定的空间,容纳着事件、人物和场景以及它们内部和相互之间的关系。如果说情节是动画电影,那么情节单元则是电影胶片,而时间的流动就如放映机,使情节单元展示出动态的效果。情节具有时空二维属性,是本文的第三个假设,如图3所示。

图3 情节的时空结构

在上述假设的前提下,本文提出一种基于人物关系演变的叙事性文学作品情节自动分析方法。以下对该方法进行具体阐述。

三、基于人物关系的情节自动分析方法

本文采用的情节自动分析方法主要包含情节单元切片、人物关系抽取、情节信息抽取、情节单元历时分析等步骤,自然语言处理技术贯穿各环节。工作流程如图4所示。

图4 基于人物关系的情节分析工作流程

(一)情节单元切片

情节单元切片涉及两个主要问题:切片依据和切片数量。情节单元占据时间和空间,因而可以从时、空两个角度进行划分,从而得到情节单元切片。相对而言,根据空间的不同划分情节单元,具有更广的适用性,这一点可以从话剧尤其是舞台剧场景变化的必要性和重要性中得到参照。切片的多少决定了分析的精细程度,切片越多,掌握的情节发展细节就越多,分析的复杂度也随之相应地增加;切片越少,对情节运动过程的掌握就越少,遗漏的细节信息就越多。一般来说,叙事性作品的篇幅越长,包含的情节单元的数量也越多,为降低分析的复杂度,可以通过适当增大切片的厚度来减少情节单元的数量。对于长篇作品,也可以依据作品本身既有的章节划分进行切片。

由于文本时间和故事时间可能不一致,在对情节进行切片后,需要依据故事时间重组情节单元切片,使可能存在的各种逆时序叙述(倒叙、插叙)还原成顺时序结构。

(二)人物关系抽取

单个独立的情节单元可以从多个角度着手分析,但最终都应归纳出事件、人物和场景三个要素,以构建动态的情节时空演变链。相对而言,从人物关系入手是一种更为适宜和妥当的视角。首先,叙事作品建构的情节通常被约束在一个虚拟化社会的范畴内,具有社会属性,而社会学所关注的一个重要方面即是个体之间的关系,因而可以用社会分析方法来分析叙事作品的情节。其次,人具有社会性,虚拟社会亦是如此,社会性的本质是关系,因此,探讨人物实质上就是探讨人物关系。人物关系是一种社会网络,可以采用社会网络分析法考察。再次,事件是人物的活动,人物是事件的主体;场景是事件发生的场所和环境,也是人物活动的空间。所以,事件和场景可以统筹在人物之下,而且这些信息在有人物出现的上下文中总能获得。最后,一般而言,不同的事件有不同的参与者,事件的发展变化导致人物关系的变化。因此,在某些情况下,可以将事件的进程简化为人物关系的演变。

为避免混淆,以下给出人物关系的工作定义。

定义1:人物关系是叙事性文学作品中人物之间的社会关系。

根据我们对30余篇中外小说和童话作品的考察和统计发现,人物关系又可具体分为六种:(1)对话关系,即人物之间产生了对话;(2)动作关系,即人物之间存在的主动施为动作;(3)共现关系,即多个人物同时出现在某一时空内;(4)提及关系,即人物对话或心理活动中提及的不在现场的一方;(5)情感关系,即人物之间对非己方持有的情感;(6)其他关系,即不属于上述五种关系中任何一种的其他关系。

定义2:人物关系表示成点和线的连接。

其中,点代表人物,线代表人物之间的某种关系。一个情节单元中的人物关系构成一个社会网络。这里的“网络”,是图论中的概念。在图论中,“图”是一系列顶点和把各个顶点连接起来的连线组成的集合,“网络”则是由一张图和附加在图的点线之上的信息两部分构成的。本文中图表示的是人物关系网络的结构,附加信息指事件和场景。

(三)情节信息抽取

情节信息抽取完成从情节切片中得到场景和时间信息、从人物关系网络中得到人物和事件信息的任务,并将其用模板结构表示,使信息组织结构化。事件的归纳推导是这个环节的关键任务,事件由多个动作组成,动作具体明确,而事件相对抽象,需要一定的归纳和推导。结构主义叙事学对童话故事中的事件进行过总结,其他类型的叙事文学则更多有赖于先验知识库。我们采取的策略是先枚举后决策,依据主要人物的活动轨迹进行推理,难以决策的事件则留待历时分析步骤解决,少数情况辅以人工干预。

(四)情节单元历时分析

重组后的情节单元按照自然时间的秩序在时间和空间两个维度上铺开,从人物关系的演变入手,通过对单元之间组合发展的历时性考察,可以推导出完整的情节表层结构。历时性考察不仅指从叙事的开端到结尾的贯穿,也包含对情节单元的阶段性分析;考察的对象可以是故事中的全体人物,在有的情况下,也可依据由其他技术手段或先验知识获得的中心人物及其关联人物之间的社会关系作局部分析,以减少待分析的数据量,或得到更多的微观信息。历时分析完成后即生成情节梗概。

为实现上述分析方法,自然语言处理技术的调用必不可少,其中许多技术在此过程中起着关键性的作用,直接关系着分析结果的有效与否和好坏程度。命名实体抽取是对人名、地名、时间表达式等的识别和处理,与情节中的人物、场景、时间等对应,是本文中最重要的语言技术。事件抽取关系着情节中的事件要素,动作、对话抽取以及情感分析则决定着人物关系的分析。此外,一些基础性的自然语言处理技术,比如词法和句法分析,也影响着以其为前提的相关技术。

四、实验结果及讨论

我们设计了两类实验对基于人物关系演变的情节自动分析方法进行验证。第一类实验是对方法的验证,目的是考察其可行性,同时为了排除现有语言技术水平的局限可能带来的不利影响,所用数据是人工标注的语料;第二类实验是对方法的应用,目的是考察其有效性。以下分别对实验结果进行讨论。

(一)情节自动分析方法的验证

实验数据为10篇来自《格林童话》和《安徒生童话》的故事,语料文本均为英译本,收集自互联网(网址:http://www.24en.com/novel/children/)。原始语料使用Stanford POS Tagger[10]进行词语切分和词性赋码,输出为xml格式的待标文本后,交由三名英语专业研究生标注。标注完成后再从结果文本中抽取出各类情节信息,生成对应的时间网络(temporal network)数据,运用社会网络分析(Social Network Analysis)软件Pajek[11]进行分析。限于篇幅,以童话故事《灰姑娘》为例阐述实验结果。

依据标注结果,《灰姑娘》中共有10个人物、10个场景。其中,主要人物Cinderella出现在除场景8以外的所有场景中,Prince出现在场景4至10中,Step-sisters出现在场景2至8和场景10中,Stepmother则出现在场景1至2和4至8中。图5和图6是按场景切分的情节单元的历时变化图。

图5 《灰姑娘》情节单元历时变化图(上)

图6 《灰姑娘》情节单元历时变化图(下)

我们将《灰姑娘》的故事按照事件、场景和人物在时空维度上排列铺开,把具体的故事情节抽象成一幅幅静态的图像,稍微发挥想象,让这些图像依次“放映”,就不难获得整个故事的情节:生母逝世→灰姑娘受到继母和继姐妹的不公对待→参加舞会前她被刁难→王子在舞会上对灰姑娘一见钟情→王子三次寻找灰姑娘→假新娘两次被发现→王子找到灰姑娘→继姐妹婚礼上受到惩罚。在此基础上,我们还可以为其添加更多的信息,这类细节信息越多,人们所理解的情节内容也就越丰富。例如,在上图中,我们为主要人物增加了一些与其他人物的情感关系,附加在人物关系的连线上,从而得知了他们之间的“敌友”关系。通过类似方法的不断累积,我们对情节内容的把握也就渐趋接近真实的情节了。

从上图我们不难发现,人物关系的变动体现为关系网络结构的差异,这或反映了事件的变化,或反映了场景的更迭。首先,人物的出现和退出表示了事件的异动。人物Mother仅出现在场景1中,表明该场景的事件是导致其退出故事的原因。其次,人物关系变动越剧烈,事件的相似度就越低,如场景1和2;人物关系变动越少,事件的相似度就越高,如场景6和7。再次,主要人物总是出现在更多的关系网络中,如Cinderella和Prince,而次要人物则体现为较少的场景和关系数量,如Mother。因此,关系网络结构的差异主要体现为不同次要人物与固定的主要人物之间的关系变化,如场景3和4。最后,多数情况下,不同的事件具有不同的场景,所以人物关系的变动还反映了场景的更迭,如场景9和10。

运用本文的分析方法获知童话故事的情节,《灰姑娘》并非特例。同样的方法对其他九篇童话故事的分析实验,都得到了良好的结果,证明了基于人物关系演变的情节分析方法是可行的。但实验结果也表明,篇幅较短的故事,如《莴苣姑娘》《女水妖》,分析的结果不如篇幅较长的;人物较少的故事,如《小红帽》,分析的结果不如人物较多的;场景切分过细的标注文本,分析结果不如相对较粗的,如《魔鬼的三根金发》,标注者切分出了16个场景,多数场景中只有一两对人物关系,少数场景中的人物关系却很多,造成了信息分布的不均衡,对结果造成了较大影响,可见情节单元切分对情节分析方法的重要性。

使用童话故事作为实验数据,一是考虑到人工标注的繁重工作量,二是因为童话故事情节结构的简洁性。其他类别的叙事性文学作品的情节可以通过倒叙、插叙等方法的运用呈现出高度的复杂性,但仍然可以通过层次切分和叙事时间的调整进行组合拼接,因而其通常只对技术造成困难,并不妨碍方法的使用。

(二)情节自动方法的应用

本类实验的对象是长篇小说《简·爱》,文本来源于Project Gutenberg(网址:http://www.gutenberg.org/ebooks/1260)。我们使用Stanford CoreNLP[12]对原始文本进行词性赋码、命名实体识别和依存句法分析后,对部分命名实体的标注结果做了简单的修正,使人名和地名保持一致,最后仍采用Pajek软件分析数据。图7是《简·爱》的人物关系整体网。

图7 《简·爱》人物关系整体网

《简·爱》以第一人称视角叙述故事,共分38章,按文本既有的章节划分,我们得到38个“场景”。由于这种情况下的“场景”是通常理解的多个场景的复合体,可称其为“复合场景”。图8和图9是第1和38章复合场景的人物关系图。

图8 《简·爱》复合场景1的人物关系图

图9 《简·爱》复合场景38的人物关系图

通过考察人物关系整体网和各个复合场景网络中顶点的度与点度中心性,可以大致探求出《简·爱》的主要人物,如简·爱、罗切斯特、贝茜、里德太太、李维斯等,其中,中心人物是女主人公简·爱。以简·爱为中心顶点(图中标签为“I”的顶点)辐射出来的连线,其数量多少表示某一复合场景内部情节的复杂度,其大小体现人物间互动的强度,其长短在本文中可以理解为人物间的亲疏程度。这些数据为人物关系分析提供了基础信息。

复合场景中由于人物关系的复杂性,对主要场景和重要事件的识别和归并造成了困难。我们对问题进行了简化,通过仅分析与中心人物存在连线的办法来确定主要场景,通过归并仅与中心人物存在连线的人物之间发生的频次较高的事件的办法来确定重要事件,每个环节都辅以少量的人工查验和修正。将所有复合场景按形如图10的样式进行整合,再配上场景名称和主要事件,小说的情节脉络便不难掌握。

图10 《简·爱》复合场景5的人物关系图

实验过程中也发现了一些问题。我们结合图8、9、10作简要说明。

第一,同前所述,人物关系的变化意味着场景或事件的更迭,在《简·爱》中,相同的场景下人物关系网络也发生了变化,但事件却不尽相同。如第1至4章的主要场景都是盖茨海德庄园,但在此发生的多个事件推动了情节的发展。第二,Stanford CoreNLP对人名共指消解的处理仍不能令人满意。如图8中的Georgiana Reed、图10中的Maria Temple以及图9中的Jane都未能归并为一个顶点。第三,复合场景中对主要场景和重要事件的识别和归并是情节自动分析的一个难点。我们的简单处理方法导致将复合场景1的主要场景名称分析为“客厅”,回查文本后发现如果不结合全文几乎无法将其正确归纳为盖茨海德庄园。第四,按文本自然章节进行情节单元切片的做法非常粗糙,使得重要场景的变更无法被识别,会导致严重的分析错误。图10中实际包含了从盖茨海德庄园到孤儿院两个场景的转换,但当主要场景被分析为孤儿院后,会错误地得出贝茜跟随简·爱一同来到孤儿院。对上述问题的改善是我们下一步研究的重点。

五、结 语

数字人文的兴起和大数据时代的到来对文学内容的理解提出了新的需求。为使机器阅读小说成为可能,本文对叙事性文学作品的情节结构进行分析后认为:(1)对故事的分析近似等同于对情节的分析,其中情节分析包含对事件、人物和场景的分析;(2)情节单元在时间的线条上展开,占据一定的空间,容纳事件、人物和场景,是组成情节的最小单位;(3)一般而言,人物关系的演变或体现了事件的发展,或反映了场景的变更。在此基础上,本文探讨了基于人物关系演变的叙事性文学作品的情节自动分析方法,通过场景和事件对情节单元进行切片,继而运用自然语言处理和社会网络分析技术,在历时的层面上推理叙事过程的开端、发展演变和结局。本文最后设计了两类实验对上述方法进行验证,结果表明,基于人物关系演变的叙事性文学作品的情节自动分析方法具有较高的可行性和一定程度的有效性。

本文提出的方法以自然语言处理技术为基础,但囿于该领域当前技术水平的局限,在某些环节上仍需辅以人工干预,部分结果尚不能令人满意。此外,该方法在细节问题的处理上仍存在一些不足,有些问题如事件抽取、归并和重要度计算等限于时间精力未能涉及,因而需要在分析的广度和深度上进一步加强探索,这些都为未来的工作指明了方向。

猜你喜欢
叙事性分析
叙事性景观中植物的特点及配置形式研究
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
电力系统及其自动化发展趋势分析
坚守四大立场,突破叙事类文本的解读瓶颈
中西医结合治疗抑郁症100例分析
图像志的延伸:互文语境中的叙事性
在线教育与MOOC的比较分析