记叙文语篇修辞结构对焦点分布影响的研究

2015-04-25 09:57赵建军杨晓虹杨玉芳
中文信息学报 2015年1期
关键词:比率焦点层级

赵建军,杨晓虹,杨玉芳

(1. 辽宁师范大学 文学院,辽宁 大连 116021;2. 中国科学院心理研究所 脑与认知科学国家重点实验室,北京 100101)



记叙文语篇修辞结构对焦点分布影响的研究

赵建军1,2,杨晓虹2,杨玉芳2

(1. 辽宁师范大学 文学院,辽宁 大连 116021;2. 中国科学院心理研究所 脑与认知科学国家重点实验室,北京 100101)

该研究让20名被试对30篇汉语记叙文进行焦点标定,在焦点标定的基础上,结合文本标注和统计分析,对语篇修辞结构对焦点分布的影响进行了探讨。结果主要发现,记叙文语篇中有大约30%的小句没有获得焦点;核心性对焦点的分布有重要影响,大约80%的核心句中有焦点,而只有60%的辅助句中有焦点;最高层级的小句焦点数量相对较少;记叙文语篇主要由10种修辞关系构成,联合关系和阐述关系小句中焦点数量最多,归属关系小句中焦点数量最少。

记叙文;语篇修辞结构;焦点分布

1 引言

焦点是句子中语义上最重要的、说话者着重强调的成分。抓住了焦点,也就抓住了语言理解的核心。因此,焦点是音系学、句法学、语义学、话语分析等语言学各个学科共同感兴趣的问题,也是形式语言学、功能语言学等语言学各个学派共同感兴趣的问题[1]。在关于焦点的研究中,焦点如何分布是一个重要的理论问题,同时在信息抽取、言语工程等领域也具有重要的应用价值。焦点分布的影响因素有很多,本文主要探讨语篇结构对焦点分布的影响。

焦点位于句法、韵律、语义和语用相互作用的交界面上,不同的研究者从各自不同的研究立场出发,给焦点赋予了不同的含义。本研究为了探讨文本语篇的语篇结构对焦点分布的影响,对焦点概念作如下操作性界定: 焦点就是阅读者在语篇理解的基础上,认为语义上最重要的、作者着重强调的句子成分。

对语篇结构的描述,本文采用修辞结构理论(Rhetorical Structure Theory, RST)。RST是美国学者Mann and Thompson 于20 世纪80年代初创立的,从功能角度对语篇结构进行描述的理论[2]。

RST创立之后,在语言工程应用领域得到了广泛的应用。由Daniel Marcu博士主持的研究小组以RST为基础建立了语篇标注语料库,极大地丰富和发展了RST 理论[3]。Reitter利用RST开发出了文本分析剖析器,对篇章分析和文本处理起到很大的推动作用[4]。在理论研究方面,Hanny den Ouden, Leo Noordman, Jacques Terken 利用RST对新闻报道语篇的修辞结构和韵律结构的关系进行探讨,结果发现,小句的层级越高,小句前停顿的时间就越长,同时小句高音点也越高;重要小句的语速慢于不重要的小句;与其他关系的小句相比,因果关系的小句间的停顿时间较短,语速较快[5]。

近年来,国内一些研究者将RST理论用于汉语语篇结构分析也取得了一些成果。乐明对于汉语篇章修辞结构的标注规则进行了深入探索,制定出详细的标注工作手册,并对97篇财经评论文章的修辞结构进行了标注,验证了修辞结构理论在汉语篇章分析中的可移用性[6],孔庆蓓利用修辞结构理论对汉语叙述语篇和描写语篇进行对比研究,拟构出两类语篇的修辞结构模型[7],杨晓虹、杨玉芳对汉语语篇修辞结构边界的韵律表现进行分析,发现小句边界处无声段和高音点重置是语篇修辞层级结构的主要声学线索[8],胡苑艳、陈莉萍通过实例分析证明,汉语语篇也应由基本语篇单位构成,其抽象结构也应为树型图,对汉语语篇的修辞关系进行分析时可以套用修辞关系理论的关系集[9]。

一系列研究表明,RST能很好地刻画语篇中小句之间的语义关系。而焦点是小句中语义的核心,因此采用RST能很好的反映出语篇结构对焦点分布的影响。

RST主要从核心性、修辞关系和层级3个角度对语篇中小句之间的关系进行描述。核心性主要反映小句之间的相对重要性;修辞关系主要用来刻画小句之间的语义关系;层级性反映了建立在修辞关系基础之上的小句之间的层级关系。本文将从核心性、修辞关系和层级3个角度分别考察语篇结构对焦点分布的影响。

2 研究方法

本研究所使用的语料为30篇自然叙事语篇,每个语篇平均约50个小句,600个汉字。这些语篇包括文化教育、科普和历史3类题材,每类题材各10篇。首先对每个语篇进行自动切分和词性标注(利用北京大学计算语言学研究所开发的“汉语词语切分与词性标注软件”),本文作者对自动分词结果进行人工校对。在此基础上,进行焦点标定。参加焦点标定的是14名在校大学生和6名研究生,均具有较好的语文基础。文本语篇以打印材料呈现给被试。请被试认真阅读每个语篇至少两遍,确保对语篇准确理解。在理解的基础上,请被试逐句找出自己认为每个句子中在语义上最重要的、作者着重强调的词项,并在词的下方划一横线。告诉被试,每个句子中所划出的词项可以是一个,也可以是两个或更多个;如果认为整个句子的语义在语境中不重要,可以不作任何标记。对理解和标定的时间均没有限制。

语篇修辞结构由一名博士研究生利用RSTTool软件进行标注。对标注结果中有争议的地方由本文作者和该标注者讨论后确定最终结果。

最后利用SPSS15.0对数据进行统计分析,探讨语篇修辞结构对焦点分布的影响。

3 结果

3.1 语篇修辞结构标注结果

本文对修辞结构的标注,参照Mann and Thompson提出的修辞关系集,同时考虑到汉语的特点,提出了一个针对汉语的修辞关系集。该修辞关系集把修辞关系分为两大类别: 主次关系和并列关系,也即单核(Mononuclear)关系和多核(Multinuclear)关系。主次关系包括29种;并列关系包括10种。主次关系的两个小句,一个是核心句,一个是辅助句;并列关系的两个小句都是核心句。

本文对小句的修辞关系和层级作如下界定: 小句的修辞关系只考虑每个小句的最底层的修辞关系,不考虑更高层的修辞关系;把小句到语篇最高节点所经历的节点数作为小句的层级数。这样,每个小句就获得了唯一的修辞关系和层级。

30个语篇的核心性标注的结果为: 共有966个核心句,466个辅助句。核心句的数量是辅助句的两倍多。这主要是因为所有并列关系的小句都是核心句,而记叙文语篇中有大量序列关系或联合关系的并列小句。

30个语篇的层级标注的结果如表1所示。

表1 各RST层级的小句数

由于高层级和低层级的小句数量较少,不便于统计。因此,把1、2、3层级合并为一级,称为1级,即最高层级,共213个小句;原始层级中的4、5、6、7级各减去2,变成合并后的第2、3、4、5级;把8、9、10、11、12合并为一级,称为6级,即最低层级,共282个小句。层级的高低反映了小句在语篇结构中的内嵌深度,层级数越大,内嵌越深,层级越低。

30个语篇的修辞关系标注的结果如表2所示。

表2 各种修辞关系的小句数

从表2可以看出,30篇记叙文的1 432个小句主要包括10种修辞关系,其中8种是主次关系,两种是并列关系。这10种修辞关系的小句占所有小句数量的85.3%。这10种修辞关系的小句数量,从高到底的排序依次为: 联合关系>因果关系>阐述关系(序列关系)>转折关系>背景关系>环境关系>条件关系>目的关系>归属关系。这个结果跟孔庆蓓对汉语叙述语篇的研究结果基本一致。该研究发现,汉语叙述语篇中,出现概率较高的修辞关系为: 序列关系、环境关系、并列关系(即本研究中的联合关系)、阐述关系、原因关系、结果关系[7]。说明汉语中同一种文体的语篇的修辞关系具有较高的一致性,文体对修辞关系具有较强的约束和选择功能。

本文考察修辞关系对焦点分布的影响时,主要分析这10种修辞关系对焦点分布的影响。

3.2 焦点个数的确定

对每个被标定为焦点的词进行统计,20个被试的标定一致性高于70%(至少14个被试都标为焦点)的词最终被确定为焦点词。通过焦点标注实验,确定出了30个语篇中共2 027个焦点词。但一个焦点词不等于就是一个焦点。焦点有宽焦点和窄焦点之分。宽焦点包括谓语焦点和句子焦点,这两类焦点通常是由一个短语或者一个句子构成。因此,焦点的个数一定会少于焦点词的数量。要考察语篇修辞结构对焦点数量分布的影响,首先要确定出各个焦点。

本文把小句中连续的句子成分充当的焦点确定为一个焦点;把小句中不连续的句子成分充当的焦点确定为两个焦点。例如,“秦王令赵王弹瑟”(着重号表示被标注为焦点)。这个小句被看作是一个焦点,即句子焦点。“北京人孝心最强;上海人孝心最弱”。这两个小句被确定为各包括两个窄焦点。

30个语篇的2 027个焦点词最终被确定为1 034个焦点。平均每个小句有0.72个焦点。说明语篇中有大量的小句没有获得焦点。这一点跟孤立句有很大的差别。通常情况下,一个孤立小句有一个焦点,是该句的语义重心所在,是说话者向听话者传递的新信息。但当小句进入语篇之后,由于受到语篇结构的影响,在语篇中的功能和地位有很大差异。有些小句在语篇中承担着语义和结构上的重要功能,对语篇的连贯和理解起着重要作用;而另外一些小句在语篇中只是用来提供背景性信息或者补充说明性的信息,对语篇连贯和语篇理解的贡献相对较小,在语篇中只起辅助功能。这些起辅助功能的小句很可能会由于语境的影响而失去焦点,成为语篇中的无焦点句。

3.3 层级和核心性对焦点分布的影响

焦点在层级及核心句、辅助句中的分布结果如表3所示。

表3 焦点在层级及核心句、辅助句中的分布

从表3可以看出,焦点在核心句中的数量远多于辅助句中的数量。但在层级之间的分布没有太大差异。但仅仅从焦点数量来比较,不能准确的看出层级和核心性对焦点数量分布的影响,因为各个层级中小句的数量分布是不均衡的。因此,要考察层级和核心性对焦点数量分布的影响,需要求出各个层级中焦点在小句中分布的平均数。

本文采用焦点比率来描述各个小句中焦点的平均数。焦点比率=焦点数 /小句数。各层级及核心句、辅助句中的焦点比率如表4所示。

表4 各层级及核心句、辅助句中的焦点比率

首先,对核心性对焦点比率的影响进行分析。从表4中可以看出,核心句中平均每个小句有0.78个焦点,辅助句中平均每个小句只有0.60个焦点。通过双比率检验发现,核心句的焦点比率要显著高于辅助句(p<0.01)。这说明,核心性对焦点数量的分布有显著的影响。大量的辅助句由于在语篇中的重要性较低而失去焦点。

从表4中也可以看出,有大约20%的核心句没有焦点。核心句没有焦点主要有两个方面的原因。第一个原因跟本文对小句的界定有关。本文把插入语、引语成分、附加成分均视为独立的小句。一些引语成分往往会成为归属关系或阐述关系的核心句,这种小句基本上没有焦点。例如,“武帝对一位刘姓的大臣说,夫人肯定非常伤心。”。这两个小句的修辞关系是归属关系。“武帝对一位刘姓的大臣说”是归属关系中的核心句,该小句没有焦点。这是无焦点核心句的一个重要来源。第2个原因是,核心句充当更高层次结构的辅助成分。这也会造成这种核心句没有焦点, 这种情况如图1所示, 这3个小句都是核心句,第一个小句整个句子都是焦点,后面两个小句都没有焦点。因为后面两个小句构成一个联合关系的结构段,这个结构段又是更高层目的关系结构段的辅助成分。由于这两个联合关系的小句在整体结构中的重要性相对较低,造成这两个小句没有焦点。这是无焦点核心句的另一个重要来源。

图1 核心句无焦点的情况

然后,对层级对核心句的焦点比率的影响进行分析。通过双比率检验发现,层级1的焦点比率要显著低于层级2、3、4、5(p<0.05);层级4的焦点比率要显著高于层级1、3、5、6(p<0.05);其他各层级之间没有显著差异(p>0.05)。这说明,最高层级的核心句的焦点数量相对较少,中间层级的焦点数量相对较多。

最后,对层级对辅助句的焦点比率的影响进行分析。通过双比率检验发现,层级1的焦点比率要显著低于层级4(p<0.05),其他各层级之间没有显著差异(p>0.05)。这表明,最高层级的焦点数量要少于中间层级。

综合上述层级对核心句、辅助句中的焦点比率的影响可以看出,在最高层级中,无论是核心句还是辅助句,焦点数量都相对较少。在本研究的30篇记叙文中,最高层级的小句通常有以下几个方面的功能: ①提供叙事的背景信息。大部分语篇的起始段落,或某些段落的起始句,会介绍事件或人物的背景信息。这些提供背景信息的小句,虽然不是语篇的核心成分,不是整个事件的主线,但这些小句的层级一般都比较高;②引出后文。引语成分往往也在语篇中处于比较高层级的位置。例如,“据记载”、“事实表明”、“楚怀王说”等;③总结性描述。在一个事件结束后,在段末的位置,经常会有对整个事件的总结性描述。例如,“由此形成了七夕节”、“这就是赤条蜂”。这种总结性描述也处于比较高层级的位置。这3种功能的小句,在语篇中的层级都很高,但在语篇中的重要性都相对较低,句子中往往没有焦点。这是高层级中焦点数量相对较少的主要原因。

3.4 修辞关系对焦点分布的影响

各种修辞关系中焦点数量的分布如表5所示。从表5可以看出,10种主要修辞关系中焦点的数量占总焦点数量的85%。不同修辞关系的焦点数量的分布有很大差异。考虑到各种条件下句子数量不同, 下面仍然用焦点比率对各种修辞关系中焦点的分布进行分析。主要修辞关系的焦点比率如表6所示。

表5 各修辞关系中焦点数量的分布

表6 主要修辞关系中的焦点比率

从表6可以看出,并列关系的两种修辞关系中,联合关系的焦点比率要显著高于序列关系(p<0.01)。结合表4的结果可以看出,序列关系的焦点比率要显著低于核心句的焦点比率的平均值0.78(p<0.01)。记叙文中的序列关系的小句通常用来描述一系列连续的行为或事件。这些序列小句虽然在语篇的连贯性上很重要,是整个事件中不可或缺的情节之一。但这些小句描述的事件往往在整个事件中的重要性并不高,只是一些重要性事件之间的过渡性的事件,语篇中也没有对这些事件进行详细的描述。因此,序列关系的小句虽然在语篇连贯性上很重要,但在语义上并不是很重要,所以小句中的焦点数量要显著少于其他核心句。

接着,对主从关系中的八种修辞关系的焦点比率的差异进行分析。通过双比率检验发现,阐述关系的焦点比率显著高于其他各种修辞关系(P<0.05),归属关系的焦点比率显著低于其他各种修辞关系(P<0.001),其他6种修辞关系的焦点比率相互之间没有显著差异(P>0.05)。

综上所述,不同类型的修辞关系中,焦点分布的规律不一致。联合关系和阐述关系小句中焦点数量明显多于其他各种修辞关系小句。归属关系小句中焦点数量明显少于其他各种修辞关系小句。

4 结论

本研究让20名被试对30篇汉语记叙文进行焦点标定,在焦点标定的基础上,结合文本标注和统计分析,对语篇修辞结构对焦点分布的影响进行了探讨。结果主要发现,(1)记叙文语篇中有大约30%的小句没有获得焦点。这一点跟孤立句有很大的差别。通常情况下,一个孤立小句有一个焦点。但当小句进入语篇后,很多小句由于语境的影响而失去焦点,成为语篇中的无焦点句;(2)核心性对焦点的分布有重要影响。大约80%的核心句中有焦点,而只有60%的辅助句中有焦点;(3)在最高层级的小句中,无论是核心句还是辅助句,焦点数量都相对较少;(4)记叙文语篇主要由10种修辞关系构成。联合关系和阐述关系小句中焦点数量明显多于其它各种修辞关系小句。归属关系小句中焦点数量明显少于其它各种修辞关系小句。

本文只对记叙文语篇中修辞结构对焦点分布的影响进行了初步探讨,后续还将从以下方面进行深入的研究: (1)不同体裁的语篇的修辞结构有何异同?对焦点的分布有何影响?(2)除了语篇修辞结构之外,其它语篇结构对焦点分布的影响如何?例如,语篇的意图结构。对语篇焦点分布规律的探讨不仅有重要的理论价值,而且对提高自动文摘系统的精度(傅间莲)[10]和文本信息抽取的有效性都有一定的应用价值(袁毓林)[11]。

[1] 徐烈炯, 潘海华. 焦点结构和意义的研究[M]. 北京: 外语教学与研究出版社. 2005:34-47.

[2] Mann William C, Sandra A. Thompson. Rhetorical structure theory: toward a functional theory of text organization [J]. Text, 1988, 8(3):243-281.

[3] Marcu D. The Theory and Practice of Discourse Parsing and Summarization [M]. Cambridge, Massachusetts: MIT Press, 2000.

[4] Reitter D, Manfred S. Step by step: Under-specified markup in incremental rhetorical analysis[C]//Proceedings of EACL 4th International Workshop on Interpreted Corpora. Budapest, Hungary, 2003.

[5] Hanny den O, Leo N, Jacques T. Prosodic realizations of global and local structure and rhetorical relations in read aloud news reports [J]. Speech communication, 2009,51:116-129.

[6] 乐明. 汉语篇章修辞结构的标注研究[J]. 中文信息学报, 2008,22(4):19-23.

[7] 孔庆蓓. 从修辞结构理论看叙述语篇和描写语篇的区别[J]. 南开语言学刊, 2008,2:92-104.

[8] 杨晓虹,杨玉芳. 汉语语篇修辞结构边界韵律表现[J]. 清华大学学报(自然科学版), 2009,49(S1):1375-1379.

[9] 胡苑艳,陈莉萍. 修辞结构理论与汉语篇章结构[J]. 长春大学学报, 2011,21(1):39-43.

[10] 傅间莲,陈秀群. 基于规则和统计的中文自动文摘系统[J]. 中文信息学报, 2006,20(5): 10-16.

[11] 袁毓林. 信息抽取的语义知识资源研究[J]. 中文信息学报, 2002,16(5):8-14.

An Analysis of Discourse Rhetorical Structure Influence on Focus Distribution in the Narrative Discourse

ZHAO Jianjun1,2,YANG Xiaohong2, YANG Yufang2

(1. The School of Chinese Language and Literature, Liaoning Normal University, Dalian, Liaoning 116021, China;2. State Key Laboratory of Brain and Cognitive Science, The Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China)

Based on 30 narrative texts of mandarin Chinese with the sentence focus annotated by 20 subjects, a statistical analysis is conducted to examine the influence of discourse rhetorical structure on focus distribution. The result shows that about 30% of the sentences in the narrative discourse have no focus. It is further revealed that the nuclearity has remarkable influence on focus distribution: about 80% of the nucleus sentences had focus but only 60% of the satellite sentences had focus. The sentences of the highest hierarchy have less focus. The narrative discourses consist of ten main rhetorical relations, in which the conjunction relation and the elaboration relation have the most sentences with focus and the attribution relation has the least sentences with focus.

narrative discourse; discourse rhetorical structure; focus distribution

赵建军(1976—),博士,主要研究领域为韵律学,认知语言学。E⁃mail:zhaojianjun768@163.com杨晓虹(1984—),博士,助理研究员,主要研究领域为言语认知。E⁃mail:yangxh@psych.ac.cn杨玉芳(1950—),博士,研究员,主要研究领域为心理语言学。E⁃mail:yangyf@psych.ac.cn

1003-0077(2015)01-0038-06

2012-06-21 定稿日期: 2012-09-27

国家社会科学基金(14BYY147);教育部人文社会科学青年基金(11YJC740153);中国博士后科学基金(20110491445);江苏省博士后科研资助计划(1002068C)

TP391

A

猜你喜欢
比率焦点层级
科室层级护理质量控制网的实施与探讨
焦点
军工企业不同层级知识管理研究实践
基于军事力量层级划分的军力对比评估
职务职级并行后,科员可以努力到哪个层级
比率分析公司财务状况——以步步高及永辉超市为例
“两会”焦点
本期焦点
焦点
一种适用于微弱信号的新颖双峰值比率捕获策略