面向跨语言典籍文本的语体风格计算研究
——以《左传》《战国策》为例

2023-11-27 11:59宋旭雯
文化创新比较研究 2023年26期
关键词:战国策白话文左传

宋旭雯

(常州大学图书馆,江苏常州 213164)

春秋战国是中国历史上的一大段分裂时期。这一时期思想自由,文化繁荣,形成了“百家争鸣”的学术盛况。《左传》和《战国策》分别记录了春秋和战国的历史,是研究这两个时期的重要典籍。这两部典籍不仅具有史学价值,还具有较高的文学价值。

前人就《左传》和《战国策》进行的研究包括家庭叙事[1]、人物形象[2-3]、策士辞令[4]、称谓演变[5]、文化价值观[6]等方面,多是从特定角度出发以定性分析为主的对比研究,也有一些对语言本身作定性分析的研究。本文尝试采用定性和定量相结合的计量风格学方法,在构建跨语言典籍平行语料库的基础上,首先利用规范语料训练出最佳分词、词性标注模型处理典籍语料;其次,从词汇、语法、语句三个层面入手,选择对应的语言特征进行统计,利用相关公式计算语体风格度量指标,根据计算结果来确定文本属性;最后,结合典籍原文,通过归纳、对比分析得到语体风格的规律及规律背后的成因,从而比较客观地对比《左传》和《战国策》在古文、白话文、英文三种语言上的语体风格。

1 研究方法

本文采用语料库和计量风格学的方法对《左传》《战国策》的语体风格展开研究。

语料库的方法是一种经验主义方法,以真实的语言来呈现语言知识,是研究自然语言的有效工具和手段。语料库常应用于语言教学、建立领域词表和词典、信息检索和信息抽取、语言对比和翻译研究中[7]。其中,跨语言的相关研究通常依赖互译语句对齐的平行语料库。张继东、朱亚菲基于胡塞尼小说英汉平行语料库,比较了大陆译者李继宏和台湾译者李静宜的翻译风格差异[8]。于红基于平行语料库,比较了《世说新语》原文和英译本,并探究了英译本的人名翻译方法和策略[9]。

计量风格学的方法是借助计算机技术处理文本,获得与语言特征相关的比较精确的统计数据,从而客观地反映文本风格。肖天久,刘颖从词和N 元文法等角度考察金庸和古龙作品的语言风格差异[10]。金想琴采用AntConc 软件分别从词、句方面统计分析了《往事如烟》和《活着》,总结出余华前后期代表作在语言风格上的变化[11]。马创新等通过比较某个词型在特定文献与其他多个文献中的等级差异,计算出该词型在特定文献中的特征系数,确定代表文献语体风格的高频特征词,衡量先秦诸家学派间的语体风格相似度[12]。

本文结合上述两种方法,对《左传》《战国策》在三种语言上的语体风格展开研究。

2 模型训练及语料处理

本文《左传》和《战国策》的古文、英文语料均来自 “中国哲学书电子化计划”线上开放电子图书馆,白话文语料则来自古诗文网。获取语料后,按照“。”“!”“?”与“;”划分句子,同时保证句子对齐,构建《左传》《战国策》跨语言平行语料库(如表1 所示)。

表1 跨语言平行语料库样例

再分别训练出最佳模型对平行语料进行分词和词性标注。首先,将已有的规范语料加入机器学习或深度学习的模型中进行十折交叉训练,以调和平均值(f 值)为评价标准,得到最佳自动分词和词性标注模型。其次,利用最佳模型对《左传》和《战国策》的平行语料进行分词和词性标注。最后,人工修正机器标注的错漏之处,并将语料调整为后续实验所需格式。古文采用较为规范的24 份先秦典籍语料和《史记》语料作为训练语料,训练出f 值达到84.33%的分词、词性标注一体化模型;白话文采用清华汉语树库中的词语及词性作为训练语料,训练出f 值达到91.99% 的BiLSTM-CRF 分词模型和f 值达到89.41%的BiLSTM 词性标注模型;英文无需分词,采用宾州英文树库中的词语及词性作为训练语料,训练出f 值达到95.22%的BiLSTM 词性标注模型。

《左传》《战国策》语料处理结果如表2 所示。本文使用的古文、白话文、英文的词性标签,分别如表3、4、5 所示。

表2 分词、词性标注样例

表3 古文词性标签

表4 白话文词性标签

表5 英文词性标签

3 词汇层语体风格比较

单现词是指文本中词频为1 的词语,而低频词往往能展现作者在用词上的匠心独运和文本的特别之处。型例比是指不同的词语占文本词语总量的比值,可以反映文本的词汇多样性,型例比比值越高,词汇面越广。因此,本节从单现词占比和型例比两个指标比较《左传》和《战国策》的词汇丰富度。

3.1 词汇独特性

词汇独特性是指单现词占文本词型数的比例,计算公式如下:

但是,词汇独特性受文本长度的影响比较大,本文采用取对数的平滑方法减少文本长度带来的误差,使得最终结果贴近实际情况,具体如下:

《左传》《战国策》词汇独特性计算结果如表6 所示。从纵向来看,古文的词汇独特性最高,都在90.00%以上,白话文次之,英文最低,说明古文词汇比白话文词汇更丰富,中文词汇比英文词汇更丰富。出现上述现象的原因是,将古文翻译成白话文和英文时,词语间并非一一对应,而是 “一对多”或 “多对一”的模式。通过统计,《左传》和《战国策》的单现词都以名词为主,《左传》的名词单现词占单现词总数的55.9%,《战国策》的名词单现词占单现词总数的47.4%,其中,人名的多样性尤其明显。例如,《左传》《郑伯克段于鄢》中“共叔段”“大叔段”“郑共叔”都是指郑庄公的弟弟共叔段,译成英文是“Gong Shu Duan”;《战国策》《楚怀王拘张仪》中“张仪”“张子”“仪”都是指秦相张仪,译成英文是“Zhang Yi”。

表6 《左传》《战国策》词汇独特性计算结果

从横向来看,《战国策》在三种语言上的词汇独特性都优于《左传》,说明《战国策》的词汇丰富度更高。除上述名词单现词的差别外,这两部典籍在动词单现词上也有显著差异。《左传》动词单现词占比为9.80%,而在《战国策》中,这一比值达到了34.60%。这表明《战国策》在动词的使用上极为考究。《魏策三——魏将与秦攻韩》,文末“韩必德魏、爱魏、重魏、畏魏,韩必不敢反魏。”一句中,出现了5 个动词“德”“爱”“重”“畏”“不敢反”,逻辑上层层递进,不仅生动形象,还具有强烈的说服力。再如,同样表达 “索要”“获取”的含义,《战国策》中就出现了以下9 个动词:求、索、取、乞、征、责、收、予、谒。“乞”在表达索要的意思时有低声下气的谦卑态度,和 “乞”使用情况类似的还有“谒”。“征”在表达获得的意思时有恃强凌弱或强制的态度,和 “征”使用情况类似的还有 “责”“予”和“取”。而使用“收”来表示获得时的态度和以上两类又不尽相同,有高傲自满或理所当然的态度。综上,从动词单现词可以感受到《战国策》用词的丰富独特、生动准确和语言的理性美。

3.2 词汇多样性

型例比是衡量作者所使用词汇的范围和多样性的指标,或者在给定的语料库中,它是一篇文章或一组文本中不同单词与总单词数的比率。20 世纪40年代,Johnson 最先提出型例比(TTR)的计算公式,具体如下:

和词汇独特性类似,型例比也容易受到文本长度的影响。有研究表明文本型例比的曲线走向与对数曲线类似,因此可以在原始公式的基础上加入对数计算,使结果更加可靠,具体如下:

《左传》《战国策》型例比计算结果如表7 所示。从纵向来看,型例比的计算结果与上一节中词汇独特性的计算结果高度一致,古文的型例比值最高,白话文次之,英文最低,再次证明了古文词汇比白话文词汇更丰富,中文词汇比英文词汇更丰富。从横向来看,《战国策》在三种语言上的型例比都高于《左传》,说明《战国策》的词汇多样性更强,语言更丰富。

表7 《左传》《战国策》型例比计算结果

4 语法层语体风格比较

词性主要是以语法特征为标准对词语的分类,是词语在语法结构中表现出来的类别属性。不同词性的词语在构成、语义、功能和用法等方面都存在显著差异。因此,统计文本每一类词性的占比情况也能在一定程度上反映文本的语体风格。

4.1 词汇密度

实词是指有实际意义的词,词汇密度是指文本中的实词数量与所有词汇数量之间的比值,能够反映文本的信息含量。词汇密度越高,文本的信息量越大。词汇密度的具体计算公式如下:

由于词汇密度对文本长度依赖性不大,因此该公式的计算结果是比较可靠的。但是,要计算词汇密度必定要统计实词数量,也就需要区分实词与虚词。关于如何划分实词与虚词,许多学者提出了不同的观点,本文结合《左传》《战国策》词性标注的实际情况,采用胡裕树[13]与黄伯荣、廖序东[14]的观点,将名词、动词、形容词、数词、量词、代词、副词归为实词大类,其余词性都归为虚词大类。

《左传》和《战国策》三种语言的词汇密度计算结果如表8。

根据表中数据,从纵向来看,《左传》《战国策》古文和白话文的词汇密度都在85.00%左右,英文的词汇密度均超过70.00%,说明表达同样含义的内容时,古文和白话文词汇密度相差不大,而英文则倾向于使用更多的虚词。

从横向来看,《左传》《战国策》在对应语言上的词汇密度相当,即两部典籍所包含的信息量都比较庞大,这也是符合实际情况的。《左传》擅于记事,尤其是记录各国之间的战争。《左传》记录的战争多达数百次,其中的著名战役包括齐鲁长勺之战、晋楚城濮之战、秦晋殽之战、晋楚邲之战、齐晋鞌之战、晋楚鄢陵之战等。有的侧重战前策略布局,有的放大战争细节,有的通过战争塑造人物,还有的全面展现战争过程。《战国策》善于记言,尤其是记录纵横家们劝谏、游说、外交的言行,其中著名的事件包括《邹忌讽齐王纳谏》《淳于髡谓齐王》《触龙说赵太后》《唐雎不辱使命》《张仪为秦连横说赵王》《苏秦以连横说秦》《苏代为燕说齐》等。这些篇章记载了策士们用比喻、类比、寓言等方法巧妙地说服统治者听从自己的建议,或化解危机,或完成使命。由此可见,这两部典籍言之有物,内容翔实。

4.2 文本活动度

一般而言,动词反映文本的活跃度,形容词反映文本的描写度。文本活动度就是通过动词和形容词两个变量构建关系来反映文本在描写和叙述之间的侧重点。在一段文本中,动词的词例数与动词和形容词的词例总数作商即为该文本的活动度,公式如下:

文本的活动度的值(Q)在0-1 之间,若将0.5 看作描写度与活动度的均衡值,那么当Q 大于0.5 时,文本活动度高,叙述性强;反之,文本活动度低,描写性强。

《左传》和《战国策》三种语言的文本活动度计算结果如表9。

表9 《左传》《战国策》三种语言的文本活动度计算结果

从以上结果可以看到,纵向上,《左传》和《战国策》的文本活动度在三种语言上都远大于0.5,说明这两部典籍动词使用量远胜于形容词,均属活跃文本,非常注重对动作和事件本身的记录,而避免使用丰富的形容词修饰语。进一步观察发现,虽然文本内容含义相同,但无论是白话文译本还是英文译本在活动度上的值都比原文低,尤其是英译本,降低了0.2 左右。这说明译者转述原作的同时,为了吸引现代读者阅读,符合现代语言的使用习惯,可能发挥了主观能动性,适当增强了描写性。

横向上,这两部典籍在文本活动度上较高且差异微乎其微,都具有叙事特征。例如,《左传·成公十六年》中详细记载了晋楚鄢陵之战,晋楚双方的作战过程形成鲜明对比。楚方“察夷伤,补卒乘,缮甲兵,展车马,鸡鸣而食,唯命是听”。晋方同样“蒐乘补卒,秣马历兵,修陈固列,蓐食申祷”,接连的动词短语足以看出此次战争的激烈。又如,《战国策·赵二·张仪为秦连横说赵王》中记载了张仪游说赵王归附秦国的过程。张仪首先恭维赵国,而后又展现秦国国力“弊邑恐惧慑伏,缮甲厉兵,饰车骑,习驰射,力田积粟,守四封之内”,一系列的动词短语彰显出秦国强大的经济实力和军事实力。继而又威胁赵王“今宣君有微甲钝兵,军于渑池,愿渡河逾漳,据番吾,迎战邯郸之下”。从“军”“渡”到“据”“迎战”,言辞间锋芒毕露、暴力施压。赵王不得不屈服退让,归顺秦国。张仪与赵王对话中动词的使用简短而精妙,形成鲜明对比,具有画面感。由此可见,这两部典籍在动词的使用上以小见大,叙事精妙绝伦,让人有身临其境之感。

5 语句层语体风格比较

5.1 句子离散度

在文学作品中,韵律节奏也是构成作品语体风格的重要因素。句子离散度就是指文本中句子的长度与平均句长相比的偏离程度,是衡量文本节奏变化程度的指标,计算公式如下:

其中,Ds表示句子离散度,Ls表示平均句长,Li表示每个句子的长度,n 表示文本中句子总数。句子离散度越小,每个句子长度越接近平均句长,文本越容易产生节奏感;反之,句长波动大,长短交错,节奏富于变化。《左传》和《战国策》句子离散度计算结果如表10。

表10 《左传》《战国策》句子离散度计算结果

由上表数据可以看出,纵向上,古文和英文离散度低,白话文离散度高。

横向上,《左传》句子离散度相对《战国策》较高,这表明《左传》在行文时使用的句子长短错落有致,波澜起伏,含蓄内敛;《战国策》在行文时使用的句子长度均衡工整,音律和谐,铿锵有力。

同样是说服统治者,《左传·僖公二十六年》展喜与齐孝公对话的措辞中,展喜首先夸赞齐国先王在争取构建各国良好关系上的丰功伟绩:“恃先王之命。昔周公、大公股肱周室,夹辅成王。成王劳之而赐之盟曰:‘世世子孙,无相害也。’载在盟府,大师职之。桓公是以纠合诸侯而谋其不协,弥缝其阙而匡救其灾,昭旧职也。”而后又用肯定的语气猜测齐孝公会遵循先王之命避免战争:“及君即位,诸侯之望曰:‘其率桓之功。’我敝邑用不敢保聚,曰:‘岂其嗣世九年而弃命废职,其若先君何?’君必不然。恃此以不恐。”明明本意是说齐孝公违背传统,抛弃仁义道德,但是没有直接抨击,激怒对方,整段话娓娓道来,不卑不亢,既为对方保全颜面,也展现了本国的风度和礼节。这与展喜这段话较高的句子离散度也密不可分,句子离散度高,有长句也有短句,轻重缓急分明,温文尔雅,有引人深思的弦外之音。

《战国策·苏秦以连横说秦》中,苏秦为了说服秦王采用连横的方法吞并各国,成就统一大业时首先说了一段话阐明秦国的优势:“大王之国,西有巴蜀、汉中之利,北有胡貉、代马之用,南有巫山、黔中之限,东有肴、函之固。田肥美,民殷富,战车万乘,奋击百万,沃野千里,蓄积饶多,地势形便。”当秦王表示不愿发动战争时,苏秦又举例:“尧伐驩兜,舜伐三苗,禹伐共工,汤伐有夏,文王伐崇,武王伐纣,齐桓任战而伯天下。”接着阐明只靠文治并不能解决根本问题:“古者使车毂击驰,言语相结,天下为一;约从连横,兵革不藏;文士并饬,诸侯乱惑;万端俱起,不可胜理;科条既备,民多伪态;书策稠浊,百姓不足;上下相愁,民无所聊;明言章理,兵甲愈起;辩言伟服,战攻不息;繁称文辞,天下不治;舌弊耳聋,不见成功;行义约信,天下不亲。”最后,又进一步阐述战争的必要性:“宽则两军相攻,迫则杖戟相撞,然后可建大功。是故兵胜于外,义强于内;威立于上,民服于下。今欲并天下,凌万乘,诎敌国,制海内,子元元,臣诸侯,非兵不可。”苏秦这段说辞多用排比,句子离散度低,句与句之间格律相似,节奏感强,声势浩大,挥洒自如,纵横驰骋,直言不讳,自成一种磅礴之气。

5.2 句子破碎度

句子破碎度是指一个句子中的停顿次数,可以反映句子的整散程度和流畅程度。句子破碎度越低,句子越完整流畅,反之则越松散。句子破碎度的具体计算公式如下:

一个句子中的所有停顿次数取决于该句的停顿次数,即标点符号的个数。本文句子停顿次数为逗号、顿号、分号、句号、感叹号和问号的总数。本文对以上6 种标点在《左传》和《战国策》的三种语言中出现的频次进行了统计,并计算相应的句子破碎度。《左传》《战国策》在三种语言上的句子破碎度如表11 所示。

表11 《左传》《战国策》句子破碎度

纵向上,两部典籍在中文上的句子破碎度都接近3,英文译本的句子破碎度则在1.8 左右,这说明表达同一个意思时,中文文本倾向于用标点符号分隔长句,且古白文本破碎度相似,而英文更可能采用连词或从句的方式一气呵成。例如,《左传·隐公元年》中原文 “庄公寤生,惊姜氏,故名曰寤生,遂恶之。”译成白话文是“庄公降生时是脚先出头后出的,这是难产,使姜氏很惊讶,因此给他取名叫寤生,并且很讨厌他。”译成英文是 “Duke Zhuang was born difficultly and his mother was frightened, so she called him Wusheng.”《战国策·卷一·东周》中原文 “楚之君臣,欲得九鼎,谋之于叶庭之中,其日久矣。”译成白话文是“楚国君臣为了得到九鼎,很早就在叶庭进行谋划。”译成英文是“Both the sovereign and court officials of Chu want to own the Nine Cauldrons.They have planned to gain them for a long time in Yeting.”中文的句子破碎度明显高于英文。而在横向上对应版本的句子破碎度却很接近。

6 结论

本文构建了《左传》和《战国策》跨语言平行语料库,利用规范语料、清华汉语树库、宾州英文树库,采用机器学习和深度学习的方法训练分词和词性标注模型,选择最佳模型对语料进行处理,通过统计和计算对比《左传》和《战国策》的语体风格,结论如下:

(1)词汇丰富度上,《战国策》在3 种语言上的词汇独特性和多样性都优于《左传》,说明《左传》朴素文雅,《战国策》辞藻华丽。另外,通过对比原本和译本发现,古文词汇比白话文词汇更丰富,中文词汇比英文词汇更丰富。

(2)词汇密度上,《左传》《战国策》在对应语言上的词汇密度相当,说明这两部包含的信息量都比较庞大,《左传》擅于记录战争,《战国策》擅于记录策士辞令,符合历史散文以叙事为主的风格特征。同时还观察到,表达同样含义的内容时,古文和白话文词汇密度相差不大,而英文则倾向于使用更多的虚词。

(3)文本活动度上,《左传》和《战国策》动词使用量远胜于形容词,均属活跃文本,无论是以记事为主的《左传》还是以记言为主的《战国策》都非常注重对动作和事件本身的记录。但在翻译时,译者转述原作的同时,适当增强了描写性。

(4)句子离散度上,《左传》离散度高于《战国策》。《左传》在行文时使用的句子长短错落有致,波澜起伏,含蓄内敛;《战国策》在行文时使用的句子长度均衡工整,音律和谐,铿锵有力,说明《左传》委婉含蓄,《战国策》气势磅礴。此外还可以看到,古文和英文离散度低,白话文离散度相对较高。

(5)句子破碎度上,《左传》和《战国策》在句子破碎度上差别不大,都具有较为松散的语言风格。同时还发现,中文文本倾向于用标点符号分隔长句,而英文更可能采用连词或从句的方式一气呵成,中文文本比英文文本更松散。

本文的研究过程中也存在一些不足之处有待改进。

(1)在语料处理中,由于清华汉语树库和宾州英文树库与典籍语料在内容上的差异,训练出的模型对白话文和英文进行分词或词性标注时准确率不够高。尤其是特殊的人名、地名,虽然抽取了古文中的名词加入训练,在白话文上的识别效果得到提升,但仍未达到理想状态。英文语料中,按照空格分词的方法对人名、地名的切分产生了影响,切分过细导致后续无法统计。

(2)在特征选取中,本文所选特征主要集中在字符、词汇、句子和语法层面,未来可以加入更多的层面上的特征继续展开研究。

猜你喜欢
战国策白话文左传
南辕北辙
《左传》“摄官承乏”新解
《左传》疑难考辨一则
《左传》“讥失教也”句献疑
高枕无忧
在层层深入中培养思考批判能力——以《战国策·楚策一·狐假虎威》教学为例
从《战国策》看人际传播中的说服艺术
胡适妙解白话
胡适巧推白话文
胡适妙解白话