基于多译文的中文转述语料库建设及转述评价方案

2019-01-22 08:33施文娴李岩昊翁伊嘉胡俊峰

中文信息学报 2018年12期

阮翀，施文娴，李岩昊，翁伊嘉，胡俊峰

(1. 北京大学计算语言学教育部重点实验室，北京 100871；2. 北京大学信息科学技术学院，北京 100871)

0 引言

转述是指用不同的表达方式来传达相同或相似语义的语言现象。这一现象在人类语言中广泛存在，给信息检索、剽窃检测、机器翻译评价等自然语言处理问题均带来了额外的困难，而构建转述知识库可以在一定程度上缓解这一困境。

建设转述知识库需要以转述语料库为基础。目前学术界已有的转述语料多为英文，例如，Quora[注]② https://data.quora.com/First-Quora-Dataset-Release-Qu-estion-Pairs、MRPC[1]和 MSCoCo[2]等。其中 Quora 是从问答网站中收集的一些语义重复的问题对，MRPC 是从新闻语料里挖掘出的同义句对， MSCoCo 是不同人

对同一图片的文字描述。而中文世界里目前还难以获得类似的公开语料，因此本文以外国文学名著的多个不同中文译本为基础，尤其以《简爱》的四个译本为例，通过句对齐算法得到转述句对，构建了一个规模约为五万句的中文转述数据集，并在此基础上进行转述知识挖掘的相关研究。

转述现象可以在不同的层面上发生，小到词汇级别，大到篇章级别。词汇级别的转述现象最为基

础和常见，一般通过同义词或近义词的替换来完成。现阶段已有的中文转述知识库主要集中在词汇转述级别，本文也将重点关注从转述语料里自动提取词汇转述知识的方法。人工构建的汉语转述知识库里较为著名的是《知网》[3]和《同义词词林》[4]，尽管它们并非是为转述研究而建立的，但是其中包含的同义词汇关系使得它们成为了可用的中文转述知识库。本文将算法自动挖掘出的词汇转述知识和《同义词词林》里的转述知识进行了对比，从而验证了本文提出的词汇转述知识自动挖掘算法的有效性。

转述评价是转述研究的另一个重要组成部分，没有自动化的评价方案就难以评估转述挖掘算法的好坏，进而挖掘出更多，更准确的转述知识。本文首先构建了一个转述测评数据集，然后以机器翻译中的 Meteor 指标[5-8]为基础，将转述知识引入到测评过程中，从而得到了转述知识的自动评价方案。进一步地，本文根据中文的特点引入了字符重叠知识，提出了更好的中文转述评价指标。

本文的组织结构如下：第1节介绍转述知识提取和转述评价指标的相关工作；第2节介绍本文研究所使用的语料库和转述知识提取算法，并展示分析挖掘结果；第3节介绍转述测评数据集的构建及相应测试结果；第4节总结全文内容并提出未来可能的研究方向。

1 相关研究

1．1 转述知识挖掘

词汇转述知识挖掘有两大类方法，分别是从单语语料和双语平行语料中挖掘。单语语料挖掘算法总体不够成熟，常常需要依赖较为特殊的语言资源或其他复杂自然语言处理系统的辅助。例如，Wang 和 Hirst[9]观察到字典的词条定义往往具有固定的模式，如“甲是一种乙”可以得到“甲”和“乙”具有转述关系。通过人工定义的正则表达式模板，可以提取出高质量的转述词对。而 Turney[10]提出基于分布相似性的 PMI-IR 方法，通过使用搜索引擎检索两个候选词，统计这两个词的搜索结果的共现情况来挖掘转述词对。

基于双语平行语料的则以Bannard 和 Callison-Burch[11]提出的枢纽方法为代表。该方法首先收集当前语言e和某种枢纽语言f的大规模平行语料，然后训练这两种语言间的机器翻译模型，得到词汇翻译概率表，然后通过式(1)计算两个当前语言的单词e1和e2能够进行转述的概率，若概率超过一定阈值就认定转述关系成立。

(1)

与本研究最相似的是学者 Barzilay 和 McKeown[12]的工作，他们提出了一种自举方法，从外文小说的多个英译本中提取转述词对。该方法需要训练两个分类器，一个分类器用于判定上下文是否相似，另一个分类器则用于判定中心词是否相似(是否互为转述)。其依据便是经典的分布性假设：如果两个词相似，那么它们的上下文也相似。在算法刚启动时，首先认定相同单词出现的上下文环境是相似的，不同词出现的上下文环境则不相似，构造正负样本训练上下文分类器；然后以上下文分类器为基础，找到相似的中心词，训练优化中心词分类器。如此往复不断迭代，两个分类器都不断变优，就能挖掘到越来越多的转述词对。该算法使用词性特征来训练分类器，而小说语料中复杂多变的语言现象导致词性标注模块准确率不够高，进而产生错误累积现象。统计结果表明，算法的挖掘结果中仅有 35% 为同义词对，上下位词和兄弟词分别占 32% 和 18%，还有 11% 的词对不相关，说明该方案噪声较大。

1．2 转述评价指标

直接针对转述任务设计的评价指标很少，其中最有代表性的是 PEM[13]。该指标在计算时，首先需要收集当前语言和其他某种枢纽语言的大规模平行语料，然后训练两种语言间的统计机器翻译模型，得到词汇翻译概率表。对于一对当前语言的句子，可以将它们都翻译为枢纽语言的句子，通过计算翻译后句子的加权词袋相似度来给出这对句子转述程度的度量。该方法的缺点是需要收集大规模的平行语料，而且指标测评结果与训练数据有关，而不是一个清晰明了的公式。

由于转述和机器翻译具有天然的相似性，转述可以被视作单语机器翻译问题，也有很多学者直接借用机器翻译的评价指标来评测转述句子的质量，例如经典的 BLEU[14]等指标。考虑到本研究的需求，不光需要给出句对转述质量的评价，还希望能够和转述知识库相结合，反映转述知识库本身的质量优劣。因此，本研究主要以 Meteor指标[5-8]为基础进行改进，因为该指标在计算过程中可以引入外部转述知识。

Meteor 指标在计算时首先需要在两个句子之间寻找一个最优匹配。匹配的要求有四点，按照重要性依次递减： ①每个单词最多只有一个配对词;②有尽可能多的单词被匹配覆盖到;③最小化匹配中块的个数;④最小化各匹配对之间的起始位置距离差的绝对值之和。由于上述条件可能无法同时满足，实践中通过集束搜索算法来近似找到较优解。值得一提的是，Meteor 有四种匹配模式：精确匹配、词干匹配、同义词集匹配和转述短语匹配。其中同义词集匹配和转述短语匹配需要提供额外的语言资源，从而提供了比较不同来源的转述知识库的可能。

在得到匹配结果之后，根据式2)、式(3)计算加权后的准确率P和召回率R。

(2)

(3)

其中超参数wi是第i种类型的匹配的权重，mi· 表示该种匹配覆盖到的词数，h和r分别是指机器生成的假想译文和人工标注的参考译文，下标c和f分别是指实词和虚词(虚词定义为语料库中相对词频超过 10-3的词)，超参数δ用于平衡实词和虚词的相对重要性。

在此之后，可以计算准确率和召回率的加权调和平均值Fmean，并根据匹配中包含的块数 ch、匹配覆盖的总词数m得到一个句子流畅性罚分，两者相乘就是最终的 Meteor 评分(式(4)、式(5)中α,β,γ均为超参数)。

2 转述知识挖掘

本节将介绍本研究中的语料构建和处理流程：以《简爱》的四个中文译本为数据基础，首先构造句对齐语料；然后进行小句对齐和词对齐，进而得到词汇转述知识。最后展示并分析转述知识挖掘结果。

2．1 转述语料构建

本研究使用的原始生语料有些是文字版，但大多数是扫描版，然后通过 OCR 转换成文字。扫描版中时不时地会有一些文字识别错误，例如，“糟蹋”可能被识别成“糟踢”。本研究的处理流程中，首先过滤掉乱码，然后按照换行和段落信息将文本拼接和切分成句，最后使用结巴工具包[注]https://pypi.org/project/jieba/进行分词。分词后的一个典型例句如下：

“ 简，我可不喜欢吹毛求疵或者寻根究底的人；再说，小孩儿这样打断长辈的话，实在可怕。找个地方去坐下来。不会说讨人喜欢的话，就别多嘴。 ”

由于外文小说中常有从句嵌套的现象，导致中译本的句子长度也普遍偏长，有可能原文的一句话被拆成汉语的多个句子。因此本研究在句子划分上较为保守，划分出的句子有时是包含多个句子的一大段话，更接近于段落的概念。每个句子包含的平均词数超过 50，更详细的统计量如表1所示。

表1 《简爱》语料统计数据

随后本文通过微软发布的 Bilingual Sentence Aligner[注]https://www.microsoft.com/en-us/download/details.aspx?id=52608工具包[15]进行词对齐，其算法首先采用基于长度的方法[16]得到粗对齐结果,然后训练一个统计机器翻译模型 IBM 模型一[17]，根据这个翻译模型再筛选一遍语料，保留翻译模型认为对齐概率较大的句子。经过上述处理，《简爱》语料中共挖掘到共 24 858 个句对，更详细的统计结果如表2所示。

表2 《简爱》句对齐语料统计数据

上表中两个句子交换顺序只计一次，因此可以通过交换句对将数据增广一倍，达到近五万对平行转述句对。其中一个转述句对示例如下(斜线表示各个小句之间的分隔)：

句子1： “ 都九点了。/你是怎么搞的， /爱小姐，/让阿黛尔坐得这么久？/快带她去睡觉。 ”

句子2： “ 九点了，/爱小姐，/你让阿黛勒坐这么久，/究竟是干什么？/带她去睡觉。 ”

2．2 词汇转述知识挖掘算法

以上述单语平行语料为基础，本文通过先进行小句对齐后再进行词对齐的方式获取词汇转述知识，挖掘结果更加精确和全面。

本文延续Lacoste-Julien[18]等使用整数规划求解词对齐的思路，将对齐问题建模为如下优化问题：

需要满足的两个约束条件分别为：

其中，变量zjk表示源句子中的第j个词和目标句子中的第k个词是否匹配，sjk是匹配成功的奖励值；而变量zdj表示源语言中的第j个词的匹配数是否达到了d次，sdj是对应的惩罚值，sdk和zdk也与此类似；两个限制条件是希望每个词的总匹配次数(即zjk之和)要符合变量zdk和zdj的要求。参数sdk和sdj应该随着d的增大而增大，这样才能使得模型优先选择度数较低的匹配。

原版整数规划算法只针对词对齐建模，没有考虑小句对齐的情形；还有一个重大缺陷是超参数s的设置需要词对齐的强监督数据来训练。本文则通过近年来词向量等无监督学习技术的进展直接设置超参数权重，无需训练，从而解决了词对齐标注数据缺乏的问题。具体而言，本文采用带有负采样的 Word2Vec 算法[19-20]训练词向量，然后根据式(6)设置单词x和y间的相似度。

(6)

其中，cossim 是两个词向量的余弦相似度，x,y,x∩y分别是单词x、单词y、单词x和y重合部分的字符数。这种基于字符重合的修正方案可以有效增强算法的健壮性，削弱分词错误和 OCR 识别错误带来的影响。

而小句之间的相似度sjk的设置方案为：枚举两个小句中的所有词对(忽略标点符号)，按照上述公式计算单词相似度。如果两个小句长度都超过 5，则取其相似度排前n=5 的词对的平均相似度为两个小句的相似度。特别地，若小句相似度超过某个阈值(本研究中取 0.95)，则将小句相似度sjk改成一个较大的数值(如 2.5)，以保证整数规划算法永远选择对齐这两个小句；否则，若较短的小句长度n<5，则取排名前n的相似词对的平均相似度，并按照如下方式加权得到最终的句子相似度，如式(7)所示。

(7)

其中，avg_index 是该小句中单词在语料里的平均词频排名,σ· 是 sigmoid函数。这两个加权项可以使得短句和常用词的权重被弱化，尤其是长度小于两个词和平均词频高于前100 的小句会有较为显著的降权，使得算法优先考虑长句和信息量较高的小句的匹配结果。小句相似性取前几而非取平均的动机则是：两个小句里相似度最高的词对往往是真正对齐的词对，而且截断到前 5 可以更好地处理小句部分匹配和多匹配的情形。

最后，多匹配惩罚项sdj,sdk的设置较为简单，只需根据词向量平均相似度和多匹配在语料中出现的频次设定一个经验值即可。本文在实验中最多允许一个小句被匹配D=3 次，并把匹配 1 次到 3 次的惩罚值分别设定成 0.4，0.65 和 0.75。这里对单次匹配也进行惩罚的原因是,有时平行句对中的某个句子会比另一个句子多一部分内容，此时应该让这部分内容留空不做匹配，而不是强行匹配到某个不太合适的小句上。

上述设置已经足够处理大部分情况，但有时会因为整数规划的多解性出现错误。例如，假设两个句子分别是“是这样！是这样”和“是的！是的！”，那么合理的匹配方式是 0-0、1-1(i-j表示第一个句子的第i个小句对应第二个句子的第j个小句，下同)，但是由于匹配 0-1、1-0 也具有同样的目标函数值，模型有可能求得这个解作为最终结果。因此，本文提出以下两趟匹配算法：

① 第一趟先按照上述算法进行匹配，得到粗匹配结果；

② 修正整数规划中的权重sjk。具体而言，本研究共考虑两种修正方案。其一是对角线修正：从粗匹配结果中找到句子 1 被匹配的第一个小句和最后一个小句的位置，分别记为i1和j1；以及句子 2 被匹配的第一个小句和最后一个小句的位置，分别记为i2和j2。然后对于任意一对小句 (i,j)，根据这个点到 (i1,i2) 和 (j1,j2) 的连线的距离 dist 给一个额外的奖励，奖励分值随距离指数衰减： bonus=0.05*exp (-dist)。另一种权值修正方案为邻域强匹配修正：如果某个位置的上下左右相邻位置有一个较为确定的匹配(小句相似度高于 0.97)，就给当前位置的小句相似度加 0.1。

③ 根据修正后的小句相似度参数重新求解整数规划问题。

这种两趟匹配算法十分有效，整体匹配准确率可以达到 95%，如2.1 节末尾举的复杂例子也能匹配正确，匹配结果为 0-0, 1-3, 2-1, 3-2, 4-4。

在小句对齐结果的基础上，本文进一步筛选词向量余弦相似度超过 0.75 并且共现超过两次的词对。因为小句长度较短，此时词向量余弦夹角足够小的词很可能就是互为转述的词，无须再进行词对齐步骤。

此外，本文还比较了另外两种转述词对挖掘方案，一种是将上述整数规划方法直接用在句对齐语料上进行词对齐，跳过小句对齐的步骤；另一种是使用统计机器翻译模型在句对齐语料上寻找维特比词对齐。对于前者，只需从小句对齐算法中移除取前k词对相似度均值的操作，并把一对一匹配的惩罚值改成 0.3 即可。实验发现该方法准确率较高，但是召回率相对较低。而对于后者，由于统计机器翻译模型的词对齐结果不对称，本文训练两个翻译方向的词对齐模型，并通过取交集来得到更准确的结果。维特比词对齐使用 GIZA++[21]工具包得到。实验表明，当两个句子语序较为一致时，统计机器翻译模型的词对齐结果较为准确；但当语序差异较大时，往往会出现一个词对应连续多个词的情形，结果不尽如人意。

2．3 转述知识挖掘结果与分析

2.2节中提到的三种转述词对挖掘方法结果汇总如表3所示(一对词交换顺序计两次)。

三种方法得到的词对质量难以观察到显著的区别，但基于小句对齐和过滤具有更高的召回率。通过对三种方法的结果求并集，并人工过滤错误词对，可以得到更大规模的词汇转述知识。人工检查发现，错误类型主要是分词错误和 OCR 字符识别错误，共计不到 100 对，可见算法挖掘到的转述词对具有很高的准确率。最终合并、校验过的转述词对样例见表 4。

表3 三种常见转述对挖掘方法的比较

表4 《简爱》上挖掘到的常见转述对

本文还将词汇转述关系连接拓展成网络，发现了一些有趣的子图结构，例如极大完全子图(称作转述极大团)和连通分量(转述闭包)。连通分量可以用宽度优先搜索算法来查找，而极大完全子图可以用 Bron-Kerbosch 算法[22]来枚举。经过搜索，本研究共找到 2 841 个转述闭包和 5 721 个转述极大团，其中一个转述闭包如图 1 所示。

图1 转述闭包示例

显然，表示早晨和夜晚的词不能构成转述关系，但它们却出现在了同一个转述闭包中。通过对转述极大团的分析可以发现，转述关系网络中存在“夜晚”—“今晚”—“今天”—“早上”—“早晨”这样一条路径，使得闭包中词汇的语义逐渐发生了转移。尤其是中间两个步骤：从“今晚”到“今天”发生了词义的扩大，而“今天”到“早上”又发生了词义的缩小，最终导致了词义转移现象的产生。

由此也能看出，转述闭包和转述极大团的语言学性质确实略有不同。转述极大团因为两两间的转述关系都得到了语料的确认，因而集合内部的联系更加紧密；而转述闭包则可能由于多次转述发生词义的扩大、缩小或偏移等现象，进而包含仅仅是话题相同但是不能互相转述的词。

3 转述知识评价

本节将对本文算法挖掘到的词汇转述知识进行测评，并和《同义词词林》等已有语言资源进行对比。同时针对中文特点，利用词汇重叠知识优化转述自动评价指标。

3．1 转述测评数据集构建

以四个版本的《简爱》语料为基础，本文选取各版本中能够两两对齐的句子组，随机指定其中一条语句为原句(查询语句)，将剩下三条语句视为原句的转述句。然后以四个版本《简爱》中的全部句子为文档集，计算每个句子和查询语句的相似度(相似度为两个句子的 TF-IDF 向量的余弦相似度乘以长度惩罚项1-abs(lq-l)/max {lq,l}，其中l和 lq 分别为候选语句和查询语句包含的词数)，取相似度最高的前 5 个句子为负样本。

本研究还通过三个转述生成模型为查询语句生成三个更具迷惑性的负样本。本研究选取的基本转述生成模型是 Luong 等[23]提出的 global attention model，唯一的区别只是将编码器部分从单向 LSTM 换成了双向，模型结构如图 2 所示，其中输入语句为 “ABCD”，输出语句为“XYZ”( 是用于表示句子结束的特殊符号)，左侧为编码器，右侧为解码器。其他模型超参数为：编码器和解码器分别为 3 层和 2 层，LSTM 隐层和词向量的维度均为 256，词表大小为 4.5 万。该模型可以通过对目标句子的负对数似然做梯度下降来学习模型参数，如式(8)所示。

其中，x,y分别表示源句子和目标句子(参考转述句)，Ty是目标句子中的词数。

图2 基本转述生成模型结构示意图

在基本转述生成模型之上，本研究还尝试了两种改进版模型。其一基于最近提出的词袋损失[24]，用于对不同于训练集中目标句子的正确转述句进行鼓励。该辅助损失函数认为，一个不同于参考转述句的正确转述句的词袋应该和参考转述句的词袋有较大的重合，因此只要模型生成了参考转述句里的单词(无须考虑它是在哪一步翻译出的)，就应该适当给予鼓励。其数学公式表述，如式(9)、式(10)所示。

其中，wi代表词表中的任意一个词，sti代表解码器在第t个时间步预测的单词wi的 logits 值(未经过 softmax 归一化的概率值)。

将词袋损失和普通的负对数似然损失加权求和，便可以得到第二个转述生成模型。进一步地，可以将转述知识引入上述词袋损失中，将目标句中单词的所有转述词形成的词袋作为辅助损失计算的标准，可以对更多潜在的正确候选转述句进行奖励，得到第三个转述生成模型，如式(11)、式(12)所示。

其中Pp是所有转述词对组成的集合。同样，该模型的总损失函数是负对数似然损失和上述转述词袋损失的加权和。

有了上述损失函数，通过梯度下降即可训练模型。三个转述生成模型的训练语料来源于《简爱》及《罪与罚》多个译本互相对齐的句对(去掉了用于构建转述测评数据集的句子)，规模为接近6万个句对。所有模型均使用 Adam 算法[25]训练 10 轮；在后两个模型的训练过程中，负对数似然的权重恒为1，而词袋损失的初始权重为 0.1，之后每一轮增加 0.1，最终增加到 1.0。

经过训练，三个模型都能生成有意义的转述句，而且迷惑性依次变强。一组具体的样例见表5中的最后一部分。

表5 转述测评数据集示例

最终构建好的转述测评数据集共包含 315 组数据，其中每组有 12 个句子： 1条查询语句、3条真转述语句、5条 TF-IDF 负样本(由于空间限制，表5只展示了其中一条)和3条转述生成模型产生的负样本。

3．2 转述测评方法

本节通过使用转述评价指标进行信息检索来比较不同转述评价指标的好坏。特别地，在转述评价指标不变的情况下，通过改变其中转述知识的来源就可以比较转述知识的质量。

具体而言，对于某种转述评价指标，本文用它计算每组测试数据中查询语句和任何一个候选语句的转述相似度，然后对结果进行排序，根据三个真转述语句出现的位置计算平均正确率均值(mean average precision)。该指标越高越好。

本研究中考虑三种方案： ①不提供转述知识，仅使用精确匹配模式计算 Meteor 指标；②将《同义词词林》中的底层词类作为转述知识引入 Meteor 指标中，使用精确匹配和转述匹配两种模式；③将本文挖掘到的转述知识加入到 Meteor 指标中，使用精确匹配和转述匹配两种模式。使用 Meteor Universal[8]中的超参数，即精确匹配和转述词匹配的权重分别为 1 和 0.6，本研究得到的实验结果如表6所示。

表6 转述测评实验结果

可见效果最好的是 Meteor 加上本文挖掘到的词汇转述知识。《同义词词林》中收录词语近 7 万条，而本文挖掘到的转述词表中只有约 9 000对，却能取得更好的性能。这固然与本文进行的是封闭测试有关，但是也说明了本文算法挖掘到的转述知识库的有效性。

由于中文是孤立语，难以利用 Meteor 中针对印欧语设计的词干匹配模式。考虑到中文里相当一部分双字和多字词都符合“组合语义假设”，即词义等于字义之和，两个词有重叠的汉字往往意味着他们具有相似的语义。因此，本研究在 Meteor 的四种匹配模式外引入新的“字符重叠匹配模式”：如果组成两个单词的汉字存在重叠，就认为这两个词也能互相匹配。这种处理方式的缺点是没有分析单词的内部结构，有可能会匹配上偶然出现重合汉字的词对，并且有些汉字存在一字多义的情况。目前已有一些相关工作对汉语复合词的内部结构进行更详尽的分析，例如，CCWE[26]使用《同义词词林》中的义类对汉语中的双字词进行标注，然后根据两个汉字的义类距离整个单词的义类的远近来学习字向量和词向量的组合关系；SCWE[27]使用机器翻译系统将多字词内的每个字翻译成英文，然后分析每个字的翻译结果和整个词的翻译结果的相似度，据此对字向量进行自适应的加权。这些方案都有不错的效果，但模型稍显复杂。考虑到词向量也能蕴含词义信息，本文根据两个词的词向量余弦夹角进行简单的过滤，只保留词向量相似度超过一定阈值的词对，这样也能排除掉一定比例的偶然出现的汉字重叠词对。事实上，本研究也确实在实验中发现，词向量夹角校验排除掉了类似“要是—要求”这样的随机词对，提升了转述指标的效果。具体的实验结果如表7所示(“词汇重叠匹配模式”的权重和词向量过滤阈值分别为 0.9 和 0.13，均通过网格搜索确定)。

表7 优化后的转述测评实验结果

4 总结与展望

本文借助外国文学名著的多个译本构造出较大规模的中文转述平行语料，填补了目前学术界的这项空白。本文提出了一个健壮的、无监督的词汇转述知识提取流程，对语料中的噪声有较好的耐受能力，而且有较高的准确率和召回率。本文还构建了一个转述测评数据集，可供比较不同的转述评价指标。本文对 Meteor 指标进行了改造，使其更加适合于中文转述句子评价。

本研究以《简爱》语料的多个译本为数据基础，但是提出的算法并不依赖于具体的语料。本研究还在持续收集其他语料，如《罪与罚》等，不断补充扩大转述知识库的规模。本研究后续也将继续关注中文转述评价指标的优化工作，例如，将第3节末尾提到的汉语内部构词信息考虑进来。最后，本研究还计划探索人工转述知识和算法挖掘到的转述知识相结合的方案，以及尝试把转述知识的挖掘扩展到短语级别。

5 致谢

转述语料库的建设研究得到了中央民族大学曾立英教授团队的支持和帮助。