TIMSS试题的机器翻译系统构建及其效果

2013-10-28 05:21蓝杨

中南大学学报(社会科学版) 2013年5期

蓝杨

摘要：研究以范例为基础的机器翻译技术和英汉双语对应的结构辅助英汉单句语料的翻译。翻译范例是运用一种特殊的结构，此结构包含来源句的剖析树、目标句的字符串、以及目标句和来源句词汇对应关系。将翻译范例建立数据库，以提供来源句作词序交换的依据，最后透过字典翻译，以及?用统计式中英词汇对?和语言模型来选词，产生建议的翻译。研究是以2010年国际数学与科学教育成就趋势调查测验试题为主要翻译的对象，以期提升翻译的一致性和效率。以NIST 和BLEU 的评比方式，来评估和比较在线翻译系统和本系统所达成的翻译质量。

关键词：试题；语料；剖析树；自然语言；机器翻译；TIMSS

中图分类号：H315.9 文献标识码：A 文章编号：1672-3104（2013）05?0244?08

一、引言

国际教育学习成就调查委员会（The International Association for the Evaluation of Education Achievement，以下简称IEA）的主要工作是了解各国学生数学及科学（含物?、化学、生物、及地球科学）方面学习成就、教育环境等影响学生学习成效的因素，找出关联性，并在国际间相互作比较。自1970年起开始第一次国际数学与科学教育成就调查后，世界各国逐渐对国际数学与科学教育成就研究感到兴趣，IEA便在1995年开始每四年办?国际数学与科学教育成就研究一次，称为国际数学与科学教育成就趋势调查（Trends in International Mathematics and Science Study，以下简称TIMSS ）。

中国教育科学研究院于1983年正式成为IEA的团体会员，并计划加入和引进TIMSS的调研活动，以期对中国数学教育和科学教育产生积极的作用。而我国的台湾省于1999年加入TIMSS后，已经开始着手实施相关工作，包括负责试题翻译及测验工作。本文在对国外和台湾的相关试题测试工作进行研究和分析后，对TIMSS试题翻译作了初步的研究分析。

以往使用人工翻译虽然可以达到很高的翻译质量，但是需要耗费相当多的人力资源和时间，而且在翻译过程中不同的翻译者会有不同的翻译标准，相同的翻译者也可能在文章前后翻译方式不一致而产生语意上的混淆。因此此类语言转换导致的问题间接影响试题难易程度。若直接将英文词汇透过英汉字典翻译成相对的中文词汇，翻译的结果可能会不符合一般人的用词顺序。另外中文的自由度较高，很容易造成翻译上用词顺序的不同。例如：“下图显示某一个国家所种谷物的分布图”，也可翻译为“某一个国家所种谷物的分布图，如下图显示”。可能会影响到受测者的思绪，使作答时粗心的情形增加。因此，若能?用机器翻译（machine translation）的技术来辅助翻译以及调整词序，便可提高翻译的质量和效率。

Dorr等学者[1]将现在机器翻译依据系统处?的方式来分类，分成以语言学为基础翻译（linguistic-based paradigms），例如基于知识（knowledge-based）和基于规则（rule-based）等；以及非语言学为基础翻译（non- linguistic-based paradigms），例如基于统计（statistical- based）和基于范例（example-based）等。

以知识为基础的机器翻译（knowledge-based machine translation）系统是运用字典、语法规则或是语言学家的知识来帮助翻译。这种?用字典来帮助翻译的系统，会有一字多义的情形发生，一个词汇在字典中通常有一个以上的翻译。以英翻中为例“current”这个字在字典里就有十多种不同的翻译，即使专家也无法找出一个统一的规则，在何种情况下要用何种翻译，所以在翻译的质量和正确性上很难满足使用者的的需求。因此，翻译系统通常都会限定领域来减少一字多义，例如“current”在电子电机类的文章中出现，最常被翻译为电流，在文学类的文章中，最常被翻译为现代。

以范例为基础的机器翻译（example-based machine translation，以下简称为EBMT）的相关研究已有相当多年历史，在1990年美国学者Brown和Pietra[2]所提出的EBMT是将翻译过程分为分解（decomposition）、转换（transfer）和合成（composition）三步骤。分解阶段是将来源句放到范例库中搜寻，将所搜寻到word- dependency tree当作来源句的word-dependency tree，并且形成来源句的表示式；转换阶段将来源句的表示式转换成目标句的表示式；合成阶段将目标句的表示式展开为目标句的word-dependency tree，并输出翻译结果。Al- Adhaileh等学者[3]将structured string tree correspondence（SSTC）运用在英文翻译成马来西亚文的过程中，SSTC是一种能将英文对应马来西亚文的结构，但此结构并没有解决词序交换的问题。目前较完整的EBMT系统为tree-string correspondence （TSC）结构和统计式模型所组成的EBMT系统[4]，在比对TSC结构的机制是计算来源句剖析树和TSC比对的分数，产生翻译的是由来源词汇翻译成目标词汇的机率和目标句的语言模型所组成。

我们提出双语树对应字符串的结构（bilingual structured string tree correspondence，简称为BSSTC）是可以运用在多元剖析树上的，并且BSSTC可在翻译过程中当作词序交换的参考。根据我们实验结果，我们能有效的调动词序，以提升翻译的质量。完成词序交换后，再透过字典翻译成中文，最后运用统计式选词模型，产生初步翻译结果，但本系统尚属于半自动翻译系统，故需要人工加以修饰编辑。

二、系统架构

由于我们的目的在于?用中英互为翻译的句子找出词序关系，并且将英文句和中文句词序的信息储存在计算机中，储存的格式是将中英文句的词序关系记录在英文剖析树的结构中，此结构将成为之后英文句的结构调整为适合中文的结构的参考。最后再将英文词汇翻译成中文词汇，并?用统计式选词选出最有可能翻译成的中文词汇，让翻译的结果更符合一般人的用词和顺序。

本系统的架构如图1所示。我们针对范例树产生的系统和英文句翻译系统这两部份分别简介如下。

范例树产生系统：这个系统?用中英平行语料作为基础，这里的中英平行语料必需要一句英文句对应一句中文句，且每一组中英文句都要是互为翻译的句子。中文句经过断词处?后，被断成数个中文词汇，以空白隔开；英文句则经过英文剖析器建成英文剖析树。将断词后的结果和英文剖析树经过剖析树对应字符串模块处?，建成英文剖析树对应字符串的结构树，此结构树称为范例树。再将每个范例树取出子树，并且判断是否有词序交换，将需要词序交换的范例树全部存入范例树数据库中方便搜寻。

英文句翻译系统：当输入英文句后，先将句子透过英文剖析器，建成英文剖析树。有了英文剖析树就可以透过搜寻范例树模块，标记英文剖析树上需要调动词序的结构，并依照所标记的词序作调整。词序调整完成后再将英文结构树中的英文单字或词组透过翻译模块做翻译。其中翻译模块包含了大小写转换、断词处?和禁用词过滤等环节，之后将处?过的词汇透过字典文件做翻译[5]。每个英文单字或词组都可能有一个以上的中文翻译，因此需要选词的机制来产生初步翻译结果，此翻译结果尚需要人工作后续的编修。

三、系统相关技术

根据上一节介绍，系统架构分为范例树产生系统和英文句翻译系统两大系统。范例树产生系统的执行流程为先处理中文句断词和剖析英文句，再将断词和剖析后的结果输入至剖析树对应字符串模块，并将处?后的范例树存入数据库中。英文句翻译系统的执行流程区分为三大部分，第一部分为搜寻范例树模块，将英文剖析树跟范例树数据库作比对，并且将未比对到的子树做修剪；第二部分将修剪后的剖析树输入到翻译模块翻成中文；第三部分以中英词汇对?工具及bi-gram语言模型，计算出中英词汇间最有可能之翻译组合。

（一）双语树对应字符串的结构（BSSTC）

在建立BSSTC结构之前，我们必须将中英平行语料中的中英文句先作前处?，我们将英文句透过StanfordLexParser-1.6[6]建成剖析树，剖析树的每个叶子节点为一个英文单字，并以英文单字为单位由1开始标号。这里我们将树根定义为第0层，树根的子树是第1层，越往下层数越大，故叶子节点必定是英文单字，且不属于任何一层，如图2所示。中文句子断词后的单位由1开始标号。这里的中文句代表来源句；英文句则代表目标句。本结构都假设中英文对应是在词汇的对应或连续字符串的对应基础上。假设剖析树的节点集合N={N1， N2， …， Nm}，m为剖析树上节点个数，对任一节点n∈N，n有三个参数分别是n[STREE//]、n[/STC/]和n[//ORDER]；我们以n[STREE/STC/ORDER]来表示。为了方便说明，若节点n只有n[STREE//]和n[/STC/]，则以n[STREE/STC/]表示。再假设nC（n）为节点n有1到C（n）个子节点。n[STREE//]为节点n所涵盖来源句的范围，层数最大节点的n[STREE//]必定对应到一个来源句单字，此参数的功用为当作每个节点的键值（primary key），故在同一棵剖析树中n[STREE//]不会重复。图3是一个BSSTC结构的例子，来源句为英文：“Our experiments were simple in concept”；目标句为中文：“我们的实验概念很简单”。首先英文句必须先建成剖析树，每个叶子节点为一个英文单字，并以英文单字为单位做标号，例如：“Our（1）”， “ex-periments（2）”， “were（3）”， “simple（4）”， “in（5）”，“concept（6）”。另外中文句经过断词的处?后，以断词后的单位做标号，例如：“我们（1）”， “的（2）”， “实验（3）”， “概念（4）”， “很（5）”， “简单（6）”。中英对应句都标号后，以标号为单位开始做词汇对准（word alignment），并标记在剖析树的节点上。剖析树是用文法结构来分层，不同层节点能对应到不同的范围的目标句字符串。n[STREE/STC/]若为VP[3-6/4-6/]，则STREE代表节点VP对应来源句第三到第六个字 “were simple in concept”；STC代表“were simple in concept”对应目标句的第四到第六个字“概念很简单”。nC（n） [STREE/STC/ORDER]的兄弟节点（sibling node）若为JJ[4/6/2]和PP[5-6/4/1]，我们可以观察到JJ的ORDER大于PP的ORDER，故PP[5-6/4/1]的中文对应「概念」在JJ[4/6/2] 的中文对应「简单」之前。

（二）建立BSSTC结构和产生范例树

建立BSSTC结构必需要有英文跟中文互为翻译的句子，建构的顺序是从最底层也就是层数最大的开始标记，再一层一层往上建置到第0层为止，标记参数顺序是先将所有节点的n[STREE//]和n[/STC/]标记完后，再标记n[//ORDER]。首先，标记最底层n[STREE//]的方法，是将最底层的节点n所对应叶子节点的编号标记在n[STREE//]。如图3节点NNS所对应来源句的“experiments”的编号为2，故NNS [STREE//]中的STREE标记为2。接着标记最底层n[/STC/]的方法是寻找中英对应句中互为翻译的中文词汇和英文词汇，也就是词汇对准。词汇对准若采用人工方式，则相当耗时费力，其本身也是一项困难的研究。如图3来源句的“experiments”在字典中的翻译有“实验”、“经验”和“试验”，将这三个中文翻译到目标句去比对，此例子将会比对到目标句第三个词汇“实验”，接着将目标句“实验”的编号标记在NNS[2/STC/]中的STC上。最后将比对到的个数除以英文句单字的个数，称为对应率。最佳情况下是每个英文单字都有相对应的中文翻译，对应率为1；最差的情况下每个英文单字都没有相对应的中文翻译，对应率为0，所以对应率会落在0到1之间，值越大代表对应率越高。我们需要够大的对应率，才能认定为范例树。因此，需要定一个门坎值来筛选，根据实验结果当门坎值越高留下来的范例树越少，而门坎值越低会使翻译的质量下降。

（三）搜寻相同范例树

根据搜寻范例树算法的流程，如图7。首先将来源句的剖析树加到数?（queue）里，从数?里面取出一棵剖析树到范例树数据库中，搜寻是否有相同结构的范例树；如为否，则将此棵树的下一层的子树加入数?，加入数?的顺序为左子树到右子树；如为是，则将该树的ORDER标记在来源句的剖析树上，继续取出数?内的剖析树，直到数?里没有剖析树为止。所以来源句的剖析树是由一个以上的匹配子树所组成。

图6为剖析树搜寻范例树的情形。来源句：“The graph shows the heights of four girls”，剖析树为“（S（NP（DT The）（NN graph））（VP（VBZ shows）（NP（NP（DT the）（NNS heights））（PP（IN of）（NP（CD four）（NNS girls）））））”。透过搜寻范例树算法找出匹配子树，首先以节点S为树根的剖析树到数据库作搜寻，搜寻时不包含叶子节点，此例子没搜寻到匹配子树，则将节点S的子树NP和VP加入数?中。接下来将从数?中取出的子树为NP，到范例树数据库搜寻匹配子树，但数据库中没有相同的范例树，此时NP的子树皆为叶子节点，所以并无子树在加入数?中。依照先进先出的原则下一个从数?取出的是S的右子树VP，在范例树数据库中还是搜寻不到，因此要将VP的子树VBZ和NP加入数?中，但VBZ为叶子节点，故只有NP加入数?中。接下来是子树NP从数?中被取出来，子树NP在数据库中搜寻到相同的范例树，如图六的范例树就是所搜寻到的匹配子树，因此将范例树的ORDER标记上去，标记后的剖析树将如图8所示。此时数?中已经为空，搜寻范例树的流程到此为止。

标记完ORDER之后，将没有标记的子树作修剪，也就是将不用作词序交换的子树修剪到最小层树。如图8节点S的右子树、NP[2]和NP[1]的子树皆不需要作词序交换，因此修剪的结果为“（S（NP The graph）（VP（VBZ shows）（NP（NP[2] the heights）（PP[1]（IN[2] of）（NP[1] four girls））））） ”，如图9所示。最后从层数最大的每个兄弟节点开始逐层往上依照优先权顺序调整剖析树的结构；调整后的结果将会输入到翻译模块产生翻译。若我们直接取来源句剖析树的叶子节点作翻译，将会成为单字式的翻译，我们将无法对词组或词组作翻译。翻译的部分会在下一节会作详细说明。

（四）翻译处理

经过上一节处?最后得到修剪树，修剪树的叶子节点可能为英文单字（word）、词组（term）。词组即为数个单字结合的字符串，不一定为完整的句子，如“would be left on the floor”或词组（phrase，如名词词组、动词词组、形容词词组等），如“in order to”。在翻译处?上会遇到英文单字或词组，在英文单字的部分，直接查寻字典文件作翻译；词组的部分?用规则词典文件的词组，和词组进行字符串比对，以找出符合的词组及中文翻译。以下为字典文件及规则词典文件分项说明。

字典文件：字典文件部分我们使用Concise Oxford English Dictionary[8]（牛津现代英汉双解词典，收录39429个词汇），将前处?过后的英文单字或词组做翻译对等字搜寻的动作，找出所有和该英文单字的中文词组，作为翻译的候选名单。如无法在字典文件中搜寻到对应的中文翻译。如姓名和专有名词，则直接输出该英文字。

规则词典文件：为常用的名词词组、动词词组、形容词词组等词组，以及试题翻译小组所决议之统一翻译词组以人工的方式建立的中英翻译对照档，如in order to（为了）。分成单字和词组翻译是因为若在规则词典文件比对不到，则用空白来做一般字和字之间的断词，也就变成单字的翻译，因为词组较能完整表现出动作或叙述。如只用单字作翻译，会造成翻译上的错误。须注意的是比对的句型若有相似结构但不同长度的字符串样式，则取长度最长的为结果。如一英文句子为“…as shown in diagram…”，同时满足规则词典文件内的“as shown in diagram”和“in diagram”片语句型，则我们会选择长度较长的“as shown in diagram”而不是选择“in diagram”加上“as show”作为断词的结果。在英文翻译成中文的过程中，有些英文单字不需要翻译或是无意义的情形，所以我们将这些单字过滤不翻译，这些单字称为stop word。例如：冠词the直接去除。介词for、to、of等，若前一单字为what、how、who、when、why等疑问词，则允许删除，另外，to出现在句首直接删除。助动词do、does等，判断方式与介词相同。在翻译过程中还可能出现词干变化（如～ing、～ed等）和词性变化（如动词break，其过去式为broke，被动式为broken，以及名词单复数型态）。词干变化的部份，我们可以还原各词性（名词、动词、形容词、副词）；词性变化的部分，有些是不规则的变化，较难用算法处?。

四、系统翻译效果评估

本节主要介绍?用本系统翻译国际数学与科学教育成就趋势调查2010年考题，简称TIMSS2010，并将试题依照年龄别和科目别，分别比较翻译的质量。最后将与在线翻译以及已经研发在用的翻译系统作比较。评估方式为?用BLEU（IBM公司的机器翻译评测标准）及美国国家标准与技术研究院NIST（National Institute of Standards and Technology）指标。

（一）实验来源

用来翻译的来源为TIMSS2010试题，所有实验语料句对数、中英词汇数、中英总词汇个数及平均句长，皆如表1所示。用来建立范例树的来源有中国教育科学院委托北京实验二小和北京第四中学语文学习教科书补充资料题库[7]及科学人杂志。补充数据题库以人工方式完成中英语句对?（sentence alignment），再经过范例树的筛选门坎值为0.6的情况下有565句。用来训练选词机率模型的来源有自由时报中英对照读新闻及科学人杂志。自由时报中英对照读新闻从2009年2月14日至2011年10月31日，而自由时报中英对照读新闻本身就已经作好中英语句对?。科学人杂志是从2006年3月至2009年12月共110 篇为语料来源。