基于mRASP的藏汉双向神经机器翻译研究

2023-12-30 06:51仁青卓玛唐超超

计算机技术与发展 2023年12期

杨丹,拥措*,仁青卓玛,唐超超

(1.西藏大学信息科学技术学院,西藏拉萨 850000;2.西藏自治区藏文信息技术人工智能重点实验室,西藏拉萨 850000;3.藏文信息技术教育部工程研究中心,西藏拉萨 850000)

0 引言

随着网络的快速发展,全球各国之间联系日益紧密、各民族交流日趋频繁。语言作为交流的基础,对实现不同种语言之间的翻译显得尤为重要。由于人工翻译代价很高,为了满足人们的翻译需求,机器翻译凭借翻译速度快,低成本等优点受到了人们的青睐[1]。在自然语言处理(Natural Language Processing,NLP)任务中,机器翻译作为其重要分支和人们的日常生活息息相关。机器翻译实现了计算机在不同种语言之间的自动转换,纵观机器翻译的发展史,它经历了基于规则的机器翻译(Rule-Based Machine Translation,RBMT)、统计机器翻译[2](Statistical Machine Translation,SMT)以及神经机器翻译[3](Neural Machine Translation,NMT)三个主要阶段。

对于楼顶空间的利用情况，大部分高层楼顶处于闲置状态，即使被利用，也只是安装了太阳能热水器，基本没有光伏发电装置。

近年来,跨语言预训练语言模型在NLP任务上受到普遍关注,比如mBERT[4],MASS[5],XLM[6],XLM-R[7],mBART[8]等。它们在大量语料上进行预训练,然后在下游任务中按照其特点对模型微调。这种预训练加微调的方式在一系列NLP任务中取得了很好的效果。2020年陆金梁、张家俊提出了一种基于Multi-BERT跨语言联合编码预训练的语言模型的译文质量估计(Quality Estimation,QE)方法,使用不同神经网络对预训练语言模型进行微调[9]。2021年满志博等人针对汉语、英语以及缅甸语三种语言结构差异较大而导致的共享词表大小受限的问题,提出进行联合语义表征来提升缅汉英机器翻译模型的性能[10]。翁荣祥等人提出APT框架,从预训练模型中获取知识到神经机器翻译,在跨语言机器翻译任务上的试验结果表明,该模型优于强基线和微调模型[11]。黄昊阳等人介绍了Unicoder。给定一个任意的NLP任务,可以在Unicoder基础上使用一种语言的训练数据对模型进行训练,并直接应用于其他语言相同任务的输入。同时对多种语言微调可以进一步提升效果[12]。

2018—2020年期间，广西计划棚户区改造开工37.57万套，将重点改造房屋功能不全，安全隐患突出，被鉴定为C、D级以上、老城区内脏乱差的危旧住房，以及林区、垦区、工矿棚户区未完成改造的危旧住房项目。

在多语言机器翻译中,林泽辉等人提出mRASP模型[13](multilingual Random Aligned Substitution Pre-training,mRASP),其关键思想是随机对齐替换技术(Random Aligned Substitution,RAS)。可以在预训练后,在下游语言对对模型微调。首次验证使用多个语言对的少量语料数据可以提高资源丰富的机器翻译,并且可以提高预训练语料库中未曾出现过的其他语言的翻译质量,可以在不同语言中构建语义空间的桥梁,从而有效提高翻译性能。

随着藏汉机器翻译的兴起,很多高校和机构开始研究藏汉统计机器翻译。比如:1998年,陈玉忠等人顺利研发出班智达汉藏科技机器翻译系统。2003年在此基础上研发了基于规则的实用化汉藏机器翻译系统[14],为基于规则的汉藏机器翻译奠定了坚实的理论基础。2013年,周毛先提出了基于混合策略的汉藏机器翻译系统[15]。随后,中科院计算所、中科院软件所、厦门大学、西藏大学、青海师范大学等单位开展了藏汉统计机器翻译的研究工作。2014年,华却才让提出基于树到串的藏语机器翻译[16],这是中国第一个基于藏文句法信息的统计机器翻译系统;2015年,位素东提出基于短语的藏汉统计翻译[17];2016年,西藏大学尼玛扎西教授的团队研发完成“阳光藏汉双向机器翻译系统”,并面向社会提供翻译服务,系统在汉藏现代公文领域的翻译平均准确率达到70%,速度也较高[18]。近几年,研究人员开始研究藏汉神经机器翻译。比如,2017年,李亚超等人通过迁移学习方法进行了藏汉神经机器翻译的实验[19];2018年,蔡子龙等人利用数据增强技术对语料扩充,增强了藏汉机器翻译的泛化能力[20];2019年,慈祯嘉措等人将藏语单语模型融合到神经机器翻译中[21];2021年,头旦才让等人改进了字节对编码算法,优化了汉藏神经机器翻译[22];同年,该学者融入了藏文命名实体识别技术,提出了藏文长句分割方法[23];2022年,周毛先为了提高翻译的质量,提出一种融合先验知识的方法[24];同年,孙义栋等学者对机器翻译的词表进行了优化,显著提升了翻译性能[25];杨丹等学者经过对数据增强策略的深入研究,有效缓解了因平行语料匮乏而导致的翻译性能较差的问题[26]。

以上学者提出的方法有效改善了藏汉双向机器翻译的性能,但是由于藏汉平行语料匮乏、语料的质量以及现有语料的领域限制,藏汉机器翻译的性能相较于其他大语种的翻译性能来说效果较差。而mRASP是针对机器翻译任务而提出的多语言预训练模型,其翻译效果已经超过mBART。因此,该文使用一种融合跨语言预训练模型(mRASP)与改进后的联合词表的藏汉双向机器翻译,从而进一步提高藏汉双向机器翻译的质量。相比基线系统来说,在藏汉/汉藏翻译上提高了3.43/1.27个BLEU值。

1 mRASP多语言神经机器翻译

mRASP的关键思想是随机对齐替换技术(RAS),该技术使多种语言中具有相似含义的单词和短语在表示空间中更接近。它利用多个语言对的少量平行语料训练模型,然后在下游语言对微调。

多语言神经机器翻译模型是通过学习一个多对多的映射函数(f),即从一种语言翻译到另一种语言。更正式的定义是L={L1,L2,…,LM},其中L是预训练所涉及到的语言集合。Di,j表示(Li,Lj)的并行数据集,ε表示并行数据集{D}i=Ni=1,其中N为双语对的个数。训练损失定义为:

(1)

(1)BPE切分分别产生的藏语、汉语词表;

摘要：当前，随着我国信息技术和互联网经济的发展，我们已经进入了“互联网+”的时代。随着我国医疗卫生水平的提升，护理人员数量逐年增加。为了更好地提高我国护理行业从业人员的素质和能力，积极推进教育信息化在护理专业的发展，对于护理专业自身内涵式发展具有重要的现实意义。

2 基于mRASP的藏汉神经机器翻译

mRASP获取的联合词表采用了字节对编码(BPE)的方式。总体思路是合并成对的频繁字符序列以创建子词单元。子词词汇可以看作是字符级词汇和词级词汇之间的权衡。与词级词汇相比,它可以减少标记的稀疏性,增加相似词之间的共享特征。但它只考虑频率,而忽略了词汇量的影响。VOLT[27]是一种通过最优传输的词汇学习方法,通过考虑语料库熵和词汇量,可以在多项式时间内给出合适的词汇。所以,该文使用一种融合跨语言预训练模型(mRASP)与改进后的联合词表的藏汉神经机器翻译。总体思路如图1所示。

1.4统计学分析:对所有的数据都使用SPSS13.0软件进行统计和分析。组间资料使用t进行检验,计数资料则采用X2进行检验。差异有统计学意义(P<0.05)。

（1）小苏打：由于百香果的pH值过低，与鲜奶混合会出现絮状物，因此需把百香果汁和胡萝卜汁的混合液调节pH值为6.5。水与小苏打的配比为1∶15，溶解后备用。

图1 实验流程

(1)数据增强:采用同义词替换和回译的数据增强方式对语料进行扩充。

(2)VOLT切分构建词表:对藏汉平行语料直接进行BPE切分后,使用VOLT优化词表。

(3)训练模型:使用transformer-big神经机器翻译模型进行训练,并在mRASP提供的包含32个语言对的多语言预训练翻译模型上,使用藏汉平行语料进行训练。

主人公Pi与动物们在跟随父母一起移民加拿大的途中遭遇不测，只剩下他和一只黑猩猩、一匹受伤的斑马、一条鬣狗和一头饥饿的孟加拉虎开始了在海上漂流的冒险经历。随着残酷的弱肉强食生死战争，最后只剩下Pi和孟加拉虎理查德·帕克，通过奈斯式的直觉方法与深层追问式的推理，Pi得出了七个方案。

为了使藏语语料很好地与模型兼容、并且扩大汉语的词表占比,通过过采样的方法(Over-sampling)去平衡词汇量,保持词汇表中藏语词汇和汉语词汇的最低频度为20。

(4)翻译模型评估:在解码时采用不同的长度惩罚因子对翻译模型进行评估,根据验证集上的表现选择最优模型。

图2 基于mRASP的藏汉神经机器翻译方法

3 实验

3.1 数据来源

本次实验的语料来自第十八届全国机器翻译大会(CCMT 2022)所提供的1 157 959句对平行语料。

3.2 数据预处理

3.2.1 数据预处理

首先对所有藏汉平行语料进行了预处理,处理过程包括:符号标准化(具体包括全角半角的转换,删除非法字符,大小写转换以及中文化繁为简等)、分词处理、长度比过滤。同时为了提高模型泛化能力,把训练集中与验证集和测试集重复的句对删除。

数据增强是提升机器翻译的有效途径。因此为了提高藏汉机器翻译模型的性能,采用数据增强方式扩充语料。

1.3.1 心肌病理组织学检测将部分心肌组织石蜡包埋后制备切片，置于4%多聚甲醛溶液中固定24 h，苏木精-伊红(hematoxylin-eosin,HE)染色，光镜下观察心肌形态学变化，将非糖尿病ZT23亚组与糖尿病ZT23亚组、非糖尿病ZT11亚组与糖尿病ZT11亚组进行比较。

3.2.2 数据增强

(1)同义词替换。在训练集中随机抽取15万条数据采用同义词替换的方式扩充语料。在进行藏语的同义词替换时,使用50万条藏语单语语料训练word2vec模型,从句子中根据替换率分别为0.08,0.15的频率随机选择非停用词进行替换。汉语语料借助中文近义词工具包Synonyms,从句子中根据替换率分别为0.08,0.15的频率随机选择非停用词进行替换。

该文采用基于自注意力机制的谷歌Transformer[28]神经网络机器翻译架构,使用的系统为fairseq开源工具。主要实验参数设置如下:编码器和解码器的层数为6层,每一层有16个注意力头,词向量维度为1 024,全连接隐藏层维度为4 096。使用Adam梯度优化算法更新模型参数,其中β1=0.90,β2=0.98。学习率设置为0.000 3,warmup updates设置为4 000。为了防止过拟合,将dropout参数设置为0.1,clip norm参数设置为10。

最终的语料规模如表1所示。

表1 语料规模

3.3 模型参数

2017年，国家食品药品监督管理总局药品审评中心副主任尹红章因受贿罪被判处有期徒刑10年，同时获刑的还有其妻子、儿子。法院查明，2002年至2014年间，尹一家三口共收取多家生物制药企业给予的财物共356万余元。

3.4 评价指标

交通要道栽苗木。在交通要道两侧采用林苗模式，亦林亦苗，联合运作，把“造林、造景、造钱”结合起来，培育“好看、好管、好卖”绿化景观苗木，既把交通要道打造成农场的形象窗口，又实现道路两侧的经济效益。

(2)

其中,c表示模型生成的句子长度,r表示参考译文的长度。最终BLEU的公式为:

我国保险业起步较晚、基础较弱，尽管近些年发展取得一定成就，但与经济发展要求相比仍存在很大差距，依然处于发展的初级阶段。党中央、国务院对保险业的发展高度重视，支持保险业发展的力度不断加大，通过政策、立法，对保险行业规范发展加以引导，为其营造了良好的市场环境。尤其自16年以来，一再强调保险作为社会保障体系重要支柱的功能，以及在脱贫攻坚战、“一带一路”中所发挥的重要作用。

最初的几年，山东男篮的主管单位是省体育局。1998年，第一个正式赞助商山东永安介入，与体育局一起共建山东男篮。这家地产开发公司，在球队管理上并无太多的话语权，但也借助“永安火牛”的声名，被广为人知。

(3)

(2)回译。分别从汉语和藏语的语料库中随机抽取10万条句子,然后使用藏汉双语数据在transformer-big上训练一个正向翻译模型和反向翻译模型,即藏汉翻译模型和汉藏翻译模型。随后利用这两个模型对抽取出的句子进行翻译,再使用词对齐工具过滤掉对齐分数较低的句对。经过筛选得到最终的伪双语数据。

3.5 实验结果及分析

3.5.1 基线实验

为了验证数据增强方式以及VOLT词表的有效性,在transformer-big上训练至收敛。表2对比了不同训练方式的实验结果。

表2 训练策略结果

从表2可以得知,语料规模对翻译性能的重要影响以及数据增强方式的有效性。同时使用VOLT词表可以压缩数据、压缩熵,可以让语料更容易训练和预测,也加快了训练模型的速度。VOLT也提升了藏汉双向翻译的性能,分别在藏汉/汉藏翻译验证集上提高了2.37/0.47个BLEU值。所以,该文采用VOLT+transformer作为基线实验。

3.5.2 长度惩罚因子

为了适应验证集短句较多的情况,分别在藏汉和汉藏翻译上分析了长度惩罚因子(α)对BLEU值的影响。使用VOLT构建词表,在transformer-big上训练至收敛。实验结果如表3、表4所示。

表3 长度惩罚因子对藏汉翻译BLEU值的影响

表4 长度惩罚因子对汉藏翻译BLEU值的影响

由表3、表4可知,藏汉翻译适合的α为0.3,汉藏翻译合适的α为1.2。合适的长度惩罚因子(α)会对BLEU值产生正面影响,过大或者过小的α都会影响翻译性能。

3.5.3 mRASP跨语言预训练模型

工程地质勘察是工程设计的基础。地质调查的质量对工程的建设与设计有着重要的影响。必须加强工程地质勘察的质量管理。在目前的工程地质勘察质量管理中，仍然存在一些影响地质勘察质量管理的问题。

mRASP联合词表的规模为64 808。为了使藏语语料很好地与模型兼容、并且扩大汉语的词表占比,该文采取4种方法合成词表到原有的联合词表中。

该文选用机器翻译常用的BLEU-4[29]值作为评价指标。BLEU(Bilingual Evaluation Understudy)是通过采用n-gram匹配的方式评估模型生成的句子和参考译文之间差异的指标,生成的句子越接近参考译文就认定它的质量越高。但该方法倾向于对短句子打出很高的分数,所以BLEU引入短句惩罚因子(Brevity Penalty,BP),对短句进行惩罚:

其中,xi代表语言(Li)中的一个句子,θ是mRASP的参数,C(xj)是对齐函数。在模型训练时,会将所有翻译对联合训练。

(2)BPE切分得到的藏语、汉语联合词表;

(3)VOLT切分分别产生的藏语、汉语词表;

还有一个旅客在服务大厅买票，排队的人比较多，想走捷径，找到大厅里一位服务员，希望其代他插队买票，服务员不同意，他转身就投诉了这位服务员，说她不为旅客着想。

(4)VOLT切分得到的藏语、汉语联合词表。

mRASP提供了两个32个语言对的模型,其中w/o model不包括对齐信息,w/ model包括RAS对齐信息。由于ALBERT[30]通过权值共享和矩阵分解减少参数,且使用遮蔽语言模型(MLM)和Transformer的编码器来生成深度的双向语言特征向量,所以此处将其作为对比实验。该文在训练好ALBERT模型后,先根据下游任务调整模型参数,然后将微调好的模型参数迁移到Transformer的编码器端。实验对比如表5、表6所示。

表5 mRASP藏汉翻译实验结果对比

表6 mRASP汉藏翻译实验结果对比

由表5、表6可知,mRASP+基线模型的翻译性能是最好的,且w/ model都优于w/o model,这恰恰证明了RAS对齐信息的有效性;相比基线来说,在藏汉/汉藏翻译的验证集上提高了3.43/1.27个BLEU值。

ALBERT+基线模型也提高了翻译效果,与基线相比,分别在藏汉/汉藏翻译的验证集上提高了0.52/0.38个BLEU值。在mRASP上融合BPE联合词表相较于mRASP+BPE来说,在一定程度上缩小了词表规模,分别在藏汉/汉藏翻译的验证集上提高了0.42/0.02个BLEU值;但mRASP上融合VOLT联合词表相较于mRASP+基线模型来说,反而降低了翻译性能。这可能是由于VOLT优化词表所依靠的是信息熵,而藏语和汉语的信息熵差别较大而导致的。

3.6 实验结果对比

为了直观地对比基线、使用ALBERT预训练模型以及mRASP跨语言预训练模型后,藏汉/汉藏机器翻译的改进效果,从1 000条验证集中分别随机抽取1条语句绘制成表。藏汉/汉藏翻译效果对比如表7、表8所示。

表7 藏汉翻译结果对比

表8 汉藏翻译结果对比

上述译文的对比证实了融合mRASP模型的有效性,它提高了藏汉/汉藏的翻译效果。

4 结束语

针对CCMT 2022提供的藏汉综合领域的平行语料,在transformer-big框架下,通过VOLT改进词表、探索联合词表对翻译性能的影响,并在mRASP跨语言预训练模型上进行融合。通过实验表明,利用VOLT改进词表可以对藏汉机器翻译的性能有一定提升;虽然在预训练时没有加入藏语语种进行训练,但是mRASP跨语言预训练模型仍然可以有效提高藏汉双向机器翻译的性能。

在下一步研究中,将计划收集更高质量、领域覆盖面更广的藏汉平行语料,也将探索更好的跨语言预训练模型来进一步提高藏汉双向机器翻译的性能。