基于释义信息的维汉机器翻译系统融合研究探索

2019-09-10 07:22祖丽瑚玛尔·吐尔干
记者观察·中旬刊 2019年10期

祖丽瑚玛尔·吐尔干

摘要:维汉机器翻译中经常出现的问题有单个翻译模型翻译效果不佳或多个翻译模型间翻译有很大不同等。对此,一种根据释义信息发明的系统融合方法被提出。通过这种方法,维汉机器翻译先将汉语端的释义信息提取出来并对汉语翻译假设进行词对齐,然后根据词对齐信息构建和解码使网络混淆,最后进行系统融合得出结果。有实验证明,此法较单个翻译系统HPSTW翻译质量更加优异。

关键词:维汉机器翻译;释义信息;系统融合;过滤

一、基于释义信息的维汉机器翻译

系统融合现状

在最近的几年里,系统融合技术受到了国内外学者的热捧,机器翻译领域被国内外的很多学者运用到系统融合中,例如根据混乱的网络解码将一些词汇进行整合的方式。在进行词汇级别系统融合的过程中,其翻译举例词起到了非常重要的作用,翻译举例词对齐会对系统的整合性造成影响,其中典型的方式如下:

在翻译的举例词对齐被编辑距离作为根据、根据在语料库中的翻译举例词进行对照、根据Meteor的翻译举例词对照和根据语言学文化的举例假设词,即使将以上的这些例子运用到汉语翻译假设词对照时,还是不能准确定位到汉语翻译假设相近意思进行行替换的词或短语。

解释其意义是传递一样的信息的一种方式,在学者们通过文本产生和文本书籍的查阅后,得出结果:它可以产生更加顺畅和丰富的文本,而且在此过程中不仅可以使机器翻译的质量更好,还可以在输人文档中询查到相同的信息,使此过程更加便捷。

二、基于释义信息的维汉机器翻译系统融合的相关工作

针对群体的不同,句子等级、短语等级和词汇等级三个方面,在系统融合中如今被作为考察对象。将各系统的翻译假设,被认为是平行语料。它是根据语料库的翻译假设词整合方法,因为使用双语对齐模型翻译假设的双向词对齐,在语料不足时经常导致数据缺乏,而且只支持表面形式,是因为此对齐方法只借着语料库的范围。

另外,人力采集、使用现有的词汇资源提取、根据语料库的释义提取,这3种属于释义提取方法。

通过双语语料库转换成释义,使用有效的双语语料资源和双语短语表,被称为释义提取方法。

根据Meteor翻译假设词对齐,是由于翻译假设词对齐方式,在如今词汇等级系统融合备受欢迎,它把释义匹配模块添加在表面形式匹配、词干、同义词匹配基础上,由于语言的释义匹配不完整,所以在进行维汉机器翻译系统融合探索时,不能使用汉语释义信息,需要额外增加汉语释义内容,然后将它运用到维汉机器翻译的系统融合中。

三、基于释义信息系统融合的研究

创新是发展的动力,一项新技术只有通过不断创新才能提高它的社会价值,稳定它在新科技领域的地位。本文通过修正假设词对齐结果以及提取的方式發现研究维汉机器翻译,证明了构建和解码混淆网络才是获得融合结果的方法。

系统融合需要重视单语词的对齐情况,因直接影响着翻译选取的好坏,汉语翻译假设进行单语词对齐时的弊端也是存在的,一是现有工具只是“表面形式者”,出现两个翻译假设的词相同,会认为两个词匹配,打破原有信息数据的稳定性,丢失信息等严重现象,那么释义信息的引人就解决了这个问题,让对齐工具发挥最大限度的短语匹配能力。例如出现容易混淆的词语时,释义匹配器便会快速匹配与之相对应的短语。但是释义匹配器也是存在局限性的,比如只支持部分语种的释义匹配功能,有待进一步提高。

四、结语

本文探讨如何将汉语释义信息引人维汉机器翻译系统,实践中循序渐进地提高了维汉机器翻译的质量。当然,有利有弊,弊端就是只能用语言模型和全局系统权重混淆网络,用提高阈值的方法来过滤释义表。创新才是发展的动力,维吾尔语言的特性,让维汉机器翻译系统融合的新方法仍在开发中,新方法能有效提高翻译质量,相信不久的将来不同语言的交流成为可能。

(作者单位:新疆日报社)