基于机器翻译工具的英蒙双语语料库的设计与实现

2017-04-27 14:20张利峰
电子技术与软件工程 2016年15期
关键词:蒙古文输入法语料库

张利峰

摘 要 目前蒙语授课学生的英语教学主要包括学前、小学、中学和大学等阶段。在学前和小学阶段的课外辅导主要靠家长和老师,而到了中学和大学后主要靠学生本人的自学能力。而无论是家长、老师或学生在辅导和学习过程中都会遇到生词或找不到某些多意词在句子中的确定含义,而此时查找词典很难准确判断其含义的,因为初学者很难把握某些单词在句中的准确含义。另外,在进行例句翻译时也会遇到使用哪个单词更为准确,而不会超出大纲。因此,基于蒙英机器翻译工具的蒙英双语语料库的建设尤为重要,本文主要阐述了蒙英双语语料库的设计与实现。

【关键词】蒙英翻译 双语语料库

1 软件平台的搭建

1.1 操作系统

蒙英双语语料库(以下称语料库)的设计与制作可在WindowsXP操作系统或Linix操作系统下进行。本设计是在WindowsXP操作系统下完成的,因为:

(1)WindowsXP操作系统使用广泛、通用性强,操作简练,功能完善强大;

(2)WindowsXP操作系统兼容性强,支持多种应用软件,并且大多数蒙古文软件、系统、输入法是在WindowsXP操作系统下开发的。

1.2 应用软件

制作语料库的应用软件使用了微软公司Office2003系统中的Excel和蒙科立软件公司开发的Mensoft Mongolian IME2012蒙古文输入法。语料库也可用TXT文本或其它类型的数据库(Acesse、VFoxPro、SQLSever等)完成。

使用OfficeExcel设计制作双语语料库的原因是:

(1)Excel具有强大的编辑计算功能,操作易于掌握,并且使用广泛,兼容性强。

(2)适用于简单的数据格式设计,且本翻译系统无需设定复杂的数据完整性,安全性与约束性。

采用Mensoft Mongolian IME2012蒙古文输入法输入蒙古文的原因是:

(1)支持国际通用编码;

(2)将多种文字集成为一体(包括传统蒙古文,回鹘蒙古文,满文等)为一体的音码智能输入法,具有较强的集成编码转换工具;

(3)键盘布局实现了字母拼写一音一键的计算机输入目标;

(4)解决了有些蒙古文字用语言拼写方法编码的难题,如一字多型,多字同型文字的编码等;

(5)输入法具有较强的智能性,大大的提高了输入速度,并且支持在蒙古文输入法状态下回车输入英文;

(6)将字体清晰度做了进一步改进,并且在旧版本(2008版)的基础上扩大了字体库。

1.3 MensoftIME2012蒙古文输入法与蒙古字体

蒙古文输入法的安装:

第一步:双击执行安装包MensoftIME2012(可从网上免费下载),出现安装首页界面。

第二步:点击“”按鈕这时会弹出许可协议窗口。

第三步:认真阅读完协议后,选择“”项表示同意协议,之后点击界面上的“”按钮继续安装会弹出安装窗口。

第四步:点击“”按钮会继续安装,将出现安装结束窗口。

第五步:点击“”按钮将会完成安装过程,点击任务栏中的输入法栏将会看到Mensoft Mongolian IME2012蒙古文输入法。

第六步:第一次启动输入法时,系统将会自动弹出注册界面。通过界面上的联系方式获得注册码,输入注册码单击“确定注册”按钮后便可正常使用输入法。

2 蒙古文输入法的使用

2.1 键盘布局

Mensoft Mongolian IME2012蒙古文输入法的键位布局合理、易于掌握,其字母、符号布局如图1所示。

2.2 蒙古文字的拼写输入

(1)蒙古文的基本输入规则。由于蒙古文字中的部分发音与汉语拼音、英文字母的发音一样或者相似相近,所以设计键盘布局时将发音相似或相近的字母放在了相应的键位上,例如:(发音为“和”)在“h”键上;(发音为“啊”)在“a”。有些特殊的蒙古文字母根据其使用频率放在了相应的键位上,例如:在“c”键上;在“v”键上;多变体附加成(Tinyilgal,为介词)放在数字键上,例如:在“1”键上选2,如图2所示。

例:输入,首先输入的编码“abv”将会出现如图界面,选“1”或按空格键输入后系统将会智能自动的弹出介词的输入界面,如图所示,选“1”或按空格键输入,之后再输入编码“haira”选“1”或按空格键可输入,如图2所示。

(2)高效输入规则。高效输入的规则是只输入文字每个音节的首字母,省略其余字母的输入。

例如:的输入,可编码为“abn”,如图所示。但存在排位靠后或不在本候选页需翻页的问题,这时可补充编码“a”,既输入“abna”时的排位可为第一,如图3所示。

(3)英文的快速输入。由于Mensoft Mongolian IME2012蒙古文输入法支持在蒙古文输入法状态下回车输入英文,所以不需要频繁的进行输入法的切换,可以直接在蒙文输入法的平台下输入英文。

(4)一字多型文字与多字同型文字的输入。

2.3 字体的使用

字体Mensoft 是Mensoft Mongolian IME2012蒙古文输入法的携带字体,使用时从字体库中选择即可,

2.3.1 双语语料库的格式设计

语料库的数据格式设计较为简单,无需定义复杂的数据字段以及数据的约束、安全性与完整性,只需定义相互对齐的英语句子字段和蒙古语句子字段即可。如图4所示。

2.3.2 单词、短语和句子的输入整理

由于本翻译系统采用的翻译规则是基于统计的翻译模型,所以在整理语料输入时遵循以下原则:

(1)覆盖面要全面,避免遗漏语料;

(2)无需单独输入单词与短语,只输入所有句子,句子中应包含所有单词与短语;

(3)没有在句子中出现的单词与短语需单独列出输入;

(4)输入在教材中出现,但不属教学内容的语料,如:Read aloud,Look and tick,Listen and colour等。

参考文献

[1]赵铁军.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社,2000.

[2]姚天顺.自然语言理解[M].北京:清华大学出版社,1998.

[3]清格尔泰.现代蒙古语语法[M].呼和浩特:内蒙古人民出版社,1992.

[4]冯志伟.自然语言机器翻译新论[M].北京:语文出版社,1994.

[5]敖其尔.从英文到蒙文的机器翻译[J].内蒙古大学学报(哲学版),1988(03):39-50.

[6]力提甫·托乎提.维吾尔语及其他阿尔泰语言的生成句法研究[M].北京:民族出版社,2001.

作者单位

内蒙古师范大学青年政治学院 内蒙古自治区呼和浩特市 010051

猜你喜欢
蒙古文输入法语料库
要命的输入法
《语料库翻译文体学》评介
关于新发现的《字母汇编》(蒙古文)
关于蒙古文在各种浏览器上显示方法的探讨
略论Khandjamts夫人(基里尔蒙古文)
百度被诉侵犯商标权和不正当竞争
基于JAVAEE的维吾尔中介语语料库开发与实现
你最想要的输入法—QQ输入法
语料库语言学未来发展趋势
《孙子兵法》蒙古文译本简介