第十四届机器翻译峰会(MT Summit XIV)综述

2015-04-25 09:57张霄军
中文信息学报 2015年1期
关键词:评测研讨会峰会

张霄军, 刘 群

(1. 都柏林城市大学 CNGL研究中心,都柏林 爱尔兰;2. 陕西师范大学 外国语学院,陕西 西安 710062;3. 中国科学院 计算技术研究所,北京 100190)



第十四届机器翻译峰会(MT Summit XIV)综述

张霄军1,2, 刘 群1,3

(1. 都柏林城市大学 CNGL研究中心,都柏林 爱尔兰;2. 陕西师范大学 外国语学院,陕西 西安 710062;3. 中国科学院 计算技术研究所,北京 100190)

2013年9月2日至9月6日,第十四届机器翻译峰会(Machine Translation Summit XIV,以下简称“峰会”)在风景优美的法国南部海滨城市尼斯(Nice)举行,会议议程为: 9月2日至9月3日为专题讲座(Tutorial)和专题研讨会(Workshop),9月4日至9月6日为主会议(Main Conference),详见http://www.mtsummit2013.info/index.asp。峰会吸引来自世界各地的机器翻译研究者、用户和企业代表、科研项目负责人和参与者等会议代表300余人,笔者作为爱尔兰科学基金(Science Funding of Ireland, SFI)项目CNGL(Centre for Next Generation Localisation)的代表参加了此次峰会。

1. 专题讲座和专题研讨会

峰会共举办了6场专题讲座和4场专题研讨会,并行进行,强度非常密集。

6场专题讲座分别为:

(1) 开源统计机器翻译(Open Source Statistical Machine Translation)。开源代码共享是统计机器翻译快速发展的基础,越来越多的机器翻译研究者已经乐于公开自己的源代码。在这场讲座中Moses研发者Philipp Koehn和Hieu Hoang就这款被广泛采用的统计机器翻译的基础性开源工具进行了详细讲解。

(2) 机器翻译中的领域自适应(Domain Adaptation in Machine Translation)。领域自适应是机器翻译系统研发的一个热点。在这场讲座中,来自德国汉堡大学的专家从Domain的定义出发,详细讲解了如何实现机器翻译系统的领域自适应。

(3) 从科学研究到成功开办公司,一种商业模式的产生(From Research to Successful Start-up: a Business Model Generation)。在这场报告中,tauyou公司首席执行官Diego Bartolom博士从商业运作的角度阐述了自然语言处理技术与翻译产业之间的关系,构建了一种科研和产业共赢的商业模式。

(4) MateCat: 一种用于机器翻译后编辑的开源计算机辅助翻译工具(MateCat: an Open Source CAT Tool for MT Post-Editing)。这场讲座所介绍的MateCat是在欧盟项目支持下开发的一款企业级的计算机辅助翻译工具,它能够提供一种基于网络的专业翻译环境,将翻译记忆和Moses机器翻译系统结合起来,而且是以开源的形式发布的。

(5) 通过标准实现本地化和翻译流程中的互用性。Linport方法(Enabling Interoperability in Localization and Translation Workflows through Standards- The Linpot Approach),互用性也已成为本地化产业的行业准则,良好的互用性可以确保本地化和翻译供应链中信息传递的完整性。TBX、TMX、ITS和 XLIFF等都是语言资源格式互用性的标准,Linport就致力于这种语言资源无缝互用的标准创制。这场讲座围绕Linport的工作开启了本地化数据标准化之旅 。

(6) 一种基于Web Services快速构建机器翻译工作流程的架构(An Architecture based on Web Services for the Rapid Development of Workflows for Machine Translation)。这场讲座也是有关领域自适应的,讲者主要讲解了他们正在从事的一项欧盟项目PANACEA,该项目致力于整合不同语言资源、技术和网络服务快速构建领域自适应的机器翻译系统。

4场专题研讨会分别为:

(1) 第5届专利翻译研讨会(The 5th Workshop on Patent Translation) : 从2005年第十届机器翻译峰会(泰国)开始,每届机器翻译峰会都有一次专利翻译的专题研讨会,迄今已是第五次,显示了机器翻译在专利翻译领域应用的广泛性,体现了机器翻译技术在专业翻译领域的优势。日本、韩国、中国、欧盟和美国是世界上专利翻译需求最为突出的国家和地区,加强各个国家专利翻译领域的交流也是此次峰会的贡献之一。

(2) 第二届后编辑技术与实践研讨会(The 2nd Workshop on Post-Editing Technologies and Practice): 去年(2012年)美洲机器翻译会议(AMTA2012)上举办了第一次后编辑技术与实践专题研讨会,这次是第二次。与上次不同的是,本次研讨会突出了后编辑的“技术”特征,特别关注翻译过程中的人机交互方式(human-machine collaborations)。

(3) 以用户为中心的机器翻译及评价(User Centric Machine Translation & Evaluation): 从用户的角度看机器翻译是机器翻译走向实用的必经之路。欧洲机器翻译发展既重视技术创新,又关注产品应用,将二者紧密结合起来。因此,从用户的视角去评价机器翻译技术也是目前的研究方向之一。为此,欧盟立项资助科研项目QTLaunchPad,笔者也参与了该项目,以用户为中心的机器翻译及评价专题研讨会也可以说是QTLaunchPad项目的小峰会。

(4) 机器翻译与翻译技术中的多词单元(Multi-word Units in Machine Translation and Translation Technology): 多词单元(MWUs)是一个复杂的语言学现象,指的是一些固化或者半固化的词汇序列,如命名实体、短语动词等。在机器翻译中,多词单元的自动识别和翻译问题尚未完全解决。此次专题研讨会将多词单元问题置于语言研究、翻译研究和自然语言处理研究多元背景下,探讨了该问题的解决方案。

2 主会议

峰会主会议有两位邀请发言(Invited Speaker)和4位用户代表发言(User presentation),分会(Session)共有12场。期间还进行了一场张贴海报分会(Research Poster Session)、一场项目展示(Project Village)、一场企业展览(Exhibition Opportunity)和一场圆桌讨论(Panel Discussion)。

邀请发言人之一为德国慕尼黑大学教授、著名机器翻译专家Hinrich Schuetze,他做了题为“操作序列模型: 在单一自左至右模型中融入翻译与调序操作(The operation sequence model: Integrating translation and reordering operations in a single left-to-right model)”的主旨报告,讲解了操作序列模型(OSM)在机器翻译中的应用,该模型目前已经在开源的Moses系统中实现,并且可以在原有的短语模型基础上显著而稳定地提高系统的性能,受到了很多的关注;另一位邀请发言人做了题为“揭去机器翻译的神秘面纱: 从真实世界中学习(Demystifying Machine Translation: Learning from the Real Word)”的主旨报告,以通俗的语言讲解了外部世界知识对统计机器翻译的重要影响。4位受邀做大会报告的用户分别来自Adobe、LionBridge、IBM Germany和Microsoft Research四家跨国语言服务客户或供应商。

12场分会又划分为两类(Track)——研发类(R&D Track)和用户类(User Track)”,共收录报告论文36篇。研发类的八场分会分别围绕“自适应与翻译类型(Adaptation and Genre)”、“质量评估与机器翻译应用(Quality Estimation and MT Application)”(两场分会)、“语义消歧、语义相关度与在线自适应(WSDs, Semantic-relatedness and Online Adaptation)”、“后编辑与术语(Post-editing and Terminologies)”、“对齐与词序(Alignment and Word order)”、“自调参与自动归纳(Self-Tuning and Automatic Induction)”、“资源贫乏的机器翻译及其应用(Resource Poor MT and MT Applications)”等主题展开。用户类的4场分会也就翻译市场、翻译工具使用、机器翻译后编辑标准化、用户评价、翻译与大数据等与翻译行业发展密切的话题进行了讨论。

张贴海报分会共收录张贴海报论文13篇,峰会也给了海报论文作者们充足的时间(12:30-16:00,9月 3日)向参会代表介绍他们的研究成果。

项目展示和企业展览精彩纷呈,共有24个项目组和8家公司展示他们的研究内容和产品开发。峰会特意为参展的欧盟及政府项目组提供了一分钟的口头宣传时间,刘群教授代表爱尔兰科学基金项目CNGL上台发言。

峰会行将闭幕之前还举办了一场别开生面的圆桌讨论,以“机器翻译巴别塔(The MT Translation Tower Babel)”为主题,讨论了机器翻译中研究、教育、开发、服务和使用之间的关系和障碍,机器翻译发展的未来、机器翻译在经济社会中的作用等话题,参加圆桌讨论的代表们畅所欲言,台下的听众也能随时提问,圆桌讨论气氛融洽。

3 颁奖及其他

峰会闭幕前颁发了最佳论文奖(Best Paper Award)、欧洲机器翻译协会终身成就奖(EAMT Lifetime Achievement Award)和2013年国际机器翻译协会荣誉奖(IAMT Award of Honor 2013)。

本届峰会最佳论文奖颁给了George Foster、Boxing Chen和Roland Kuhn合写的“统计机器翻译线性融合自适应的模拟判别训练(Simulating Discriminative Training for Linear Mixture Adaptation in Statistical Machine Translation)”。该文在线性融合模型上做了两点改进,一是对短语表进行了预处理以取得更优的最大似然估计权重,二是在统计机器翻译训练模型中选择使用了恰当的线性融合判别训练特征。这两点改进使得系统的BLEU值大为提高,能够满足领域自适应的需要。

本届峰会将2013年国际机器翻译协会荣誉奖授予RWTH的Hermann Ney教授。Ney教授回忆说,二十世纪90年代后期,全世界做统计机器翻译的研究组只剩下包括他们和香港科技大学吴德凯在内的少数几个研究组,连IBM自己都不做了,而现在统计机器翻译已经成为机器翻译的研究主流。

本届峰会将欧洲机器翻译协会终身成就奖授予John Hutchins博士。John Hutchins本人并不做机器翻译的开发研究,但他是机器翻译研究领域的忠实记录者和评论家,数十年如一日记录机器翻译研究取得的成果并发表了大量评论文章著作,整理和维护了机器翻译论文库和资源工具清单,为这个领域做出了特别的贡献。

峰会期间还召开了各大洲机器翻译协会会议(EAMT/AMMT/AAMT Separate Meetings)。

峰会最后由新上任的IAMT主席Alon Lavie宣布,AMTA2014在加拿大温哥华举行,MT Summit 2015在佛罗里达的迈阿密举行。

由于此次会议在欧洲进行,国内与会代表不多。为了让国内学者及时了解和掌握峰会动态,在峰会现场,笔者分别通过新浪微博(@刘群MT-to-Death)和 网 易 博客(http://blog.163.com/andy_zxj@126/)进行了会议直播,此举得到国内广大网友和机器翻译研究者的热烈欢迎。

4 总结与思考

笔者体会,除了通常机器翻译研究所关注的学术研究问题,此次峰会也非常关注机器翻译的实际应用,其热点可以用3个关键词加以概括: (1)领域自适应;(2)交互式后编辑;(3)评测指标。以下是笔者对这些关键词的思考。

(1) 领域自适应研究得到了极大重视。从专题讲座开始,“领域自适应”就成了峰会的一个热点词汇。实际上这是两个关键词,一是“领域”,什么是领域?有哪些领域?二是“自适应”,如何自适应?怎样评价自适应的效果?这些问题自始至终都是峰会代表们探讨的核心问题,也是日后机器翻译研究要解决的问题。

(2) 交互式后编辑方法研究方兴未艾。ALPAC报告之后,后编辑一直是机器翻译研究不可或缺的一项内容,但长期以来,后编辑都被视为是翻译人员(或专业后编辑人员)的人工作业。本次峰会上着重讨论了交互式后编辑方法,也有学者提出了通过错误驱动的方法实现自动后编辑的方法。“实际上,交互式后编辑能够将机器翻译和翻译记忆有效地整合在一起。”实现智能的后编辑既是提高机器翻译质量的有效途径,又是提高用户翻译效率的便利方式。

(3) 机器翻译评测指标呈多样性态势。长期以来研究者们提到的“评测”都集中在机器翻译的译文质量评测上,传统的人工打分评测方法或是BLEU,METEOR等自动评测指标都是面向机器翻译研究的,其目的都是为了改进机器翻译系统。然而,对于机器翻译产品的用户而言,什么是他们期待的评测指标?上述评测数据对他们有没有用?

还有一点,MT Summit与ACL的明显不同之处在于: MT Summit除了有学术界代表参会以外,还有大量机器翻译用户代表参加,并专门为用户类论文设立分会场,鼓励用户一起讨论在机器翻译应用中遇到的问题和交流经验,在关注机器翻译研究的同时,更加注重机器翻译的实际应用,更加贴近机器翻译用户。此次峰会传承了这样的传统,并且到会的用户类代表人数首次超过了到会总人数的一半,科研工作者与企业客户的互动非常密切。

5 致谢

本文工作受爱尔兰科学基金(资助编号: No.12/CE/I2267)资助。爱尔兰都柏林城市大学吴晓锋博士、博士生李良友和张健审阅了本文初稿并提出修改意见。在此一并感谢。

[1] 米海涛,赵红梅,刘群. 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介[J]. 中文信息学报,2009,23(6): 122-125.

[2] 张霄军,贺莺. 翻译的技术转向.中国翻译,2014(6): 74-77.

张霄军(1978—),博士,副教授,硕士生导师,主要研究领域为现代翻译技术。E⁃mail:xzhang@computing.dcu.ie刘群(1966—),博士,研究员,博士生导师,主要研究领域为机器翻译。E⁃mail:qliu@computing.dcu.ie

1003-0077(2015)01-0203-04

2013-09-26 定稿日期: 2013-10-30

猜你喜欢
评测研讨会峰会
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
阿来长篇小说《云中记》研讨会实录
攻坡新利器,TOKEN VENTOUS评测
外媒聚焦上合峰会:风劲帆满待启航
香山峰会的新期待
峰会如何蝶变一座城
历届峰会回顾
王国钦《知时斋说诗》研讨会在北京召开
“李元洛《诗美学》研讨会”在京召开