基于语料库的景点介绍文本翻译系统构想

2019-09-10 07:22丰建泉
学业 2019年3期
关键词:语料库

丰建泉

摘要:提供更好的英文导游服务是提高景点对外国游客吸引力的一个重要途径。然而,当前很多景点的英文介绍并不规范,质量参差不齐。对此,文章提出建设基于语料库的景点介绍文本翻译系统来解决这一问题。文章基于双语平行语料库、机器翻译、用户生成内容、网络资源再生以及虚拟学习社区等理论,初步提出了系统模型并分析了优势。该模型有助于未来开发实用的翻译系统,提高英文导游质量。

关键词:语料库;景点介绍文本;翻译系统

一、引言

旅游产业是我国经济的重要组成部分,近年来一直保持着良好的发展态势,来自英语国家的外国游客也是旅游业的重点目标群体。在这一背景下,有必要提高服务质量以吸引更多的外国游客,其中,提供更好的英文导游服务是一个重要方面。当前很多景点主要依靠添加景点的英语介绍牌和提供会讲英语的导游员来应对这一问题,然而,这两种方式存在着一定的弊端,比如:(1)景点英文介绍文本不规范,错误频出,有些冷门景点根本没有英文介绍;(2)英语导游员水平参差不齐,参考材料匮乏,无法向外国游客清楚展示景点的文化内涵;(3)不同的旅游服务单位各自为战,景点英文资料来源五花八门,既造成了资源的浪费,也造成了英文翻译文本的统一性太差。针对这样的问题,有必要开发一个统一的在線景点介绍文本翻译系统,使用动态的平行语料库,实行开放式服务,从而为从业人员和自助导游服务提供资源支持,使不同单位和个人使用的英文介绍文本能够基本一致,提高英语导游质量和效率,吸引更多的外国游客资源。

二、理论基础

(一)双语平行语料库

语料库是指大型的存储于计算机的真实文本资料库,其语料除了原始文本外,常常还包含经过专业的语言学特征信息标注,可供研究人员利用计算机进行检索。[1]近年来,人们已将语料库研究工具与方法广泛应用于语篇分析、语言对比、词典编撰、翻译系统开发等领域并取得很大的进展。[2]语料库可以分为单语语料库、双语语料库和多语语料库。应用于翻译应用的目前主要为双语语料库,尤其是双语平行语料库,即两种语言文本在词、句或段落层面一一对齐,目前一般在句子层面进行对齐。利用语料库进行翻译的研究由来已久,目前国际上比较知名的双语平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语-英语文学文本平行语料库”等等。[3]我国双语平行语料库的建设也已经得到了很多单位和部门的支持,出现了一些通用英语和专门用途英语的双语平行语料库,比如绍兴文理学院开发的中国古典文学汉英双语平行语料库。面向旅游业的双语平行语料库比较典型的是香港理工大学开发的新型双语平行旅游语料库,旨在促进香港旅游翻译研究以及旅游英语教学。南华大学为了促进当地的旅游英语及旅游英汉互译教学,也开发了衡阳旅游汉英双语平行语料库。由此可见,利用双语平行语料库来开发景点介绍文本翻译系统是可行有效的。

(二)机器翻译

机器翻译是通过计算机技术和算法将自然语言从源语言高效翻译成目标语言的一种技术。长期以来,机器翻译一直都属于高精尖技术,当前人工智能热度高涨,机器翻译也成为了该领域的一个重要组成部分。随着计算机存储容量的不断提高,计算机运行速度的加快以及电子双语语料的出现,基于语料库的机器翻译系统大幅提高了机器翻译系统的性能。[4]基于语料库的机器翻译方法,是根据现有的真实语料,通过概率分析的方法,对语料库的内置语料进行测试解析,在统计分析的基础上计算出语言的概率信息,再以概率信息为依据反向分析真实的语言材料。[5]我国的机器翻译研究在经历了众多的探索之后,也逐渐走向了应用阶段。进入新世纪以来,机器翻译已经得到了全面普及应用,金山词霸,有道翻译,百度翻译等一系列电脑应用的开发,基本满足了普通用户对于翻译的需求。虽然这些这些应用在准确度方面有所欠缺,但是针对专业性和行业性很强的文本来说,翻译结果已经比较令人满意。机器翻译的成功案例为景点介绍文本的翻译提供了参考。从技术上来说,当前的机器翻译技术已经能够基本满足特定领域的文本翻译要求。景点介绍文本是一类特殊文本,其数量和风格相对比较固定,这对于实现基于双语平行语料库的机器翻译来说是有利的,能够提高翻译结果的准确性。如果系统能够尽可能多地收集各地景点的英汉双语介绍文本并导入语料库,则系统的实用性和翻译的准确性都会有大幅的提升。

(三)用户生成内容与网络资源再生

随着信息技术的不断发展,当前网络已经从Web 1.0发展到了Web 2.0、3.0时代。这一时代的显著特征是网络用户不再是简单的信息接受者,而是能够成为信息的创造者,即除了专业人士外,普通用户同样能够制作并上传资源,从而促进网络资源的更新。这一过程涉及两个重要概念,一是用户生成内容,二是网络资源再生。用户生成内容是指数字环境下由普通大众而不是网站运行人员提交的任何内容,这些内容可能是用户原创,也可能由用户从其他来源复制得到。[6]用户生成内容强调了大众对网络信息资源的贡献,体现了集体智慧的优势。网络资源再生是指网络信息资源能够不断的更新和发展。有研究人员用超循环理论来解释网络信息资源再生,认为信息资源再生是一个复杂的适应系统,也是一个超循环的过程;在资源再生的过程中,不同用户的观点和意见相互影响、共同发展,从而导至体现不同立场观点的资源相互作用并共同进化,如此循环往复实现资源的序化和完善。[7]用户生成内容促使现代社会信息共享发展到一个更高的层次,而网络资源再生则促使信息资源能够不断地得到优化。充分利用这两者优势,能够推进双语平行语料库的建设,增强景点文本翻译系统的准确性和可靠性。通过将双语平行语料库进行在线开放,能够吸引更多的相关从业人员加入语料库的建设,动态持续扩充语料库的规模,同时,也能够不断地对现有平行语料进行编辑和更新,提高语料的准确度。从业者的广泛参与能够大大提升语料库的规模和质量,由此文本翻译质量也会得到相应的提高。

(四)虚拟学习社区

互联网的兴起促进了虚拟社区的发展。随着技术的进步,人们可以突破时空的限制,通过基于互联网而形成的虚拟网络寻求人际、社交和职业上的帮助,这使得建立网络虚拟社区成为了可能。[8]虚拟学习社区是虚拟社区的一个类型,是由具有共同兴趣及学习目的的人组成的学习团体在Internet上构建的虚拟学习环境,他们通过相互的交流、互动、讨论和协作,共享观点、思想、资源、知识、学习经验和集体智慧,从而促进知识建构和个体智慧的发展。[9]虚拟学习社区概念对于开发在线动态文本翻译系统具有很大的参考价值。在信息技术的支持下,英语导游从业人员如果通过在线平台联系起来,就相当于形成了一个具有特定目的的大规模虚拟学习社区,在获取准确的英文介绍文本这一目标上大家的期望是一致的,在相同驱使力的作用下,相互之间能够形成一种协作关系,共同维护系统的运行。社区中的每一位成员也是文本翻译系统的用户,能够通过系统获取、上传或更新文本;同时,成员之间也能够进行沟通交流,相互交换经验、共同进步。通过虚拟学习社区的运作,基于双语平行语料库的文本翻译系统能够更好地发挥作用:首先,相互之间的交流互动能够促进信息共享,为平台挖掘到更多的优质平行语料;其次,相互之间的讨论切磋能够帮助及时发现语料问题,减少错误;第三,学习社区形成一种文化和信念能够促使相关从业人员提高自身的业务素质,形成良性循环。

三、景点介绍文本翻译系统

当前基于语料库的翻译系统并不少见,很多词典软件都带有该功能,在简单的语境下能够满足基本的需求。然而,市面上并没有专门针对国内旅游景点介绍文本的通用翻译系统。并且,一般翻译系统对于用户而言都是封闭的,用户即使发现问题也无法参与改进,这对于系统的持续性优化是不利的。对此,文章拟提出一个在线运行的面向旅游景点介绍文本的翻译系统,以期提高翻译系统的针对性、开放性和进化能力。

(一)文本翻译系统模型

该系统模型的设计基于多个维度的考虑:互联网为文本翻译系统提供了运行平台,双语平行语料库为系统的搭建提供了物质基础,机器翻译为系统的运行提供了技术基础,用户生成内容和网络资源再生为系统的更新和优化提供了机制保障,而虚拟学习社区则为系统的运行提供了广泛的人力基础。据此,本文提出了如下基于语料库的景点介绍文本翻译系统模型(见图一):

图一景点介绍文本翻译系统模型

文本翻译系统由两大部分组成:一是进行社区管理的用户模块;二是执行语料库建设和翻译操作的功能模块。用户模块能够创建新用户,注册成功的用户将获得翻译文本、调用文本、编辑更新现有语料库文本等功能,还能够利用平台交流工具与同行进行交流互动,融入虚拟学习社区。用户模块强调的是人的因素,目的在于驱动用户在使用系统的同时增加投入,为改善系统和发挥系统的效益贡献一份力量。功能模块的核心是语料库模块和翻译模块。语料库模块具体为汉英双语平行语料库,该库是开放的,支持用户对现有的文本进行编辑和更新,支持手动输入双语平行句对,同时也支持导入市面主流语料库软件生成的双语对齐文本。语料按照景点名称关键词进行存档,能够不断地得到扩充。翻译模块能够按照用户的检索要求从系统语料库中获取文本,一种方式是直接按照景点名称关键词调取可以直接使用的语料,另一种方式是自定义文本,由系统通过机器翻译的算法生成参考翻译文本。

(二)文本翻译系统特色

基于双语平行语料库的景点介绍文本翻译系统充分利用了自然语言处理技术的优势以及当前网络发展带来的资源生成新模式和协作工作模式,能够集结众人智慧和资源,促进信息共享,改善信息质量,提高工作效率。首先,该系统能够将分散的人员形成合力,避免资源的浪费和重复劳动。该系统基于互联网运行,所有从业人员能够通过该系统形成一个大型的虚拟学习社区。每一个人都能够将自己所拥有的景点介绍文本资源上传到系统,成为系统内置双语平行语料库的一部分,每个人都可以提出翻译需求,交由众多的从业者共同解决问题,并将结果归入内置语料库。其次,该系统能够凝结集体智慧,提高系统的自我进化能力,保证语料库和翻译的质量。在该模式下,成员协同工作将成为常态,每一个人都可以发表自己的观点,甚至对现有的语料库文本进行编辑修改。在网络时代,认知是分布的,更多人的参与往往能够博采众长,减少问题出现的几率,提高最终结果的准确性。从事英语导游工作的人员群体规模较大,每个人都具有独特的视角,该系统能够综合不同人的观点,促进语料质量的提升。第三,该系统能够打通信息渠道,提高工作效率和质量。双语平行语料库的建立以及翻译功能的完善能够为相关从业人员提供丰富的信息资源,使原本需要自己单打独斗对付的问题在短时间内又好又快地得到解决。个人的视野也将得到扩展,有利于更好地进行导游工作。第四,该系统能够用于旅游产业的其他方面,具有很强的应用潜力。通过将系统内置于智能移动终端,并增加当前较为成熟的文本朗读功能,即可成为信息量庞大的英文自助语音导游终端。通过增加语音识别、二维码扫描等功能,更是能够成为自助导游利器。最后,该系统能够为教育服务。当前旅游专业英语教学的可用资源并不足够,来源比较单一。该系统能够为教师和学生提供丰富的案例和信息,能够应用于技术支持下的各种学习场景和教学模式,从而提高教学质量。

(三)文本翻译系统难点

该系统融合了计算机技术、自然语言信息处理、社会交际网络等多维视角,在开发过程中具有若干难点。首先,机器翻译的算法是保证翻译结果准确度的关键,虽然当前已经有比较成熟的算法,但将算法进行适应性修改并融入新系统仍是需要深入研究的技术问题。其次,语料库是进行机器翻译的基础,直接影响到翻译结果的优劣。语料库的建设具有特定的模式和规则,需要对语料库的开放式编辑入口进行合理设计,降低技术门槛,保障普通用户能够顺利上手。第三,系统需要比较庞大的用户群体来推动系统的运行和进化。各地景点相关从业人员是分散的,如何调动和凝聚起来,是需要探讨的问题。最后,系统的运行管理值得研究。管理主体、经费来源、激励机制、责任区分等都是能对系统运行产生重要影响的因素。

四、结语

信息技术的发展为当前社会很多问题的解决开辟了新的视角,基于语料库的翻译技术为景点介绍文本的翻译提供了新的手段。文章论述了搭建翻译系统的理论基础,并初步提出了理论模型,为后续系统的开发打下了一定的基础。本研究的不足之处在于提出的模型还比较粗糙,尚未进入实质性阶段。未来研究可以将系统开发作为重点工作,针对景点介绍文本的特点改良现有机器翻译算法,建设简洁、易用、有效的翻译系统。同时,系统运行机制的研究也很有必要,只有真正将相关人员通过系统汇聚到一起,充分调动他们的积极性,才能发挥系统的优势和效益。

参考文献:

[1]张彧, 张晓丹. 语料库与商务英语文本翻译研究[J]. 吉林师范大学学报(人文社会科学版),2010 (3): 55-57.

[2]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[3]肖庚生, 陈欣.旅游汉英双语平行语料库的建设与应用[J].湖南科技学院学报,2012(10):163-165.

[4]徐一灿, 刘继斌. 机器翻译的现状和前景[J]. 海外英语, 2017(21):117-118+148.

[5]杨惠中. 语料库语言学与机器翻译[J]. 上海交通大学学报,1993(1) : 98-111.

[6]Shim, S., &Lee, B. Internet Portals' Strategic Utilization of UCCand Web 2. 0 Ecology[J]. Decision Support Systems, 2009 (47) :415-423.

[7]何向陽,熊才平,张文超,等.超循环理论视角下的信息资源再生研究[J].中国电化教育,2014,(2):54-59.

[8]胡勇, 李宇峰. 虚拟学习社区的内涵及其相关研究概述[J]. 现代远程教育研究, 2012(3):32-42.

[9]甘永成. 甘永成, 祝智庭. 虚拟学习社区知识建构和集体智慧发展的学习框架[J].中国电化教育, 2006(5): 27-32.

猜你喜欢
语料库
语料库辅助英美文学教学模式初探
可比语料库的建立及翻译教学研究
基于语料库翻译学的广告翻译平行语料库问题研究
护理英语语料库建设探索
如何利用语料库语言学提高英语教学
浅谈语料库分类及用途
近5年语料库应用于外语教学的研究综述
国内外语料库建设研究简述
运用语料库辅助高中英语写作
关于“nothing succeeds without a strong will”的语料库研究