自建农学英汉平行语料库的初探

2020-05-25 18:46郭贤茹洪大勇董梅
鸭绿江·下半月 2020年3期
关键词:农学语料英汉

郭贤茹 洪大勇 董梅

摘要:目前国内外,通用型的、基于网络的超大型语料库发展迅速,然而专业用途的英汉平行语料库发展缓慢,数量较少,尤其是农学英语平行语料库更是寥寥无几。基于这样的现状,笔者对农学英汉术语平行语料库建设的背景和意义做了分析,探讨了建库思路和语料收集。希望为农学领域从业者、译员、论文写作者的相关工作提供帮助。

关键词:农学英汉术语;平行语料库

一、概述

(一)项目介绍

根据翻译方向不同,平行语料库可分为单向平行语料库(uni-directionalparallelcorpus)、双向平行语料库(bi-directionalparallelcorpus)和多向平行语料库(multidirectionalparallelcorpus)三种。根据使用目的不同,可分为通用英汉平行语料库和专门用途英汉平行语料库。英汉平行语料库(parallelcorpus)是由原文文本及其平行对应的译语文本构成的英汉双语语料库,其对齐程度可有词级、句级、段级和篇级这四种。[1]笔者团队的项目属于专门用途英汉平行语料库,目前对齐程度主要是词级和句级两级双语对齐,预计后续将继续收录文章以及大量语料,达到段级和篇级。

(二)现实依据

相比其它,专门用途的英汉平行语料库数量较少、规模较小。作为专门用途英语语料库分支之一的农林英语语料库,尤其是平行语料库更是寥寥无几,目前仅有华中农业大学建设的农科学术英语论文语料库、西北农林科技大学建立的FAO农业英语语料库、王景怿主持建设的英汉/汉英双语畜牧业小型语料库。研究农林英语语料库建设的学者也屈指可数,如栗娜、范晶晶、张永萍和娄瑞娟等。[2]

(三)农学英汉平行语料库及术语平行语料库的建设意义

英汉平行语料库最基本也是最重要的一个功能是确认表达是否正确。遇到模棱两可的用词和句式时,在语料库中检索、寻找例证,根据语料库的建议和范例选择合适的用词和句式以确定表达是否正确、地道。也可以用来寻求地道的翻译,根据源文和译文的对应来获得目标文本的翻译。针对农学专业同学在翻译和阅读英文文献可能遇到的困难,以及国内农学英汉平行语料库数量少、共享难的现状。本团队通过需求分析、设计语料库、收集语料、加工语料、建立语料库、开发部署语料库应用软件等步骤,以建立小型作物学英汉平行语料库为起点和基础,逐步建立起涵盖整个农学的英汉平行语料库。

二、农学英汉平行语料库的建设

(一)整体设计

本研究旨在建设一个完备的农学英汉平行语料库。语言本身是动态发展的,因此语料库也设计为动态的,可以随时对语料进行扩充或修改。在语料库的规模上,条件允许的情况规模越大越好。在语料库的内容上,要保证语料具有相当高的质量。因此在语料的收集上,遵循系统性、准确性和专用性。

由于语料来源和人力有限,本项目目前仅建设了一个小型语料库,为以后建设更大规模语料库做准备。

(二)语料的采集

语料来源于近几年各大农业期刊如《应用生态学报》、《中国农业科学》、《作物学报》等等中所使用的论文段落,保证了时效性。另一部分来源于相关辞典、网络文库,保证内容丰富性。搜集后的语料由专业学生小组进行审阅批注和修改,保证语料的准确性。

(三)语料的整理加工

1.语料清洁与标注

由于原始语料的来源各不相同,大部分需要对文本的内容和格式进行整理及标记。本项目使用MicrosoftWord、Notepad等文档编辑工具对文档修改,统一标点符号、数字与字母,去除文中多余空格,使其成为内容不互相重复、保存格式统一、排版格式一致的篇章级对齐单位。

在语料库研制中,较为通用的标注软件包括:WinBrill、QTAG等等,本项目使用这些工具对语料进行词语切分,对词性和词义进行标注,以便于后续对语料进行统计分析,研究词组或句式的用法、翻译策略及译者风格等等。

.2语料对齐与校对

经过系统整理生成的清洁规范的篇章级对齐单位,需要进一步进行对齐和校对。我们使用TMX在线对齐工具https://tmx.yeekit.com/align/#/进行语料对齐。该工具支持单文档或双文档对齐,支持世界主流46种语言,能自动识别“一对多”、“多對一”、“多对多”句子对应关系,极大地提高对齐的效率与准确度。

之后对自动对齐导出的tmx文档进行人工校对。按照规范和要求,人工调整源文与译文之间的对齐关系,并从格式、标记及内容等方面对单句进行细节性修改。

(四)语料检索工具

本研究使用了TMROBOT语料检索软件,该软件支持中英文双语查询,正则模糊搜索。同时支持语料的批量导入共享与批量删除修改;还具备在线翻译功能,方便疑难词的查询。

本研究还开发了在线语料查询网站。将农林英汉平行语料库部署在云服务器上,以网站的形式展现出来,方便用户随时随地使用。用户输入英文或中文,系统将返回含有输入内容的英汉短句及其翻译。在搜索中允许用户使用模糊搜索,如“*crop*”,将返回所有含有crop的词语、短句。在结果返回中若短句过多将会分页展示。搜索一个术语后有多个译文,则按译文中含有搜索内容的数量进行排序,数量最多的连同所在句子一起全部出现在最前面,接着是数量次级的译文,以此类推。

在线网站上,用户能够在留言板提出修改意见或者内容报错,以便管理员进入管理员页面在线对语料条目进行增删改查。开发人员能够使用NavicatforMySQL对数据库进行可视化操作,批量导入语料、查找删除修改条目,在日志中查看导入详情(导入时间、导入条目数量等等)。

三、结束语

农学英语语料库的建设不仅能给农学教学带来极大的便利,更促进相关语言研究工作的顺利开展。由于客观原因,农业英语语料库的建设和应用仍然存在缺陷,主要表现在语料采集的深度和广度不够,但是语料库不是一次成品,相信在今后的研究中,农学英语语料库会更加发展成熟完善,为农学专业其他学科的语料库建设打下基础,为国内同行的类似研究提供一定的启发,从而为促进农学事业的发展。[3]

参考文献:

[1]GB/T7714王敏,李丽霞.FAO农业英语语料库的建设和应用[J].考试周刊,2014(65):83-85.

[2]张永萍,娄瑞娟.农林英汉术语平行语料库建设初探[J].北京林业大学学报(社会科学版),2017,16(4):79-82.

[3]栗娜.浅析农业学术英语语料库建设思路及设想[J].高教学刊,000(18):261-262.

项目基金:四川农业大学大学生创新训练项目“建立英汉平行语料库—以作物学为例(201810626161)的阶段性成果。

猜你喜欢
农学语料英汉
可比语料库构建与可比度计算研究综述
基础农学发展现状及趋势分析
中古汉语分期研究所涉及的语料问题
核心句理论在英汉视译断句技巧中的应用
A Study of Oliver Twist from the Perspective of Semantic Deviation
功能对等论在英汉宣传语中的体现
如何使用第二外语学习者语料
卓越农学本科人才培养体系的创新构建与实践探索
浅议多媒体在农学专业教学中的运用
浅议农学专业教学的问题研究