农科学术英语论文语料库的创建*

2015-08-17 19:01华中农业大学黄小倩
语料库语言学 2015年2期
关键词:期刊论文农科语料

华中农业大学 刘 萍 黄小倩 刘 珊

农科学术英语论文语料库的创建*

华中农业大学 刘 萍 黄小倩 刘 珊

本文介绍华中农业大学“农科学术英语论文语料库”的创建情况,包括语料收集、文本的转换与清洁、标记、赋码等。借助CQPweb网络语料库系统,将该语料库部署在校园网供博士生和本科生的学术写作教学。语料库应用于教学的效果调查表明:调查对象认为语料库的应用有利于提高学术英语写作水平,有意愿在写作实践中继续运用语料库这一工具与资源;同时调查对象也指出:现有的语料库资源有待充实,语料库的检索操作仍显复杂。本研究旨在为专门用途语料库的建设提供一些参考。

农科学术英语论文、语料库、学术英语、CQPweb

1. 国内外专业用途英语语料库的建设

20世纪60年代,世界上第一个电子化英语语料库布朗语料库问世后,各种类型、用途、规模的语料库相继建成。按研究目的,可将语料库分为通用英语(EGP)和专门用途英语(ESP)语料库。布朗语料库、英国国家语料库等均属于通用英语语料库。而专门用途英语语料库是特定领域语言的反映(黄大网等2010),包括商务、法律、医学等专业方向的语料库,广泛应用于词典编纂、机辅翻译、语言教学等。专门用途英语中的很多用法在通用英语语料库中未有收集,因而无法检索到例子,那么就需要建立专门用途英语语料库。Sinclair(2003)曾指出大型语料库的建设已趋缓,建设规模较小、专业针对性更强的ESP语料库将是语料库建设的发展趋势。国际上有代表性的ESP语料库,包括Hyland建设的多学科学术期刊论文语料库(含8个学科,240篇论文,130万词)、Swales(2003)开发的学术口语语料库(录音转写170万词)。另外,英国考文垂、雷丁等大学(2004-2007年)联合建设了英国学术英语写作语料BAWE(British Academic Writing of English)库,该库子集life sciences(140万词)的收录涉及农业科学(134篇)、生物科学(169篇)、食品科学(124篇)3个农业学科400多篇,代表着由高层次英语母语学习者撰写的学术论文。当然,life sciences子语料库并非农科英语专属语料库,它同时也收录了医学、健康、心理学等领域的学术论文。除此之外,未见国外其他农科英语语料库建设的相关文献记载。

在国内,1983年由杨惠中和黄人杰主持建成的上海交大科技英语语料库JDEST是国内建设的第一个学术英语语料库。自20世纪90年代以来,很多学科领域都相继建设了专门用途英语语料库,如军事、海事、法律、商务、医学、计算机等学科的ESP语料库(赵晴 2010;董爱华 2013)。迄今为止,国内有关农科英语语料库建设的文献只有3个检索结果,包括西北农林大学(王敏、李丽霞 2014:6855)建设的动物科学国际期刊论文语料库(100万词)、王景怿(2015:51)主持建设的英汉/汉英双语畜牧业小型语料库,但这两个语料库不仅库容量小,而且只涉及农科领域某一个专业方向。有学者(范晶晶、李丽霞 2014;栗娜 2015)呼吁创建农业学术英语语料库,并提出了建设构想,这表明国内部分学者已经意识到农科英语语料库建设的必要性和重要性。

2. 建设农科英语语料库的必要性

语料库被广泛用于语言教学与研究,正如Leech(1993)所言:“从科学方法的角度,语料库研究方法是一种更为强有力的方法,因为其结果是可以验证的。”Johns(1991)提出了“数据驱动学习”(Data-driven Learning,简称DDL)。国内的语料库专家论证了语料库的频率统计、概率分析等功能对于写作中词块、类联接、语义韵律等语言使用方面的研究价值(李文中 2001;王克非、黄立波2008;王克非、秦洪武 2012),桂诗春等(2010)专家论证了语料库与ESP发展的互动关系,呼吁利用语料库促进ESP教学发展。

农业是涉及国计民生的支柱产业,众多从事农业科技研究的科研人员和高层次的学习者均有发表SCI论文、在国际上推广农科研究成果的需求。因此,农科英语语料库的建设及其在写作教学中的应用具有紧迫的现实意义。依托国家社科基金项目,项目组创建了农科学术英语论文语料库,旨在为农科专业高层次学习者的ESP写作教学及SCI论文写作过程提供资源、工具与方法,提升农科英语论文的写作质量与刊发率,最终促进农科成果在国际上的推广。

农科学术英语论文语料库是根据农学专业分类,收集农科文献中完整的学术英语论文文本而建成的电子文库。该库收集的文本包括已发表的权威期刊论文和农科专业硕士生、博士生撰写的学术论文。该库的创建意义有:1)多学科、跨学科、交叉学科的农科学术英语论文语料库的创建可基本满足ESP写作教学多方面的需求,例如为教材建设、大纲与词表的制定、农科词典编纂、农科专业翻译和语言培训提供资源与工具;2)语料库的应用将促进写作教学的改革。长期以来,写作教学被认为费时低效,枯燥的讲授与单调的操练导致产出格式化、形式化(蔡少莲 2008),语料库数据驱动的写作教学方式可提高写作教学成效,促进ESP写作教学改革。

3. 农科学术英语论文语料库的建设流程

3.1 农科学术英语论文语料库及其网络检索平台

农科学术英语论文语料库包括农科方向的SCI期刊论文语料库(336个完整论文文本,220万词)与学习者语料库,后者收录了硕士生、博士生出于真实SCI发表目的撰写的学术论文(306个完整论文文本,140万词)。这两个平行的语料库有着相同的结构框架,其下是按照学科分类的专业论文子集,包括九个学科:植物科学(ZWKX)、动物科学(DWKX)、生命科学(SMKE)、园艺林学(YYLX)、水产科学(SCKX)、食品科学(SPKX)、农科机械(NKJX)、农业经济(NYJI)、资源环境(ZYHJ)。每篇论文按照“学科名称汉语拼音的首字母组合 + 数字”命名,例如植物科学专业的第34篇论文,命名为ZWKX34。为了凸显传统农科专业的地位,336篇期刊论文中4个传统的农科专业(植科、动科、生科、园林)的文本数量(在50篇以上)比其他学科(在25篇以上)要多。期刊论文语料库代表英语母语者专家语料库,学习者语料库代表汉语母语者语料库。这两个语料库除了按照学科划分的9个学科子语料库之外,还按照论文的部分分类,建立了6个论文部分子语料库,包括摘要ABS(abstract)、引言INT(introduction)、方法材料MET(methodology)、结果RES(results)、讨论DIS(discussion)、结论CON(conclusion)。语料库构架如下图所示:

图1. 农科学术英语论文语料库构架

为了实现语料库资源共享与服务写作教学及其研究的目的,项目组在北京外国语大学语料库团队(特别是吴良平老师)的帮助下,架设了基于校园网的语料库检索平台(corpus query processor,简称CQPweb)。该平台主体为农科学术英语论文语料库。同时,为了语言的对比研究,得到授权后,项目组又上传了BAWE语料库。该库收录了高层次英语母语学习者撰写的学术论文,可进行英、汉语母语语言使用的对比比较,亦可进行专家和学习者的语言对比研究。

3.2 语料选取的标准与文本元信息标记

9个农科专业方向相关的期刊论文来自9个农科院系的专家、教授们亲自下载推荐的权威期刊论文。他们对刊源的权威性和论文本身的质量进行了严格把关。期刊论文语料的选择标准包括:1)论文的第一作者必须是英语母语者(依据姓名、国籍、工作单位、作者介绍判断);2)源PDF论文的分栏排版最好是一栏或两栏;3)文章具有典型的SCI论文结构,即包括摘要、引言、方法材料、结果、讨论、结论几个结构板块,剔除了板块结构不够明显的论文。例如,刊源为Science、Nature等自然科学顶级期刊上介绍性、报道性或综述性的文章被剔除;4)文章的长度以10页左右为佳,不宜过长,也不宜过短。最终我们收集到9个农科专业满足条件的论文共336篇(220万词)。其中大部分期刊论文的作者来自美国和英国,少部分来自于加拿大、澳大利亚以及新西兰等英语国家,刊源为包括Nature和Cell等在内的国际权威期刊。

学习者语料库的语料来自华中农业大学9个农科专业方向的硕士生、博士生出于真实SCI论文发表目的而撰写的研究论文。论文由专门提供学术英语论文语言修改服务的华农学术写作工作室提供。项目组从该工作室采集到从2010年1月至2015年3月修改前的完整学术论文共300多篇,经语料加工,最终得到有效文本305篇(140万词)。总的来说,由于来源局限,学习者论文语料比期刊论文语料少,论文的学科分布均衡性也不及期刊论文。由于论文修改遵循自愿原则,并非所有写作者都选择向华农学术写作工作室提交论文修改请求,有的院系的学生直接向国外公司提交论文修改。今后,我们将加大华农学术写作工作室的宣传力度,同时,我们将建立与其他农科院校的合作,争取在更广范围内获取学习者撰写的研究论文,以便拓展语料来源,以求学习者语料库语料的代表性及学科均衡性。

语料采集之后的工作便是文本元信息的统计。论文的编号与命名、文本字数、作者国籍、期刊来源、作者姓名、论文标题等信息被填写在Excel表格中,以便对某些信息数据进行计算分析。

3.3 文本转换与清理、赋码、标记与子语料库的建设

3.3.1 文本转换与清理的两种方法

文本元信息统计之后,便是对语料的加工处理。期刊论文的语料加工往往从PDF格式转换开始,学习者语料库则从DOC格式文本转换开始。在此我们介绍两种从PDF到TXT的文本格式转换方法。

方法一:此法采用北京外国语大学中国外语教育研究中心和外语教学与研究出版社联合举办的暑期语料库培训课程中所介绍的方法,该方法对期刊论文语料进行了两次转换,即从PDF到DOC,再到TXT。文本格式转换需借助的工具软件和操作步骤展示如下:

(1)PDF文件转换成DOC文件。这一步骤所用的工具软件为Adobe Acrobat。首先对页眉、页脚裁剪删除,之后另存为DOC格式文件。然后删除DOC文件中的噪音信息,如刊源信息、作者信息(包括作者姓名、通讯地址等)、图表、注释、参考文献等等,有些文本信息的取舍取决于研究目的,例如是否保留致谢部分取决于研究需要。

(2)将所有由PDF文本转换得到的DOC文件整理到一个文件夹中,利用“DOC to TXT”软件一次性转换成TXT格式文件。但是转换后的文本中乱码现象时有发生。针对这一问题,课题组成员尝试着利用Nitro Reader软件将PDF格式直接转换成TXT格式文本,但是该软件不具备裁剪页眉、页脚的功能,所以增加了手动删除的工作量,但基本上不会出现乱码和正文内容板块顺序错乱的情况,所以两种软件各有利弊。

(3)核对检查TXT文件信息。对照PDF源文件,检查TXT文件。检查对象包括在删除、复制、文本格式转化过程造成的文本内容的遗失、重复、板块结构顺序错乱以及拼写错误。例如,我们发现经过两次格式转换后,有些单词中“fl”和“fi”的字母组合被显示为“?”。如果某类错误有规律可循,便可以使用EditPad Pro软件进行查找和替换,批量处理,或者在PowerGREP软件中逐个修改。

(4)TXT文本的清洁。经过上述检查步骤得到一个初步的TXT基础文本,但是这绝非是最终可以使用的清洁文本,因此需要对TXT基础文本进行清洁。TXT文本清洁工具软件可采用PowerGREP软件。

方法二:

我们不妨把上述文本转换与清理的方法称之为方法一。采用方法一,项目组完成了200多篇期刊论文语料的加工与处理。实践表明,通过方法一加工1篇期刊论文文本的工作,包括从PDF到TXT文本的转换与清洁大致需要花费40-60分钟。语料库建设后期,华农的博士生参与了语料资源的共建共享,有博士生推荐了一种快速有效的文本转换方法,我们将其称之为方法二。方法二加工处理1篇期刊论文平均所需时间在10分钟以内,是方法一所需时间的1/6或1/5,依靠此种方法得到的TXT文本,基本不需要文本清洁,即文本转化与清洁两项工作一并完成。使用方法二实现从PDF到TXT直接转化的3个简单步骤如下:

步骤1:用以下网址搜索所需要的英文文献:http://www.gfsoso.netscholar;https://scholar.ghbcx.com;https://scholar.wddmz.com。以第一个网址为例,在谷粉搜搜中找到提供全文资源的期刊论文。

步骤2:在网络页面找到相关全文资料后,不需要下载全文,可直接在网页上点击Full Text (HTML)浏览全文。

步骤3:直接选中目标,复制内容,新建TXT文件,把复制的内容直接粘贴到TXT文件中,便得到TXT目标文件。

方法二的优点在于:1)基本上不会出现断行和乱码现象;2)可以避免删除图表及其注释的大量繁琐工作,省时高效;3)操作简便易行。此法得到的文本可以放在PowerGREP软件中进行删除空行的简单处理就能得到我们需要的清洁文本。同时利用谷粉搜搜检索期刊论文也是对期刊论文质量的检验。但是,此法的局限性在于过分依赖网络,仅能加工处理网络上能够检索到的文献,不能处理非网络版的文献。

3.3.2 赋码与标记

文本赋码将有利于文本的检索。利用正则表达式进行的复杂检索对文本赋码提出了要求。不同工具软件甚至要求不同的赋码形式。目前,英语文本的赋码主要有TreeTagger和CLAWS两种赋码,二者皆可借助软件自动完成。总的来说,CLAWS赋码比TreeTagger赋码的精确程度更高。华农语料库对TXT原始文本进行了TreeTagger和CLAWS两种赋码,以便适用于不同的检索工具。

为便于语料的提取,项目组对336篇期刊论文和305篇学习者论文文本(总共641篇)中title、abstract、body 3个部分进行了标记。标记方法是在标注对象的开始位置与结尾位置分别加上一对尖括号。例如,对标题的标记,是在标题前加,标记后的标题可提取,而对摘要和正文的标记,同样可以达到提取的目的。

3.3.3 子语料库的建设

为了聚焦论文不同部分的写作教学及其研究,在全文语料库建设的基础上,我们进行了论文各部分(摘要、引言等)子语料库的建设。论文部分子语料库的建设遇到了以下一些问题:

1)不同期刊的论文写作规范要求不一致,导致某些论文6个部分的结构不是很清晰。例如,有的论文将Abstract界定为Summary,其位置可能放在论文的开头,也可能放在论文的结尾;有的论文中Abstract部分甚至缺失;有的论文的Results部分可能与Discussion部分合并,Discussion也可能与Conclusion部分合二为一。

2)语料的高度专业化给论文部分的切分、提取带来了技术障碍。语料加工者原本是英语专业的学生,其自身的知识完成不了论文章节部分的切分。同时,科技论文并非纯语言文本,里面含有大量的学科专业领域的符号和公式,很多符号是英语语言文学专业学生不曾接触到的,有些符号、公式的删除会影响论文本内容的完整性,那么具体的符号与公式是否能删掉,文本中的某些上下标是否应该恢复,抑或可以删掉等问题的解决需要应用专业学科知识进行识别、判断与处理。

鉴于此,我们把子语料库的建设任务以课后作业的形式分配给参与华农学术英语写作课程学习的60多名博士生,他们来自于植科、动科等不同农科专业,每人分得10篇论文,完成对论文的标记、论文各部分的切分提取以及语料的人工校对。华农60多名博士生经过两个星期的共同努力,在全文语料库建设基础上,我们完成了摘要、引言、方法、结论等6个子语料库的建设。

4. 在线检索平台的建设及在教学中的初步应用

农科学术英语论文语料库建成后,上传到华中农业大学HZAU CQPweb平台(http://211.69.132.28/)。随后,在2个博士班和2个本科生A班(英语成绩优异者组成的班级)的写作教学中开展了语料库应用的教学实验。4个班共124人通过给定的账户与密码登录HZAU CQPweb使用该平台。

语料库检索培训未在写作课程学习中单独增加学时。在QQ学习群上,教师上传了语料库CQPweb检索手册和常见问题及解答,供学生自学,然后布置了语料库检索练习的课后作业。检索练习的设计遵循从易到难、由简入繁的原则,从单个词的检索到短语的搭配、句型的提取,从单库检索到跨库检索,从简单检索到复杂检索。对于复杂检索练习题,我们给予了检索表达式进行提示。在检索作业完成期间,两名教师24小时在QQ群提供检索技术咨询,在线实时解答学生关于语料库检索的各种提问。老师鼓励学生在线提问,并将每周的语料库检索提问与答案收集整理,放到QQ群中与同学们分享。经过4次循序渐进的语料库检索练习,学生基本掌握了语料库检索技术。在此基础上,结合实际写作任务,要求同学们就写作过程中实际遇到的语言困惑,自己提问并通过语料库检索,找到问题的答案。

5. 语料库使用情况的书面访谈反馈信息

语料库应用于写作教学经历了一个学期的教学实验,课程结束时我们对语料库的应用情况进行了书面访谈。访谈围绕“语料库使用的困难与收获”、“对语料库的认识”、“语料库的局限”、“参与语料库创建的感受”4个问题进行了提问。反馈信息表明:绝大多数学生对语料库在外语教学中的作用持肯定态度。他们认为写作过程中应用语料库有利于英语写作质量的提高,通过语料库检索及其结果分析,他们能够为某些语言困惑自己探求答案。因此语料库的应用有利于提高学生的英语自主学习能力,有利于培养学生发现问题、分析问题、解决问题的能力。跨库检索的对比研究有利于培养学生的批判性思维能力,提高其对语言使用的敏感度。鉴于此,很多学生明确表示在今后实际写作中他们愿意利用语料库这一工具与资源,提高写作质量。

书面反馈也暴露出语料库建设与使用中的一些问题。其中最突出的两个问题分别是:1)现有语料库库容量不够大,农科方向某些专业领域的论文在语料库中未有涉及,影响了语料的代表性,导致某些专业表达在语料库中不能检索到结果;2)语料库检索表达式的编写过于复杂,检索界面不够友好,语料库检索的学习与使用对新手提出了挑战,他们希望语料库的检索能够像Google和百度搜索一样方便。

同时,调查对象对语料库的建设与完善提出了以下建议:1)语料资源须充实。语料库及其子语料库的专业方向须细化,以求语料涵盖面更广、更具代表性。有同学甚至建议教师传授语料库建库流程,以便学生自己下载本专业领域的语料,建设专业领域小型语料库或某个目标期刊论文的语料库,满足个性化语料检索的需求。大部分同学表示愿意参与语料库建设,包括提供专业语料和进行语料加工。2)在语料分类方面,他们建议根据期刊的影响因子的分值范围进行分类,以满足用户对不同档次论文发表的检索之需。3)在检索技术培训方面,调查对象建议:编写更简便易用的CQPweb操作手册;建立网络讨论平台,便于交流互动;开设语料库检索技术培训课程。

6. 结语

本文探讨了农科英语语料库建设的必要性,提出农科学术英语论文语料库的建设及其在学术英语教学中的应用将有利于学术英语写作质量与水平的提高。本文详细介绍了农科英语语料库的建设流程,介绍了两种文本加工的方法。方法一:利用Adobe Acrobat和DOC to TXT两个软件实现从PDF到DOC,再到TXT的两次文本格式转化法,此种方法繁琐耗时,但是具有广普适用性。方法二:利用学术文献的浏览网页,直接复制文本黏贴到TXT文本中,一次性实现从PDF到TXT的格式转换,此法高效省时、出错率低,特别适合已公开发表的学术文本的加工处理。语料库建成后,上传到基于校园网的CQPweb系统,尝试将语料库应用于写作教学。

语料库应用的效果调查表明:经过CQPweb检索手册的自学和多次语料库检索练习,实验对象基本能掌握语料库检索技术,从而解答写作中的部分语言困惑。调查对象认为语料库有益于写作质量的提高,明确表达了在今后实际写作中将应用语料库的意愿。同时,书面访谈暴露出现有语料库资源仍不够丰富,语料库培训需由专门人员在网络计算机教室进行演示,安排专门课时上机操作。由于语料库研制有一定的技术门槛,可以调动有技术能力的学生参与语料库建设。通过语料库检索技术的学习和应用,学生意识到语料库的价值,他们表示愿意提供专业语料文本并参与语料加工。

Hyland, K. 2008. Genre and academic writing in the disciplines [J]. Language Teaching 41(4):543-562.

Johns, T. 1991. Should you be persuaded—Two examples of data-driven learning materials [J].English Language Research Journal 4(1): 1-16.

Leech, G. 1993. Corpus annotation schemes [J]. Literary and Linguistic Computing 8(4): 275-281.

Leech, G. 1997. Teaching and language corpora: A convergence [A]. In A. Wichmann, S. Fligelstone,T. McEnery & G. Knowles (eds.). Teaching and Language Corpora [C]. London: Longman.1-23.

Sinclair, J. 2003. Reading Concordances [M]. London: Longman.

Swales J. 1990. Genre Analysis: English in Academic and Research Settings [M]. Cambridge:CUP.

蔡少莲,2008,基于语料库的英语写作教学实证研究 [J],《外语教学》(6):61-68。

曹合建,2008,《基于语料库的商务英语研究》[M]。北京:对外经济贸易大学出版社。

董爱华,2013,专门用途语料库的建设、应用、问题与发展趋势 [J],《北京印刷学院学报》(5):59-62。

范晶晶、李丽霞,2014,农业学术英语语料库建设构想 [J],《安徽农业科学》(7):2169-2170。

桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成,2010,语料库语言学与中国外语教学 [J],《现代外语》(4):419-426。

何安平,2010,《语料库辅助英语教学入门》[M]。北京:外语教学与研究出版社。

黄大网、秦 羿、徐赛颖,2010,专门用途英语语料库:挑战、理据与愿景 [J],《宁波大学学报(人文科学版)》(5):48-52。

栗 娜,2015,浅析农业学术英语语料库建设思路及设想 [J],《高教学刊》(18):261-262。

梁茂成、李文中、许家金,2010,《语料库应用教程》[M]。北京:外语教学与研究出版社。

李文中、濮建忠,2001,语料库索引在外语教学中的应用 [J],《解放军外国语学院学报》(2):20-25。

王景怿,2015,英汉–汉英双语畜牧业小型语料库建设及相关翻译研究初探 [J],《语文学刊·外语教育教学》(2):51-52。

王克非、黄立波,2008,语料库翻译学十五年 [J],《中国外语》(6):9-14。

王克非、秦洪武,2012,英汉翻译与汉语原创历时语料库的研制 [J],《外语教学与研究》(6):822-834。

王立非,2008,我国英语写作教学与研究的语料库语言学视角 [A]。载王立非(编),《英语写作教学与研究的中国视角》 [C]。 北京:外语教学与研究出版社。2-9。

王 敏、李丽霞,2014,动物科学国际期刊论文语料库的创建与应用 [J],《安徽农业科学》(20):6854-6856。

卫乃兴、李文中、濮建忠,2005,《语料库应用研究》[C]。上海:上海外语教育出版社。

杨惠中、黄人杰,1982,JDEST科技英语计算机语料库 [J],《外语教学与研究》(4):60-62。

杨永林、李 鸣,2004,一种数字化英语学习语料库及其应用 [J],《外语电化教学》(6):20-26。

赵 晴,2010,专门用途语料库在ESP教学中的应用 [J],《重庆科技学院学报(社会科学版)》(19):182-184。

通讯地址:430070 湖北武汉华中农业大学外国语学院(刘萍、刘珊)430070 湖北武汉华中农业大学经济管理学院(黄小倩)

* 本研究得到2014国家社科基金项目“农科英语语料库的建设与其在ESP写作教学中的应用研究”(14BYY162)、中央高校基本科研业务费专项资金资助项目(2662015PY193)华中农业大学2014年度校级重点建设课程(科技英语写作)项目的资助。感谢北京外国语大学许家金教授、博士生吴良平对农科学术英语论文语料库的建设与本文的撰写所提供的支持与帮助。

猜你喜欢
期刊论文农科语料
我国体育学领域高被引学术期刊论文特征分析
农科城如何为乡村提供“振兴样板”
基于归一化点向互信息的低资源平行语料过滤方法*
公费农科生培养试点工作实施
农科问答
农科110专家,你们辛苦啦! 省总工会与省科协联合举办农科110专家送清凉慰问活动
2018年金融服务法核心期刊论文盘点与分析
构建国际英文期刊论文的中文发布体系研究
国内文物保护胶凝材料研究状况及发展趋势——基于中国知网近15年来期刊论文的定量分析
《苗防备览》中的湘西语料