基于石油学术期刊摘要语料库的文本特征分析与词汇比较

2024-01-27 13:41彭晓晓
现代商贸工业 2024年4期
关键词:翻译

彭晓晓

摘 要:本文利用AntConc语料库工具,从文本和词汇角度研究了TA语料库,TA语料库由505篇石油科技外文期刊摘要构成,含130 000词。研究发现,TA中被动语态的使用频率比AmE06_130语料库高出19.35%;对于人称代词,“it”和“we”的频率最高;oil的词频是petroleum的13倍。

关键词:翻译;语料库研究;摘要语料库;石油文本;AntConc

中图分类号:F74     文献标识码:A      doi:10.19311/j.cnki.16723198.2024.04.022

1 数据收集及工具选择

1.1 数据收集

本研究从《AAPG Bulletin》《Bulletin of Canadian Petroleum Geology》《Journal of Petroleum Science and Engineering》《Petroleum Exploration and Development》和《Petroleum Science》5个期刊中,选取了2022–2023年出版的505篇摘要,建立了一个130 000词的摘要語料库TA。相比以往研究,本研究的样本数量扩大了一个数量级。从AmE06语料库中,按分类等比例提取了约130 000词内容,建立了参照语料库AmE06_130,用于提取TA中的关键词单。

1.2 工具选择

AntConc是一款语料库分析工具,支持Raw files导入,或将多个Raw files打包成(.DB)文件,方便切换语料库。

2 文本特征分析

2.1 被动语态分析

正则表达式可以检索被动语态结构,检索前需对目标语料库进行词性标注处理。本研究利用TagAnt软件完成了对语料库的词性标注。显示信息设置为word+pos_tag,其余按照默认选项运行。标注完成后,经测试下列表达式能够检索被动语态结构:

(be|am|is|are|was|were)_VBw*s+w+_VBN

上述表达式会匹配这一结构:be动词后面紧跟着一个过去分词形式的动词。结果如表1所示:

综上所述,TA语料库的被动语态使用频次高出AmE06_130语料库达19.35%。与以往研究结果相吻合,被动语态的使用频率虽然高,但并未高过主动语态。

2.2 人称代词分析

英语中的人称代词共12种词型,作者利用通配符检索所有词型,并核实结果对应的上下文判断是否正确,再对错误结果进行修正。最终确定5种人称代词,结果如下:

数据显示,“it”和“we”的使用频率最高,其余人称代词均为复数形式,且仅有第一人称和第三人称形式。目标语料库中没有出现第一人称单数形式(I和me),且没有出现第二人称的任何一种形式(you)。

2.3 N元模式分析

N-Gram工具可以生成目标文件中的N元列单。随着Size逐渐增大,结果数量会逐渐减少。研究发现,数值设定为2-5时,检测出的结果最具有代表性。我们截取了前100条结果,并将其中内容分为两个大类:

(1)石油科技文本表达;

(2)摘要文本表达。

在N-Gram Size设定为3的情况下,“oil and gas”的频次最高。摘要文本表达相关的结果可归为数个类别:表示“发现”、指代“本文”等。“石油科技”相关结果单独归为一类。

2.4 词云图分析

词云图能够可视化词单数据,通过字体大小和颜色深浅来体现词重要性。生成词云图的数据样本取自关键词单。作者利用停用词单(Stopword)对结果进行清洗(去除and, of等虚词)。处理完原始数据后,本文作者在词云图工具中,设置图片尺寸宽900高450,最大词数为300,输出值为Keyness (Likelihood)。

在生成的词云图中,颜色越深代表关键性越大,越浅则相反;字体大小同理。从图中容易看出,“oil”的颜色深、字体大,而 “petroleum”则小许多,颜色也更浅,两者在图中的位置用箭头进行了标示。

综上所述,本节从被动语态、人称代词、N元模式和词云图等4个方面分析了目标语料库的文本特征。主要进行了无检索词检索,从侧面观察目标语料库的文本特征。

3 Oil和Petroleum的检索及结果的对比分析

3.1 词频分析

这部分研究选取的样本是TA语料库,参照语料库为AmE06语料库。本文作者在Word和Keyword功能中检索oil和petroleum,发现前者的词频是后者的约13倍,关键性是后者的约15倍。

3.2 词丛分析

词丛分析运用Cluster工具对语料库进行分析,Cluster Size为2。为了抓取尽量多的数据,检索oil时,最小频次和文档范围都设置为3,检索petroleum时,最小频次和文档范设置为2。分别勾选On Left(检索词位于左端)和On Right(检索词位于右端),进行两次检索并汇总,最后人工清洗检索结果,去除噪音数据。清洗后数据显示,在目标语料库中petroleum的结果全部位于左端,而oil的结果左右都有。

Petroleum的检索结果:

综上所述,这部分研究从词频、词丛和Plot分析三个方面研究了oil和petroleum的区别。结合词频和Plot分析,我们发现目标语料库中oil的使用频率和关键性远高于petroleum,且前者的Dispersion最大值以及前十数据平均值也都高于后者,最后统计了检索词的位置频数。

4 结语

本研究选取了505篇石油科技外文期刊摘要,建立了目标语料库,利用AntConc对目标语料库进行了检索分析。一方面,本研究采用无检索词检索,研究分析了目标语料库的文本特征;另一方面,选取了oil和petroleum两词进行词汇层面对比研究。但是,本研究中目标语料库构成是一元的,oil和petroleum的词频对比数据需要在更大的语料库且成分更多元的语料库中进行验证,希望为后续研究提供借鉴和参考。

参考文献

[1]Anthony, L. (2022). AntConc (Version 4.2.0) [Computer Software].Tokyo, Japan: Waseda University.Available from https://www.laurenceanthony.net/software.

[2]Qayyum N, Syed S F. Gender Representation in A Thousand Splendid Suns: A Corpus-Based Stylistic Analysis[J].Journal of Excellence in Social Sciences,2023,2(1):2036.

[3]陳柯,杨医硕.基于AntConc3.2.4软件的石油英语词汇的检索和分析[J].信息与电脑(理论版),2022,34(15):1014.

[4]崔艳秋.《出版人周刊》视域下的中国当代文学——基于AntConc语料分析[J].当代作家评论,2020,(04):189195.

[5]孙毅,王龙本.英文旅游新闻蓄意隐喻的理解与汉译研究[J].外语教学理论与实践,2020,(02):7280.

[6]王春艳.免费绿色软件AntConc在外语教学和研究中的应用[J].外语电化教学,2009,(01):4548+78.

[7]王霞,姜孟.基于Antconc对近十年残联听力障碍相关政策文件的特征分析[J].北京联合大学学报,2020,34(02):7683.

[8]于强福.基于语料库的工科硕士学位论文英文摘要语类使用问题及其对策探析[J].华北理工大学学报(社会科学版),2022,22(03):121128+154.

猜你喜欢
翻译
从意识形态角度对《麦田里的守望者》两译本的研究
计算机辅助翻译与教学设计探讨
浅谈英汉翻译中的望文生义现象
从句子层面浅析英汉语言差异对翻译的影响
中国文学作品外译策略研究
浅谈汉语颜色词的解析及英译
本科英语专业翻译教学改革与实用型翻译人才的培养
浅析跨文化交际
商务英语翻译在国际贸易中的重要性及其应用
小议翻译活动中的等值理论