浅谈语料库分类及用途

2018-11-01 07:00代思师蔡容龄吴恒
求知导刊 2018年25期
关键词:多语种资料库语言学

代思师 蔡容龄 吴恒

一、语料库的定义

在语言学中,语料库是指大量文本的集合。在语料库语言学中,他们是主要用来进行统计分析与假设检定,在某一领域中,测试语言规律的出现或有效性。语料库可以是某一单独语种的文本(单语语料库),又或者是多种语言中的文本数据。

二、语料库的分类

1.多语种语料库

多语种语料(Multilingual corpora)经常经过格式特殊处理进行比对研究,也被称作平行语料库。它是由大量的平行文本(parallel text)组成。平行文本通常是几种语言放在一起,有原文有译文,对齐放置。较为著名的平行文本有洛布古典丛书和克莱梵语丛书。平行文本不仅仅是两种语言的平行,有时会有多种语言集合。如圣经研究中,关于圣经的译文可以有多种版本。较为著名的便是俄利根的《圣经六国译文合璧》,其中为旧约提供了六个版本。

在多語种语料库中,一定要注意多语种语义的平行对齐,这是保障语言学研究的前提条件。一般情况下,双语平行语料库中,主要有两种类型,翻译语料库(translation corpus)和对比语料库(comparable corpus)。在翻译语料库中,一种语言的文本会是另外语种语言文本的翻译。在翻译过程中,翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。翻译语料库现如今广泛运用于机器翻译中,机器翻译实际属于计算机语言学中的一类,其方法是通过某种程序将一种语言翻译成另外一种语言。借助语料库,便可以提供大量准确而地道的目标语言文本,从而使计算机可以生成更加复杂的自动翻译,处理更复杂的语言翻译。

在对比语料库中,文本都是同种类型,覆盖同种内容,但是他们并不是互相翻译的关系。为开发平行语料库,有些文本需以一个短语或句子组成的语块进行匹配。其中,经常会运用由两种语言语料库组成的平行语块对双语的机器翻译进行训练。为使语料库能够对语言学研究更能有用,他们通常会运用到注释程序,比如,对演讲的部分内容进行注释或是词性标注。

2.数图资料库

一些语料库还可用于分析文本结构水平。尤其是一些较小的语料库,有可能全部都有解析。这些语料库通常称为数图资料库(Treebanks)或者解析语料库(Parsed Corpora)。在语言学中,数图资料库就是一个文本的解析语料库,对句法或语义结构进行注释。在二十世纪九十年代初期的解析语料库的建造使计算机语言学发生了翻天覆地的变化,使他们从大范围经验数据中获益。世界上规模最大的数图资料库是宾夕法尼亚大学数图资料库(The Penn Treebank)。自从该资料库建立以后,数图资料库的运用便显得十分重要。虽然该类型语料库是源于计算机语言学,但是其研究领域范围已经涉及整个语言学研究。在数图资料库中,会对所有文字进行注解。

3.考古语料库

考古语料库(Archaeological corpora)被用作研究历史文档,破译古老的文本,或运用于宗教学领域研究。考古语料库并不是新兴的产物,在考古学中,古时候存在的大量文字语言的书籍或材料便可组成一个考古语料库,如前文所说的罗塞塔石碑。石碑制作于公元前一九六年,原本只是一块刻有古埃及法老托勒密五世诏书的石碑,但由于这块石碑同时刻有同一段内容的三种不同语言版本,使得近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构,而是研究古埃及历史的重要里程碑。

三、结语

对于英语学习者来讲,语料库的用途也十分广泛。可用于目标语言的学习,同时也可以用作外文写作的辅助工具,通过语料库呈现的权威文本来掌握目标语言的语句形成习惯。

参考文献:

[1]王克非,秦洪武.论平行语料库在翻译教学中的应用[J].外语教学与研究,2015(5).

[2]王克非.中国英汉平行语料库的设计与研制[J].中国外语,2012(6).

猜你喜欢
多语种资料库语言学
语联世界,言通天下
70年,上外故事
语言学研究的多元化趋势分析
实现科学教材中资料库的教育价值
中国国际广播电台“ China ”系列 多语种移动客户端上线
走出教学盲区 填充智慧行囊
A Pragmatic Study of Gender Differences in Verbal Communication
大学生自建口译资料库初探
书讯《百年中国语言学思想史》出版
The Influence of Memetics for Language Spread