基于语料库的财经新闻英汉文本特征分析

2018-09-13 01:26
安阳师范学院学报 2018年4期
关键词:财经新闻可读性连词

张 航

(信息工程大学 洛阳校区,河南 洛阳 471003)

一、引言

随着国家“一带一路”战略的实施以及经济全球化的纵深发展,英语作为各国文化交流以及信息传播的主要语言媒介,其重要性日益凸显,而各国间密切的经济合作与贸易往来则使得商务英语逐渐成为语言学界研究的热点领域。当前,财经新闻不仅是获取经济与贸易领域信息、大数据的主要来源,更成为翻译教学、文本写作等方面的重要教学内容。因此,本文对英汉财经新闻的文本特征进行分析研究,以期为商务英语、翻译教学以及商务文本写作提供思考与借鉴。

二、理论回顾

一直以来,翻译研究尽管长期存在,其研究重心却放在以《圣经》翻译为主体的宗教翻译领域,直至20世纪后半叶才逐渐形成一门独立的学科(Munday,2014)。James S. Holmes(1988)在《翻译研究的名称与性质》一文中将“独立学科”的概念引入翻译研究领域,并对翻译学所涵盖的研究内容提出了较为完整的框架。

20世纪60年代,奈达与卡特福德开始了描述性翻译研究的探索后,翻译研究的重点逐渐从规定性研究转向描述性研究。Gideion Toury在《描述翻译研究及其他》(1995)认同Holmes提出的有关描述翻译学的设想,并将其提出的翻译研究领域框架以图表的形式加以展现,如图1所示。“纯理论翻译学”包括两个方面,即对实际发生的翻译现象进行描述的描述翻译研究以及对翻译现象进行解释和预测的翻译理论研究(Holmes,1972)。其中,描述翻译研究避免了以往规定性研究基于译文所进行的翻译批评,而是将翻译视为一种文化和历史现象,在目的语社会文化的环境中考察翻译与译入语文化的互动关系(韩子满,刘芳,2005)。20世纪80年代,翻译理论研究又经历了从“微观”到“宏观”层面的转变,将翻译作为跨文化交际活动的一部分,从对文本中“字”、“词”、“短语”及“句法”层面的研究,转向了对社会文化层面的研究,拓展了翻译研究的领域。

图1 霍尔姆斯翻译学结构图

语料库翻译学的发展立足于翻译学从“规定性”研究向“描述性”研究以及“微观”研究向“宏观”研究两个转变。自Mona Baker于1993年发表《语料库语言学与翻译研究:启示和应用》一文并开创性地指出“语料库可以用于描写和分析大量客观存在的翻译语料并揭示翻译的本质”(Baker,1993),国内语料库翻译学研究不断发展。自1993年以来,语料库研究方法被广泛地应用于翻译研究领域,研究内容包括语言特征、译者风格、应用翻译、翻译语料库建设及应用、语料库翻译学介评以及口译研究等(宋庆伟,2013)。

商务英语作为专门用途英语的分支之一,随着全球经济贸易的发展成为了翻译研究的热门领域。目前,商务英语翻译研究不仅涉及微观层面的词汇、句法及语言特征,也涵盖了宏观层面的翻译原则、技巧与策略方面的论证。然而,纵观商务英语翻译近十年的研究成果,大部分研究虽采用描述性翻译研究模式,但主要是研究者通过经验和观察,针对某种商务翻译产品进行描述研究或对现有翻译理论在商务翻译中的适用性进行论述(徐珺,夏蓉,2013)。由此看来,商务英语现有研究中,大部分研究者的论证依据主要来源于其主观经验,数据支撑较为欠缺。

三、 研究设计

1. 研究问题

与以往基于主观经验对商务文本进行研究的传统方式不同,本文通过搜集大量财经新闻英汉文本自建语料库,通过语料库分析工具、以数据为支撑对英汉财经新闻的文本特征进行分析,主要研究问题包括:(1)英语财经新闻和汉语对应文本在平均词长、词类频数、标准类符/形符比以及词汇密度方面有何特征及其差异;(2)英语财经新闻和汉语对应文本的平均句长与连词的使用及其差异;(3)这些差异产生的原因以及为英汉财经新闻互译带来的启示。

2. 语料库与研究工具

本文自建英语财经新闻语料库(English Business News Corpus, 简称EBNC)以及汉语财经新闻语料库(Chinese Business News Corpus, 简称CBNC)作为英汉财经新闻文本特征的研究对象,并选取英国国家语料库(British National Corpus,简称BNC)作为英语参照语料库,用于比较财经新闻这种专门用途英语与通用英语之间的差异,用于揭示财经新闻特有的文本特征。

BNC语料库是有英国牛津出版社、朗文出版公司、钱伯斯-哈洛普出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库,由4282篇现代英语文本组成,规模为1亿多词,内容包括国家及区域性报纸、各行业专业期刊与杂志、学术书籍以及通俗小说、学位论文、信件及备忘录等内容,其中书面语占90%,口语占10%。此外,笔者通过搜集《福布斯》、《华尔街日报》、《财富》以及《金融时报》中英文网站上2012年6月至2013年10月期间的935篇英汉财经新闻自建语料库,EBNC及CBNC语料库共计1870个中英平行文本,其中,EBNC语料库中共计680146词,CBNC语料库中共计708181词,如表1所示。

表1 三个语料库文本数量与文本容量

TreeTagger是德国斯图加特大学Helmut Schmid开发的一款自动词性标注软件,采用宾州树库符码集对语料文本进行语义标注。WordSmith 5.0软件是牛津大学主持研发的语料库分析工具,主要包含检索(Concordance)、关键词(Keywords)以及单词列表(Wordlist)三大功能。本研究搜集到BNC完整语料库标注文本以及相应的C5系列词性赋码集,并且分别利用TreeTagger与中科院研发的汉语词法分析系统(ICTCLAS)语料库工具对EBNC与CBNC语料库文本进行分词与赋码。在完成对语料库文本的处理之后,利用WordSmith 5.0对包括词汇长度、类符/形符比、词类分布、词汇密度、平均句长等因素进行统计,并基于以上参数对中英文财经新闻文本特征进行研究与分析。

四、研究内容

1. 词汇长度

通常,词汇长度可以反映出文本中所使用的词汇的难易程度,长度越长,则词汇越难,同时会使得文本较为晦涩,增加文本的阅读难度。本文利用WordSmith 5.0 分别计算出了EBNC语料库与BNC参照语料库由1-14个字母组成的词语的使用情况以及其占总词汇数的百分比,如表2所示。

表2 EBNC与BNC语料库文本中不同长度词语数量及所占比重

根据表1,EBNC与BNC语料库中,所占比重最大的四类词语按照降序排列均为3个字母单词、4个字母单词、2个字母单词以及5个字母单词。不难发现,EBNC与BNC语料库在5个以内字母组成的单词的使用频率方面,差异并不显著。根据WordSmith 5.0得出的观测语料库EBNC与参照语料库BNC的单词列表,笔者制作了主题词表,并着重针对主题词表中的3个字母单词与4个字母单词进行对比分析,如表3所示。通过分析,笔者发现,在EBNC语料库中常用的由3个字母或4个字母组成的专有词汇缩写或商务英语词汇在BNC语料库中并不常用,这些词汇在两个语料库中使用频率相差悬殊。此外,这些词汇的P值均小于0.05,说明EBNC和BNC语料库在专有词汇缩写及商务英语词汇使用方面有显著差异。因此,即使两个语料库中使用频率最高的词为3个字母单词,但是根据主题词表及差异分析,可以判断与参照语料库BNC相比,EBNC语料库中的小词包含较多商务领域专有名词,具有鲜明的商务英语与财经新闻特征。

表3 3个字母单词与4个字母单词主题词表抽样分析

根据表2可以得出,在由5个至10个字母组成的单词的使用频数方面,EBNC语料库均高于BNC语料库,而在11个以上字母组成的单词使用频数方面,其大小结果相反。这说明与BNC语料库中来源甚广且从属于不同领域的文本相比,EBNC语料库中的文本来源及属性皆为财经新闻文本,其文本目的在于财经信息的有效传达,因而在词汇使用方面较为专业与集中,所以较少出现长度超出普通单词的生僻词。

此外,根据WordSmith 5.0计算结果,EBNC与BNC语料库中的平均词长分别为4.83个字母与4.66个字母,EBNC语料库中的平均词长较长于BNC语料库中的平均词长。从文本整体内容来看,除了长度超出普通水平的生僻词以外,BNC语料库中的文本更偏向一般化、综合类文本,其用词也更加大众化、日常化;而EBNC语料库由于其特定属性的财经新闻内容,其用词更趋向于商务英语词汇,因而平均词长也会略高于日常英语词汇。

2. 词汇密度

词汇密度的计算方法有两种,一种是计算文本的类符/形符比,另外一种是计算文本中实义词总数与总词数的比率(Stubbs,1986)。形符(Token)是指文本中总的词汇总数,而类符(Type)是指文本中不同词形的数量。类符/形符比(Type/Token Ratio, TTR)代表文本中不同词形数量与总词形数量的比率,这一数值可以在一定程度上反映文本中用词的变化,即词汇丰富度,比率大小与词汇丰富度成正比。一般情况下,如果文本的形符总数超过1000,则需要使用标准化类符/形符比(Standardized Type/Token Ratio, STTR),以减少长文本中功能词词频过高而造成的误差。英语词汇从宏观层面上可以分为实义词和功能词两大类,实义词(content word)是指具有独立、稳定的实际含义的词语,而功能词(functional word)是指无实际含义,仅发挥语法连接作用的词语。根据胡壮麟(2002)对于英语词类的划分,实义词指的是名词、形容词、动词、副词,功能词指的是连词、冠词、介词、代词、感叹词。在文本中,与功能词的语法连接作用不同,实义词能够起到传达实际信息的作用,因而实义词的数量与文本词语总数的比率可以反映出文本内容传达的信息量与信息密度以及文本理解的难易程度。

笔者分别利用TreeTagger以及ICTCLAS工具对EBNC与CBNC语料库文本进行赋码,并根据赋码文本,利用WordSmith 5.0检索、计算EBNC,BNC以及CBNC语料库的实词数量及各自的标准类符/形符比,如表4所示。根据表格可以看出,三个语料库的标准类符/形符比按照由大到小的顺序排列分别为CBNC、EBNC、BNC。对比发现,由英语财经新闻构成的EBNC语料库在词形变化及词汇丰富度上高于由来源广泛的诸多文本组成的参照语料库BNC,这说明财经新闻作为专业性书面文本,其行文更加注重不同词性的词语的交叉使用。CBNC语料库中的文本作为EBNC语料库的对应中文译本,词形变化与词汇丰富度较EBNC语料库更高,这是由于在英汉翻译过程中会根据文本内容对词性以及句式结构进行相应的转换,使之更符合中文的行文习惯。

表4 三个语料库实词数量与标准类符/形符比

根据实词数量,笔者分别计算出不同类别的实词在三个语料库中的占比情况以及词汇密度,如图2所示。三个语料库词汇密度按照由大到小的顺序排列分别为CBNC、EBNC、BNC。这说明由财经文本组成的EBNC与CBNC语料库其信息量与信息密度大于BNC语料库的构成文本,凸显了财经新闻文本重视信息传递的文本目的;而CBNC语料库词汇密度略高于EBNC语料库,这说明相同的文本内容,汉语文本所用实词更多,更加注重文本的信息内容,因而信息密度更高。EBNC语料库中名词占比为31.86%,而BNC语料库中名词占比为22.47%,而前者动词占比为15.51%,低于后者的16.85%,这说明英语财经新闻在撰写时使用的名词较多,动词相对较少,这不仅体现了财经新闻重视信息传递的文本目的,还更加注重文本内容的客观性以及语言风格的正式程度。然而,EBNC与CBNC语料库相比,前者的名词与形容词占比高于后者,而动词与副词占比却低于后者。这说明在进行英汉翻译时,汉语文本中出现了词性转换,尤其是将名词与形容词转换为动词。

图2 三个语料库实词占比情况与词汇密度

3. 平均句长与连词的使用

句子是语法层面上最大的构成单位,是文本的基本组成部分,而从语义功能方面来讲,一个句子是对一个概念相对完整的表达。一般而言,短句多为简单句,句式结构简单,所包含的单词较少,理解起来也相对容易;而长句则包含较多的分句及复合句,并由逻辑关联词对这些分句进行连接与组合,因而句式结构较为复杂,所包含的单词数量也更多,理解起来较为困难。平均句长指的是文本中每个句子平均所包含的单词数量,是反映文本中句子长度的指标,也可以作为反映文本可读性与理解难易程度的重要指标。合众国际社将句子长度作为衡量文本可读性的一项重要指标,并通过句子长度对文本可读性进行量化说明,如表5所示(McIntyre,1996)。根据合众国际社的标准,句子的长度与其可读性成反比,句子越长越难以理解,亦即句子的可读性越低。其中,由8个单词或少于8个单词组成的句子最容易理解,可读性最高,由17个单词组成的句子理解难易程度中等,可读性中等,而由29个单词或多于29个单词组成的句子 则最难理解,可读性最低。

表5 句长与文本可读性对应关系

笔者利用WordSmith工具分别统计出EBNC、BNC及CBNC语料库文本的平均句长与句长标准差。根据图3,EBNC语料库文本平均句长为18.90,即平均每个句子包含18.9个单词,基于合众国际社关于句长与文本可读性对应关系的量化统计,英语财经新闻的可读性从句长因素考虑处于中等水平。相对比,参照语料库BNC的平均句长为22.16,略高于EBNC语料库,且其文本可读性趋于较难理解,在句长标准差方面,BNC语料库文本的句长标准差为404.19远远高于EBNC语料库(11.39)。基于以上两组数据,可以看出,英语财经新闻中的句子长度略低于参照语料库文本,但是句长标准差较小,说明英语财经新闻文本的句子长度变化差异小,句长较为稳定,体现了财经新闻语言简洁精炼、行文流畅规范的文体特点。此外,虽然从句长与文本可读性对应关系层面上统计,财经新闻文本较参照语料库文本较易理解,但是由于前者包含大量的商务英语词汇与专有名词,且词类丰富,所包含的信息量较大,因而加大了财经新闻的理解难度,降低了其可读性。 CBNC语料库中文本平均句长为22.04个字,其可读性与BNC

图3 三个语料库平均句长与句长标准差统计图

语料库的文本相似,处于较难理解的层次,且其句长标准差为11.06,为三个语料库中的最低水平,这说明CBNC语料库中的文本其句长最为稳定,单句长度变化差异最小。

笔者还使用WordSmith 5.0对标注文本进行检索,分别检索三个文本中的并列连词、从属连词以及作为连词使用的that的数量,这三个数据及其在各个语料库文本中的百分比情况如表6和图4所示。根据数据可以看出,相比较BNC语料库,除了that用作连词的占比相同外,EBNC语料库中并列连词数量的百分比较前者略少,而从属连词数量的百分却较高于后者,EBNC语料库的合计连词占比也远高于BNC语料库,这说明英语财经新闻中较多使用复合句式来进行表述,句子之间存在较为复杂的逻辑关系,尽管句长较参照语料库文本略短,但是句式结构却较为复杂,加强了英语财经新闻的专业性并加大了其文本的理解难度。由于不同语言之间的差异,CBNC语料库中的中文文本并无区分并列连词与从属连词,因而在检索时将文本中的所有连词进行合并统计,在CBNC语料库中连词数量为22802,在整个语料库文本中占3.22%。根据WordSmith 5.0制作出的单词列表中的统计数据,EBNC语料库中共有34860个句子,而CBNC语料库中共有31804个句子,因而,可以推断,在进行英汉翻译时,汉语文本对英语文本中的句子进行了较多的合并。然而,尽管汉语财经新闻文本中的句子数量减少,但是连词占比情况却远低于英语财经新闻文本的百分比(7.03%)。这一差异说明,英文是重形合的语言,英语文本中的句子更多的是通过不同的连词而对各个分句进行逻辑关系的架构与衔接;与之相反,汉语是重意合的语言,句子与句子之间的衔接与逻辑关系依赖的是语义而非连词。

表6 三个语料库中不同类别的连词数量

图4 三个语料库中不同类别的连词占比情况

四、 结语

语料库翻译学随着语料库语言学与描述翻译理论的不断发展而兴起,基于语料库研究工具对真实的语料进行数据统计,利用语言学及翻译学等其他分支理论对文本进行分析,其分析结果也更具客观性。

本文利用WordSmith 5.0等语料库工具对语义标注的英汉财经新闻文本进行词汇与句法层面的文本特征分析,其中词汇层面的分析包括平均词长、词类分布、标准类符/形符比以及词汇密度,句法层面则包括平均句长与可读性以及连词的使用情况。通过分析,笔者发现,英汉财经新闻与通用文本相比其用词更为专业,包含较多的商务英语词汇以及商务专有名词。此外,由于特殊的文本性质,财经新闻更加注重文本信息的传递,因而文本中词形变化较为丰富,实词数量占比较多,信息密度较普通文本更大。然而,英语财经新闻较多地使用名词以提高文本的客观性与正式程度,但是在中文文本中却相应地转换为形容词与动词。在句法层面,英语财经新闻较中文文本更加注重连词的使用,强调各个分句之间的逻辑关系与衔接。基于上述不同的文本特征,在进行英汉财经新闻翻译时应更多地注重商务词汇的准确翻译、词性转换以及句子之间的拆分与合并,使得翻译文本更符合目的语的语言特征,增强翻译文本的可读性,以更好地实现财经新闻的信息传递功能。

猜你喜欢
财经新闻可读性连词
可读性
本期缩略语表
连词that引导的宾语从句
财经新闻视频化探索——以央视财经为例
浅析大数据时代下财经新闻报道的改进路径
表格大团圆,连词学得全
报纸专副刊可读性探究——以湖北日报《档案解密》为例
都市报财经新闻建设的现状与应具备的几种意识
在增强地方时政新闻可读性上用足心思