基于计量的海内外汉语体育新闻词语比较分析

2015-07-31 01:51张平常星李娇
湖南师范大学社会科学学报 2015年1期
关键词:计量分析对比分析

张平++常星++李娇

摘 要:通过对海内外五地汉语体育新闻语料库的计量统计,探讨体育新闻背景下五地汉语变体在词语使用上的异同,从词语的异同比较中观察五地体育新闻报道的共性和差异:强渲染性和通俗性展现了五地汉语体育新闻报道的共同之处,文本信息量、难易程度、书写符号等方面的差异则体现了五地报道的个性化特征。

关键词:海内外汉语体育新闻词语;计量分析;对比分析

作者简介:张 平,湖南大学中国语言文学学院副教授(湖南 长沙 410082)

常 星,湖南大学中国语言文学学院硕士研究生(湖南 长沙 410082)

李 娇,湖南大学中国语言文学学院硕士研究生(湖南 长沙 410082)

一、引 言

近年来,汉语国际推广作为一项重要的国家政策得到了全面实施。在此背景下,有必要对现代汉语海内外的多种变体进行比较分析,通过具体的数据展现汉语国际推广的成效和问题。从这一目的出发,本文选择受众广泛的海内外五地汉语新闻语言作为比较的对象。体育新闻在各类新闻报道中极富娱乐性,有广泛的读者群和影响力,其语言相较于其他类型的新闻语言,个性突出。我们选择海内外五地汉语体育新闻语言作为观察的窗口,探讨海内外汉语体育新闻语言的异同以及汉语体育新闻语体的特点。

肖奚强(1998)的研究表明,体育新闻的语言特色集中反映在词语的使用上{1}。据此,我们以词语为主要计量对象,从《中国日报》(中国大陆)、《东方日报》(中国香港)、《自由时报》(中国台湾)、《澳门日报》(中国澳门)、《联合早报》(新加坡)5份报纸中选取了2012年3月份共31天的体育新闻报道,建立了一个包含2 364个文本、1 015 231总字数的语料库。为了增加可比性,我们又以《中国日报》的报道为主题事件参照,经过人工筛选,从语料库中提取了92组相同事件文本(若某一个体育事件,5家报纸均有报道,则形成一组相同事件文本,其特点是,相同的主题,不同的汉语报道风格。但在真实文本中,有的事件并非五家,而是只有其中的两家或几家报纸报道。这种情况也包括在我们的92组文本中),共计359个,构成五地体育新闻相同事件文本组语料库(为表述方便,下文均简称为5地语料库),5家媒体的语料,则视为5个子语料库。

本文的分词与词性标注使用中科院研制的汉语词法分析系统ICTCLAS,字词频统计及文本检索使用日本早稻田大学Laurence Anthony开发的Antconc。为了避免分词和词性标注后的语料在字符上的干扰,我们对未分词和未作词性标注的生语料进行了用字情况的统计。

根据上表,《联合早报》平均文本长度最长,《东方日报》最短。对比字种数与字总数的比值,《东方日报》最大,《中国日报》最小,这说明《东方日报》重复用字的情况较少,《中国日报》重复用字的情况则相对较多。

二、书写符号计量与语码选择倾向

就书写符号来看,五地语料库的词语主要以繁、简体汉字为主,同时兼及多样。其中,港澳台三地的新闻报道用繁体,大陆和新加坡两地的报道用简体。完全由汉语汉字构成的占绝大多数,此外还有英语单词、字母词、阿拉伯数字、字母加汉字等。

对比五家报纸在体育新闻报道中非纯汉字词与汉字词的比率,可以明显看到:《中国日报》、《澳门日报》、《自由时报》、《东方日报》和《联合早报》呈现出递升序列,其中《东方日报》、《联合早报》的数值十分接近,且与另三家形成大的级差。这似乎说明,香港的《东方日报》和新加坡的《联合早报》在语码选择上,尽管有繁简体的区别,但在非汉字词的使用上,具有很大的一致性。不过,通过文本的调查,发现这两家报纸仍有很大的差异。《东方日报》多是在文本中直接使用英语词,而且这些英语词多为一些普通的常用词,如“like、brother、start、feel、now”等;《联合早报》则主要是对体育新闻报道中出现的人名、地名以及机构名作英语的注释,也因此产生了很多形式很长的词语,但它很少直接使用英文中的普通词汇。

词语长度是词汇的一个重要特征。通常,在内地的体育新闻中,词长超过4的词语多是体育明星名、赛事名称或组办机构名,包括中文译名和英文名。《联合早报》中词长大于4的词语远多出其他几个子库的同类数据。并且,其他几个子库的平均词长均小于或等于1.6,词长标准差小于或等于1,但《联合早报》的平均词长为1.7,其词长标准差为1.32,可见其平均词长和词长变化度很大。这都是词语的书写符号差异造成的。

从词语的书写符号,我们可以看出五地体育新闻报道在语码选择上的倾向特点。大陆的体育新闻使用简体汉字书写词语,非汉字词主要是书写时间、速度、距离、得失分及比分的阿拉伯数字,同时吸收了“CCTV、VS、NBA、PGA、TOUR”等少数几个用拉丁字母书写的字母词,以及“AC米兰队”这样的字母加汉字的形式,几乎不见直接使用完整的英语单词书写的情况,这说明大陆的体育新闻报道在书写体系上更倾向于保守现代汉语的书写规范。澳门和台湾两地的体育新闻报道虽使用繁体,但在选择外民族书写符号上,总倾向与大陆基本一致,且各有特点。《澳门日报》在记录得分、速度等时更多地使用汉字而非阿拉伯数字,它的非汉字词主要是像“NBA、ESPN、Nike”等国外球队、机构、商品的全字母名称,一些字母加汉字的形式主要是国外球星的名字,如“C朗、D侯活、X艾朗素”以及国外球队如“A士、AC米蘭隊”等。相对而言,台湾的《自由时报》较《澳门日报》更为开放。它不仅常用阿拉伯数字表示时间、速度、距离、比分,常用字母词书写国外球队、网站、机构、商品的全字母名称,还对少数运动员的名字和奖项,如“麥克羅伊(Rory Mcllroy)”、“希科克帶獎(Hickok Belt Award)”等进行英文注释,这一点和《联合早报》相同,但使用量远不及后者多。另外,它还偶尔直接使用了英文体育专用词汇,如“pan”,偶尔直接引用运动员的口述英语,如“Good to go”。香港和新加坡的报道在语码选择上多元化特色最为突出,这与两地的人文历史条件和它们的语言政策、语言观念密不可分。香港的汉语报道中相对较多地夹杂英语的现象,除了其曾经的英殖民地时期英语对汉语深远影响之外,还反映了其开放融合的语言环境和较为自由随性的观念。新加坡的汉语报道也深受政治因素和双语教育的影响。新加坡的强势英语环境导致汉语受英语影响很深,为了方便读者理解,媒体在报道语言的选择上便倾向于“双重说明”。

三、语体分布计量与雅俗风格倾向

通过对5家报道中成语、文言词汇、俚语方言词以及名人绰号的计量分析,比较五地在语言风格上的异同。

对比5个子语料库,《自由时报》使用成语最多,也最为丰富,其次是《中国日报》、《联合早报》,使用成语最少的是《东方日报》和《澳门日报》。成语以含蓄凝练、言简意赅、生动形象的特点增强表达的书面语色彩。据肖竹声(1987)的统计,绝大多数(95%)四字格成语都是古汉语书面语的传承,因而成语的使用与表达的雅俗风格关系密切。{2}一般而言,风格倾向于古雅的作品,庄重凝练,成语使用较多;口语化倾向明显的作品,活泼通俗,成语使用相对较少。

进一步观察五地雅俗风格上的差异,在各子库累积覆盖率达50%的常用词中,港澳两地独有“亦、令、未”3个文言色彩重的词。其他三地与之功能、意义相当的分别是“也、让、没”。虽然从整体上来看,“也、让、没”在各库中均有分布,但在五库中的使用频率,由图1可见,却是明显地两极分化。

这说明,五地的体育新闻报道均有其庄重古雅的一面,但在语言手段上,港澳两地多使用文言词汇,大陆、台湾和新加坡则较多用典雅的成语,如“每况愈下、分崩离析、功亏一篑、扑朔迷离、同室操戈”等。

观察五地体育新闻语言的通俗性表现,发现在方言词汇和社区词汇的使用上,《东方日报》最为突出。统计覆盖率在前81%的691种高频词,其中有9个属于粤方言和香港社区词语:“係(频次:48,相当于动词‘是)、唔(频次:47,相当于副词‘不)、嘅(频次:42,相当于助词‘的)、佢(频次:37,相当于代词‘他)、呢(频次:22,相当于代词‘这)、冇(频次:21,相当于代词‘没有)、睇(频次:16,相当于动词‘看)、仲(频次:13,相当于副词‘还)、晒(频次:13,相当于助词‘完)”。这些粤方言和社区词语的高频运用,反映出了《东方日报》主要为港民服务的意识,同时也使它极富通俗性和地方特色。《澳门日报》也使用了一些粤方言词汇“唔(频次:15)、睇(频次:10)、冇(频次:6)、係(频次:3)、晒(频次:1)”,但几乎都是在直接引述运动员、教练员等人的谈话时使用,这和《东方日报》在非引用性语言中直接使用有很大的区别。

绰号在凸显人物特征上作用突出,具有人物形象的强刻画功能,同时又带有浓厚的口语色彩,它能使语言变得生动形象、风趣幽默,大大增强表达的轻松戏谑意味。考察绰号在5个子库中的分布情况:《中国日报》34种,《联合早报》26种,《澳门日报》37种,《东方日报》25种,《自由时报》19种。5地绰号风格一致,多是以突出运动员的强者特征、王者地位、高超技艺为主,且多以转喻、隐喻等方式形成,例如:“大帝”、“皇帝”、“五冠王”、“八金王”、“栏王”、“鹰王”、“一哥”、“一姐”、“大哥大”、“超级丹”、“闪电侠”、“面具侠”、“飞人”、“老虎”、“鲨鱼”、“德国枪”等,有些甚至将运动员神化,称其为“車神”、“救世主”等。这些绰号的大量使用,使体育新闻较之于时政、社会等其他类型的新闻报道,娱乐游戏性特点十分鲜明。

综合比较五地体育新闻语言在通俗性方面的表现,五家报道在用绰号称呼运动员以增强其亲昵亲切、幽默戏谑的表达风格上很是一致。但在方言俚语的使用上,港澳两地,尤其是香港,相比其他三地,其语言的地域性特征更加突出。

四、词类分布计量与强渲染倾向

对5个子库的词性分布进行统计,发现五地的体育新闻语言均具有强渲染倾向,它们所渲染的气氛、情绪以及渲染气氛、情绪的方式具有很高的一致性。首先观察使用量位于前三位的三大词性。

邢红兵(1999)对“现代汉语研究语料库系统”中电子词典的数据进行了统计,结果表明,名词的分布最广,使用频次占总库的29.16%,其次是动词,占24.78%,排在第三位的是助词,占7.79%,第四位副词,占7.7%,第五位代词,占7.32%,第六位形容词,6.24%,数词排在第七位,占4.83%。{3}我们对《人民日报》2008年全年的语料进行了词性分布统计,数词5.07%,排在第五位,前四位的分别是:名词39.42%,动词27.53%,助词7.64%,形容词6.56%。5个子库的词性分布情况不仅与邢的统计结果形成对比,与同是新闻语体的《人民日报》也有差别。在五地体育新闻报道中,数词使用频繁,使用率仅次于名词和动词。考察五个子库中数词的具体使用范围,发现它们主要用于将比赛的过程、结果、时间、速度、高度、力度等方面的对比、对抗进行量化。频繁使用量化的数据,给读者带来的是直接的信息冲击,大大强化了报道的现场感,使读者仿佛身临其境,随运动员一起在赛场上拼搏,为比分的得失或欢欣鼓舞或扼腕叹息。可以说,数词的大量使用,很好地凸显了体育新闻语言渲染现场气氛的特色。

进一步观察5个子库中动词的小类,五地体育新闻报道均大量使用刚劲有力、具有强进攻性的同义、近义动词及动词性短语。以描述比赛过程中进球得分的26个核心动词为例:轰、拼、飙、抢、砍、进、得、攻、夺、取、揽、吞、扛、拿、中、赚、获、打、掠、入、炒、摘、收、献、扳、抓。这些核心动词与“出、上、下、进、入、中、得”等趋向动词以及“勇、狂、猛、轻、豪、强、惨、鲸、独”等极富夸张性的修饰语组合,构成了“狂轰、怒砍、鲸吞、豪取、狂飙、慘吞、独掠、勇夺、强攻、大炒、狂攬”等极富表现力的多种同义表达形式。这些丰富多变、火力全开的同义词语形象地展示了运动员在赛场上奋力拼杀、战胜对方的勇气和实力,强烈渲染了赛场的紧张、激烈气氛和纷繁复杂的赛场情景,让读者在获取赛事信息的同时得到扣人心弦、撼人心魄的体验。

五地体育新闻报道的第三个共性是喜用军事类词语强力渲染竞争气氛。这一点以往研究体育新闻语言的文章多有论及。我们统计了五个子库共用的29个表示双方比赛的动词。29个动词中,语素“战”参与构词的共17个:出战、挑战、大战、征战、备战、苦战、迎战、战斗、对战、内战、外战、初战、二战、激战、开战、临战、首战,剩余的12个是:出征、交手、对阵、对垒、相遇、对决、交锋、造访、对峙、较量、对抗、破解。这些词语的使用,无不大大强化了比赛的对抗性,迎合了体育新闻的受众以年轻男性为主体的读者争强好胜的心理需求。

五、文本信息计量与难易倾向

文本的词汇密度是文本信息量差异的重要指标。Ure(1971)提出了统计实词形符数在总形符数中的比例来计算词汇密度(lexical density )的方法{4}。国内不少学者借鉴了Ure的观点,并将计算的公式演变为:词汇密度=实词数/词汇总数×100%。由于实词具有实际意义,因而词汇密度在一定程度上反映了语言材料传播的信息量{5}。一般而言,词汇密度越高,信息量越大。我们具体统计了名词、动词、形容词、副词、代词、数词、量词七个具有稳定词义的实词。将汉语中承担语法功能的助词、介词、连词、语气词、叹词等视为虚词。

由表5可见,五地体育新闻语料的词汇密度平均约为86.6%,略大于蔡玮(2004)报刊新闻词汇密度约为84.9%的结论{6}。这种差异,并不能很明显地反映体育新闻与其他报刊新闻在词汇密度之间的区别,因为蔡玮统计的是大陆的报刊,《中国日报》体育新闻的词汇密度十分接近蔡玮的统计量,但可以反映出五地之间的不同。港澳台三地的体育新闻其词汇密度高于大陆和新加坡2~3个百分点,即相同长度的港澳台三地体育新闻语料中使用的实词略多于大陆和新加坡。说明《澳门日报》与《东方日报》体育新闻报道传播的信息量相对较大。

词语变化度常被用来衡量语言的难易程度,它指的是相同长度的文本中不同词语的数量,用文本中类符与形符的比值来衡量。类符与形符的比值即我们通常所说的词种数与词次总数的比值。常宝儒(1985)提到,“各种语言选定供统计词汇用的语料中,不同词语(types)数和它们在统计材料中出现的词次(tokens)总数存在着一定的关系。通过不同词数/词次总数,可得出的比率通常称为type-token radio(简称TTR)。这个比率能反映出词汇总量的难易和常用程度。它的数值大小与难易成正比,与常用程度成反比。即TTR大,词汇总量的难度大,常用程度低,反之难度小,常用程度高。”{7}

王克非,胡显耀(2008)的研究表明,由于TTR对语料库容量和选材十分敏感,不能完全真实地反映词语变化度和篇章的信息量。因为一种语言在特定时期的词汇量是有限的,语料库容量不断扩大,形符数持续增加,但类符数却不会随之成正比增加;语料库容量越大,形符类符比反而会越小,因此不同容量的语料库的形符类符比不具备可比性,故一般用标准类符形符比(STTR)来衡量语料库的词汇变化,即按一定的长度分批计算文本的类符形符比,再求均值类符形符{8}。本研究中我们使用1 000词次为计量单位,对五个子库的词语变化度进行统计。

对STTR作方差检验,五家的标准差均小于等于0.001 6,且分布在小于等于0.000 9的区间内,很好地说明了数值的有效性。根据上表,按文本难易程度系数由高到低对五地体育新闻报道进行排序,难度相对最大的是香港的《东方日报》,其次是台湾的《自由时报》,再次是《澳门日报》,最后是新加坡的《联合早报》和大陆的《中国日报》。考察实际文本,我们发现,《东方日报》使用了大量的粤语方言词和外来词,这是增加其文本阅读难度的重要因素。

六、小 结

综合对汉语五地体育新闻相同事件文本组的语料库用词进行分析,可以看到,《中国日报》总词次和词种数最多,高频词种数在总词种数中所占比例较大,文本长度相对较长,平均词长也相对较长,词汇密度和词语变化度相对较小,非纯汉字式所占比例较小。《澳门日报》和《东方日报》词总数差别很大,但在词种数上非常接近,都相对较少。其中,《东方日报》高频词集中,大多数词种是低频使用。二者的平均词长和词汇密度的数据十分接近,较高的词汇密度表明二者的新闻报道传播信息量大,阅读难度高。尤其是《东方日报》,虽然文本长度最小,但其非纯汉字式所占比例大,词语变化度大,反映了香港体育新闻报道的难度系数大,相对较多的方言词和社区词也体现了其与汉语普通话相去较远的、不太正式的文体风格。《联合早报》平均文本长度最长,使用简体中文,在机构名和人名、地名等专名后备注相应的英文名称,所以,虽然非纯汉字式所占比例也很大,但其词汇密度和词语变化度却和参照语料库《中国日报》相当,这反映了它的文本难易程度与大陆很接近,新加坡的汉语变体与大陆的互懂度高。也正是因为有数量丰富的非纯汉字式,使得《联合早报》形式较长的词语多,平均词长最长,词长变化度大。台湾的《自由时报》虽然词总数不少,但词种数却是最少的,并且其高频词所占词种数比例高,表明其高频词使用集中。《自由时报》词汇密度大、词语变化度在一定程度上反映了其使用实词多,文本阅读起来相对较难。

尽管从词语这一级单位的运用上,我们看到了五地体育新闻报道存在以上差异,但它们在频繁使用绰号以增强语言的通俗性和表现力、频繁使用数词以强化报道的现场感、大量使用具有强进攻性的同义、近义动词和军事性词语以渲染紧张激烈的竞争气氛等方面,却具有高度的一致性。

注 释:

①肖奚强:《略论体育新闻的语言特色》,《世界汉语教学》1998年第1期。

②肖竹声:《四言成语的两项小统计》,《中国语文天地》1987年第5期。

③邢红兵:《现代汉语词类使用情况统计》,《浙江师大学报》(社会科学版)1999年第3期。

④Ure,Jean:“Lexical density and register differentiation”,G E Perren,J L M Trim:Applications of linguistics:selected papers of the Second International Congress of Applied Linguistics,Cambridge:Cambridge University Press,1971,pp.443-452.

⑤李小凤:《从词汇密度看电视语体的阶列》,《现代传播》2010年第12期。

⑥蔡玮:《新闻类语篇研究的语体学意义》,上海:复旦大学博士学位论文,2004年。

⑦常宝儒:《关于〈现代汉语词汇的统计与分析〉的报告》,《第一届国际汉语教学讨论会论文选》,北京:北京语言学院出版社,1985年。

⑧王克非、胡显耀:《基于语料库的翻译汉语词汇特征研究》,《中国翻译》2008年第6期。

Comparative Study of Chinese Words of Sports News in and Outside China Based on Quantitative Analysis

ZHANG Ping,CHANG Xing,LI Jiao

Abstract:On the basis of the corpus of Chinese sports news from five Chinese Speaking Communities,including Mainland China、Hong Kong、Macao、Taiwan、Singapore,this paper discusses the similarities and differences between Chinese variants in vocabulary with respect to the sports news. It reveals that Chinese Speaking Communities share the various similarities on a specific topic of the strong rendering,diversity of synonymous means,popularity,etc. On the other hand,the variations on the text information,level of difficulty,writing differences reflect individualized features of Chinese variants.

Key words:words of internal and external Chinese Sports News;quantitative analysis;comparative analysis

(责任编校:文 建)

猜你喜欢
计量分析对比分析
能源诅咒视角下成都经济区绿色发展研究
宝鸡文理学院科研论文计量分析
戴·赫·劳伦斯《菊馨》三个版本对比分析
成渝经济区城市经济发展水平比较研究
企业所得税会计新旧准则的变化分析
英汉动物词汇文化内涵的对比分析
居民消费水平因素分析
基于中国知网的Reissner—Nordstrom空间研究文献分析
基于数据库的唐诗宋词对比研究