赣南客家方言语音语料库建设的必要性分析

2016-03-16 20:59邓海龙
文教资料 2016年21期
关键词:客家方言赣南语料库

邓海龙

(赣南师范大学 外国语学院,江西 赣州 341000)

赣南客家方言语音语料库建设的必要性分析

邓海龙

(赣南师范大学 外国语学院,江西 赣州341000)

方言缺乏文字系统,难以采集和数字化,在社会政治生活中处于边缘地位,因此,方言语料库建设较少受到学界和社会关注。本文以赣南客家方言语音语料库的建设为切入点,从学术研究意义、实际应用价值和文化传承维护等方面论证方言语料库建设的必要性。方言语料库建设费时费力,但其意义深远,价值不可估量。

客家方言语料库赣南地区必要性

一、引言

语料库主要是指以电子形式储存并能以一定方式检索的语言资源库(Biber,2000;卫乃兴,2005)。语料库方法的语言研究发端于欧美国家,起初主要用于英语、法语等国际通用语言的研究。随着信息技术迅速发展和个人电脑的广泛普及,运用语料库逐渐成为语言研究的常规手段(McEnery &Hardie2012)。当今大数据时代,官方语言(如普通话等)电子资源不断丰富,相关语料库的建设自然更加方便。然而,由于方言缺乏书写系统,通常没有文字资料留存,网上不会有大量电子数据产生,很难进行语料库采集和数字化。方言在社会政治生活中外于边缘地位,不容易受到学界和社会关注。因此,方言语料库的建设总体上还较为薄弱。本文以赣南地区的客家方言为例,探讨方言语音语料库建设的多重价值和必要性,以期引起有关部门和学界对方言语音语料库建设更多的关注。

二、国内汉语及方言语料库建设基本现状

汉语语料库的建设取得了较大成果,其中国家语委的“现代汉语通用平衡语料库”已达到了一亿字符以上(刘连元,1996);北京大学的现代汉语语料库经过长年积累不断发展壮大,已经达到3亿字符以上,可以在线检索(俞士汶,2002)。

语料库可以分为语音语料库和文本语料库。考虑到采集、存储和检索方便,早期语料库均以文本语料为主,上面所述的两大汉语语料库都是文本语料。文本语料库对于具有书面语的主流语言变体是基本适宜的,但是,因为方言大多只以口语形式传承,方言语料库一般需要通过语音形式采集和保存。

上个世纪80年代,北京语言文化大学开始建设“北京口语语料库”(北京语言大学语言研究所,2010),这是我国较早的方言语料库,将口语以文本转写的方式呈现,属于“口语”语料库,却并非“语音”语料库。该语料库已经对外开放检索(http://app.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp)。

另外,美国宾夕法尼亚大学的语言数据联盟(Linguistic DataConsortium,http://catalog.ldc.upenn.edu/)已发布了我国普通话和粤语语音语料库。我国台湾的国立政治大学建成并公开包括国语(普通话)、客家话、闽南话的“汉语口语语料库”(http://140.119.172.200/)。2008年,国家语委启动了“中国语言资源有声数据库建设”项目,江苏省率先建成了本省方言语音数据库(http://jsyw.jsjyt.edu.cn/col/col82/index.html),北京市、上海市、广西壮族自治区和山东省等省市也开始建设本地区方言语音数据库。

1933年,罗香林以《客家研究导论》奠定了客家研究基础,并影响了客家方言在汉语方言体系中的位置(刘纶鑫,2001)。赣南地区客家方言是客家方言中比较重要的片区之一。到目前为止,客家方言的研究一般集中在语音、字词、习语和社会文化背景等内容,研究手段多以逻辑思辨和少量田野调查为主,尚未发现有基于较大规模语料库的相关研究(刘纶鑫,2001;温昌衍,2006)。2002年,南昌大学文学院建成的客赣方言数据库在第五届客家方言暨赣方言首届学术研讨会上进行了演示。该语言数据库由刘纶鑫教授主持开发,其中涉及的软件设计是上海师范大学潘悟云教授完成的。这个方言数据库将方言资料以电子化形式储存,便于查询和检索,主要是音韵内容,没有一般的话语资源(东石,2002)。2004年,由罗美珍等学者主编的《客家话通用词典》得到出版,为客家方言资料的保存与完善作出了极其有意义的贡献。不过略嫌遗憾的是,仅是文本形态,而且由于懂赣南地区客家方言的学者不是太多,赣南地区的客家方言资料收集显得有点单薄(罗美珍,2004)。从已有文献来看,汉语、北京话、粤语及一些少数民族语言(如蒙古语、维吾尔语等)的语料库建设已经比较成熟,但客家方言,尤其是语音语料库的建设却相对滞后,中山大学庄初升教授主持在研2014年度国家重大项目 “海内外客家方言的语料库建设和综合比较研究”,侧重于描绘海内外客家方言的总体面貌。总体而言,由于口语语料采集费时费力,方言语音语料库的建设(包括客家方言)比较欠缺,从而严重制约方言研究的整体发展水平(范俊军,2013)。

三、学术研究意义

(一)运用语料库展开语言研究是基本趋势。语言研究大致有理性主义与经验主义之分。理性主义代表人物乔姆斯基持一种内在主义语言观,强调人类语言能力的先天属性,主张以内省的方式研究语言(Chomsky,2000)。与此相对的则是经验主义研究方法,注重从大量语言事实中挖掘语言规律,而语料库语言学方法正是经验主义研究的有效手段(冯志伟,2007)。目前,经验主义研究方法已经逐渐取代理性主义研究方法,成为主流研究手段,用冯志伟先生的话来说,就是 “语言学研究要实现战略大转移”(冯志伟,2011;2013)。可见,建设和应用语料库进行语言研究是目前语言学研究的基本发展方向之一。

(二)客家方言语音语料库可为客家方言本体研究提供基础性平台。限于实际条件,当前客家方言的研究大多根据自身语感,比较零星地进行一些归纳和对比,很难实现系统性和规范化,研究结果不容易做到可靠和准确。随着语言研究的日益精深化,语料库在语言研究中扮演着越来越重要的角色。根据现代语言学理论,在语言研究中,口语是第一位的,书写系统是第二位的。语音语料对于语言研究至关重要。方言一般缺乏书写系统,语音材料更是唯一必需的研究资料。客家方言语音语料库的建立可以使客家方言得到更为细致客观的描述,为其他相关研究提供重要的原始素材。这是一项客家方言研究的基础性工作,将可能催生一系列以语料库为基础的客家方言研究。

四、实际应用价值

(一)在语言教学应用研究中发挥积极作用。赣南客家方言是赣南地区数百万人的母语,对于赣南客家人的普通话和外语学习都会产生重要影响(刘慧,温书鸿,2013)。母语对于外语学习的影响很大,利用语音语料库把握母语规律,通过赣南客家方言语料库和普通话或者英语语料库之间的比较研究,将有助于发现第二语言学习规律,强化语言教学效果。

(二)为语言信息工程研究提供基础数据。计算机语言识别需要涉及不同汉语方言的语言特点,方言语料库将有助于人机对话语言服务系统的开发,帮助刑侦人员判定罪犯来源于哪一个方言区,鉴别罪犯成长地所在区域(杨鸿武,2009)。

五、文化传承与保护

(一)语料库在保护弱势和濒危语言资源中的重要作用。由于交通和通讯技术的不断发展,很多弱势语言不断受到主流语言的影响和侵蚀,语料库是有效的语言保护手段,得到了我国家高层有关部门的高度重视。例如,2008年,国家语委启动了“中国语言资源有声数据库建设”项目,这是一项具有深远影响的国家重大语言文字工程,要求统一规范地采集我国境内实际使用中的各类地方语言,将之科学整理和归档,建成有声数据库(李宇明,2010)。2013年,教育部语言文字信息管理司发布了《中国语言资源有声数据库建设工作规范(试行)》(教语信司函〔2013〕17号),进一步规范了我国语音语料库的建设。

(二)客家方言语音数据在客家文化传承与保护方面的重要价值。语言与文化密不可分,赣南地区客家方言语音语料库的建设可以对赣南地区口耳相传文化起到传承和保护的作用。随着人口流动的不断加快和媒介传播的广泛发展,客家方言越来越受到普通话等其他主流语言的影响,许多具有特色的表达方式和语音习惯逐渐不为人所知,甚至最终消失。建设赣南地区客家方言语音语料库,保存的不仅仅是语言,还是一个族群的文化传承,是我们国家多样性生态文化的重要资源。

2012年,《国务院关于支持赣南等原中央苏区振兴发展的若干意见》(国发〔2012〕21号)在“加快文化体育事业发展”这一项中提出要“加强非物质文化遗产保护”。虽然从严格意义上说,赣南客家方言不能算做一项非物质文化遗产,但它渗透到当地的山歌、戏曲、歌谣等各种形式之中,属于赣南地区人民宝贵的精神资源,采取一定措施进行留存是非常必要的。

广而言之,客家方言对团结海内外客家后裔,促进赣台两岸交流,推进国内外客家群体之间的经济、文化活动有着不可估量的现实意义。

六、结语

目前,汉语方言语音语料库并不多见,赣南地区客家方言语音语料库更是未见先例。虽然方言并非主流交际用语,但其语言研究和文化传承价值却极其重大。若能得到有关部门和学界的支持,建成科学规范的赣南地区客家方言语音语料库,并面向全社会公开,充分发挥语料库的社会服务功能,可以为方言研究、方言语音信息工程、赣南人学习普通话或者外语研究等各个领域提供研究素材;同时可为传承赣南客家文化和弘扬苏区精神产生积极作用。因此,在学术上,赣南客家方言语料库可以为客家方言本体研究提供重要数据,促进语言教学研究;在社会文化领域,建成语料库还将为客家文化保护和传承发挥重要的应用价值。

[1]Biber,D.,ConcradS.,ReppenR.CorpusLinguistics[M].北京:外语教学与研究,2000.

[2]Chomsky,N.NewHorizonsintheStudyofLanguage andMind[M].Cambridge[England].NewYorkCambridgeUniversityPress,2000.

[3]Mcenery,T.,HardieA.CorpusLinguistics:Method,TheoryandPractice[M].CambridgeUniversityPress,2012.

[4]北京语言大学语言研究所.北京口语语料查询系统简介[J].语言教学与研究,2010(04):95-96.

[5]东石.客赣方言数据库在南昌大学文学院建成[J].中国语文,2002(05):477.

[6]范俊军.汉语方言自然口语语料库建设的几个基本问题[J].学术研究,2013(02):153-158.

[7]冯志伟.基于经验主义的语料库研究[J].术语标准化与信息技术,2007(01):29-36+39.

[8]冯志伟.论语言学研究中的战略转移[J].现代外语,2011(01):1-11+108.

[9]冯志伟.语言学正面临战略转移的重要时刻[J].南开语言学刊,2013(01):7-19.

[10]李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(04):356-363+384.

[11]刘慧,温书鸿.赣南客家方言区基础教育中的普通话推广现状及对策[J].语文建设,2013(11):55-56.

[12]刘连元.现代汉语语料库研制[J].语言文字应用,1996(03):3-9+114.

[13]刘纶鑫.西客家方言概况[M].南昌:江西人民出版社,2001.

[14]罗美珍,林立芳,饶长溶.客家话通用词典[M].广州:中山大学出版社,2004.

[15]罗香林.客家研究导论[M].上海:上海文艺出版社,1992.

[16]卫乃兴,李文中,濮建忠.语料库应用研究[M].上海:上海外语教育出版社,2005.

[17]温昌衍.客家方言[M].广州:华南理工大学出版社,2006.

[18]杨鸿武,梁青青,郭威彤,etal.一个面向言语工程的兰州方言语料库[J].西北师范大学学报(自然科学版),2009(06):54-59.

[19]俞士汶,段慧明,朱学锋,etal.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002(05):49-64.

本文系江西省高校人文社会科学研究青年基金项目《赣南地区客家方言语音语料库及检索平台建设》(编号YY1413)阶段性成果。

猜你喜欢
客家方言赣南语料库
文化三馆讲好赣南审计故事
赣南采茶戏《一个人的长征》简介
《语料库翻译文体学》评介
近四十年来客家方言研究的历史经验与当代反思*
初探客家方言传承存在的问题及对策
初探客家方言传承存在的问题及对策
赣南脐橙整形修剪技术
赣南早脐橙在几种中间砧木上高接换种的表现
基于JAVAEE的维吾尔中介语语料库开发与实现
江西大塘客家方言声母[n]的研究