基于数据库的唐诗宋词对比研究

2015-09-01 16:57蔡爱娟
科技视界 2015年25期
关键词:全唐诗对比分析数据库

蔡爱娟

【摘 要】唐诗宋词是中国文化的瑰宝,历来受到人们的广泛关注。本文基于数据库分析,对唐诗宋词的题目、诗人、用字和意象进行了统计和对比分析。

【关键词】全唐诗;全宋词;数据库;对比分析

历来对唐诗宋词的对比研究主要是感性的定性研究,比如分析唐诗宋词的不同风格。20世纪以来,随着计算机科学的发展,人们加大了对古代文学的定量研究。张三夕(1984)通过定量分析,考证全唐诗的诗人实为三百多人①。朱崇才(1993)统计《全宋词》高频字,认为《全宋词》有一定的女性化倾向。刘明华(1999)利用《全唐诗》软件,发现《全唐诗》用字的一些特点,比如字频最高的是“不”。 尚永亮(2007)探讨数据库、计量分析方法及其对古代文学研究的现代化进程作用。龚岚(2009)分析唐诗宋词中高频字的使用和演变情况。张三夕、张世敏(2013)从方法论的角度提出将计量研究法引入古代文学研究。

利用数据处理工具构建唐诗宋词数据库进行定量研究,具有系统性和可验证性。本文基于《全唐诗》、《全宋词》数据库,利用ACCESS、MySQL和PHP等数据处理工具,从统计的角度出发,探讨唐诗宋词的不同特点。

1 对唐诗宋词题目的分析

1.1 对《全唐诗》高频题目的分析

《全唐诗》所有诗作共计42657篇,共有2271个题目。此处列举了重复频率最高的前十项题目,如下表所示:

表1显示,《全唐诗》中题目重复最多的是《句》,并且它遥遥领先于第二名《古意》,而我们所了解的诗词中以“句”为名的不多,有些奇怪。再筛选出题目为《句》的诗作,发现它们并不全是以“句”为题,绝大多数指诗歌中零落的句子,也许是在流传过程中散佚,不知其名,因而以“句”为名。所以,《全唐诗》题目频率使用最高的应为《古意》。

此外,高频的《长门怨》、《塞下曲》、《送别》、《柳》反映了诗歌选材和情感的取向,体现了“送别”、“闺怨”、“边塞”等几大主题,符合我们通常的认知。

1.2 对《全宋词》高频题目的分析

《全宋词》记录数5303,查找题目重复项,使用频率最高的前十个题目如下所示:

此处宋词的题目指“词牌名”,一般与词的内容无关,只是套用格式。通过数据库查找出来的前十项高频词牌名,均为常见词牌名。

《全宋词》使用频率最高的前五项词牌名覆盖的诗人数目如下:

《全宋词》前五个高频词牌名覆盖的诗人数目相差不大,并且诗人是相似的,但《浣溪沙》覆盖的诗作数目远胜于其他词牌名,即对于特定诗人而言,《浣溪沙》的使用频率高于其他词牌名。它音节明快,句式整齐,易于上口,为婉约、豪放两派词人所常用。两大流派皆钟情于此,则排名第一不足为奇。

2 唐诗宋词的诗人与作品的情况分析

2.1 《全唐诗》高产诗人

《全唐诗》共2356位诗人,其中诗作总数最多的前十名诗人列举如下:

可见,唐诗诗作最多的并非李白而是白居易,其诗作2641篇,占全唐诗总数的6.2%。除了白居易,李白、杜甫、刘禹锡、元稹、李商隐、齐己、韦应物、陆龟蒙也都是我们耳熟能详的诗人,其诗作不仅流传千古而且数量丰富。

前十名中只有“贯休”不太熟悉。贯休是唐末五代著名画僧。他能诗善画,在中国绘画史上有很高的声誉。他博学多才,嫉恶如仇,诗作中往往体现了忧国忧民、高风亮节的特点,例如“旅梦遭鸿唤,家山被贼围”,品格高洁由此可见一斑。

2.2 《全宋词》高产诗人

《全宋词》共72位诗人,其中诗作总数最多的前十名列举如下:

其中苏轼作品共348篇,约占全宋词总数的6.56%,位列第一。与《全唐诗》相似,前十名中绝大多数是我们熟悉的词人,仅“朱敦儒”、“毛滂”和“张元干”相对陌生。

朱敦儒为词中之俊,词作风格随个人人生经历的变化而转变。少年时,不识愁滋味,词风浓艳丽巧;中年时,忧时愤世,词风慷慨激昂;晚年时,闲居山水,词风清新自然。他开拓了宋词的题材,进一步发挥了以词叙事和以词言志的功能,使诗词的功能初步合二为一,在词坛上具有独特的地位。

毛滂其词潇洒明润、情韵特胜,是“非作家之极,亦在附庸之列”的有风致、有成就、有影响的作家。

张元干勤奋读书,爱好诗词,协助李纲,抗击金兵,义愤作词,抒发情怀。

对《全唐诗》《全宋词》诗人、诗作的分析,发掘出了高产而不为人熟知的诗人。

2.3 《全唐诗》《全宋词》诗人、诗作对比分析

通过对数据的分析,还发现了一些有趣的事实。比如,《全唐诗》中李姓诗人的诗歌有5158篇之多,占12.09%;而在《全宋词》中李姓诗作323篇,占6.09%。可见,李姓对于唐诗的贡献远胜于宋词。据此展开联想,也许“李”姓诗作之多与唐朝的特殊性——“李”是国姓有关。但《全宋词》中收录的诗人中,赵姓诗人诗作并不多(2%),因此,是否与“朝代”和“国姓”有关有待商榷。

另一个对比是,《全唐诗》每位诗人平均有18.1首诗(而白居易一人就占据诗作总数的6%),所以,实际上其他诗人平均诗作数还不足18首),《全宋词》平均每位词人73.6首。可见,《全宋词》作品集中于部分词人。

《全宋词》仅收录了72位词人的作品,还会引发一些相关联想:是否可以认为《全宋词》收录的作品是否覆盖面相对比较狭小,遗漏了一些相对不太有名的作品?或者是否可以认为这与唐宋发展水平和人口数有关?抑或,虽然我们常说“唐诗宋词”,宋词的地位和唐诗基本对等,但是,撑起泱泱唐诗的是整个唐朝的百姓,而撑起宋词的只是一部分文人?

3 对唐诗宋词高频字分析

唐诗宋词用字频率最高的前二十个字中,有七个是重叠的,即数词“一”、否定副词“不”、方位词“中”、“上”、疑问代词“何”和名词“人”“云”。 这些词有不同的语法功能,它们共同作用,实现诗歌抒情言志的作用。其中,唐诗用字频率最高的前二十个字中出现了“花”这个意象,下文会对意象作进一步分析。

现在汉字前十高频字是“的、一、国、在、人、了、有、中、是、年”,其中“一、人、中”仍然保留着高频地位。 “何”不在高频之列,“是”进入高频,体现了白话文对汉字使用频率的影响。

4 唐诗宋词意象比较分析

基于《全唐诗》、《全宋词》,对“花”、“西楼”、“落日/夕阳”以及“云”这几个常用的典型意象进行对比分析。

《全唐诗》中四种意象的使用情况如下:

可见,“花”是诗词永恒的主题,可写景,可比人,表情达意,传神到位。粗略对比发现,唐诗中的“花”似乎更为“积极”,宋词中的“花”更为伤感,多用来伤春怀人。

“云”也是诗词中常用的经典意象,如“浮云游子意,落日故人情”,“云”有飘落无依之义,有纯洁之义,内涵丰富,因而为诗人常用。

从这一角度出发,勾选出诗歌常用意象,分析归纳不同意象在语境的不同特点,对理解诗歌含义有很大帮助,可应用于语文教学。

5 总结

本文利用数据库工具对《全唐诗》、《全宋词》的题目、诗人、用字以及意象等特质进行初步的对比分析。进一步,可以利用中文信息处理,探索不同诗人的用字习惯、语言风格等,形成一套准确实用相对科学的系统,在古代文学研究者个人研究经验的基础上,从信息处理的角度,为诗词某些特质的确定提供依据,成为辅助工具。例如,确定一首无名诗的作者,我们可以在研究该诗歌的基础上从数据库中寻找与其风格相匹配的诗人,根据风格、用字习惯来推测作者。目前,计算机通过“学习”可以“创作”出让人难辨真伪的诗句,意境、押韵都没有问题,虽然这种“诗”到底能否算作真正的诗歌有待商榷,但从定量角度,利用数据库建设、计算机建模等方式研究诗词不失为一个全新的探索角度。

【参考文献】

[1]龚岚.试论唐诗宋词中的高频字[J].江西财经大学学报,2009(1):104-108.

[2]尚永亮.数据库、计量分析与古代文学研究的现代化进程[J].文学评论,2007,(6):187-190.

[3]刘明华.唐人最爱说“不”──《全唐诗》软件字频检索如是说[J].中国典籍与文化,1999(4).

[4]朱崇才.从高频字看宋词的女性化倾向[J].中国韵文学刊,1993:70-76.

[5]张三夕.作家作品研究中的数量分析——唐代诗人总数考实[J].江苏师范大学学报:哲学社会科学版,1984(2):63-67.

[6]张三夕,张世敏.古代文学研究中计量分析的应用与限度——由唐诗宋词排行榜引起的思考[J].社会科学,2013(2):172-177.DOI:10.3969/j.issn.0257-5833.2013.02.020.

注释:

①张三夕先生区分“诗人”和“写诗的人”,认为诗人至少应为“存诗一卷以上者”.

[责任编辑:曹明明]

猜你喜欢
全唐诗对比分析数据库
《全唐诗》里的中秋节俗(节选)