排行榜指标的权重设置

2017-07-18 16:06王兆鹏
当代作家 2017年7期
关键词:词选选本宋词

王兆鹏

排行榜是以数据为基础,数据指标的完备与否就成为排行榜的结果是否科学有公信力的前提。指标设置越多,越趋向科学、合理。问题是,文学作品的许多指标无法量化统计,有些能够量化统计的,又无法取得完整的数据。能够取得完整数据的指标,其价值和置信度也不同。比如我们要谈论一个诗人的影响力,我们就渴望知道:他有多少作品传世,作品有多少版本,历代刻印发行量多大,码洋多少,多少人学习、模仿、谈论过、选过他的作品,海外知名度如何,石刻作品多少次,多少地方有他的遗迹和纪念地,美誉度或恶评如何,画像有多少,有关他的文物拍卖价多高……总之,这些指标越多越详细越好。可惜,它们大部分无法取得准确的统计数据。

我们在做《唐诗排行榜》时,考虑过要统计每一首诗对后世诗人创作的影响,但数据采集相当困难。做《宋词排行榜》时,为了统计每首宋词对后世词人的影响,我们采集了后世词人追和宋词的情况,但这也只是后世词人学习仿效宋词的一个方面,创作方法和创作精神上的仿效暂时还没有好的办法采集数据来统计。

对比“国家综合实力排行榜”、“城市综合竞争实力排行榜”的数十个指标,我们的唐诗宋词排行榜只用三、五个指标,当然太少,难以让人信服。努力寻找新的排行指标,增加指标的丰富度,借以提高可信度,将是改进文学影响力评价指标体系的主要途径。理想的情况应该找到十种以上的排行数据源,然后进行数据处理。我们目前能考虑到的作品影响力的评价指标,大约可分三类:作品的典范性、美誉度和传阅度。权重的设置,主要有客观赋权和主观赋权两种。客观赋权,是以定量分析的方法,根据数据的完备程度、分布密度和活跃程度等计算出各指标的权重;主观赋权,是用定性分析的方法,根据各个指标影响因子的大小来人为设定各指标的权重。主观赋权法,又有专家评判法和层次分析法两种。唐诗宋词排行榜主要用主观赋权法中的专家评判法,虽然有一定的学理依据,但因为是初次尝试,没有前行的成果可资借鉴,也未经众多专家的讨论形成共识,所以对相关权重的设定,能是“一家之言”,未必能得到公众和专家学者的认可。

文学排行榜评价指标的权重设置,最理想的状态是客观赋权法和主观赋权法相结合。可以考虑:各种类别的指标用客观赋权法,通过软件计算来确定;而各个具体指标,用主观赋权法来设置,定性分析中参用定量数据。比如选本,既要考虑选本这一大类指标在整个评价指标体系中的权重(用客观赋权法计算),又要考虑每个选本指标的权重差异。试举几个宋词选本为例说明:

南宋曾慥的《乐府雅词》编成于南宋高宗绍兴十六年(1146年),黄升的《花庵词选》成书于理宗淳祐九年(1249年),明代陈耀文的《花草稡编》初刻于万历十一年(1583年),清代朱彝尊编选的《词综》始刊于清康熙三十年(1691年),近人朱彊邨《宋词三百首》初印于1924年,宋词排行榜中采用选本最晚的一种是2003年高等教育出版社出版的《中国古代文学作品选》。从传播、出版的周期(时间长度)来看,如果以2008年统计得出《宋词排行榜》的结果为下限,那么,《乐府雅词》的出版周期已有862年,《花庵词选》的周期有759年,《花草稡编》有425年,《词综》有317年,《宋词三百首》为84年,《中国古代文学作品选》仅5年。传播周期越长,其传阅度应该越高,到达率、知晓率应该越高。如果不加区别地将每个选本入选的数据同等看待,当然是不公平、不合理的。这还仅仅是时间上的传播周期的差别,还没考虑空间上的传播广度。传播广度无法用数据来衡量,但可以依据每个选本的版本种数(印次)、印数(发行量)来评估。发行数百万册的《宋词三百首》肯定比发行几万册的《中国古代文学作品选》的到达率、传播广度要大得多。因此,每一部词选,由于传播周期(长度)和发行量(广度)不同,而具备不同的传播含金量,也就是传播实际效率。因此,在统计不同作品入选频次之前,应对所有词选进行这种含金量的系数评定,使每一部词选都有不同的传播效率系数。一首作品入选不同的词选,即获得不同的系数积分。这与现代电视的收视率统计原理大致相同。

传播周期与传播广度又如何设定分值?唐诗宋词排行榜是按朝代来区分权重,尚嫌粗略。是否可以按年限来计算传播周期的得分?比如,上述《乐府雅词》的周期为862年,如果1年计1分,那么其传播周期得分为862分,而《宋词三百首》得84分,《中国古代文学作品选》得5分(具体统计时当然会对这些数值作标准化处理,否则数值过大,不便于比较分析)。那些出版年代不详的选本,可以据其成书的时代虚拟一个大致的周期时限。传播广度的得分,古代词选按版本种类计算(如1种版本得1分),现代词选按版次计算(重印或再版1次计1分),现代词选还应考虑其印数的多少。传播周期数与版本(版次)数的乘积,经过标准化处理后转换成选本的效率系数。这些印数和发行量的数据,现在有的是可以获得的。时过境迁之后,就很难说了。所以,我们应该注意搜集和保存这些出版发行量的资料数据。

在考量每个选本的传播周期时,还应考虑每个选本的传播时间差。这二者表面看起来,都涉及选本出版的時间长度,但实际上还是有区别,传播周期是就选本在整个传播历程中的长度而言,传播时间差是指同时代的选本出现的先后早晚。如唐诗选本中,盛唐的选本只可能入选初、盛唐人的诗作,无法入选此后中、晚唐的诗篇,以盛唐选本来统计和比较整个唐代诗人诗作的人选篇次,显然对中、晚唐的诗人不公平,因为他们没有“入选权”。同样,宋人词选中,南宋初期成书的《乐府雅词》,就无法入选南宋中叶以后的词人,如辛弃疾、张孝祥、陆游和姜夔、吴文英等人都没有“入选权”;在黄升的《花庵词选》中,宋末的周密、王沂孙、张炎、蒋捷和文天祥等人,也没有机会入选。初唐人与晚唐人相差了两百多年,宋初的词人比宋末的词人早了近三百年,前者有更多的传播机会。把他们进行同等的传播数量统计,必须将这个时间差考虑进去,以权重系数抹平彼此的时间差。评点数据中,对同时代被评的作家作品,也受这种时间差的影响,必须一并考虑其权重以平衡客观数据存在的差异。

猜你喜欢
词选选本宋词
宋词里的中秋月
选本编纂与“朦胧诗派”的建构
半小时漫画宋词
半小时漫画宋词
品读宋词
中国京剧选本之“选”与比较研究(1880—1949)
中国古代戏曲选本概念辨疑与类型区分
《词综》范式的追摹与转变
——以乾隆时期《清绮轩词选》《晴雪雅词》《自怡轩词选》为中心
艾文化名书家画题展词选
监利方言亲属称谓词选释