排行榜指标的权重设置

2017-07-18 16:06王兆鹏

当代作家 2017年7期

王兆鹏

排行榜是以数据为基础，数据指标的完备与否就成为排行榜的结果是否科学有公信力的前提。指标设置越多，越趋向科学、合理。问题是，文学作品的许多指标无法量化统计，有些能够量化统计的，又无法取得完整的数据。能够取得完整数据的指标，其价值和置信度也不同。比如我们要谈论一个诗人的影响力，我们就渴望知道：他有多少作品传世，作品有多少版本，历代刻印发行量多大，码洋多少，多少人学习、模仿、谈论过、选过他的作品，海外知名度如何，石刻作品多少次，多少地方有他的遗迹和纪念地，美誉度或恶评如何，画像有多少，有关他的文物拍卖价多高……总之，这些指标越多越详细越好。可惜，它们大部分无法取得准确的统计数据。

我们在做《唐诗排行榜》时，考虑过要统计每一首诗对后世诗人创作的影响，但数据采集相当困难。做《宋词排行榜》时，为了统计每首宋词对后世词人的影响，我们采集了后世词人追和宋词的情况，但这也只是后世词人学习仿效宋词的一个方面，创作方法和创作精神上的仿效暂时还没有好的办法采集数据来统计。

对比“国家综合实力排行榜”、“城市综合竞争实力排行榜”的数十个指标，我们的唐诗宋词排行榜只用三、五个指标，当然太少，难以让人信服。努力寻找新的排行指标，增加指标的丰富度，借以提高可信度，将是改进文学影响力评价指标体系的主要途径。理想的情况应该找到十种以上的排行数据源，然后进行数据处理。我们目前能考虑到的作品影响力的评价指标，大约可分三类：作品的典范性、美誉度和传阅度。权重的设置，主要有客观赋权和主观赋权两种。客观赋权，是以定量分析的方法，根据数据的完备程度、分布密度和活跃程度等计算出各指标的权重；主观赋权，是用定性分析的方法，根据各个指标影响因子的大小来人为设定各指标的权重。主观赋权法，又有专家评判法和层次分析法两种。唐诗宋词排行榜主要用主观赋权法中的专家评判法，虽然有一定的学理依据，但因为是初次尝试，没有前行的成果可资借鉴，也未经众多专家的讨论形成共识，所以对相关权重的设定，能是“一家之言”，未必能得到公众和专家学者的认可。

文学排行榜评价指标的权重设置，最理想的状态是客观赋权法和主观赋权法相结合。可以考虑：各种类别的指标用客观赋权法，通过软件计算来确定；而各个具体指标，用主观赋权法来设置，定性分析中参用定量数据。比如选本，既要考虑选本这一大类指标在整个评价指标体系中的权重（用客观赋权法计算），又要考虑每个选本指标的权重差异。试举几个宋词选本为例说明：

南宋曾慥的《乐府雅词》编成于南宋高宗绍兴十六年（1146年），黄升的《花庵词选》成书于理宗淳祐九年（1249年），明代陈耀文的《花草稡编》初刻于万历十一年（1583年），清代朱彝尊编选的《词综》始刊于清康熙三十年（1691年），近人朱彊邨《宋词三百首》初印于1924年，宋词排行榜中采用选本最晚的一种是2003年高等教育出版社出版的《中国古代文学作品选》。从传播、出版的周期（时间长度）来看，如果以2008年统计得出《宋词排行榜》的结果为下限，那么，《乐府雅词》的出版周期已有862年，《花庵词选》的周期有759年，《花草稡编》有425年，《词综》有317年，《宋词三百首》为84年，《中国古代文学作品选》仅5年。传播周期越长，其传阅度应该越高，到达率、知晓率应该越高。如果不加区别地将每个选本入选的数据同等看待，当然是不公平、不合理的。这还仅仅是时间上的传播周期的差别，还没考虑空间上的传播广度。传播广度无法用数据来衡量，但可以依据每个选本的版本种数（印次）、印数（发行量）来评估。发行数百万册的《宋词三百首》肯定比发行几万册的《中国古代文学作品选》的到达率、传播广度要大得多。因此，每一部词选，由于传播周期（长度）和发行量（广度）不同，而具备不同的传播含金量，也就是传播实际效率。因此，在统计不同作品入选频次之前，应对所有词选进行这种含金量的系数评定，使每一部词选都有不同的传播效率系数。一首作品入选不同的词选，即获得不同的系数积分。这与现代电视的收视率统计原理大致相同。

传播周期与传播广度又如何设定分值？唐诗宋词排行榜是按朝代来区分权重，尚嫌粗略。是否可以按年限来计算传播周期的得分？比如，上述《乐府雅词》的周期为862年，如果1年计1分，那么其传播周期得分为862分，而《宋词三百首》得84分，《中国古代文学作品选》得5分（具体统计时当然会对这些数值作标准化处理，否则数值过大，不便于比较分析）。那些出版年代不详的选本，可以据其成书的时代虚拟一个大致的周期时限。传播广度的得分，古代词选按版本种类计算（如1种版本得1分），现代词选按版次计算（重印或再版1次计1分），现代词选还应考虑其印数的多少。传播周期数与版本（版次）数的乘积，经过标准化处理后转换成选本的效率系数。这些印数和发行量的数据，现在有的是可以获得的。时过境迁之后，就很难说了。所以，我们应该注意搜集和保存这些出版发行量的资料数据。

在考量每个选本的传播周期时，还应考虑每个选本的传播时间差。这二者表面看起来，都涉及选本出版的時间长度，但实际上还是有区别，传播周期是就选本在整个传播历程中的长度而言，传播时间差是指同时代的选本出现的先后早晚。如唐诗选本中，盛唐的选本只可能入选初、盛唐人的诗作，无法入选此后中、晚唐的诗篇，以盛唐选本来统计和比较整个唐代诗人诗作的人选篇次，显然对中、晚唐的诗人不公平，因为他们没有“入选权”。同样，宋人词选中，南宋初期成书的《乐府雅词》，就无法入选南宋中叶以后的词人，如辛弃疾、张孝祥、陆游和姜夔、吴文英等人都没有“入选权”；在黄升的《花庵词选》中，宋末的周密、王沂孙、张炎、蒋捷和文天祥等人，也没有机会入选。初唐人与晚唐人相差了两百多年，宋初的词人比宋末的词人早了近三百年，前者有更多的传播机会。把他们进行同等的传播数量统计，必须将这个时间差考虑进去，以权重系数抹平彼此的时间差。评点数据中，对同时代被评的作家作品，也受这种时间差的影响，必须一并考虑其权重以平衡客观数据存在的差异。