数网环境下论文引证文献数的多变量动态分析*

2019-04-16 03:08张玮欣赵少飞王威娜

图书馆论坛 2019年4期

陈辉，张玮欣，赵少飞，王威娜

1 文献综述及问题提出

随着数字化网络(以下简称“数网”)技术的发展与应用，学术期刊论文数据库成为广大科研人员获取信息与文献的主要平台。在网络环境下，学术期刊的出版传播模式及其影响因子的分析和研究也有了很大的变化，原因主要是数据来源更为丰富，获取数据更为便捷，各种数据分析手段和方法的应用也更为灵活和深入。有两个方向的选题已引起相关学者的重视：一是网络出版数据(如下载量)与期刊或论文的被引等的相关性分析；二是读者的阅读行为分析。这也是笔者所关注和研究的两个方向，并且认为如果借助于多层次的分析手段，这类研究可以做得更为精细和有效。因此，本文将考量论文的网络下载量等因素与被引用情况的关系，除大家所熟悉的引证文献数之外，还关注同被引文献数、共引文献数等长期被忽视的因素。

不少学者采用不同方法进行了有益的探究，得出的结论也呈现出不一致性。研究方法主要有：(1)学术期刊被引频次及影响因素的描述性(Descriptive)调查、分析和总结[1-9]；(2)预测性(Predictive)统计分析，对变量之间的关系进行线性回归分析及元分析[10-14]。这些研究的对象大部分是同类学科期刊，鲜有以多学科、综合性期刊的论文为研究对象。以单一学科期刊作为研究对象，没有考虑不同学科间的差异性，得出的相关性结论是否适应于所有学科尚有存疑；而以期刊为研究对象，期刊数据是整合了论文数据而得到的，会导致单篇论文的某些特征消失，从而使所刊载论文的下载量与被引量相关性的数据分析稳定性欠佳。由于这些研究的对象、因素、方法不同，出现结论的不一致性也是有情可原的。

刘筱敏等[1]通过对比15 种化学类电子期刊的下载量、引用量，指出电子资源对科研人员获取和使用文献具有重要作用，并通过对数据的描述性统计分析得出，下载量与引用量相关性较强。这一结论为同类学科期刊的对比研究奠定了基础。丁佐奇等[8]分析CNKI 中两本药学期刊被引Top20 的文章数据，得出论文发表后2～4年引证达到峰值，以及单篇论文的被引与下载相关性较差的结论。然而，其数据量太小，结论的支持度不高。郭强等[9]认为引文分析有其相对的滞后性，而下载次数作为反映文献价值的早期指标，使论文的评价可以有所提前，这一结论对数网环境下期刊和论文评价的后续研究有重要的指导意义。上述三者均采用描述性统计分析方法。

在描述性统计分析的基础上，有学者采用多层次的分析方法，进行更深入的相关分析。王海涛等[10]采用负二项回归模型对2013年JCR 影响因子TOP20 的经济类期刊论文(英文)的被引频次影响因素进行了研究，认为作者数、文献数、论文长度、基金资助、期刊影响因子与被引数具有显著的正向关系，发表年份与被引数之间存在显著的倒U 型关系；并且关注了不同研究方向的差异性，认为不同研究方向的论文其被引数存在明显的差异性。孟凡蓉等[11]对五种科技管理核心期刊论文的被引频次影响因素进行描述性分析和泊松回归分析，认为论文被引频次对刊载时间有较强的依赖性，且为非线性关系；论文特征决定了论文的被引频次。张小强[12]以期刊为对象，重点对同一年份不同期刊的下载频次、被引频次与影响因子进行线性和非线性回归方程对比研究，得出如下结论：期刊被引频次与下载频次具有高度正相关性，下载频次与影响因子也呈正相关性，但相关系数低于被引频次与下载频次。此外，网络传播指标——网络下载率与影响因子具有统计学上的一致性，可以作为期刊评价指标。谢娟等[13]在梳理国内外大量文献的基础上，从单篇论文的层面对论文下载量与被引量的相关性进行元分析，发现二者具有强烈的正相关关系，指出由于下载量实时、易获取，可以作为科研评价指标之一(预测性分析Predictive Analysis)；同时指出，不同质量论文的下载量与被引量相关性实证研究尚未见，可以作为进一步研究的课题。笔者认为，网络下载率或下载量作为评价指标在数网环境下值得重视，如何公平、有效地用好这一指标值得深入研究。徐庆富等[14]注意到不同学科论文的差异性，在控制期刊影响因子的前提下，对15 种代表不同学科类别的专业期刊的论文进行回归分析，发现引用半衰期、参考文献数量等与论文质量之间存在内在逻辑关系，确实会影响论文被引频次；而论文篇幅等容易被“人为操纵”的因素并不会对被引频次产生实质影响，表明用被引频次衡量论文质量具有相对合理性。

大多数学者把采集的数据作为截面数据来进行分析，这种分析科学合理，结论是正确的。然而从科学计量学而言，许多似乎已被证实的观点仍需通过控制相关变量或扩大调研范围，进行逻辑分析和数据验证[14]。鉴于上述原因，本文选取某综合性科学技术类高校学报的论文作为研究对象。高校学报通常涉及多个学科，并且其论文的学术性审核也有统一的要求和规范且执行比较严格。因此，本研究的结论应具有一定的广泛性意义。

此外，数网技术的发展与应用导致期刊数据库模式的出现，也使得期刊本身被虚拟化、拆解，文献传播的中心从期刊转移到单篇论文[15]，进一步说明以论文为研究基本单元相比于以期刊为研究基本单元更为合理。排除期刊自身的因素，把关注点放在论文上来研究和验证同一种期刊论文的相关情况，对数网环境下论文乃至科学成果的传播有着重要的现实意义。本文拟在固定期刊(选择某综合性科学技术类期刊)这个因素的前提下，对论文评价的传统因素(如学科、出版年限等)以及数网环境下的特征因素(如下载量与被引情况，即引证文献、共引文献、同被引文献)的相关性进行动态的、多变量的实证分析与研究。

2 数据的获取与预处理

2.1 数据来源与结构

大多数研究的数据源于Web of Science，有些则选择TOP20 英文专业期刊，也就是影响因子最高的英文学术期刊。这样选择数据也有其不足的地方：一是没有考虑中文期刊，二是忽略了一般学术期刊的数据变化规律。

在学者们的前期研究中，最小的数据记录(Record)单位是期刊，而不是单篇论文。不同论文之间的引证文献数据分布是不均衡的，整合了论文数据后的整期期刊引证文献数与下载数之间的一些重要特性会消失。因此，本研究采集每篇论文的相关数据作为源数据，选取某高校学报(属综合性科学技术类期刊)2013-2015年发表的论文为研究对象。数据主要从知网中爬取，数据采集截止日期为2018年3月26日，数据结构如表1所示。

表1 数据结构表

2.2 数据的预处理

大部分研究选择连续型变量进行分析，如论文下载数、页数、作者人数。虽然也有学者关注到一些分类变量(如基金资助、学科等)对引证文献数的影响，但在分析时往往简单地将分类变量作为逻辑变量，纳入回归分析中，或简单作一些相关系数分析。本研究从分类变量与连续变量两方面来考虑与分析。如表1所示，采集的数据结构良好，但对于文本类变量数据，为了后面方差分析的需要，必须作一些转换处理，主要对两个字段(基金编号和分类号)进行处理。

(1)基金编号的处理方法。依据编号将论文基金分为4 个等级：0 为无资助，1 为国家级(如国家自然科学基金、国家社科基金)，2 为省部级，3 为其他。

(2)分类号的转换。采用图书标准分类号(参照网站：http：//ztflh.xhma.com/)，主要困难是如何解决分类号不等长的匹配分析问题。本文分两阶段来处理学科分类号的问题：首先截取分类号左边第一个字母，以对应不同的学科，对学科进行分类的方差分析；然后选择T类(因为样本来源为综合性科学技术类期刊，T 类论文的比例特别高)，对前两位字母进行分类分析。

2.3 数据的描述性统计分析

目前已有研究多从学术期刊的截面数据来进行分析。本文考量有可能影响引证文献数的多个因素，主要包括：基金资助等级、学科分类(分类号)、年份、页数、共引文献数、同被引文献数。从数据分析的角度将这些因素分为两大类：一是分类变量(如基金资助等级与学科分类)；二是连续变量(如页数、共引文献数、同被引文献数)。由下一节的分析可知，期刊论文的主要变量是学科、下载量、同被引文献数与引征文献数。因此，在本节中只给出下载数、同被引文献数与引证文献数的描述性统计分析结果，以探讨引证文献数的动态性问题。描述性统计分析结果见表2(以论文为统计单位)，而相关的箱线图如图1所示，可以明显看出主要变量的变化特性。

(1)下载数的分布特点。中位数在150 左右，四分一位数在100 左右(2015年略偏低)，而四分三位数约在200～260 之间，但最大值超2000(2015年除外)，中位数与四分位数的位置分布均匀，整体分布接近正态；由于最大值偏大，所以裁剪了最大值，重点显示四分位与最小值的分布情况；年份越长，中值越大，但最小值基本不变。(2)同被引文献数的分布特点。分布形态与下载数相似，也接近正态分布；中位数在20～80范围变化，年份越近，中位数越小。(3)引证文献数的分布特征。偏峰较大，大多数引证文献数小于10，但高被引的文献数可接近70；中位值偏向最小值，而且四分位数与中位数相差很小，最大值与分位数及中位数相差较大。这种分布一般称为偏峰及峰值较大，在自变量计算时通常认为稳定性较差。(4)下载数、同被引文献数和引证文献数具有一定的相关性(下一节将进一步用统计分析方法进行论证)。从分布特征来看，下载数与同被引文献数的分布比引证文献数更为扁平，在影响因子的计算中若考虑这两个因素会得到更为稳定的结果。因为通俗来讲，体量越大越具有代表性。上述三个因素有别于基金资助、学科、页数等静态因素，呈现出明显的动态特性，年份越长数量值越大。

表2 不同年份期刊论文的描述性统计分析

图1 下载数、同被引文献数与引证文献数动态箱线图

3 引证文献数及其影响因素的数据分析

本节将求取对引证文献数有显著性影响的因素。具体的方法为：以分类变量作为自变量时采用方差分析，以连续变量为自变量时采用回归分析。

3.1 分类变量作为自变量的方差分析

(1)按基金分类的方差分析。将基金资助的数据分为四类：0无资助；1国家级；2省部级；3其他。对基金资助及其等级进行方差分析后得到P 值为0.56，表明基金资助情况对引证文献数以及同被引文献数等没有显著的影响。造成这个结果的原因可能是：目标期刊90%以上的论文都有基金资助。本文获取的基础数据显示，在没有获得资助的论文中，30%以上属于前10%高被引文献，说明在这一类学术期刊中，基金项目资助及其等级对论文的引证文献数没有明显影响，也就是相关性不显著。

(2)按学科分类的方差分析。对论文的第一个学科分类号进行分类，得到引证文献数的均值表，见表3。

表3 学科分类的引证文献数均值

为了分析学科分类对引证文献数的影响是否显著，本文采取单因素方差分析法，得到学科分类对引证文献数的P值为0.01622，表明学科分类之间的差异性对期刊论文的引证文献数有显著影响。由于所选期刊中综合性科学技术类(T 类)的论文数量较多(占72.3%)，再作深入的影响因子分析时，可以对T 类论文作进一步的方差分析，以揭示T 类中哪些具体学科的影响较大。T 类学科再细分后得到的引证文献数均值如表4所示。

表4 T类学科细分后的引证文献数均值

经过方差分析后，得到P值为0.01622，说明在T 类中各学科对引证文献数的影响显著，特别是自动化技术、计算机技术类、化学工程类等比其他学科有更明显的高引证文献数。以上结果表明：(1)自动化、计算机、环境等是备受欢迎的热门学科；(2)不同学科论文的质量存在差异性；(3)学科差异性分析对期刊选题有一定的指导意义，但也不能忽视一些特殊学科，如原子能技术对科学整体发展的贡献。

3.2 连续型变量的多元回归探索性分析

对所有连续型变量进行初步多元回归探索性分析，即将引证文献数或同被引文献数作为因变量，其余变量为自变量展开分析，结果如表5所示。

表5 连续型变量的多元回归探索性分析

从表5可知，选择引证文献数为因变量，R2值是0.737047，拟合效果比较好；若选择同被文献数为因变量，R2值是0.199649，拟合效果不理想。针对引证文献数的回归分析F检验的P值是1.4×10-73，线性回归效果显著。针对每个自变量的系数所作的假设检验发现，有两个自变量(页数、共引文献数)没有通过t检验，在后续的分析中应删除。表5表明，引证文献数、同被引文献数与下载数三者有一定的相关性，有可能是线性关系，也有可能是非线性关系，下面将通过更细化的回归分析来展开探讨。

3.3 引证文献数、同被引文献数、下载数的回归分析

对引证文献数、同被引文献数、下载数三个变量进行单因素回归分析，从中探讨它们之间是否存在线性关系(见表6)。

从表6可看出，引证文献数与同被引文献数之间具有很强的线性关系，引证文献数与下载数之间的线性关系也是显著的。但是，同被引文献数与下载数之间不是简单的线性关系，经过多次仿真分析后发现，二者之间为非线性关系，而下载数平方根与立方根的组合线性回归计算得出的R2值最优。图2展示了三因素之间的回归关系，下面进一步使用二元回归作动态分析。

表6 三因素相互间的回归分析

图2 三因素间的回归关系

3.4 不同年份论文的数值型变量二元回归分析

选用下载数与同被引文献数作为回归分析的自变量，引证文献数为因变量，对不同年份的数据进行线性回归分析，结果如表7所示。

表7 2013-2015年论文的回归分析结果

可以看到，引证文献数回归分析F检验的P值均为显著的，下载数、同被引文献数的t检验P值全部显著。三年的R2分别为0.845、0.736、0.611，表明拟合质量比较高，但呈逐年下降趋势。三年对应的回归方程如下所示：

其中，y表示引证文献数，x1表示下载数，x2表示同被引文献数，∈表示随机干扰项。

从二元回归分析结果来看，回归方程的F检验显著，其P值均＜0.0000；回归方程的系数检验也是显著的，两个自变量(下载数与同被引文献数)的t检验均显著，其P值均＜0.0000。R2值显现年份越长，回归效果越好的趋势，表明如果使用下载数或同被引文献数作为影响因子计算的补充变量时，使用5～6年的数据较合理，而不是按传统的方法，采用最近2年的数据。

影响因子以引证文献数为其中一个计算变量，由于引证文献数一般比较小，而且有偏峰的特点，因此众多学者将焦点放在引证文献数与下载数的回归关系研究上。有些学者甚至得出相关回归方程，但依然使用近两年数据。本研究表明：(1)引证文献数不仅仅与下载数相关，还与同被引文献数有显著的线性关系，并得出两者之间的线性回归方程；(2)引证文献数、下载数与同被引文献数在5～6年进入稳态期。为此，建议在影响因子的计算中，引入下载数与同被引数两个变量，并考虑采用5～6年的时间窗口。

4 结论

论文的引证文献数是近年来学者所关心的一个重要指标，大家都注意到影响引证文献数的因素有很多。在目前的相关研究中，除考虑论文的基本性质，如论文的作者数、页数、是否有基金资助、学科分类之外，还关注网络出版的特征属性，主要是论文下载数。本文针对数网环境下文献传播的特征，在下载数的基础上，增加了同被引文献数和共引文献数作为分析因素，并对关联的因素按两种变量类别进行了分析：一是分类变量，二是连续变量。主要结论有：

(1)对论文的引证文献数影响最为显著的变量有：学科、下载数、同被引文献数。引证文献数与下载数和同被引文献数之间呈较强的线性关系，同被引文献数与下载数之间却呈现出显著的非线性关系。(2)对论文的引证文献数影响不显著的变量有页数、基金资助情况、共引文献数等。(3)对引证文献数(被引频次)的研究不能局限于传统指标(如页数、作者数、基金、学科分类)，网络传播指标(如下载数)以及某些被忽视的指标(如同被引文献数)也应给予关注。若简单分析相关系数与相关度，则无法得到变量间数量上的关系。回归分析的最大优点是可以得到变量的数量变化关系方程，以便于对期刊进行计量分析，如影响因子分析。(4)目前无论是影响因子的计算，还是其他的相关研究，主要采用近2～3年的数据。然而，本研究表明：直接使用引证文献数的回归分析效果不太理想，因为引证文献数存在较大的偏态性与偏峰性，数据的稳定性不好；而下载数与同被引文献数接近正态分布，说明引证文献数与下载数及同被引文献数具有显著的线性关系，因此采用下载数与同被引文献数来评价论文的学术影响力，既有合理性又有稳定性。另外，引证文献数与年限有着密切的关系，特别是在5～6年后进入稳定状态，所以目前使用近2年的数据来计算影响因子是不理想的。(5)对于数据的粒度问题，是以论文还是以期刊作为记录数据的最小单位值得考量。由于期刊的数据综合性强，如果使用期刊的综合数据作为最小分析单位，不同学科间、不同论文间的统计特征差异性将会消失，因此以论文作为数据分析的最小记录单位更为合适。(6)在互联网时代，传统纸媒出版面临新挑战，很多问题还有待研究。比如，采用更多样本数据来分析不同学术水平的科技期刊、更多的年份对引证文献数的影响。又如，研究科技期刊中读者的阅读点击流数据，以获取读者行为数据，从而有效分析读者的行为特征，为设计具有更好用户体验的网络出版物提供参考依据。此外，研究还可更进一步，提升到规范性统计分析层面，对影响因子等指标构建更合理有效的模型和公式，使论文和期刊的评价更为科学。