基于引用时间视角的高被引论文内外部特征与其被引量的关系研究

2021-12-21 11:01许林玉杨建林

现代情报 2021年12期

许林玉　杨建林

DOI.10.3969/j.issn.1008-0821.2021.12.013

[中图分类号]G250.252 [文献标识码]A [文章编号]1008-0821（2021）12-0131-13

学术界普遍认为高被引论文的质量较高，对领域知识具有重要的贡献作用。自2018年以来，中共中央办公厅、国务院办公厅等机构先后印发了关于深化项目评审、人才评价、机构评估等措施及指导意见，其中反复提到科研领域要关注“标志性、代表性成果”。在这样的背景下，探索学科领域高活跃度和高影响力的高被引论文将会是国内学术界持续关注的研究对象。

诚如乔纳森所言，“承认是科学王国的基本通货”，引用行为是学术成果被承认的体现。在规范引用前提下，排除负面或不正当等引用行为，学术论文的被引频次越高，代表其科学影响力越高，其对科学进步、领域知识的贡献就越大。因此，基于被引频次的评价成为学术论文影响力最具代表性、最简单的评价方式。

为促进更多的高被引论文產出，学界对高被引论文的特征及产出规律进行了研究，研究成果主要集中于此类论文的作者、期刊及机构等属性的分布特征以及高被引论文的引文模式，部分研究成果被用于科学评价与研究热点预测。高被引论文具有较长的统计时间窗口，体现了被引频次的累积过程。学者们提出的“睡美人”“白天鹅”“黑天鹅”等引文模式，揭示了部分高被引论文的引文累积在确定的时间窗口内随时间变化的规律。尽管学界对高被引论文的特征进行了研究，但是没有进一步揭示这些特征对引文累积过程发挥影响时所具有的规律性，而细化的研究结果对高被引论文的预测更具有参考价值。

1相关研究

学界多从论文自身和外部指标来探讨论文被引频次的影响因素，本文参考前人研究将高被引论文的特征分为内部特征和外部特征：内部特征主要包括标题、摘要、关键词、基金资助、合作规模（作者、国家）、参考文献、文章长度等指标;外部特征主要涉及刊载期刊、作者声誉及数据库平台等因素，如发表期刊质量、开放获取等指标。

1.1内部特征研究

Aksnes D W研究发现，与非高被引论文相比，高被引论文具有作者数量较大、跨国合作等特征;Noorhidawati A等通过观察马来西亚的ESI高被引论文，发现这些论文普遍具有国家资助、隶属于研究型大学以及跨国合作等特征;Dorta-Gonzalez P等研究发现，高被引论文具有作者数量较多、篇幅更长、参考文献较多、标题稍短以及摘要较长等特征;张垒以新闻学与传播学领域的高被引论文为研究对象，发现时间累积是论文高被引的必要条件，高被引论文具有作者影响力高、首次被引时间较快、倾向于引用高影响力论文等特征，参考文献的数量、研究内容的新颖性与高被引之间并不存在明显的相关性;Webster G D等研究发现，高被引论文的参考文献数量较多;Liang G等提出知识广度、知识新近度和学科是影响高被引论文“起飞”时间的重要因素;马荣康等运用Finan-cial Times TOP 45商学院数据，基于论文被引量探索最佳科研合作规模，发现多作者合作的论文成为高被引论文的概率更高;Chen S J等深入探索跨学科性与高被引论文被引量的关系，认为高被引论文具有较高的学科多样性和学科差异性，学科平衡性较低;Zhang J等以太阳能领域论文为研究对象，基于论文知识元耦合网络，发现科学关联度较低的论文更有可能被高度引用。

1.2外部特征研究

梁春慧等研究发现，高被引论文更倾向于引用声望高、影响因子高的期刊论文;Wang M等研究发现，期刊声誉和第一作者研究能力是高被引论文最相关的预测因子：Dorta-Gonzalez P等研究发现，刊载高被引论文期刊的影响因子较高：Wang F等运用APS和Nobel数据开展研究，发现第一作者的科学影响、潜在领袖的科学影响力、研究团队的科学影响、作者现有论文的相关性这4个因素与论文的科学影响力显著正相关，其中潜在的领导者因素短期内发挥更重要的作用，研究团队的科学影响因素长期发挥更重要的作用。

近年来，研究者开始越来越关注补充计量学指标对被引量的影响，如赵婉忻发现高被引论文被引量与下载量、学术型社交媒体阅读量等呈显著正相关;Cho J亦认为被引量与阅读量显著相关;学者们还发现高被引论文的其他一些外部特征，如自引率低、多发表在科学出版物的前1/4以及研究基础较扎实（从引文网络中提取）等。此外，Newman M E探讨了论文的先动优势，研究表明，如果一篇论文是某领域的首篇论文，无论其内容如何，其引用率都将高于其后发表的其他论文。回顾前人的相关工作可以发现，现有研究主要探讨高被引论文的特征与其长期被引量的相关性，没有进一步揭示这些特征对引文累积过程发挥影响时所具有的规律性。因此，本文基于引用时间视角对前人的研究工作进行深化，主要将引用时间细化为初始被引量、长期被引量、历年引用量及引文累计速度等，主要研究内容包括：①高被引论文的内外部特征与其初始被引量、长期被引量的关系：②高被引论文的内外部特征与历年被引量的关系：③高被引论文的内外部特征与引文累积速度的关系。

2研究数据与方法

2.1数据的采集及预处理

2.1.1数据采集

本文参照科睿唯安官网，将高被引论文定义为“在10年内发表且其引用频次处于该研究领域同一出版年前1%的研究成果”。Web of Seience（WOS）数据库是世界范围内较为核心且权威的数据库，其认定的高被引论文在一定程度上具有权威性，因此，本文选取该数据库的全学科高被引论文作为研究对象。为了保障研究数据的覆盖率及充足的引用时间窗口，本文选择WOS数据库的2010年高被引论文的题录数据和历年引文数据作为研究数据。

数据下载流程如下：首先选择WOS核心合集数据库，在高级检索框中输入“PY=2010”（出版年为2010年）的检索条件进行搜索，并将文献类型选定为“ARTICLE（论文）和PROCEEDINGS PA-PER（会议论文）”，选中“领域中的高被引论文”，并以纯文本格式导出文献题录的全记录;在导出题录数据的基础上导出2010年高被引论文的历年被引频次数据。其中，题录主要包括Authors（作者）、Article Title（标题）、Source Title（期刊名称）、Key-words（关键词）、Abstmct（摘要）、Addresses（地址）以及Funding Orgs（资助机构）等字段。检索时间为2020年7月27日，一共得到8956篇高被引论文的数据。

2.1.2数据预处理

1）数据删除

为了保证下文回归结果的准确性，本文剔除少量缺失“标题”“作者”“摘要”“关键词”及“期刊”等关键信息的数据，这部分数据总量相对较小，直接删除几乎对整体结果没有影响，最终得到8 008条研究数据。

2）数据匹配

为了探讨题录特征与被引量的关系，需要对题录和历年被引频次数据进行识别匹配。本文主要根据“DOI”字段进行匹配，匹配率100%。

3）数据清洗

直接获得的研究数据具有一定的瑕疵，因此需要对部分研究变量进行处理。本文基于“Addres-ses”字段获取地址中国家信息，清洗、去重后最终获得作者国家数量，作为国家合作规模指标值。WOS数据库的期刊影响因子的更新会滞后1年，本文在填充影响因子字段时，根据期刊名称匹配论文出版年前一年所对应的WOS平台“Joumal Cita-tion Reports”公布的期刊影響因子，并填充到相应字段。

2.2变量的选取及定义

2.2.1因变量

为了进一步探究高被引论文内外部特征在引文累积过程发挥影响所具有的规律性，本文将被引量细分为初始被引量、长期被引量、2010—2019年各年份的被引量以及引文累积速度，引文累积速度借鉴Wang J的研究，由累积被引量与引文时间计算得来。被引量表征的是论文某个时间段引文的总体存量，而引文累积速度衡量论文吸引引文的速度。故而本文的因变量为被引量及其基于引用时间的衍生变量：引文累积速度。

1）被引量

已有研究显示，外文文献从出版到被利用的平均时间大约是两年，高被引文献的被引行为一般从第2年开始，到第30年结束。如表2所示，本文采集的数据也表明很多论文在出版年内得到的关注较少（出版年被引量的众数为0，占高被引论文的23.4%）。因此，本文使用论文发表前两年总被引频次来表征初始被引量，使用论文出版年到2019年总被引频次来表征长期被引量：2010—2019年各年被引量即为各年份的当年被引量。

为了了解被引量的数据分布情况，本文选取初始被引量和长期被引量构建两变量边缘箱图，如图1所示。图1的两变量边缘箱图由3部分组成：中间是表征变量关系的散点图：顶部为初始被引量分布图;右部分为长期被引量分布图。由图1可看出，初始被引量和长期被引量均表现出明显的偏态结构，即被引量较少的高被引论文所占比例较大，而被引量较多的论文占比较少，这在很多文献中都有类似的结论阐述，历年被引量亦有此偏态结构。

2）引文累积速度

论文吸引引文的速度存在差异，有些文献发表后快速积聚引文，而后引文积聚缓慢：有些文献前期被引量较少，后期被引量有较大幅度的上升，如“睡美人”文献等。为刻画这种现象，Wang J提出了引文累积速度（Citatuin Speed），其取值范围为区间[0，1]，值越接近1，引文累积越快;反之，引文累积越慢。

其中，n是指出版年到2019年的总时长（单位：年）;C是文献发表第i年的累积引文数量。

本文计算2010年高被引论文的引文累积速度并作引文累积速度频数频率分布图，如图2所示。图中横坐标表示引文累计速度，左边纵坐标表示频数，右边纵坐标为频率。由图2折线图可看出，高被引论文的引文累积速度值大多集中于区间[0.3，0.5]，占总论文篇数的80.22%，右上角的累积百分比有着相同的结论。

2.2.2自变量

本文在前人研究的基础上，基于高被引论文内外部特征选取自变量，其中内部特征定义为论文本身的因素，即论文在成文之时便有的特征，主要包括标题长度、作者合作规模、国家合作规模、关键词数量、摘要长度、基金资助、学科数量、参考文献数量以及文章篇幅：考虑到指标的可量化及可得性，本文将外部特征定义为论文发表期刊和平台的特征，主要为期刊质量、开放获取，各变量的选取及定义如表1所示。近些年，论文使用数据得到学者们的关注，部分文章将论文使用量纳入论文外部特征来考察其对被引量的影响。然而，论文的使用量与论文的被引量具有正相关性，且都是一定时间窗口内的累积量，具有动态性，因此本文认为，使用与论文被引量同一时间节点的论文使用量来考察论文使用量对高被引效应的影响并不合适。故而本文没有将论文使用量指标加入待考察的外部特征集。

2.3统计方法及模型

2.3.1模型方法选择：负二项回归

高被引论文的被引量属于离散数据，不服从正态分布。以长期被引量为例，构建长期被引量各种数据变换下的直方图与正态分布曲线，如图3所示。从图3可看出，长期被引量的自身（identity）、立方（cubic）、平方（square）等变换不服从正态分布。该种离散数据适用于计数模型，常用的回归方法主要为泊松回归和负二项回归，但是泊松回归要求“均等分散”，即被解释变量的期望和方差相等，而由表2可知，本文长期被引量的期望为435.0999，方差为256409.5642（标准差为506.369），其方差明显大于期望，存在“过度分散”，不适用于泊松回归模型，故而使用负二项回归模型更为合理。本文使用Statal5.1对研究数据进行负二项回归分析。

3结果

3.1描述性统计

表2为描述性统计指标，可以大体反映高被引论文的特征分布情况：标题长度为9的高被引论文篇数最多：3位作者合作模式更易获得施引者青睐：关键词数量为10的论文篇数最多：摘要长度高发区间为[145，154];大部分高被引论文得到基金资助：学科数量中单个学科的情况更多：参考文献数量的高发区间为[32，39];高被引论文页码的高发区间为[4，12];高被引论文中没有获得开放获取的比例较多等。

3.2回归结果分析

3.2.1高被引论文的内外部特征与其初始及长期被引量的相关性

1）以长期被引量为因变量的回归模型

本文以长期被引量为因变量，以高被引论文内外部特征为自变量构建负二项回归模型，考察高被引论文内外部特征对长期被引量的影响，如表3模型（1）。以长期被引量为因变量的回归模型中，除了作者合作规模、关键词数量、摘要长度、基金资助及文章篇幅等特征变量没有通过显著性检验，其余特征指标均通过了显著性检验，其中，国家合作规模、学科数量、参考文献数量、期刊质量以及开放获取等特征对长期被引量具有显著的正向影响：而标题长度对长期被引量具有显著的负向影响。

可见长期引用过程中，施引者更倾向于精炼的标题：国家合作规模对高被引论文具有显著的正向影响，这与Noorhidawali A等的研究相一致;虽然有文章认为跨学科研究被认为专业度不足，但是本文结果及大量文章证明跨学科对被引量的正向影响作用;参考文献数量对长期被引量有显著的正向影响，参考文献体现了作者的研究广度，多参考文献一方面反映该篇文献较为扎实的研究基础，另一方面也为施引者开展该领域的相关研究提供了向前追溯的便利，故受到施引者的追捧：高影响因子对论文长期被引量具有显著的正向促进作用，由表2可得，期刊影响因子的平均值为9.69693，可见高被引论文大多刊载于高影响因子期刊。在目前同行评议审查体系下，论文发表于高影响因子期刊表征论文质量较高。故而一篇论文的质量越高，越能发表在高水平、有声望的期刊，拥有更高的可见度和阅读量。由模型（1）的回归系数可得，开放获取是高被引论文长期被引量最重要的特征，开放获取使得研究者能够便捷地下载论文，进而从全文中把握该篇论文的研究思路、核心观点、研究假设、论述依据、研究结论等要素。该结论与xiaJ等的研究具有一致性，他们指出开放获取将扩大论文的可见性，从而为其创造更多被发现和引用的可能。可见，在长期引用过程中，高被引论文内外部特征共同影响被引量。其中，内部特征，如简洁的标题、多国合作、多學科数量、参考文献数量多等对高被引论文引用具有积极的促进作用：高影响因子期刊及开放获取等外部特征亦对高被引论文长期被引量具有显著的正向影响。

2）初始与长期被引量回归模型结果对比分析

在以长期被引量为因变量回归模型的基础上，本文以初始被引量为因变量构建负二项回归模型，如表3中模型（2）。由表3中模型（1）和模型（2）对比可得，高被引论文内外部特征对初始被引量和长期被引量的影响具有显著的差异性。初始被引量回归模型中标题长度、作者合作规模、关键词数量、摘要长度等特征没有通过显著性检验：而在长期被引量回归模型中，作者合作规模、关键词数量、摘要长度、基金资助及文章篇幅等特征变量没有通过显著性检验，可见基金资助对初始被引量具有显著的正向影响：文章篇幅对初始被引量具有显著的负向影响：标题长度对长期被引量具有显著的负向影响;国家合作规模、学科数量、参考文献数量、期刊影响因子以及开放获取等特征变量对初始被引量和长期被引量均具有显著的促进作用：基金资助是影响高被引论文初始被引量最核心的特征：而开放获取是高被引论文长期被引量的核心特征。

负二项回归模型的解释能力主要依靠Log Pseudolikelihood值来体现，值越大，负二项回归模型的解释能力越强。由表3可得，在样本观测值相同的情况下（obs=8008），模型（2）的解释能力比模型（1）强很多，且具有更多的特征变量通过了显著性检验，可见论文内外部特征对初始被引量的作用更大，而对长期被引量的影响较小。随着时间的增长，论文有了一定的被引量和关注度，获得了一定的学术影响力，施引者对论文的引用偏好已经不局限于论文本身、期刊及平台等特征，而有其他更重要的因素影响施引者的引用偏好。

3.2.2高被引论文内外部特征与历年被引量的相关性

为了更深入了解高被引论文内外部特征对历年引文时间窗口的被引量发挥影响时所具有的规律性，本文构建了高被引论文内外部特征与历年被引量的负二项回归模型，并将其结果展现如表4所示。

为了更直观展现高被引论文内外部特征对历年被引量影响的规律性，本文在表4的基础上作高被引论文特征与历年被引量关系强弱图，如图4所示。图中各个节点处红色点表征该特征在该引文年份通过显著性检验，黑色点表明未通过显著性检验，由图4可看出，大部分特征变量都呈下降趋势，可见论文本身及平台特征变量对后期被引量的影响在逐渐减弱，这与上文结论一致。对被引量影响较大的特征变量是开放获取、学科数量、基金资助、国家合作规模以及影响因子，其余特征变量折线在0值附近波动，对被引量影响较小，且规律性不明显，故而本文不做详细阐述。对被引量影响较大的特征变量中，影响因子和国家合作规模对各个引文时间窗口下的被引量始终具有正向的影响，且其影响较为稳定：学科数量除了对出版年被引量的影响没有通过显著性检验，其余年份均对被引量具有显著的正向影响，且其影响逐年递增，可见施引者越来越青睐于跨学科的论文;基金资助特征对初期被引量始终具有显著的正向影响，且影响较大：但其对被引量的影响一直下降，在引文后期变为显著的负向影响：开放获取特征对被引量的影响呈现先下降后上升的“U型”规律，虽然该特征对被引量的影响总体数值有些许的下降，但始终是影响历年被引量最核心的特征变量。这可能因为论文发表初期，基金资助、开放获取及高影响因子期刊等特征是论文较大的“标签”，这些“标签”极大地增加了论文的可见性，而在论文发表后期，论文凭借自身的高质量有了一定的引文量，获得一定的学术影响力，这些标签的影响力就慢慢减弱，故而基金资助、影响因子对被引量的影响处于下降态势：而开放获取决定论文的可获得性，只有论文可获取才可能被引用，故而开放获取对被引量始终具有重要的影响。

3.2.3高被引论文的内外部特征与引文累积速度的相关性

本文采用多元线性回归方法探究高被引论文内外部特征与引文累积速度的关系，该方法的有效性建立在变量无异方差及无多重共线性的基础上，因而需要对变量进行异方差与多重共线性的检验。

1）异方差检验

残差图和怀特检验（White Test）通常被用来检验数据是否存在异方差。残差在数理统计中指实际值与估计值（拟合值）之间的差值，通过构建残差（Fitted Values）与拟合值（Residuals）的散点图可以了解残差与因变量拟合值的变化情况，如图5所示，若残差随着拟合值的变化而变化，则认为存在异方差：若残差固定在某个值上下波动，则认为不存在异方差。由图5可看出，残差随着拟合值的波动较为剧烈，故而可直观判定数据存在异方差。

在残差图的基础上，本文通过怀特检验的方法进一步检验变量是否存在异方差，怀特检验的原假设为：变量为同方差。引文累积速度进行怀特检验的结果P值为0.0000（P=0.0000），该结论非常显著地拒绝了同方差的原假设，可判定数据存在异方差，故而下文应采取稳健的标准差对数据进行多元线性回归以消除异方差的影响。

2）多重共线性的检验

统计学中多用方差膨胀因子（VIF）来检验变量之间是否存在多重共线性。方差膨胀因子通常以10作为判断边界，当VIF<10，认为不存在多重共线性;VIF>10，存在多重共线性。本文对该回归模型进行多重共线性檢验，得出回归模型的平均VIF（Mean VIF=1.28）值为1.28，远远小于合理值10，故而认为该回归模型不存在多重共线性问题。

3）以引文累积速度为因变量的多元线性回归模型及结果分析

上文已证明变量存在异方差，因而本文采用稳健的标准差对高被引论文内外部特征与引文累积速度进行多元线性回归，以克服异方差的影响，回归结果如表5所示。

引文累积速度反映研究成果在科学界传播的速度，引文累积速度越快，其在科学界传播速度越快。由表5回归结果可得，除了关键词数量和摘要长度，其余特征变量均对引文累积速度具有显著的影响，其中标题长度、作者合作规模、国家合作规模、基金资助、参考文献数量、影响因子及开放获取等特征对引文累积速度具有显著的正向影响：而学科数量和文章篇幅对引文累积速度具有显著的负向影响。其中，长标题、跨国合作、基金资助、高影响因子期刊、开放获取等特征变量对引文累积速度具有较大的促进作用。

4研究结论

本文以高被引论文为研究对象，运用WOS数据库的2010年高被引论文题录及历年引文数据，在对被引量进行过度分散检验的基础上，选择负二项回归及多元线性回归方法探究高被引论文内外部特征与被引量的关系，研究结果表明：

1）高被引论文内外部特征共同影响被引量。多国合作、多学科数量、参考文献数量、高影响因子以及开放获取等内外部特征对高被引论文长期被引量具有显著的正向影响：论文内外部特征对初始被引量的作用更大，而对长期被引量的影响较小：开放获取是影响高被引论文长期被引量最核心的正向特征指标。

2）高被引论文内外部特征对历年被引量的影响具有差异：开放获取、学科数量、基金资助、国家合作规模以及期刊质量等特征变量对历年被引量具有较大影响，且具有一定的规律性。引文累积速度快的论文，较早地拥有了一定的被引量和关注度，研究者可以从跨国合作、基金资助、高影响因子、开放获取等方面快速提高论文在学术界的传播速度，进而提高关注度和影响力。

随着时间的增长，论文有了一定的被引量、关注度及影响力之后，施引者对论文的引用偏好已经不局限于论文本身、期刊及平台等特征，因而对于高被引论文影响因素的探索不能仅仅限于此类特征因素，识别影响高被引论文其他核心因素是今后探索研究的重点：此外，本研究仅就WOS数据库高被引论文全学科视角的研究分析，而未分学科对高被引论文特征进行差异性探讨，不同学科下高被引论文特征对被引量的影响可能存在差异，留待后续研究。

（责任编辑：孙国雷）