基于算法归因框架的LIS 领域学者施引影响因素实证研究

2022-06-11 05:17丁恒阮靖龙
图书情报知识 2022年2期
关键词:参考文献学者样本

丁恒 阮靖龙

(华中师范大学信息管理学院,武汉,430072)

1 引言

施引是科研人员基本的学术信息行为,体现出科研人员对他人学术贡献的尊重,对科学研究中的知识传播起到重要作用[1]。深入探索科研人员施引行为特点,不仅能反映出科学交流、知识继承与学科发展的普遍规律,同时也可应用于科学评价、科技管理和科技政策制定等。当前施引相关研究主要包括:施引的内在动机和原因研究[2-6]、施/被引影响因素研究[7-10]、引用预测研究[11-15]等,其中施/被引影响因素研究旨在回答“哪些因素会影响论文被引/哪些因素会影响科研人员的施引”,是科学计量学、科学学、图书情报学等相关学科领域的重要研究主题。

国内外学者围绕施/被引影响因素已展开大量研究,但仍存在以下不足:①在研究视角上,多分析某特定领域文献的被引影响因素,较少探索领域学者的施引影响因素,且多对施/被引影响因素进行静态分析,较少探索影响因素随时间变化的动态特征;②在研究方法上,多采用线性回归估计各影响因素的效应量大小,难以有效刻画各因素之间的非线性关系;③在研究样本上,多基于领域内数本期刊收集小规模样本,研究结果易受样本选择偏差影响,难以体现领域内施/被引影响因素的全貌。

有鉴于此,本文以微软学术图谱(Microsoft Academic Graph, MAG)为数据源,选择LIS领域18本期刊2000至2019年间的232,421篇参考文献为研究样本,基于可解释机器学习构建算法归因研究框架,估算了影响LIS领域学者施引行为的各因素的作用大小,并分析了各因素随时间的变化情况。

2 相关研究概述

2.1 施/被引影响因素实证研究

施/被引影响因素实证研究旨在回答“哪些因素能够影响文献被引数量”这一问题,其研究目的在于揭示或验证各种影响因素(如文献质量[9,16-17]、作者声誉[18-20]、期刊影响力[17,21-22]等)与文献被引数量之间是否存在关联关系。该类研究多采用“①自变量假设→②研究样本选择→③因变量提取→④统计推断”的四步走实证研究框架。

自变量假设,即从某个研究理论或观点出发,提出与被引相关的潜在影响因素及计算指标。从观点差异上看,已有研究主要受引用行为规范理论[23]和引用行为社会构建理论[24]两种观点影响,前者认为引用是施引者认同被引文献价值的一种行为,后者则认为引用行为受个人利益所驱使。从规范理论出发,文献价值是引发施引行为及文献被引量增加的根本原因,能够衡量文献价值的指标(如文献质量[9]、文献创新性[25]等)可作为潜在的施/被引影响因素。社会构建理论指出,“增加论文发表的可能性”是科研人员施引他人工作的动机之一,引用知名学者或高水平期刊的文献有益于提升文章说服力[26],部分研究探讨了论文作者或发表期刊等外在因素对文献被引的影响[18-22]。从自变量数量上看,已有研究可分为单因素研究[27-28]和多因素研究[21,29],前者仅考虑单个因素指标与被引量之间的关系,后者同时对多个因素自变量与被引因变量进行建模。由于影响因素之间可能存在相互作用,单因素研究易受自变量因素的潜在共线性因素影响,导致研究结论呈伪相关性。从自变量类型上看,部分研究探讨了是否开放获取[30]、作者性别[31]等分类变量因素对被引量的影响,另一些研究则聚焦于分析文章长度[32]、合作者人数与自引率[33]等连续变量因素的影响。

研究样本选择,即划定研究对象、收集数据样本的方式。从样本规模来看,已有研究多通过划定时间跨度和目标期刊来收集中小规模采样样本。例如:文献[34]分析了2013-2015年发表在Life and Environmental期刊上的1,053篇文献,发现同行评议文献比非公开同行评议文献具有更高的被引频次。文献[35]以经济学领域期刊Agricultural and Applied Economics Association和American Journal of Agricultural Economics上多个年份的113篇文献为研究样本,发现自引率和文献首年被引数能够显著影响文献的总被引量。基于小规模采样数据的研究结果,易受样本选择偏差的影响,研究结论可能存在普适性问题。从样本对象来看,已有研究主要以特定领域期刊的发表文献为研究对象,较少关注被期刊引用的参考文献,发表文献及其被引量适合于分析领域内文献的被引影响因素,而以参考文献为研究对象则可探索特定领域期刊的施引影响因素。

因变量提取,即获取被引量的途径及变量加工方式。从被引量数据来源上看,已有研究多从引文数据库获取研究样本的被引数量,采用的数据库包括Web Of Science[30]、Scopus[36]、IN-RECS database[37]、IEEE Xplore digital library[38]、Google Scholar[39]、Mendeley database[40]等。由于商业数据库的限制,研究者较难获取文献被引量的动态变化,仅能采集文献特定时间节点的静态变量,这不利于研究施/被引影响因素动态变化。从因变量的处理来看,一部分研究直接将被引数量作为因变量,而另一部分研究则按被引数量大小把文献划分为高被引文献和低被引文献,将因变量转换为二值分类变量或多级分类变量进行研究[33,41]。

统计推断是以某种统计推断方法验证自变量与被引因变量之间的关系,当前施/被引影响因素实证研究主要采用统计假设检验(如Wilcoxon rank-sum test[42]、Mann-Whitney test[43]、Chi-square test[44]、t test[45])、相关性检验[46]、回归分析法(如线性回归[47]、多元线性回归[48]、逻辑回归[49]、多元逻辑回归[29])等统计推断方法。从方法的使用上看,单因素研究多使用假设检验和单因素回归,而多因素研究则主要借助多元回归分析。假设检验适用于定性讨论某因素对被引量有无影响,相关性检验和回归分析法则适合于估计影响的程度。多元线性回归虽然能够给出多个因素变量对被引量的影响大小,但作用于高维非线性数据时效果较差,无法有效刻画各影响因素与被引量之间的复杂关系。

2.2 施/被引影响因素应用与分析

被引量预测[11-13]是施/被引影响因素实证研究成果的主要应用领域之一,该类研究以各种施/被引影响因素为特征指标,通过机器学习算法构建预测模型,从而实现对文献未来被引次数的预测。按预测年限划分,主要有短期被引量预测和长期被引量预测。前者以文献发表早期的信息为基础,估计文献自发表日起5年内的被引量,如文献[12]依据临床医学文献的内容信息(文献内容特征因素)和发表三周内在线文献评级数据预测其两年后的被引量。后者则关注文献发表5年后的被引量,如文献[11]基于文献前两年的被引次数(文献影响力因素)、国家数量(科学合作程度因素)、论文类型(文献内容特征因素)等信息预测图书馆与信息科学期刊文献发表5年后的被引量。按研究思路划分,被引量预测可转化为分类预测或回归预测。分类预测的目标是将待预测文献被引量划分为多个等级,如文献[50]将论文发表后4年内的引用数量按规则分为少量(few)、若干(some)、许多(many)三个类别,并采用贝叶斯分类、逻辑斯蒂回归、最近邻等分类算法进行预测。回归预测旨在预测文献数年后的被引频次,如文献[51]以作者、期刊、文献三类因素的多个指标为特征,采用高斯过程回归、决策树回归构建预测模型,预测文献的短期和长期被引频次。

部分被引量预测研究讨论了不同因素特征对预测效果的影响,并基于特征有效性或特征排序重要性推断各影响因素对文献被引量的影响。特征有效性指添加或删除某个特征后预测模型准确率的波动,核心思想是“若删除特征A后模型预测效果大幅降低,则特征A所代表的因素对被引量有显著影响”。如文献[51]发现删除作者排名、作者总影响力、作者社交性等特征会大大降低被引数预测的效果,而剔除文献创新性、主题多样性等内容特征仅造成较小模型损失,依此推论“科研人员在施引他人文献时存在偏见,作者因素和期刊因素是影响施引的重要因素”。特征排序重要性的基本思想是“若固定其他特征列不变,打乱特征A列的顺序后模型预测效果大幅降低,则特征A所代表的因素对被引量有显著影响”。如文献[52]基于梯度回归树的特征排序重要性判断不同因素对被引的影响大小,发现文献影响力因素和作者影响力因素比期刊影响因子因素更重要。机器学习方法能够模拟复杂的数学函数,拟合多因素与被引量之间的数学关系,但尚无研究证明特征有效性和特征排序重要性具备可加性(即多个因素整体特征得分不等于各单因素特征得分之和),不适用于各影响因素之间的数值比较。基于此,本研究结合机器学习的复杂建模能力与SHAP值的可加性性质,解决特征有效性和特征排序重要性在影响因素数值比较分析上的适用性问题。

3 研究方法

3.1 研究框架

算法归因(又称数据驱动归因,Data-driven Attribution)是一种基于机器学习算法的归因方法,最早应用于互联网广告营销的归因问题。文献[53]指出引入机器学习能为信息行为分析提供新的方法,是信息系统领域重要的研究趋势之一。尽管机器学习算法能从数据中发现鲁棒的模式,以其为工具执行探索性归纳任务可为构建和测试理论提供有益参考[54-55],但缺乏解释性的预测过程使其备受质疑[54]。受可解释机器学习研究启发[56],本文构建了一个基于算法归因的实证研究框架(图1),该框架运用机器学习从大规模数据中挖掘施/被引相关变量间的关系模式,以可解释机器学习方法SHAP (Shapley Additive exPlanations)增强预测模型的透明度,实现基于算法的可信探索性归因分析。

算法归因实证研究框架的执行步骤如下:(1)数据样本选择与切分,根据研究目标选择合适的数据来源,并划分出训练集和测试集样本;(2)目标变量识别与测度,基于已有理论研究成果,确定需进行归因的自变量与因变量;(3)预测模型训练、评估与选择,采用不同的机器学习算法,在训练集上训练预测模型,在测试集上评估预测模型的效果,并选出最佳预测模型以供后续解释器建模;(4)解释器模型构建,运用可解释机器学习方法SHAP 构建预测模型的解释器,并计算全部样本各自变量因素的SHAP值;(5)基于样本的SHAP值进行探索性归因分析。

图1 算法归因研究框架图Fig. 1 Framework of Algorithmic Attribution Research

3.2 变量及测度

本文以参考文献在Y年是否被LIS领域学者多次引用为因变量 ,以施/被引影响因素为自变量(1)多次引用即引用次数大于1,标记为1。反之,非多次引用标记为0。,通过探寻因变量与自变量之间的量化关系,分析LIS领域学者在不同时期的施引影响因素大小及变化。表1归纳了当前施/被引影响因素研究中出现的主要影响因素、所持观点或假设、主要研究结论及代表性文献。鉴于MAG数据限制和研究设计,最终选择14个因素及相应指标作为自变量进行研究。

3.3 预测模型训练、评估与选择

与统计学归因方法不同,算法归因通过机器学习算法构建预测模型,挖掘数据间的潜在模式,拟合自变量与因变量间的量化关系。算法挖掘复杂模式的能力不同,构建的预测模型效果存在差异。选择预测效果更好的算法和模型,对揭示(逼近)变量间的实际量化关系是有益的[54]。本文采用线性支持向量机(Linear SVC)、多层感知机神经网络(MLP)、梯度回归树(GBDT)三种常用机器学习算法,在训练集样本上训练预测模型,并通过测试集样本评估不同模型的效果。模型评估指标采用分类任务常用指标正确率,具体计算公式如下:

其中TP为预测标记为1的正确样本数,TN为预测标记为0的正确样本数,M为预测的总样本数。

3.4 解释器模型构建

相较于实证研究中常用的线性回归,复杂机器学习算法能更好地拟合数据样本,输出与因变量更接近的预测值。但算法是以高维非线性形式构建变量间数学关系,难以回答归因分析中基本的问题,即自变量X增加或减少1个单位量时因变量的变化大小。具体到本文的研究场景,机器学习模型能根据作者h指数(假设为11)、期刊影响因子(假设为4.78)、主题流行度(假设为100)等指标输出文献A在2010年被LIS领域学者多次引用的概率为0.95,但无法解释0.95的概率有大程度是受h指数影响,又有多少来源于期刊影响因子的作用。

表1 施/被引影响因素分析表Table 1 Analysis of Factors Influencing Citation Number

续表1

本文采用基于博弈理论的SHAP方法[90]构建预测模型解释器,解决高维非线性模型的可解释性问题。SHAP不仅能有效估计各特征因素的边际贡献,同时能实现针对任意单个样本的局部解释,且不易受因素间的多重共线性影响[91-92],可用于量化LIS领域学者施引行为受参考文献各因素/指标的影响大小。具体而言,给定参考文献m,其第i个因素/指标的SHAP值为:

其中{x1,…,xn}表示机器学习模型的特征集合,即表1中各影响因素指标,n为模型特征总数,{x1,…,xn}/{xi}表示排除特征xi后的特征集合,{x1,…,xn}/{xi}的任一子集记为S,|S|是该子集包含的特征个数fm(S∪{xi})表示基于特征集合S和{xi}训练的模型在样本m上的预测值,fm(S)则是以S中所有特征训练的模型在样本m上的预测值。SHAP的理论基础和详细介绍可参见文献[90]。

4 数据与实验设置

4.1 数据及预处理

本文以MAG数据集中18本LIS领域期刊(2)以谷歌学术Top publications LIS 期刊列表为选择依据,去除MAG 数据集未包含的期刊Aslib Journal of Information Management后共计18个期刊。上2000-2019年间232,421篇参考文献为研究对象,数据预处理过程如下:①随机将每年的参考文献划分成训练样本和测试样本,各占50%;②对任意年份Y的每篇参考文献A,基于MAG全量数据计算A在当年被LIS领域学者引用的次数,即18本LIS期刊Y年发表的文章中有几篇文献引用了参考文献A;③依据MAG全量数据计算每篇参考文献A在年份Y的各项影响因素指标(见4.2节);④MAG中部分文献元数据字段缺失,导致参考文献的指标计算为空值,剔除包含空值项的无效参考文献样本后,最终数据时间分布如表2所示。其中发表文献篇数为MAG数据集中18本期刊所在年的发表文章总数,参考文献总样本数为MAG数据集中所在年发表文献对应的非重复参考文献数,一篇参考文献在特定年可被18本期刊中多篇文章重复引用,参考文献有效样本数为执行第④步预处理后剩余的参考文献数。

表2 2000-2019年数据样本时间分布表Table 2 Annual Statistical Table of Data Samples from 2000 to 2019

4.2 指标计算说明

主题内容热度(F8)和主题多样性(F9)的计算公式如下:

其中p(ti|r)表示参考文献r属于ti主题的概率,该概率通过gensim工具包(3)https://radimrehurek.com/gensim/在MAG数据集全量标题和摘要文本上训练LDA模型获得。

文献时效性(F13)指参考文献被引年td与参考文献发表年tr之差,记为PaperAge=td-tr。作者学术表现(F14)为参考文献r所有作者在被引年td的h指数之和,作者生产力(F15)计算参考文献r所有作者在被引年td的累积发文量之和,作者影响力(F17)是参考文献r所有作者在被引年td的累积被引量之和,作者活跃程度(F18)指参考文献r所有作者在被引年td的总发文量。期刊影响力(F19)、期刊长期声誉(F20)和期刊短期声誉(F21)均以参考文献被引年为时间节点计算。文献信息量(F2)直接使用参考文献在MAG中起止页码之差计算,科学合作程度(F16)则统计参考文献在MAG中作者字段的人数。文献创新性(F4)以参考文献被引年tr为时间计算节点,在MAG全量数据集上获取共被引期刊对及共性值(commonness),并依据文献[63]所述过程按10百分位计算。

4.3 模型设置与选择

线性支持向量机和多层感知机神经网络采用scikit-learn工具包(4)https://scikit-learn.org/实现,梯度回归树采用XGBoost工具包(5)https://github.com/dmlc/xgboost实现,所有算法均采用贪心算法在训练集上取得最优参数,并在测试集上获取模型评分。梯度回归树的正确率为0.82,线性支持向量机的正确率为0.80,多层感知机神经网络的正确率为0.79。理论上,使用的机器学习算法不同,会形成不同的决策边界及模型函数。以不同的函数模型为基础,SHAP必然输出不完全一致的归因结果。在传统回归分析中,一般认为回归函数拟合效果越好,则回归系数的解释性和可靠性越强。同理,算法归因时可采用效果最佳的预测模型作为最优解释目标函数。基于此朴素思想,本文选择梯度回归树作为待解释的预测模型,并采用SHapley Additiveex Planations工具包(6)https://github.com/slundberg/shap构建模型解释器。

5 结果与分析

5.1 因素重要性分析

本文依据公式(2)计算出每篇参考文献样本在各因素上的SHAP值,然后对样本在同一因素上的SHAP值进行求和平均,最终得到各因素的SHAP值即参考文献各因素对该文献被LIS领域学者多次引用的影响程度。SHAP方法满足可加性(additivity)原理[93],期刊因素的总SHAP值可用各子因素SHAP值之和表示,同理文献因素和作者因素亦可通过各子因素SHAP值之和求得。

图2展示了文献因素、作者因素、期刊因素的SHAP值及各子因素的SHAP值。由图可知,LIS领域学者施引文献时考虑的首要因素为文献因素,次要因素为期刊因素,作者因素对其施引行为影响最小。在文献因素中,文献影响力的SHAP值最大,其次是文献时效性,且两者SHAP值之和占文献因素SHAP值的一半,表明LIS领域学者施引参考文献时十分注重文献的被引频次和文献的发表时间。文献的创新性和主题内容热度SHAP值均大于0.3,表明两者是LIS领域学者施引时比较看重的文献因素。文献信息量则是LIS领域学者最不注重的文献因素。在期刊因素中,相较于期刊影响因子和期刊短期声誉,LIS领域学者更看重期刊的长期声誉,倾向于引用长期声誉高的期刊文献。在作者因素中,仅有作者影响力因素的SHAP值大于0.3,其他子因素的SHAP值都较小,表明LIS领域学者施引参考文献时没有过多考虑作者身份。

图2 基于SHAP 的因素重要性分析图Fig. 2 Factor Importance Analysis based on SHAP

5.2 因素重要性的时间变化分析

本文以表2中每个年份的所有参考文献为样本,分别计算文献因素、作者因素、期刊因素的SHAP值,并依据公式计算各因素的当年占比。公式中,I是文献因素、作者因素、期刊因素的合集,i表示其中一个因素,φi为因素i的SHAP值,wi为该因素在当年样本上的占比。图3展示了各因素重要性占比的变化趋势 。在文献因素中(7)由于部分因素数值较小,以单年计量存在剧烈波动,因此本文以5年为一个间隔计算各因素SHAP 值,即因素在第i 年的SHAP 取值为i-2至i+2这5年的求和平均。,文献信息量、文献创新性、主题内容热度、内容受众广度都呈现出递减趋势,而文献影响力和文献时效性因素占比则呈上升趋势。可能原因是:随着发表文献数量的急剧增大,LIS领域学者难以阅读所有文献,无法完全依据文献的实质内容因素进行价值判断和施引;而学术数据库和学术搜索引擎是学者获取相关研究的主要渠道,两者多提供基于文献影响力(被引频次)和文献时效性(发表时间)的排序功能,使得影响力较高、时效性较强的文献更易被LIS领域学者所阅读和引用 。

图4展示了文献因素、作者因素和期刊因素随年份的变化趋势。由图可知,因素重要性的变化大体可分为两个区间,即2000-2007年和2007-2019年。2000-2007年间,文献因素的占比总体呈现下降趋势,此时期刊因素占比从25%上升至30%,作者因素占比也有较小幅度的上升(约2%)。2007-2019年间,文献因素占比持续增加,期刊因素占比变化较为平缓,而作者因素占比则呈逐年递减趋势。针对导致上述趋势的主要原因,本文提供的一个解释是:2000-2007年间LIS领域学者多以学科内期刊为知识来源(此时他们的参考文献来源于本领域期刊的占比较高,见图4下半部分),这一时期LIS学者对其参考文献的作者较为熟悉,因此作者因素对她/他们的施引行为具有更强影响;而2007年之后随着LIS领域学者更多借鉴其他学科领域的研究成果,由于对其他学科领域学者并不熟悉,此时则主要依据文献因素和期刊因素来判断是否应该施引。

图3 基于SHAP 值的各子因素重要性时间变化图Fig. 3 The Change Trend of the Importance of Each Sub-factor

图4 基于SHAP 值的三大因素重要性时间变化图Fig. 4 The Change Trend of the Importance of the Three Major Factors

5.3 因素效应关系分析

图5展示了各因素的SHAP依赖图,每个子图中的一个点表示一个参考文献样本,点的纵坐标表示样本在该因素的SHAP值,横坐标表示样本在该因素上的取值,(log)标记指因素横轴上的刻度为实际值的对数。若样本点的SHAP值大于0,则样本的因素取值对LIS领域学者的施引行为产生正向影响,增加LIS领域学者对该参考文献样本的引用概率。反之,若样本点的SHAP值小于0,表示样本的因素取值对LIS领域学者的施引行为产生负向影响,降低LIS领域学者对该参考文献样本的引用概率。

由图5可知,随着文献影响力数值的增大,LIS领域学者施引该参考文献的可能性逐渐增大,即LIS领域学者倾向引用文献影响力更大的参考文献。文献影响力数值大于6之后,所有样本点的SHAP值均大于0,表明一旦参考文献的文献影响力数值超过6,则会增加LIS领域学者对该参考文献的引用可能性。文献时效性因素则呈现N型变化,当文献时效性数值从0增大到3附近时,样本点的SHAP值逐渐增大,表明LIS领域学者引用参考文献的概率增加;此后,文献时效性数值从3到20,样本点的SHAP值逐渐减小,且从正值变为负值,表明参考文献被LIS领域学者引用的概率降低;文献时效性数值大于20之后,样本点的SHAP值又呈现小幅度上涨,但仅有极少数样本点的SHAP值大于0,表明除少数极为经典的文献之外,参考文献的发表时间过长会对LIS领域学者的施引行为产生负面影响。文献主题内容热度因素呈M型变化,过冷或过热的主题都会降低LIS领域学者对参考文献的引用概率,文献内容热度数值为14和16时,因素SHAP值达到峰值,表明LIS领域学者更倾向于引用中等主题热度的参考文献。内容受众广度因素呈先增后缓的趋势,且内容受众广度数值趋近于0时,绝大多数样本点的SHAP值为负,表明LIS领域学者较少引用研究主题特别狭窄的参考文献。分析参考文献的学科领域属性可知,LIS领域学者引用的参考文献属多学科领域的占比91.48%,属单学科领域的参考文献占比仅8.52%。LIS领域学者多借鉴计算机科学(占比19.69%)、经济学(占比9.02%)、心理学(占比8.6%)、政治学(占比8.33%)和社会学(占比7.7%)等跨学科领域研究成果,较少引用化学(占比1.95%)、物理学(占比1.76%)、历史学(占比1.17%)、地理学(占比1.13%)、地质学(占比0.53%)、材料科学(0.45%)、环境科学(0.44%)等学科的研究。

科学合作程度因素SHAP依赖图表明LIS领域学者较少引用作者数量大于5的参考文献,可能是因为LIS领域学者关注的研究问题往往由小团队合作研究,与物理学等依赖大项目、多团队合作的研究不同。作者学术表现和作者生产力两个因素都存在当因素数值特别大时SHAP值为负的现象,进一步分析该部分样本发现,该部分样本点多为由特别知名学者发表在LIS领域外期刊上的文章。当作者影响力数值增大时,样本点的SHAP值逐渐增大,表明LIS领域学者引用参考文献的概率随参考文献作者影响力的增加而增大。

期刊影响因子数值在10至20之间时,该部分样本对应的SHAP值多为负数,主要原因在于LIS领域学者关注的管理学、社会学、信息科学期刊整体影响因子多分布于10以下,而期刊影响因子10至20之间的期刊多为医学、生命科学等与LIS关系较远的学科领域。从期刊长期声誉因素SHAP依赖图可知,当期刊长期声誉数值大于100之后,SHAP值呈现一个上扬的趋势,而期刊短期声誉因素呈先增加后趋于平缓的模式,表明LIS领域学者偏好引用期刊长期声誉较好的文献。

6 发现与讨论

与已有研究相比,本文主要有以下不同:

图5 基于SHAP 的因素效应关系分析图Fig. 5 Analysis on the Relationship between Factors and Effects

(1)研究视角由被引向施引转变,文献[11]以LIS期刊文献为研究对象,分析了文献引用特征、期刊特征和作者特征对LIS领域文献被引总数的影响,本文则以LIS期刊参考文献为研究对象,揭示了LIS领域学者施引参考文献的特点及偏好。文献[11]指出文献被引特征是预测LIS期刊文献未来被引量最关键的指标,与之相似本文发现文献因素是LIS领域学者施引时的首要考虑因素,期刊因素次之,作者因素最次。在文献因素中,本文发现文献影响力和文献时效性对LIS领域学者的施引行为起主要影响,文献创新性和主题内容热度也具有较强影响作用,而文献信息量和内容受众广度的影响作用较小。而已有文献[75]表明计算机领域内容受众广度(主题多样性)比主题内容热度(主题流行度)和文献时效性对被引量的影响更大。

(2)研究因素结论深入细化,大量研究表明期刊声誉与文献被引量呈正相关关系[29,32,42,82],本文进一步比较了期刊长期和短期声誉,发现相比期刊短期声誉,LIS领域学者施引时更看重期刊长期声誉,倾向于引用发表在长期声誉较好的期刊上的文章。文献[71]指出法学研究的年被引量在文献发表后第4年达到峰值,随后持续下降。而本文发现文献时效性SHAP值呈N型变化,LIS领域学者倾向于引用发表年限为0-3年的文献,除少数经典文献外,发表时间过长会对文献年被引数产生负面影响。已有研究指出主题越热文献被引量越高[94],本文发现过冷或过热的主题都会降低LIS领域学者对参考文献的施引概率,且LIS领域学者较少引用研究主题特别狭窄的参考文献。

(3)静态估计向动态变化拓展,已有研究多对被引影响因素作静态分析,主要围绕因素与LIS文献被引量之间的关联分析[95-97]或影响程度估计[11,98]展开。本研究在此基础上,探索了多个因素随时间的动态变化,结果发现2000-2019年间,文献信息量、文献创新性、主题内容热度、内容受众广度和作者影响力等因素对LIS领域学者施引行为的影响呈现递减趋势,而文献影响力和文献时效性因素作用则逐渐增大,其潜在原因可能是学术搜索引擎多提供基于文献影响力(被引频次)和文献时效性(发表时间)的排序功能,导致文献影响力较高、文献时效性较强的文献更易被学者所获取和引用。2000-2007年间,LIS领域学者较多地引用本领域期刊的文章,而2007年之后则大量引用其他领域期刊上的研究成果,不熟悉其他学科领域学者可能导致2007年之后LIS领域学者施引时较少考虑作者因素。

7 结语

本文以微软学术图谱(MAG)作为数据来源,采用可解释机器学习构建基于算法归因的实证研究框架,对2000-2019年发表在LIS领域18本期刊上232,421篇参考文献进行分析,研究了14种因素对LIS领域学者施引行为的影响。本文的主要贡献有:① 介绍了一种基于可解释机器学习的算法归因框架,为施引影响因素实证研究提供了新方法;② 将施引影响因素研究从基于截面数据的静态分析拓展到基于面板数据的动态分析;③ 揭示了LIS领域学者施引偏好特征,对设计适应于LIS领域的科学评价指标具有借鉴价值。

本文仍存在一定的缺陷:首先,本文选取的施引影响因素及测度指标多在文献粒度,较少考虑文献内容粒度的影响因素和测度指标;其次,尽管MAG是当前公开可获取的最大学术数据集之一,但仍有部分参考文献数据样本的因素指标无法计算,研究只能在部分有效样本上得出结论。后续工作可以进一步将研究深入到文献内容片段粒度的影响因素,如引用功能、引用情感等。

作者贡献说明

丁恒:提出研究思路,设计研究方案,论文撰写、修订与定稿;

阮靖龙:收集与梳理文献,采集、清洗和分析数据。

支撑数据

支撑数据由作者自存储,E-mail:jing86736238@mails.ccnu.edu.cn。

1、丁恒,阮靖龙.allyear.csv. LIS 领域参考文献特征数据。

猜你喜欢
参考文献学者样本
著名诗人、学者、翻译家北塔
The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
Study on the physiological function and application of γ—aminobutyric acid and its receptors
大学者
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
The Review of the Studies of Trilingual Education in inghai
七年级数学下册期末检测题(B)
尊重