套索方法在期刊评价指标选择中的应用

2018-10-09 05:54江永众陶虹琳杜彦璞

统计与决策 2018年17期

江永众，陶虹琳，杜彦璞,b

（成都理工大学a.管理科学学院；b.四川省数学地质重点实验室，成都 610059）

0 引言

Garfield[1]开创文献计量学以来，期刊评价指标的选择问题一直是一个重要的研究问题。期刊是科学研究中的重要学术资源，在科学研究中发挥着非常重要的作用。期刊的使用者集中在高校师生，图书馆选购部门以及期刊爱好者等。随着期刊名目的逐渐增加，学者们将面临从数量众多、内容繁杂的期刊名目中选择符合自身研究方向或感兴趣的期刊的难题，从而经常陷于如何高效选购、阅读相关刊物以及在何种期刊上发表论文的困境。期刊评价体系来源于Eugene Garfield的《科学引文索引》（Science Citation Index，简称SCI），目前引文索引已经成为评价期刊质量的重要指标。国内最早源于1992年北京大学图书馆出版的《中文核心期刊要目总览》，对期刊评价进行了研究。现阶段国内多家机构对期刊都开展了评价工作，对期刊评价指标的选择方法在我国已有少量研究[2-9]。本文基于现有国内期刊评价指标体系，首先对套索方法做了简要的介绍，通过统计学研究中的Lasso方法，解决指标间的多重共线性，把它运用于期刊评价指标选择的实证研究中，通过定量分析的方法筛选主要评价指标，使科研人员，特别是一些跨学科研究人员，例如劳动关系研究人员可以选择合适的期刊进行发表，也可以使图书馆结合实际选购合适的期刊。

1 套索模型

Lasso方法是Tibshirani建立在Breiman[10]于1995年提出的非负绞除法(NNG)的基础上，对NNG不足之处做了改进。非负绞除法的预测误差相对较小并且由于非负绞除法去除了模型中很多接近0但非0的特征，从而增强了模型的解释性。在高维数据分析中，非负绞除法由于对高维特征进行了压缩，模型简化了计算过程并且增强了重要特征的解释性。但是非负绞除法的缺点是其运算结果要依赖于最小二乘估计的符号和数值大小。并且存在过拟合和多重共线性情况时，由于最小二乘估计效果不好而会影响预测准确性。

对于一般线性回归模型见式（1）：

其中β是pn×1维列向量，εi是独立同分布的。在一般的回归模型中，常常认为观测值彼此独立或者被解释特征Yi在给定解释特征xij的条件下相互独立。同时假设xij是经过标准化之后得到的，即当训练集维数和样本量几乎相等或者超过样本量时，有些回归系数是稀疏的即有些元素为0，这时传统的最小二乘法将不再适用，需要寻找其他的相关方法比如正则化方法或者惩罚方法来代替。常用的有岭回归和Lasso方法，但是，通过岭回归得到的模型包含全部的特征，不能进行特征选择。和岭回归不同的是Lasso方法采用L1范数，而岭回归是L2范数Lasso算法的参数估计见式（2）：

式（2）中λ∈[0，+∞)作为调和参数，能够通过对它进行控制从而使回归系数总体变小。若令为回归参数的最小二乘估计值，这样将会让一些回归系数缩小并逐渐趋近于0，有些甚至会等于0。式（1）的第一部分表示的是模型拟合的优良性，第二部分表示的是对参数的惩罚。如果调和系数λ越小，那么模型的惩罚力度就会越小，从而保留的特征就会越多；反之则特征就会减少。由此，Lasso方法经常被用来特征选择，它有两个优点。其一，Lasso方法在特征选择的过程中是连续的且很稳定；其二，对于高维数据而言，Lasso方法使其时间复杂度较低

在期刊评价中，各个指标代表回归模型中的自变量，所研究的目标变量定义为因变量。对于Lasso方法的求解，Tibshirani[11]提出使用二次规划方法，但Efron认为这种求解方法较为复杂，后来两个合作共同提出了的最小角回归算法，极大加快了计算速度。利用该方法求解Lasso，得到Lasso中未知参数的求解变化路径。对于Lars算法，在R和Python中均提供了相应的计算工具包，比如R中的lars和glmnet以及Python的Scikit-learn软件程序包。

2 实证研究

2.1 实验指标选择与研究对象

本次实验平台为R-3.2.4，R语言是一种免费的开源语言，并提供了大量可以调用的接口函数，对于一般的统计实验均可用R实现。同时，为了确保实验结果的可靠性，将利用同样的数据信息通过Python环境进行了一次实验。Python语言同样拥有非常丰富的数据分析、处理的工具，可以轻松完成本文提到方法的实现。实验数据来源于中国知网CNKI2015年的年度统计报告，选取了图书情报领域41种期刊作为研究对象见表1所示。表2为本文待选择的评价指标。

表1 41种图书情报领域的期刊

表2 待选择的指标说明

其中中国图书馆学报、情报理论与实践、图书情报知识等18种期刊在中国知网CNKI期刊评价中暂被列为核心期刊，本文选择的41种期刊中，核心期刊占比为43.90%。

影响力指数CI值即学术期刊影响力指数（简称CI）作为一个综合指标，它反应的是一组期刊中各个期刊影响力的大小。在本文中，将CI值作为因变量，其他变量作为自变量，分析各自变量之间的多重共线性问题。限于篇幅，表3列出了5种期刊的实验数据。另外，由于各个指标的计算方式不尽相同，因此，在采用Lasso方法之前，首先需要对指标数据进行标准化处理。

表3 部分实验数据

2.2 期刊评价指标选择结果分析

对于Lasso方法中的调和参数λ的确定是非常重要的，一般采用交叉验证的的办法求得λ的最优值，即当交叉验证取最小值时λ为最优值λmin。为了取得模型的最优精度，需要选择合适的λ，使得模型的预测误差降低到最小值。本文使用AIC/BIC准则确定模型大小，一般当AIC/BIC越小时表示该模型越精确。AIC准则其实是BIC准则的一个特殊形式，具体解释见文献[12]。实验采用5折交叉验证[13]的方法，即首先将数据随机分为5份，然后依次将其中一份用于计算误差，剩余4份用于拟合模型，这样可以得到5个预测误差，最后取这5个误差的平均值。图1（见下页）为AIC/BIC信息准则用于模型选择的变化图，图2（见下页）为Lasso的系数解路径，可以看出当约束λ最大时所有特征被选入模型，随着约束的减少，特征逐渐减少。

图1 AIC/BIC准则用于模型选择

图2 Lasso系数解路径图

本文利用AIC准则确定模型最优解，根据Lasso回归参数估计结果，发现在第9步时，AIC达到最小值并最终选择了12个特征，由表4（见下页）可以看出指标x2，x4，x5，x6，x8，x12，x17，x19，x21，x22，x23，x24的系数为 0 ，其他均不为 0。因此，选取了可被引文文献量、基金论文比、引用期刊数、他引总引比、互引指数、web即年下载率、量效指数、影响力指数CI值、复合总被引、复合影响因子、复合5年影响因子、综合总被引共计12个指标作为最终的评价指标体系。对系数表进一步观察可以看出，对前三位重要指标排序依次是复合5年影响因子、复合总被引、量效指数。这与实际联系是一致的，比如在研究人员论文投稿时一般会关注其5年影响因子，如果比较高可以认为是比较优秀的期刊。通过对原始数据的5年影响因子倒序排序得到了在41种图书情报领域中有较大影响力的三大比较优秀的期刊，他们分别是：《大学图书馆学报》、《中国图书馆学报》、《情报学报》。这进一步应证了本文应用方法的合理性。

表4 Lasso系数表

目前我国较为权威且得到多数人认可的期刊评价体系是由中国科技信息研究所通过层次分析法得到的，首先由专家打分确定权重，对不同的学科期刊进行综合评价。这样做的优点主要是避免了单一指标的局限性，缺点主要是评价结果受专家打分的个人主观因素的影响。本文通过实际数据分析，采用科学的计算方法最终得到关键指标，具有一定的说服力。

3 结论与讨论

针对指标数量增多所带来的诸多问题，本文从在以往期刊评价方法研究的不足出发，利用套索方法减少期刊评价因子，提取关键指标，通过科学的计算过程避免了专家打分的个人主观性，另一方面套索方法可以降低期刊评价中的多重共线问题，以提高期刊的评价效率。

套索方法在期刊评价中指标因子选择方面具降低多重共线性等优点，利用套索方法的连续性和稳定性，使对不重要的指标惩罚更加合理。通过研究，套索方法可以达到指标选择的作用，为有关人员提供另一种参考标准。比如本文使用的24个指标中筛选了12个指标，这样读者和研究人员可以仅根据可被引文文献量、基金论文比、引用期刊数、他引总引比、互引指数、web即年下载率、量效指数、影响力指数CI值、复合总被引、复合影响因子、复合5年影响因子、综合总被引这12个指标来选择合适的期刊阅读、发表、购买等。对于跨学科研究来说，应该对多学科期刊进行综合考量。针对后续的研究，同样可以利用本文的方法，一方面可以检验新的指标因子的合理性，另一方面为构建新的指标提供理论依据。