评价长期科学影响的模型

2016-06-20 03:42郭进利
复杂系统与复杂性科学 2016年1期
关键词:复杂网络

索 琪,郭进利

(1.上海理工大学管理学院,上海 200093;2.青岛科技大学经济与管理学院,山东 青岛 266061)



评价长期科学影响的模型

索琪1,2,郭进利1

(1.上海理工大学管理学院,上海 200093;2.青岛科技大学经济与管理学院,山东 青岛 266061)

摘要:提出了一个更合理的量化长期科学影响模型,并获得模型的解析结果。论文在生命周期内的总引用次数代表了其长期的科学影响,结果显示,该值只与其适应度有关。说明论文本身的内容、质量代表了其竞争力的大小,决定了其长期影响力。

关键词:复杂网络;引文网络;长期影响

0引言

近年来,对引文网络的研究备受关注,学者提出了一系列的演化机制来刻画引文网络。论文的被引用次数常被认为是评估论文的科学影响的重要指标[1]。Price[2]在1965年构建了引文网络模型,论文被视为节点,论文之间的引用关系被视为有向边。研究发现,只有极少量论文被引用了多次,而大多数论文仅获得了较少的引用。Price认为论文被引用次数的增长是一个累积优势过程,早期的研究者由于具有先行者优势而导致其论文获得较多的引用[3]。根据Price模型[3],引用次数越多的论文是该领域的经典文献,被引用的概率会越大,这种择优连接机制导致了引文网络的“富者越富”现象。然而,实证研究发现许多真实的引文网络不符合简单的无标度现象。Price模型认为,节点进入系统的时间决定了它获得连边的能力,这种机制导致老节点的平均边数必然高于新节点。事实上,即使是同一时间发表的两篇论文,被引用次数也可能存在很大差别。因此,单一的择优连接机制,而忽略了论文的内容本身,不能很好地刻画引文网络的增长。在引文网络中,论文获得引用的概率还与其研究内容密切相关,一些“年轻”的论文由于具有很好的学术价值,揭示了重要的科学发现,也可能在短时间内获得大量的引用。如文献[4]作为复杂网络领域开创性的研究论文,在发表后很短时间内就获得超过千次的引用,可称之为“适应度”现象[5]。除时间因素外,对于竞争力的识别,也引发了网络科学的新模型的研究。Bianconi等[6]指出,节点获得连边的能力不仅取决于年龄,而且取决于竞争获得连边的适应度,适应度越大的节点获得连边的能力越大。适应度模型中节点的进入时间和节点的竞争能力(适应度)共同决定了节点获得连边的能力,该模型不仅考虑到先行者优势,也考虑到后来者赶超的因素。在引文网络中,适应度参数[7-8]描述了论文的质量、贡献,体现了论文个体本身的竞争力的大小。

此外,择优连接的时间依赖性也成为引文网络的研究热点。Amaral等[9]认为,考虑到节点的年龄因素和获得连边的能力约束因素,有些网络具有单标度或拉直指数分布特性。Zhu等[10]构建了一个渐进老化模型,并研究了年龄因素对聚类系数、网络结构的影响。Hajra等[11-12]认为,引文网络是一个老化网络。Medo等[13]考虑到时间因素对引文网络增长的影响,实证研究发现节点的吸引度随年龄而衰减。Wang等[14]通过对3个引文数据库的实证,分析论文的年龄对择优连接的影响,发现论文的被引用率随其年龄的增长而降低,即论文获得连边的能力随时间呈指数衰减。事实上,由于科技论文的创新性特质要求,学者在文献引用时,一方面会引用少量的本领域的经典文献;另一方面,会引用大量的最近几年的论文,由于这些“年轻”的论文反映了当前的研究热点,必然在发表后的最初几年获得大量引用。因此,大部分论文的吸引力必然随发表时间的延长而衰减。

1模型描述

类似于摩尔定律中描述的内存容量以指数级增长,科技论文每年发表的数量也呈指数形式增长[17],如式(1)所示。Barabási等[15]对The Physical Review(PR)数据库分析发现,β=(17years)-1,即论文数量每17×ln(2)=11.8年翻一倍。

N(t)~exp(β t)

(1)

假设每篇新论文发表时,引用m篇老论文。在t时刻,文章i被引用的概率不仅依赖于节点的度(总引用次数)ci,而且依赖于它的适应度ηi和年龄Δti。即满足:

(2)

2模型解析

Barabási等[15]对PR数据库实证,发现引文模式呈跳跃式衰减。年龄衰减函数可以近似为一个对数正态分布函数

(3)

其中,t为时间,μ为平均寿命,σ为寿命波动。

(4)

(5)

设ci=m(f(ηi,Δti)-1),则有

(6)

由式(1),有

(7)

由式(6)和(7)及Δti=t-ti=β-1ln(N/i),有

(8)

(9)

将方程(9)带入(8),得

(10)

(11)

因此,

(12)

A由下列积分方程确定

(13)

将式(3)带入式(12),得

(14)

其中φ(x)是累积正态分布函数

(15)

(16)

由式(16)可知,论文在生命周期内的总引用次数独立于μ和σ,只与论文的适应度ηi有关。

3结论

参考文献:

[1]Garfield E. Citation analysis as a tool in journal evaluation [J]. Science, 1972, (178):471-479.

[2]Yu P, Van de Sompel H. Networks of scientific papers [J]. Science, 1965, 169: 510-515.

[3]Price D S. A general theory of bibliometric and other cumulative advantage processes [J]. Journal of the American Society for Information Science, 1976, 27(5): 292-306.

[4]Barabási A L, Albert R. Emergence of scaling in random networks [J]. Science, 1999, 286 (5439): 509-512.

[5]Redner S. How popular is your paper? An empirical study of the citation distribution [J]. The European Physical Journal B-Condensed Matter and Complex Systems, 1998, 4(2): 131-134.

[6]Bianconi G, Barabási A L. Competition and multiscaling in evolving networks [J]. Europhysics Letters, 2001, 54(4): 436.

[7]Caldarelli G, Capocci A, De Los Rios P, et al. Scale-free networks from varying vertex intrinsic fitness [J]. Physical Review Letters, 2002, 89(25): 258702.

[8]Servedio V D P, Caldarelli G, Butta P. Vertex intrinsic fitness: how to produce arbitrary scale-free networks[J]. Physical Review E, 2004, 70(5): 056126.

[9]Amaral L A N, Scala A, Barthelemy M, et al. Classes of small-world networks [J]. Proceedings of the National Academy of Sciences, 2000, 97(21): 11149-11152.

[10]Zhu H, Wang X, Zhu J Y. Effect of aging on network structure [J]. Physical Review E, 2003, 68(5): 056121.

[11] Hajra K B, Sen P. Aging in citation networks [J]. Physica A, 2005, 346(1): 44-48.

[12] Hajra K B, Sen P. Modelling aging characteristics in citation networks[J]. Physica A, 2006, 368(2): 575-582.

[13] Medo M, Cimini G, Gualdi S. Temporal effects in the growth of networks [J]. Physical Review Letters, 2011, 107(23): 238701.

[14] Wang M, Yu G, Yu D. Effect of the age of papers on the preferential attachment in citation networks[J]. Physica A, 2009, 388(19): 4273-4276.

[15] Wang D, Song C, Barabási A L. Quantifying long-term scientific impact [J]. Science, 2013, 342(6154): 127-132.

[16] Guo J L, Suo Q. Comment on “quantifying long-term scientific impact”[DB/OL].[2014-05-15].http://arXiv.org/abs/1405.1574v2, 2014.

[17] Blumm N, Ghoshal G, Forró Z, et al. Dynamics of ranking processes in complex systems[J]. Physical Review Letters, 2012, 109(12): 128701.

(责任编辑耿金花)

A Model to Quantify Long-term Scientific Impact

SUO Qi, GUO Jinli

(1.Business School, University of Shanghai for Science and Technology, Shanghai 200093, China;2.School of Eeconomics and Management,Qingdao University of Science and Technology,Qingdao 266061,China)

Abstract:We propose a model to quantify long-term scientific impact and obtain analytic results of the model. It is more reasonable than the model proposed by Barabási et al. The total citation count of a paper in its life cycle represents its long-term scientific impact. The results show that the value is only related to the paper’s fitness. It means that the content and the quality of the paper represents, the capability of its competitiveness, and determine its long-term impact.

Key words:complex network; citation network; long-term impact

文章编号:16723813(2016)01006404;

DOI:10.13306/j.1672-3813.2016.01.005

收稿日期:2015-05-07

基金项目:国家自然科学基金(71571119);国家统计科学研究项目(2015LZ497);山东省统计科研重点课题(KT15059)

作者简介:索琪(1980-),女,黑龙江哈尔滨人,博士研究生,讲师,主要研究方向为复杂网络、超网络。通讯作者:郭进利(1960-),男,陕西西安人,博士,教授,主要研究方向为复杂网络、人类行为动力学。

中图分类号:N94

文献标识码:A

猜你喜欢
复杂网络
基于复杂网络节点重要性的链路预测算法
基于复杂网络视角的海关物流监控网络风险管理探索
基于图熵聚类的重叠社区发现算法
基于复杂网络理论的通用机场保障网络研究
一种新的链接预测方法在复杂网络中的应用
城市群复合交通网络复杂性实证研究
小世界网络统计量属性分析
对实验室搭建复杂网络环境下的DHCP 服务及安全防护的思考
基于蚁群优化的多目标社区检测算法
基于复杂网络构建面向主题的在线评论挖掘模型