我国水土保持学科领域作者合著网络分析

2017-01-21 18:05翁志辉林海清黄爱萍刘健宏
中国水土保持 2017年12期
关键词:子图联通水土保持

张 梅,翁志辉,杨 振,林海清,黄爱萍,刘健宏

(1.福建省农业科学院 农业经济与科技信息研究所,福建 福州 350003; 2.福建农林大学 林学院,福建 福州 350002)

我国水土保持学科领域作者合著网络分析

张 梅1,翁志辉1,杨 振2,林海清1,黄爱萍1,刘健宏1

(1.福建省农业科学院 农业经济与科技信息研究所,福建 福州 350003; 2.福建农林大学 林学院,福建 福州 350002)

水土保持;合著网络;社会网络分析;Gephi

我国水土保持领域论文发表数量逐年增加,通过作者合著网络分析,研究该领域论文作者合著规律及科研人员合作网络具有重要意义。利用CNKI数据库中2006—2016年发表的水土保持领域文献构建作者合著网络,利用网络分析工具Gephi分析该网络的节点度、节点加权度、联通子图数量和规模,对最大联通子图的网络直径、平均路径长度、平均聚类系数等参数做进一步分析。结果表明,我国水土保持学科作者合著网络具有明显的无标度性和小世界性,网络中存在着联系非常紧密的聚类社区。

随着学科研究复杂程度不断加深,科研人员之间的合作逐渐成为普遍行为,对科研合作交流的研究也日趋深入。随着合著论文数量的增加,对合著网络的研究引起了人们的关注。合著网络是指将发表科研成果的研究人员视为节点、研究人员之间的合著关系作为边,从而构成的复杂网络[1]。近年来水土保持领域论文发表数量迅速增加[2],作为社会研究热点,水土保持领域学科不断细化、交叉[3],科研人员之间的科研合作日益频繁,对其合著网络进行研究,可以阐明水土保持领域作者合著规律,对未来水土保持领域科研人员寻找合作伙伴、提高科研水平具有重要作用。

1 数据来源和研究方法

1.1 数据来源

本研究数据来源于中国知网学术期刊、硕博论文、会议论文数据库,获取流程是在中国知网(CNKI)数据库中,以高级检索中文献分类目录“农业科技—农业基础科学—土壤学—水土保持”为检索范围,发表时间设置为“2006年10月1日”到“2016年9月30日”,进行精确检索,检索日期为 2017 年 4 月2日。在获得检索结果后对数据进行筛选,去除类似会议通知等不相关文献和重复文献,共获得19 816篇论文。

1.2 研究方法

将CNKI检索结果以Refworks格式的文本数据导出,利用Python语言编写脚本对获取的原始数据进行预处理:从原始数据中抽取每篇论文的作者并进行去重处理作为节点,按发表论文数量赋予权值;将作者的合著关系提取出来作为边,并按合著次数对边赋予权值,由这些节点和边构建无向加权的论文合著网络。使用Gephi软件对构建的合著网络进行进一步分析。Gephi是一款开源的可视化的复杂网络分析软件,它使用3D渲染引擎实时显示大型网络并进行统计、过滤、修改和聚类,可以对大型复杂网络进行互动探索和发现[4]。利用Gephi对构建的合著网络进行可视化展示和布局调整,运用统计功能计算合著网络的节点度、节点加权度、联通子图数量和规模大小,并对最大联通子图的网络直径、平均路径长度、平均聚类系数等参数进行分析,运用复杂网络理论对水土保持学科作者合著网络性质进行界定。

2 结果与分析

2.1 合著网络构建

获得的19 816篇论文中有作者署名的论文19 253篇,这些论文共有47 055个作者。对同名作者进行简单去重,根据同名且单位相同的规则进行第一步合并得到29 497个作者。考虑到部分作者有在不同机构工作或兼职的经历,因此不同单位的同名作者有可能为同一人。为处理这种情况,考虑到科研工作一般有延续性,如果有同名作者以不同单位发表论文,那么在合著网络中,这些同名作者应该有着比较紧密的联系,很可能跟同一批合作者有着共同的合著关系,因此将数据导入到Gephi中,对合著网络进行社区发现。社区发现功能可以找到在复杂网络中有着紧密联系的节点集合,如果同名作者处于同一个社区,那么就认为这两个作者有较大概率为同一人。使用Gephi的社区发现算法[5]得到10 482个社区,将同一社区中的同名作者进行人工分析去重,处理后得到28 714个作者。去除独著的作者6 258个,剩余22 456个作者。这22 456个作者共合著了10 815篇论文,合著论文数量占论文总数的54.58%,每篇论文的平均合著人数约为2人。

从10 815篇论文中获取作者的合著关系共有61 173个,将两个作者在多篇文献中的重复合著关系进行合并得到46 132个合著关系,并根据重复次数将合著关系赋予权值,可以得到合著次数分布。结果表明,只合著过1次的作者有38 420个,合著过2次的作者为4 960个,合著过3次的作者有1 460个;合著次数最多的作者为西安理工大学的李占斌和李鹏,共合著了68次,随后合著次数迅速减少为32次(只有一个作者合著关系),再之后合著次数缓慢减少,合著关系缓慢增加。由这些作者和合著关系可以构建出一个由22 456个节点和46 132个边组成的合著网络。

2.2 度分布

网络节点的度是指该节点与其他节点连接边的数量,节点加权度是指该节点与其他节点连接边的权值的总和,网络的度分布就是网络中节点度数的总体描述[6]。在合著网络中节点的度指的是节点所对应的作者与其他多少个作者合著过,节点的加权度指的是节点对应的作者与其他作者总共合作过多少次。使用Gephi的度统计功能可以计算出该合著网络节点平均度为4.109、平均加权度为5.377。度和加权度最大的节点对应的作者是李占斌,节点度为251、加权度为436,说明他与251个作者有436次合著关系。

现实中的很多网络具有无标度特性,无标度网络的重要特征是网络中的大部分节点只和少部分节点相连,而极少的节点和大量节点相连。无标度网络的度分布符合幂律分布,即P(k)≈k-γ,其中k为节点的度,γ为常数,P(k)为节点的出现概率。在现实中许多大规模的无标度网络中,γ值介于2~3之间。将Gephi统计的节点度分布导出,取双对数进行直线拟合,并根据直线的斜率得出水土保持学科合著网络的γ值为2.52,说明水土保持学科合著网络为系数2.52的无标度网络。

2.3 联通子图规模分布

联通子图是合著网络中的子图,在这个子图中所有的节点两两之间都是互相联通的,即两个节点之间存在由边构成的通路[7]。在合著网络中一个联通子图代表一个合著团体,联通子图的规模大小说明该合著团体的作者数量多少。通过Gephi中的“连接组件”(联通子图)功能得出水土保持合著网络中共有4 051个联通子图,其中最大的一个由7 134个作者组成,占所有作者总数的31.77%,而10人以下的小联通子图的作者总数占所有作者总数的59.27%。这说明在水土保持学科领域已经有了一个大规模的合著群体,但是小规模的合著群体还是占较大比例,体现了无标度网络的特征。

2.4 最大联通子图分析

虽然水土保持合著网络的最大联通子图的节点只占整个网络节点的31.77%,但是最大联通子图的边有22 744条,占整个网络的49.30%。考虑到最大联通子图的边的平均加权值应该大于其他子图,可以判断最大联通子图的作者群体发表了水土保持学科研究领域一半以上的论文,对最大联通子图的特征分析能反映出水土保持合著网络的重要特征。

2.4.1 网络直径和平均路径长度

在网络中从一个节点沿着边到另一个节点的通路叫作两点间的路径,在无权网络中路径的长度就是组成路径的边的数量,两点间的最短路径称为距离。网络的直径就是网络中所有距离的最大值,平均路径长度是所有距离的平均值。网络的平均路径长度能体现出网络中任意两个节点的联通特性,距离越小表明联系越紧密。通常在大规模网络中平均路径长度小于10则体现出小世界性。使用Gephi计算出水土保持合著网络的最大联通子图网络直径为21,平均路径长度为6.99,具有小世界性。

2.4.2 平均聚类系数

在网络中聚类系数是指与同一节点连接的节点之间互相连接的程度,平均聚类系数是用来描述网络中节点之间连接紧密程度的系数[8]。一个节点的聚类系数等于所有与它相连的节点相互之间所连的边的数量除以这些节点之间可以连出的最大边数[9]。平均聚类系数就是所有节点的聚类系数的算术平均值。平均聚类系数值范围在0~1之间,越接近1说明节点之间的联系越紧密。使用Gephi计算出水土保持合著网络的最大联通子图网络中有31 172个三角合作,平均聚类系数为0.801,具有小世界性。

2.4.3 模块化

模块化度量值是目前常用的一种衡量网络中社区稳定度的方法。使用Gephi的社区发现算法对水土保持合著网络的最大联通子图进行社区发现,可以找到55个社区。说明在水土保持合著网络的主流研究人群中有55个紧密的合作团体,最小和最大的团体分别由10个和340个作者组成。同时,得到模块化度量值为0.925,说明这些合作团体已经形成相当稳固的合著关系。

3 讨论与结论

合著网络分析是在当前大数据时代进行文献计量分析的一种重要的方法[10],对于研究领域热点问题发掘、科研合作关系建立、研究人员在科研合作中的角色定位、学者或科研机构的科学评价等有着十分积极的作用[11-14]。本研究以2006—2016年我国水土保持学科领域文献成果为研究对象,构建了22 456个节点和46 132个边的大规模合著网络,对度分布和联通子图规模等进行了分析,并进一步分析了最大联通子图的网络直径、平均路径长度、平均聚类系数和模块化情况,发现在水土保持学科领域中,大部分作者是独著或者只与少数一两个作者有过合著关系,但部分高产作者有着比较多的合著关系,呈现非常明显的无标度性和小世界性。最大联通子图占整个网络的比例较高,说明在水土保持学科领域中相当大比例的研究人员之间有着一定的联系,最大联通子图的平均路径长度和平均聚类系数计算结果说明这些研究人员之间的联系相当紧密,这些研究人员中有着55个紧密的合作团体,而0.925的模块化度量值说明这些合作团体已经有着比较稳定的合著关系。在后期的学科团队建设过程中,水土保持研究人员应继续保持现有的合作关系,提升合作层次,同时进一步加强与其他科研单位的合作,加快水土保持学科发展。

[1] PRICE D J. Network of scientific papers[J].Science,1965,149(3683):510-515.

[2] 姚立会,边宽江.我国水土保持文献数量分布浅析[J].中国水土保持,2003(2):23-24,48.

[3] 曹晓萍,张芳琴.《水土保持研究》2000~2005年文献计量分析[J].中国科技期刊研究,2007,18(4):605-607.

[4] BASTIAN M,HEYMANN S,JACOMY M.Gephi: an open source software for exploring and manipulating networks[C]// International Conference on Weblogs and Social Media,ICWSM,San Jose,California,USA,2009:361-362.

[5] BLONDEL V D,GUILLAUME J L,LAMBIOTTE R,et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics Theory & Experiment,2008(10):155-168.

[6] 曹霞,崔雷.合著网络评价指标与文献计量学评价指标相关性研究[J].中华医学图书情报杂志,2016,25(2):20-26,74.

[7] 刘鹏,夏昊翔.跨学科研究领域的合著网络演化分析——以“复杂网络”研究领域为例[J].情报杂志,2015,34(9):85-91.

[8] 王龙.合作网络模型结构研究与应用[D].济南:山东师范大学,2015:19-21.

[9] 章忠志,荣莉莉,周涛.一类无标度合作网络的演化模型[J].系统工程理论与实践,2005,25(11):55-60.

[10] 皮进修.大数据研究领域学术合著网络研究[D].重庆:重庆师范大学,2016:10-19.

[11] 雷雪,王立学,曾建勋.作者合著有向网络构建与分析[J].图书情报工作,2015(5):94-99.

[12] 笪志祥,汪绍盛,方天纵.国内外水土保持研究现状[J].亚热带水土保持,2009,21(2):24-26.

[13] 张洪伟,李华,未碧贵,等.国际水土保持研究的可视化图谱分析[J].中国水土保持,2017(3):44-50,69.

[14] 张洪伟,李华,未碧贵,等.基于WoS平台的中外水土保持研究计量学比较分析[J].水土保持通报,2017,37(1):212-218,349.

S157;P642

B

1000-0941(2017)12-0047-03

福建省科技计划项目省属公益类科研院所基本科研专项(2015R1016-6)

张梅(1987—),女,福建邵武市人,编辑,硕士,主要从事农业经济与科技信息方面的研究。

2017-06-01

(责任编辑 李杨杨)

猜你喜欢
子图联通水土保持
辛店沟水土保持示范园
水土保持探新路 三十九年写春秋
广中江高速全线通车联通10条高速公路
关于2树子图的一些性质
风起轩辕——联通五千年民族血脉
水土保持监测
水土保持
一张图读懂联通两年混改
微信搭台“联通” 代表履职“移动”
临界完全图Ramsey数