国内外图情领域可视化比较研究
——基于SSCI与CSSCI期刊论文的计量与可视化分析

2021-07-14 08:28王燕平河南理工大学图书馆
图书馆理论与实践 2021年4期
关键词:聚类可视化论文

王燕平(河南理工大学图书馆)

1 引言

信息环境下,庞大的信息量使人们处理和理解信息的难度日益增加。为了探索抽象信息之间的复杂关系,经常需要对大量的信息进行分析、归纳,并从大量杂乱无序的信息中发现隐藏在其中的本质特征和规律。因此,结合数据挖掘、图像技术、图形学等诸多学科理论和方法的可视化技术便出现了。1989年,Robertson等在《用于交互性用户界面的认知协处理器》一文中首次提出了“信息可视化”这个概念[1]。此后信息可视化作为一个学科逐渐成长起来。关于可视化的概念、定义、内涵非常之多,笔者认为张聪和张慧的定义比较全面,其认为可视化(Visualization)是将大量的数据、信息和知识转化为人类的一种视觉形式,充分利用人类对可视化模式(图形、图像等)快速识别的自然能力及有效的可视界面来观察、操纵、研究、分析、过滤、发现和理解大规模数据,并与之交互,从而可以直观、形象地表现、解释、分析、模拟、发现或揭示隐藏在数据内部的特征和规律,提高人类对事物的观察、记忆和理解能力及整体概念的形成[2]。可视化技术包括科学计算可视化、数据可视化、信息可视化、知识可视化、知识域可视化等[3],其中知识域可视化最终呈现的图形被陈悦和刘则渊称为“知识图谱”[4]。

可视化一经提出就被广泛应用于金融、网络通信、商业信息、气象、科学计量等各个学科领域,其中图书情报是重要的应用领域之一。因为可视化的理论、技术和方法可以优化信息组织与检索,提高信息获取效率,提供新的信息分析方法和工具,可视化通过各种视觉表征促进用户对知识的理解,进而促进知识的传播、利用和创新。所以图情领域的可视化研究较早就受到关注,并在近年来不断得到发展深化,成为图情领域的热点问题。1998年,张进与陈远对情报检索可视化过程中信息节点的歧义性问题进行了讨论[5],一般被认为是我国图情领域可视化研究的开端;2013年邱均平等总结了国外图书情报领域可视化研究,认为图书情报领域可视化研究有向计算机技术化方向发展的态势[6];2014年邱均平等分析了我国图书情报领域可视化的主要研究维度、研究热点及其演化以及创新途径[7];2017年张长鲁等对我国信息可视化的研究演进及发展趋势进行了系统总结和归纳[8]。

目前,国内外图情领域可视化研究从理论、方法、技术、工具和应用层面进行了不同程度的探讨,对可视化研究的主题内容、主题演化作国内外对比研究的很少。为了更全面地了解国内外图情领域可视化研究的主题、发展和研究力量等,笔者将采用定性和定量相结合的分析方法,运用文献计量和可视化图谱等手段对国内外图情领域可视化研究文献进行对比分析,以期从研究主题、发展阶段和研究力量等多视角寻找国内外图情领域可视化研究的差异,为我国图情领域可视化研究的理论和应用发展提供参考与借鉴。

2 数据来源与研究方法

为了保证数据的代表性与权威性,本文选择社会科学引文索引(SSCI)、中文社会科学引文索引(CSSCI)数据库为来源数据库进行检索。在CSSCI中以“可视化”为主题词进行检索,学科领域限制在“图书情报与数字图书馆”。在SSCI中以“visual”为主题词进行检索,学科限定在“Information Science Library Science”类别,文献类型选择“Article”“Proceedings paper”,出版年选择1998—2019年,检索日期为2019年7月8日。通过对检索到的数据进行清洗,得到SSCI收录的论文899篇,CSSCI收录的论文1,364篇。采用文献计量和可视化方法对数据进行计量及可视化分析,利用NoteExpress、UCINET、NetDraw、CiteSpace等工具对检索到的论文的时间分布、高被引论文、高频关键词、核心作者、作者合著等进行定量统计与定性分析,并对国内外研究发展现状作比较,总结国内外发展异同,探讨未来研究中值得重点关注和拓展的领域。

3 结果与分析

3.1 图情领域可视化研究的时间分布

学术论文数量的时序变化是衡量某领域发展的重要指标,反映该领域研究发展的阶段、趋势和动态等,图1显示了1998—2019年间SSCI和CSSCI收录的可视化研究论文的年份分布(2019年数据不完整)。

如图1所示,国外图情领域可视化研究一直处于逐步缓慢上升的趋势,到2007年达到第一个发展高峰,2007—2014年处于平稳发展阶段,2014年达到第二个高峰,之后又进入第二个平稳发展阶段,其年载文量分布曲线波动幅度较小。和国外相比,国内在该领域研究上升趋势更加明显,2007年以前可以看作是一个初步发展阶段,2007—2014年是迅猛发展阶段,2014年国内与国外研究同时达到一个高潮,2014年之后国内研究也进入平稳发展阶段,其年载文量分布曲线波动不大。综上所述,国内外图情领域可视化研究发展阶段和趋势基本保持一致,总体都呈上升趋势。大体都可分为三个发展阶段:2007年之前为初步发展阶段,2007—2014年为缓慢上升发展阶段,2014年之后为平稳发展阶段。

图1 SSCI和CSSCI图情领域可视化研究论文数量的年份分布曲线

3.2 图情领域可视化研究内容分布

3.2.1 图情领域可视化研究高被引论文分析

高被引论文具有较高的学术参考价值,反映该领域学者们重点关注的内容及研究热点。通过对SSCI中图情领域可视化研究的高被引论文进行统计,得出被引次数前五名论文的情况(见表1)。

表1 SSCI中被引次数前五名的图情领域可视化研究论文

Eck等开发了用于构建和查看文献计量地图的免费软件VOSviewer,并利用该软件构建并展示了一个由5,000种主要科学期刊组成的共引图,展示了VOSviewer处理大型文献计量地图的能力[9]。Essen等描述并举例介绍了一款用于大脑皮层表面分析可视化的集成软件,该软件具有从数据库中高效插入、搜索和提取曲面和体积数据并可视化显示的功能[10]。Chen(陈超美)利用软件CiteSpace II对科学文献中出现的新兴趋势和瞬态模式进行探测和可视化,设计并实现了集群视图和时区视图这两种互补的可视化视图,并利用CiteSpace II对“大灭绝”和“恐怖主义”两个研究领域的文献进行建模与可视化案例分析[11]。Porter等通过建立文献计量指标以及利用新的跨学科指数、文献计量可视化方法调查了1975年至2005年间六个研究领域的跨学科程度是如何变化的[12]。Cobo等对可视化软件工具、文献计量技术进行回顾、分析比较[13]。对CSSCI中图情领域可视化研究的高被引论文进行统计,得出被引次数前五名论文的情况(见表2)。

表2 CSSCI中被引次数前五名的图情领域可视化研究论文

秦长江等概述了知识图谱的概念、主要应用领域、关键技术、相关软件、发展历史以及国内外最新研究进展[14]。赵蓉英等利用CiteSpace II对Web of knowledge收录的文献题录进行文献共引分析和聚类分析,绘制出文献计量学研究发展演进的知识图谱,揭示了该领域的代表人物、代表文献、热点领域和发展趋势[15]。邱均平等利用CiteSpace II工具对SCI和SSCI收录的13种外文期刊进行高影响力作者、高频关键词以及突变专业术语分析,揭示出国际范围内图书情报学领域的研究热点和前沿[16]。胡泽文等对国内248篇知识图谱研究文献进行内容分析,得出国内知识图谱在情报学领域及其子领域以及其他学科领域的应用状况[17]。赵蓉英等利用CiteSpaceⅡ软件对Web of Science数据库中有关图书馆主题文献的相关引文、主题词进行分析和处理,揭示出图书馆学的重要研究力量、研究前沿和热点[18]。

通过对国内外图情领域可视化研究高影响力论文的内容进行分析,发现国外研究主要集中于对可视化工具、方法以及对这些工具、方法所进行的可行性论证。国内研究主要是对知识图谱基础理论、相关软件和应用概况的介绍。研究结果表明,国内研究的重点主要是对可视化工具的具体应用,尤其突出的是对知识图谱及绘制知识图谱的工具CiteSpace的应用,国内缺乏本土可视化软件工具的开发;国外早期发表的文献被引次数相对较高,高被引论文分布从2001年到2011年,而国内相对发表较晚的文献被引次数较高,高被引论文分布从2009年到2013年。

3.2.2 图情领域可视化研究主题分布

关键词表达了论文的研究主题,是论文的核心与精髓。可通过绘制高频关键词共现网络,利用关键词之间的紧密程度分析图情领域可视化研究的主题。对SSCI中899篇论文的关键词进行统计,得到关键词3,444个;对CSSCI中1,364篇论文的关键词进行统计,得到关键词2,318个。分别对国内外研究的高频关键词按频次排序,将频次前100的关键词利用NoteExpress生成高频关键词矩阵并导入UCINET6,再利用可视化工具NetDraw分别绘制SSCI和CSSCI收录的可视化研究论文的高频关键词共现网络。由SSCI收录的可视化研究论文的高频关键词共现网络得知:Visualization、Science、Information Visualization、Networks是国外图情领域可视化研究的核心关键词,这几个关键词与其他关键词的联系最为紧密;Model、Information、Web、Design、Knowledge、Bibliometrics、System、GIS、Bibliometric Analysis、Management、Patterns、Co-word analysis等关键词是该领域较为重要的关键词,与其他关键词有比较强的联系。这说明国外图情领域可视化研究集中于信息可视化、可视化模型、模式设计、文献计量可视化分析、共词分析、GIS等。

由CSSCI收录的图情领域可视化研究论文的高频关键词共现网络(见图2)可知,国内图情领域可视化研究最核心的关键词是可视化、知识图谱、可视化分析、研究热点、信息可视化、CiteSpace、共词分析;与核心节点密切联系的次重要节点包括:文献计量、大数据、社会网络分析、研究前沿、数字图书馆、引文分析、情报学、科学知识图谱、信息检索、本体。说明国内图情领域可视化的主要研究内容是信息可视化,对信息检索结果特别是文献的可视化分析,如对某学科领域研究热点与前沿可视化分析,以及共词分析、社会网络分析和引文分析等,利用最多的可视化软件是CiteSpace。

图2 CSSCI收录的图情领域可视化研究论文的高频关键词共现网络

通过以上对国内外研究关键词共现的比较分析,发现国外该领域研究关键词总量多,核心关键词少,研究主题分布范围广;国内研究的关键词总量少,核心关键词多,研究主题更加集中。国内外在图情领域可视化研究主题内容的共同点是都关注文献计量可视化分析。不同点是国外图情领域更重视可视化理论、方法的研究,如构建可视化模型、可视化模式设计;国内在该领域更重视对可视化理论、方法、工具的具体应用,如利用知识图谱对某学科前沿、热点进行分析,尤其是对可视化软件CiteSpace的利用。

3.2.3 图情领域可视化研究主题演化

利用CiteSpace的时间轴聚类功能,对国内外图情领域可视化研究的关键词进行时间轴聚类分析。从CiteSpace关键词时间轴聚类可以看出国外该领域研究从时间演变上形成了8个大的聚类,其标签分别为:#0 public health domain、#1 knowledge management research、#2 sequence analysis、#3 semantic mapping、#4 citation analysis、#5 mathematical model、#6 emergent theme、#7 scientific institution。第一个大的聚类是关于公共健康卫生领域数据的可视化研究,时间上从2001年到2019年,贯穿整个研究时间段。第二个聚类是关于知识管理可视化研究,时间集中于2002年到2017年。第三个聚类是关于对数据的序列分析,第四个聚类是对数据进行语义映射,这两个聚类都是数据可视化的理论、方法研究,时间集中于2002年到2018年。第五个聚类是关于文献计量的引文分析,主要关注可视化理论、软件等应用,时间集中在2007年到2018年。第六个聚类是通过数学模型对数据进行可视化研究,属于可视化方法研究,时间集中在2003年到2017年。第七个聚类是通过可视化对某学科新兴主题的探究,也属于对可视化方法、软件的具体应用,时间集中于2007年到2016年。第八个聚类是研究机构的可视化分析,包括研究机构空间分布的可视化,大学排名可视化等,时间也是从2001年到2019年,贯穿了整个研究时间段。

结合8个聚类出现的时间顺序以及前面分析的不同年份研究论文的发文量,可以将国外图情领域可视化研究划分为三个发展阶段。①从2001年到2007年,是国外图情领域可视化研究的初步发展阶段,研究集中于图情领域数据可视化理论、方法、技术分析,包括信息检索可视化、网络信息可视化等。②从2007年到2014年,是国外图情领域可视化研究较快发展阶段,研究集中在可视化理论与技术进一步发展,大量的可视化软件被开发,同时利用这些可视化软件对图情领域的数据进行可视化分析。③2014年至今是国外图情领域可视化研究的平稳发展阶段,可视化研究对象的范围进一步扩大,除了通过文献计量可视化分析学科前沿、趋势等,还包括对各类型大数据进行可视化分析。

从CiteSpace关键词时间轴聚类可看出国内该领域研究从时间演变上形成了9个大的聚类,其标签分别为:#0可视化、#1科学计量学、#2 citespace、#3 aquabrowser library、#4数据挖掘、#5社会网络、#6社会网络分析、#7数字人文、#8数字资源整合。第一个聚类是内容最多的聚类,体现整个图情领域可视化研究演化过程,包括可视化检索技术、知识可视化方法、文献计量结果可视化分析、对各学科前沿热点可视化分析,在时间上基本贯穿整个研究的始终。第二个聚类是通过可视化方法对科学计量学中的数据进行分析,包括对不同学科主题进行比较研究,学科内容演化等,时间集中于2006年到2017年。第三个聚类是利用CiteSpace软件对不同学科文献计量结果的可视化分析,得出不同学科研究的人物、机构、主题内容、发展趋势等,时间集中于2009年到2019年。第四个聚类是属于可视化检索范畴,包括地理信息系统、可视化人机交互检索等,其中AquaBrowser Library是荷兰Medialab Solutions公司推出的具有信息可视化功能的OPAC系统[19],通过自由文本信息检索技术、视觉关联搜索和分面类别导航的组合来提供书目信息检索服务,帮助用户发现书目信息所揭示的概念、学科以及领域之间的内在联系[20],时间集中在2003年到2014年。第五、六、七个聚类属于可视化技术、软件应用范畴,包括通过共词分析、词频统计、数据挖掘形成可视化图谱,揭示学科主题演化,通过可视化社会网络分析揭示不同领域研究作者关系,时间集中在2007年到2018年。第八、第九个聚类产生时间较晚,属于图情领域可视化的最新研究,随着可视化技术、方法的发展,可视化研究对象进一步扩大,可视化技术和最新的学术热点结合,包括跨学科数字资源整合的可视化,公共数字文化资源、开放数据的可视化研究,以及大数据、数字人文、创客教育等学术热点结合的可视化研究,时间集中在2012年到2018年。

结合9个聚类出现的时间顺序和前面分析的不同年份研究论文的发文量,可以将国内图情领域可视化研究划分为三个发展阶段。①2007年之前,是可视化概念引入、可视化理论、方法初步发展阶段,主要研究内容偏重信息检索可视化,包括视觉设计、人机交互可视化检索等。②从2007年到2014年,是国内图情领域可视化研究高速发展阶段,主要研究集中在利用软件进行文献计量可视化分析,揭示不同学科的研究热点、主题演化、研究人物、研究机构等,重点是对CiteSpace的利用。③2014年至今,是国内图情领域可视化研究的平稳发展阶段,内容主要是图情领域可视化技术、方法进一步发展,可视化研究对象扩大,可视化技术和最新的学术热点结合,如与大数据、数字人文、创客教育等学术热点结合的可视化研究。

通过对国内外图情领域可视化研究主题演化的比较分析,可以看出国内外该领域研究发展趋势基本一致,国外更重视可视化方法、技术研究,如可视化模型、可视化软件比较等,国内该领域研究和国外相比上升趋势更加明显,但国内更关注对可视化软件的应用,尤其是对国外可视化软件CiteSpace的应用,与国外相比,国内明显缺乏本土可视化软件的开发和推广。在可视化研究对象上,国外图情领域很关注公共健康卫生数据的可视化研究,而国内主要关注图情学科相关学科的可视化,以及可视化技术和最新的学术热点结合的可视化研究。

3.3 图情领域可视化研究作者分析

在SSCI中共检索到图情领域可视化研究的作者2,285位,发表论文数量最多的作者发表论文数量为24篇。发表论文10篇以上的作者6人,发表论文5篇以上的作者35人,发表论文2篇以上的作者295人,发表1篇论文的作者1,990人,发表10篇以上、5篇以上、2篇以上和1篇论文的作者占总作者数分别为0.3%、2%、13%和87%。在CNKI中共检索到作者2,201位,发表论文数量最多为41篇,这样的作者共2人。发表论文10篇以上的作者11人,发表论文5篇以上的作者56人,发表论文2篇以上的作者295人,发表1篇论文的作者1,733人,发表10篇以上、5篇以上、2篇以上和1篇论文的作者占总作者数分别为0.5%、3%、21%和79%。统计结果显示,国内该领域研究的高产作者多于国外,国内外发表1篇论文的作者都大于洛特卡定律60.79%的数值。这说明国内外图情领域需要更多的在可视化领域深入、持续研究的作者。

发文量高的作者不一定是该领域的核心作者,核心作者还应该具备较高的学术影响力,因此本文取发文5篇以上、被引频次前十的作者将其确定为核心作者(见表3)。国外排名第一的是美国德雷克斯大学的Chen C M(陈超美)研发了图情领域著名的可视化软件CiteSpace,成为该领域学术影响力非常高的作者[11]。排名第二和第三的是荷兰莱顿大学的Waltman和Van Eck属于同一个团队,他们都是从事可视化技术和软件开发研究的学者,开发了文献计量可视化图谱软件VOSviewer和文献引文网络可视化软件工具CitNetExplorer[9,21]。他们的发文量虽然不高,但平均被引频次达到205.2和198.6。排名第四的荷兰阿姆斯特丹大学的Leydesdorff是发文量最高的作者,主要研究可视化方法,如对可视化数据前期进行对称共引文矩阵和非对称引文矩阵处理等[22]。国内排名第一和第二的是邱均平和赵蓉英教授,其发文量和被引频次都最高,主要研究内容包括从文献计量角度对文献检索结果的可视化分析,探讨和图情领域相关学科的发展趋势、研究热点等,以及可视化方法研究[23]。排名第三的是南京农业大学的侯汉清,主要研究可视化检索技术,他利用软件实现了叙词表的可视化[24]。

表3 SSCI和CSSCI中图情领域可视化研究的核心作者

4 结论

可视化技术在国内外图情领域也已得到了广泛应用,本研究结果表明:①国内外图情领域可视化研究都比较关注文献计量可视化分析。不同点是国外图情领域更重视可视化理论、方法的研究;国内在该领域更重视对可视化理论、方法、工具的具体应用。②与国外相比,国内明显缺乏本土可视化软件的开发和推广,这可能是我国图情领域可视化研究发展潜在的隐患。一旦国外收回软件的使用权,我国很多研究将难以为继。因此相关职能部门应提供更多政策支持,促进我国本土可视化软件的开发和推广。③在可视化研究对象上,国外图情领域研究主题分布范围更广,国内研究主题更加集中。国外图情领域很关注公共健康卫生数据的可视化研究;而国内主要关注图情学科相关学科可视化、可视化技术和最新的学术热点结合的可视化研究。未来国内图情领域的研究主题范围可进一步扩大,加强跨学科领域合作研究,使图情领域能为其他学科提供更多的学术服务支持。

猜你喜欢
聚类可视化论文
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
思维可视化
自然资源可视化决策系统
面向WSN的聚类头选举与维护协议的研究综述
本期论文英文摘要
基于高斯混合聚类的阵列干涉SAR三维成像
本期论文英文摘要
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法