区块链文献主题发现及演化研究

2020-10-19 04:40王金丽
计算机工程与应用 2020年20期
关键词:发文可视化聚类

王金丽,樊 勇,张 辉

1.昆明理工大学 管理与经济学院,昆明 650093

2.昆明理工大学 人文社科研究院,昆明 650500

3.北京航空航天大学 软件开发环境国家重点实验室,北京 100191

1 引言

区块链技术作为比特币系统的核心技术,自诞生以来,受到了学术界和企业界的广泛关注[1],其应用场景已经从最初的数字货币领域延伸到了物联网、智慧医疗、法律、经济、艺术等多个领域[2]。区块链技术集成了加解密技术[3]、数字签名、分布式计算[4]、共识算法[5]、Hash 映射等多种技术,具有去中心化、交易数据可追踪[6]、区块数据多重备份[7]的特点,为社会诸多应用提供了可信、可靠、安全的技术集成[8],因此,区块链技术是构建可信社会的一种有效的解决方案,在数据保护[9]、电子政务[10]等方面越来越受到人们的认可。2019 年10 月24 日,习近平同志在中共中央政治局集体学习时强调,要把区块链作为核心技术自主创新的重要突破口,足以表明区块链技术在当代技术革命中的重要地位。

近年来,国内学者针对区块链技术发表了一系列高水平高质量的论文,对促进区块链的实际应用起到了重要作用。对已发表的论文进行文献统计及可视化分析能够发现该领域的研究主题和研究趋势。国内学者已经针对主题为区块链的文献进行了相关研究,例如孔繁超分析了区块链资源的开放获取方法[11],李牧南从共引和聚类的视角分析了区块链的知识结构[12],王发明等从文献计量学的角度分析了国内区块链的研究热点[13],乔鹏程分析了区块链技术的国际演进过程[14],但这些文献还不能够很好地说明当前国内区块链技术的研究现状和演化趋势。本文以国内发表的高质量论文为研究对象,从文献发文量、机构、重要文献、作者共现、关键词、聚类等角度进行统计,并利用陈超美教授开发的文献可视化分析软件CiteSpace进行图谱展示[15],有效得出区块链研究的现状、热点领域、关键技术和发展趋势,帮助学者掌握学科及领域的演进规律,进一步提升其对学科领域的掌握程度。

2 研究方法与数据来源

2.1 研究方法

本文采用两种研究方法,第一种方法是对主题为区块链的文献进行统计分析,主要包括各级别期刊的发文量、发文机构、重要文献、期刊发文量等,旨在通过文献统计学分析概要了解区块链技术在中国的研究现状。

第二种方法是利用文献可视化分析软件对区块链的研究内容和演化趋势进行分析,主要包括作者共现、热点关键词、聚类、时区分布等。本文的可视化分析采用陈超美博士开发的CiteSpace 软件,它能有效地对文献进行可视化分析[16-17],受到了学术界众多学者的认可,成为文献计量学分析的利器[18]。该软件基于java 语言编写[19],目前已经开发到第五版,能够直观地对热点关键词、研究领域、演化趋势等进行图谱展示[20]。

2.2 数据来源

本研究数据来自中国知网CNKI数据库,对近年来国内学者发表的以“区块链”为主题的文献进行检索,检索时间为2019 年12 月3 日,期刊类别主要包括美国工程索引中文期刊(EI期刊)、南京大学中国社会科学研究评价中心的中文社会科学引文索引(CSSCI 期刊,简称C刊)、北京大学图书馆的中文核心期刊要目总览(北大中文核心期刊)、中国科学院文献情报中心的中国科学引文数据库(CSCD期刊)等。

3 国内区块链文献研究现状

本章对以区块链为主题的文献年度发文量、研究机构发文情况、作者共现情况、重要文献引用情况、重点期刊发文情况等进行了统计分析,表格数据在word 中以三线表形式展示,发文机构采用CNKI的可视化工具完成,作者共现可视化图采用CiteSpace软件完成。

3.1 发文量统计

通过检索CNKI数据库,发现从2014年开始截止到2019年12月,主题中含有“区块链”的论文共有7 928篇,但多数论文发表期刊级别不高。本文对篇名为“区块链”的期刊进行检索,检索来源为中文EI 期刊、CSSCI、北大中文核心期刊和CSCD期刊,检索时间为2014年至2019 年,共检索到1 216 篇。表1 对其发文年度进行了统计,具体如表1。

表1 发文年度统计

从表1中可以看出,区块链的中文文献在2014年首次出现,表明自2009年中本聪发布比特币系统以来,区块链的概念首次进入国内学者的视野。经过两三年的发展,2017年关于区块链的论文发文量为206篇,2018年为438篇,2019年的发文量达到506篇,表明越来越多的学者开始关注并研究区块链技术,标志着区块链技术正在快速发展。

3.2 研究机构发文统计

本节分析了2014—2019 年各机构研究区块链的发文情况。具体数据如图1所示。

从图1中可以看出,区块链研究发文排在前十位的科研机构分别是中国人民大学、中国科学院大学、中央财经大学、清华大学、华北电力大学、北京大学、武汉大学、复旦大学、上海大学、中国科学院信息工程研究所。表明这些机构很重视区块链的研究及应用,在区块链研究领域投入了较多的人力、物力和财力,并取得了较好的成果,对促进区块链技术在中国的研究和发展起到了重要的推动作用。

图1 机构发文统计

3.3 作者共现

作者共现能够看出区块链领域作者发文的多少及两个或多个作者之间是否有合作关系。其中,节点大小代表作者发文多少,节点越大表明作者的发文量越多,作者与作者之间的连线表明作者之间有合作关系。作者共现可视化如图2所示。

图2 作者共现可视化图

图2 采用CiteSpace 对2014—2019 年发表的区块链论文的作者进行可视化分析,相关参数设置如下:timespan设置为2014—2019 年,slice length 设置为1,网络中节点有308个,连线有236条,网络密度Density为0.005,剪裁方式为Pathfinder。从图2中可以看出,李强、张浩、王飞跃、陈思捷、杨婷等作者的节点比较大,表明这些作者发文量较多。从图中的连线可以看出,部分作者之间用线条连接起来,呈现出小集团化,说明这些作者之间有合作关系。图中杨婷、陈文俊、聂梦飞、弓世明、庞晓琼等之间呈现出典型的作者共现关系,并且节点较大,说明他们之间有合作且发表的论文较多。另外,比较典型的小集团有方轶、丛林虎、邓建球,陈思捷、平健、严正,袁勇、王飞跃等。还有一些作者之间虽然有连线,但是节点并不大,说明这些作者有合作,但是发文量不多。同时可以看到,周边有许多孤立的节点,且节点比较小,表明这些作者都是孤军奋战,独立发文。整体上来说,有较强合作关系的作者发文量比较大。

3.4 基于引用数的区块链重要文献

本节着重分析区块链领域重要文献的引用情况。从 CNKI 获取 2014 年 至 2019 年 12 月 3 日 的区 块 链 文献,统计引用最高的10篇文献,具体如表2所示。

从表2 可以看出,被引用数最高的文献为“区块链技术发展现状与展望”,该论文于2016年发表于EI检索期刊《自动化学报》上,为最早介绍区块链技术的权威期刊,详细阐述了区块链的核心技术,获得学者的认可。被引数较高的几篇文献还有“能源互联网中的区块链技术”“区块链技术与应用前瞻综述”“基于区块链的应用系统开发方法研究”“区块链技术:架构及进展”等,这几篇文献的共同特点是综述类文献,从技术的角度阐述了区块链的核心知识,并且都发表在国内本领域的顶尖期刊上,如《软件学报》《计算机学报》《中国电机工程学报》等。表明这些文献在区块链领域占据重要的地位,对领域其他学者研究起到引领作用。

3.5 重点期刊发文情况

本节统计了相关期刊的发文情况,对发文量前20的期刊进行分析,具体如表3所示。

表2 重要文献统计

表3 发文期刊统计

从表3可以看出,发文量排名前20的期刊共420篇,期刊的类别可以分为三大类:第一类是和金融密切相关的期刊,包括《中国金融》《会计之友》《银行家》《中国流通经济》《电子政务》《财会月刊》《财会通信》等;第二类是和计算机研究密切相关的期刊,主要包括《计算机应用》《软件学报》《计算机科学》《网络信息安全》《计算机工程与应用》《计算机研究与发展》《密码学报》等;第三类是和能源互联网、法律、教育等相关的期刊,主要包括《中国电机工程学报》《电力建设》《东方法学》《远程教育杂志》等期刊。

从发文类别上可以看出,区块链本身是一种计算机集成技术,其技术性论文也主要发表在计算机类的期刊上,发文量随着区块链核心技术的深入研究逐步增多。但是,区块链最初的应用是数字货币和金融领域,因此,在金融领域的发文量比较大,占比达到40%左右。同时也可以看到,随着区块链技术在智能电网、法律、医疗、教育、电子政务等行业的应用,相关的文献也在不断增多,表明区块链作为一种基础性的架构设施已经成为构建可信社会的重要支撑。

4 国内区块链研究热点及演化趋势分析

本章对获取的区块链文献标题进行关键词、聚类、时区分布等可视化分析。关键词分析能够看出文献的研究热点;聚类分析能够看出研究的主题和热点研究领域;时区分析能够看出研究热点和研究主题的演化趋势。

4.1 基于关键词的研究热点

关键词分析能够反映出该领域的研究热点。本节利用Citespace 对1 216 篇文献的关键词进行词频统计、爆发度、中心化等分析,具体数据如表4所示。

表4 关键词词频、爆发度、中心化统计

从表4可以看出,位列前10位的关键词分别是区块链、智能合约、去中心化、区块链技术、比特币、共识机制、数字货币、共识算法、金融科技、大数据。这些关键词是区块链研究的热点,主要涉及区块链的核心技术、研究领域或重要概念。

爆发度是指在某个时期凸显出来的研究热点,可以发现关键词在某一个时间段内兴起或涌现的情况。爆发度可以定义为:

其中timespani表示时间片段,本文中的时间片段定义为1 年;countt(keywordi)表示在t时间片段内关键词keywordi出现的次数,Δ 表示关键词keywordi在时间段(t,t-1)内的计数增量。

进一步,根据表4 中爆发度数据及相关年份,得到了如表5所示的关键词爆发度及其对应的爆发年份。

表5 关键词爆发强度及起始年份

从表5 中可以看出,金融、银行业、财政金融、互联网金融等关键词的爆发起止年份为2016 年到2017 年。其中,金融的爆发度达到了8.606 6,财政金融的爆发度达到了8.212 0,互联网金融的爆发度为3.350 1,表明在区块链研究初期(2015 年到2017 年),国内对区块链技术的研究重点集中在金融领域。

中心化表示该关键词的中介程度或发散程度,居于中心的关键词可以衍生出其他概念或技术。中心化可用公式(2)定义:

其中,gst为节点s到节点t的最短路径数目,表示从节点s到节点t的gst条最短路径中经过节点i的最短路径数目。节点的中心化程度越高,表明该节点越重要。

从表4可以看出,中心化程度最强的10个关键词分别是金融科技、人工智能、数字货币、区块链、智能合约、物联网、财政金融、信息安全、以太坊、去中心化。表明这些词是区块链领域的研究中心,该领域内其他技术或者概念都与这些关键词息息相关。同时可以看出,关键词的出现频率与中心化程度并不成正比。

根据表4的数据,利用CiteSpace绘制了如图3所示的关键词可视化图。从图3中可以看出,区块链的节点最大,代表出现的频率最高,围绕区块链衍生出了智能合约、去中心化、银行等热点关键词。进一步,围绕这些关键词,又衍生出了共识算法、以太坊、能源互联网、区块链技术、金融机构、人工智能、数字货币、比特币、分布式账本、隐私保护、大数据、金融科技、物联网、供应链、共识机制等。这些关键词都是区块链研究的焦点,它们的联系都很紧密,目前基于区块链的研究都是在这些关键词的基础上进行的,或者说围绕这些关键词进行相关研究,并进一步拓展新的领域。

图3 关键词可视化图

4.2 基于聚类的研究热点领域

对文献的关键词进行聚类分析能够发现热点研究领域。本节在关键词的基础上进行了聚类分析。聚类分析两个重要的指标是Modularity,中文名称为聚类模块值,其值用Q表示,简称Q值,另一个重要的指标是Mean Sihouette,中文名称为聚类平均轮廓值,其值用S表示,简称S值。首先对Q值及S值进行定义。

Q值的计算公式如下[21]:

式中,aij表示网络的邻接矩阵,pij表示两个相邻节点之间连接数的期望值,Ci和Cj表示节点i和节点j所属的聚类,若Ci和Cj同属于一个聚类,那么σ等于1,否则σ等于0。

在聚类过程中Q值越大,表明取得的聚类效果越好。Q值的取值范围一般为[0,1],Q值大于0.3表示聚类效果是可以接受的。

S值的计算公式如下[22]:

S值是用来衡量网络同质性的指标,主要衡量聚类内部的同质性,若内部成员数目较少,则S值会降低。在聚类成员数目足够多的情况下,若S值大于0.5,则证明聚类是合理的;若S的值大于0.7,则表示聚类结果是高度可信的。

通过对所选取文献进行关键词聚类分析,得到如图4所示的聚类效果。

图4 关键词聚类可视化图谱

从关键词聚类图谱可以看出学者研究区块链的主题及领域。该聚类图谱中,网络的节点个数N为176,边的个数E为200,网络密度density为0.013,剪裁方式pruning 为 pathfinder,聚类得出的Q值为 0.845 1,表明聚类的效果很好,S值为0.560 4,表明聚类结果是合理的。

通过聚类可视化图谱发现,所有的关键词被分为了13个类别,分别是:风险防范、智能合约、监管科技、数字货币、风险、金融科技、联盟链、财政金融、隐私保护、去中心化、数字出版、人工智能、商业银行。这些类别中,涉及到了区块链核心技术,如去中心化、联盟链、隐私保护等,也涉及到了具体的应用领域,如金融、监管、人工智能、数字出版等。进一步分析发现,与数字货币等金融业相关的主题比较多,表明区块链研究重点集中在了金融领域,其他领域虽有涉及,但比重不大。为了理清区块链研究的主题演化趋势,下节将对关键词进行时区分布分析。

4.3 基于时区分布的主题演化趋势

关键词时区分布图能够看出领域内热点关键词首次出现的年份、热点突显情况、关键词聚类及热点演化趋势。时区分布可视化图如图5 所示。图中X轴代表关键词首次出现的年份,Y轴代表聚类名。

从图5 中可以看出,所有关键词被分为了13 个主题,每个主题中包含若干关键词。具体分析如下:2015年首次出现的关键词按照节点大小排序有区块链、智能合约、去中心化、区块链技术、比特币、共识机制、共识算法、物联网、隐私保护、以太坊、信息安全、激励机制、超级账本、安全存储等,这些词多数为区块链的核心术语,表明在比特币的基础上,区块链核心技术开始进入学者的研究领域,并延伸出多个后续研究热点;2016年首次出现的关键词按照节点大小排序有数字货币、大数据、人工智能、互联网金融、能源互联网、财政金融、银行、虚拟货币、金融机构、金融监管、银行业、法定货币、分布式能源、互联网保险、金融业、商业、货币发行等,这一年是区块链技术发展非常重要的一年,区块链的应用主要集中在金融领域;2017年首次出现的关键词按照节点大小排序有金融科技、金融创新、监管科技、供应链、ico、数字资产、商业模式、信息不对称、分布式系统、一带一路、区块链金融、版权保护、密码学、平行区块链、法定数字货币、数字出版、分布式存储、技术创新、普惠金融、教育大数据、信用机制、去信任化、网络借贷、信任机制、监管沙箱、数据安全、互联网+、共享等,与前面的关键词相比,这些关键词更为细化,表明区块链核心技术的研究进入实质阶段;2018年首次出现的关键词按照节点大小排序有供应链金融、联盟链、共享经济、图书馆、数据共享、跨境电商、分布式账本、信息共享、监管沙盒、数字经济、新闻业、风险、税收征管、互联网、时间戳、不可篡改等,表明区块链技术已经向多个应用领域发展;2019年首次出现的关键词按照节点大小排序有云计算、访问控制、代码、博弈论、审计、应收账款融资、身份认证、云存储、供应链融资、分布式账本技术、合同法、区块链治理、学术出版、安全多方计算、小微企业融资、拜占庭容错、数字版权管理、货币法、资源共享、食品安全等,表明区块链应用领域进一步扩大,并且更加注重区块链核心技术研究,区块链研究进一步深入化。未来研究中,区块链核心技术将成为研究重点,如区块链技术的输出性能、可扩展性等,以便区块链技术能够被更好地应用到实际场景。

图5 关键词时区分布可视化图

5 讨论

从数据统计和可视化分析可以看出,国内区块链的研究从 2014 年开始萌芽,经过 3 到 4 年的发展,2018 年到2019年进入到白热化阶段。从研究热点和研究内容来看,学者首先从区块链思想开始入手,以金融领域作为最初的应用领域并延伸到供应链、人工智能等多个领域,在研究具体应用领域的同时,针对应用过程中面临的具体困难,深入研究区块链核心技术。因此,区块链技术的研究可以分为三个层级,即区块链思想、区块链核心技术和区块链应用领域。

5.1 区块链去中心化思想

区块链诞生于比特币系统,其最基本的特点是去中心化、多重备份、安全可靠、可追溯。正是由于区块链技术的这些特征,颠覆了人类社会中长期存在的中心化概念,使得人与人之间无须通过中心化实体(中心化易被操纵)完成交易,只需要通过机器等硬件设备即可实现在不可靠条件下的信任操作。在不可靠的场景下,区块链作为一个重要的技术性解决方案能够为人们提供可信、可靠的服务。从区块链文献发文情况和研究内容来看,国内学者对区块链思想研究的重点词汇主要有:去中心化、分布式存储、智能合约、时间戳、不可篡改、分布式账本、共享经济、隐私保护、信息安全、金融监管。在这些热点词汇研究的基础上,通过重点词汇的延伸研究发现,区块链思想已成为指导区块链技术及应用领域的驱动力。

5.2 区块链核心技术

区块链核心技术是区块链思想得以实现的保证。通过技术实现思想是区块链得以发展的根本原因,区块链技术效率的提升对提高生产力有决定性的影响。区块链的核心技术主要体现在安全性、扩展性和输出性能等方面。区块链系统的本质是在分布式环境下实现多个节点的协同工作,涉及到多种核心技术,如共识算法、分布式存储、加解密技术及hash技术等。随着对区块链研究的深入,技术类的文献越来越多。对区块链文献的研究热点和关键词汇进行分析可以得出,区块链技术的热点词汇有:共识机制、工作量证明、拜占庭容错、身份管理、身份认证、激励机制、监管沙盒等。同时发现,区块链技术类的文章大多发表于计算机类期刊,部分期刊级别达到了EI 期刊的水平,说明技术类的文章是将来研究的重点。

5.3 区块链应用领域

区块链最终的目标是满足人们在不可靠环境下进行公平、公正、安全、可信交易的需求。区块链去中心化的思想和技术特征决定了它能够应用在多个领域,凡是有可信、可靠需求的领域都可以用区块链技术。数字货币是区块链最初的应用领域。对区块链文献进行研究热点分析可以发现,目前区块链的应用领域主要有数字货币、互联网金融、能源互联网、物联网、供应链、人工智能、大数据、跨境电商、数据共享、版权保护等。区块链技术和大数据、人工智能等共同成为下一代信息技术变革的驱动力,为其他技术或者应用提供了支撑。随着区块链技术的快速发展,区块链将被应用到更多的场景,提供安全、可靠的服务。

6 结语

区块链研究如火如荼,区块链技术已经和大数据、人工智能、智能医疗、智慧制造、物联网等领域紧密结合,成为下一代信息技术革命的主要推动力,为社会变革和社会发展注入新鲜活力。本文通过对国内近几年发表的区块链论文进行梳理,旨在帮助科研人员和企事业工作者了解区块链技术目前的研究现状、研究热点和演化趋势。本文首先统计了国内学者在中文EI 期刊、CSSCI 期刊、北大中文核心期刊、CSCD 期刊的发文情况,主要包括发文量、发文机构、作者共现、重要文献、发文期刊等;其次利用CiteSpace 软件对区块链文献进行可视化分析,主要包括关键词、聚类和时区分布等;最后,从区块链的思想、核心技术和应用领域等三个维度进行讨论。全文探讨了区块链文献的研究现状、研究热点和演化趋势,为科研人员和企事业单位提供决策支持。

猜你喜欢
发文可视化聚类
基于CiteSpace的足三里穴研究可视化分析
思维可视化
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
基于CGAL和OpenGL的海底地形三维可视化
基于K-means聚类的车-地无线通信场强研究
“融评”:党媒评论的可视化创新
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法