我国密码学研究领域的可视化分析
——基于CNKI(1992-2017)期刊文献知识图谱

2019-07-10 08:18程五焰
计算机与数字工程 2019年6期
关键词:密码学发文图谱

李 涛 程五焰

(九江学院信息科学与技术学院 九江 332005)

1 引言

随着计算机和通信网络的应用和发展,信息安全得到了人们的高度重视,密码学的研究与人们的生活息息相关。借助科学知识图谱,人们可以透视庞大的知识体系中各个领域的结构,理顺当代知识大爆炸形成的复杂知识网络,预测科学技术知识前沿发展的最新态势[1]。当前,我国密码学研究已经得到了快速发展,为了更加深刻地了解我国密码学研究领域的发展历程、研究力量以及研究趋势等,本文利用Citespace软件对1992年至2017年中国知网数据库中的密码学相关文献进行可视化分析。从时间分布、核心作者、研究机构、研究热点及前沿等几个方面进行分析,为我国密码学研究提供参考。

2 研究方法与数据来源

2.1 研究方法

知识图谱(Knowledge Graph)是一种新近兴起的,将科学计量学、统计学、机器学习、计算机图形学等综合起来的科学研究方法,它把科学文献之间的关系建立在统计学基础之上,然后以可视化的图形直观地反映出来,对于发现和解释科学文献中潜在的和隐藏的规律或学科演化路径发挥了重要作用[2]。随着计算机处理能力的提高,文献信息的电子化和专利授权,知识图谱等工具在模拟人类数据可视化分析等方面已经显示出越来越强大的功能,可帮助研究者对某些学科领域的发展动态及学科前沿趋势进行分析、判断和预测[3]。

本文利用科学知识图谱的可视化工具Citespace V 进行文献分析,Citespace 是美国德雷塞尔大学(Drexel University)信息科学与技术学院陈超美博士与大连理工大学WISE 实验室联合开发的[4]。 通过该软件对科学文献进行分析可以研究该学科领域的知识结构,以及了解该学科领域的研究热点前沿及其发展趋势。本文运用计量学的方法,对文献的年代分布、研究力量分布、研究热点及前沿进行可视化分析,来研究密码学研究领域的发展历程及其研究动态趋势。

2.2 数据来源

在我国密码学研究领域的分析中,以中国知网(CNKI)数据库为数据来源。CNKI 的中文期刊全文数据库是世界上最大的,并连续动态更新的中国期刊全文数据库,共收录了8000多种学术期刊,内容覆盖自然科学、工程技术、经济管理、农业、哲学、医学、人文社会科学等各领域,因此,以该数据库为数据来源,其研究结论更具有完整性、代表性、科学性和权威性[5]。

由于知网数据库包含期刊众多,所以从中选取了其中具有代表性的核心期刊和CSSCI,时间跨度为1992 年~2017 年,以“密码学”为主题词,检索条件为“精确”,检索时间为2017 年8 月1 日,共检索出2312 条相关记录,为了提高数据的准确性和可靠性,本文对相关记录进行了预处理操作,去除了通知,征稿,简介等无效文献,最终得到2244 篇我国密码学研究领域的相关文献,并以Refworks格式导出,每一条记录都包含文献的作者、机构、题目、摘要、关键词、收录期刊及发表年份等信息,用Citespace 数据转换功能进行转换,最后导入Citespace 软件作为分析样本。每一条样本记录都包含了文献的作者、机构、题目、摘要、关键词、收录期刊及发表年份等信息。

3 研究结果与分析

3.1 研究文献时间分布分析

文献的时间分布是研究领域发展的重要指标,根据文献的历史时间所绘制的折线图,对该领域的研究热度和研究进展具有重要意义。从我国密码学研究发文量的变化趋势图(如图1),就可以了解到该领域的历史阶段,以及发展趋势。可以得出,1992 年~2017 年间我国密码学研究的论文在时间上呈现出阶段性,大致可以归纳为以下3 个阶段:第一阶段(1992 年~2001 年)为萌芽成长阶段,密码学研究初期,受到发展水平以及理论认识水平的限制,该阶段的年论文数量普遍比较低,此期间总论文数为284 篇,只占总量的12.66%,但是论文发表量总体趋势是在持续稳步的增长。

图1 我国密码学研究发文量变化趋势

3.2 核心作者知识图谱分析

一般来说,作者的文献数量反映其知识的产出能力,是作者劳动效率的客观标准之一,作者的成就与其在重要刊物上发表的论文数量高度相关,其高质量论文数量与科技成果成正比[6]。核心作者共现分析是对论文作者的合著次数的统计分析,反映作者相互之间的合作关系和科学共同体的形成情况[7]。本文运用Citespace V 软件对数据进行分析,在软件的主控界面上导入数据,设置Time Slicing(时间切片)从1992 年到2017 年,时间间隔为1 年。Term Source(词的来源)选择Title(标题),Abstract(摘要),Author Keywords(作者关键词)以及Keywords Plus(Wos 的增补关键词),将Node Types(节点类型)设置成Author(作者),阈值选项选择Top N,阈值为50,运行程序并通过对Article Labeling 模块中的Threshold、Font Size、Node Size 中的值进行微调,得到我国密码学研究作者共现知识图谱。

从该知识图谱中,可知网络节点数为454 个,连线485 条,网络密度为0.0047。网络中的节点代表共现的作者,节点越大代表该作者发文量越多,节点内的年轮颜色代表相应的论文时间,年轮厚度与相应时间分区的论文数量成正比,节点之间的连线表示作者之间的合作关系,连线越粗表示作者之间合作越强,连线的颜色代表作者首次合作的时间[8]。网络中作者数达到了454 人,说明我国密码学研究领域已经形成了一支规模比较稳定的研究队伍。但是从作者群角度看,中国密码学研究处于“部分集中,整体分散”的状态,各研究团队之间的互引关系较弱,常见的研究团队通常是由同一机构的作者组成[9]。

研究团队是实现研究资源优势互补,促进知识交流和共享的重要方式,它不仅能够提升研究成果产出能力,而且能够提高研究成果质量和影响力[10]。图2 是我国密码学研究作者共现知识图谱的局部图,展示了我国密码学研究的核心团队。结合图2和表1 中作者发文量排名可以看出,排在首位的是曾在西安电子科技大学任教的肖国镇教授,发文量76 篇,是中国现代密码学研究的主要开拓者和奠基人,主要是对组合函数方面的研究;其次是北京邮电大学的杨义先教授,发文量50 篇,主要是对网络信息安全、现代密码学和纠错编码等方面的研究;排在第3 的是北京邮电大学的温巧燕教授和西安电子科技大学的胡予濮教授,发文量都为36篇。通过对454名作者聚类分析,得到聚类141个,其中最主要的有8 个。其一是以肖国镇为核心的研究团队,其中还包括魏仕民、卓泽朋、杜小妮、崇金凤等。其二是以杨义先为核心的研究团队,其中还包括温巧燕、胡正名、罗守山等。其三是以胡予濮为核心的研究团队,其中还包括王保仓、高军涛、马文平等。其四是以温巧燕为核心的研究团队,其中还包括杨波、杜蛟等。此外还有以王育民、张焕国、冯登国、韩文报为核心的较为突出的团队。

图2 我国密码学研究作者共现知识图谱局部图

由图2 以及表1 可发现,发文量排名靠前的作者一般都为核心团队的核心力量,例如,肖国镇、杨予濮等。而且核心团队之间的合作关系比小团体之间的合作关系更为紧密,例如肖国镇团队和冯登国团队,王育民团队以及其他核心团队都有直接或间接的合作关系。我国密码学研究领域已经形成了一支稳定的研究队伍,虽然核心团队之间的合作关系比较紧密且取得了一定的研究成果,但是其他的小团体几乎呈分散的形式,与其他团体几乎没有合作关系,因此建议核心团队应该领导带动小团体相互融合与交流,促进优势资源互补,形成更浓密的合作网络,促进我国密码学研究领域的快速发展。

表1 我国密码学研究领域排名前10位的作者

3.3 科研机构知识图谱分析

研究机构是一个领域力量的源泉与支撑,研究机构的共现分析是对该领域研究机构的合作关系的分析,通过此分析方法得到的知识图谱可以表现出我国密码学研究领域的主要力量以及它们的影响力,此外还可以比较直观地展现机构的分布情况。本文运用Citespace V软件进行分析,将文献数据导入,设置Time Slicing(时间切片)从1992 年到2017 年,时间间隔为1 年,Term Source(词的来源)选择Title(标题),Abstrac(t摘要),Author Keywords(作者关键词)以及Keywords Plus(Wos 的增补关键词),将Node Types(节点类型)设置成Institution(机构),阈值选项选择Top N,阈值为50,得到我国密码学研究机构共现知识图谱,如图3所示。

图3 我国密码学研究机构共现知识图谱

图3 中,每一个节点代表一个研究机构,节点大小与机构的发文量成正比,节点的年轮代表该机构不同时间分区的发文量的分布,年轮的厚度与该机构在该时间分区内的发文量成正比,年轮的颜色代表相应的发文时间,节点之间的连线代表机构之间的合作关系,连线的粗细与合作的强度成正比,连线越粗表示机构之间的合作越紧密,连线的颜色代表机构之间首次合作的时间。

由图3 可知,西安电子科技大学计算机网络与信息安全教育部重点实验室的发文量最多,为49篇。其次是西安电子科技大学综合业务网国家重点实验室,为41 篇。排在第三的是解放军信息工程大学电子技术学院,发文量为38篇,还有中国科学院、重庆大学、北京邮电大学等排名也靠前,可以认为这些机构是我国密码学研究的主要研究单位。可以发现,高校是我国密码学研究领域的主要研究机构,这也说明了高等体育院校是密码学科研的主力单位,它们的科研水平反映着密码学学科的科研能力[11]。

从我国的密码学研究机构的共现图谱可以看到,机构节点个数为234(N=234),其中有合作关系的机构有128 个(E=128),网络密度比较低(Density=0.0047)。说明我国密码学研究的机构分布比较广泛,机构之间的合作比较少。最大的合作网络是以西安电子科技大学计算机网络与信息安全教育部重点实验室为核心,与中国科学院软件研究所信息安全国家重点实验室,信息工程大学信息工程学院等构建的网络。其次是以西安电子科技大学综合业务网国家重点实验室为核心,与解放军信息工程大学电子技术学院,上海交通大学电子工程系等构建的网络。此外,还有以解放军信息工程大学电子技术学院、武汉大学计算机学院、中国科学院等为核心构建的网络,也是我国密码学研究领域的主要力量。

发文量的突增性是反映发文量增长的指标,文献增长越多,发文突增性越大[12]。如图4,其中北京邮电大学信息工程系的突现值最高,突现值为13.7996,突发时间从1994 年至1999 年。其次是西安电子科技大学综合业务网国家重点实验室,突现值为10.5047,突现时间从2004 到2007。接着是西安电子科技大学计算机网络与信息安全教育部重点实验室,突现值为10.3129,突现时间从2009 到2011。

图4 我国密码学研究机构突现词排名

3.4 研究热点与前沿分析

研究热点是某一时期获得人们主要关注、引起较多数量文献分析的现象,从文献计量学的角度来看,某个领域的研究热点是由学者积极引用的文献所体现的,某一时期内被引频次较高的文献一般来说是该领域的研究热点[3];关键词作为能够反映文章主题内容和研究重点的重要术语,对其进行共现分析,使得把握一个研究领域的热点内容、主题分布就成为可能[13]。运用Citespace V 软件,设置Time Slicing(时间切片)为1992 年至2017 年,时间间隔为1 年,Term Source(词的来源)选择Title(标题),Abstract(摘要),Author Keywords(作者关键词)以及Keywords Plus(Wos 的增补关键词),将Node Types(节点类型)设置成Keyword(关键词),阈值选项选择Top N,阈值为50。

由所得知识图谱,可知图谱中节点N=409,即关键词有409 个,其中出现频次最多的关键词是“密码学”,频次为593,远远高于其他关键词,由于本文研究的对象主要是密码学,所以这两个词出现的频率相对较多属于正常[14]。在关键词共现分析中忽略“密码学”关键词,重点分析其余408 个关键词构建成的知识网络,图5 即为我国密码学关键词共现知识图谱。图中节点代表关键词,节点的大小与关键词共现频次成正比,节点的年轮代表该关键词在不同时间分区的共现,年轮的厚度与关键词共现频次成正比,年轮的颜色代表相应的共现年份,节点之间的连线代表关键词之间的合作关系,连线的粗细与合作的强度成正比,连线的颜色代表关键词之间首次共现时间。

由图5 以及表2 可以看出,我国密码学研究领域出现频次前10 的关键词,其中数字签名出现的频次最高,为108 次;紧接着是布尔函数,出现频次为106 次,排在第三的是双线性对,频次为81。由此可知我国密码学研究领域的研究重点为围绕密码学展开的数字签名、布尔函数、双线性对、信息安全等,这些都是我国密码学研究的热点。这些研究对我国密码学研究领域起着至关重要的作用,而且还可发现共现频次较高的关键词首次共现年份都比较早,说明这些研究热点经过了多年的深入研究才得以逐步完善。

图5 我国密码学研究关键词共现知识图谱

表2 我国密码学研究关键词排名

通过探究关键词词频的时间分布,将其中频次变化率高的词(Burst Term)从大量的词中探测出来,依靠词频的变化趋势可以预测今后密码学研究的发展趋势[15]。通过Citespace V 软件图谱转换功能,将关键词共现图谱转换为我国密码学研究热点时区分布图谱,如图6。时区按从左到右的顺序排列,可以更加直观地了解我国密码学研究领域的研究前沿以及发展趋势[16]。研究前期,主要以数字签名、布尔函数、有限域以及安全性等为研究起点,逐渐扩展到线性复杂度、密码分析、非线性度、流密码、分组密码以及Bent函数等方面。这些研究奠定了我国密码学研究的基础,为下一阶段的发展提供了知识储备。在前期的研究基础上,我国密码学研究领域迅速发展,主要涉及信息安全、秘密共享、混沌以及双线性对等方面。到了近期,虽然密码学研究领域的发展不如之前那般迅速,但也呈现出稳定发展的态势,此阶段的研究热点包括标准模型、代数免疫度、可证明安全、密钥协商、云计算等方面。

图6 我国密码学研究热点时区分布图谱

为了更精确研究密码学的研究前沿,对关键词进行突变检测,对突现值排名前10 的关键词进行统计,得图7。其中突现值最高的关键词为混沌,突现值为8。5612,其次是云计算,突现值为7.0318,紧接着为密钥协商,标准模型,可证明安全等关键词,突现值分别为6.7501,6.7056,6.4603。由于关键词混沌的突现时段为2003 年至2008 年,代表在那个时间段关键词出现频次增长快,即混沌为该时间段我国密码学研究领域的研究前沿。为了研究现阶段我国密码学研究领域的研究前沿,选取2010 年后的突现关键词,发现云计算、密钥协商、标准模型、可证明安全的突现值较高,故可认为,我国现阶段密码学研究领域的研究前沿为云计算、密钥协商、标准模型、可证明安全等领域或与此相关的领域。

4 结语

在时间分布上,在1992 年~2017 年期间,我国密码学研究主要分为3 个阶段,1992 年~2001 年为成长期,论文数量呈缓慢上升趋势,2002 年~2010年为快速发展期,该阶段论文数量增长迅速,而且年均发文量也处于较高数量,2011 年~2017 年年论文量有所下降,该时期趋于稳定状态。

在作者合作分布上,我国密码学研究领域作者共现网络节点分布比较分散,作者之间的合作程度比较低,多为2~5 人的小团体。当然也有少数的大的核心研究团队,这些团队的核心人物大多都是我国密码学研究的领军人物,像肖国镇、杨义先、胡予濮等人。他们作为我国密码学研究领域的核心力量,为我国密码学的发展起着重大影响。

在研究机构分布上,研究机构间的合作较少,高校是我国密码学研究的主要机构。其中西安电子科技大学、解放军信息工程大学、北京邮电大学等是我国密码学研究的中坚力量,为我国密码学研究的发展提供了科研支撑和学术保证。

通过关键词共现图谱分析,我国密码学研究的主要领域有数字签名、布尔函数、双线性对等,这些研究为我国密码学的发展夯实了基础,做出来巨大贡献。随着时间的推移,密码学的研究热点都发生着变化,由早期的数字签名、布尔函数等研究热点,已逐渐的转化为信息安全、秘密共享等,再到近期的标准模型、代数免疫度等研究领域。通过近几年突现词的检测,可以推测近几年我国密码学研究前沿为云计算、密钥协商、标准模型等研究领域。

猜你喜欢
密码学发文图谱
基于图对比注意力网络的知识图谱补全
绘一张成长图谱
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
图灵奖获得者、美国国家工程院院士马丁·爱德华·海尔曼:我们正处于密钥学革命前夕
图表
信息安全专业密码学课程体系的建设
密码学课程教学中的“破”与“立”
主动对接你思维的知识图谱
以群为基础的密码学