面向科技文献技术脉络分析的聚类算法研究

2019-06-20 08:27尹宝生宋芷薇

中文信息 2019年7期

尹宝生宋芷薇

摘要：科技文献网络是一种特殊的复杂信息网络，每一篇文献都有对应的标题、作者、刊物、关键词、引文等信息，从而形成了以文献为中心，其他对象通过文献链接在一起的星型网络结构。聚类分析是基于文献进行技术脉络信息抽取工作的重要手段之一。本文在传统层次聚类算法的基础上，融合了文献网络所特有的引文信息，从而有效的改善了施引文献和被引文献之间的聚类效果。基于万方数据库抓取的文献进行了聚类实验，标准化互信息（NMI）值有明显提升，为后续文献技术脉络分析工作打下了良好的研究基础。

关键词：自然语言处理聚类算法科技文献技术脉络分析

中图分类号：TP391.1 文献标识码：A 文章编号：1003-9082（2019）07-000-02

引言

科技創新的不断出现与发展是科技革命发生的必然前提。每年期刊和会议上都会涌现出大量优秀的文献，而技术创新往往是对已有技术的反复推演之后的逻辑重组，对特定领域已有的科技文献进行技术脉络信息抽取与分析，总结科学技术的涌现，发展和分裂，这既能快速地掌握特定领域过去的发展情况，也能对后续研究者选择研究方起到有指引作用，无论在科学研究方面还是在实际工程方面，对科技文献进行快速自动化的技术脉络梳理都显得尤为重要。

现实世界中存在很多信息网络，如文献信息网络、社交网络、医疗网络、交通网络等[1]。近年来，基于文献信息网络进行的研究有很多，如专家发现、相似文献推荐、同名作者排歧、作者合作关系预测、作者性别预测、学术主题挖掘、领域异常检测、技术脉络分析等研究。技术脉络分析主要是研究网络中的对象如何形成不同的簇，簇与簇之间是如何演变的。具体难点主要体现在以下三个方面：（1）中文文献图谱少之又少，如何构建高质量的中文文献图谱。（2）如何构建大规模学术知识库，构建学术知识点的发展脉络。（3）如何将技术脉络进行可视化展示，清晰的展示技术的演变关系。

对某一特定领域的技术脉络梳理的一个关键步骤是对复杂信息网络中的对象进行聚类，形成不同的簇，并分析各簇之间的连接关系，好的聚类效果对后续的技术脉络分析与处理起到至关重要的作用。科技文献的题录信息属于短文本，与长文本相比，短文本语言表达简洁，携带信息较少，描述信息较弱，这就增加了科技文献聚类的难度[2]，如何对有限信息的短文本进行信息抽取与快速聚类是一个值得讨论的课题。针对这一问题，近年来，涌现一些相关的文献计量分析系统，如AMiner、Citespace、VOSViewer、Citeseer、Hiscite等。

一、相关研究

文献信息网络中的连接分为两种，一种是强连接，另一种是弱连接，通常弱连接比强连接更有价值，弱连接更能促进两个簇之间的信息流动[3]，对于每一篇文献，都有作者集合、关键词集合、引文集合的链接，这些集合的链接类型都属于强连接，它们之间可以形成以文献为中心，其他类型为属性的星型网络模式，从自然语言理解角度分析文献，弱连接对找到簇间关系非常有意义。

现有的文献计量分析系统大部分是针对英文文献进行处理与分析，并且大部分是基于文档层面的关键词词频统计、共现词分析及共引分析，只要关键词在文献中出现或该文献被其他文献引用，便为之计数，并没有从自然语言处理角度对文献的语义进行分析。SimRank算法[4]通过基于链接的方法来评估对象之间的相似性，然后使用图聚类方法来产生聚类[5]，但文献信息网络中的对象进行两两相似度评价比较耗费时间和空间。Yizhou Sun等人提出的RankClus算法[6]，该算法利用文献的刊物和作者信息，是一种基于排名的迭代算法，排名和聚类可以相互影响，在每个聚类中排名高的对象更有助于明晰化聚类。Yizhou Sun等人提出的NetClus[7]算法也是基于排名的聚类，是一种软聚类，每个对象可以柔性地属于多个聚类。

国内对文献技术脉络分析的研究较少。要一璐等人通过抽取关键词及其语义关系构建知识脉络[8]，将文献中的关键词作为核心，抽取关键词之间的同义关系、上下位关系以及共现关系，以关键词为结点，关键词之间的关系为边，构建科技文献知识脉络。李信等人利用文献的标题，从学术文本词汇功能的角度出发，考虑科研文献中词汇的语义功能，设计并实现了一个基于词汇功能识别的科研文献分析系统[9]。

本文在利用文献题录信息的基础上，融合被引文献和施引文献间的引文信息对传统层次聚类算法进行改进，从而有效的改善聚类的文献簇生成效果。

二、算法描述

1.聚类算法的选择

目前已有很多成熟的聚类方法，但没有任何一种聚类算法可以普遍适用于各种多维数据集所呈现出来的多种多样的结构[10]。聚类本质上是集合划分问题，要求簇内样本尽可能相似，根据簇内样本相似度的方法判断，聚类算法可分为以下几类：第一类是连通性聚类，如层次聚类算法，它根据样本之间的连通性来构造簇，所有连通的样本属于一个簇；第二类是基于质心的聚类，如K均值算法，它用一个中心向量来表示这个簇，样本属于的簇由它到每个簇的中心距离确定；第三类是基于概率分布的聚类，如EM算法，它根据极大似然估计进行聚类；第四类是基于密度的聚类，如DBSCAN算法，它将簇定义为空间中样本密集的区域；第五类是基于图的聚类，使用图论中的方法完成聚类，由于不知道实验所用的文献数据集具体应该分成几类，也不确定簇划分的形状，所以采用基于聚合的凝聚层次聚类方法进行实验。

文献网络中含有文献的相关信息包含六类实体：文献（P）、标题（T）、刊物（V）、作者（A），关键词（K），引文（R），对于每一篇文献，都有标题、刊物集合、作者集合、关键词集合、引文集合的链接，它们都属于链接类型的集合。文献与关键字或标题之间存在着“包含”和“被包含”的关系；文献与作者之间存在着“写作”和“被写作”的关系；文献与刊物之间存在着“发表”和“被发表”的关系。文献与文献之间存在着“引用”和“被引用”的关系。文献网络形成如图所示的星形网络结构，其中所有其它类型的对象通过文献链接起来，文献网络链接类型如图1所示。

图1 文献网络链接类型

2.融合引文信息的凝聚层次聚类算法

凝聚层次聚类算法又称为树聚类算法，是一种自下而上的聚类算法，该算法试图在不同层次对数据集进行划分，从而形成树形的聚类结构[11]，改进的凝聚层次聚类算法流程如下：

2.1将样本集合中的每个样本点当做一个簇，计算两两之间的相似度。

两篇文献的向量分别为，，则两篇文献之间的余弦距离计算公式如下，余弦距离的值越小，则两篇文献越相似。

每一篇文献都有若干篇参考文献，参考文献里面有的是前期的某种处理步骤，有的是主要研究点。通过主题模型分析，判断具有引用关系的两篇文献是否属于同一主题，是同一主题的则减小两篇文献之间的距离值，即提高具有引用关系且主题相同的两篇文献的相似度的概率值。如果两篇文献有引用关系，则更新两篇文献的余弦距离，利用新的距离矩阵进行后续计算，其中为权重系数。

2.2将距离最小的两个簇合并成一个新的簇。

2.3重新计算新簇和所有簇之间的距离。

簇之间距离计算的方式分为单连接、全连接、平均连接，本文采用全连接的方式计算新簇与所有簇之间的距离，将两个新簇的数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离，两个簇之间的距离就算公式如下：

2.4重复（2）（3），生成一个具有树形结构的聚类结果。

2.5根据簇间切分标准对聚类结构进行切分，形成最终的簇划分集合C。

3.聚类效果评价

某领域的大量文献集中发表在少数期刊上，而其他文献则分散在相关期刊上，并且某一期刊发表文献方向是基本固定的，通常发表在同一刊物上的两篇文献比发表在不同刊物上的两篇文献更相似。因此，本文采用文献发表的刊物聚类的准确性作为评价标准，并采用标准化互信息（NMI）[11]来评价聚类的准确性，NMI主要是用来衡量输出的簇结果中的对象是否真的属于同一集群，NMI基本可以比较客观地评价出一个划分与标准划分之间相比的准确度。NMI值的范围是0到1，NMI值越大代表聚类划分越准确。

三、实验

1.实验数据集

国内缺少公开可用的中文文献网络图谱，因此本文利用网络爬虫技术，从万方数据库中抓取部分中文文献数据作为实验数据集，通过施引文献扩展法保证文献检索的查全率，抓取到的文献数据主要包含文献的标题、关键字、作者、刊物、时间、引文等信息。首先对文献数据进行清洗，剔除掉征稿信息、会议信息、期刊杂志介绍等非文献数据信息，重复的文献数据信息，不完整的文献数据信息，剩余文献数据22180篇作为实验数据集。

2.实验结果分析

本文分别采用标题（T）、关键词（K）、引文信息（R）进行实验，实验中设置聚类的阈值t分别为0.1，0.2，权重为0.5。对中文文献数据集进行聚类的结果如表1所示。

实验结果表明，利用文献的关键词进行聚类的效果比利用标题进行聚类的效果好，说明关键词作为一篇论文的必要组成部分，能够简单、直接、全面地概括出论文的核心内容；利用标题和关键词信息组合在一起，共同进行聚类的效果明显比使用其中的单独一个对象进行聚类的效果好，说明标题和关键词在一起能很大程度上反映文献的主要研究内容和主题；在利用文献的标题和关键词信息的基础上融入引用信息后，聚类效果提升了0.9个百分点，一篇文献质量高则引用量多，引用的文献质量也高，这些优秀的文献聚成一类，可以作为科技文献的技术脉络中的重要节点。

结束语

融合引文信息的凝聚层次聚类算法对文献网络聚类效果有一定的提升，该算法能够快速的生成特定领域文献的聚类结果，可以帮助人工快速梳理特定领域的重点文献。本文使用的数据集是中文文献数据集，中文语料分词一直是一个难点，本实验中的专业领域数据集分词效果不是很好，有的较长的专业词汇在分词的时候被切分开了，后续尝试加入更专业的包含专业领域的专业词的词典，使专业领域的语料分词效果更好一些；文献题录信息中的作者信息也十分有价值，同一作者的研究领域和研究方向在一段时间内一般比较固定，因此短期内同一作者所发表的文献相似度会更高；目前加入的是直接引用关系，而间接引用关系和共被引关系也可能对聚类效果有一定影响。

参考文献

[1]SunY，HanJ.异构信息网络挖掘：原理和方法[M].段磊，朱敏，唐常杰，译.北京：机械工业出版社，2017：1-5.

[2]高华林.基于短文本的热点分析关键技术研究[D].中国人民公安大学，2017.

[3]GrabowiczPA，JoséJ.Ramasco，MoroE，etal.SocialFeaturesofOnlineNetworks：TheStrengthofIntermediaryTiesinOnlineSocialMedia[J].PlosOne，2012，7（1）：e29358.

[4]JehG，WidomJ.SimRank：ameasureofstructural-contextsimilarity[C]//EighthAcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.ACM，2002.

[5]LuxburgUV.Atutorialonspectralclustering[J].StatisticsandComputing，2007，17（4）：395-416.

[6]SunY，HanJ，ZhaoP，etal.RankClus：Integratingclusteringwithrankingforheterogeneousinformationnetworkanalysis[C]//AcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.ACM，2009.

[7]SunY，YuY，HanJ.Ranking-basedclusteringofheterogeneousinformationnetworkswithstarnetworkschema[C]//AcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.DBLP，2009.

[8]譚红叶，要一璐，梁颖红.基于知识脉络的科技论文推荐[J].山东大学学报（理学版），2016，51（5）.

[9]李信，程齐凯，刘兴帮.基于词汇功能识别的科研文献分析系统设计与实现[J].图书情报工作，2017，61（01）：109-116.

[10]周涛，陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用，2012，48（12）：100-111.

[11]金建国.聚类方法综述[J].计算机科学，2014，41（S2）：288-293.