基于共词聚类的国内智慧政府研究热点分析

2020-04-21 11:33李永忠
福建质量管理 2020年7期
关键词:共词中心词主题词

李永忠 马 原

(福州大学经济与管理学院 福建 福州 350116)

一、引言

“智慧政府”这一概念是对“智慧城市”的引申和发展,智慧城市的建设对未来智慧政府的发展形势有着十分深远的影响。随着传统管理方式逐渐难以适应政府日趋多样化的公共事务管理职能需求,在现代化形势下表现日渐乏力,智慧政府的构建被各国政府提上日程,未来建设智慧政府将成为构建服务型政府的重要举措[1]。本文尝试运用LDA主题词筛选结合共词聚类方法为智慧政府未来的研究领域提供可参考的研究方向。

二、数据来源于研究方法

(一)数据来源

本文数据来源是本文根据中国知网2010-2019年以智慧政府为主题进行精确检索得到的国内期刊、会议论文以及学术论文的共463篇文献的摘要及关键词,自2010年来,以智慧政府为主题的研究性学术论文发表量呈现明显增长并于2017年到达峰值,近两年呈现下降趋势。

(二)共词聚类方法

共词分析法是研究学科热点以及趋势的一种常用方法,[2]它基于大量文本数据中某些词汇共同出现的频率来分析文章的研究主题与要点,很多领域都利用该方法进行研究热点的分析。使用共词分析方法一般采用以下几个步骤:1.确定分析的问题,2.确定需要挖掘的文本,3.高频词汇的选定,4.构建共词矩阵,5.使用统计方法挖掘关联性,6.得出结论。

(三)LDA 主题模型关键词选取

LDA主题模型是一种利用极大后验概率拟合单词跟主题以及文档跟主题的概率分布情况的监督学习的主题分类模型。[3]笔者利用该方法进行主题词选定主要由于使用LDA主题模型进行筛选后,一些没有实际意义的高频词汇能够被排除,[4]提升了共词分析结果的实用性,从而带来更有价值的实验结果。

三、实证分析

(一)主题词选取

在Python结巴分词结合LDA主题模型下能够将一些对研究没有意义的高频词汇进行停用选取。基本步骤如下:对文本进行jieba分词→选取高频词→确定停用词→重新选取高频词→LDA模型打分→选取主题词。

一般对主题词的选取数量的确定要根据实验数据量的大小确定,笔者为了避免主题词选择近似或重复,在进行多次实验后确定了本次实验的主题选择数量为10组,再从每组主题选取打分前10的词汇作为主题词,最终得能够反应国内智慧政府建设研究特点的主题词数量为61个。

(二)高频词统计分析

经过统计得出国内智慧政府研究中所出现的频次前20的主题词中,“服务”、“技术”、“数据”词频分别达到258、211、199是除智慧政府建设以外词频数最高的,应当是当下绝大部分研究文献所涉及的领域。

(三)构建主题词共现频次矩阵及归一化处理

主题词提取完成后需要构建词共现频次矩阵来反映各个主题词间的关联程度。然而此矩阵中的词频由于反映的是绝对数值且阈值范围过大,从而难以真正的显示出各个主题词之间依赖关系及联系程度的相对性,所以需要对数据进行归一化处理用以反映词对间的相互关联强度。本文采用的数据归一化处理方式是salton指数法来显示词语之间的相对联系紧密程度,其公式为:[5]

公式中S(i,j)的值表示每一对词之间的紧密程度,其值域分布于(0,1]区间内,S越大表示i与j的联系强度越大。N表示的是主题词i与j各自出现的频次,分母表示的是两个主题词共现的频次,经过归一化处理的矩阵如表1所示。

表1salton归一化处理后的矩阵(部分)

(四)类团分析

由于词共现统计仅仅是主题词间两两联系的紧密程度分析,可能不能完全反映研究文献的研究关键点,所以引入类团分析来帮助将各个主题词进行大类的划分,一般使用聚类分析法将相互之间联系比较紧密的多个主题词归为一个类团从而进行热点归类。[6]本次实验使用了SPSS软件对归一化后的共词矩阵进行聚类分析处理,采用系统聚类方法得到了表2中的四个大类。

表2 主题词聚类划分

在上表中,中心词的选取由各个主题词与其他主题词共现频率的平均值来确定称作粘合力,粘合力越大即表示该主题词与其他主题的联系越强,即可确定为该类团的中心词,[7]通过中心的整理归纳能够对该类团进行命名。在选取中心词时笔者并未简单的挑选粘合度最大的三个词汇,而是对笼统性的词汇进行筛除后在选取粘合力大的的主题词作为中心词。例如在类团1中,信息化、智能化、现代化的粘合力系数分别是0.339,0.295,0.273,粘合度是除“电子政务”、“智慧”2个词之外位于该类团的前三的,采用其作为中心词结合类团其他主题词,归纳后可将该类团的名称命名为“架构搭建”,同理可以将其他三个类团分别命名为“顶层设计”、“信息化实施”和“宏观综述”。

进一步可以研究各类团的影响力情况,分别计算每个类团内主题词绝对点度中心度的平均值用来表示其影响力程度,最终可得到表3如下:

表3 类团影响力表

从上表可知目前在智慧政府领域的研究中,顶层设计的研究拥有最大的影响力,架构搭建次之,说明我国国内电子政务在智慧政府研究领域的研究还未完全成形;宏观综述应该在以往的研究中趋于成熟,故而影响力有所下降;而随着顶层设计与架构搭建的不断研究发展,现代的信息化实施可能成为未来主要的研究方向和热门话题。

四、结语

本文采用了共词聚类方法,结合LDA主题模型对“智慧政府”领域研究现状进行了分析。首先通过分词工具将近年研究文献进行分词处理,再使用LDA模型对数据进行主题词提取筛选出研究的对象构成共词矩阵,通过聚类方法将主题分为了4类,分别是:顶层设计、架构搭建、宏观综述以及信息化实施。更进一步对每个类团进行了中心度计算,反映了类团影响力以及主题词的重要程度。最后,提出了未来可能具有影响力的研究方向,为今后的智慧政府领域的研究提供一些思路。

本文将共词聚类方法引入了“智慧政府”研究领域,为该领域的研究补充了更多的研究思路,用更为科学的方式对领域的热点进行了分析。本文仍存在的不足是尚未区分不同来源的研究文献的主题词权重,未来能够引入权重概念则会更好地突出重点文献的研究方向,对今后的发展趋势能进行更有效的分析预测。

猜你喜欢
共词中心词主题词
Why I ride
基于突变检测与共词分析的深阅读新兴趋势分析
基于Matlab的共词矩阵构造
《老年医学与保健》2017年第23卷主题词索引
基于频繁依存子树模式的中心词提取方法研究
中国文化在国际社交媒体传播的类型分析——基于共词聚类的研究
基于共词知识图谱技术的国内VLC可视化研究
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
《疑难病杂志》2014年第13卷主题词索引