基于UCINET的词汇共现网络可视化研究

2014-07-27 06:20周拴龙
创新科技 2014年20期
关键词:网络图权值语义

周拴龙

(郑州大学信息管理学院,河南 郑州 450052)

基于UCINET的词汇共现网络可视化研究

周拴龙

(郑州大学信息管理学院,河南 郑州 450052)

词汇按照一定规则相互联系形成的网络结构呈现出复杂网络特征。本文首先给出了词汇共现网络的构造方法,分析词汇网络的复杂网络特征,然后利用复杂网络可视化工具UCINET对词汇共现网络进行可视化研究,从可视化网络图中获取词汇聚类的涌现。

UCINET;词汇网络;共现;可视化;涌现

1 引言

近年来,随着复杂网络研究的不断深入,人们发现现实世界中存在着许多具有相同特征的网络拓扑结构,如万维网、社会关系网、科学研究合作网络、流行病传播网络等,这些网络具有与规则网络不同的统计特性,其中最重要的就是小世界特性和无标度特性。研究表明作为自然语言中能够独立活动的最小语义单位的词汇按照一定规则相互联系形成的网络结构按照规则的层次可分为:共现网络、语法网络和语义网络,无论在哪个层次上都体现出了复杂网络特征。

词汇网络可视化属于复杂网络可视化的范畴。由于复杂网络规模很大并且结构复杂,不但难于组织和管理网络中的信息,而且包含在其中非常丰富的信息资源也将难于被发现,可视化技术提供了有效的方法来理解复杂网络的结构并从中挖掘有效信息[1]。本文利用复杂网络可视化工具UCINET对词汇共现网络进行可视化研究,目的在于从可视化网络图中获取词汇聚类、文本主题词的涌现。

2 词汇共现网络及其特性分析

2.1 词汇共现网络定义。词汇的共现网络是最简单的一种自然语言网络。在网络图中,每一个词汇作为一个节点,若两个词汇出现在同一个窗口(句子、段落、篇、领域等)中,则认为它们之间有一定相关关系,它们之间存在一条边,边具有权值表示两个词汇共现程度的大小。网络图中的边可以是无向边也可以是有向边,分别表示是否忽略词汇顺序情况下的词汇关系。根据图论知识给出词汇共现网络的定义。

定义1 词汇共现网络

词汇网络WN=<Wd,Rl,Dt>,其中

Wd={w1,w2,…,wn}是一个非空集合,称为词汇集,其中元素Wi(i=1,2,…,n)称为词汇节点;

Rl={(wi,wj)|wi,wj∈Wd}是无序集Wd&Wd的子集,称Rl为WN的词汇节点之间共现边的集合,集合中的元素(wi,wj)称为共现边。此时Rl为忽略了词汇之间出现顺序的共现边集合,因此,(wi,wj)=(wj,wi)。

D={di|dij∈R∧i,j=1,2,…,n}是实数集合的子集,对于任意的共现边(wi,wj)=都有D中一个元素且仅有一个元素dij与之对应,元素dij称为共现边(wi,wj)的权值。

从定义中可以看出词汇网络属于标定的无向带权图。

从以上定义不难看出词汇共现网络构建方法主要有三个步骤:

2.1.1 确定W集合中的词汇结点。

2.1.2 确定词汇结点之间的共现边。应用窗口机制选择一定数量的词汇建立词汇网络,该窗口可以是一篇文章、某个时间段内的所有领域文献、某一个专题的文献等,词汇结点如果处于同一个窗口就将两个同现的词汇结点用共现边连接起来,得到词汇网络。

2.1.3 确定边的权值。最简单的可以选择词汇共现频率的倒数作为边的权值,共现频率越大,权值越小,则表明两个词之间的距离越近。权值d的计算公式为:

其中P(wi)表示词汇集合中词汇wi出现的概率,P(wj|wi)表示词汇wi出现的条件下词汇wj出现的概率,P(wi,wj)表示两个词汇同时出现的概率。考虑到词汇出现某一个窗口是独立的,所以公式(1)也可以用以下公式代替:

2.2 网络特性分析。词汇共现网络除了具有小世界特性以及无标度特性以外,还具有其他一些复杂网络的共同性质。

2.2.1 非线性。具有非线性性质的系统不服从叠加原理,即两次独立的输入与两个联合的输入产生的系统效果不同,用数学公式表示为:f(x1)+f(x2)≠f(x1+x2)。在词汇网络中任意两个单独出现的词汇语义之和一定弱于这两个词汇同时出现的语义,例如在标引文献时,利用两个不同的关键词所标引的文献数量之和一定多于用两个词共同标引的文献数量。

2.2.2 存在着社团结构。整个网络由若干个社团构成,每个社团内部的节点之间的连接相对非常紧密,但是,各个社团之间的连接相对来说却比较稀疏。词汇网络中的社团结构体现在词聚类上,通常的词聚类结果也可以利用复杂网络的社团结构发现算法获得。

2.2.3 涌现现象。由于非线性特征,复杂网络中会出现涌现现象,即宏观行为是在复杂系统中微观组件的非线性相互作用下而自发涌现出来的表现。词汇网络中的单个词汇只具有词汇各自的语义,两两词汇间的关系只能局限于共现(语法、语义)相关关系,但是,作为复杂网络的词汇网络能够涌现出具有检索和标引功能的关键词,甚至是具有层次结构的分类。

3 词汇共现网络的UCINET可视化

3.1 UCINET介绍。UCINET6是一款功能全面的复杂网络分析工具,该软件主要用以分析社会网络,它包含了相当丰富的网络分析工具,是社会网络分析领域最著名同时也最为常用的一款网络分析软件包。它能读取文本文档(*.txt)和excel文档(*.exl),能够对表示关系的数据做中心性分析、子群分析、角色分析和基于置换的统计分析等这些社会网络分析法所包含的主要分析。

3.2 词汇共现网络的可视化过程

3.2.1 采集词汇和确定共现边

采集词汇最直观的方法是利用分词算法将窗口(句子、段落、篇、领域等)中具有语法、语义的字串分为独立的词汇,这些词汇两两之间具有相同窗口的共现关系。

本文实验选取的数据来自中国知网www.cnki.net图书、情报与档案领域的核心期刊文献。实验未涉及分词,为简单起见仅选取文献关键词,并确定窗口为“篇”。这样确定了同一窗口中词汇节点以及节点间的边。表1给出7个窗口中的词汇节点。

3.2.2 确定共现边的权值。利用CAJViewer中的“搜索”功能查找关键词在文献中出现的次数并计算其在词汇集合中出现的频率。在UCINET6中输入词汇矩阵。

3.3 可视化结果的分析及应用

表 1 7个窗口中的词汇节点

图 1 共现词汇网络可视化结果

图 2 词汇共现网络的聚类结果

词汇网络的可视化结果。以上数据在UCINET6中得到可视化的共现词汇网络图,如图1所示。图中每个词汇以节点表示,出现在同一个窗口的节点之间有边相连,边上标注的数字是两点的共现频率的倒数,作为两点之间的距离。UCINET允许选择不同的网络显示方式,图1是圆形显示方式。

UCINET针对各种不同的社会网络提供中心性分析、子群分析、角色分析和基于置换的统计分析等分析工具[2]。例如,图2给出了利用层次聚类法得到的词汇网络中的词汇聚类结果,词汇聚类结果有助于用户得到相关性较高的词汇簇,在检索应用中,可利用相关词汇依次查找,提高查全率。

4 结语

本文提出了一种建立共现词汇网络的方法,分析了词汇网络所具有社会化网络特征,然后利用复杂网络可视化工具UCINET对词汇共现网络进行可视化研究,从可视化网络图中获取词汇聚类的涌现。由于本文主要工作是实验性的考察该方法的可行性,因此文中所选数据量较小,下一步的工作主要集中在数据的收集和整理,选择3 000个以“篇”为单位的窗口,以此得到更精确的词汇聚类。

[1]克劳斯.迈因策尔.复杂性中的思维[M].北京:中央编译出版社,2000.

[2]约翰.斯科特著,刘军译.社会网络分析法[M].重庆:重庆大学出版社,2007.

G203

A

1671-0037(2014)10-74-2

周拴龙(1964-),男,硕士,副教授,研究方向:复杂网络、数字图书馆。

猜你喜欢
网络图权值语义
真实场景水下语义分割方法及数据集
一种融合时间权值和用户行为序列的电影推荐模型
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
一种基于互连测试的综合优化算法∗
程序属性的检测与程序属性的分类
网络图的计算机算法研究
课堂教学难点突破策略探究
“吃+NP”的语义生成机制研究
控制算法理论及网络图计算机算法显示研究
叙事文的写作方法