复杂网络下赣南客家群体演化建模综述

2020-04-09 04:06丁彩英邵爱玲张亚睿刘松华
关键词:赣南建模群体

丁彩英, 邵爱玲, 张亚睿, 刘松华

(太原理工大学 信息与计算机学院, 山西 晋中 030600)

《赣南苏区振兴若干意见》中提出将赣南建设为红色文化传承创新区,加强革命遗址保护和利用,推动红色文化发展创新,提升苏区精神和红色文化影响力,建立全国爱国主义教育和革命传统教育基地,打造全国著名的红色旅游目的地.

赣南客家群体作为一类特殊的复杂系统可抽象为复杂网络,类比于社交网络、生物网络、科学家协作网和万维网等.因此,网络科学的普适性使得用网络来建模并研究赣南客家群体的功能和性质成为可能.

目前,复杂网络研究在社会经济生活和管理创新、国家战略安全等各方面都有广泛的需求和众多应用领域.如范如国等[1]探究了新冠传播模型及拐点预测方面的工作,钟南山团队分析了新冠病毒与封城措施之间的关系[2].这类研究有助于了解商业、人口和通讯等各方面的联系,特别对流行病的监控和预防能起到非常重要的作用.

在经济、社会安全等方面,介飞等[3]对社会网络事件的检测方法能加强舆情管控、商业决策、观点搜索和信息预测等应用的准确度,特别是隐式事件识别方面的准确度.其他方面,如生物网络[4]、航班风险[5]预测等方面的研究对国家战略安全都具有重要意义.

上述网络中各类问题都可以归结为群体演化,因此成为当前复杂网络研究的热点之一.探究群体拓扑结构、个体之间的关联及动态演化机制,综合利用各类网络技术,及时分析各种潜在的社会、经济、文化和生物学等问题,并评估各类政策的实施效应,都能为社会提供强有力的技术保障,具有重要的理论意义和战略意义.

1 研究对象及其特点

考虑到客家网、Facebook、DBLP、腾讯微博和新浪微博等在线网络,直接运用传统文献、社会学和历史学等方法无法有效定量研究,而运用复杂网络、数据挖掘等主流技术对其进行直接建模是很困难的,主要原因在于数据本身具有的特性.

1.1 网络结构数据稀疏性和高噪声

网络中节点之间的结构一般用邻接矩阵来表示.然而当节点激增时,大部分节点之间没有连接,呈现较高的稀疏特性.这在一定程度上给群体演化建模带来了问题,已有的边是否是真实存在的,没有的边是否是丢失的,这种情况下传统群体检测算法无法有效地对节点进行聚类或分类,进一步考虑其动态演化的时候不能提供有效的时间维度的参考信息.

噪声表现在当节点或个体没有及时更新或随着时间推移添加了新的类别,导致简介信息陈旧;或出于隐私保护故意忽略或扭曲自己的信息;也可能仅是为了娱乐熟悉的人而列出错误的信息.如疾病网络中,基因检测受仪器、环境影响,疾病检测受技术和知识等影响会导致大量无效信息出现.这些情况是普遍存在的,机器学习领域称为噪声.

1.2 网络节点和边属性多样性

节点和边的属性表现形式多样化,有人口统计学类型(包含年龄、性别、地理位置、籍贯和现住地等)、政治面貌或宗教信仰、描述兴趣、爱好和关系、迁移路径,以及其他能捕获个体偏好或行为的各种属性.针对赣南客家群体还有地理环境、文化传统和迁移意愿等特有属性.这些属性通常出现在网络中用户的简介中(如微博或Facebook),或者依附于网络中其他对象(图片或者视频等,如YouTube或客家网).

多样性导致了相似的网络结构,按传统的聚类或分类方法可能产生不同的群体,也进一步促进了链路预测方面的发展[6].在不同群体之间节点如何映射,缺失节点如何预测等都是本领域的挑战问题.

1.3 网络隐含动态特性

考虑客家网、Facebook,其中个体或节点会选择输入一系列人口统计学信息到其简介中.两个个体可能通过相互交互将对方列(list)为自己的朋友、发送消息、发帖和聊天等.赣南客家群体中某些个体随着迁移会从原有群体中删除并加入新群体,对应于复杂网络,随着时间推移会出现节点的增减、边的增减.其他如传染病网络中,病毒的出现、扩散、激活和消亡等各种动态特性在一定程度上加剧了感染区域预测的难度[7],

综上所述,研究对象本身的特点对客家群体或其他群体演化建模提出了巨大的挑战.

2 传统手段及其交叉领域综述

目前,客家群体的研究已有大量研究成果,按照研究手段划分为三类[8]:传统文化研究、传统交叉研究和新兴交叉研究.

(1)传统文化研究:包括考古学[9]、历史学[10]、社会学[11-12]等方面,主要通过历史文献查找、分析与比较,研究其具体特征及反映的社会形态,探求历史上特定群体起源、发展、变迁的过程或者某一时代的历史特征.常用来解读特定的社会现象,这方面的定性研究为本项目提供了详实的数据资料和可参考的结果.

(2)传统交叉研究:包括建筑学[13]、地理学[14]、生态学[15]和人类学[16]等方面,主要从技术的理论与方法角度论述特定群体的结构、功能及演替过程,对房屋形式、群体居住位置、规模及分类等进行研究,对宗教、信仰、婚姻和生计等因素进行讨论,揭示区域背景下的文化特质,以及从遗传学角度分析客家群体的起源和发展.这方面的研究为本项目提供了重要参考技术和理论依据,有助于项目中特定情境下分析结果的验证.

(3)新兴交叉研究:包括计算机、物理和社会学科等领域的交叉,主要利用机器学习、复杂网络和地理信息系统(GIS)等技术去挖掘上述传统研究中需要定量处理的指标.

因此,传统的文化及交叉领域仍然需要从上述角度对赣南客家群体演化进行分析,为我国各省市红色文化传播提供辅助参考及政策支持.

3 新兴交叉领域综述

以传统地理信息系统(GIS)技术为基础,结合聚类等方法进行赣南客家[17]或其他群体[18]分析研究.本文以上述工作为基础,结合复杂网络、机器学习方面的技术,从群体智慧[19]角度对赣南客家群体研究进行综述,简便起见,本文统一群落、社区等不同学名为群体,并给出定义.相关研究进展从拓扑结构、属性和动态特征等三方面展开.

3.1 拓扑结构

传统群体定义为群体内节点有较多边,而群体间边较少,见图1.根据相应结构的复杂性,大致分为如下三类:

图1 不同拓扑结构Fig.1 Different topology structures

(1)简单结构,见图1(a),典型工作是基于模块度的群体检测算法,然而该算法有分辨率限制问题.针对该问题,Li等[20]提出了模块密度,Gong等[21]提出了文化基因算法.

(2)重叠结构,见图1(b),第一类方法无法处理重叠群体问题,因此,刘世超等[22]提出标签传播概率法,Yang等[23]提出非负矩阵分解方法,Zhang等[24]提出对称二元非负矩阵分解法.

(3)层次结构,见图1(c),典型工作是检测重叠和层次群体方法[25].

传统基于拓扑信息的群体检测算法可以归结为图2所示的框架:

图2 传统基于非负矩阵分解的利用拓扑结构进行群体检测算法框架[24]Fig.2 Population detection frameworks based on traditional NMF using topology structure[24]

优势:这类算法在有明显群体结构的网络中效果较好,如群体内连接远大于群体间连接.

局限:单纯使用拓扑结构通常不能完整和精确检测群体结构,原因如下:

(1)由于网络结构的复杂性,如重叠结构(图1(b))或层次结构(图1(c)),适用于简单结构的方法不能有效检测群体;

(2)由于拓扑信息的稀疏性,很难精确检测群体结构.如群体内和群体外边的不同数目存在一个相位转移(Phase transition)的阈值,在该阈值之下,几乎不可能检测到群体.

3.2 属性

传统算法仅使用结构信息无法有效挖掘网络信息.近年来,国内外学者逐渐意识到结合其他信息能有效辅助群体检测[26],这方面分为三类:

(1)利用节点属性:Yang等[27]和Zhang等[28]使用拓扑结构和节点特征及属性进行群体检测.

(2)利用边属性:Qi等[29]提出使用边的属性或内容进行群体检测.

(3)结合节点、边属性和其他先验知识:Zhang[30]提出结合背景信息,Wang等[31]提出利用部分已有类别信息,Yang等[32]提出半监督群体检测方法,Jin等[33]提出将节点和连接划分法结合找重叠群体的方法,丁彩英等[34]和Liu等[35-36]从多视角提出了半监督社区检测及节点聚类和分类的算法.

结合先验知识的群体检测算法可归结为图3所示框架.

图3 结合拓扑结构和先验知识的群体检测算法框架[32]Fig.3 Population detection frameworks integrating topology and prior information[32]

优势:这类算法在有重叠、层次结构的时候效果较好.

局限:仅使用部分先验知识,没有完全利用所有信息,特别是各种不同类型的先验知识或在群体检测过程中可能产生的各种有用信息.

3.3 动态特性

动态特征能反映网络演化机理(图4),但没有考虑上下文环境[37-38],因此难以建模.目前对群体的形成、演化和消亡的分析仍处在起步阶段[39],这方面分三类:

(1)对模块、噪声和时间等挖掘:如Gong等[40]提出的多目标免疫算法,Chen等[41]提出的基于模块矩阵的方法,Wang等[42]提出的容忍噪声方法,吴平杰等[43]提出的连续时间序列建模法.

(2)采用增量方式:如Sun等[44]、陈羽中等[45]和Shang等[46]给出的增量式方法.

(3)对迁移、同化等方面进行演化分析:如封晨洁等[37]对群体迁移的研究,许宇光等[47]基于个体稳定度博弈理论的方法,朱恩强等[48]的影响最大化算法,Zhang等[49]提出的群体演化来去模式.

群体演化分析可归结为图4所示框架.

图4 群体演化过程示意图[46]Fig.4 Schematic diagram of population evolution[46]

优势:能从不同层面对演化过程进行建模.

局限:仅考虑部分信息,可能会忽略属性等先验知识中的重要特征,且多数算法没有考虑上下文环境,因此,需要设计新的群体演化算法.

综上,前述算法在各自领域都取得了相对较好的效果,但存在相应的局限性.仅靠拓扑结构无法有效挖掘群体,结合节点和边属性后虽然能有效提升算法性能,但缺乏统一的框架将所有先验知识无缝结合起来.而动态群体演化处于起步阶段,如何将动态特征结合到传统算法中是目前的主要难点之一.另外,对赣南客家群体研究大多基于当下资料的考察,缺乏连续性的历史演变追踪,无法有效地对群落的内在生成与发展机制进行分析.

4 未来研究方向

4.1 传统手段及其交叉领域研究方向

客家人是由于历史原因形成的汉民族支系,是我国历史上人口由北向南流动的结果,迁移过程的特点是地域范围广、人数众多和具有阶段性.客家群体具有独特的文化特征,是对环境复杂适应性的体现,各种先验知识在这类群体数据中的比重越来越大,在演化建模中的作用也越来越重要.传统的赣南客家群体分析可以在以下方向进行后续研究:

(1)建立客家人迁徙大型数据库系统,结合时间和空间特点,动态演示客家人迁徙的古往今来.基于此,建立国内各种类型的人群聚集和迁徙动态数据库,可以有效地结合地理信息系统等技术.

(2)从政治学等角度分析特定历史时期发生的各种社会现象,并与特定人群的迁徙关联,分析人群迁徙对社会产生的各种影响.

(3)从经济学等角度分析各类人群迁徙对经济产生的各种效果,分析各类政策实施对人群迁徙产生的反作用,如客家群体、上学和就业等各类群体.

(4)从文化学等角度探究群体迁徙对当地社会文化的影响,分析当地文化对迁徙群体潜移默化的作用,为文化传播提供理论依据.

4.2 新兴交叉学科研究方向

传统群体分析由于专业限制原因,在对应的领域取得了大量优秀成果.但随着新兴技术的兴起,各种新的研究方式层出不穷,为群体分析带来了各种新的思维:

(1)将群体迁徙等过程建模为演化模型,考虑演化过程中的事件、环境和文化等各类因素,从定性分析转化为定量分析.

(2)考虑主体之间、主体与环境之间持续互动、作用累积而引发的深层次动态过程,兼具事件和空间尺度.

(3)随着群体分析呈现大数据特性,需引入复杂网络和深度学习等理论,从不同角度分析和挖掘各类群体的演化特点,为施政提供理论依据和技术支持.

5 结束语

本文对赣南客家群体演化建模进行了综述,从传统的社会学、人文学等学科及与建筑学等其他学科交叉方面的研究到与人工智能、机器学习等计算机领域进行交叉,总结并分析了各学科目前对赣南群体的分析进展.并简单给出了传统学科以及新兴学科在赣南群体乃至全国其他各类型群体演化建模方面的进一步工作方向,力求能在此综述的基础上为各学科研究该类型课题提供可借鉴的思路和方法.同时本文有必要指出,在当前大数据的驱使下,各类型资源如何整合,给出一个统一的规范,并产生符合规范的数据便于各学科学者进行研究,应该是当前该行业亟需解决的关键问题之一.

猜你喜欢
赣南建模群体
赣南采茶戏《一个人的长征》简介
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
通过自然感染获得群体免疫有多可怕
“群体失语”需要警惕——“为官不言”也是腐败
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
赣南脐橙整形修剪技术
赣南早脐橙在几种中间砧木上高接换种的表现
永远的歌谣(赣南采茶歌舞剧)
三元组辐射场的建模与仿真