基于显露模式挖掘的反恐情报分类对比分析

2020-08-13 07:24李勇男
现代情报 2020年5期
关键词:数据挖掘边界

摘 要:[目的/意义]利用显露模式挖掘对不同类别的涉恐情报数据集进行分析,可以发现那些对反恐工作有参考价值的差异信息。[方法/过程]根据反恐工作的需求和显露模式的特点,通过修改经典方法中的数据预处理、目标事务集生成、最大边界压缩、非交集属性特征分离等步骤,使其更适用于反恐情报的快速分析。[结果/结论]在频繁项集挖掘的基础上,显露模式可以发现一些反恐情报的多组属性聚合规律用于分类,更快速的为反恐预警提供数据参考。

关键词:反恐情报;数据挖掘;显露模式;边界

DOI:10.3969/j.issn.1008-0821.2020.05.004

〔中图分类号〕G259;D631 〔文献标识码〕A 〔文章编号〕1008-0821(2020)05-0027-06

Research on Contrastive Classification of Counter Terrorism

Intelligence Based on Application of Emerging Pattern

Li Yongnan

(Peoples Public Security University of China,Beijing 100038,China)

Abstract:[Purpose/Significance]It offered valuable intelligence with remarkable difference for counter terrorism to analyze terror related data sets in different categories using emerging pattern mining.[Method/Process]According to the needs and characteristics of data mining system of counter terrorism,several steps in the classical method were modified such as data preprocessing,generation of objective transactions,compression of Largeborder and stripping attributes of non-intersection,so as to make it more adaptable to the needs of intelligence analysis.[Result/Conclusion]On the basis of mining frequent itemsets,emerging pattern could find the merging rules of multiple attributes to provide data references for early warning of counter terrorism.

Key words:counter terrorism intelligence;data mining;emerging pattern;border

近年来,受到暴力恐怖势力、民族分裂势力、宗教极端势力等“三股势力”影响,我国发生了多起暴力恐怖袭击事件,造成了一定的社会影响,对国家安全风险防范能力提出了挑战。为有效打击恐怖主义活动,我国自2016年1月1日起施行《中华人民共和国反恐怖主義法》[1]。充分发挥情报的引领作用是提升反恐工作能力的重要环节[2]。大数据时代的到来使得各种犯罪的打击模式发生了巨大变化,利用大数据技术挖掘涉恐情报信息,进而实现全景反恐和预测反恐是时代的必然选择。

利用数据挖掘技术对海量涉恐数据进行分析,发现涉恐情报信息服务于反恐预警,优化反恐资源配置已经是一种较为普遍的反恐手段[3]。在反恐数据挖掘中,反恐情报分类分析是其中一种重要的方法类别。较为常用的分类方法包括决策树分类、朴素贝叶斯分类、神经网络分类、K-近邻分类、基于关联规则的分类、支持向量机分类等。此外,有一类用于发现不同数据集规律变化的模式挖掘方法即显露模式挖掘也可以用于数据集分类。每一种分类方法都有其较为适用的样本集和应用场景,它们彼此之间可以相互补充和借鉴。

目前,国内外已经有了一些利用决策树、贝叶斯以及神经网络等方法研究反恐情报分类的研究,但是还没有发现研究显露模式在反恐情报分析中应用的文献。在中国知网、万方等中文文献数据库中,以“显露模式”和“反恐”为关键词检索发现没有相关的文献。在谷歌学术搜索中,以“Emerging Pattern”和“Counter Terrorism”为关键词检索,包含关键词的只有2篇文献,分别是关于自适应复杂网络分析[4]和反恐预测模型[5]方向。在这两篇文献中,“Emerging Pattern”是表示“恐怖活动的伤亡率在上升”或“一种未出现的模型”,与本文的定义并不相同。而关于反恐情报分类分析的文献主要包括基于余弦距离的分类[6]、决策树分类[7]、贝叶斯分类[8-9]、支持向量机分类[10]、神经网络分类[11]等。利用显露模式对反恐情报进行分析,可以聚合多个模式同时考虑多组属性进行分类,提高分类的准确率,是对反恐情报分类分析的一种有益的补充。本文将根据我国反恐情报数据的特点研究显露模式挖掘在反恐情报分析中的应用。

1 显露模式挖掘

1.1 对比模式和显露模式简介

对比模式是指“能够描述两类或多类样本中的对比信息”,主要用于识别不同类别样本数据集中的数据特征[12]。对比模式挖掘是指在一定的约束条件下发现这些对比特征的过程,发现的特征用模式表示[13]。对比模式挖掘目前主要用于电力供应预测分析、基因组检测分析、网络社区分析、文本和图像分类以及商业领域的购物篮商品频繁项集对比分析。

常用的对比模式挖掘方法包括显露模式挖掘[14]、最小区分子序列挖掘[15]、具有间隙约束的序列模式挖掘[16]、带有间隔约束的Top-k对比模式挖掘[17]等。其中显露模式是最基础也是最常用的一种对比模式。显露模式的支持度在不同数据集分类之间有明显差异,经常与其他的挖掘方法组合进行集成挖掘。这种模式能够发现不同数据集之间的支持度显著变化,很好的实现多组属性之间的分类效果。因其具有良好的区分能力,同时较容易在线性时间内被挖掘出来[18],非常适合捕捉目标类和非目标类上多组属性的差异,尤其适合“布尔型”数据的分类。例如区分一组人员“是”或“不是”涉恐人员,所以显露模式的挖掘方法对反恐情报分析非常有借鉴意义。本文将研究显露模式挖掘在反恐情报分析中的应用。

1.2 显露模式的基本概念

显露模式是指那些从数据集D′到数据集D的支持度发生很大变化的项集X,X可以捕捉到目标类以及非目标类在多个属性之间的区别。本文用到的关于显露模式的基本概念如下[19]:

1)支持度:表示项集X在样本数据集中的计数与总样本计数的比值,本文中主要用到项集X在类C中的支持度,形如Supc(X)=Countc(X)|C|,支持度可以表示显露模式在对应数据集中的覆盖范围。

2)增长率:用来描述两个数据集D′和D支持度的差异,形如GR(X,D′,D)。其定义有3种不同的情况:当SupD′(X)=SupD(X)=0时,GR(X,D′,D)=0;当SupD′(X)=0且SupD(X)≠0,GR(X,D′,D)=∞;否则,GR(X,D′,D)=SupD(X)/SupD′(X)。增长率能够表示项集X支持度改变的程度,可以反映出显露模式的区分能力。

3)增长率阈值:定义为ρ>1,用于筛选显露模式。

4)显露模式:如果项集X从数据集D′到D的增长率GR(X,D′,D)≥ρ,则称X是从数据集D′到D的显露模式,能够有效捕捉数据集之间的显著差异。

5)边界Border:形如〈L,R〉,符号L和R都是项集的集合,其中集合L表示左边界,集合R表示右边界,左边界集合L中的所有元素是右边界集合R中元素的子集,R中的元素是L中元素的超集。边界的概念是用于在挖掘流程中表示集合的最小和最大集合构成的区间,显然每一个样本数据集都可以表示为边界的形式,L为最短项集集合,R为最长项集集合。

6)最大边界LargeBorder:给定一个正数α,所有支持度大于或者等于α的项集的集合表示为Largeα(X),Largeα(X)的边界即为最大边界LargeBorderα(X),其左边界集合为空集,右边界集合为最长模式集。这一概念在显露模式挖掘中作为参数使用。

1.3 显露模式挖掘经典方法的流程

显露模式挖掘的经典方法是使用HORIZON-MINER方法和MBD_LLBORDER方法组合来发现显露模式,其基本流程可描述如下[20]:

1)收集基础样本数据集,完成数据预处理,并将连续属性进行离散化处理,得到两组数据分别可以对应某个二元属性的类别,例如显露模式挖掘中的经典例子“毒蘑菇类”和“可食用蘑菇类”。

2)输入支持度的阈值参数θ<1,增长率阈值参数ρ>1,计算另一个支持度阈值参数δ=θ/ρ。

3)根据支持度阈值筛选得到两组事务集T={T1,T2,…,Tn}和S={S1,S2,…,Sm}。

4)利用HORIZON-MINER方法分别得到两组样本集的最大边界LargeBorderθ(T)和LargeBorderθ(S)。

5)将以上两个最大边界参数作为输入参数利用MBD_LLBORDER方法找出所有在T中支持度大于或者等于阈值θ,且在S中支持度小于或者等于δ的项集集合,输出一组边界〈Li,Ri〉(i=1,…,k)即为满足条件(增长率大于ρ)的显露模式集合。在MBD_LLBORDER的执行过程中需要循环调用BORDER-DIFF方法来获取目标事务集和非目标事务集的笛卡尔积。

6)输出这组边界的集合即为显露模式集作为分类区分标准。

2 反恐情报中的显露模式挖掘分析

2.1 反恐情报分析中对显露模式经典方法的修改

显露模式应用于反恐情报分析,本质上是在样本数据集中找出一组属性特征值組合,可以在增量数据中发现明显的涉恐人员数据,或者排除明显的非涉恐人员数据。为了提高筛选重点人员的效率,宜采用快速找出涉恐人员的方式,即将涉恐人员数据作为目标类,非涉恐人员数据作为非目标类。对于经典方法的修改主要体现在第一、三、四、五步。

1)第一步数据预处理的修改。在实际的反恐情报分析工作中,已经可以根据统计方法或者其他数据挖掘方法掌握一些非常明显的涉恐属性特征,这些涉恐属性特征可以直接作为已知量用于筛选数据,这样可以大量压缩无关数据,提高反恐情报分析的效率。例如,根据国家网信办2014年的报告,我国的恐怖分子几乎都观看或收听过暴恐音频及视频[21]。因此,在数据预处理时,所有的数据都可以利用已知的这类属性特征进一步压缩样本事务集,提高分析效率。在《识别宗教极端活动(75种具体表现)基础知识》[22]、两高两部于2018年5月印发的《关于办理恐怖活动和极端主义犯罪案件适用法律若干问题的意见》、2018年10月9日发布的“新疆维吾尔自治区实施《中华人民共和国反恐怖主义法》办法”[23]、2019年3月发布的《新疆的反恐、去极端化斗争与人权保障》白皮书[24]等文献中还包含了大量的这类已知属性特征可以用于压缩数据量。此外,这些已知涉恐特征项还可以用于在第五步中分离目标类和非目标类的非交集特征数据。

2)第三步目标事务集生成的修改。反恐情报的数据挖掘分析是一个综合的方法体系,各种方法互为补充才能覆盖更多的情报信息,其中的关联分析中包括频繁项集挖掘、强关联规则挖掘、频繁子图挖掘[25]、频繁序列模式挖掘、频繁轨迹模式挖掘等。海量数据中的涉恐人员特征是相对固定的,显露模式挖掘可以在频繁项集挖掘的基础上进行,即第三步在生成涉恐人员组别的频繁项集时,直接引用已知的多种高支持度频繁项集作为目标类别事务集,提高反恐情报分析的效率,高支持度(例如可取阈值β>90%)的频繁项集则可以在关联分析时利用频繁模式树[26]或者先验原理[27]获得。考虑第四步分析过程的便利,在原始涉恐数据获取高支持度频繁项集时宜采用先验原理。

3)第四步中目标事务集最大边界LargeBorder挖掘的修改。在第四步HORIZON-MINER方法的最大边界LargeBorder挖掘中,其要实现的功能就是将事务集中所有是其他项集子集的项集删除掉,只保留全部的最大项集,产生最大边界LargeBorder的右边界集合。在利用先验原理挖掘涉恐活动特征频繁项集的过程中,所有的(k+1)-项集(k>0)都是由两个k-项集合并得到的,为了显露模式挖掘的便利性,可以在这一步直接单独存储一组LargeBorder项集集合,即每生成一个频繁(k+1)-项集,则将其对应的频繁k-项集从LargeBorder项集集合中删除,这样仅在关联分析时增加了很小的存储开销,第四步中只需要对非涉恐人员的事务集进行最大边界LargeBorder挖掘。

4)第五步中挖掘显露模式方式的修改。在循环调用BORDER-DIFF时,需要不断计算目标事务集和非目标事务集的笛卡尔积,不同于一般的显露模式挖掘过程,在反恐情报分析中涉恐人员数据和非涉恐人员数据的属性特征只在一部分特征上会有交集,而另一部分特征是几乎没有交集的。无交集的特征例如涉恐人员穿极端化服饰,非涉恐人员不穿极端化服饰;有交集的特征例如身高、收入、职业等属性的不同值。因此可以根据反恐情报分析的经验,提前将一部分无交集的属性特征分离出来,进一步减少数据量,在使用MBD_LLBORDER方法挖掘显露模式的过程中只考虑那些可能有交集的属性特征。而那些非交集属性特征是我们已掌握的先验知识,无需再通过显露模式挖掘来获取。

2.2 基于显露模式挖掘的反恐情报对比分析流程

综上所述,如图1所示,本文设计的反恐情报分析中的显露模式挖掘流程如下:

1)收集涉恐基础数据集,除了完成常规的数据预处理[28],还利用一些已知统计数据或者相关文献中的确定性属性特征进一步压缩数据量,最后将这些数据集分为涉恐人员数据和非涉恐人员数据两组。

2)设定频繁项集支持度的阈值参数θ<1(要求满足小于已知涉恐人员事务集的高支持度阈值β),增长率阈值参数ρ>1,计算另一个阈值参数δ=θ/ρ。

图1 基于显露模式挖掘的反恐情报对比分析流程

3)涉恐人员的事务集T={T1,T2,…,Tn}为已知量直接在完成频繁项集挖掘分析后从数据库中提取,而非涉恐人员的事务集S={S1,S2,…,Sm}则以δ=θ/ρ为最小支持度阈值为条件专门进行一轮挖掘提取。

4)LargeBorderθ(T)为已知量,利用HORIZON-MINER方法分别得到非涉恐人员的最大边界项集集合LargeBorderθ(S)。

5)分离目标事务集和非目标事务集中的非交集属性。将分离后的两个最大边界T′和S′作为输入参数利用MBD_LLBORDER方法找出所有在T′中支持度大于或者等于阈值θ,且在S′中支持度小于或者等于δ的项集集合。MBD_LLBORDER方法输出最后的一组边界〈L′i,R′i〉(i=1,…,k)即为满足条件的显露模式集合。

6)输出这组边界的集合即为显露模式集作为反恐情报分类区分标准。

3 反恐情报中的显露模式挖掘示例

本文的主要贡献在于修改了显露模式挖掘经典方法中的数据预处理、目标事务集生成、最大边界压缩、非交集属性特征分离等步骤。其中数据预处理主要利用先验知识压缩数据,较为简单无需进一步描述,本节将以示例详细描述其他修改的步骤。对于其他未修改步骤感兴趣的读者可参阅本文引用的相关文献。

3.1 第三步目标事务集的获取及第四步最大边界压缩示例

在反恐情报的关联分析中,以大于显露模式挖掘目标事务集支持度阈值θ的一个较高的阈值β为参数,利用先验原理挖掘目标事务集。在挖掘过程中,直接利用其特點获取所有满足条件的最大边界LargeBorder,则第四步只需考虑非目标事务集的最大边界LargeBorder即可。

笔者在前期工作中已经研究了利用先验原理进行反恐情报频繁项集挖掘的详细流程[27],本节仅说明如何通过这一过程直接获取涉恐人员事务集最大边界LargeBorder的结果。在生成频繁项集集合的过程中,维护一个涉恐人员事务集最大边界LargeBorder右界集合。以生成频繁4-项集为例,必须由两个满足条件的频繁3-项集生成,且这两个频繁3-项集的前两个项必须相同。例如频繁3-项集{观看暴恐视频,私制炸药,囤积刀具}和{观看暴恐视频,私制炸药,囤积高压锅},合并后为候选4-项集{观看暴恐视频,私制炸药,囤积刀具,囤积高压锅},如果该候选4-项集不满足条件则删除,最大边界LargeBorder右界集合不变;如果满足条件则其为频繁4-项集,此时在最大边界LargeBorder右界集合中仅保留该频繁4-项集,生成它的两个频繁3-项集属于其子集从右界集合中删除。

理论上讲,非目标事务集即非涉恐人员事务集也可以通过这种方式获取最大边界LargeBorder的结果。但是在其他反恐情报关联分析中,一般无需挖掘非涉恐人员数据的频繁项集,显然无法在其他反恐情报挖掘分析方法的基础上直接获取基础数据,因此仍然按照显露模式经典方法中的流程进行。

3.2 第五步MBD_LLBORDER方法交集参数的分离示例

如前文所述,根据反恐情报分析的经验已知涉恐人员与非涉恐人员数据之间有部分特征是几乎没有交集的,为减少MBD_LLBORDER方法的开销,这部分无交集数据直接不输入MBD_LLBORDER方法参与运算。在挖掘出的显露模式集合中,也只需要我们之前不知道的属性特征集组合作为其他分类方法的补充。例如,目标事务集即涉恐人员事务集T的右边界集合为{T1{使用极端化标志饰品,观看极端化书籍,职业为小商贩,教育程度为高中},T2{使用极端化标志饰品,教育程度为高中,中产阶级,青年},T3{使用极端化标志饰品,观看极端化书籍,身高偏高,城市居民,购买管制刀具}};而非涉恐人员事务集S的右边界集合为{S1{中产阶级,名下有机动车,抵制暴恐音视频,无神论者},S2{身高偏高,购买管制刀具,抵制暴恐音视频,无神论者}}。已知“使用极端化标志饰品”、“观看极端化书籍”为涉恐人员专有的属性特征,“抵制暴恐音视频”、“无神论者”为非涉恐人员专有的属性特征。则在第五步开始前,首先将这些专有属性特征即非交集属性特征分离,目标事务集T′右边界集合为{T′1{职业为小商贩,教育程度为高中},T′2{教育程度为高中,中产阶级,青年},T′3{身高偏高,城市居民,购买管制刀具}};非目标人员事务集S′右边界集合为{S′1{中产阶级,名下有机动车},S′2{身高偏高,购买管制刀具}}。

3.3 分离非交集特征后的显露模式分类示例

在获取显露模式后,即可直接利用相关事务集对增量数据进行分类。类似决策树分类、朴素贝叶斯分类、最近邻分类等方法在反恐情报分类建模完成后,对增量人员数据进行分类时仍然需要多个步骤的对比或者计算,而使用显露模式则可以直接利用显露模式一步式判断是否属于目标类。例如,如果挖掘出的事务集X{购买管制刀具,身高偏高,体重偏重}满足显露模式的条件,虽然其中没有包含那些已知的明显涉恐的项,但是根据挖掘结果,只要某条待分类的增量人员数据实例中包含该显露模式X,则仍然可以判断这名人员有很大可能属于涉恐人员。

4 结 语

本文研究了显露模式挖掘在反恐情报分类对比分析中的应用。显露模式可以发现那些两组对立数据集(即某一布尔型属性值相异的两组数据集)之间支持度变化比较大的项集,这些项集的集合非常有利于涉恐情报数据的分类,可以建立比较精确的分类器,进而根据分类结果优化反恐资源配置,提高反恐工作的針对性和成效。本文根据我国反恐情报数据的特点,对经典显露模式挖掘方法中的数据预处理、目标事务集生成、最大边界压缩、非交集属性特征分离等步骤进行了修改,使其更适用于反恐情报数据的对比分析,该方法与笔者前期研究的其他反恐情报分类方法可以相互补充,期望本文的工作可以为反恐情报海量数据的分类分析提供一定的参考。

参考文献

[1]中华人民共和国反恐怖主义法[N].人民日报, 2015-12-28,(7).

[2]张晓多.廉长刚——以情报主导反恐 提升反恐处突实战水平[J].警察技术,2016,(6):22-24.

[3]莫豪文.数据挖掘方法在反恐预警中的应用[D].北京:北京工业大学,2017.

[4]Fellman P V,Wright R.Modeling Terrorist Networks,Complex Systems at the Mid-range[J].arXiv Preprint arXiv:1405.6989,2014.

[5]Lazaroff M,Snowden D.Anticipatory Models for Counter-Terrorism[M].Emergent Information Technologies and Enabling Policies for Counter-Terrorism,2005:51-73.

[6]郭璇,吴文辉,肖治庭,等.基于深度学习和公开来源信息的反恐情报挖掘[J].情报理论与实践,2017,40(9):135-139.

[7]李勇男.信息增益决策树在反恐情报分析中的应用研究[J].情报科学,2018,36(4):80-84.

[8]Singh S,Verma S,Tiwari A,et al.A Novel Way to Classify Passenger Data Using Nave Bayes Algorithm(A Real Time Anti-terrorism Approach)[C]//Next Generation Computing Technologies(NGCT),2016 2nd International Conference on.IEEE,2016:312-316.

[9]李勇男.贝叶斯理论在反恐情报分类分析中的应用研究[J].数据分析与知识发现,2018,2(10):9-14.

[10]Agarwal S,Sureka A.Using Knn and Svm Based One-class Classifier for Detecting Online Radicalization on Twitter[C]//International Conference on Distributed Computing and Internet Technology.Springer,Cham,2015:431-442.

[11]Ahmadi N,Akbarizadeh G.Hybrid Robust Iris Recognition Approach Using Iris Image Pre-processing,Two-dimensional Gabor Features and Multi-layer Perceptron Neural Network/PSO[J].IET Biometrics,2017,7(2):153-162.

[12]魏芹双.对比模式挖掘研究进展[J].网络安全技术与应用,2017,(1):44,46.

[13]李安亞,王少妮.对比模式挖掘研究进展[J].科研信息化技术与应用,2017,8(5):66-73.

[14]段磊,唐常杰,杨宁,等.基于显露模式的对比挖掘研究及应用进展[J].计算机应用,2012,32(2):304-308.

[15]Ji X,Bailey J,Dong G.Mining Minimal Distinguishing Subsequence Patterns with Gap Constraints[J].Knowledge & Information Systems,2007,11(3):259-286.

[16]Wang X,Duan L,Dong G,et al.Efficient Mining of Density-Aware Distinguishing Sequential Patterns with Gap Constraints[J].2014,8421:372-387.

[17]杨皓,段磊,胡斌,等.带间隔约束的Top-k对比序列模式挖掘[J].软件学报,2015,26(11):2994-3009.

[18]张丽.基于Boosting技术的显露模式集成分类算法[D].长沙:湖南大学,2011.

[19]张维.共享显露模式的挖掘算法研究[D].长沙:湖南大学,2013.

[20]魏芳.基本显露模式的挖掘算法[D].郑州:郑州大学,2005.

[21]李休休.社交媒体上的恐怖活动研究[D].上海:华东政法大学,2016.

[22]新疆统一战线.识别宗教极端活动(75种具体表现)基础知识[EB/OL].http://www.xjtzb.gov.cn/2017-06/19/c_1121167461.htm,2019-03-18.

[23]新疆维吾尔自治区实施《中华人民共和国反恐怖主义法》办法[N].新疆日报(汉),2018-10-10,(5).

[24]《新疆的反恐、去极端化斗争与人权保障》白皮书[J].中国宗教,2019,(3):12-19.

[25]李勇男.基于子图模式的反恐情报关联图集分析[J].现代情报,2019,39(7):37-43.

[26]李勇男,梅建明.基于频繁模式树的涉恐情报关联分析[J].情报科学,2017,35(9):141-145,152.

[27]李勇男,梅建明.先验原理在涉恐情报分析中的应用研究[J].情报杂志,2017,36(8):23-26.

[28]李勇男,梅建明,秦广军.反恐情报分析中的数据预处理研究[J].情报科学,2017,35(11):103-107,113.

(责任编辑:陈 媛)

猜你喜欢
数据挖掘边界
拓展阅读的边界
探索太阳系的边界
意大利边界穿越之家
论中立的帮助行为之可罚边界
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
“伪翻译”:“翻译”之边界行走者
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究
思考新边界