基于多源数据的城市犯罪风险知识图谱研究

2022-07-20 02:29胡啸峰

中国人民公安大学学报（自然科学版） 2022年1期

蒋耀，胡啸峰,2

(1.中国人民公安大学信息网络安全学院，北京 100038； 2.安全防范技术与风险评估公安部重点实验室，北京 102623)

0 引言

影响城市犯罪的风险要素十分复杂，大量研究从不同方面进行了分析。屈茂辉等[1]研究发现社会经济要素与财产类犯罪具有长期协同关系，其中社会失业率和通货膨胀水平对财产类犯罪数量的影响较为显著；Shen等[2]研究了温度、湿度、降雨量等不同气候变量与犯罪率之间的相关性。除了宏观社会经济和自然气候要素外，物质空间环境要素对犯罪同样起到重要影响[3]。风险设施(Risky Facilities)指对促进、吸引犯罪具有明显作用的空间环境设施[4]，已有研究分析了城市中的宾馆酒店、娱乐场所、交通站点等风险设施对犯罪的影响[5-6]。此外，城市的步行环境、用地类型同样与犯罪存在密切联系[7-8]。对于与犯罪直接相关的涉案人员、场所等案件特征，王慧等[9]基于聚类关联规则挖掘算法，揭示了犯罪案件间的关联特点、犯罪人的构成属性特征和引发不同类型犯罪行为的关键要素；闫密巧等[10]则利用聚类关联规则分析了公交扒窃的犯罪模式。

由此可见，犯罪风险往往由多种风险要素及其关联关系共同决定，单独考虑某类风险要素与犯罪风险的关系都不够全面。近些年来，知识图谱受到了越来越多的关注，知识图谱将各类实体、概念及其关系以语义网络的方式进行形式化描述[11]。通过知识图谱能够实现实体及其关联关系的精准查询，并能够进行进一步的分析与推理。当前，有学者将知识图谱运用到情报分析、侦查破案等工作之中。杨阳[12]以地下钱庄案件数据为基础，构建涉众型经济犯罪知识图谱，深入挖掘犯罪团伙的社会网络关系和资金交易链，为打击经济犯罪提供了决策支持；凡友荣等[13]基于知识图谱、分布式计算等方法，通过构建通联特征挖掘模型，为侦查并破获电信欺诈案件提供了情报线索；周鹏等[14]设计了公安领域知识图谱的构建方案，并利用知识图谱实现了家族族谱、知识智能搜索等功能；樊舒等[15]则提出了基于复杂网络和知识图谱的结构化公安情报运行流程。另一方面，知识图谱在风险防控与预警等领域也得到了广泛应用。胡勉宁等[16]通过分析社区治安风险多主体及其关联关系，构建社区治安风险事件演化逻辑模型，提出了基于知识图谱的社区治安风险预警方法；杨波等[17]利用企业风险知识，构建出完整的企业风险知识图谱，并将知识图谱应用于智能问答等领域；梁野等[18]提出了一种端到端架构CLOpin，利用该架构可以面向舆情分析和预警领域构建出跨语言知识图谱，从而有利于掌握舆情动态并及时预警。

本文旨在基于多源数据挖掘犯罪风险要素及其关联关系，并构建城市犯罪风险知识图谱，将不同风险要素进行关联分析，为犯罪风险提供微观解释，从而为犯罪风险分析、防控及预警提供决策支持。

1 研究数据与方法

在获取城市多源数据的基础上，挖掘犯罪风险要素及其关联关系是构建本文城市犯罪风险知识图谱的首要工作，接下来利用相关方法实现完整的知识图谱构建，技术路线如图1所示。

图1 技术路线

1.1 数据来源与预处理

本文以我国北方某大型城市A市中B区为例，研究挖掘城市犯罪风险要素，并构建城市犯罪风险知识图谱。B区位于A市东部，其下辖24个街道和19个地区，面积超470平方千米。B区不仅交通发达，道路纵横交错，而且包含较多的金融企业、政府机关、旅游景点、商业服务场所等机构、设施。因此，这里汇集了大量的人流、客流和物流，城市环境丰富多样，人口结构复杂，各种风险要素互相交织，致使社会治安面临着不小的压力和挑战。

本文采用城市犯罪案件数据、空间环境数据、特定人员轨迹点数据及社会经济数据进行研究。(1)犯罪案件数据为2017年1月至2019年12月的发案统计数据，这里选取侵财类犯罪案件(盗窃案、抢劫案、抢夺案)、人身伤害类犯罪案件(故意伤害案、强奸案)和妨害公共秩序类犯罪案件(扰乱公共秩序案、寻衅滋事案)作为研究对象。经过清洗、筛选和提取后，共得到侵财类案件数据48 354条、人身伤害类案件数据2 294条、妨害公共秩序类案件数据1 803条。案件数据包括作案人、受害人、案件类型、作案时间、作案地址、选择处所等信息。(2)特定人员轨迹点数据的采集时间为2019年，共包括46 853条。根据活动地点类别，特定人员轨迹点分为特定人员网吧上网点和特定人员酒店宾馆活动点两类。每条记录包含特定人员的编号、特定人员的涉案类型、活动时间、活动地点及活动地点类别等信息。(3)空间环境数据为从高德地图获取的城市POI(Points of Interest)数据，共计10万余条。经整理后，将POI划分为道路附属设施、风景名胜、公共设施、公司企业、购物服务、交通设施服务、金融保险服务、科教文化服务、汽车服务、商务住宅、生活服务、体育休闲服务、医疗保健服务、政府机构及社会团体、住宿服务和餐饮服务共计16大类。每个POI设施点包含POI名称、POI地址和POI类别等信息。(4)社会经济数据为从统计网站获取的2017至2019年统计年鉴数据，包括人口情况、主要经济指标、城镇单位职工及工资情况、居民家庭基本情况、气象情况等信息。

本文研究的空间尺度为社区一级，研究区域共计556个社区。作案地址、作案人暂住地、POI地址及特定人员活动点等地址经地理编码和坐标转换操作后，获取其对应的经纬度坐标。之后，通过ArcGIS软件中的“空间连接(Spatial Join)”工具，得到每个社区对应的犯罪案件、POI设施点及特定人员活动轨迹点，并统计得到每个社区内的犯罪发案量、POI设施点数量及特定人员轨迹点数量。

1.2 犯罪风险要素挖掘方法

1.2.1 犯罪热点分析

犯罪发案量在时间和空间上的分布通常不是均匀的，往往表现为明显的聚集现象，这种聚集现象常用“犯罪热点”来表述[19]。首先，通过全局Moran’s I指数法[20]可以对犯罪发案量在各社区的空间自相关性进行检验。接下来，利用热点分析中Getis-Ord Gi*方法[21]识别得到具有统计显著性的犯罪热点社区，Gi*方法的计算公式如下：

(1)

其中，xj为社区j的发案量，wi,j为社区i和j的空间权重，n为社区总数，并且：

(2)

(3)

Gi*值即为z统计量值，对于具有统计显著性的正z值，其数值越高，热点的聚类就越紧密；而对于具有统计显著性的负z值，其数值越低，冷点的聚类就越紧密。由此可以识别出犯罪热点社区，同时，分析犯罪案件的时间分布特征还可以得到犯罪热点时段。一般而言，高风险犯罪热点背后的风险要素更为集聚和复杂。在识别出犯罪热点的基础上，针对不同的数据类型可以采用不同的方法进一步挖掘犯罪风险要素。

1.2.2 犯罪风险设施挖掘

针对城市空间环境数据，利用地理加权回归(Geographically Weighted Regression, GWR)模型[22]，将社区中16种类型POI设施点的数量作为自变量，将3类犯罪发案量分别作为因变量，分析不同类型环境设施与不同类型犯罪发案量的关系。GWR模型的计算公式如下：

(4)

其中，y为第i个社区的发案量，(ui,vi)表示第i个社区的中心坐标，β0(ui,vi)为截距项，xik为第i个社区的第k个自变量，βk(ui,vi)为第i个社区的第k个自变量系数，εi为第i个社区的随机误差项。本文中GWR模型采用自适应型高斯函数作为空间权重函数，并采用赤池信息准则(Akaike Information Criterion, AICc)对带宽进行优化选择。

1.2.3 特点人员轨迹点与犯罪热点关联关系分析

针对特定人员轨迹点数量和犯罪发案量的时序数据，在对二者进行平稳性检验并建立向量自回归模型(Vector Autoregressive Model)后，利用Granger因果检验[23]可以分析特定人员轨迹点与犯罪热点的关联关系。Granger因果关系检验能够从统计意义上检验时间序列变量间的关系，以分析变量间过去的状态对当前状态的影响，Granger因果检验的回归公式[24]如下所示：

(5)

(6)

其中，X和Y分别代表热点社区内特定人员轨迹点数量和发案量的时序变量，Xt表示周期t内的轨迹点数量，Yt表示周期t内的发案量，μ1t和μ2t表示误差项。如果Y的过去状态能够对自身当前的状态产生影响，同时X的滞后状态能够提升对变量Y的解释效果，则X可以认为是Y的Granger原因[24]。

本文以侵财类犯罪热点社区为例，选取2019年特定人员轨迹点数量和2019年犯罪发案量的时序数据进行研究，对犯罪热点社区中每周“特定人员宾馆酒店活动点”和“特定人员网吧上网点”两种轨迹点的数量和每周的侵财发案量之间的关系进行Granger因果检验。

1.2.4 犯罪选择偏好及犯罪模式识别

犯罪案件包括作案人年龄、受害人年龄、作案人学历、作案手段、选择处所等案件特征，利用Apriori算法[25-26]可以对犯罪案件特征进行关联挖掘。通过设定Apriori算法的最小支持度(Support)、置信度(Confidence)和提升度(Lift)3个指标，可以计算得到频繁项集和强关联规则项集，进而识别出高风险犯罪选择偏好及犯罪模式。

1.3 城市犯罪风险知识图谱构建

1.3.1 模式层构建

根据犯罪热点分析结果，侵财类、人身伤害类和妨害公共秩序类犯罪在Moran’s I显著性检验中的z得分别为4.98，6.48和3.26，这表明3类犯罪随机产生聚类模式的可能性均小于1%，即3类犯罪均存在显著的聚集分布。之后，利用ArcGIS中“热点分析(Getis-Ord Gi*)”工具得到犯罪热点社区。此外，周一～周五的8：00～10：00以及周一～周日的18：00～21：00时为侵财类犯罪的热点时段，人身伤害类犯罪集中发生在晚20：00至次日凌晨4：00时，妨害公共秩序类犯罪集中发生在周一～周五的8：00～11：00时，由此得到具有高犯罪风险的特定时间和地点。

根据GWR模型结果，侵财类、人身伤害类和妨害公共秩序类犯罪GWR模型的拟合效果较好，其R2分别为0.832，0.826和0.624，校正R2分别为0.751，0.751和0.500。本文将0.05显著性水平作为自变量回归系数显著性检验的标准，犯罪风险设施即为与社区发案量呈显著正相关关系的环境设施。

根据Granger因果检验结果，原假设“特定人员宾馆酒店活动轨迹点数量不是侵财类犯罪发案量的Granger原因”的F统计量为8.52，所以在1%的显著性水平下拒绝原假设，即特定人员宾馆酒店活动轨迹点数量是侵财类犯罪发案量的格兰杰因果原因，同时也表明部分特定人员活动轨迹点与犯罪热点之间存在一定的关联关系。

根据Apriori算法结果，作案人文化程度大多较低，普遍为高中以下学历，年龄段集中在在18～40岁，并常对同年龄段受害人作案；作案选择处所以居民小区居多；人身伤害类犯罪中常使用踢打等暴力手段。

通过以上分析，在得到犯罪热点社区、时段，犯罪风险设施，特定人员轨迹点，特定涉案人员、场所、作案手段等犯罪风险要素及其关联关系后，参考公安领域知识图谱本体构建流程[27]，采取自顶向下的构建方式，从中抽象出本体模型，定义不同类型本体间的语义关系，构建城市犯罪风险知识图谱的模式层，如图2所示。

图2 城市犯罪风险知识图谱模式层

模式层共包括38类本体，人口情况、主要经济指标、居民家庭基本情况等用来从宏观层面说明全区以及各街道地区的社会经济发展情况，各类本体及其对应属性如表1所示。

表1 各类本体及其对应属性

1.3.2 知识抽取

知识抽取指从数据源中提取实体、属性及关系实例。由于已经预先定义关系，所以按照表1抽取实体及其属性。本文采用的多源数据主要为结构化和半结构化数据，其中以数据表居多，非结构化数据相对较少，主要为犯罪案情的文本数据。针对结构化和半结构化数据，主要按照表格字段直接进行实体及其属性的抽取。针对非结构化的文本数据，借助自然语言处理工具、正则表达式等方法，对非结构化数据中的实体及其属性进行识别和匹配，从而实现对知识的补充。

接下来，将每一类实体创建内容形式为“实体- 属性- 属性值”的实体csv文件，文件中的每一条记录对应一个实例，每个实例对应唯一的编号，其余各列为其属性值。之后，通过各实体间的关系对实体进行关联，创建内容形式为“实体- 关系- 实体”的关系csv文件，每对关系中的两个实体各自对应唯一的编号。

1.3.3 知识存储

Neo4j是目前广泛使用的一种图数据库。在Neo4j中，实体以节点的形式存在，实体之间的关系以节点间连边的形式存在，同时节点和边拥有各自的属性。Neo4j具有查询灵活、高效，数据简明、直观等优点。因此，本文选择Neo4j图数据库作为城市犯罪知识图谱的知识存储工具。通过Cypher语句中的load csv命令将实体及其关系数据导入Neo4j图数据库中，从而创建相应的实体节点及其关系。

例如，创建“犯罪案件”节点代码如下：

LOAD CSV WITH HEADERS FROM “file:∥/犯罪案件.csv” AS line

create (n:犯罪案件{案件编号:line.编号，案件级别:line.级别，损失金额: line.损失})

创建“作案人- 实施- 犯罪案件”关系代码如下：

LOAD CSV WITH HEADERS FROM “file:∥/作案人- 实施- 犯罪案件.csv” AS line

match (from:作案人{作案人编号:line.编号}),(to: 犯罪案件{案件编号:line.编号})

merge (from)-[r:实施]→(to)

2 城市犯罪风险知识图谱应用分析

基于城市犯罪风险知识图谱，可以对犯罪风险要素进行关联查询，同时以图的形式对风险要素节点进行展示，更为清晰和直观。通过综合分析这些风险要素与犯罪之间的关系，能够为犯罪风险防控与预警提供决策支持。以下通过两个应用实例进行具体说明。

(1)风险要素关联查询与分析

利用传统的关系数据库查询案件的特征信息复杂而繁琐，不能有效对各类风险要素进行关联分析，而通过知识图谱可以精准查询发生在特定时间和地点内的犯罪案件及其作案人、受害人、作案手段、选择处所等相关风险节点，提高查询效率。在此基础上，一方面，可以在时间和空间上串并案件，并对具有其它相似特征的案件进行关联分析；另一方面，基于已经发生的犯罪案件可以对社区内的犯罪风险进行评估。接下来，通过查询发生在特定社区内的犯罪案件及其相关节点进行进一步分析，结果如图3所示。

图3 社区内犯罪案件及其关联节点

在图3中，不同类型节点使用不同的方式进行了标注。根据不同类型节点的特征，可以开展不同的关联分析。例如，根据“XX安居社区”节点，可以关联本社区内特定时段内发生的犯罪案件，并可以根据案件的等级、造成的损失金额等属性特征，对社区开展犯罪风险评估。其次，根据发案时间节点，可以关联发生在同一时段内的犯罪案件，如图3中发案时间为“2017-02-22 22:00”的两起案件分别发生在两个不同的社区内，因此可以从时间上考虑二者的联系。再次，根据作案人的户籍地节点，可以深入挖掘案件线索和犯罪同伙。此外，还可以根据选择处所和作案手段等节点，关联犯罪选择偏好。

(2)社区犯罪风险防控与预警

在分析社区的犯罪风险时，除了考虑犯罪案件之外，还要考虑社区内的城市风险设施以及特定人员的活动轨迹对犯罪风险的影响。利用知识图谱可以实现特定人员轨迹的动态关联匹配，并可以筛选出特定的犯罪风险设施，从而为社区犯罪风险防范与预警提供支持。以“XX家园社区”为例，查询与该社区相关的特定人员轨迹点和犯罪风险设施节点，结果如图4所示。

在图4中，可以发现某些特定人员在“XX家园社区”内经常活动的地点及活动地点的类别。当通过摄像监控识别出特定人员在本社区内频繁活动时，利用知识图谱可以进行关联匹配，并根据特定人员的涉案类别等特征，向社区民警发出预警信息，从而进行分析研判并及时采取防范手段，从源头遏制犯罪风险。另外，根据查询检索出的特定药店、医院、停车场等风险设施，可以指导民警针对具体目标开展隐患排查工作，从而防范化解犯罪风险。

图4 “XX家园社区”相关风险要素节点

3 结论

本文基于多源数据挖掘犯罪风险要素及其关联关系，构建城市犯罪风险知识图谱，实现了对犯罪风险要素及其关联关系的精准查询与深入分析，从而为社区犯罪风险防范与预警提供决策支持。然而，本文涉及的数据类型仍然不够广泛。未来可通过扩充异构数据源及数据量，运用知识图谱相关技术，不断完善城市犯罪风险知识图谱。