道路交通安全违法分析领域知识图谱构建方法

2022-07-20 02:29黄淑兵
关键词:研判卡口图谱

黄 瑛, 黄淑兵, 赵 磊

(1.公安部交通管理科学研究所, 江苏无锡 214151; 2.无锡华通智能交通技术开发有限公司, 江苏无锡 214125)

0 引言

随着公安交通管理管控设备建设与跨警种、跨部门数据共享推进,公安交通管理数据资源呈爆炸式增长。作为交通管理四大平台之一,公安交通集成指挥平台目前已联网接入各类道路监控设备,日均汇聚车辆轨迹、交通安全违法等动态管控信息数亿条。如何有效处理海量庞杂、动态变化的公安交通管理数据,实现交通安全违法行为深度分析与隐患挖掘,已经成为亟需解决的问题。

知识图谱在复杂数据知识表示、多源异构数据整合处理、模拟人类思考推理等方面具有显著优势,能够满足公安复杂场景下的各类业务需求。目前,知识图谱在公安行业的应用主要围绕犯罪情报挖掘、案件线索研判、热点舆情发现、业务流程指导等方面开展。杨阳、王杰[1-2]等提出了多种基于知识图谱的犯罪情报建模方法,通过人员画像、图谱关系分析等方式挖掘隐性犯罪线索,对潜在作案对象进行预警;李超[3]基于公共视频监控系统视频图像资源构建了视频侦查领域知识图谱,对清理线索、提高办案效率有重要意义;罗玉[4]利用知识图谱技术助力涉警舆情分析,极大提高社会化媒体负面涉警舆情的识别准确度,净化网络环境;王明达、郝培豪[5-6]等从案例、调查报告、法律条例、规范流程等文件抽取模式数据并构建知识图谱,为突发应急事件处理和业务工作开展提供标准指导。但现有公安行业知识图谱研究集中在大公安领域,与本文研究的道路交通安全违法分析领域在数据类别、业务场景等方面有较大差异,已有成果并不适用。

本文将知识图谱技术引入道路交通安全违法分析领域,根据违法查缉专业知识和公安交通集成指挥平台数据资源基础,建立多角度的道路交通安全违法分析领域知识图谱,并基于知识图谱构建重点交通安全违法行为智能研判系统,在车辆画像、重点违法分析挖掘、重点违法智能预测、通行规律与关系网络研判、语义情报检索等方面开展应用探索。本文的研究实现了交通安全违法分析领域大规模多模态数据的关联存储和有序组织,能够为交通安全违法行为深度分析与隐患挖掘提供技术支撑。

1 交通安全违法分析领域知识图谱构建方法

知识图谱构建方法[7]有自顶向下、自底向上两种,后期可结合使用。其中,自顶向下的构建需要结合领域专家经验从数据源中提取本体,构建图谱模式层,然后根据定义好的知识图谱填充数据层;自底向上的构建需要从数据着手抽取实体、关系和属性至数据层,然后对数据层进行组织归纳,确定知识图谱模式层。交通安全违法分析领域知识图谱作为专业性较强的垂直领域知识图谱,数据内容及组织方式易确定,宜采用自顶向下的方法进行构建,构建流程如图1所示。

图1 知识图谱构建流程

(1)数据资源分类—根据交通安全违法查缉常用数据目录,梳理需在公安交通集成指挥平台中汇聚的数据资源并进行分类。

(2)模式层构建—模式层作为知识图谱的核心,一般使用本体库来管理。首先根据交通安全违法分析领域专业知识和数据源情况,确定本体框架,然后抽取概念、属性与基本关系。

(3)数据层构建—经数据汇聚与数据治理,将涉及数据全部转为结构化知识,采用人工方式提取实体、属性和关系。

(4)知识存储—知识图谱可基于RDF或图数据库存储。为实现复杂层次结构快速检索,本文采用neo4j图数据库[8]进行知识存储。

2 交通安全违法分析领域知识图谱构建过程

2.1 数据资源分类

交通安全违法分析领域知识图谱涉及的数据资源按来源可分为公安机关交通管理部门内部产生的数据、大公安分享数据、外部单位分享数据和互联网公司共享交换资源4部分,按业务应用可分为视频图像类、过车数据类、交通安全违法证据类、地图数据类、基础信息类5大类,总体数据资源划分见图2所示。

图2 交通安全违法分析领域知识图谱涉及数据资源分类

(1)交警内部产生的数据主要包括外场智能交通设备采集数据资源和内部业务系统自产数据,其中外场智能交通设备采集数据资源分为视频图像监控数据和固定监测设备、移动执法设备采集的违法数据;内部业务系统自产数据包括卡口基本信息、重点车辆基本信息等。

(2)大公安分享数据主要包括高清治安卡口数据等。

(3)外部单位数据主要包括城建部门停车信息和重点车辆运营企业数据两类。

(4)互联网公司数据包括互联网公司地图数据等。

2.2 模式层构建

基于违法缉查工作需求和数据资源基础,将道路交通安全违法本体分为6大类:“人员”类、“车辆”类、“交通安全违法”类、“出行”类、“设备”类、“区域”类,并在此基础上构建子类,如图3所示。

图3 交通安全违法分析领域本体框架

(1)人员—人员是交通管理工作中的重要要素,主要包括车辆所有人、车辆驾驶人和乘客。在违法识别、违法处罚等过程中都需要人员信息支撑。

(2)车辆—车辆是现代交通的主要运行工具,也是交通安全管理的主要管控对象。考虑到车辆基数庞大,在定义车辆本体时,另增加5类重点车辆,分别为大中型客车、小型面包车、危化品运输车、货车和校车。

(3)交通安全违法—一般包括现场查处的违法行为和非现场查处的违法行为,本文主要关注非现场违法,包括超速、闯红灯、疲劳驾驶等违法类型。

(4)出行—出行指车辆从出发地向目的地移动的交通行为,车辆的所有活动轨迹可划分为若干次出行。通过定义出行本体,可了解车辆每次出行的参数,从而提取车辆通行特征,因此出行是开展后续应用的基础。

(5)设备—设备主要用于采集车辆过车信息和违法取证,一般可分为卡口监控记录设备和违法取证设备,两者可有交叉。

(6)区域—区域用于提供车辆、设备等所在的地理位置信息,根据使用场景不同可分为重点POI、道路、行政区划、地市、省份,其中重点POI又可细化为热门景区、火车站、机场、客运站、中小学及幼儿园等。

交通安全违法分析领域的相关概念、属性和基本关系定义见图4,本体关系属性定义见表1。

表1 本体关系属性定义

图4 交通安全违法分析领域相关概念、属性与基本关系

2.3 数据层构建

数据层构建流程主要包含数据汇聚、数据治理、实体、属性与关系提取3个步骤,如图5所示。

图5 数据层构建流程

(1)数据汇聚

各类数据资源通过接入服务等汇聚至公安网,其中结构化数据存储在分布式数据库,图像数据存储在图像存储服务器,具体参见图6。

图6 基础数据建库目录设计示意图

其中,过车数据包括自建卡口、大公安治安卡口、停车场卡口以及闯红灯自动记录系统采集的过车记录;违法数据包括交通视频监视系统、交通安全违法行为监测记录系统采集的违法记录以及通过重点车辆GPS数据接入生产的违法记录;POI数据包括地图系统采集的兴趣点记录;内部业务系统自产数据包括卡口基本信息、重点车辆基本信息等;图像数据包括交通视频监视系统、交通安全违法行为监测记录系统采集的图片。

(2)数据治理

数据治理主要包括过车数据处理、图像数据处理和POI数据处理。

过车数据处理流程包括以下步骤:

Step1:在全国车辆轨迹库中抽取某一时间范围内的历史通行轨迹记录集合;

Step2:抽取任一车辆的全部通行轨迹并按过车时间顺序排列,依次统计相邻两条通行轨迹之间的直线距离、时间间隔、平均车速等通行参数,生成包含过车序号、直线距离、累计通行距离、时间间隔、累计通行时长、平均车速、距离起点直线距离、是否休息、停留时长、连续驾驶时长、是否疲劳驾驶、是否跨省、是否跨市、是否在高速公路上行驶等通行参数表;

Step3:判断通行参数是否满足出行划分条件,将车辆通行轨迹记录集合划分为若干车辆单次出行子集;

Step4:依次统计单次出行的开始时间、结束时间、轨迹数、是否疲劳驾驶、最大连续驾驶时长、出行总时长、总停留时长、出行总距离、跨省数、跨市数、高速行驶距离、高速行驶时长、夜间行驶距离、夜间行驶时长等出行特征参数,得到机动车出行特征参数表。

图像数据处理流程包括以下步骤:

Step1:从图片服务器中提取过车图片和违法图片;

Step2:基于图像识别方法,从过车图片和违法图片中找到车辆区域、车辆号牌号码信息,同时输出车辆区域图片;

Step3:从车辆区域图片中,基于图像识别方法,获取人脸区域图片、人像特征、人脸区域坐标信息;

Step4:通过支持向量机的方式,判断人脸区域坐标信息位于车辆区域图片中的主驾驶区域或副驾驶区域;

Step5:分别对主驾驶区域和副驾驶区域的人像特征进行聚类,得到驾驶人车辆关联关系和乘客车辆关联关系。

POI数据处理流程包括以下步骤:

Step1:提取卡口经纬度信息和重点POI经纬度信息;

Step2:计算卡口与重点POI之间的距离;

Step3:筛选符合条件的组合,得到卡口与重点POI关联关系表。

实体属性与关系提取流程包括以下步骤:

完成数据知识化处理后,根据模式层设计架构人工提取实体、属性表与关系表,形成模式层与数据层的映射关系。其中,机动车通行参数表为“出行”与“卡口”关系的数据来源,机动车出行特征参数表为“出行”实体和“车辆”与“出行”关系的数据来源,卡口与重点POI关联关系表为“重点POI”子类与“卡口”关系的数据来源。

2.4 知识存储

由于交通安全违法分析领域知识图谱涉及数据种类繁多、关联复杂且数据量超过亿级,所以在知识存储时,宜选用擅长处理复杂关系的图数据库。Neo4j作为最成熟的图数据产品,性能高且操作简便,故本文选用Neo4j图数据库进行知识存储,如图7所示。

图7 利用Neo4j图数据库进行知识存储

3 道路交通安全违法分析领域知识图谱应用

3.1 平台设计

基于交通安全违法分析领域知识图谱,构建重点交通安全违法行为智能研判系统。按照分层隔离的原则,系统被划分为用户层、应用层、模型算法层、计算存储层、资源层、数据采集层6个层次,总体架构如图8所示。

本研究局限之处如下:第一,本研究为回顾性研究,可能存在偏倚;第二,由于资料有限,未按官兵远航次数及专业进行亚组分析;第三,纳入的人群主要集中在40岁以下人群,而肾结石的高发年龄在40~60岁[14],这是由于部队群体的特殊性决定的。

图8 总体架构图

(1)用户层—系统主要面向公安机关交通管理部门的支队用户、大队用户、中队用户和大公安刑侦技侦等用户。

(2)应用层—该层根据业务的需要,实现了车辆画像、重点违法分析挖掘、重点违法智能预测、通行规律与关系网络研判、语义情报检索5个应用。

(3)模型算法层—该层提供模型和算法的支撑,利用计算存储层中海量的数据和强大的分布式计算能力,建立图谱智能识别算法库,包括参数提取算法、人车关联算法、地理关联算法;建立算法服务基础支持库,包括规则统计类算法、关联碰撞类算法、违法分析挖掘和智能预测算法;根据业务特征提炼车辆通行特征标签库;提供语义分析算法。

(4)计算存储层—该层提供了计算和存储两大核心能力,采用Hadoop分布式存储计算框架作为底层技术基石,使用HDFS分布式文件存储系统、HBase分布式存储数据库、Hive分布式数据库、Neo4j图数据库、Redis内存数据库和图像存储数据库进行数据存储。此外,在存储系统基础上搭建分布式计算框架、分布式内存技术Spark和车像、人像相似度分析计算框架。

(5)资源层—将数据采集层采集的违法数据、过车数据、POI数据、重点车辆数据、卡口数据、地理信息数据等汇聚到结构化数据资源库;将违法图片、过车图片汇聚到非结构化数据资源库。

(6)数据采集层—数据采集层通过数据接入、Flume实时获取、Sqoop批量导入等多种手段从公安交通管理综合应用平台、公安交通集成指挥平台、互联网交通安全综合应用平台、部门及社会资源平台将数据采集到重点交通安全违法行为智能研判系统,为上层应用和分析提供数据源。

3.2 应用探索

重点交通安全违法行为智能研判系统的应用主要体现在车辆画像、重点违法分析挖掘、重点违法智能预测、通行规律与关系网络研判、语义情报检索5个方面。

传统业务系统检索数据类型单一且信息密度低,本系统结合知识图谱各维度数据,构建包含车辆轨迹类、车辆驾驶人类、关联关系类、车辆违法隐患类4大类,通行频率、通行时段、通行道路、通行区域、通行线路、驾驶人情况、同乘关系、伴随关系、违法类型、嫌疑类型、风险隐患等11个小类特征标签体系,从时间维度、空间维度、业务维度对车辆画像进行可视化呈现。通过检索目标车辆画像,可以更直观地掌握车辆历史行为特征,从而更有针对性地进行风险排查。

(2)重点违法分析挖掘

针对研判人员对高维、海量数据识别、关联能力不足的问题,本系统有效整合了研判相关数据,针对不同类型违法,设计数据模型,快速发现相关违法嫌疑人员车辆。如,针对疲劳驾驶违法行为,筛选“是否疲劳驾驶”属性为“是”的“出行”实体,通过“发生”关系关联“车辆”实体,通过“疲劳驾驶”关系关联“卡口”实体,然后筛选“驾驶日期”属性在“疲劳驾驶”关系“过车时间”属性范围内的“驾驶”关系,得到关联的“驾驶人”实体,最后锁定关联“驾驶人”实体数为1的“车辆”实体,即为嫌疑疲劳驾驶车辆。针对跨市非法营运违法行为,筛选“距离”属性小于阈值的“相邻”关系,得到与重点POI相邻的卡口,通过“休息”关系关联“出行”实体,然后通过“出发”“到达”“卡口布设”“所在行政区划”“所在地市”等关系找到出行对应出发地、目的地,通过“发生”“乘坐”关系找到“乘客”实体,锁定乘客数量多且有固定出发地和目的地的车辆,即为嫌疑跨市非法营运车辆。

(3)重点违法智能预测

针对违法嫌疑车辆潜在风险发现难的问题,本系统结合专家经验,根据历史违法记录进行模式匹配,实现违法高风险车辆的及时预警。例如针对疲劳驾驶违法行为预测,提取疲劳驾驶“违法”实体,通过“取证”“设备布设”等关系得到违法时间与违法地点,通过“违法”“驾驶”等关系得到“车辆”与“驾驶人”实体,然后通过“取证”关系的违法时间属性找到对应时间范围的“出行”实体,提取出行对应出发地、目的地与疲劳驾驶卡口点位进行统计分析,当监测到车辆在指定时间、指定线路上行驶时即认为该车有疲劳驾驶风险。此外,可以结合车辆画像技术,提取车辆特征标签集合,利用关联分析算法计算车辆特征标签与违法之间的关联关系,从而判断具有某些特征车辆的违法概率,生成违法高风险车辆集合。

(4)通行规律与关系网络研判

目前,通行规律研判工作多基于轨迹记录文本信息开展,需耗费大量人力进行比对计算且易遗漏关键信息,本系统利用知识图谱中存储的“出行”“卡口”实体和关系,对目标车辆进行时空分析,刻画车辆出发、停留、折返、到达等行为特征并在地图上进行展示,以更直观的方式协助研判人员快速获取目标车辆落脚点、经常通行线路、活动区域等信息,为车辆缉查提供数据支撑。此外,为充分挖掘关系线索,提高数据分析效率,本系统基于知识图谱构建的关系网络,深度挖掘乘客、驾驶人、所有人、车辆、设备、区域之间潜在的多维度关系,辅助研判人员发现更多隐藏线索。

(5)语义情报检索

针对传统情报搜索方式的数据范围局限性,本系统可根据用户输入关键字自动进行实体检索和关联信息扩展查询,有效避免了由于检索线索不明确导致的信息获取失败,有助于研判人员获取更全面的情报信息。此外,在实际业务工作中,模型构建往往受系统已开发功能限制,无法及时将公安交管专家和一线交警的违法打击经验及技战法转为模型进行应用。本系统免去了繁重的模型开发更新工作,根据提炼的模型输入语义规则后,系统自动转为知识图谱查询语言进行检索,可以满足研判人员的个性化分析模型开发需要。

4 总结

科技发展已全面进入大数据智能化时代,交通管理科技信息化建设也正从适应满足业务需求进入改造创新需求的新发展阶段。为整合基础数据资源,提高数据服务能力,本文利用自顶向下的方法完成了道路交通安全违法分析领域知识图谱的构建,并基于重点交通安全违法行为智能研判系统开展了知识图谱在车辆画像、重点违法分析挖掘、重点违法智能预测、通行规律与关系网络研判、语义情报检索5个方面的应用探索。

本文所述的基于知识图谱的跨市非法营运车辆分析研判模型已在近期开展的全国非法运营打击专项行动中得到应用,依托公安交通集成指挥平台,20天内累计预警拦截嫌疑车辆五千余辆,其中经现场认定非法营运违法行为并移交交通运管部门的三百余辆,预警有效率达6.82%。实践证明,本文提出的道路交通安全违法分析领域知识图谱有助于现有数据的深度加工和增值利用,能够促进违法分析预测算法模型的研发与应用,对提高交通安全违法行为智能研判水平具有重要意义。

猜你喜欢
研判卡口图谱
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
南京市2017年至2019年道路交通死亡事故分析与研判
市场研判 不确定因素困扰市场
全球低轨卫星网络最新态势研判
新高考下的历史全国卷选择题特点分析及备考研判
柳堡防疫卡口党旗飘
最广的变焦镜头
L卡口“马拉松”联盟的前世今生
摄影信箱