内河船舶自动识别系统异常数据的可视分析

2020-07-27 07:46雷进宇初秀民蒋仲廉钟诚吴明洋郭涛

哈尔滨工程大学学报 2020年6期

雷进宇，初秀民,3，蒋仲廉，钟诚，吴明洋，郭涛

(1. 国家水运安全工程技术研究中心, 湖北武汉 430063；2. 武汉理工大学能源与动力工程学院, 湖北武汉 430063；3. 闽江学院物理与电子信息工程学院, 福建福州 350108；4. 武汉理工大学物流工程学院, 湖北武汉, 430063)

自动识别系统(automatic identification system, AIS)是集现代通信、网络和信息科技于一体的多门类高科技新型助航设备和安全信息系统，广泛应用于海事通信及安全监测中。作为海事数据分析的主要数据源，大量的数据必然引起“脏”数据的产生。受制于通信链路、信道干扰以及器件自身固有误差等因素，伴随有数据异常、数据缺失等现象。上述现象产生的数据也被称之为“脏”数据。因此在自动识别系统数据分析前，数据往往需要对脏数据进行预处理，然后将处理后的数据导入模型进行交通流的分析。

目前，面对“脏”数据的主要预处理处理方法有数据清洗及数据重构。数据清洗通常是依据某种规则或多种规则的结合对原始数据进行筛选过滤。然后对筛选出不符合要求的数据直接剔除[1-2]。数据重构则是依据数据本身规律及特点，对原数据缺失部分进行修复还原等工作，文献[3]利用ER推理的方法过滤自动识别系统异常数据并结合船舶动力学对过滤的自动识别系统数据进行还原。这意味着其中的一些异常的原始数据和缺失的数据(也称作脏数据)将被完全滤除。

上述方法的主旨思想均在于如何将“脏”数据剔除或者是将“脏”数据变“好”，但是却忽略了“脏”数据本身蕴藏的价值。例如数据的丢失能反映出内河沿线基站的覆盖范围和其存在的盲区。“脏”数据中的信息及特征如果得到有效挖掘利用，对自动识别系统数据维护管理、错误数据产生致因等问题，可以提供重要的数据支撑。

可视分析方法已经成功的应用于众多领域，特别是数据分析以及地理信息GIS系统中。文献[4]提出了基于特征解选取的n维图表可视化技术有效去除了Pareto最优解集中性能相近的冗余解。文献[5]利用标签云可视化模型将文本信息和地理信息结合分析了位置关联信息中的总体特征和信息。WILLEMS等[6]通过对海上船舶轨迹进行可视化，分析船舶的异常行为和航行风险，证明可视分析方法在船舶异常行为模式方面也有广阔应用前景。

缺失数据经常被忽视，即使缺失数据很重要仍然有些可视分析仅仅利用剩余数据并得出相应的结论。文献[7]利用带有断层的折线图来可视化数据中的缺失。文献[8]采用的可视化方法是在保持轮廓光滑明亮的情况下通过调低色调来展示缺失数据。文献[9]则利用统计学方法计算出缺失数据的可能范围并采用类似盒图的方法来可视化缺失数据的不确定性。文献[10]则利用了空缺，模糊以及空缺加注释的方法来进行可视化展示，经过实践分析表明，空缺加注释的方法更有助于用户对缺失数据的理解。文献[11]提出一套利用可视分析来理解数据质量的流程和方法，并采用不同的可视化模型对移动数据进行展示分析，发现了其中一些数据的缺失并解释了其发生的原因。然而并没有对这些异常数据进行探索，未对异常数据的规律及其间接反映出来的周围环境特征进行深入研究。

异常值是指与大多数数据偏离较大的数据。交通定位数据可视分析中常见的统计、聚类等方法表达的则是海量数据的统计信息，无法揭开单个轨迹点中的脏数据信息。为了解决这种弊端，文献[12]利用最原始的地图路网信息，在经过后台的判断之后，将含有异常的轨迹映射到二维平面地图进行可视化。由于平行坐标可视化模型可以表征高维数据中各维度的隐含关系，因此文献[13]在网络安全异常检测中采用了平行坐标，结果表明该方法可及时发现网络入侵行为。文献[14]则提出一种基于3D多层球面空间可视化模型的异常行为识别模型，该方法能够更好地表现网络活动，服务于网络安全监督。文献[15-16]中结合可视化与人机交互的手段来从原始定位数据中选取出异常数据并利用机器学习的方法寻找更多的异常值，从而来发现数据质量问题进行数据质量的评估。然而并未对这些检测出的异常数据进行更深入的挖掘研究。

因此本文试图通过可视分析方法研究自动识别系统的动态数据从而对内河水路交通中存在的几种主要自动识别系统“脏”数据和其致因加以讨论分析并循环利用充分挖掘其中的价值。本文首先对几种常见的数据质量问题及其可视方法进行介绍，然后分别阐述了总体分析流程和各个可视化模型的具体功能及其交互手段。最后在实际内河的船舶交通流数据基础上结合典型的案例分析对可视分析方法进行实证测试。

1 异常数据可视分析方法

1.1 分析框架

本文通过综合自动识别系统数据可视化展示和人机交互手段来探索异常自动识别系统数据中的规律，具体的异常数据的分析框架如图1所示。首先将原始数据进行相邻点间的时空距离差分计算，然后将计算结果投影在散点图中，其次用户可对散点图中的正常、异常、静止以及丢失等不同区域的轨迹数据进行交互筛选探索感兴趣的数据，然后通过对筛选出的轨迹数据聚类变换映射在OpenStreetMap(OSM)地图中，通过人机交互对不同轨迹进行标记存储进数据库进行下一步分析。

1.2 系统设计

OSM开放平台提供了基础地图编辑组件，用户根据自身数据内容自由绘制点、线等数据，如图2所示。因此本在此基础上，设计了一套可交互的散点图设计来对“脏”数据进行可视分析。散点图视图设计为一个横轴和纵轴分别为同一水上移动通信业务标识码(MMSI)船舶的相邻轨迹点的时间差和距离差如图3所示。

图2 基于开放街道地图的地图展示Fig.2 Map display based on open street map

图3 轨迹点散点图示意Fig.3 Scatter plot of space-time difference

图中实线、点划线和虚线依次分别代表最大速度线、最小速度线和最大时间线，由这3条线则把散点图分为正常行驶区域、异常区域、船舶静止区域与自动识别系统数据丢失区域，实际效果如图4所示，圆点和方框轨迹点分别代表选定的不同种类轨迹点。

图4 轨迹点时空差分的散点Fig.4 Scatter plot of space-time difference of track point

2 可视化交互

可视化交互是对异常自动识别系统数据可视分析起着关键作用。总体的交互界面如图5所示，主要由左、中、右3个部分组成。界面左边部分可通过MMSI列表或时间范围对异常数据实施筛选；界面中间部分可通过与地图的放大、缩小以及平移等基本操作交互来观察异常数据在航道中的位置分布；界面右边部分可通过对散点图的圈选，缩放等操作来进一步探索感兴趣的异常数据。

图5 交互界面Fig.5 User interface

2.1 地图划选操作

地图部分除了放大、缩小、平移等基本操作外还包括：拉索圈选、方框圈选、方框放大等，其中拉索圈选可以更自由的对任意形状的轨迹进行筛选。如图6中有多条轨迹且相对密集的情况下用拉索圈选更加自由方便。

图6 地图圈选交互Fig.6 Circle the map selection interaction

2.2 散点数据圈选

散点图圈选操作与地图部分类似，被圈选的点用圆点，其中散点图选中的相应的点在地图中也以相同方式展示，例如图7(a)和图7(b)中的相互对应圆点。

图7 Gps漂移点Fig.7 The Gps drift points

此外，如图8所示当选择提示工具时将鼠标悬停在对应的数据点上则可以展示该数据的具体信息，例如时间、水上移动通信业务标识码(MMSI)，航速等。

图8 信息悬停Fig.8 Information hover

2.3 时空特征过滤

时空过滤的系统部分由时间选择、水上移动通信业务标识码(MMSI)列表构成。由散点图圈选中的点所代表的船舶水上移动通信业务标识码(MMSI)以列表形式展现在左侧板块。当在列表选中一个水上移动通信业务标识码(MMSI)时，OSM地图和散点图对该水上移动通信业务标识码(MMSI)进行相应的展示如图9。圆点为所有圈选中的水上移动通信业务标识码(MMSI)轨迹点，而当前选定的水上移动通信业务标识码(MMSI)点以方框以便区别。在OSM地图将其相邻轨迹点联结成轨迹线，这样便可以清楚识别出轨迹的漂移图9左半部分。

图9 交互工具Fig.9 Interactive tools

3 案例分析

3.1 基站盲区检测

通过散点图中选取位于自动识别系统数据丢失区域的数据，可以发现对应的轨迹点位于左边地图中的位置，如果某区域数据缺失点密集则认为是盲区。点击选择左侧相应的水上移动通信业务标识码则可以从自动识别系统轨迹更直观得展示出明显的数据缺失断层现象如图10所示，由于长时间无自动识别系统信号发出而造成缺失数据的区域呈现出长条直线的模式。如果有多条轨迹线在某个区域出现这种模式，则可以认定该区域存在盲区。

图10 缺失数据轨迹Fig.10 Missing data trajectory

由图11可以看出，左侧存在3处数据大量丢失的基站盲区。

图11 基站盲区检测Fig.11 Base station blind area detection

3.2 船舶异常行为监测

船舶异常点可以通过观察散点图可得进行提取即其中时间间隔短但行驶距离过长的轨迹点则被认为是异常的船舶行为。首先圈选散点图中的异常轨迹点如图12所示。

图12 异常点圈选Fig.12 Selection of abnormal data

被圈选的轨迹点则在地图和散点图中皆被标记为圆点并且所属的水上移动通信业务标识码(MMSI)号出现在左侧列表中。通过点选水上移动通信业务标识码(MMSI)，发现其中存在2种常见轨迹异常现象。

第1种是轨迹的跳变从而形成了Z字形的轨迹线如图13所示，它是由一个运动和一个静止的船舶形成的轨迹图。经过分析，该异常是由于长江航道中存在的船员私自篡改水上移动通信业务标识码(MMSI)的现象，因此引发多个运行的船舶在同一时间段内发出了多条水上移动通信业务标识码(MMSI)相同的AIS数据因此产生蛇形轨迹。

图13 船舶Z字形轨迹Fig.13 Zigzag trajectory

第2种异常轨迹通常是一段正常轨迹中间出现1、2处的轨迹偏移如图14所示。经过调查该现象是由于长江内河信号经常受岸边无线电干扰以及通航建筑的遮蔽造成了行驶过程中的轨迹跳变。

图14 轨迹跳变Fig.14 Trajectory jitter

4 结论

1)在武汉段的实例测试中，通过对缺失数据分析，得到了武汉段基站覆盖盲区的分布。

2)通过武汉段异常数据的可视分析得出该处异常轨迹发生往往是因为船舶串号现象和环境干扰。

当前研究中，可视化模型的展示略显单一，拟增加更为丰富的可视化模型对轨迹数据进行多元化的展示。此外，在后续研究中，将引入Web Graphics Library(webgl)技术，提升可视化图像生成的效果和效率，使得人机交互更为流畅高效。目前借助先进VR设备，开发的三维虚拟可视化系统能给用户提供一个更好的沉浸式显示环境。在水路交通监管中可为控制决策和预测风险等提供重要依据。