基于大数据环境的海事船舶数据研究

2018-07-31 09:21李凡
科教导刊·电子版 2018年13期
关键词:关联分析数据挖掘

李凡

摘 要 目前长江海事局现有的数十个信息系统在支撑传统海事业务中扮演着重要的角色,但是随着时代的发展越来越暴露出很多问题,如:系统之间接口繁杂,信息孤岛,各系统之间数据不一致,无法支持智能化安全监管、船舶防污、人命救助等业务。通过大数据的技术,打通数据孤岛,建立业务分析预测模型,对现有海事信息系统进行智能化改造,可以全面提升海事局的各项业务的速度和质量。

关键词 数据清洗 数据挖掘 关联分析

1航运船舶大数据研究的意义

国家海事部门2011年组织编制了《海事信息系统顶层设计》,提出了“一个目标、二个模型、四套体系”,即海事信息化总体发展目标,信息系统和基础设施的架构模型,以及标准规范、管理控制、规章制度和组织体系,以指导海事未来一段时期的信息化建设。在“大数据”管理时代,这一切将发生改变。基于数据的“事实”将会成为决策的重要依据。

海事管理涉及人、船、环境等多个方面,其中船舶的管理是其中的一大重点。目前,海事局已经建立了完善的船舶登记系统和船舶动态管理系统,用于收集和管理船舶的基本情况和安全管理状况,包含船舶基本数据、登记注册信息、安全检查、事故、行政处罚、重点跟踪及协查船舶等分类管理信息。在“大数据”时代,经过专业化的处理,每一艘船的信息都将详尽地记录在案。对于船舶的管理,更多是基于计算机系统对数据分析后得出的“客观判断”,让“事实”成为真正的“决策人”。随着长江海事局数据资源中心的建成并投入使用,海事业务系统信息孤岛的问题基本得到解决,为海事数据的大数据分析和挖掘奠定了坚实的基础。

2航运船舶大数据研究的目标

对海事数据进行清洗、整合,抽取几个关键维度,建模分析,预测船舶是否违章。把建立的模型应用到业务系统:通过实时抽取业务系统数据,实时预测船舶违章状态并提供报表展示。

3航运船舶大数据研究的方法

3.1理论依据

实施大数据战略意味着管理模式的转变,从经验思维过渡到数据思维。经验思维是以个人知识和经验为中心的管理,强调个体的作用。数据思维则以客观数据为基础,通过对数据抽取、清洗、整合、建模、分析和可视化,形成决策信息和知识。所以,数据,特别是海量大数据,对于海事管理意义重大。

数据对于管理模式的提升分为三个层次(如图1所示):

第一层:报表。这是对部门的数据进行分析汇总,制作业务所需要的各种报表。由于数据的采集范围所限,报表层的大数据分析,体现的是局部信息;

第二层:数据仓库/商业智能。这是对全海事各个部门的数据进行统一归类,抽取,清洗和集成,形成企业统一数据中心。基于数据中心,开发商业智能应用,包括多维分析、企业仪表盘,即席查询报表等;由于数据仓库是企业全部数据的整合,它所展示的是整体信息;

第三层:数据挖掘。这是根据历史业务数据建立挖掘模型,包括客户分类模型、精准营销模型、客户购买决策判断模型、客户流失预警模型等。建立好的模型用于对当前客户进行实时预测分析,给管理者提供一个预知未来的能力。

3.2大数据平台系统部署架构图

工作流程:

(1)大数据开发工程师了解客户业务,整理需求,设计大数据解决方案;

(2)大数据开发工程师使用客户端,根据设计方案开发数据处理流程;

(3)数据处理流程通过“后台服务”推送到“引擎服务”;

(4)“引擎服务”对数据处理流程进行翻译,把翻译的结果推送到“计算集群”;

(5)“计算集群”申请计算资源,执行翻译结果。

(6)如果执行过程中需要抽取网页/微博数据,则请求“抽取服务”获取对应数据。

(7)如果需要其他类型数据,则直接从“数据源”请求数据;

(8)“计算集群”对数据处理分析的结果以推送到“报表服务”,由报表服务渲染成可视化报表;

(9)最终用户通过笔记本,手机或其他终端设备访问报表服务,获取分析报告。

系统配置清单:

3.3系统功能架构图

海事大数据平台包括5个子模块:数据抽取、数据整合、数据中心、建模分析和报表展示。新平台提供10多种不同的数据接口,可以抽取任意的业务数据,包括海事外部的数据,比如新浪微博和网页等。抽取来的数据输入到分布式整合引擎,进行数据的清洗、过滤、整合。其目的是解决数据质量问题,把最终清洗整合好的高质量业务数据,统一导入一个分布式的大数据中心,实现数据的长时间永久保存。基于大数据中心可以建立各种挖掘分析模型。挖掘分析的结果,通过可视化的方式展示给最终用户。

整个大数据平台为可视化环境(IDE),工程师可以通过一个可视化的工具对各个模块进行配置和管理。

整个大数据平台的功能,运行在高性能分布式的计算集群上。

3.4数据抽取子模块

數据抽取子模块用于从海事的各个业务系统中抽取数据。抽取上来的数据通过接口自动导入到数据整合子模块,进而对业务数据进行过滤、清洗、变换和集成。

抽取功能通过可视化组件的形式在敏捷大数据IDE中提供。抽取功能也提供了http和webservice接口,用于和第三方应用的整合。

3.5数据整合子模块

该模块用于对抽取来的原始业务数据进行过滤、清洗、变换和集成。业务数据在被整合的过程中,逐步解决多种数据质量问题:

数据不一致:比如同一个船员的手机号码,在不同系统中不同。数据不一致,将导致最终的报表可能数据有冲突,影响运营和决策;解决数据不一致问题,一般是先确定业务规则,然后在数据整合系统中实现该业务逻辑。

数据丢失:多种原因可能导致数据丢失,比如个人隐私,像船舶AIS状态。采用敏捷大数据有多种数据拟合模型,可以用于对缺失的数据进行推测补充。

数据孤岛:来源于不同业务系统的数据其目的并不是为分析设计。使用大数据技术建立360度的业务模型,比如客户画像,依赖海事全局的大数据中心。该大数据中心整合了各个业务部门、各个业务流程、各个渠道的数据。

3.6数据中心子模块

数据中心子模块以敏捷大数据平台本身的数据存储系统为核心搭建。它是一个分布式的大数据存储系统,可用于GB、TB、PB级的海量数据存储和高效读取检索。和传统关系型数据库对比,其存储能力几乎无限,可以通过集群低成本快速水平扩充。同时,它可以对分析,建模,报表,以及第三方系统提供高性能查询接口。亿级记录,实时查询可控制在秒级。

3.7建模分析子模块

建模分析子模块主要是数据挖掘模型支持,包括聚类、分类、回归、支持向量机等10多种不同的数据挖掘模型。这些挖掘模型可用于解决各种海事大数据分析模型,这些模型同样也是通过可视化组件的形式提供:

4航运船舶大数据研究的结论

4.1事故关联分析

关联分析,即利用关联规则进行数据挖掘。关联规则是指几种事物之间存在的因果关系。例如在船舶碰撞事故中,瞭望不当和疲劳之间的相关性就是一种关联规则。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如“90%的碰撞中,当了望不当时,值班人员总是处于疲劳状态之类的知识”。

关联规则挖掘旨在建立数据项间潜在相互关系的模型,并用规则的形式表示出来。其中支持度 是关联规则中的一个重要概念, 表示包含某个事务在数据库中所占的比例。

内河航线固定,事故与其发生河段存在着很大的相关性, 海事管理部门的经验性的分析主要是集中在几个重点航段中的海事发生率。但数据挖掘技术的优势可以通过多个数据分析主题的关联, 在更高层次上对数据进行泛化, 从而得出优于个人经验的相关结论。通过对海事事故进行关联分析,确定导致事故的客观或主管因素,从而可以制定有针对性的预防和救治措施,以预防事故发生。

4.2事故聚类分析

聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。聚类分析把海事事故自动分组,再对每一分组进行关联查询,特征化,即可得到该组事故的关键特征。由此,可以判断导致特定类型事故发生的主要因素,从而可以制定有针对性的预防和救治措施,以预防事故发生。

4.3船舶航行轨迹聚类分析

通过提取船舶AIS数据,采用KMeans聚类技术对船舶的航行轨迹进行刻画和自动分组,并以形象的可视化形式进行展示见图5。

·航道预警分析

·在船舶密度达到一定阈值时,系统报警,预防事故发生。

·分析航道使用率

·分析航道使用密度和事故的关联性

·最繁忙航道

·航道使用情况随时间、季节、水文、气象等变化

4.4河道交通流量预测

通过测试,完全实现了预先设定的测试目标,基本验证了敏捷大数据技术在海事当中应用的价值和可能性,为正式立项和推广奠定了坚实的基础。通过对AIS、签证、违章的数据清洗整合,克服了数据存储方式导致的抽取耗时高、数据质量、海事业务知识积累不足的困难。通过抽取几个维度的信息,建立了一个能对运行船舶是否违章进行实时预测的模型。

5未来展望

5.1建立船舶完整数据链

打通各个业务系统的数据,消除信息孤岛.整合AIS轨迹、签证、违章、船员、货物等各个业务系统及外部数据,建立一个全方位的船舶信息中心。实现船舶监管的立体化。

5.2通過数据挖掘提升监管介入

通过对海事数据建模分析,提高对违章、事故的防范能力,通过数据预测结果,优化监管流程、监管介入时间及地点,精准监管,提高监管效率。

5.3数据辅助决策

通过大数据中心的建立,对各个业务进行建模分析,优化流程,辅助决策。改变以往的凭经验、拍脑袋的主观决策方式,寻求通过数据层次的支持来辅助决策的方式。

参考文献

[1] 刁莹. 用数学建模方法评价存储系统性能[D].哈尔滨:哈尔滨工程大学,2013.

[2] 符青云.面向大规模流媒体服务的高性能存储系统研究[D].成都:电子科技大学,2009.

[3] 王玉林.多节点容错存储系统的数据与缓存组织研究[D].成都:电子科技大学,2010.

[4] 罗东健.大规模存储系统高可靠性关键技术研究[D].武汉:华中科技大学,2011.

[5] 刘洋. 层次混合存储系统中缓存和预取技术研究[D].武汉:华中科技大学,2013.

[6] 任崇广.面向海量数据处理领域的云计算及其关键技术研究[D].南京:南京理工大学,2013.

[7] Pavlo,A. et. al. A Comparison of Approaches to Large-Scale Data Analysis[D].In Proc. of ACM SIGMOD, 2009.

[8] Chaiken,R. et. al. Scope: Easy and Efficient Parallel Processing of Massive Data Sets[D].In Proc. of VLDB, 2008.

猜你喜欢
关联分析数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于随机函数Petri网的系统动力学关联分析模型
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究