分析一站式可视化数据运维管理平台建设中全链路的应用价值

2020-02-02 03:57梁仲峰陆冰芳

中国管理信息化 2020年2期

梁仲峰陆冰芳

[摘要]随着“云大物智移”技术成为越发成熟的前沿技术，一定程度上颠覆了电能质量监测、电能量数据、配网设备数据分析等电网业务的传统信息处理和数据分析方法。目前，公司数据应用需求呈现出显著的数量激增、类型多样、响应敏捷要求持续提升的发展态势，对各业务系统的数据融合、数据共享也提出更多更高的要求，研究分析能力、数据处理能力更强的数据分析方式具有重要的意义。在此基础上，一站式可视化数据维运管理平台是大数据背景下的必然发展方向，而在这个管理平台建设中，全链路數据管理方式发挥着重要作用。本文以全链路数据管理为主题，分析全链路的应用价值，旨在为相关研究提供借鉴。

[关键词]一站式;可视化;数据运维管理平台建设;全链路;应用价值

doi：10.3969/j.issn.1673 - 0194.2020.02.073

[中图分类号]TN931.3[文献标识码]A[文章编号]1673-0194（2020）02-0-03

1 全链路数据管理概述

大数据全链路数据管理的前期基础工作是归纳行业领域大数据处理流程，总结现有的大数据处理平台在传统大数据处理的最基本流程，如图1所示。通过对大数据各个基本流程的接驳，向上屏蔽底层数据传输、环境配置等细节，向数据开发人员提供全链路数据开发工具，使数据开发人员能从烦琐的数据传输、环境配置等任务中解放出来，专注于业务敏捷开发。同时，由于数据开发会不断产生新的数据，数据管理的概念也因而成为日常应用过程中的一个关键点。因为数据会不断地衍生出新的数据，任何数据改动都会导致一连串的连锁反应。为了理清大数据处理过程中新数据与原有数据的关系，评估对现有数据的改动会造成的影响和风险，需要记录数据从产生到被消费的元数据，开展全链路数据管理功能具有充足的必要性，数据采集、数据开发（离线/实时计算）、存储、线上回流、可视化展示等是全链路数据管理的基本步骤。

1.1 数据采集

数据采集是对数据进行ETL（Extract-Transform-Load）操作，对数据进行抽取（Extract）、转换（Transform）、加载（Load）到目的端的过程。对于大数据采集系统，主要分为以下3类：系统日志采集系统，如Flume;网络数据采集系统，如Apache Nutch、Crawler4j、Scrapy等;数据集成系统，如MySQL、Oracle、NoSQL等。

1.2 数据开发

数据开发是最复杂的一个环节，在这个环节中，用户可以使用批处理工具、实时流处理工具和机器学习算法进行开发，挖掘出潜藏在海量数据中的价值。但是无论采用何种技术，只要使用开源命令行的方式，执行错一个命令，在上万行的命令里，再重新找出错误的命令将会付出比较高昂的代价。

1.3 数据储存

数据存储是对海量异构数据提供存储功能，为了满足企业数据多样化的存储和应用需要，数据存储应含结构化数据存储、非结构化数据存储和时序数据存储。

1.4 数据回流

数据回流指将处理好的数据，回到非分布式数据库上供门户系统展示使用。由于门户系统展示具有高并发的特点，分布式数据库不适用高并发查询。因此需要将用户利用分布式集群计算好的结果数据回流到非分布式数据库，再提供给门户系统做展示使用。

1.5 可视化展示

可视化展示指提供常用普适的数据可视化功能，使开发人员能更便捷地探索原始数据，或更直观明了地展示开发成果数据。全链路数据管理就是为上述各个步骤提供一个无缝衔接的集成开发环境（IDE），以降低数据开发人员的技术门槛，充分调动企业的大数据挖掘活力。目前，行业给出的解决方案是将各个步骤的功能封装成基于模板的可复用的自定制模块。在自定制模块集成方面，通过基于Soot控制流的静态代码检测算法，检测出开源算法中对输入输出参数的I/O文件操作，并给用户修改提示。由此，用户无须解决底层组件的编程集成问题，只要通过选择模块并进行配置（如配置数据源、配置机器学习参数等）即可完成大数据采集、数据开发、存储、线上回流、可视化展示等任务。

2 全链路数据管理的价值

大数据的结构模型和核心路径是通过采集、存储、处理、分析、应用、可视化展现的大数据全生命周期，即整个大数据链条。在多渠道的数据集成、企业级大数据存储、离线批处理计算、实时流处理计算、可视化工作流开发IDE等方面都存在重要的作用。

2.1 有利于多渠道数据集成技术研究

目前，数据集成平台仅根据应用需求接入了部分结构化数据，未包括全部系统、全部业务数据表;已接入的数据中未含图片、文件、音视频等非结构化数据;同时也未提供实时或准实时数据，调度、计量等准实时数据主要通过海量准实时数据平台提供。为了扩大平台的数据接入范围，需研究离线导入包括MySQL、Oracle等主流关系数据库的结构化数据技术。研究离线导入包括文本数据、日志数据、语音视频等非结构化数据技术。由于业务系统庞大，传感器测量技术、通信技术和计算机技术等在电网中的广泛使用，平台需要集成的结构化数据、非结构化数据和实时数据量非常庞大。为了支持多渠道数据接入功能，需要研究高强度数据压缩及加密传输技术，以保证工作顺利、安全进行。

2.2 有利于企业级大数据存储技术研究

为了提升数据集成平台为高端应用提供数据支撑的能力，数据集成平台需要具备大数据存储能力。大数据存储包含结构化数据存储、非结构化数据存储和时序数据存储。从存储技术来看，单一的数据存储技术很难满足企业数据存储和应用的需要，应研究多类型存储支持技术，包括OLAP数据库、内存数据库、分布式文件系统、SQL、NoSQL等。从数据资产安全方面看，数据资产对企业而言是一笔非常重要的财产，平台应充分考虑可靠性建设，研究存储系统高可靠容灾设计，即使某些节点崩溃，数据也能从别的备份中寻回。从可持续发展方面看，电网数据量增长速度快，存储系统应具备动态扩展能力，即存储系统可动态地随企业数据量增加，实现从G到P级的动态扩容。为了保证平台对高层应用的数据供给服务的稳定性，平台需要具备不停机动态扩容的能力。

2.3 有利于离线批处理计算技术的研究

针对离线批处理系统具有先存储后计算、数据的准确性和全面性要求高等特点，为了支撑企业数仓建设中的数据清洗、转换、汇集、主题提取等数据处理需求，需要研究MapReduce、Hive、Pig等批處理工具，以支持大数据计算作业。研究Spark分布式内存计算框架，在内存中对数据集进行快速多次迭代计算，以支持复杂的数据挖掘算法和图计算算法。研究丰富的作业调度策略支持，包含分钟、小时、天、月级周期或非周期的任务执行策略，以支持高级应用的数据需求，使高层应用可以按需自定义作业周期。

2.4 有利于实时流处理计算技术的研究

电力大数据的数据量大、种类繁多与产生速度快等特点，使状态监测与电能计量等数据逐渐构成了大规模数据流。研究全链路数据管理有利于处理引擎处理这些大规模实时数据，以此覆盖实时要求极高的流式作业场景。研究基于Spark Streaming或Storm技术，以满足毫秒级的实时计算场景需求，如实时推荐、用户行为分析等。

2.5 有利于实现可视化工作流开发IDE的研究

全链路数据管理能促进拖拽式的可视化工作流开发的IDE研究，研究向上层屏蔽环境配置等技术细节，使用户可以通过简单的Web式拖拽操作完成整个大数据工作流的任务开发，使业务人员和数据开发人员能够专注业务问题，而不是处理环境配置问题。研究大数据基本流程的模块化封装，以向用户提供丰富的处理器。研究包括离线数据导入导出、在线实时数据接入、Java程序、Shell脚本、Hive脚本、机器学习等多种任务的模块化封装和配置集成。

2.6 有利于非结构化数据检索及检索分析技术的研究

全链路数据管理能促进文本搜索引擎研究，向用户提供友好的分布式多用户能力的全文搜索服务。研究支持TB级别的全文检索应用。研究在万级纬度、千亿数据规模下向用户提供毫秒级高性能检索分析服务，以满足用户的检索分析场景需求。

3 结语

全链路数据管理方式能增强数据处理、分析能力，能为公司各业务部门提供强有力的多元化数据分析计算技术支撑，能有效实现业务数据全过程信息化、标准化管控，实现各专业数据流通和协同，促进数据共享和融合，挖掘数据潜在价值，支撑和促进公司产业发展新布局的落地，使南网公司“一主两翼、国际拓展”产业发展新布局不断推进，是跨专业的业务数据分析应用、各专业数据的共享和融合业务改革的必然方向，在一站式可视化数据运维管理平台建设中具有重要作用。

主要参考文献

[1]赵丽梅，张花.基于全链路平台构建的高校数字图书馆联盟运行体系研究[J].图书馆学刊，2019（4）.

[2]王晓磊，马梅芳，魏乐，等.基于多载体可视化展现平台的企业业务融合的研究与应用[J].计算机产品与流通，2017（7）.

[3]周帮，周维，黄文德，等.一种面向GNSS应用的数据共享平台实现方法[J].全球定位系统，2017（6）.

[4]丁继成，吴谋炎，赵琳，等.基于嵌入式平台的GNSS/INS组合导航时间同步方法研究[J].遥测遥控，2016（3）.