风廓线雷达数据的分布式云存储设计及实现

2019-01-22 06:54陈晴陈晔峰王俊骄徐海明高婷杨明洪月英
现代计算机 2018年35期
关键词:数据量分布式气象

陈晴,陈晔峰,王俊骄,徐海明,高婷,杨明,洪月英

(1.浙江省气象信息网络中心,杭州310017;2.杭州市气象局,杭州310000)

0 引言

随着气象数据数量的增大,传统的气象数据存储方式在实时大数据存储、实时处理、响应时间等方面提出了很大的挑战,气象数据要在高并发情况下高速存储,同时还需要在毫秒级的时间内提供数据产品服务,传统的气象数据存储处理方式已满足不了大数据的业务服务需求。因此,探讨如何提高大数据存储的性能;如何建立灵活、稳定、可用的数据存储服务是亟需解决的问题[1-2]。

风廓线雷达数据对气象预报具有很重要的价值,数据具有体量巨大,需要录入数据的雷达包括本省的7部与全国范围内的90部雷达资料,每部雷达近6分钟产生一个文件,一天近一百四五十万条左右。而且数据响应速度要求快等特点,传统的数据存储模式难以适应气象大数据的需求。

本文旨在结合风廓线雷达数据的特点,基于分布式数据存储技术,开展大数据环境下风廓线雷达数据的准确、高效、快速访问,规范业务流程,实现风廓线雷达数据的分布式存储,为应用提供数据支撑。

1 关键技术

分廓线雷达数据属于结构化数据,结构化数据采用分布式关系型数据库存储,获取低延迟与高并发吞吐能力。分布式关系型数据库采用传统的表-字段形式存储,将数据表水平拆分到后端的每个分数据库的分表中,分布式关系型数据库中由每个分库负责每一份数据的读写操作,从而有效地分散了整体的访问压力,提高了大型数据的访问效率[3-5]。数据的分布式云存储采用了分库分表技术,见图1。

图1 分布式云存储实现技术

2 研究方法及实现

2.1 风廓线雷达数据存储标准规范的建立

通过梳理风廓线雷达数据资源,以支撑气象数据预报、科研应用需求为目标,参照CIMISS系统数据存储规范的标准,建立风阔线雷达数据的云数据存储标准规范,见图2。

图2 风廓线雷达数据云存储标准规范

2.2 制定云存储策略

考虑到气象数据自身的特点以及气象应用程序能够快速地获取数据,气象云存储中,实时与历史数据是一体化的,因此数据量极为庞大。传统的关系型数据库存储管理系统可以满足数据的一致性和可用性,在小规模数据量时可以达到很好的效应,随着数据量与应用范围的增长导致节点增加,需要考虑数据同步和分区失败等开销,性能会快速下降,因此数据分布式存储是必然选择[1,6]。

开展分布式云存储技术研究,结合风廓线雷达数据的特点制定相关策略,对分布式云存储数据库按站号分库,按资料时间分表。通过将数据表水平拆分到后端的每个分数据库的分表中,分散了整体的访问压力,利用分布式特性,并行访问,取高并发吞吐能力,提高数据的访问效率。将数据同步到分布式云存储中。

2.3 数据完整性检验

对大数据环境下数据的完整性进行检验,提高数据的正确性、有效性和一致性。

验证方法:将云存储数据中的数据与传统数据库中的数据作对比检测缺测数据,根据数据的时间属性,以行为单位进行检测,缺测数据包括两种情况:①数据的时次缺;②数据的要素缺。对于缺测数据,读取原文件,将数据补入。

验证频率:每小时对云存储中的数据验证一次。

图3 风廓线雷达数据的云存储表

2.4 研究成果与应用(如图 4)

3 分布式云存储性能测试

根据应用场景的不同,对数据分别按照时间尺度,空间尺度的不同获取样本,在网络环境和存储数据量等测试环境相同情况下,分别调用分布式云存储和SQL Server数据库中的样本数据获取查询时间,在剔除异常值后采用多次取样求平均的方法对两种数据环境下调用样本数据的时间进行对比。

时间尺度取样数据:采用单站的任意高度多个时间的垂直剖面的数据进行测试。

图4 云平台可视化组件及应用

图5 时间尺度样本统计分析结果

空间尺度取样数据:采用多个站点一段时间内不同高度场的数据进行测试。

图6 空间尺度样本统计分析结果

结论:在网络状态相同情况下,对分布式云存储与SQL Server数据库两种数据环境调用数据所耗的时间进行测试对比,结果显示分布式云存储中数据读取性能较SQL Server数据库中数据读取性能有了比较大的提升。

4 结语

本文设计和实现了风廓线雷达数据的分布式云存储,结合数据的特点制定分布式云存储策略,对云存储数据库分库分表,分散了整体的访问压力,利用分布式特性,并行访问,获取低延迟与高并发吞吐能力,提高数据的访问效率。对大数据环境下数据的完整性检验,提高数据的正确性、有效性和一致性。研究成果通过浙江气象云大数据平台的数据服务接口为本地化气象业务应用提供数据支撑。

猜你喜欢
数据量分布式气象
气象树
专栏:红色气象 别有洞天
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
浅析分布式发电对电力系统的影响
大国气象
基于预处理MUSIC算法的分布式阵列DOA估计
分布式并联逆变器解耦电流下垂控制技术
电力营销数据分析中的数据集成技术研究
家庭分布式储能的发展前景