城市地下管网运维大数据预处理技术研究

2020-08-11 04:19谈文蓉王金壅曹新悦雷宇琦
关键词:差值插值分段

谈文蓉,王金壅,曹新悦,王 洋,雷宇琦

(西南民族大学计算机科学与技术学院,计算机系统国家民委重点实验室,四川成都 610041)

在城市建设中有错综复杂的地下管网,随着城市综合管网基本建成以来,各种市政管线基本覆盖城区,较好地保证了城市的社会和经济发展.然而经过发展修建的管路严重老化,当面对频繁检修、交通管理困难等挑战时,城市建设“先地上、后地下”的建设模式导致城市管线建设和运行体系与城市发展需求不匹配,翻新旧管线、增建管线、提高管线维护效率、降低管线故障频率及附带损害等对在新时期的城市建设和发展,具有重要意义[8].随着城市化的加速推进,城市地下管线的铺设长度也在逐年增高.每个城市在建设过程中都会产生巨大的地下管网数据.管线铺设长度提高导致其覆盖密度增大,在城市道路及建筑物周边形成“蛛网”一般的管线群或管线网.当城市建设或交通事故等导致管线损坏时,这种密集、混乱的管线将会增大开挖修复管线的难度,同时会因支护困难带来周边土体沉降开裂、路面围护占用道路阻碍车流等一系列问题,产生严重的经济和社会成本[7].在GIS地里信息的基础上,结合地下管线探测技术,实现地下管网日常运行分析评估,以信息化技术支撑并指导管网管理工作.

城市地下管网工程建设运维大数据及安全管控技术包含针对市政地下管线和道路桥梁工程建设运维安全监测、智慧管控平台及应急处置体系的系列技术,主要包含了市政基础设施、消防安全、安全生产、环境安全、综合应急等多种数据的采集和预处理技术,城市地下管网监控数据主要是监测管理水、电、燃气、通信等线路管网和道路交通等.在智慧城市发展的背景下,对地下管线系统监测是城市生命线工程的重要部分,地下管网数据智能化建设的智能检测系统,针对地下管网数据存在各种风险进行监测,由于城市地下管网数据的特殊复杂性以及需要数据的难度,对文献[1-2]基于二次差值的彩色图像可逆隐藏、分段时间差值法行波故障测距展开研究,美国奥本大学和澳洲悉尼大学也对其研究[3],但上述结果均应用在图像和限元设计中,得出的数据冗余大且不能准确的应用在地下管网建设中.所以Tian差值扩展技术得到的数据不能够满足现有系统所需的数据要求.论文[4]基于分段三次Hermite插值的树叶拟合比较,主要分三段比较Hermite插值方式的优劣,不能用于地下管网多重复杂的数据中.文献[5]和文献[8]基于快速残差插值和卷积神经网络的去马赛克算法都是针对色彩图像信息的插值方式进行计算,而纯数值计算插值运用分段差值算法更加合适和准确.

以丁香路2019测点为例,长期地下管网管理数据形成的历史曲线如图1所示:

图1 丁香路2019测点历史数据Fig.1 Historical data of 2019 measuring points on Dingxiang Road

本文利用分段差值扩展和非线性Delta误差技术方法等对数据处理,参考基于分段差值扩展的彩色图像可逆数据隐藏,并把分段差值扩展技术应用在城市地下管网数据中,提高了智能检测系统数据的有效性.

1 地下管网数据采集和处理

经过对数据的准备,设定目标数据,利用数据预处理过程包含数据挖掘、数据模式表示、等过程最终形成结果的解释与表达,体现知识的过程.其中基本功能包括数据采集(包括 温湿度、pm2.5、pm10、气体、)、建设(自欧东测斜、全站、自动沉降、自动水位、应变计)等、远程调节和手动调节两种、查询地下管网数据、监测地下管网环境数据、地下管网视频数据等功能.以地下管网环境监测数据为例子,对环境传感器和数据采集器的规格、位置,多少米安装一个以及监控摄像头的安装位置有一定的标准,本工程中,视频监控设备100米安装一个,环境监测设备和环境数据采集设备200米安装一个,一般情况下,安全监测系统在地下设置了大量的传感器,可以采集管线的原始监控数据.在基础数据库中选择一些有代表性的时间序列数据训练和特征提取、模式识别,并对训练结果进行数据分析和存储.而对于一些数据呈现出不完整、无规则,需要通过数据处理方式转化成一定规则的数据.在此过程中应用到数据数据插值和数据解压算法进行处理.

2 非线性DELTA误差技术管网数据压缩算法

地下管网数据监测平台在24小时不间断运行过程中会产生海量监控时间序列,这些时间序列表明建设和运维阶段管网领域的工作量和状态,利用时间序列发觉高价值、高可用、高密度的数据进行分析,帮助决策者决策.在分析过程中大量数据如何存储传输是关键,既不能丢掉有用数据,同时也要考虑数据的安全性能,数据传输存储阶段需要存储设备、网络资源,如果处理不当会影响系统平台运行效率和数据的真实准确性[9-18].根据地下管网数据变化值观察,环境数据等值变化幅度相对较小,不同路段地下管线数据变化较大,但同一路段地下管线数据变化较小,变化越小的数据越没有变化特征很难分析和提取,需要对数据压缩,本文章中运用非线性Delta误差技术对所用到的数据源进行实时解压缩[19],非线性Delta误差技术是LZW压缩和游程长度压缩相结合的改进型算法[1].

2.1 管线监控类数据字典

为提高管线获取速率,对丁香路监测点数据设计数据字典(部分)如下表1,利用可变压缩率过程将地下管网监控数据分类:

1)在预警线下的数据

在预警线下的数据变化较小、数据量大、压缩率高.

2)在安全和预警中数据

数据量小、有较小预警作用、压缩率低.

3)超过预警值数据

超过预警值数据是数据监测过程中主要数据,数据量小、用无损压缩,降低数据冗余,提高数据存储率.下面是对管线环境数据进行压缩监测值,算法数据字典如下:

表1 管线环境数据监测表Table 1 Environmental data monitoring of pipeline

0 1 4 A 0 2 I I 3 3 2工作面T 1 2 0 1 9—0 1—0 1 0 6:1 9:3 3 0 1 4 A 1 0 I I 3工作湿度 2 0 1 9—0 1—0 1 0 9:1 6:3 9 0 3 2 A 0 3 W总回风巷 2 0 1 9—0 1—1 1 0:4 2:2 4 0 3 2 A 0 5 I I 4 1 5工作面T 1 2 0 1 9—0 1—0 1 0 9:1 6:3 9 0 3 2 A 0 6 I I 4 1 5工作面T o 2 0 1 9—0 1—0 1 0 9:1 6:3 9 0 3 2 A 0 7 W风速 2 0 1 9—0 1—0 1 0 9:1 6:3 9 0 3 2 A 0 8 一氧化碳浓度 2 0 1 9—0 1—0 1 0 9:1 6:3 9 0 3 2 A 0 9 I I 4 1 5工作面C O T环2 2 0 1 9—0 1—0 1 0 0:0 2:4 5 0 3 2 A 0 1 0 S 2 3 1工作面温度 2 0 1 9—0 1—0 1 0 0:0 2:4 5 0 3 2 A 0 1 1 S 3 2 8工作面T 2 2 0 1 9—0 1—0 1 0 0:0 2:4 5 0 3 2 A 0 1 2 I I 3 8 9工作面T o 2 0 1 9—0 1—0 1 0 0:0 2:4 5 2 0 1 9-0 8—2 4 0 8:3 1:0 5 5 5 4 1 7 2 5 4 3 4 1:1 0 1 2 0 1 9-0 8—2 4 0 8:3 1:0 5 2 1 6 9 2 4 3 0 1 1:7 2 0 2 0 1 9-0 6—1 9 1 5:5 5:5 4 8 0 2 3 3 1 0 4 6 1:7 6 2 0 1 9-0 8—2 4 0 8:3 1:0 5 4 9 3 7 0 3 5 2 8 9 1:9 3 2 0 1 9-0 8—2 4 0 8:3 1:0 5 6 6 2 4 3 1 1 2 7 4 0 1:5 2 2 0 1 9-0 8—2 4 0 8:3 1:0 5 2 0 7 7 4 3 3 0 3 1:6 8 5 2 0 1 9-0 8—2 4 0 8:3 1:0 5 1 5 8 9 7 6 2 8 4 1:5 5 9 2 0 1 9-0 8—2 4 0 8:2 9:2 3 5 6 2 7 3 6 7 2 7 0 1:7 7 2 0 1 9-0 8—2 4 0 8:2 9:2 3 4 0 8 7 5 3 5 2 5 3 1:7 8 2 0 1 9-0 8—2 4 0 8:2 9:2 3 2 9 8 5 4 2 8 6 4 1:3 4 5 2 0 1 9-0 8—2 4 0 8:2 9:2 3 3 0 7 7 4 3 6 5 2 1:4 7 2

2.2 非线性delta误差压缩算法实现过程

2.2.1 压缩算法的参量含义

样本:采集样本的实时数值表示:rtPro;

δ0:一级预警限制;

δi:多级预警限制;

rtPro:记录上一次样品实时数值;

报警下限:测试点的报警值最小值,Ldate,如果测试点的值是空那么结果是null

报警上限:测试点的报警值最大值,Hdata,如果测试点的值是空那么结果是null

压缩参数值:σ

SaveDate:判断是否把值存入数据库

2.2.2 实时变化数据压缩描述

在对地下管线数据的监控过程中,由于地下环境数值变化范围较小,所以说地下的环境相对于稳定的,但是一旦数值变化较大则是发生事故,那么在监测过程中,数据量最多的就是变化较小的数据,这些数据是要重点压缩的;还有一些数据是处于这些安全的数据和报警值的最大值和最小值之间的数据,这些数据的比例也是较多的,所以也是需要对其进行压缩;另外一些数据就是在报警值最大值之上和最小值之下的数据,这些数据是最主要的数据,压缩这些数据的时候是需要进行无损压缩,下面是对这三种不同的数据进行压缩的过程:

①报警值数据处理:σ=1,有些数据是报警数据也就是敏感数据,这些数据不压缩,处理规则如下:

③多级预警压缩:

这些数据是当前的数据大小和前以恶搞数据大小相比较如果两个数据之间的误差大于φi时,那么把这些数据记录在数据库中.这些数据用变化φi的值的大小来进行测定,下面是这些数据的数据处理规则:

反之,则:

④数学方法描述本项目的数据压缩率:

结合上面的数据处理和压缩过程,数据的压缩率用(4)表示.下图2中用直线代替数据的压缩率.

图2 非线性压缩参数区间变换模型Fig.2 Interval transformation model of nonlinear compression parameters

2.3 小结

经过对地下管线数据的三种数据进行压缩过程,不同数据区间的数据值采用不用的σ进行分段误差数据测量,这种方法实现了处于稳定的安全型数据的较大的压缩比例,对于处于非安全型数据,也就是那些处于敏感阶段的数据进行无压缩的数据误差处理原理.在地下管线数据处理过程中,由于地下环境变化较小,所以大多数数据是相对安全和稳定的数据,这些数据也是在处于安全数据范围内的数据,这些数据达到了非线性实时数据的压缩原理,去除了冗余量.运用非线性Delta数据压缩后的数据曲线如图3所示.

表1中说明,这些传感设备采集的时间序列值中压缩比最低的是1:50,最高是1:723,数据的不同,算法压缩比例也不同,算法的压缩比越高,则数据是第一类数据,数据变化小平稳,压缩比低则数据变化较大,如下图2和3是压缩比低和高的两个点时间序列曲线:

图4是管线相对湿度变化值,在明显变化时候是极限或者出现预警状况,下图5是温度变化值,算法压缩后,测点数据存储在云数据库中.对样本个数中的12 000条数据提取,提取成功有用数据10 000条,利用率达到83.3%.

图3 非线性Delta压缩后的历史曲线Fig.3 History curve after nonlinear delta compression

图4 管线相对湿度变化值Fig.4 Change value of relative humidity of pipeline

图5 温度变化值Fig.5 Temperature change value

3 基于分段差值法的地下管网数据解压缩算法

机器学习和数据挖掘在很多应用中能处理完整的数据,在数据源的时候就对数据压缩,减少冗余数据,上述4种方式解压缩的数据并不是完整的,有很多数据缺失,然而我们的监测地下管线系统需要的是把解压缩过程中缺少的数据进行填补,所以利用分段差值算法对解压缩的数据进行填补,分段差值法是首先对数据解压缩,是数据压缩的逆过程,不同数据的压缩算法对应不同的解压缩算法过程.

数据插值法有Hermite插值法、Newton插值法、分段差值法等等,本市政工程建设运维数据研究中利用分段差值法结合工程建设中数据的实际特点,测点的数据6s采集一次,采集的数据存储在以时间为名的文件中[12].循环遍历云数据库中不同时间段的数据表,利用表中相邻两个数据的时间差[ti,ti+1]为区间,若两个区间值大于43 200s(12小时),说明是环境传感设备不能正常工作,那么这个时间段说明是没有数据[16-17],不能插值,把需要插值的值进行等分,等分时差6s,插值区间是(ti+1-ti)/6,分段差值则数据连续,每段数据需要插入的数值为:

vali表示ti时测点数据值、vali+1表示ti+1时刻测点数值,Rand(-1,1)表示 -1,1 间随机数,对异常数据,先计算相邻值平均值,用平均值代替异常值再次测算[14],分段差值法实现步骤如下图6所示:

图6 分段差值解压算法过程Fig.6 Algorithm process of segmented difference decompression

4 结论

本文主要是对城市地下管线数据采集和预处理技术进行研究,经过一系列的数据解压、反解压、数据插值法、数据分析、数据挖掘、数据存储等过程,计算出有利于地下管线建设运维的数据,在建设期和运维期,地下管线存在大量的结构数据和非结构数据,利用分段差值算法处理垃圾数据和对决策者有价值的有效数据,为地下管线数据平台提供数据支撑,为智慧城市管理者提供数据决策.本文所研究数据处理方法主要应用在呼和浩特市地下管线监控平台中,每个城市在建设和运维期都会存在大量的数据,本文的方法同样可以应用在其他城市的地下管线数据分析中.

通过算法实现分段插值算法更适用于地下管线数据处理,与Tian差值扩展技术而言,本算法更加准确,通过与其他算法的比较分段差值方法得到的数据能够为地下管网信息平台提供可靠数据,更适用于这种城市大量管线数据的需求,大大提升了城市地下管网数据分析水平和管理工作.

猜你喜欢
差值插值分段
滑动式Lagrange与Chebyshev插值方法对BDS精密星历内插及其精度分析
红细胞压积与白蛋白差值在继发性腹腔感染患者病程中的变化
二元Barycentric-Newton混合有理插值
分段计算时间
基于pade逼近的重心有理混合插值新方法
关注
分段函数“面面观”
清丰县新旧气象观测站气温资料对比分析
寻求分段函数问题的类型及解法
3米2分段大力士“大”在哪儿?