密度峰值聚类算法在管廊大数据挖掘中应用

2022-04-09 19:21马福军胡力勤
机电工程技术 2022年2期
关键词:管廊峰值聚类

马福军 胡力勤

摘要:为了准确、实时发现地下综合管廊运行和维护中的风险,将密度峰值聚类算法分析应用到地下综合管廊异常数据挖掘。密度峰值聚类算法分3个环节,离群数据的取舍、聚类中心的确定和以Voronoi图单元为基础的数据映射分配。通过实验分析,成功实现地下综合管廊环境中氧气浓度的大数据聚类,并得到不同氧气浓度数据聚类簇图像,直观地观察到氧气浓度的数据状态,通过该算法得到的数据簇聚类效果非常具有工程实际意义,能准确、实时预测管廊风险。

关键词:密度峰值聚类;地下综合管廊;大数据挖掘

中图分类号:TP311.1

文献标志码:A

文章编号:1009-9492f 2022)02-0094-04

0 引言

地下综合管廊是指在地下空间设置专供各种公用事业管线敷设的隧道或沟道,如电力、燃气、通讯、供水排水、热力等各种管线。地下综合管廊密闭空间内,各种管线的相互干扰,容易发生电缆火灾、燃气泄漏造成的爆炸等影响管廊安全运行和周边环境的安全[1]。因此,挖掘管廊运维大数据中的异常数据,及早发出管廊运维的风险预警和报警具有非常重要的现实意义。目前,地下综合管廊风险预警的研究比较少,研究成果的应用性不强。

张勇等[1]利用模糊数理论、专家权重法和贝叶斯网络理论对管廊风险给出确定的风险概率。庄丽等[2]用耦合协调理论在地下综合管廊风险评价中的研究,用管廊内风险因素之间的耦合度高低,用熵权法给风险因素客观赋权,推断管廊发生某一风险的大小。柴康等[3]提出模糊聚类方法和多灾种耦合理论预测管廊风险概率,从而采取措施降低事故概率。本文提出用密度峰值聚类算法挖掘管廊大数据,发现管廊数据的异常变化,从而及时发现地下综合管廊险情并预警。王新颖、尹文君等[4-5]提出了基于深度置信网络深度学习的预测方法,可以实现城市燃气管道的风险模式识别和大气污染识别。王玉琪等[6]通过数值模拟研究提出综合管廊燃气泄漏时,在燃气舱中燃气浓度分布与舱室结构、时间、气流等参数相关。Damodar Reddy等[7—8]报道了不同的聚类算法,一种基于Voronoi图的新型聚类算法,利用最大的空Voronoi圆来定位由Voronoi顶点表示的更接近的点,然后通过迭代构造新的Voronoi图来有效地合并这些原型所表示的点,从而产生所需的簇;一种基于截断距离和自适应的聚类算法。

国内外对地下综合管廊的运行风险研究是当前的热点,但风险的预测基于有限的风险因素作为预测模型的输入参数,导致风险预测的准确度受限;或基于风险的概率统计与分析,也同样存在风险因素的设计不全面科学而导致预测结果失真。同时,所查阅到文献描述方法,在风险预测的实时性方面没有得到解决。本文通过有效的峰值密度聚类算法实现数据挖掘,提高风险预测的准确度,同时,通过对实时数据的挖掘,从而提高风险预测的实时性。

1 综合管廊大数据密度峰值聚类算法

1.1 管廊设计运行数据聚类中心的确定

综合管廊中各类运行大数据,都会有聚类中心,数据聚类中心代表管廊的运行状态。管廊某监测指标(例如管廊空气的氧气含量)数据集合Oi聚类中心的确定需要数据的密度峰值p。在聚类中心数据集合Oi={Oj},Oi为管廊某一类传感器采样的数据点,是聚类中心数据集合的元素,j=1,2,…,n。在集合数据中,在管廊正常运行状态下,必然存在数据Oij,数据Oij是管廊设计运行数据。本文采用k近邻方法,计算数据集合Oi的数据密度。考虑k近邻内数据点之间的距离,数据Oij与周围数据点的距离与数据Oij密度p成反比例的数据关系。其关系式可表达为:

考虑管廊环境下传感器数据的干扰度因素,数据集合Oi中数据呈现正态分布,该集合的聚类中心的密度是最大的。根据第k近邻方法和密度p计算公式,计算数据集合Oi数据的密度,并将计算所得的密度数据放入集合Density0,再把集合Density0中的数据进行两两比对.直至得到聚类中心ClusterC。结合上述分析,给出管廊数据聚类中心的算法ClusterA (Oi,k):

1.2 离群点的判别与取舍

综合管廊数据依据统计规律呈现正态分布,数据集合Oi={Oj}中数据的局部密度有大有小,按照数据的分布规律,离群点的数据其局部密度必定在整个集合数据的平均密度之下,因此,离群点数据的范围是可以确定的。本文提出用Voronoi图[9]进行离群数据点的查找。Voronoi图以空间划分作为基本数据结构,可以实现数据查询查找,并且有明显优势。对于管廊数据集合Oi,可以生成许多Voronoi单元,数据OJ的Voronoi单元,可表示为VU(Oj)。Voronoi图中的Voronoi多边形称为邻接多边形[10],邻接多边形的生成点称为邻接生成点。数据Oj的邻接生成点可分为一级邻接生成点和h(h≥2)级邻接生成点。

管廊数据集合Oi,要对其中的离群点进行查询判别和取舍可以按如下思路进行。先计算集合Oj数据的局部密度,从而得到所有数据的平均密度,刷选出比平均密度低的数据点,然后逐个判断低于平均密度的数据点是否为离群点。离群点的判别与取舍算法oda0 (Oj,k)。

算法输入:管廊数据集合

//如果数据集合中数据点的反向最近邻是0,则该数据点是离群点;如果数据点的一级近邻都是离群点,则该数据点是个离群点。

Step12. if (Oj is Outlier) then

Step13. odM←delete (Oj)

Step14. end if

Step15.end for

Step16.return Oj

1.3 非离群点(除聚类中心数据点)数据分配

通过上述1.1和1.2的分析,找到数据聚类中心,并且排除离群点数据后,还需要对其余的数据进行类簇分配。數据的类簇分配,本文利用Voronoi图的性质,应用Voronoi图进行数据分配。

Voronoi图的性质:Voronoi图中,Voronoi单元互不交叠,没有公共区域;每一个Voronoi单元内数据与数据生成点的距离最近;Voronoi单元之间的边界数据与邻接生成点之间的距离相等。

通过数据点映射的方法,将非离群数据点映射到以初始聚类中心为生成点的Voronoi图当中。另外,根据Voronoi图的性质,在Voronoi单元之间的边界数据可以分配到任意一个Voronoi单元中。

对于通过Voronoi图获得数据簇,如果数据簇相似,则必须进行合并。本文利用jaccard相似系数[11],比较两个数据簇的相似性。对于两个管廊数据集合A和B,对应两个数据簇,则集合A和B的数据相似性可定义为: 式中:IAnBl为数据簇A和数据簇B,在k近邻数据点与A和B数据中心为半径的相交圆内的数据个数;|A ∪B|为两个网的并集数据个数。

J(A,B)的值越大,说明两个数据簇的相似性越大,则数据簇A和B应该合并。在实际应用中,可设置jacca-rd相似系数一个阀值卢。如果相似系数大于阀值卢,则两个数据簇应该合并。

基于对聚类中心的算法处理和离群数据的算法处理,结合利用Voronoi图数据分配(包括其中相似数据簇的处理),提出获得最终数据簇的算法如下。

算法输入:管廊数据集合

Oi={O1,O2,O3,…,On),近邻参数k,阀值p。

输出:数据簇ClusterD

//去除离群点数据

Stepl: Oi←oda0 (Oi,k)

//通过聚类算法获取聚类中心ClusterC

Step2:

ClusterC←ClusterA( Oj,k)

Step3:依据初始聚类中心生成Voronoi图

Step4:映射数据集合Oi到Voronoi图

Step5:生成Voronoi单元VU

//依据jaccard相似系数,合并数据簇

Step6: fori=l to VU length do:

Step7:forj=l to VU length do:

If (jaccard (VUi,VUj)》β) then:

ClusterD← (VU,,VUj)

Step8:

end if

Step9: end for

Stepl0:其余不合并的数据簇放人ClusterD

Stepll: end for

Step12: return ClusterD

2 综合管廊大数据密度峰值聚类分析实验

地下综合管廊在运行和维护中产生海量的数据,形成大数据。一是管廊本体的属性数据和管廊本体的监测数据。二是管廊的附属设施和环境监测数据,例如管廊的消防、通风、排水系统数据、管廊的环境数据如氧气含量、甲烷含量、温度湿度等。利用密度峰值聚类大数据挖掘能及早发现异常数据簇,并发出预警,从而降低灾害损失。本文应用白行研究设计的管廊自学习综合控制盘网络平台,进行管廊数据的峰值聚类分析。图1所示为自学习综合控制盘网络平台数据架构。图中自学习控制盘通过前端传感器收集管廊大数据,并通过网络层将传输至数据中心存储,配置和运维平台可以读取数据中心数据,进行峰值聚类分析。图中白学习控制盘分布在管廊不同舱室空间,收集包括环境参数在内的各类管廊运行数据,同时通过环形CAN总线实现自学习控制盘之间的数据交换。

本次实验数据分析对管廊氧气浓度变化进行密度峰值聚类分析模拟实验。在标准状态下,空气中氧气的体积百分比为21.7%,用1.3节所述的数据分配聚类算法可得数据聚类簇图形。随后增加空气中的氧气浓度到多个稳定浓度如30%和50%,观察数据聚类簇图形发生变化情形。

本次实验采用windows10系统,64位操作系统,系统内存16C,处理器Intel (R) Core (TM) i5-1035CICPU@1.00 CHz l.19 CHz,程序采用Java语言。每个稳定的氧气浓度状态,通过800个数据形成数据簇。实验中Voronoi图的算法实现参考文献[12]。3个氧气浓度状态21.7%、30%、50%;从左到右对应3个数据聚类簇如图2所示。实验过程中针对不同的氧气浓度,仿真图像上显示数据有较好的集中度,同时在实验过程中氧传感器由于受气流的干扰,数据聚类过程中存在少量的发散,但这不改变整体数据的聚类分析。在工程实践中,当确定一个标准的数据聚类作为正常数据后,可以设定不同的偏差作为异常数据的判定,不同的偏差等级可与不同的风险等级相对应。

3 结束语

通过对管廊内氧气浓度变化的大数据密度峰值聚类算法实验分析,可以得出本文所述数据挖掘方法是可行的,能有效监测地下综合管廊运行的数据簇,解决了地下综合管廊风险数据的实时监测难题,对依靠风险概率统计与分析的手段监测地下综合管廊运行风险创新性的给出了新的解决方案。利用大数据密度峰值聚类算法对地下综合管廊异常数据的监测,为后续建立管廊风险一措施行为模型研究做好准备,最终实现地下综合管廊风险的实时发现和实时管控,最大化减少因风险引起的各种损失。

参考文献:

[1]张勇,谢霞霞,王祥宇,等.基于BN-bow-tie的智慧城市地下综合管廊运维在还分析[J].建设科技,2020(23):58-61.

[2]庄丽,马婷婷。刘兰梅,等.耦合协调理论下综合管廊运维灾害风险研究[J].佳木斯大学学报(自然科学版),2020,38(5):122-125.

[3]柴康,刘鑫.基于模糊聚类分析的综合管廊多灾种耦合预测模型[J].灾害学,2020,35(4):206-209.

[4]王新颖,张惠然,张瑞程,等.基于深度学习的大数据管网风险评价方法[J].消防科学与技术,2019,38(6):902-904.

[5]尹文君,张大伟,严京海,等.基于深度学习的大数据空气污染预报[J].中国环境管理,2015,7(6):46-52.

[6]王玉琪,戚承志,屈小磊,等.地下综合管廊燃气泄漏模拟研究[J].消防科学与技术,2018,37(10):1348-1353.

[7] Damodar Reddy.Prasanta K Jana. Intemational Journal of dataMining[J].Modelling and Management,2014(6):49-64.

[8]杨震,王红军,周宇.一种截断距离和聚类中心自适应的聚类算法[J].数据分析与知识发现,2018,2(3):39-48.

[9]郝忠孝.空间数据库理论基础[M].北京:科学出版社,2013.

[10]张丽平,刘蕾,郝晓红,等.障碍空间中基于Voronoi图的组反K最近邻查询研究[J].计算机研究与发展,2017,54(4):861-871.

[11]张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐系统中的应用[J].计算机技术与发展,2015,25 (4):158-161.

[12]张艳,李强.基于逐點插入法生成Voronoi图的算法研究及实现[J].黑龙江工程学院学报,2016,30(5):22-24.

猜你喜欢
管廊峰值聚类
犊牛生长发育对成年奶牛高峰奶产量和峰值日的影响
基于数据降维与聚类的车联网数据分析应用
基于模糊聚类和支持向量回归的成绩预测
云南省民用汽车保有量峰值预测
基于密度的自适应搜索增量聚类法
湖北:开工建设城市地下综合管廊
我国地下综合管廊建设情况
发达国家综合管廊建设超前
济南将建全国最长综合管廊