知识图谱技术在北江流域水利工程联合调度中的应用

2021-02-18 09:38
黑龙江水利科技 2021年12期
关键词:北江结构化图谱

王 亮

(广东省防汛保障与农村水利中心,广州 510000)

0 引 言

20世纪70年代至今,水利建设智能配置、水利信息资源整合一直是我国的重点工程任务。随着社会经济、城镇化建设的快速发展,水利行业受洪水灾害、水污染、水资源短缺、水利信息人工采集、加工、管理和使用等问题的挑战越来越大,不仅制约了水利行业的可持续发展,而且严重影响了社会经济发展和生态可持续保护[1]。

提高水利信息使用/管理价值,以高效、合理的实现水利工程调度决策工作。2012年初,Google提出了知识图谱技术,其核心是通过组建实体-关系-实体的数据关系组[2],构建网络状的信息工程体系,对不同区域内水利信息具有相似关系特征值进行联结,以进行水资源合理调度、水工程智能监管[3]。

为破解北江流域水利改革发展的难题,实现智能、合理且准确的调度北江流域水工程,文章基于江北流域水利基础信息,构建智能化知识图谱,实现“四预”(预报、预警、预演、预案)功能,优化北江流域水工程联合调度系统。并在此基础上进一步挖掘知识图谱中水利资源,以提高流域内洪水、旱情、地下水沉降和水污染的监测、预警、防护能力,达到区域水工程高质量调度总目标,落实防灾减灾的重要指示。通过知识图谱智慧化调度系统,充分发挥北江流域水利工程防灾、供电、生态等综合经济效益,实现水利智能化监控调度、区域高质量建设和环境可持续发展的任务。

1 设计北江流域水利知识图谱体系

1.1 研究区概况

研究区位于广东省境内的北江流域,地理位置为E111°52′-114°41′,N23°10′-25°25′,流域北接南岭和长江分界,南接分水岭最高点画眉山,平均海拔约1752m。北江流域地势北高南低,上游陡,而中游顺直,下游相连珠江三角洲地区,流域支流众多,其中,集雨面积超过1000km2的支流13条,且各条支流呈现叶脉状排列,支流口接近,加之每年降雨量大,易造成洪水大面积集中爆发、山体滑坡等现象。在春夏之际,北江流域多暴雨,常引发洪水危机,造成经济和生活损失。

1.2 水利知识组成

流域性水利知识包括事实类知识和认知类知识,因此,详细的掌握水利综合知识,对北江流域水工程知识图谱构建研究有极为关键的帮助。通过描述水利知识组成单元和概念[4],实现不同类型水利知识的关联特征,以构建完善的水利综合知识图谱,见表1。

表1 水利知识组成单元和基本概念

由表1可知,事实类水利知识一般分为自然、工程和社会对象,分别指在自然界天然存在的流域、湖泊等,人工修建的水库、灌溉渠、水电站、泵房等人为安全措施和水利管理人员对水文、水域地理位置、职责等类的管理,其特点是具备抽象性、认同性和普适性等,也是目前水利学科知识和预防措施的关键点;认知类知识主要是指在通过科学理论、原理、方法、数学模型、统计特征等对水利知识进行相关研究。

1.3 水利知识图谱框架

表1为水利知识图谱体系,其核心是水利知识表示、水利抽取、水利查询存储、水利推算和水利交融五部分。其中,水利知识图谱体系主要通过结构化、半结构化和非结构化方式抽取水利知识;水利知识查询和存储主要以数据划分、查询优化和分布式查询为主;水利知识主要通过可视化和信息推荐进行展示,而水利知识则通过实体对齐、属性对齐等完成水利知识交融。最终,通过不同特征水利知识单元构建智能化、可视化和调度信息精准化的水利知识图谱体系,实现高效、合理的江北流域水工程调度系统。

1.4 水利知识图谱构建关键技术

1.4.1 实体关系获取

水利实体关系获取是指在非结构化水利数据中,构建网络矩阵确定水利实体间的关系特征。通过统计分析法获取不同水利实体数据在文本中出现的次数,随后,寻找数据共性,以分析不同数据中水利实体所占的比例,当共同出现的比例高于某一标准值时,知识图谱系统则认定两者间存在某种联系,进而对不同水利实体(流域、河流、湖泊、管理机构)类型关系定义,以抽取实体关系、实体和属性指标,通过相似算法将这些抽取数据连接至知识图谱概念模型中,实现水利实体推荐和共享,以大量水利数据帮助水利工程领域进行联合调度工作。

图1 水利领域知识图谱体系框架

1.4.2 多类型水利知识融合

融合是指将不同的数据源、概念、特征和事物基本点有机的统一起来,进而实现知识图谱信息相互沟通的目的。文章水利知识融合分为实体、数据属性等层面进行。实体融合是以此通过不同流域内水利数据源的语意关联,将不同外界环境、影响因素等关联后,便捷获悉各领域内的水利知识信息,经进一步确定相互水利关系,进而有效的避免水利工程出现的危害。水利知识属性融合是不同源数据中属性一致的问题,以实现同一属性水利信息的相互联系,形成多层次、全方位的知识图谱系统。

2 水利知识图谱体系构建实现

2.1 知识图谱总体架构

水利知识图谱的构建不仅有利于北江流域水利信息的便捷采集、查询和分析,而且能够有机的实现不同辖区水利信息资源共享,实现区域内水工程联合调度的基本职能。文章通过设计一种高可靠性和低耦合性的多层次、多功能的水务知识图谱模块:

1)水利信息资源模块:

该模块主要功能是采集水利信息数据源,按照结构化体系抽取水利原始文本数据、地理数据、水利基础数据和用户数据等,半结构化中抽取IE和维基百度中水情况、旱情和气象等的水利知识和信息数据,最后在抽取水利业务专题数据。

2)水工程联合调度数据模块:

知识图谱是集成各类有效性数据的中心,为此,将知识图谱技术应用与北江流域水工程联合调度中,通过预报和调度专业计算模型库、水工程联合优化调控业务库构建专题数据库,形成一套集数据采集、分析、计算、预报和联合调度应用的流程,如图2所示。

图2 北江流域水工程联合优化调度系统数据架构图

2.2 性能设计

对文章构建的知识图谱在水利联合调度应用系统性能进行分析,首先系统平台满足可扩展性,通过修改系统各模块与组件间的关系,增加数据存储量和构建更为完善知识图谱,其次平台稳定性和简单操作性,保证数据检索、分析和变更影响较小,在保证操作稳定的同时满足高功能性和易操作性。最后,保证平台兼容性,一方面解决水利基础数据、地理位置和社会经济等数据间关联性较低,无共享的问题,另一方面提高流域水利工程检索效率,将知识图谱采集、模拟的数据应用在水利管理信息中。

2.3 系统核心模块

2.3.1 水利数据抽取

水利数据抽取是指在类别中采集、筛选、分析后并存储有关水利知识数据。目前,知识图谱技术中的核心模块则是对水利数据抽取的设计,面对结构化、半结构化和非结构化数据类别进行。如百度数据则通过Xpath语句进行抽取,文本数据听过语句抽取法进行,而对于水利内部信息数据,则抽取为RDF格式文件,对不同抽取数据汇总,以构建足量、多方面、多层次和多理论性的水利知识图谱。

2.3.2 可视化数据模块

数据可视化是以简单、直观且明了的形式将水利信息数据呈列形式和表现形式的科学研究,通过可视化技术实现图像、计算机视觉和用户视角界面的有机沟通。文章大量水利数据储存于知识图谱,以此提取不同区域内数据以立体、动画的形式呈现,对北江流域水工程联合调度工作的及时性、高效性和准确性有重要意义。

3 知识图谱技术在北江流域水利联合调度中的应用

3.1 功能应用

知识图谱是水利领域的技术手段,同时也是水利领域的大数据库,目前知识图谱技术的日常应用主要包括以下3个方面:①数据运营服务,对北江流域一张图所提供的各项基础资料数据、展示影像数据等进行更新维护;对防洪、水资源、水工程安全等各项监测信息的接入服务情况进行监视,及时记录及反馈数据接入异常情况;②预警体系维护,对北江流域防洪、水资源、水工程安全等预警指标体系在系统中的各种阈值进行更新和维护;③功能设置与调整,针对系统中涉及深度专业交互计算分析、业务流等变化的应用需求,及时进行了解和记录,与水利业务数字孪生支撑服务运营共同进行适当的修改调整。

3.2 数据需求分析

数据库管理系统主要用于对本项目从外部汇聚和系统自身产生的数据进行存储和管理,表2为知识图谱技术水利中心数据管理结果,按照数据库管理系统标准,将水利基础数据分为关系型数据库(社会经济数据、水利基础数据、水利行业单位)、空间型数据库(地理信息数据)两部分。其中关系型数据库是稳定水工程联合调度运行的基础,在数据系统上线后,数据存储和处理容量不断上升,因而数据库系统需要具备扩容能力,使关系型数据库储存系统随着水利信息量的增加而增加,同时关系型数据库服务器系统还应具备维护成本低、可靠、易使用和技术开放的特点。

由于水利工程调度中涉及到大量的地理信息数据,而传统关系型数据库针对基础水利数据,无法对空间信息数据进行存储,为此,在数据库类型中增加空间型数据库,将知识图谱采集转化的属性和空间数据联合管理,其特点是不仅能存储空间矢量数据,而且提高了相关水利数据的处理能力,强化了北江流域水工程调度速度和信息获取能力。

表2 基于知识图谱水利数据中心数据运营

3.3 社会经济和安全分析

随着智能化的知识图谱技术发展革新,水利工程高效、智能化调度越发深入,基于知识图谱的水利工程项目社会经济性和安全性随着智慧化措施也形成了一定改变,如防洪经济安全措施日常运营:①知识图谱根据江北流域运行现状,收集更新江北流域各水库、防洪区、堤坝、河段等控制目标对象资料,对超出阈值的数据报警,以保证防洪安全;②联合调度方案维护过程,针对水工程、控制目标等情况变化,及时更新江北流域调度资料信息,协同水利业务数字孪生支撑服务运营进行实例调整;同时以知识图谱智慧技术提前预防洪水灾害,确保社会经济和安全。文章通过Copula函数理论的贝叶斯预报处理器对水利信息进行监测,其公式如下:

贝叶斯概率水文预报方法理论基础明确,在实际中应用广泛,是目前概率水利超标预报方法。

令Hk、Sk(k=1,2,…,K)分别表示待预报的实测流量和确定性预报流量,K为预见期长度;hk、sk分别为Hk、Sk的实现值。根据贝叶斯公式,预见期k的实测流量Hk的后验密度函数为:

(1)

式中:φk(hk|Sk)的后验密度函数;gk(hk)为流量先验概率密度,代表了实测流量过程的先验不确定性;对于确定的Sk=sk,函数fk(Sk|hk)为Hk的似然函数,反映了确定性预报模型的预报能力。1)Copula函数可以将多个随机变量的边缘分布连接起来构造联合分布。令Q(x1,x2,…,xn)为一个n-维分布函数,其边缘分布分别为F1(x),F2(x2),…,Fn(xn)。由Sklar定理可知,存在一个n-Copula函数C,使得:

Q(x1,x2,…,xn)=C(F(x1),F2(x2),…,Fn(xn))

(2)

借助Copula函数,Hk、Sk的联合分布函数可以表示为:

Fk(hk,sk)=Cθ(Gk(hk),Fk(Sk))

(3)

式中:u=Ck(hk),v=Fk(sk)分别为边缘分布函数;θ为Copula函数的参数,采用Kendall秩相关系数τ求解。

通过合理的知识图谱信息技术,保障了北江流域内因水利问题产生的社会经济和安全的问题。

4 结论与展望

文章通过对水利知识和知识图谱技术特征进行梳理分析,以结构化、半结构化和非结构化数据为水利数据源,提出对不同类别数据的实体识别和关系抽取,设计集采集、分析、计算、预报和调度为一体的知识图谱架构体系。在水利知识图谱基础上,通过多源异构水利数据融合技术,以对不同类型水利数据挖掘和分析的能力,进而通过知识图谱实现水利工程智能化服务调度体系的目标遵旨。

猜你喜欢
北江结构化图谱
高清大脑皮层发育新图谱绘成
中医药知识图谱应用现状分析及痴呆痰瘀互结证知识图谱构建探索
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
绘一张成长图谱
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
北江,向前
奔腾北江
泥娃娃