基于电力生产数据的安全知识图谱构建

2021-11-22 05:23国网浙江省电力有限公司嘉兴供电公司纪宏德
电力设备管理 2021年11期
关键词:辨析图谱可视化

国网浙江省电力有限公司嘉兴供电公司 肖 波 徐 明 纪宏德

安全生产是企业正常运转的基础和保障,尤其是电力企业。通过构建安全知识图谱,可以利用可视化的图谱形象地展示电力生企业在作业风险、隐患等各方面存在的影响安全生产的要因以及彼此之间的相互联系,以支持作业单位及人员对作业薄弱环节的分析。在本文的研究中,分别从风险类别、潜在风险、因素类别、因素辨析等角度出发,从典型作业中提取的具体信息构建实体和实体关系,开展了电力安全知识图谱的搭建,查找影响安全的要因及其之间的关联,定性分析作业单位与人员的安全薄弱环节[1]。

1 安全知识图谱的构建

结合专业技术从业人员意见,按照自顶向下的构建方法,根据作业名、潜在风险、风险类别、因素辨析、因素类别收集数据,构建知识图谱。知识图谱的构建主要分为三个部分:数据的获取、信息抽取、数据塑形和数据的交互可视化。

1.1 数据的获取

整理历年的文件、表单并结合专业技术从业人员的参考意见,整理出典型作业的列表。针对各项典型作业,从人员、环境、工器具、作业方法、设备五个维度,收集整理得到作业具体影响风险的各类因素及其影响结果。

考虑到项目的工期及具体要求,本项目选择了以下电力系统的六大典型作业开展研究。通过对各类作业风险因素的梳理和分析,找到作业类型和风险因素的直接和间接联系,为后续安全知识图谱的建立创造了条件。

1.2 信息抽取

本项目将实体的属性视作实体与属性值之间的一种名词性关系,因此在这里属性抽取任务被转化为关系抽取任务。在数据获取阶段,我们得到的数据集以Excel的形式展现,虽然能够表现因素、风险和作业之间的层次关系,但需要进一步提取整理的数据,得到知识图谱需要的实体关系以及实体属性等结构化的信息[2]。

表1 某电力工程高坠风险因素分析表

1.3 实体抽取

在本项目中,实体抽取主要针对的是Excel数据集中的“因素辨析”列(其它列已经是规范的命名实体)。目的是从“因素辨析”列的文本数据集中提取出真正影响作业风险关键的因素,并以命名实体表现。该部分的工作主要可以分为三部分:分词及词性标注、专名识别、关键词提取。

分词与词性标注。是自然语言处理的基础工作之一,是大多数后续工作的前提。中文分词指将一个汉字序列切分成一个个单独的词。词性标注也被称为语法标注,是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。

专名识别。考虑到结巴分词的词典限制,专名识别是对结巴分词的一个补充,为了能够保证计算机能够准确的提取到文本中的全部名词、并一定程度上消除歧义,一方面电力系统安全作业存在部分专有名词,如“带电间隔”;另一方面,根据知识图谱存在消歧的要求,如:安全带和安全带固定点在实际作业中涉及到的人员和风险并不完全相同,因此“安全带”和“固定点”需要合并为“安全带固定点”作为一个专有名词,单列为一项影响作业的风险因素[3]。针对这两类名词,使用自定义词典静态导入对结巴分词器做补充。由于本项目中选取的作业均为典型作业,因此该定义词典也具有典型性,可在后期的项目延伸与拓展中继续使用。

关键词提取。主要任务是从海量的文本文档中提取少量表征其内容的关键词,在本项目中,使用关键词提取技术是为了从文本数据集(“因素辨析”列中的每一行)中提取出关键因素。

1.4 关系抽取

本项目中关系的抽取主要参考数据获取部分得到的Excel数据集,该数据集中的列标签之间的关系能够直接表现不同数据之间的层次关系。经实体抽取后,表格中的文本数据内容已转化为关键实体名词,因此列标签之间的关系能够代表实体与实体之间的关系。因此在这一环节,使用pandas对Excel数据集处理,根据列和列的关系,得到了实体之间的关系。

1.5 数据塑形和数据的交互可视化

使用python对数据塑形,得到数据对象数组。将命名实体放入nodes数组中用于生成拓扑关系中的点,将关系放入edges数组中用于生成拓扑关系中的边,将数据结果生成json文件作为数据库,方便管理和可视化。D3js函数库生成力导向模型,展示知识图谱,并为知识图谱添加事件事件响应和节点搜索功能。部分可视化界面如图1。

图1 部分实体关系可视化

力导向图把整张知识图谱模拟成一个物理仿真系统(Simulation)。通过观察力导向图,可以直观的根据作业和作业间的相对位置分析作业间的联系紧密程度。鼠标点击节点,只展示和节点有直接联系的节点。这一功能帮助使用者可以通过几次点击快速地分析作业中的任一环节与其它作业间的联系[4]。搜索作业中包含的因素或风险,能够展示该搜索词的知识图谱。这一功能帮助使用者能够快速的查找特定的知识图谱,方便阅读数据库内容。

2 结语

通过构建安全知识图谱,可以通过可视化的方式形象地展示生产经营单位在作业风险、隐患等各方面存在的影响安全生产的要因以及彼此之间的相互联系,以支持作业单位及人员对作业薄弱环节的分析。本文从风险类别、潜在风险、因素类别、因素辨析等角度出发,从典型作业中提取的具体信息构建实体和实体关系,开展了电力安全知识图谱的搭建,查找影响安全的要因及其之间的关联,定性分析作业单位与人员的安全薄弱环节。为后续作业安全风险的评估提供了技术支撑。

猜你喜欢
辨析图谱可视化
基于CiteSpace的足三里穴研究可视化分析
思维可视化
怎一个“乱”字了得!
——辨析“凌乱、混乱、胡乱、忙乱”
绘一张成长图谱
基于CGAL和OpenGL的海底地形三维可视化
“论证说理”与“沟通说服”:高考论述类与实用类写作之异同辨析
“融评”:党媒评论的可视化创新
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
“征、伐、侵、袭、讨、攻”辨析