基于大数据的油气水井生产数据质量评价方法研究

2023-08-27 05:45岳相如姚渝琪沈俊豪
通信电源技术 2023年11期
关键词:作业区完整性结构化

岳相如,姚渝琪,何 杨,沈俊豪

(中国石油西南油气田公司通信与信息技术中心,四川 成都 610041)

0 引 言

随着“两化”(信息化和工业化)结合战略的逐步推进,石油领域的现代化工程高速增长,各油气田更加注重数字化建设力度,并积极开展信息系统建设工作,其运行中形成的非结构化、结构化、半结构化数据规模巨大且成长速度快,显示出大数据分析的特点[1-3]。在信息爆炸性增加的背景下,原有的信息处理系统遇到障碍,无法满足油气田高速增长产生的大量信息迅速收集与分析应用的要求。同时,大力实施信息系统建设和改造的过程中,数据质量、数据管理、数据标准化问题日益凸显,特别是在大型油气田企业中,数据质量问题已经成为制约上层数据分析应用的关键因素。为解决该问题,提升数据质量,量化的数据质量评价方法研究与实践尤为重要。

1 数据质量及评价概述

1.1 数据资产

数字信息是被个人和企业所拥有或者控制、能够给企业提供未来经济效益、以物理和电气方式表示的信息,这些信息可能包含数据、文字、图像、语音或视频等形式[4]。数据指在具备数据权属、有价值、可计量以及可读取能力的网络空间中的信息集合,根据构成形式又可以进一步划分为3 种,分别是结构化数据、非结构化数据以及半结构化数据,也可以包括各种业务形式的信息,如企业信息、商务办公信息、运营服务信息以及“质量、健康、安全、环境(Quality Health Safety Environment,QHSE)”信息等。中国石油西南油气田公司典型的数据资产如下。

(1)非结构化数据。非结构化数据具体内容如下:以文件形式储存的文本文件、电子表格、演示文稿等;各单位档案馆内的纸质及光盘存档资料;协同办公平台的文档和稿件等;即时消息、图片、音频以及视频文件等;会议形成的会议文件和影音资料等;生产视频监控平台的监控录像和安眼系统的报警信息;公司地理信息系统的地理数据等。非结构化数据占据了公司数据资产的绝大部分,存在储存容量需求大、数据孤岛、管理困难等问题,与结构化数据相比,难以创造二次价值。

(2)结构化数据。结构化数据主要包括资源勘查和生产技术信息管理系统(A1)以及石油水井生产技术信息管理系统(A)等二等信息系统的数据管理。其相同点是按照一定格式和规范组织数据,可以很容易地将数据转换成图表或报表等可视化形式,使数据分析工具(Excel、BI、Hadoop 等)能够快速识别和处理这些数据,为数据挖掘和分析提供坚实基础,从而有助于发现潜在趋势和关联,为上层应用决策提供有力依据。

(3)半结构化数据。半结构化数据主要包括实体关系(Entity Relationship,ER)图、勘探与生产数据模型(Exploration and Production Data Model,EPDM)、关系模型以及接口文档等,包含一定程度的结构化元素,如相关标记或部分数据等,但没有严格的格式,具备自我描述功能。半结构化数据用于分隔转换语义元素和对数据字段进行分层管理。

1.2 数据质量

数据质量(Data Quality,DQ)是反映信息是否符合服务要求水平的衡量指标和体现数据价值的关键因素,高质量的数据可以支撑更加精准高效的上层分析决策和优化改进业务流程。数据质量的评价维度涉及多个方面,主要如下。

(1)准确性(Accuracy)。准确性主要指数据是否正确反映真实生产或实际业务情况,没有错误或偏差。准确性是数据质量评价最重要的一环,直接影响数据价值,是衡量数据质量的核心标准之一。

(2)完整性(Completeness)。完整性主要指数据是否包括全部的必要信息,同时实体值、属性值、记录值以及字段值不遗漏。完整性决定了数据在分析和决策中是否可用。

(3)一致性(Consistency)。一致性包括层级一致(不同部门和单位横向一致、二三级单位竖向一致等)和库级一致(不同信息系统中相同源数据是否具有相同的格式、单位、定义以及值等)。一致的数据有助于确保数据在各层级的分析应用中不产生偏差。

(4)及时性(Timeliness)。及时性主要指是否能够在适当的时间范围内提供数据,以满足业务需求和分析决策需求。

1.3 数据质量评价的意义

数据质量直接影响数据分析和决策的准确度与可行性,优良的数据质量评估工作能够提升大数据分析的价值。在企业各单位明确数据职能的前提下,形成标准化的企业数据质量评估标准方法,可以提高企业数据采集管理与应用技术水平,改善企业数据管理服务质量,促进企业数据的合作资源共享,将数据运用到企业经营、管理、战略决策,从而实现数据资本的商业价值,促使企业从“业务驱动”转向“数据驱动”,进而实现企业数字赋能。

2 油气水井生产数据现状和面临的挑战

2.1 油气水井生产数据管理系统(A2)

A2 系统的主要功能包括数据采集与审核、各类气藏报表查询、动态监测管理、采油气工艺管理以及基本实体管理。产量数据方面,A2 系统主要分为公司、气矿和作业区3 级。公司级主要负责年报数据的采集和审核;气矿和作业区级主要负责月数据和日数据的采集与审核。动态监测方面,A2 系统以常规监测、专项监测数据采集、审核、上报以及综合应用为主,能够实现动态监测数据和相关解释成果的规范化管理,提高动态监测日常管理效率。采油气工艺深化应用方面,A2 系统能够实现采油气工艺分类标准化、数据采集标准化、数据处理以及审核流程化,综合应用规范化管理,满足开发部和气矿采油气工艺管理的应用需求。

目前,根据管理A2 系统处理的业务信息,可以将其分成2 大类,即管理信息和业务数据。管理信息主要指管理系统正常运行的有关信息;业务数据主要指管理系统中收集频度很高的与业务活动有关的信息。

从生产业务角度分析,A2 系统数据主要包括以下5 类:一是基础实体,包括结构单位、地质单元、构造单位、井以及地层单位等基本信息;二是计划数据,包括配产配注计划、动态监测计划、措施计划以及站库计划等数据;三是油气生产数据,包括单井和油气田,日、月、年累计产量等数据;四是措施数据,包括油气水井措施基础、措施效果、措施增产等数据;五是监测数据,包括常规、专项、油气水分析及压力温度等数据。文章主要针对油气生产数据开展现状调研及分析研究。

2.2 面临的挑战

目前,公司的数字治理工程、主数据入湖、信息来源目录建设以及对油气水井生产信息的技术研究与管理评估等项目是信息标准化建设的有利契机,但是也存在巨大的问题,具体如下。

2.2.1 公司级数据管理基础依然薄弱

数据可用性不高、平台内部无法统一整合、缺少数据处理和分析人员等问题仍然在企业层面出现,数据的分析品质有待提高。这些问题都将会出现在今后的大数据分析应用和数据入湖等工作流程中,导致企业无法得到正确的数据分析或没有正确的数据分析结果,从而无法从中获得经济价值,并最终耗费大量资金。

2.2.2 数据深层次挖掘分析能力有待加强

目前,中国石油西南油气田公司在数据价值发掘方面还停留在相对的浅层阶段,存在着“数据丰富但缺乏分析”的状况,数据资产价值和发展状况还停留在相对粗放的初级阶段。除个别科研单位外,其他公司对数据分析所运用的手段大多停留在对图表或报告等基本资料表面价值的统计和分析阶段,对跨专业数据价值的关联分析和横纵向比较手段相当薄弱。即没有对数据分析进行深入挖掘研究的先进大数据分析技术手段,也没有既熟悉石油勘探开采生产经营情况又熟悉大数据分析应用决策过程的专业人才。同时,没有适用于石油业务实时处理与分析数据处理的计算模式,不同部门和单位间未能建立高效的大数据合作资源共享机制,各种资料数据挖掘技术,如商业智能(Business Intelligence,BI)等,也没有全面展开推广工作。

3 油气水井生产数据质量的评价方法研究

按照生产数据管理质量的统一性、准确度、完整性以及及时性4 项主要特点,建立了油井生产数据管理质量评价指标,统一处理质量指标数据、分析结果以及综合评价结果,以满足人们对A2 系统动态及时进行数据品质好坏量化检验和评价的需要[5]。同时,遵循定性和定量相结合、实用性和可比性相结合的原理,定义4 个数据质量指标维度,即准确性Qacc、完整性Qcom、一致性Qcon以及及时性Qtim,使用穷举法对数据质量进行量化评价。

3.1 评价对象

以生产单位作业区级井生产日数据的准确性、完整性、一致性以及日生产数据上报的及时性为评价对象。

3.2 可测指标具体分析

3.2.1 准确性Qacc

设某检测条件下的某表可测指标井数量为Ai,被测作业区所辖井数量为m1,设置检测指标数量为n1,使用结构化查询语言(Structured Query Language,SQL)对A2 系统数据库相应对象进行统计判断,检测以下数据:A1,即生产时间填报不准确的井数量,检测表中当日生产时间是否为0,或空值却有产量;A2,即产量填报不准确的井数量,检测表中当日有生产时间但产量为0 或空值;A3,压力不准确的井数量,检测当日油套压力是否为负数;A4,即压力不准确的井数量,通过油田管理软件(Oil Field Management,OFM)检测当日油套压力是否为负数;……;An1,即第n1个检测指标的井数量,检测是否满足条件。

根据检测结果,则该作业区生产日数据的准确性计算公式为

式中:n1的数值越大,对数据准确性评估越可靠;准确性Qacc的值越接近于1,则被测作业区当日数据填报准确性越高。

3.2.2 完整性Qcom

设某检测条件下的某表可测指标数量为Bi,被测作业区所辖井数量为m2,设置检测表对数量为n2,该表列总数(或关注的完整性字段列数)为Si,使用SQL 语句对A2 系统数据库相应对象进行统计判断,检测以下数据:B1是表1 所有列(或关注的完整性字段列)空值的数量;B2是表2 所有列(或关注的完整性字段列)空值的数量;B3是表3 所有列(或关注的完整性字段列)空值的数量;B4表所有列(或关注的完整性字段列)空值的数量;……;Bn2是表n所有列(或关注的完整性字段列)空值的数量。

根据检测结果,则该作业区生产日数据的完整性的计算公式为

式中:n2的数值越大,其对数据完整性评估越可靠;完整性Qcom的值越接近于1,则被测作业区当日数据填报完整性越高。

3.2.3 一致性Qcon

设某检测条件下的某表可测指标井数量为Ci,被测作业区所辖井数量为m3,设置检测表间不一致指标数量为n3,使用SQL 语句对相应对象进行统计判断,检测如下数据:C1,即检测中间库与表数据不一致的井数量,需要关注生产时间和日产量字段列;C2,即检测中间库与表数据不一致的井数量,需要关注生产时间、日产量字段列;C3,即检测探与生产技术数据模型(Exploration and Production Data Model,EPDM)表与被测表格数据不一致的井数量,需要关注日产量字段列;……;Cn3,即检测某2 个表之间数据不一致的井数量。

根据检测结果,则该作业区生产日数据的一致性计算公式为

式中:检测表间不一致指标数量n3的数值越大,其对数据一致性评估越可靠;一致性Qcon的值越接近于1,则被测作业区当日数据一致性越高。

3.2.4 及时性Qtim

设当月天数为t,执行时间大于11:00(作业区上传时间节点为11:00)的数量为n4。

则该作业区该月的日数据上报及时性为

式中:及时性Qtim的值越接近于1,则被测作业区当日数据上报及时性越高。

4 数据治理手段

依据管理要求,支撑A2 系统数据标准规范、数据建设、数据开发利用以及数据安全管理,实现覆盖数据采集、传输、存储、应用以及报废全生命周期过程管理,油气水井生产数据治理主要分信息技术手段和业务管理要求2 个方面。具体数据治理手段如下。

(1)日数据上报治理。对每天数据上报情况进行日监督,对逾期未上报数据的作业区和相关气矿管理员及时进行上报通知。

(2)新投产井数据上报及时性。新投产井须在投产日期后1 个工作日内开始数据上报,对超3 d 未上报的井进行高亮提示,对超5 d 及以上未上报的井直接删除井号,并纳入月度通报内容。

(3)推广数据上报情况通报制度。建立每月A2系统数据上报及时性月通报制度,并在中国石油西南油气田公司分公司范围内进行推广使用。

(4)建立数据质量月通报制度。对A2 系统相关数据质量问题进行通报,对各作业区数据质量进行排名。

(5)建立数据修正线上流程和机制。规范数据修正申请、审批、解锁以及同步的业务流程。修正线上流程节点,包括中间库和A2 生产库。

5 结 论

通过对油气水井生产数据管理系统的数据质量问题的分析,梳理了影响生产数据质量的4 个主要因素。结合影响数据质量的主要因素,提出一种简单量化的数据质量评价方法,进一步阐述配套质控手段。通过量化的数据质量评价方法实践,获取和评估了作业区日生产数据质量,能够有效解决油气田公司数据质量评价困难、数据质量考核没有量化指标、数据质量提升没有准确目标等痛点,对今后油气田公司数据治理、数据模型设计迭代、数据标准化制度规范建设以及数字化交付等工作有重要意义。中国石油西南油气田公司信息化建设正在大力发展,但由于缺乏高质量的数据标准来规范生产技术和数据共建共享机制,导致其存在“数据孤岛”和“烟囱系统”等现象。数据的标准化建设与实体基建一样,只有依据地基、建材、验收标准等相应行业标准,才能支撑未来高质量的发展。在数据标准化的增量更大的背景下,标准越领先,地基就越牢固,未来的发展空间就更大。在数字经济时代,需要更多地参与到数据标准化建设工作及数字化应用实践中去,更好地助力我国数字经济和数字中国建设迈向新高度。

猜你喜欢
作业区完整性结构化
稠油热采水泥环完整性研究
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
基于机器视觉的建筑作业区安全隐患监测方法
莫断音动听 且惜意传情——论音乐作品“完整性欣赏”的意义
煤矿锚喷作业区喷浆粉尘数值模拟与新型湿喷一体机研制
精子DNA完整性损伤的发生机制及诊断治疗
高速公路作业区行车危险区域的界定
基于图模型的通用半结构化数据检索
施工期高速公路改扩建作业区分流组织研究