基于大数据技术的石油数字化平台设计

2021-05-07 07:54
计算机测量与控制 2021年4期
关键词:生命周期集群石油

吴 巍

(中海油能源发展装备技术有限公司,天津 300452)

0 引言

近年来,大数据技术快速发展,企业越来越重视数据价值,数据的发掘与应用对企业发展起到正向引导作用。当前企业数字化转型,以基于大数据平台建设的业务融合为主要形式,以数据指导业务为主要模式。用数据串联企业多个业务板块,发掘数据价值,提升营销成功率,提高运营效率,改善管理决策成为新一轮企业数字化转型的主要导向[1]。如何以整体市场需求布局,将零碎化产业板块串联形成产业链,综合挖掘各业务板块的数据价值,提高已有信息系统之间的关联性,提升管理及工作效率,指导营销、生产、经营相关决策,实现数据互联互通、管理融合共享,提升企业竞争力及业务附加值,是石油化工服务类企业由信息化向数字化乃至智慧化转型的建设痛点[2]。

大数据技术的发展戳中了石油化工服务类企业的痛点,如何应用大数据手段整合各业务板块、发掘数据价值、提升运营效率、改善管理决策,是石油化工服务类企业的数字化工作重点。文献[1]虽然利用了大数据技术,但是仅仅是针对某些问题的解决,但是未提交到石油全寿命周期管理时平台建构和数据挖掘,技术方案略显抽闲。文献[2]虽然也通过数据挖掘技术来解决一些技术问题,但是技术公开地比较笼统,没有针对性地介绍。针对上述技术问题的不足,本研究结合我国大数据技术发展现状提出了“基于大数据技术的石油化工服务类企业石油数字化工作平台建设”理念。下面将详细描述。

1 基于大数据的石油数字化工作平台设计

在本研究设计中,设计解决的关键技术是石油数字化工作平台工作效率的问题,采用的方法是:充分结合实际情况,融合石油化工服务类企业产业一体化、管控流程一体化、数据一体化为目标,提高和石油数字化工作平台为研究目标,满足企业整个数字化转型为根据要点,采用数字化平台为技术手段,实现石油全寿命经营管理和生产管理,将各产业板块有机串连,形成一体化服务模式[3]。其整体架构如图1所示。

图1 大数据的石油数字化工作平台

本研究的石油数字化工作平台在功能设计上满足了石油化工服务类企业的数字化转型战略要求,能够按照系统性、可扩展性、成熟性、可靠性、开放性、先进性、安全性、兼容性的原则进行建设,结合实际管理需求,充分利用现有信息系统,以数字化顶层设计为先导,统筹规划基础设施建设,搭建统一的石油数字化工作平台。平台建设完成后,能够实现"数据互联互通,业务协同贯通,管理融合共享",实现石油化工服务类企业的管维、分析和决策数字化转型[4]。在本研究设计中,从逻辑架构上可以将本研究的石油数字化工作平台划分为大数据平台层和大数据平台管理等,下面进行详细说明。

在数据源层中,该层包括各种RDBMS、No-SQL数据库,Hyper Text Transfer Protocol或Remote Procedure Call Protocol等接口的数据源[5]。

在大数据平台层中,该层包括数据采集层、存储层、管理层和查询层。其中微服务层包括各种业务系统的基于Web API的微服务。门户层包括企业在信息化阶段建成的已有业务系统的单点登录、交互式商业智能报表工具及相关数据的多样化展示功能[6]。

在硬件结构上,其设置了集群管理服务器、群可视化服务器、Zookeeper集群、资源调度服务器、数据存储计算集群、分布式缓存及流处理集群和Web服务器,其中集群管理服务器包括Ambari-Server,HiveServer2,Hue,Oozie-Server,Maria DB,Kibana,Apache Ranger等产品或组件,为集群提供管理、部署等服务。集群可视化服务器包括Superset交互式商业智能报表工具,数据资产管理系统,以及石油数字化工作平台的数据门户[7]。Zookeeper集群主要为整个集群的组件提供高可用服务(HA)。资源调度服务器包括NameNode,ResourceManager,HBaseMaster等多种角色,主要用于集群的资源调度,实现服务器热切换。数据存储计算集群包括用于集群数据存储、分析与计算的DataNode,JournalNode,NodeManager,RegionServer,WorkerNode等角色。分布式缓存及流处理集群包括实时数据量处理及数据采集的Kafka,Flink,Redis,Logstash等组件,能够实现海量数据的缓存。Web服务器由Nginx组件提供网络代理功能,用于高并发网络的负载均衡,可对其进行横向扩展[8]。

其中大数据技术的石油数字化工作平台物理架构如图2所示。

图2 石油数字化工作平台物理架构示意图

在本研究中的大数据技术设计中,目前的石化行业大石油全生命周期大数据分析应用多分布于供应链优化、库存管理、资金统一管理和生产监管优化、营销决策辅助几个模块。基于大数据技术的石油化工服务类企业石油数字化工作平台建设完成后,可围绕生产管理、经营管理、装备制造、油田建设等主题构建多业务板块一体化协同应用场景石油化工服务类企业原有信息化系统中的大量数据经过ETL数据抽取清洗转换接入石油数字化工作平台后,按照财务、人力、采办、营销、生产、运维、施工、物料等大类进行数据存储[9];经工业大石油全生命周期大数据分析过程形成生产管理、经营管理、装备制造、油田建设等主题;结合用户可视化与数据应用需求,按照经营状态、运维能力、库存成本等业务大类形成可视化指标;在数据流转的全生命周期内串联各业务板块,实现监管、预警、追踪、分析、管理改善、决策辅助各层面的数据展现,最终满足企业整体的生产经营目标[10]。

2 大数据算法

2.1 大数据特征信息采取

(1)

在上述关系中,α表示正常数据与故障数据之间的关系系数,WT表示正常大数据的特征矩阵,wi表示正常大数据的特征。石油全生命周期故障大数据特征用字母y表示,则在提取石油全生命周期故障大数据特征时,可通过以下公式实现:

(2)

为了提高石油全生命周期故障大数据计算的精度,通过以下公式对大数据的特征实施加权计算处理:

(3)

对石油数字化工作平台[13]中的大数据特征进行提取后的误差可以用以下公式表示:

(4)

(5)

式(5)中,φ为石油数字化工作平台大数据特征提取结果。

在石油数字化工作平台中,确定了正常石油数字化工作平台大数据与故障数据之间的关系,通过对石油数字化工作平台大数据石油全生命周期故障特征进行加权处理[15],直到数据特征提取误差最小为止,就实现了石油数字化工作平台大数据特征提取。下面采用一种形式的大石油全生命周期故障大数据计算方法进行计算。

2.2 DBN大数据学习算法模型

在进行石油全生命周期故障特征计算时,本研究应用了DBN大数据学习算法模型实现石油全生命周期故障信息的识别和处理,DBN大数据学习算法模型构建了双层RBM结构,将石油数字化工作平台内包含的不易为用户识别的高纬度数转换为低纬度数据,在该技术能力的基础上[16],再次应用BP神经网络算法模型进行反向微调结构参数,使得输入的复杂石油全寿命周期内的数据简易化处理,本研究借助于DBN逐层贪婪训练算法,将模型从上至下地分为输入层、处理层和输出层[17],其模型算法如图3所示。

图3 DBN大数据学习算法模型构建

计算过程通过多层数据的训练共同完成,其中在训练第一层数据信息时,可以采用CD-1算法,使得第一层RBM中的数据信息按照财务、人力、采办、营销、生产、运维、施工、物料等不同的类别进行训练,将石油全生命周期不同类别大数据特征向量进行分类,将多个石油全生命周期大数据特征信息进行保存[13]。在计算过程中,如果输入石油全生命周期大数据样本为x,将第一层中的RBM可视层通过字母X来表示,则在DBN大数据学习算法模型中的第一个隐层h1中,这些参数信息可以记作为{W1;α1}。通过上述方式进行数据训练,能够将上一步中DBN大数据学习算法模型内第一层RBM内设置的权重和偏移量作为参考量稳定下来,完整上述步骤后,将第二层RBM的向量数据输入上文提到的DBN大数据学习算法模型。在该步骤过程中,也要考虑到用户设置隐性神经元的数量和状态情况[18]。上述步骤完成后,然后进行下一层的RBM训练,这需要在第一层RBM的基础上进行叠加。以此类推,将不同层的RBM呈阶梯状排布,直到应用到最后一RBM层,然后应用以下逻辑函数进行数据计算:

(6)

通过上述公式,构成新的层次数据向量tl={tl1,tl2,tl3,…,tlj}T。构成的新的上一层hl+1作为下一层的特征向量,此时开,存在数据集合l∈{1,2,…,c-1}。

在经过上次的迭代计算后,在DBN大数据学习算法模型的最后一层设置BP神经网络模型,以实现石油行业中财务、人力、采办、营销、生产、运维、施工、物料等大类进行数据等全寿命周期内的故障数据诊断[19],用户根据DBN大数据学习算法模型不同层内设置的权值对故障信息进行诊断,如果需要将最后的结果达到最优,需要反复迭代计算[20],使得各层的权值能够达到最优。

3 试运行结果与分析

本研究技术方案在中海油能源发展装备技术有限公司内进行试运行,大石油全生命周期大数据分析应用多分布于供应链优化、库存管理、资金统一管理和生产监管优化、营销决策辅助几个模块[21]。应用到计算机硬件环境为:P430G CPU,8 GB RAM,软件环境采用的Windows 7,并在该系统上装上 Matlab 2015,在必要时,进行数据模拟仿真。

本研究中的基于大数据技术的石油化工服务类企业石油数字化工作平台登录界面如图4所示。

图4 应用界面示意图

通过图4的界面,可以将石油化工服务类企业原有信息化系统中的大量数据经过ETL数据抽取清洗转换接入石油数字化工作平台后,按照财务、人力、采办、营销、生产、运维、施工、物料等大类进行数据存储[22];经工业大石油全生命周期大数据分析过程形成生产管理、经营管理、装备制造、油田建设;结合用户可视化与数据应用需求,按照经营状态、运维能力、库存成本等业务大类形成可视化指标;在数据流转的全生命周期内串联各业务板块,实现监管、预警、追踪、分析、管理改善、决策辅助各层面的数据展现,最终满足企业整体的生产经营目标[23]。

在验证时,DBN大数据学习算法模型中各项参数信息如表1所示。

表1 参数设置示意图

在上述参数模型中,DBN大数据学习算法模型的学习效率为0.13,将运行模型进行189次迭代,下面通过单一的BP神经网络算法(下文称为方案1)、 K-means聚类算法(下文称为方案2)进行对比分析,输出的试验样本数据如表2所示。

表2 试验样本示意图

在上述试验过程中,在石油全生命周期大数据平台内的数据库中选择了4组石油全寿命数据样本,1~3组的数据库样本数量分别为50万、80万、120万和180万个。通过对比分析,发现本研究方案效率高。

下面通过绘制误差曲线图进行描述,如图5所示。

图5 准确率对比曲线图

通过图5看出,在相同的时间内,3种方案的准确度都呈上升趋势,采用本研究的DBN大数据学习算法模型准确率最高。下面再从数据的速度上进行分析。输出的曲线对比如图6所示。

图6 数据处理效率对比曲线图

在图6中的对比曲线中,假设选择不同的数据库,数据库量分别从100~1 000 GB不等,本研究的方法在2分钟左右能够处理上百GB的数据信息,而采用方案1时,当处理100 GB的数据信息就需要远远多于本研究的技术方案的时间处理量。随着石油大数据量的增多,方案1和方案2需要采用更多的时间,而本研究方案在不到3分钟的时间内能够处理上百亿GB的数据信息。数据处理大,用时少。

4 结束语

以大数据技术为代表的新一代信息技术在智慧油田、智能工厂、智能管道、智慧加油站等石化行业虽然已经广泛应用。但是仍旧存在一些技术弊端。本研究从石油化工服务类企业数字化转型的角度考虑,面对复杂多样的业务需求,基于大数据技术的石油数字化工作平台研究出一种数据存储、管理、分析、共享和服务的有效载体,本研究集合数据可视化分析与数据挖掘功能为一体,提高了各类型数据组织和处理能力,能够与现有业务系统无缝融合,进一步改进数据操作服务性能,研发出操作简单的石油全生命周期大数据分析平台,提升整体石油化工服务类企业数字化水平和价值创造能力。

本研究的方案虽然具有一定程度的技术进步性,仍旧存在一些不足,这需要进一步的研究。

猜你喜欢
生命周期集群石油
齐口裂腹鱼集群行为对流态的响应
全生命周期下呼吸机质量控制
基于工程全生命周期的项目管理过程创新分析
基于云制造模式的产品碳足迹生命周期评价
射频识别技术在手术室仪器设备全生命周期管理应用
基于信息素决策的无人机集群协同搜索算法
延长石油:奋力追赶超越 再铸百年辉煌
勤快又呆萌的集群机器人
石油PK太阳能
假如地狱里发现了石油