大数据分析技术在风电机组异常预测中的应用

2019-07-23 07:31于天笑
通信电源技术 2019年6期
关键词:监测数据残差风电

于天笑

(国电联合动力技术有限公司,北京 100039)

0 引 言

作为一种无污染的可再生能源,风能因其巨大的蕴藏量受到了世界各国的广泛重视。但随着风电的大规模发展,风电场运维工作量也随之快速增加,已有技术手段不能全面支撑风电机组大部件异常状态的早期发现及有效识别。为了提升风电场运维效率,本文利用大数据的采集和统计分析技术,对机组各种运行状态进行分析评估,得出机组各个零部件运行过程中的劣化趋势,自动对风电机组未来可能出现的异常情况提前做出预警,引导风电场运维人员开展预防性维护,降低机组故障损失。

1 风电机组异常预测中的大数据分析技术应用思路

风电场数据采集与监控系统(SCADA系统)广泛应用于我国风电领域。该系统主要负责风电机组及其部件运行状态的监测,通过设置阈值进行监测数据的越限报警,可在一定程度上实现风电机组的异常监测。但受采集数据点密集、在线监测信息量大的影响,传统的SCADA系统逐渐难以满足风电设备监测数据的在线处理需求。为应对海量且结构复杂的风电机组监测数据,并保证数据的处理速度和处理精度,本文采用结合Hadoop技术的BP神经网络平台进行海量数据的存储,并围绕选取参数针对性生成异常预测算法,配合MapReduce框架进行预测模型训练,满足了风电设备的异常预测需要[1]。

2 风电机组异常预测模型体系

2.1 模型框架

为兼顾风电设备异常预测的数据处理速度和预测精度需要,本文提出了风电设备异常预测模型,如图1所示。该模型应用了Hadoop集群和MapReduce框架。

图1 风电设备异常预测模型

由图1可知,模型由4个部分组成,即应用层、分析层、存储层及数据采集层,具体构成如下。(1)应用层。应用层模块主要负责使用完成训练的异常预测模型,通过输入在线的监测数据,即可获得预测的状态参数值,以计算实际监测值与模型预测值的残差。如发现残差出现距离波动,即可判断风电设备存在运行状态异常,相关人员可在数据可视化技术支持下直观了解异常。(2)分析层。该层集成有完成训练的BP神经网络预测模型。该模型能够应用大数据分析技术,对地理信息数据、天气数据以及SCADA状态监测数据进行分析处理,以完成风电设备的异常状态预测。海量数据处理中,传统的BP神经网络训练方法很容易出现因内存不足而无法训练或耗时较长问题。为了解决该问题,本文研究引入了开源云计算平台Hadoop,由此BP神经网络得以与MapReduce框架结合,并行化运行方式也由此实现。并行化运行方式支持下,分析层能够对训练样本进行并行地批量训练,模型的运行速度及精度均大幅提升。(3)存储层。该层选用的存储介质为Hive和HBase等分布式数据库。作为基于Hadoop的数据仓库工具,Hive能够提供类sql查询功能,并能够实现MapReduce作业与sql语句之间的转译。通过转译即可保证sql语句在Hadoop上的执行,也能实现并行运行大批量数据处理任务功能。作为构建在HDFS上的分布式列存储系统,HBase具备可伸缩、高性能以及高可靠特点。服务器可在HBase的支持下实现大规模结构化存储集群的搭建。深入分析发现,Hive和HBase等分布式数据库具备高吞吐量和高容错率特点。因此,二者均能够较好地服务于海量风电设备历史监测数据的存储,且数据的批处理访问模式需要也能够得到较好满足。(4)数据采集层。采集的数据主要包括地理信息数据、天气数据以及风电设备的状态监测数据。业务原有各类特殊传感器的生产运行管理数据也需要通过数据采集层实现采集。由于需要采集的数据存在大量重复内容,且模态各异、来源不一,数据采集层需负责重复数据与异常数据的清除,完成数据的清除后可将其余数据传输至文件系统或分布式数据库,传输过程需应用Sqoop等大数据技术。在应用Sqoop的数据传输中,传输数据可实现标准化、自动化的格式调整,人为的序列/反序列化操作可由此大幅减少[2]。

2.2 预测模型构建

作为一种多层前馈网络,按误差反向传播算法训练属于神经网络的主要特征。由于神经网络能够实现任意非线性映射关系的较好表示,因此近年来被广泛应用于各领域。神经网络的具体应用中,描述映射关系的数学方程无需提前了解。BP神经网络的拓扑结构由输入层、输出层以及若干隐层组成,采用最速下降法作为学习算法。为实现神经网络误差平方和的最小化,需不断调整神经网络的阈值与权值。结合相关研究发现,若BP神经网络隐含层拥有足够多的神经元数目,仅包含一个隐含层的BP神经网络就能够以任意精度逼近一个连续的非线性函数。基于此,本文研究采用的BP神经网络仅具备一个隐含层,如图2所示。

由图2可知,BP神经网络模型中,为有效减少算法运行时间,采用了并行运算的方法。在MapReduce并行化方法的支持下,每个权值的变化量能够在Map阶段完成计算与输出,各个权值的总变化量则能够在Reduce阶段进行完全统计,配合权值的科学化统一调整,训练即可基于批处理的方式展开。

2.3 异常预测运行流程

受天气季节性变化和风速波动变化的影响,风电机组需要频繁切换自身的运行工况。受工况的频繁切换影响,风电机组设备状态监测数据的幅值往往会出现较大波动,因此风电机组的运行安全程度无法通过幅值的大小实现准确判断。为应对风电机组运行特点,现阶段业界多采用阈值报警方法,即对风电机组的运行状态判断中,以监测信号是否达到报警阈值为基础。但这种阈值报警方法的应用很容易出现误报和漏报等问题,风电设备异常预测的精确度不高。因此,本文采用了残差分析方式对风电机组运行状态进行判断,基本流程可描述为:“历史监测数据→预处理→历史可用数据→归一化处理→BP神经网络训练模型→网络权值和阈值矩阵→BP神经网络预测模型”“新监测数据→BP神经网络预测模型→计算残差→是否大于残差阈值→是→计算RMSE→是否大于RMSE阈值→是→状态异常”,如果残差与RMSE不大于设定阈值,则说明风电设备状态正常。

图2 BP神经网络模型

具体的风电设备异常预测过程如下。(1)针对性选择正常运行状态下的风电机组SCADA数据,并开展针对性预处理,以得到用于后续分析的监测数据。按比例进行划分,将刚刚得到的监测数据分为测试数据与训练数据。(2)归一化处理训练数据,选取6个状态参数作为模型的输入参数,分别为发电机转速、机舱振动有效值、齿轮箱油温、风速、机舱振动传感器X及机舱振动传感器Y。基于输入参数进行BP神经网络模型训练,训练结束依据为输出值误差控制在理想范围。(3)基于目标参数使用预测模型进行预测,对比实际值与预测参数结果以获得残差。若未发现残差大于设定阈值,可判断参数对应的风机设备状态正常。(4)对比实际值与预测参数结果,若获得的残差在设定阈值以上,需应用式(1)进行均方根误差RMSE的计算。式(1)中的D、m分别为均方根误差与样本数,x与xi分别为模型的预测值与实际值。由此得到的RMSE计算结果可用于残差变化剧烈程度的衡量。为更加准确地反映残差变化的趋势,需结合滑动窗口技术。结合每天开展的相关计算,即可明确RMSE的变化情况。(5)结合计算得出RMSE结果。若该结果不大于设定阈值,即可判断风电设备状态未出现异常[3]。

2.4 测试结果与分析

为验证本文提出方法的实用性,搭建Hadoop平台开展测试。测试采用由2个从节点与1个主节点组成的Hadoop集群,节点的内存为2 G,属于应用Hyper-V管理器创建的虚拟机,硬盘为200 G,开发过程中应用了HBase、Hive及Eclipse等技术。

围绕某风电场提供的2017年1月至2018年12月的实际运行数据展开,数据来源为33台风电机组的SCADA系统采集数据。测试选择了33台机组中的15台机组在2018年6月的监测数据,基于15组监测数据选择训练样本,以开展模型训练。为保证模型输出误差得到较好控制,每组的训练次数设为1 000,可得到性能优秀的BP神经网络预测模型。选取对应1台机组的2018年6月的15组监测数据作为测试样本,进行下一时刻齿轮箱油温平均值的预测,可得出模型预测值与实际监测值的对比结果。对比真实值和预测值发现,真实值与预测值基本吻合,模型的精确性和有效性得到了证明。

为测试并行化后的模型加速效果,分别在单机和集群环境下进行同样大小测试数据集的程序运行时间测试。测试结果表明,单机在数据量较小时的运行时间明显优于集群运行,但集群的计算优势随数据集的增大而逐渐明显。由此可见,并行化方式较为适用于海量的风机设备监测数据处理。

3 结 论

大数据分析技术可较好地服务于风电设备异常预测。因此,本文介绍了风电设备异常预测模型、BP神经网络模型及异常预测运行流程等内容,提供了可行性较高的大数据分析技术应用路径。为了更好地发挥大数据分析技术优势,需要重视实时可靠性评价公式的建立,风电机组监测数据的时序性特点及短时风速波动带来的影响。

猜你喜欢
监测数据残差风电
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
基于递归模糊神经网络的风电平滑控制策略
风电建设项目全过程造价控制探讨
秦皇岛河口湿地环境在线监测数据应用研究
基于残差学习的自适应无人机目标跟踪算法
风电新景
基于深度卷积的残差三生网络研究与应用
重齿风电
基于小波函数对GNSS监测数据降噪的应用研究