面向通风智能化的风速传感器结构化数据降噪方法对比*

2021-09-09 07:45李雨成李俊桥李博伦

中国安全生产科学技术 2021年8期

张巍，李雨成，张欢，李俊桥，张静，李博伦

(太原理工大学安全与应急管理工程学院，山西太原 030032)

0 引言

监测数据[1]是矿井通风系统智能化实现的基石，结构清晰、纯度较高的通风基础数据是风网实时解算、系统优化调节等技术的关键。矿井通风智能化系统建设中信息技术的快速发展，使得井下监测监控系统产生数据的规模急剧增长，数据种类不断丰富。井下传感器传回的数据为结构化数据，但矿井通风网络是一个动态平衡系统，受采掘、运输、人员活动、地质条件等因素变化的影响。在生产实际中，风速、风质、风压等类型传感器监测到的数据污染程度较强[2]，这就需要对数据进行挖掘和清洗。数据处理的合理与否，既关系到井下作业环境的优劣，又对提前预防灾害的发生起到关键作用[3]。

国内外在监测数据处理上取得了一定的研究成果，但尚有很大提高空间。王其军等[4]通过对多组传感器数据进行组合，进而提出了评估全部传感器数据的方法；付华等[5]通过使用神经网络模型，建立了1种预测模型，给出了基于序列恢复信号理论，处理监测数据异常的方法；马明焕等[6]通过滑动数据窗模型、加权等价类变换算法等数据挖掘技术构建了一种隐患预警方法；付华等[7]通过集合神经网络与主元分析方法，正确定位并分离出失效传感器；王军号等[8]将传感器检测到的异常数据分为偏置型、冲击型、漂移型和周期型等4种；赵金宪等[9]基于小波分析理论，通过拆解各阶段的能量谱，识别监测数据的异常；黄序桢[10]采用均值滤波的方法对传感器数据进行处理，再使用最小二乘法对数据进行修正处理。能量矢量特征提取主要用于解决大数据条件下监测数据需要分类压缩等问题[11]。

井下风速传感器监测到的风速数据具有复杂性、关联性和层次性。首先，煤矿井下风流在短期内沿着一定的数值上下浮动，数据处理过程既要考虑因运输、风流短路等原因产生的噪声，又要对正常波动数值进行标记。其次，多个传感器回传的数据具有一定的关联属性，降噪算法既要保留数据的原有特征，又要保持2(多)个传感器数据间的逻辑性。再次，如何开发具有层次降噪能力的通风数据降噪算法也很重要。一些传感器所处的位置较为核心，其降噪算法以准确性为主，而一些传感器所处的位置并不核心，其降噪算法以迭代速度等其他特性为主。

本文将模糊C均值聚类算法、鲁棒局部加权回归法和滑动平均法应用到煤矿井下风速传感器监测数据的处理中。依据算法原理，编写计算程序，研究不同原理降噪方法对于监测数据处理的特点，分析不同降噪方法对同一对象数据处理异常的原因，得到每一种算法在风速传感器数据处理上的适用条件和适用场景。研究结果可为矿井通风的异常诊断、灾变识别等研究提供合理的基础数据参数。

1 风速监测数据降噪原理

1.1 FCM聚类降噪算法

模糊C均值(Fuzzy C-means，FCM)算法用于数据聚类分析，其原理是基于特定的目标函数，将风速传感器Ti周期内监测到的数据集合Xi划分为c个类，则每个样本xj属于某一类i的隶属度为uij[12-13]。FCM聚类降噪算法的目标函数及约束条件分别为式(1)和式(2)：

(1)

(2)

式中：J为目标函数；ci为第i类样本数据中心；m为隶属度因子，表示样本的轻缓程度，一般取2；xj-ci为样本xj到中心点ci的欧式距离。

目标函数J越小越好，结合约束条件，首先采用Lagrange乘数法建立式(1)～(2)的Lagrange函数，之后对函数中uij，ci，λj等变量依次求偏导数，并使偏导数为0，最终得到变量uij和ci的迭代公式，如式(3)～(4)所示：

(3)

(4)

计算开始时，在开区间(0，1)内随机生成一uij值，通过uij值计算出ci值，ci值进一步计算uij值，此过程反复迭代，直到目标函数J小于预设精度ε，迭代过程停止，得到最终结果。

1.2 Rloess降噪算法

1.2.1 算法原理

鲁棒局部加权回归(Robust locally weighted regression，简称Rloess)是一种用于局部回归分析的非参数方法，算法直接从数据特征出发，在回归拟合之前不指定各变量之间所满足的函数关系，因此，Rloess做局部降噪处理时具有更明显的适用性和灵活性。

Rloess降噪算法的原理是把样本划分成一个个小区间，对区间中的样本进行加权多项式拟合，在拟合过程中加入鲁棒性的过程，利用绝对中位差MAD赋予数据鲁棒权重[14-15]，从而剔除离群值，不断重复这个过程得到回归与鲁棒双重平滑的曲线，最后再把这些回归曲线的中心连在一起合成完整的回归曲线。

1.2.2 计算流程

步骤1：计算区间中每个数据点的回归权重，权重由式(5)给出：

(5)

式中：x为需要平滑的值；xi为x两侧的第i个值；d(x)为区间长度的2范数。

拟合邻近点的误差对拟合效果影响较大，而拟合点较远处的数值对结果影响最小。此权重函数可以根据实际情况不同而调整，但其应具有2个特征：需要平滑的数据点权重最大，并且对拟合影响最大；区间外的数据点权重为零，且对拟合没有影响。

步骤2：加权最小二乘回归，求得x的平滑值。

步骤3：计算上述平滑过程中残差，在范围内计算每个数据点的鲁棒权重。权重由bi-square函数给出，如式(6)所示：

(6)

式中：ri为通过平滑过程生成的第i个数据点的残差；MAD=median(|r|)，是数据点与样本中位数偏差的绝对值的中位数。如果ri<6MAD，则鲁棒权重接近1；如果ri>6MAD，则鲁棒权重为0，并且相关数据点从平滑计算中排除。

步骤4：使用鲁棒权重使得数据再次平滑，利用局部回归权重和鲁棒权重两者来计算最终的平滑值。

步骤5：重复步骤3、步骤4，共迭代5次。

1.3 Savitzky-Golay平滑去噪算法

1.3.1 算法原理

Savitzky-Golay(以下简称“S-G”)平滑去噪是时域内低通滤波预处理算法，在滑动平均法的基础上改进而成，其基本思想是利用多项式卷积滤波系数，如以P点为中心，取邻近的n个点做多项式拟合，利用拟合得到的多项式求点P的平滑值P1，之后将滤波窗口移动1个样本单位，如此，将所有数据依次遍历[16]。

1.3.2 计算流程

Savitzky-Golay算法滤波效果与选取的窗口宽度有关，算法的关键在于矩阵算子的求解。设x(n)中的1组数据为x(i)(滤波窗口),i=(-m,-m+1,…-1,0,1,…,m-1,m),滤波窗口宽度为n=2m+1，如将窗口内的数据进行k-1次多项式拟合，即可得到n个k元线性方程组y(i)，如式(7)所示：

(7)

式中：y-m,y-m-1,…,ym代表拟合多项式的结果；1，-m,…,(-m)k-1中m代表拟合多项式中的未知数；k-1代表拟合多项式的最高次数；a0,a1,…,ak-1代表拟合多项式的系数；e-m,e-m-1,…,em代表拟合值与实际值之间的误差。

将式(7)用矩阵形式可表示为式(8)：

Y(2m+1)×1=X(2m+1)×k·AK×1+E(2m+1)×1

(8)

(9)

(10)

式中：B=X·(XT·X)-1·XT

2 实验数据来源及降噪结果分析对比

2.1 实验数据来源

为验证本文提出的3种算法在处理风速传感器监测数据的适用特征，实验对某一连续时段内300个风速组成的数据集D(见表1)进行处理。

表1 煤矿井下某一时段风速传感器监测数据

2.2 FCM算法降噪结果

使用FCM算法时，预先设定聚类中心数c=3，分别表示风速正常波动、风速过低和风速过高3种情况。将风速传感器监测到的数据进行100次迭代，所得结果如图1所示。

图1 FCM算法聚类图

由图1和图2可知，FCM算法将风速传感器监测到的数据按照预设种类依次分为了3类，样本中心分别为：2.423 618，0.573 616，2.644 809。巷道风速具有一定的容差性，一段时间内，风速处于动态稳定状态。虽然第1类和第3类聚类中心不同，但根据现场经验，这两类数据性质类似。编号16，26，47，72，107，134，274，284和296共9个样本数据有微弱的突起，因此，并不能将第1类集合中的数据全部判定为风速正常集合，也不能将第3类集合中的样本全部判定为风速过大。第2类隶属度图中的数据为风速异常数据集，算法对样本180～208聚集性噪声去除效果较为明显。

图2 FCM算法隶属度

2.3 Rloess降噪结果

Rloess算法降噪处理前，需要优选窗口宽度，窗口宽度的确定与数据均方误差有关。因为样本数据中含有离群值，利用Rloess算法计算的预测值与样本数据求均方误差来优选参数是不科学的。因此，使用MAD法去除离群值后的均方误差来优选Rloess的窗宽。

图3为窗框宽度3～14条件下，风速监测样本均方误差。当窗口宽度为7时，误差最小，因此，窗口长度设为7。使用二阶多项式回归，采用三角函数作为范围内数据点的权值函数，采用6倍的中值绝对偏差MAD数进行鲁棒权重分配，得到的平滑结果如图4所示。

图3 窗宽与均方误差关系

图4 Rloess回归降噪结果

Rloess算法整体上对样本进行了平滑降噪处理。与FCM聚类降噪算法不同，编号为16，26，47，72，107，134，274，284和296共9个样本数据变化较为突出，Rloess算法将其直接剔除掉，噪声去除后，并没有对邻近点数据的平滑产生影响。141号样本原属于常规噪声，但算法将其识别为离群值，在计算中被剔除。Rloess算法对聚集性噪声样本180～208没能作出识别，而是在内部进行了噪声优化处理。样本数据209～250小幅震荡波动，Rloess算法对数据进行了较强的平滑处理，将其拟合成了1条光滑的曲线，并基本保持了原数据的变化趋势。

2.4 S-G降噪结果

采用S-G滤波器对监测数据进行降噪处理。由于风速监测样本量较大，为尽可能减少数据失真，滑动窗口宽度不宜过大。理论上，阶数的取值范围是从(0，n-1)，如图5所示，窗宽从5逐次递增到25时，均方误差整体呈增大趋势，窗宽为7的4阶拟合比窗宽为5的2阶拟合的计算结果仅仅降低了0.5%。需要降噪的数据样本风速浮动不大，考虑到计算速度，最终采用窗宽为5的二次多项式对数据进行拟合，最终结果如图6所示。

图5 1～4阶相关窗宽与均方误差计算序列

图6 S-G算法去噪结果

S-G算法对风速样本数据整体上进行了平滑降噪处理。编号为16，26，47，72，107，134，274，284和296等9个离群样本数据参与了平滑，并对邻近点数据的平滑效果产生了一定影响。与Rloess降噪算法相同，对集群噪声样本180～208没能做出识别，而是在内部进行了噪声优化处理。对于反复波动样本数据209～250，S-G算法进行了一定的平滑处理，最大程度地保持了原数据的特性。

2.5 降噪结果对比

短时间内，影响井下风流稳定性的变量可分为过程变量和状态变量2类。过程变量改变一般由临近风路发生改变、瓦斯突出、矿井突水、巷道不可逆变形或损坏等因素引起，风速数据体现为聚集性、呈现周期性变化规律，一般持续一定的时间。状态变量改变一般由人车行驶、采煤机切割、罐笼提升等因素引起，对风速样本影响相对短时，3种算法对于井下过程变量和状态变量变化引起的数据噪声处理效果不尽相同，具体见表2。

表2 3种方法优缺点对比

2.5.1 FCM聚类算法效果分析

FCM对过程变量变化引起的聚集性噪声处理较为优越。在对风速样本处理前根据巷道断面风速分布特点及现场通风管理经验，指定数据分类数。根据不同的聚类中心，通过隶属度以及各状态间衔接和离散的情况来判断和识别风速异常。

FCM聚类降噪算法对人员流动、车辆驶出等引起的偶发性噪声识别能力较差，仅能从隶属度角度分析出此时风速值出现了异常波动，但波动趋势却无法合理解释。此外当监测数据量较大、风速正常波动范围较大时，预先给定的数据分类数较难确定，此种情况下将很难达到满意的降噪结果。

2.5.2 Rloess与S-G算法效果对比

Rloess与S-G算法对状态变量变化引起的数据噪声处理较为优越，但二者侧重点不同。Rloess算法侧重于对于偶发性数据噪声的处理，从第16，26，47，72，107，134，274，284和296样本处可以看出，由于Rloess算法引入了鲁棒性的过程，Rloess算法将这9个离群值剔除处理，且会对局部范围内参与拟合的样本利用权值函数进行权值分配，很大程度上降低了某些非必要风速状态变量对客观分析造成的影响。S-G算法侧重于对趋势性数据噪声的处理，在第16，26，47，72，107，134，274，284和296样本处，S-G法基于时间域上的多项式拟合，对上述9个样本数据进行了平滑处理。平滑处理过程中需将所有数据遍历，所有数据会百分之百参与运算，并对最后的降噪结果产生明显影响，因此S-G算法在去除噪声的同时可以很好地保持原样本的形状。

Rloess与S-G算法均从局部回归分析出发，平滑过程依赖于周边数据，往往忽略了全局意义，因此，处理过程变量引起的聚集性噪声较为乏力，直观表现为在异常过程变量中去除异常状态变量，并不能很好地处理异常过程变量。二者对于噪声的处理较大地依赖于参数的选取，Rloess在剔除离群值的同时，会错误的剔除常规值；而S-G方法易受离群值的影响，使得平滑后的数据失真。

2.5.3 3种方法适用场景

针对3种降噪方法的特性，给出它们的适用场景。当矿井发生风流短路、矿井涌水、巷道变形等时，通风状态会发生改变并维持一段时间，传感器的风速数据表现出明显的分类特征，利用FCM降噪算法可以将此类聚集性噪声识别出来。聚集性噪声往往不是随机出现，其背后存在着一定的必然性，还需要现场技术人员根据所收集样本的聚类结果有针对性地排查通风设施、现场风质或传感器设备运行状态。

由于生产需求，巷道中不可避免地存在车辆行驶和人员流动，此时传感器监测到的通风状态会发生暂时变化，风速数据会产生较大地波动即产生离群值，如果降噪时离群值参与运算，其平滑结果将会失真，并对通风状态的识别和实时解算造成影响。此时需要利用Rloess降噪方法对离群值剔除处理后再进行平滑降噪。

当采煤机在工作面割煤、罐笼提升时，通风状态发生了趋势性的改变，平滑后的数据要尽量保持原有的数据特征，便于判断井下工作状态、排查设备隐患，此时使用S-G算法可以较好地处理此类数据的噪声。

3 结论

1)处理由过程变量变化引起的风速异常数据时选用FCM较为优越。使用该方法时，要在分析现场风速波动范围及引起风速异常原因基础上，给定合理的聚类中心数目。

2)处理由状态变量变化引起的风速异常数据时，选用Rloess算法或S-G算法较为合理。S-G算法侧重于保持通风数据的特性但容易受异常风速的影响，Rloess侧重于去除异常风速，但有时会将正常数据错误识别为异常数据。经过测试Rloess算法取窗宽为7时误差最小，而S-G算法取窗宽为5拟合阶数为2阶时误差最小。

3)由过程变量和状态变量同时引起的风速异常数据处理时，可结合使用FCM-Rloess或FCM-SG算法。首先剔除掉过程变量噪声，之后再根据数据精度、特点及平衡效果的要求，选用Rloess或S-G算法进行局部优化。