一种多视图深度融合的连续性缺失补全方法

2019-04-22 08:02毛莺池张建华
西安电子科技大学学报 2019年2期
关键词:监测数据连续性相似性

毛莺池,张建华,陈 豪

(1.河海大学 计算机与信息学院,江苏 南京 211100;2.河海大学 水利水电学院,江苏 南京 210098;3.华能澜沧江水电股份有限公司,云南 昆明 650214)

大量传感器部署在现实物理世界,它们相互合作持续地监测实时状态。传感器产生的数据具有时空特征[1],但是,由于自身硬件和通信错误等因素,会造成传感器数据大量缺失。在极端情况下,会出现连续性数据缺失。这些缺失不但影响实时监测结果,而且不利于进一步研究分析和决策。

关于数据缺失补全已有不少研究,移动传感器的数据估计(Data Estimation for Mobile Sensors, DEMS)[2]挖掘移动传感器时空关系,补全缺失数据完成需求预测[3]。时空K最近邻(Spatial-TemporalKNearest Neighbor, ST-KNN)围绕时空邻近样本[4],使用加权平均实现缺失数据补全。文献[5]提出了时空多视图补全(Spatial-Temporal Multi-View-Learning, ST-MVL)。时空多视图从时空4种视图捕获蕴含数据中的特征完成补全。推荐系统中协同过滤补全(Collaborative Filtering, CF)[6]利用局部时空相似性,线性融合完成缺失补全。但是,当连续性缺失面临矩阵稀疏性问题时,会失去从相似度本身计算的准确度。针对该问题,笔者提出了测点-时间二部图能量扩散的协同过滤(Mass Diffusion Collaborative Filtering, MD-CF),解决连续性缺失中稀疏性而无法从数据相似性本身计算的问题。依据5种视图分别设计相匹配方法,接着建立深度神经网络非线性融合各种视图补全中间结果,减少信息冗余,完成连续性缺失数据补全 。

1 多视图深度融合学习

笔者提出的算法为多视图深度融合补全算法(Deep-Neural-Network Multi-View-Learning, DNN-MVL),主要包括两部分:多视图补全与融合学习。首先针对蕴含在连续性缺失数据中复杂的非线性时空关系,从全局空间、全局时间、局部空间、局部时间和语义5个视图出发,设计相匹配算法预补全连续性缺失;接着利用深度神经网络非线性融合5种缺失补全中间结果,减少冗余信息,完成连续性缺失补全。

1.1 多视图补全

传感器监测数据具有时空特征,笔者从全局时空、局部时空以及语义视图出发,全方位捕获数据中时空特征以及测点功能相似性,其多视图补全方法如下。

1.1.1 全局空间视图补全

全局空间利用经典统计模型中的反转距离加权插值(Inverse Distance Weighted, IDW)[7],以插值点与样本点间的欧氏距离为权重进行加权平均。离插值点越近的样本点赋予权重越大,越远的样本点赋予权重越小。反转距离加权插值从全局空间视图补全连续性缺失,C1则作为全局空间视图补全初步结果。C1的表达式为

(1)

1.1.2 全局时间视图补全

简单指数平滑往往对同一个时间序列中不同时间戳的数据进行指数加权估计缺失值。笔者不仅考虑目标缺失数据所在时间戳的历史数据,也考虑目标时间戳的未来数据,从双向进行指数平滑加权(Bidirectional Simple Exponential Smoothing, BSES),完成目标缺失数据补全。

给定目标时间戳t,测点si在t下监测数据为mi,t,分配测点si的候选时间戳tx处监测数据的权值为β(1-β)|tx-t|mi,ts,进行指数加权。其中,|tx-t|为候选时间戳和目标时间戳t的时间间隔;β为平滑因子,控制随时间间隔权重的衰减程度。tx(1≤x≤n)代表所有时间戳,随时间间隔变大时,相似性下降。双向简单指数平滑,从全局时间视图补全连续性缺失,C2作为全局时间补全结果。全局时间视图补全公式可表示为

(2)

1.1.3 局部空间视图补全

测点si在一个时间戳tj下,通过计算si数据值与它近邻测点数据平均值的区别来衡量si和近邻测点之间的局部空间相似性。针对其蕴含的局部空间相似性,笔者引入推荐系统中基于数据驱动的用户协同过滤(User Collaborative Filtering, UCF)进行建模。该方法的灵感来自兴趣相投用户对相似物品具有相同喜好。将测点作为用户,时间戳则作为项目,通过局部监测矩阵M衡量两个测点的相似性。考虑各测点衡量尺度,采用滑动窗口ω。通过测点su监测数据[mu,t-(ω-1)/2…mu,t+(ω+1)/2]和测点sv监测数据[mv,t-(ω-1)/2…mv,t+(ω+1)/2],计算su和sv修正的余弦相似性以避免各个维度量纲的差异性。其中,t-(ω-1)/2和t+(ω+1)/2表示时间戳,mu,t-(ω-1)/2表示su在t-(ω-1)/2的监测数据。su和sv的余弦相似性计算公式为

(3)

其中,S(su,sv)为su和sv相似性;M(u)和M(v)分别表示两个测点数据的平均值,Iu和Iv分别表示su和sv未缺失时间戳集合,Iuv为su和sv在同一个时间戳下都没有缺失数据的时间戳集合。mu,i和mv,i为监测矩阵M中实体数据,代表su和sv在ti下的监测数据。

将相似性大小按照降序进行排序,选择前k测点构成目标缺失测点最近邻集合V={v1,…,vk},使得S(su,sv)>S(su,svk+1)。依据相似性进行权值分配,得到局部空间补全结果C3。UCF弥补了全局空间相关性不能捕获突发性变化,捕获了在不同测点之间具有时间依赖的空间相关性。C3计算公式为

(4)

1.1.4 局部时间视图补全

监测数据随时间缓慢变化,但同时会发生突发性变化;连续性缺失带来数据稀疏性而无法从数据本身计算相似性,导致补全效果性能下降。针对这两种情形,笔者提出能量扩散的协同过滤是引入物理学中提出的概念物质扩散(Mass Diffusion, MD),指的是构成物质的微粒由于热运动而产生的一种物质迁移现象[8]。

将物理学中的物质扩散方法应用于数据缺失补全需要借助二部图。在基于图模型的物质扩散算法中,二部图用来表示用户和项目之间的关系。将测点作为用户,时间戳作为项目。当某个测点在某时间戳下未发生缺失,则有一条边相连。同一类节点之间不相连。每次物质扩散的步骤用来寻找网络结构中两个节点之间的关联程度[9],每次物质扩散的步骤用来寻找时间之间的相似性。二部图中测点集合S={s1,…si,…sv},时间戳集合T={t1,…ti,…tn}。若时间戳ti在测点su未缺失数据,则二者之间存在一条边auti=1;否则,auti=0。通过测点-时间二部图得到测点在不同时间戳下是否缺失数据,从而直接判断它们之间的相似性。其计算步骤如下:

(1)假设时间戳ti的初始能量为e0,其计算公式为

(5)

(2)能量首次从时间节点扩散到测点节点。测点su将自己能量平均分配给在ti有数据的测点,在ti处有监测数据的测点su的能量记为etiu,k(ti)是测点-时间二部图中时间的度,即在ti处有监测数据的测点数量。若测点su在时间ti未缺失数据,则在测点-时间二部图中的边为auti;否则,为零。其etiu计算公式为

etiu=auti/k(ti) 。

(6)

(3)能量按照与第1次相反的方向,沿着二部图中的边由测点节点扩散到时间节点,即测点节点把当前拥有的能量再次按照测点自身的度数分配给ti处有监测数据的时间节点,时间tj节点的最终能量是与它相连的所有测点节点扩散过来的能量累加之和。经过两次扩散后,最终时间节点具有的能量代表时间tj从ti获得的能量比重,体现了两个时间节点之间的相似度大小,记为S(tj,ti)。将式(6)中et,u的数值代入S(tj,ti)中,可得到

(7)

其中,k(u)是测点-时间二部图中测点u的度。若测点su在时间ti未缺失数据,则auti=1;否则,为零。若测点su在时间tj未缺失数据,则autj=1;否则,为零。

(4)计算出时间戳相似度后,根据相似度的大小排序得到目标时间戳ti的最近邻集T={t1,…tk},使得S(ti,T)>S(ti,tk+1)。

(5)利用传统的协同过滤算法,根据相似度进行权值分配,得到缺失数据补全结果C4,可表示为

(8)

基于能量扩散的协同过滤,将物质扩散理论应用到时间相似性计算中,不但避免了监测数据连续性缺失造成相似性计算下降的问题,而且捕获了局部时间的突发性变化。

1.1.5 语义视图补全

测点所在位置共享相似功能会产生相似数据。但是,相似测点可能空间并不邻近。研究大坝变形监测数据分布趋势,发现数据会受其压力、相对位置等文本特征的影响。挖掘蕴含其中语义关系,将有利于连续性缺失数据补全。为了抽象化模型,笔者构造图表示测点之间功能相似性。定义监测数据语义图G=(V,E,D),其中,每个顶点V代表测点;E作为边的集合,E∈V⊗V;D作为各条边之间的相似性。利用动态时间归整(Dynamic Time Warping, DTW)进行衡量测点si和sj之间的相似性ψsi,sj,可表示为

ψsi,sj=exp(-ηD(si,sj)) ,

(9)

其中,η控制权值衰减程度,DTW(si,sj)为测点si和sj之间的动态时间归整距离。图中任意两个顶点可以到达,具有互通性。

在图中利用图形嵌入方法[10],将每个测点编码到一个可计算的低维向量,并且保持结构信息。对于每一个测点,使用图形嵌入方法输出嵌入特征向量Mi。为了融合学习嵌入特征向量,将特征向量放入全连接层,得到缺失数据补全初步结果C5,可表示为

C5=f(WMi+b) ,

(10)

其中,W和b为学习参数。文中所采用的图形嵌入方法为线性嵌入[11]。

1.2 融合学习

线性融合带来信息冗余,造成补全效果不佳。笔者利用深度神经网络表示能力,非线性融合上述多视图补全连续性缺失的中间结果。融合学习包括训练过程和学习过程。

(1)训练过程。首先输入层接受5种视图补全连续性缺失标准化后的中间结果,然后传递给中间层的神经元;中间层通过不同的隐藏层结构来进行信息融合交换,中间层激活函数使用的是修正线性单元(Rectified Linear Units, ReLU)[12],减少梯度消失,激活之前,进行批量归一化(Batch Normalization, BN)[13],加速训练和收敛速度;最后信息被传递给输出层,得到最终连续性缺失补全结果。当实际输出与期望输出存在误差时,将会进入误差反向传播过程,将误差分配给每一层,在每一层得到新的权值。通过正向反向传播,直到达到训练终止条件[14]为止。

(2)学习过程。首先需要对网络进行初始值赋值,设定误差函数,学习最大次数。并采用五折交叉验证选取最优超参数,较少噪音,获得可靠稳定模型。当计算误差达到最小并未出现过拟合时,完成学习过程。

2 DNN-MVL算法实现步骤

多视图深度融合补全连续性缺失算法是综合利用时空以及语义特征对连续性缺失补全。其基本思想是,首先对5种视图分别设计相匹配方法进行连续性缺失补全,接着通过深度神经网络表示能力,非线性融合5种视图补全中间结果,减少信息冗余,最终完成连续性缺失补全。多视图深度融合补全连续性缺失算法的优势是解决了无稳定的历史输入、连续性缺失带来稀疏性而无法从相似性本身计算相似度和非线性融合减少信息冗余。其具体步骤如下:

步骤1 针对监测数据中连续性缺失,利用反转距离加权插值和双向简单指数平滑线性融合插值进行缺失初始化处理。

步骤2 利用多视图补全设计的5种方法得到连续性缺失补全中间结果,分别是C1,C2,C3,C4,C5。

步骤3 将步骤2标准化作为输入,进行深度神经网络训练,得到最好模型,输出层为缺失补全结果。

步骤4 对缺失数据进行步骤1和步骤2的处理后,利用训练好的模型完成连续性缺失补全。

3 实验结果分析

为了验证所提方法的有效性,实验中以大坝变形监测数据为补全对象,与目前补全性能良好的自回归移动平均模型和季节性差分自回归滑动平均(Seasonal Auto-Regressive Integrated Moving Average, SARIMA)、克里金插值、时空K近邻、基于移动传感器的数据估计、协同过滤和时空多视图进行比较,通过平均绝对误差(Mean Absolute Error, MAE)、平均相对误差(Mean Relative Error, MRE)以及均方误差(Mean-Square-Error, MSE)3个评价指标,衡量补全方法的表现。图1展示所提方法和目前补全性能最佳的时空多视图在每个训练集评价指标表现。可以看出,所提方法在每一个训练集表现都优异。

表1中列出多视图深度融合补全和上述补全算法在3项评价指标的补全表现。不难看出,文中所提的多视图深度融合补全连续性缺失补全算法展现一定的优越性。多视图补全方法要优于非多视图补全方法,但所提多视图深度融合补全较时空多视图在补全空间连续性缺失平均绝对误差、均方误差、平均相对误差分别降低了6.50%、8.17%、21.40%;在时间连续性缺失平均绝对误差、均方误差、平均相对误差分别降低了7.60%、10.10%、22.64%。

图1 训练集评价指标对比

方法连续性空间缺失连续性时间缺失MAEMSEMREMAEMSEMREARMA25.3429.110.35SARIMA21.3627.790.3225.4230.240.56Kriging15.3127.850.28DEMS16.89025.1400.284012.95023.9700.277ST-KNN17.5528.870.3112.3222.590.27CF16.78024.9800.28512.76021.5600.274ST-MVL14.62021.6200.25611.51019.4700.230DNN-MVL13.54019.4500.1909.75018.3800.156

实验中进一步验证了所提算法的效率。文中实验硬件条件为GeForce 960显卡,实验结果显示所提方法融合学习过程耗时为21.241 s,补全耗时为0.182 s。而目前补全性能最好的时空多视图补全耗时为22.281 s。在引入神经网络非线性融合存在大量参数的条件下,依旧保持着一定的优越性。这是由于该算法引入能量扩散的协同过滤对稀疏性数据处理以及图形处理器(Graphics Processing Unit, GPU)强大的计算能力。

图2显示在不同尺度的连续性缺失下,5种不同视图不同组合的补全效果,可以看出:

(1)多视图深度融合补全连续缺失优于其他所有视图组合,证实了分布在跨时空视图当中的异构信息是互补的。

(2)与以反转距离加权插值和简单指数平滑构建全局视图(Global View, GV)的补全效果相比,以用户协同过滤和基于能量扩散的协同过滤构建局部视图(Local View, LV)的更佳,相比多视图深度融合补全结果的重要程度分别为0.79和0.68。

(3)与以简单指数平滑、自回归移动平均和基于能量扩散的协同过滤构建时间视图(Temporal View, TV)的补全效果相比,以反转距离加权插值和用户协同过滤构建空间视图(Spatial View, SV)的更佳,相比多视图深度融合补全结果的重要程度分别为0.57和0.48。

图2 不同视图不同尺度组合的补全表现

表2具体列出各种视图组合对补全性能表现,进一步验证了多视图深度融合补全和能量扩散的协同过滤对提升连续性缺失补全准确性的作用。从表2可以看出:

(1)文中所提的能量扩散协同过滤产生的补全效果优先于传统的项目协同过滤的,在一定程度上弥补连续性缺失带来数据稀疏性而无法从数据相似性本身计算的问题。

(2)在连续性缺失数据补全过程中,时间视图对于补全缺失数据相较空间视图更加重要。因此,针对利用时间视图进行补全效果较好。

表2 不同方法组合补全评价

(3)多视图深度融合连续性缺失补全算法无论在连续性空间缺失,还是在连续性时间性缺失,都展现出良好的补全能力。

图3显示对大坝变形监测连续性缺失数据的补全结果。图3(a)对滑动窗口为45的连续性缺失进行补全,多视图深度融合补全对测点A25-PL-01平均绝对误差达到2.38,均方误差达到3.25。图3(b)对滑动窗口缺失为60的连续性缺失进行补全,多视图深度融合补全对测点A22-PL-03平均绝对误差达到2.96,均方误差达到3.38。验证了多视图深度融合补全的可行性。

图3 补全的前后对比

图4显示多视图补全5种中间方法不同参数选择对连续性缺失补全的表现。图4(a)、4(b)、4(c)分别展示反转距离控制中衰减因子α、双向简单指数平滑中衰减因子β、用户协同过滤和基于能量扩散的协同过滤中相似集k不同取值下对补全的表现。当α=1时,补全连续性缺失平均相对误差达到最小;当β=0.95时,平均相对误差达到最小;当k=7时,平均相对误差达到最小。深度神经网络融合学习框架6层隐藏层分别为64、128、256、256、64和32个神经单元。采用的优化算法为适应性估计优化算法(Adaptive moment estimation, Adam),其中学习速率为0.000 1。

图4 多视图补全中间参数的影响

4 结束语

笔者提出了多视图深度融合的连续性缺失数据补全方法。为了充分利用蕴含数据中复杂的时空特征,不但采用时空多视图,而且考虑语义视图,从功能相似性进行探索。其中,基于测点-时间二部图能量的扩散的协同过滤解决了连续性缺失带来稀疏性而无法从数据本身计算相似性的问题,最后采用深度神经网络非线性融合补全中间结果,减少冗余信息,完成连续性缺失补全。通过多次实验证明,文中所提的方法不但运算效率高,而且在补全连续性时空缺失都具有明显的优异性。

猜你喜欢
监测数据连续性相似性
一类上三角算子矩阵的相似性与酉相似性
浅析当代中西方绘画的相似性
不可压缩Navier-Stokes方程解的非线性连续性
非连续性实用类文本阅读解题技巧例谈
GSM-R接口监测数据精确地理化方法及应用
连续性
低渗透黏土中氯离子弥散作用离心模拟相似性
环评中引用大气现状监测数据的研究
GPS异常监测数据的关联负选择分步识别算法
基于小波函数对GNSS监测数据降噪的应用研究