无线传感器网络中的数据传输精简算法

2018-02-07 01:47魏煜，嵩天

计算机工程与应用 2018年3期

魏煜，嵩天

北京理工大学计算机学院，北京 100081

1 引言

随着无线传感技术的不断发展，越来越多的工作可以依赖无线传感器应用来进行。无线传感器网络常被部署在一些条件较为恶劣或者长期无人监管的环境中，如森林、海洋、土壤等自然领域，医疗卫生领域或在战场用于敌占区监测等军事领域。传感器收集感应到的数据，通过多跳中继方式传输给汇聚节点（sink）。在无线传感器网络中，受到限制的不仅是无线带宽和传感器的计算能力，还有传感器的能源问题和环境带来不可预测的网络干扰问题。

传感器的能源消耗决定了无线传感器网络的寿命，研究表明，传感器节点在收发状态时产生的能耗最大。然而，传感器经常以一个相同的频率采集数据，在当前环境较为稳定的条件下，很多冗余的数据将会被重复地传输，造成大量的能源浪费。而这些数据，其实可以通过sink节点自行预测来获得。数据精简算法就是基于这个出发点，在传感器网络中通过预测减少不必要的数据传输，从而节省无线带宽和传感器网络中能源的消耗。

数据精简算法的核心是预测模型。通过在传感器节点和sink节点两端同步相同的预测模型，计算出不超过误差范围内的可接受的预测结果。当传感器采集一个数据后，传感器节点通过比较实际采集值和预测值得出预测误差，若误差未超过既定的误差阈值，意味着sink节点的预测值可以被接受，采集的真实值不需要被传输。反之，若误差超过误差阈值，则会发送相应的采集值或者预测模型的一些参数到sink节点来更新数据和模型。以上的一切最重要的事情是同步更新传感器和sink节点两端的数据和预测模型，保持两端的模型完全一致。

已经有国内外很多学者提出了相关的一些算法，并取得了很有效的数据精简结果。Lazaridis首先提出了Piecewise Constant Approximation（PCA）方式，使用一个恒定的数作为预测值[1]。Lim和Shin提出两种不同的自适应线性预测模型——Directly Smoothed Slope based Linear（DSSL）预测模型和Directly Averaged Slope based Linear（DASL）预测模型[2]。Gaura首先在2010年提出SIP算法，后来以该算法作为框架，提出线性的Linear Spanish Inquisition Protocol（L-SIP）模型，使用指数加权移动平均（Exponentially Weighted Moving Average，EWMA）或其他滤波方式进行线性预测[3]。Santini和Romer提出使用Least Mean Squares Adapter Filter（LMS）进行预测[4]，该方法唯一的不足是算法前期会有短期的初始化阶段。Wei Guiyi和Ling Yun等提出了结合Grey Model和Kalman Filter的预测模型，灰色模型适合预测长期趋势，卡尔曼滤波适合短期预测，它们的结合带来了很好的预测结果，但是计算开销较大[5]。Raza，Camerra，Murphy等提出了Derivative-Based Prediction（DBP）线性算法，算法计算复杂度很小，只需要三次加法运算、两次除法运算来建立模型[6]。Zhang Hui等最新发表的文献中提出了SLPE算法[7]，算法根据数据的线性趋势的改变，动态计算缓存数据窗口大小，进行线性估计。Tan Liansheng等人提出基于分层的LMS预测模型[8]，根据当前数据的前N项对数据进行分层LMS预测。Raza等人提出双管齐下的节能传感器网络模型[9]，包含wake-up receiver和专用的基于模型的感应装置，节省超过90%的数据传输。余修武等人提出自适应预测加权数据融合算法AFDWF[10]，在自适应模型基础上，提取特征值，排除异常值，依据检测值可信度进行数据融合。数据传输和收集算法不只包括单一节点和sink，还包括多sink的算法设计[11]。除此之外，Razzaque等人也在报告中[12]提到三类数据预测方法，随机方式[13-15]、时间序列方式[16-17]和复杂算法方式[18]。

但是多数情况下，大家并未考虑到恶劣的部署环境会给预测带来什么样的影响，很多时候默认或假设网络环境是可靠的，并且在预测过程中，忽略了传感器节点也会崩溃而带来的预测影响。然而在实际应用中，这种恶劣的环境下会经常发生类似的包丢失或者传感器节点失效的问题。

数据精简算法在传感器和sink节点分别部署完全一致的数据预测模型，当这些算法部署在恶劣的实际环境中，网络丢包或传感器失效时有发生，已有预测模型大多假设可靠的网络通信，因此难以处理丢包或传感器故障等带来的预测影响。本文中，将会基于已有的预测模型，提出心跳确认机制，提高预测精简方法的效果。

本文第2章阐述了过去的算法模型和本文发现的主要问题。第3章给出LRPH算法设计，提出Plain Heartbeat机制提高鲁棒性并验证传感器状态。第4章对LRPH算法进行优化提出了LRSH算法，保证鲁棒性的基础上减少了数据传输。第5章给出实验数据和实验结果，进行评估分析。最后总结全文。

2 数据传输精简算法

在基于预测的数据精简中，若传感器出现了故障，不再能自主地向sink节点发送数据，或是由于地点和环境原因导致数据丢包，那么sink节点会认为传感器判断预测误差在阈值范围内，所以并没有数据发送过来。没有消息能通知sink节点这个传感器已经出现故障不再工作或是丢包。由此造成sink节点不断使用预测值进行后续的数据处理等工作，从而可能导致巨大的误差或事故。

为了进一步研究丢包问题带来的影响，实现了已有的以LMS滤波器为预测模型的LMS算法[4]。实验基于实际采集的温度数据集中的7 019个数据，它们的间隔是固定的30 s，误差阈值为0.5℃。为了验证丢包带来的影响，做了一组对比实验。实验1中，模拟这7 019个数据的预测和发送，并描绘出曲线如图1（a）所示；实验2中，随机选择丢掉了第2019号数据，这个数是本应该被发送到sink节点的，由此带来的曲线的变化如图1（b）所示。

图1中带有交叉标记的点是预测误差过大需要发送的点。如图1（a）所示，sink节点和sensor节点所产生的值应该是完全相同的，并且与真实值（real data）相差不大，控制在了误差范围之内。而图1（b）所示的曲线中，由于在标记处丢了一个包，sink节点和sensor节点的预测值变得不一致，并在所圈出的范围内波动剧烈，大大超出了误差阈值范围。在这次丢包造成的影响中，sink产生的超过误差阈值的点共有124个。

图1 基于LMS滤波的算法表现

后续实验中，依次丢了500个单独的数据包，研究每一个数据包的丢失对误差均方根RMSE和产生的超过误差阈值0.5℃结果的数量的影响。结果如图2所示。

图2 依次丢失500个数据的RMSE和超过误差阈值的预测结果数

很明显，不同数据的丢失导致的误差也不同，很多包的丢失会造成结果的大量偏移，产生几百个超出误差阈值范围的预测值，但却由于传感器和sink节点的预测模型不一致而被误认为可接受的值。一般来说，这些不准确的值数量越多，导致产生的均方根误差也越大。虽然有一部分的点丢失并不会对结果造成很大的波动，但是这类缺乏鲁棒性的模型，很难在实际场景中应用，可能造成很严重的后果。

因此，不论预测模型如何，若不能针对网络干扰或传感器故障检测提供合理的方法，将不能把sink节点接收到的数据作为十分可靠的预测数据。所以，保证算法的鲁棒性是十分重要的，在鲁棒性的基础上，再来保证数据精简方法的精简效果和精确度。

在确保鲁棒性和精确度的同时，还要关注算法的复杂性，因为传感器节点的计算能力是有限的，所以在算法中尽量使用轻量级的预测模型，比如线性预测模型和简单的确认机制。

因此，需要提出新的方法来解决上述问题。本文中，针对以上问题提出方法并改进：

（1）提出了 LRPH（Lightweight Robust algorithm with Plain Heartbeat）算法，依据 Plain Heartbeat（心跳机制）解决传感器故障检测和包丢失导致的鲁棒性差问题。

（2）提出了 LRSH（Lightweight Robust algorithm with Smart Heartbeat）算法，依据Smart Heartbeat（智能心跳）优化Plain Heartbeat带来的过多心跳数据开销，提高精简程度的同时维持鲁棒性不变。

3 轻量级鲁棒性算法LRPH

3.1 设计的合理性

这部分，将首先介绍基本的基于预测的精简算法。这类精简算法的核心是在传感器和sink节点两端分别部署相同的预测模型。图3（a）所示是对已有基于预测的方法的简单描述。假设k时刻，传感器采集到了数据x[k]，sink节点此时需要接收k时刻的数据，在预测方法中，sink可以依据已有的数据和预测模型预测出不超过误差阈值的x′[k]，而不是依靠sensor节点发送x[k]。也就是说，在这个方法里，范围在x[k]±emax内的值都是可以被接受的。

图3 方法描述图

具体到基于LMS滤波的方法中，将相同的LMS滤波器部署在传感器节点和sink节点中，在k时刻，它们各自拥有一个完全相同的数据集x[k]，预测值y[k]则是根据x[k]的后N个数{x[k-N],…,x[k-2],x[k-1]}结合预测模型得到的。由于两端的预测模型和数据集都相同，所

以预测后的y[k]也相同。

对于这N个数据，每个都会乘以它的权重wi[k]，它们保存在另一个向量w[k]中。x[k-i]则保存在向量x[k]中：

当传感器收集到一个新的数据x[k]后，首先将预测得出的y[k]和x[k]进行比较，得到预测误差如果e超过了误差阈值emax，需要传送数据x[k]以及x[k]之后连续的N个数值到sink节点，并且两端要同时将这N个值加入到数据集x[k]，中，更新预测模型用来更准确的预测。

同时，每传送一个数据，要同时更新权重向量w[k]，保证传感器和sink节点的一致性。更新权重的方法如式（4）所示：

通过式（4），权重w[k]将会被优化，使预测结果的均方误差最小。其中的μ是调整收敛速度的重要参数[4]。

参数N的数值对于计算开销也有很大影响。由于w[k]和x[k]都是N×1的向量，则根据以上公式可以看出，算法每次迭代共需要2N+1次乘法和2N次加法运算，所以N应该尽可能的小来满足算法要求的低开销计算。

若e并未超过误差阈值，则使用y[k]代替实际读数x[k]放入数据集中，这样即节省了一次k时刻的传输。最重要的一点就是要保证传感器和sink节点的预测模型和数据完全相同，也就是同步两端的模型和数据。因为一次的不同步可能会造成永久性的误差。

在基于10 000条温度数据的实验中，设定误差阈值为0.5℃的前提下，基于LMS滤波的原有算法共减少了13%的数据传输。

3.2 心跳机制（Plain Heartbeat Mechanism）

上述方法中，只要误差e没有超过误差阈值emax，传感器不会发送任何数据到sink节点。然而，还有一些意外情况也可能导致没有数据传输。比如，传感器节点出现故障无法发送数据，由于环境恶劣网络不稳定造成的丢包。

首先，一旦传感器出现故障，无法采集或发送数据，没有信号通知sink节点源端出现了问题，因此sink节点会持续预测并认为预测一直是准确的。因此，预测误差会因为盲目的持续预测而越来越大。第二，若一个本将发送到sink节点的数据x[k]在传输过程中丢失，会导致传感器节点内的x[k]={x[k-N+1],…,x[k-1],x[k]}，而sink节点由于未收到x[k]则仍将y[k]存入x[k]={x[k-N+1],…,x[k-1],y[k]}。同时两端w[k]也因为传感器端更新但sink端未更新变得不一致。因此丢包很容易造成模型预测的不稳定。

为了解决上述问题，提高鲁棒性，在原本的方法模型图3（a）中添加了一个新的部分，如图3（b）所示。由于不能确定何时需要发送数据，需要有一个标识来证明传感器在正常运作，类似于心跳。称这种方法为Plain Heartbeat（心跳机制），即每隔一段固定的时间或者几个固定的时间段，传感器节点会强制发送一条数据给sink节点。这个数据包内可以包括传感器采集到的真实数据，或者预测模型的参数等。当然，sink节点会知道何时会有一个Heartbeat数据到达，一旦在这个时间内连续几次没有接收到数据，那么在排除丢包的状况下可以推断传感器节点出现了问题。这时，sink节点可以向管理系统发出异常报告，进行人为的排查工作。

另外，将Plain Heartbeat与LMS算法结合后，能有效抑制丢包带来的消极影响。将在下一小节具体展现它的结果。

3.3 基于Plain Heartbeat的LRPH算法

为了验证Plain Heartbeat结合已有算法的表现，选择了基于LMS滤波的算法来验证。由于LMS是线性的，所以计算开销很小，并且，在3.1节的基础上做出了改进，当每次误差超过阈值时，将每次发送N个连续的读数改为只发送当前不准确的一个读数，这样既保证了计算的轻量级，又保证了传输的轻量级。称这个算法为Lightweight Robust algorithm with Plain Heartbeat（LRPH）。

LRPH在传感器节点和sink节点端的算法分别如下面的算法1、算法2中用伪代码做出描述。在传感器节点，传感器首先设置Heartbeat的固定间隔t并且初始化μ，N，emax。之后定义计数器count用来计算何时发送Heartbeat。每一个时刻k，传感器采集一个读数d并同时依据式（1）计算对应的预测值y，count此时自增1。之后节点计算d和v之间的误差并查看count计数值，若超过了阈值或是count达到了t，则发送d到sink节点，将d放入x[k]，同时更新w[k]。否则，两端同步添加y到x[k]。在sink节点，若到了Heartbeat接收时间仍没有数据接收，增加一次失败记录，若累积三次则发送异常报告给管理系统。

算法1LRPH算法_传感器节点

实验表明，当使用64个时间段为Heartbeat间隔时，基于5 000个数据的模拟预测中，共发送了235个数据，相对于传输所有的数据到sink，该算法减少了95.3%的传输量。

图4为LRPH算法在存在丢包的网络中的表现，实验中所丢的包同图1（b），然而结果却大不相同。在Heartbeat数据的帮助下，sink节点的预测值几乎同传感器中的相同，不再与其有大幅差距。在图1（b）中，丢包后有超过100个时间段两端没有数据的传输，这段时间内的线性趋势会保持不变。而使用了Heartbeat的图4，每隔64个间隔就会发送一次数据，所以预测模型能依据这些数据及时地调整，防止误差随时间累积。

4 改进的轻量级鲁棒性算法LRSH

在第3章已经详细介绍了LRPH，它是基于LMS滤波器以及Plain Heartbeat机制的轻量且具有鲁棒性的算法。LRPH不仅可以及时感知传感器的状态，还能减少预测带来的误差，尤其是当有丢包事件发生时，可以及时地更正预测模型，减少误差超过误差阈值的预测值的数量。

虽然和原来的基于LMS的算法相比，数据传输已经大大减少，但是一直按照一个固定的时间去发送Heartbeat数据，可能会造成不必要的浪费。因为不论误差是否超过阈值都会发送Heartbeat数据到sink节点，而很多时候数据本身就发送十分密集，不需要Heartbeat进行传感器验证和模型矫正。因此，需要提出一个优化的方法，这个方法的Heartbeat间隔可能不是固定的，但是可以智能地感知何时应该增加Heartbeat频率，何时减少频率，在不影响预测准确性和鲁棒性的条件下，减少传输开销。

4.1 Smart Heartbeat机制

为了解决上述问题，提出了Smart Heartbeat机制。它的核心是判断k时刻读数x[k]的重要性并依据此内容改变Heartbeat的固定间隔。x[k]的重要性体现在它的丢失对曲线的误差变动产生影响大小。

由于基于LMS的算法是线性预测，只要没有数据传输，曲线斜率就会保持原样。所以，若某数据传输之前，距离上一次传输时间间隔越长，则该真实数据的传输对线性预测斜率的改变越大，该数据的传输就是更改斜率的重要转折点，视该点为重要的点。以此提出根据传输密度来判断数据重要性。具体的方法是，对即将传输的数据之前的一段长度为L的时间设置一个最低传输密度Vmin，当读数x[k]被发送到sink节点，计算L距离内的传输密度V。如果密度低于Vmin，则该时间段数据传输量很小，那么说明该点对修正当前预测模型较为重要，在传输的同时，提高Heartbeat的间隔到Hmin，快速矫正曲线斜率。否则，若密度高于Vmin，则将Heartbeat间隔增大一倍，但是不要超过设定的最大间隔Hmax。

图4 当某个数据丢失时使用LRPH算法的结果

通过以上Smart Heartbeat机制，能保证数据传输的密度在一定范围之内，不仅防止过长的发送间隔造成模型鲁棒性较差，还能减少在第3章中Plain Heartbeat产生的过多传输量。

4.2 基于Smart Heartbeat的算法LRSH

基于Smart heartbeat和LMS滤波器，提出Lightweight Robust algorithm with Smart Heartbeat（LRSH）算法，如下所示：

设置最大Heartbeat间隔Hmax，同样也作为默认的初始间隔，设置最小Heartbeat间隔Hmin，以及最小密度Vmin。当一个数据x[k]将被传输，需要计算L时间段内传输密度V[k]。若V[k]低于最小密度Vmin，则x[k]以及它附近的数据很有必要更多地传输给sink节点去更改模型，因此通过减短Heartbeat间隔到Hmin来达到这一目的。否则，若不低于最小密度，则增加一倍的Heartbeat间隔来节省传输开销，但是不能超过最大间隔Hmax。

口语交际教学要在一定的情境中进行，评价也是如此。这样一来，学生容易进入交际角色，评价的结果也更加客观，更具实际意义。

LRSH算法的表现如图5所示，相比于图2，该实验的RMSE基本维持在0.2附近并从未超过0.5，效果远远好于使用基于LMS滤波的原始方法，并且超过误差阈值的预测值数量也大大减少，即使是超过预测值，也只是较误差阈值多出0.1℃或0.2℃。

图5 依次丢失500个数据的RMSE和超过误差阈值的结果数量

在基于10 000个温度数值的数据集的实验中，LMSH节省了96.37%的数据发送次数。可见，LRSH不仅具有鲁棒性，并且精简能力强，是轻量级的预测精简算法。具体的实验会在第5章中加以描述。

5 实验结果和评估

为了评估所提出算法的有效性，基于两个实际数据集做了一系列的对比实验。数据集1（DS1，data set 1）包含了54个传感器节点采集的温度、光度、湿度等读数，收集频率为每30 s一次。根据每个传感器节点划分了数据集，并且将缺少的数据用同上一时刻相同的数据填补上。为了说明问题的普遍存在并验证解决方法的普遍有效性，使用自己的传感器收集了数据集2（DS2，data set 2），包括温度和湿度数据在内，同样采集间隔为30 s。

实验评估的主要标准是传感器向sink节点的发送次数，以及预测的均方根误差（Root-Mean-Square Error，RMSE）。发送次数可以评估算法对数据发送的减少程度，而RMSE则是评价算法精确性以及鲁棒性的重要指标。下文中，将会比较基于LMS滤波的传统算法（以下简称LMS），和本文提出的LRPH、LRSH算法。

5.1 数据精简效果评估

通过几个实验来对比LMS、LRPH。和LRSH在数据精简方面的表现。图6所示为应用LMS、LRPH和LRSH三种算法分别在DB1和DB2两个数据集上，对10 000个数据发送数量的结果随误差阈值emax的变化，纵轴表示和发送所有实际数据相比，通过预测发送的数据占所有数据的百分比，百分比越小，精简程度越高。实验中，使用的参数μ均为0.000 05，并且N均设定为N=4来尽量减少计算开销。在LRPH中，设置Heartbeat间隔为t=64个时间段，即为 64×30 s；对于LRSH，最大Heartbeat间隔和默认Heartbeat间隔均为Hmax=256，最小间隔为Hmin=64。最低发送密度Vmin设置为1/64来确保每64个数据中必有一个数据发送到sink节点，这个数据可能是用来修正的真实数据，也可能是Heartbeat数据。

对于Heartbeat间隔的设置，通过对LRPH算法使用不同的间隔来分析间隔对传输数据量和传输误差的影响，结果如图6所示。随Heartbeat间隔的增大，数据传输量由于冗余传输的减少整体呈现下降趋势，然而误差则会随之上升。因此为了权衡数据传输和误差，选择Heartbeat间隔为64进行后续的实验，数据传输量较小且误差不大。

图6 随Heartbeat间隔变化的数据传输量和RMSE

从图 7（a）和图7（b）的比较中，很明显LRPH和LRSH算法比LMS算法精简程度更好，发送的数据更少。例如，当emax=0.5时使用DS1、LMS发送了13.38%的真实值，LRPH发送了4.15%的真实数据，而LRSH只发送了3.63%的数据。本文提出的算法较原来的LMS方法相比效果更好，首先是因为Heartbeat的存在使预测模型更新、更频繁，预测更准确，出现预测不准确的情况也随之减少；其次是因为将LMS算法中每次发送N个数据改为每次只发送预测不准确的数据，减少了很大一部分传输开销。LRSH方法传输更少的原因是通过重要性判断减少了部分不必要的Heartbeat数据的发送，因此较LRPH传输量更少。

从图中还可以看出，在emax=0.5之后，三种算法随误差阈值增大而发生的改变速度都变缓，emax=0.5的精确度也足够满足本文的预测精确度需求，所以在后面的实验中，都会选择emax=0.5作为默认误差阈值。

5.2 预测误差评估

图8所示为预测产生的RMSE结果随emax的变化。

图7 不同方法的实际数据包传输量

图8 不同方法的RMSE

图9 三种算法中依次丢失每个数据后的RMSE结果

此次实验中，参数N、μ、t、Hmax、Hmin均和上个实验相同。本次实验中并没有设置丢包，显然，在emax＞1.0后，三种算法的误差更为明显，LRPH和LRSH的误差更小的原因是它们将较长的无数据传输的时间段通过Heartbeat数据分开，这些Heartbeat中带有的真实数据能够提升预测模型的准确性。对于LRSH，虽然在误差方面同LRPH没有很大差别，但是LRSH在保持了同样误差情况下减少了数据传输量，同样能够证明它在保证鲁棒性同时也保证了算法的轻量级。

5.3 丢包测试评估鲁棒性

统计了三种算法在丢包后的RMSE结果，实验基于DS1的3 000个数据和DS2的2 000个数据，每次实验分别丢掉一个不同的包，实验结果如图9所示。使用LMS算法时，丢包后的RMSE结果会产生频繁剧烈地变动，甚至超过1.0，产生的误差远超过能接受的误差范围。使用两种新的算法稳定了RMSE的变动，均方根误差基本保持在0.25左右，和不丢包时的情况持平，所以LRPH和LRSH很好地抑制了丢包带来的消极影响，对恶劣环境下的模型构造和维护有很积极的作用，增强了系统的鲁棒性。

另外，为了更好地说明算法的稳定性，对三种算法分别进行了随机的多次丢包实验。对每种算法进行了100次实验，每次实验随机丢弃约10%的传输数据，图10分别描述了三种算法在这100次实验中的误差表现。可看出，在大规模丢包的情况下，算法仍然可以表现出超出原有算法的稳定性，大部分保持在0.5以下，而LMS算法则变动剧烈。

5.4 LPSH和HLMS的算法比较

将LPSH和较新的算法HLMS相比较，HLMS是2016年Tan等人提出的基于多层LMS滤波器的预测算法，该算法较基本的LMS算法收敛更快，预测更精确，并且是在现有预测算法中较为轻量级的算法，符合本文设计初衷，因此选择将LPSH算法和该算法在传输数据量和稳定性上进行对比。

图10 三种算法分别进行100次随机丢包实验的RMSE结果

由于两种算法都是基于LMS基本预测模型进行设计，因此参数设定基本相同，使用DS2数据集进行实验，误差阈值均设置为0.5，对LPSH，µ=0.000 05，HLMS设置为两层，µ1=µ2=0.000 05。从5.1节的实验得出，LRSH发送了3.63%的数据，本次实验中，HLMS预测模型发送了6.55%的数据，较本方法发送了较多的数据，优于LMS。误差方面，HLMS的RMSE为0.237，LRSH为0.241，误差基本相同。鲁棒性方面，同样对HLMS算法进行随机丢包测试，在5 000数据存在约10%丢包情况下，执行100次实验，HLMS出现了预测不稳定情况，RMSE最大可达到1.0，平均为0.75，而LRSH在30次实验中的RMSE最大为0.51，平均为0.38。因此从整体来看，LRSH在传输和鲁棒性方面，均优于HLMS。

以上对算法的实验评估中，LRPH和LRSH较LMS，HLMS算法有更少的数据传输比例和更低的预测误差。并且，LRPH和LRSH不仅轻量级，更是鲁棒性的，对于处理实际应用环境下的丢包有很好的改进效果。

6 结束语

在无线传感器网络中，发送每个传感器采集的数据到汇聚节点会造成大量不必要的能源开销。提出两种算法LRPH和LRSH，不仅能在一定误差范围内减少超过95%的数据传输，还能在实际应用中抑制严峻环境中数据传输时丢包带来的消极影响。另外，本文方法能及时感应传感器的状态，使sink节点不至于在传感器失效故障的情况下盲目预测。通过一系列实验表明，LRPH方法只需要在一定误差范围内传输4.15%的数据就可以通过预测模型描绘出所有的数据情况，而LRSH算法只需要3.63%的数据传输，便能达到与LRPH一样的精确度和鲁棒性。此外，LRPH和LRSH很容易在其他算法中引用并实现。它们是保证了算法鲁棒性的轻量级方法。

[1]Lazaridis I，Mehrotra S.Capturing sensor-generated time series with quality guarantees[C]//InternationalConference on Data Engineering，2003：429-440.

[2]Lim J J，Shin K G.Energy-efficient self-adapting online linear forecasting for wireless sensor network applications[C]//IEEE International Conference on Mobile Adhoc and Sensor Systems Conference，2005：372-379.

[3]Gaura E I，Brusey J，Allen M，et al.Edge mining the Internet of things[J].IEEE Sensors Journal，2013，13（10）：3816-3825.

[4]Santini S，Römer K.An adaptive strategy for qualitybased data reduction in Wireless Sensor Networks[J].Circulation Research，2006，82（9）：971.

[5]Wei Guiyi，Ling Yun，Guo Binfeng，et al.Predictionbased data aggregation in wireless sensor networks：Combining grey model and Kalman filter[J].Computer Communications，2011，34（6）：793-802.

[6]Raza U，Camerra A，Murphy A L，et al.Practical data prediction for real-world wireless sensor networks[J].IEEE Transactions on Knowledge&Data Engineering，2015，27（8）：2231-2244.

[7]Zhang Hui，Zhang Xinming，Dan K S.Lightweight selfadapting linear prediction algorithms for wireless sensor networks[J].IEEE Sensors Journal，2015，15（5）：3050-3058.

[8]Tan L，Wu M.Data reduction in wireless sensor networks：A hierarchical LMS prediction approach[J].IEEE Sensors Journal，2016，16（6）：1708-1715.

[9]Raza U，Bogliolo A，Freschi V，et al.A two-prong approach to energy-efficient WSNs：Wake-up receivers plus dedicated，model-based sensing[J].Ad Hoc Networks，2016，45：1-12.

[10]余修武，范飞生，周兴利，等.无线传感器网络自适应预测加权数据融合算法[J].传感技术学报，2017，30（5）：772-776.

[11]Li Guorui，Wang Ying，Wang Cong，et al.Unbalanced threshold based distributed data collection scheme in multisink wireless sensor networks[J].International Journal of Distributed Sensor Networks，2016，2016：24.

[12]Razzaque M A，Bleakley C，Dobson S.Compression in wireless sensor networks：A survey and comparative evaluation[J].ACM Transactions on Sensor Networks，2013，10（1）：1-44.

[13]Chu D，Deshpande A，Hellerstein J M，et al.Approximate data collection in sensor networks using probabilistic models[C]//International Conference on Data Engineering，2006：48.

[14]Jain A，Chang E Y，Wang Y F，Adaptive stream resource management using Kalman filters[C]//ACM International Conference on Management of Data（SIGMOD2004），Paris，France，June 13-18，2004：11-22.

[15]Kanagal B，Deshpande A.Online filtering，smoothing and probabilistic modeling of streaming data[C]//IEEE International Conference on Data Engineering，2008：1160-1169.

[16]Tulone D，Madden S.PAQ：Time series forecasting for approximate query answering in sensor networks[C]//European Workshop on Wireless Sensor Networks.Berlin Heidelberg：Springer，2006：21-37.

[17]Tulone D，Madden S.An energy-efficient querying framework in sensor networks for detecting node similarities[C]//ACM International Symposium on Modeling Analysis and Simulation of Wireless and Mobile Systems，2006：191-300.

[18]Goel S，Imielinski T.Prediction-based monitoring in sensor networks：taking lessons from MPEG[J].ACM Sigcomm Computer Communication Review，2001，31（5）：82-98.