大数据环境下并行数据传输完整度控制方法

2018-07-04 02:56，

计算机测量与控制 2018年6期

，

(广州工程技术职业学院信息工程系，广州 510900)

0 引言

数据传输控制是数据有效获取、减少网络能耗、最终完成数据完整传输的重要保障[1]。无线传感网络具有多变性特点，在数据传输时易产生无线链路数据传输误码率高，并行数据传输碰撞丢包率高，网络节点暴露受损导致数据交互异常率高等问题[2]，另一方面，网络节点会因能量的损耗导致其失效，进而引发数据传输路径的无效[3]。节点数据存储能力有限，易出现数据流量异常增加，或数据包冲出缓存区丢失。网络节点的非对称性，也会导致信道的带宽分配不均衡[4]。综上所述，对数据传输完整度控制方法的研究成为了亟待解决的问题。在大数据背景下，海量数据多以并行方式进行传输，这也正是数据传输完整度控制方法的难点所在。实现数据的有效传输控制，也是提高网络带宽的利用率以及实现网络公平性中的必然需求。因此提出大数据环境下并行数据传输完整度控制方法，提高网络传输的稳定性及传输数据的完整度。

1 并行数据传输完整度控制原理

在无线网络并行数据传输的过程中，使数据完整度较低的，也就是丢包率现象严重的原因主要就是：传输节点拥塞致使数据包产生大规模碰撞[5-6]。所以解决上述问题就能够实现大数据环境下并行数据传输完整度的控制。具体原理如图1所示。

图1 并行数据传输完整度控制原理图

2 并行数据传输干扰分析

在研究并行数据传输完整性控制问题之前，需先对并行数据传输的干扰因素进行分析。在数据并行传输过程中，网络拥塞现象造成的数据传输速度低，数据传输控制较为困难等问题，都会对数据完整度控制造成严重影响。该部分对并行数据获取干扰和数据传输拥塞度测量干扰加以分析，以便更好地实现并行数据传输完整度控制。具体分析如下：

2.1 并行数据获取干扰

为了减少在一个节点上的通信流量，各进程各自并行读取所需要的数据，从而加快读取数据的速率[7]。但这种获取数据的形式对集群硬件要求较高，集中的磁盘阵列设备可解决硬件要求高的问题，以便更有效的获取并行数据。

对并行数据进行获取，各进程间同时且并发的接收计算任务，在各自接收计算任务后，获取各自的数据集。详细过程如图2所示。

图2 并行数据获取流程图

2.2 数据传输拥塞度测量干扰

对数据传输拥塞度进行测量用以分析每个传输节点的拥塞情况。首先对流入的数据包进行处理，按数据包速率平均分配给自身节点和其他子节点。通过这种节点局部公平速率分配的策略，可确保并行数据传输完整度控制的准确性。数据包的传输服务时间是从数据包到达MAC层算起的[8]，记录数据包的传输服务时间，传输间隔时间及传输到达时间，引用移动加权平均法计算数据传输平均服务时间和平均到达时间。数据传输拥塞度依据数据包平均传输服务时间和数据包平均到达时间求得。当平均到达时间比平均服务时间小时，数据传输拥塞度高，说明节点拥塞较为严重。反之，数据传输拥塞度低，节点拥塞程度小，数据传输速度快。对数据传输拥塞度的测量为并行数据传输完整性的控制做好充足的准备。

3 控制方法的实现

由于并行数据传输过程中的拥堵现象，经常出现于局部网络及其相关的多个节点上[9]。由此利用CL-APTC协议分别对单节点速率、系统级并行数据传输速率进行预控制，依据其结果对网络各节点实际传输速率加以控制，从而并行数据传输完整度控制方法，同时也缓解了数据传输过程中网络拥堵问题。

3.1 单节点速率的预控制

当单个节点的存储空间L

图3 网络节点传输关系

根据图3的描述，得到对单节点速率的预控制和调整方法。因为网数据节点的存储空间是有限的[10]，通过M/M/1/m(单服务窗混合制的排队模型)分析各个节点的传输速率，它的稳定状态如图4所示。

图4 平稳状态图

根据图4可知，M/M/1/m稳态方程为：

(1)

式中，当ρ=0.6时，数据包的数量会比较缓慢地增加，系统会逐渐向最佳的状态发展。当ρ>0.6，系统会迅速至饱和状态，会导致数据包的溢出现象变得严重。当系统在初始状态时，依据BS单位时间数据量要求和ρ值的限制，获得数据源的采样速率。在WSNs中，如果节点缓存的占用量比其缓存空间的阈值Lmax大时，数据节点也许会出现拥塞现象，则网络节点产生拥塞的概率为：

(2)

根据上式能够获得ρ、数据存储空间L、网络节点拥塞概率间联系。由此依据BS要求的数据量，能够获得中间并行数据的转发速率。上述中提到当Lmax

(3)

历经一段时间，如果L重新回至最佳的区间内，也就是L∈[0,Lmax]，则将保持ρ不变。如果L=m且一直持续，节点i至i+1的信道会出现严重的拥塞，i利用ACK消息通告i-1数据节点，然后迭代到数据的源节点。当L进入至最佳的区间，根据ACK方式来通告i-1节点，并迭代到数据源。

3.2 系统级并行数据传输速率的预控制

以并行数据传输平均速率调整的方便性为目的，利用前一个周期t-1占用的局部存储资源E(t-1)和平均的数据传输速率，对本周期t存储资源的占用量E(t)进行预测，通过E(t)和n*Lmax的联系及E(t)与E(t-1)之间的比例，决定了周期t内的平均传输速率调整方式，进而避免数据传输过程中的局部拥塞现象。则系统级并行数据传输控制的具体流程如图5所示。

图5 系统级并行数据传输控制流程图

由图5可知，当周期t初始化时，如果栅格k内活动的节点数量：X(t)=n

1)X(t)=n-1，Δt中输入的栅格数据量为1，且概率为Pn-1(t)*bn-1*Δt；

2)X(t)=n+1，Δt中输出的栅格数据量为1，且概率为Pn+1(t)*dn+1*Δt；

3)X(t)=n，Δt中没有数据量传输，也就是数据量并没有变化，则概率为Pn(t)×[1-dn*Δt-bn*Δt]。

综上所述，可以得到栅格中数据变化的期望值以及栅格内数据存储量变化的比例表达式分别为：E(t)=E(t-1)×et和δ=E(t)/E(t-1)=et。当0≤E(t)≤nLmax，数据传输的平均速率差值保持周期t-1不变，假设n*m>E(t)>nLmax，数据传输的平均速率差值应该减少，因此数据传输的平均速率差值应该调整为：

(4)

根据式(4)可得知E(t)的求解公式为：

(5)

据上式可知，当数据输出平均速率和数据输入平均速率在频繁变化时，系统局部网络吞吐量会出现十分强烈的抖动，同时根据上述过程也解决了系统级数据传输拥塞问题，有效调整了数据传输的速率，提高了数据传输的完整度。

3.3 网络各节点实际传输速率控制

根据3.1和3.2的预控制调整结果，出于对节点级以及系统级数据传输速率状况的考虑，节点实际的传输速率可表示为：

t周期数据输入的速率为：

(6)

t周期数据输出的速率为：

(7)

由上可知，历经节点级与系统级结合的数据传输速率预控制调节之后，网络各节点数据传输的速率根据式(6)和(7)来决定。这样能够综合地考虑整体和个体间的联系。当网络带宽和信道的质量资源较高时，可增加权重α，使网络的整体资源得以高效使用；当某个节点数据的转发量较低，且子节点比较少时，可减少权重α，使该节点本身拥有的资源得以充分利用，进而使整个网络运行的效率最高，从而控制并行数据传输完整度。

为保障数据传输的可靠性且减少节点数据传输的冲突，应减少数据包丢失率和优先级的需求，CL-APTC协议对数据传输方案进行改善。利用数据流的优先级和等待时间大小，对目前的竞争窗口CW进行动态调整；各节点随着自身竞争信道的次数不断增加，相应地增加竞争至当前时隙的总体概率，也就是逐渐减少CW大小；当网络节点于周期t内，竞争至时隙且发送数据之后，它的竞争概率会降低到最小，一直到该周期结束。详细过程为：

综上，当周期t结束时，栅格内A类节点继续下一轮的平均速率、节点发送的优先级运算，利用这种更新新的节点得到信道概率的形式来缓解数据传输产生的冲突，降低拥塞率，提高数据传输完整度。

4 实验结果与分析

本文利用Matlab软件完成实验，节点的位置保持不变，实验环境如下：将节点固定在100 m×100 m平面上，其中节点数据量为60个，实验场景如图6所示。运行PC机的配置：Pentium(R)4CPU2.40 GHz。

图6 网络节点分布图

为了测试并行数据传输完整度控制方法的控制效果，将改进方法与传统方法对数据传输控制效果进行对比，如图7所示。

图7 不同方法并行数据传输控制效果图

观察图7(a)可知，采用传统方法对并行数据传输进行控制，数据在传输信道中轨迹十分散乱，有部分数据偏离了信道，导致数据传输过程中数据丢失。观察图7(b)可知，采用改进方法对并行数据传输进行控制，数据均沿着信道传输，无任一数据偏离信道。对比图7(a)和图7(b)可得，改进方法比传统方法数据传输控制效果好，充分证明改进方法并行数据在网络传输过程中完整度高。

通过对比改进方法和传统方法并行数据传输节点的拥塞率，测试并行数据传输完整度控制方法的数据传输效率。两种方法并行数据传输节点拥塞率对比结果如图8所示。

图8 两种方法并行数据传输节点拥塞率对比图

根据图8可知，采用传统方法进行数据传输完整度控制，节点拥塞率平均保持在11%左右，随着节点数量的增加，虽然节点数据为40个时，其拥塞率有下降情况，但总体数值呈上升趋势，且上升幅度较大。采用改进方法进行数据传输完整度控制，节点拥塞率平均保持在4%左右，随着节点数量的增加，虽在节点数量为50个时，拥塞率有所上升，但总体数值呈下降趋势。对比两种方法可得，改进方法节点拥塞率远远低于传统方法的节点拥塞率，并持续降低，充分说明改进方法能够有效并行数据的传输速率，从而提高了并行数据传输的完整度。

为了测试并行数据传输完整度控制方法的控制精度，将传统方法与改进方法进行对比，两种方法并行数据传输完整度对比结果如图9所示。

图9 两种方法并行数据传输完整度对比图

观察图9可知，采用传统方法对并行数据传输完整度进行控制，传输后数据完整度平均为83%，当传输路径长度为150 m时，数据完整度值最低，为79%，且曲线波动较大。采用改进方法对并行数据传输完整度进行控制，其数据完整度平均为95%，观察曲线，随传输路径长度的增加，总体呈平稳上升趋势。对比两种方法的实验曲线可得，改进方法的数据传输完整度高于传统方法的数据完整度，充分说明所提的并行数据传输完整度控制方法精度高，控制效果好。

分析上述实验结果可知，改进方法要绝对优于传统数据传输完整度控制方法。改进方法针对数据在信道传输中控制效果、节点拥塞率及数据完整度进行实验，通过对比两种方法的实验结果，验证所提并行数据传输完整度控制方法的优越性。该方法解决了节点级的拥塞现象，调整数据传输的速率，将数据在信道中传输的加以控制，减少数据偏离信道导致的丢失现象，保证了数据传输的完整性。

5 结束语

所提并行数据传输完整度控制方法的创新点在于对数据传输的单节点拥塞和系统级的阻塞进行了分析以及解决，这有效提高了数据传输的速率及完整度。未来会是一个互联网集成的环境，其中包含了异构式的技术和系统，由此在未来的研究中应对异构网络间的数据传输完整性方向做研究，以适应时代的发展。

参考文献：

[1] 蒋俊, 黄传河, 华超,等. 基于软件定义资源的实时控制CPS数据传输机制[J]. 计算机工程与科学, 2015, 37(12):2250-2255.

[2] 孙媛. 大数据网络协作传输优化编码方法[J]. 科技通报, 2017, 33(3):104-107.

[3] 苏凡军, 牛咏梅, 邵清. 数据中心网络快速反馈传输控制协议[J]. 计算机工程, 2015, 41(4):107-111.

[4] 郑宏远, 白锐, 刘策. 石油钻井泥浆脉冲发生器数据传输速率分析[J]. 计算机仿真, 2016, 33(7):194-199.

[5] 王睿, 姜宁. 基于作战任务的舰艇数据链传输时效控制方法[J]. 火力与指挥控制, 2016, 41(12):146-149.

[6] 赵辉, 方高峰, 王琴. 基于优化LT码的深空数据传输策略[J]. 计算机应用, 2015, 35(4):925-928.

[7] 马文锋, 贾俊刚. 排球抛球及挥臂击球动作数据的采集与传输研究[J]. 科学技术与工程, 2016, 16(33):239-243.

[8] 李咪咪, 韦飞, 梁金宝,等. 一种应用于CCD读出系统的数据传输系统设计[J]. 电子设计工程, 2016, 24(14):70-73.

[9] 李正军, 周志权, 赵占锋. 基于FPGA的高速数据传输系统设计与实现[J]. 计算机测量与控制, 2016, 24(9):188-190.

[10] 石云, 陈钟, 孟显勇. 基于分区自感簇头的无线传感网数据稳定传输机制[J]. 计算机工程, 2016, 42(11):102-108.