基于泰勒级数估计的油井数据无损压缩

2016-11-22 11:35丁英涛陈欣刘箭言李怡然
北京理工大学学报 2016年5期
关键词:阶数幂函数级数

丁英涛, 陈欣, 刘箭言, 李怡然

(北京理工大学 信息与电子学院, 北京 100081)



基于泰勒级数估计的油井数据无损压缩

丁英涛, 陈欣, 刘箭言, 李怡然

(北京理工大学 信息与电子学院, 北京 100081)

为了实现油井数据的高效传输,提出一种新的无损压缩算法. 利用泰勒级数分解拟合出油井数据曲线,进行后向估计,通过传输拟合值与实际值的估计误差,实现数据的无损压缩. 实测油井数据仿真表明该算法压缩率可达25%~40%,其整体性能优于霍夫曼编码、LZW编码等无损压缩算法至少20%,并具有时间空间复杂度低的特点. 通过大港油田数据远程传输系统验证,该算法可将传输网络数据负荷降低至45%.

无损压缩;幂函数拟合;泰勒级数;后向估计;油井数据

随着油田信息化程度的加深,油田井场远程控制系统采集到的电参数、载荷、位移等信息的数据量不断增加. 由于受到油田地理环境的限制,这些信息主要通过无线网络传输. 一种是内部专用的无线网络,如ZigBee网络;另一种是第三方运营网络,如GPRS或者3G网络. 前者带宽较小,难以负荷越来越大的传输量;后者带宽大,但属于收费网络,占用民用资源[1]. 因此,直接传输的方式,已经不适用于数字化油田大数据量的需求. 目前,已经有一些文献致力于研究油井数据压缩方法,文献[2-3]提出的Ramer-Douglas-Peucker (RDP)算法,通过只保留曲线上的足以表达该曲线形状特征的关键点,来实现数据压缩,但数据精度在删除点处存在非常明显的误差,且属于有损压缩. 文献[4]中提出一种对大量数据做奇异值分解,用得到的基向量来近似拟合数据,达到数据压缩的目的,但算法计算量大,无法满足油井数据的实时传输. 此外,还有一些经典通用的数据压缩算法:霍夫曼压缩编码、算术编码、游程编码、LZW算法等[5],这些算法都没有考虑油井数据的特点,不能有效实现油井数据的压缩.

油井数据在时域上表现为平稳缓变的信号,数据波形具有很强的相关性. 本文设计一种基于泰勒级数分解和幂函数拟合理论的数据压缩方法,根据油井采集到数据的特征,快速确定达到最佳估计的泰勒级数阶数,再通过后向估计逐次得到后续数据的估计值,传输过程只需要传输估计误差,从而实现数据压缩. 接收端通过相同阶数的泰勒级数分解和幂函数拟合,利用接收到的估计误差序列,即可无损还原出原始数据.

1 算法原理

1.1 算法原理概述

在数学上,常用一组简单的基函数来逼近复杂函数,实现级数分解,泰勒级数就是以幂函数为基函数,逼近一个复杂函数.

泰勒级数[6]:设实变(复变)函数f(x)在x0的某一邻域上存在n+1阶连续导数,则对该领域内的f(x)可以分解为如下的幂级数:

(1)

根据上述理论,实际采样得到的一个N点序列{yn|n∈[1,N]},认为是抽象连续函数f(x)的N个采样点,那么该函数必然可以实现一个M阶的泰勒级数拟合,每个点yn存在的误差为Δen,即N点序列满足下列幂函数拟合关系:

(2)

式中ai=f(i)(x0)/i!表示幂函数的系数.

拟合函数和实际函数之间存在一个估计误差Δe,在拟合的阶数最接近函数实际阶数时Δe最小,否则拟合的阶数增大或减小都会导致估计误差Δe变大.

在传输过程中只传输估计误差序列{en}及初始数据序列{yn|n∈[1:K]}.

接收端利用K个初始点,根据相同的函数系数进行相同阶数的拟合,恢复估计值,再用接收到的误差序列对估计值进行修正,即可无损还原数据.

根据上述原理,所需要传输数据的幅值位宽将减少,当M≪N时,压缩率近似可以达到

(3)

1.2 算法过程详述

下面对抽象函数y=f(x)进行M阶泰勒级数分解,推导压缩端和解压缩端的详细算法原理.

为了更好地体现yn是N点的时域采样序列,将抽象函数描述为

式中Ts为采样周期.

式(4)为M阶幂函数的表达式:

(4)

其中所需要确定的变量如下:

① 函数的最佳阶数M;

② 函数的系数aM~a0;为了方便后续的分析,记做系数向量:

(5)

根据求解线性方程的Cramer法则,要确定M+1个系数需要M+1个独立的线性方程,所以引入假设条件:

可以将式(2)修正为

(6)

改写成矩阵形式:

(7)

式中y=[y1y2…yM+1]T,

因为xn=nTs,n∈[1,N],所以X为范德蒙矩阵,只与拟合阶数M有关系,后面将记做XM+1,满足满秩条件:r(XM+1)=M+1,存在唯一的逆矩阵,方程组存在唯一的解,即系数向量

(8)

根据上式求出的系数,对前M+1个数据的估计误差为0,对第M+2点的估计值为

(9)

将式(8)带入式(9),得

(10)

(11)

估计误差为

(12)

此后估计第M+i点时,直接由式(11)得到

(13)

因此对于一个有N个采样点的数据序列,在确定了拟合幂函数阶数M后,就可以根据已知的M+1个初始点对后一点数据进行估计,然后得到相应点的估计误差,得估计误差序列:

(14)

在传输过程中只需传输初始的M+1个点的数据序列Yinit=[y1y2…yM+1]和估计误差序列{E},即待传输的数据序列为

(15)

(16)

重复上述解压过程,最终可实现数据还原.

对大量传输数据来说,最佳拟合阶数M≪N,如果拟合幂函数的阶数选择合理,则误差幅度值很小,因此该方法可以有效降低传输数据的量化位数.

1.3 最佳阶数的选取

在实际工程中,由于外界环境影响和设备损耗等问题,采集到的数据存在一定的变化. 此时需要在井下处理端,自适应的选择能达到最佳估计的泰勒级数阶数M.

从传感器采集到数据开始,截取一个周期,利用本文方法进行压缩计算,从M=1开始,得到一个暂时的最大估计误差幅值:

(17)

计算后续M+1阶的ΔE,依次循环,当最大估计误差幅值由减小的趋势变为增大时,即可跳出循环,确定最佳泰勒级数的拟合阶数. 并在后续工作的一段时间内(如:24 h),都采用上述获得的最佳阶数M进行压缩.

2 结果及分析

2.1 实测数据软件仿真

为验证本文方法的有效性,下面对油井传输数据中数据量较大的电参数,利用本文方法做压缩仿真分析. 油井数据多为低频信号,采集系统通常是低通过采样的,含有大量的高频噪声以及带外杂波,因此在利用本文方法进行压缩前应该对数据进行预滤波处理,如图1.

通过对比图,可以看出电参数数据经过低通滤波之后,不存在突变点,波形平滑且相关性强,满足描述的压缩算法的适用条件.

下面分别利用不同阶数的幂函数对电参数数据进行压缩,得到的压缩结果如图2. 可以看出,从M=1到M=4,传输估计误差的幅值逐渐减小,最小减至-12~12之间,从M≥5开始,传输估计误差的幅值开始增大,因此M=4为电参数数据的最佳拟合阶数,根据式(3)可得压缩率R为37.5%. 油井主要传输数据的压缩率R和压缩最佳阶数M总结为表1,考虑实际工程应用,传输数据的量化位数尽量使用2的整数倍,表2、表3中的压缩结果也有相同考虑.

参数原始传输数据/bit压缩传输数据/bit压缩率(R)/%最佳阶数(M)载荷124(±3)33.32功率166(±12)37.54电流124(±4)33.32电压124(±2)33.31位移124(±2)33.31

2.2 算法复杂度分析

算法效率的度量最常见的是时间复杂度和空间复杂度,时间复杂度是指算法执行完毕所需要的时间,空间复杂度是指算法在运行过程中临时占用的辅助空间[7].

本文算法的计算主要是乘法和加法,那么最坏时间复杂度可表示为T(N)=O(N). 时间复杂度随O(N)输入序列的个数N成线性关系,算法的时间效率比较好,满足快速运算的要求.

计算过程中,算出的估计误差,可直接存储在相应输入点的位置,覆盖原始数据后直接传输,所以本文算法属于原地工作,不需要额外的临时存储空间,那么空间复杂度可以表示为S(N)=O(1). 空间复杂度为常数,不随输入序列个数的变化而变化,执行过程中不会占用过多的资源.

2.3 算法鲁棒性分析及改进

幂函数拟合是后向估计,每一个估计出来的点,会作为已知点估计下一个点,如果传输过程中发生数据错误,误差具有累积效应. 如果扰动出现在第一个计算点,那么整个输出估计误差序列都会受影响,并且越往后造成的影响越大,去除已知点数据,影响范围可表示为N-K.

为了改进算法的鲁棒性,可将输入序列等分成L份,并且从每一份的中间点开始向两边同时用本文算法进行前向和后向估计压缩,前向估计压缩原理同后向估计,只是数据序列的处理方向相反,在接收端倒置即可恢复原始数据. 如果扰动仍出现在第一个计算点,对整体的影响范围可降低到(N/L-K)/2,如图3所示.

改进之后算法鲁棒性有所增强,但同时会带来压缩率下降的问题. 在实际工程中,需要根据实际情况和要求,平衡两者关系,选取适合的L,而本文算法均采用原始算法计算得出.

2.4 算法压缩结果比较

传统经典的霍夫曼编码、差分编码、LZW编码都可以实现数据的无损压缩,与这些典型的算法相比,本文算法能实现更低的压缩率,对多组数据进行压缩,统计结果对比如表2.

表2 压缩率对比

2.5 实际系统应用结果

2012年在天津大港采油厂,安装了40套基于Cortex-M3 ARM处理器的油井参数采集和远程传输设备,采集和远程传输压力、温度、载荷、位移和电参数数据,在ARM处理器中实现并且现场应用了上述算法,表3列举了其中10口油井主要数据压缩的结果.

表3 10口井实测数据压缩效果

3 结 论

针对油井数据量越来越大的问题,提出了一种基于泰勒级数分解和线性估计的油井数据无损压缩方法. 该算法对油井数据的每一点利用泰勒级数分解和幂函数进行拟合估计,在传输过程中只传输初始序列和估计误差序列,达到数据压缩的目的. 在接收端,利用初始序列和估计误差序列对数据进行还原和修正,实现数据的无损还原. 对实测数据进行仿真,压缩率可达25%~40%,相比经典的霍夫曼编码、差分编码以及LZW算法,压缩率最少20%. 本文算法成功应用在天津大港采油厂的实际系统中,有效降低了采油厂RTU传输数据量,将总的传输网络负荷降低至45%. 此外,该无损压缩算法也可适用于满足平滑缓变的其他数据类型.

[1] 马晓.油井监测数据传输系统的设计与实现[D].西安:西安电子科技大学,2013.

Ma Xiao. Design and implementation of oil well data transmission system[D]. Xi’an: Xidian University, 2013. (in Chinese)

[2] Ramer U. An iterative procedure for the polygonal approximation of plane curves[J]. Computer Graphics and Image Processing, 1972(1):244-256.

[3] Douglas D H, Peucker T K. Algorithms for the reduction of the number of points required to represent a digitized line or its caricature[J]. The Canadian Cartographer, 1973,10(2):1122122.

[4] Hatami S, Feldmann P, Abbaspour S, et al. Efficient compression and handling of current source model library waveforms[C]∥Proceedings of Design Automantion and Test in Europe Conference and Exhibition. Dresden, Germany: IEEE Press, 2009:1178-1183.

[5] 傅祖芸.信息论[M].3版.北京:电子工业出版社,2011:273-303.

Fu Zuyun. Information theory[M]. 3rd ed. Beijing: Publishing House of Electronics Industry, 2011:273-303. (in Chinese)

[6] 毛京中.高等数学教程[M].北京:高等教育出版社,2008:198-211.

Mao Jingzhong. Advanced mathematics[M]. Beijing: Higher Education Press, 2008:198-211. (in Chinese)

[7] 严蔚敏,吴伟民.数据结构[M].C语言版.北京:清华大学出版社,2009:13-17.

Yan Weimin, Wu Weimin. Data structure[M]. C edition. Beijing: Tsinghua University Press, 2009:13-17. (in Chinese)

(责任编辑:刘芳)

Oil Well Data Lossless Compression Based on Taylor Series Estimating

DING Ying-tao, CHEN Xin, LIU Jian-yan, LI Yi-ran

(School of Information and Electronics, Beijing Institute of Technology, Beijing 100081, China)

A lossless compression algorithm applied on the oil well data transmission was proposed in this paper. Taylor series expansion was used to fit the curve of the oil well data, then the backward estimation was used for data processing. The lossless compression was realized by transmitting the fitting estimation error and initial sequence. From the simulation results, data compression ratio is up to 25%~40% with a low time-space complexity. Compared with other typical coding, like Huffman coding and LZW coding and Delta coding, this compression ratio has 20% advanced. Based on the verification of the actual oilfield RTU, this design can significantly decrease the burden of the data-transmitting net to 45%.

lossless compression; power function fitting; Taylor series; backward estimating; oil well data

2014-01-02

丁英涛(1972—),女,副教授,E-mail:dyt@bit.edu.cn.

TN911

A

1001-0645(2016)05-0530-05

10.15918/j.tbit1001-0645.2016.05.017

猜你喜欢
阶数幂函数级数
无穷级数敛散性的判别方法探讨
XIO 优化阶数对宫颈癌术后静态调强放射治疗计划的影响
基于非线性动力学的分数阶直驱式永磁同步发电机建模与性能分析
确定有限级数解的阶数上界的一种n阶展开方法
《指数、对数、幂函数》专题训练
二重Dirichlet级数在收敛半平面内的增长性
一个非终止7F6-级数求和公式的q-模拟
复变函数中孤立奇点的判别
一年级数学期末小测试
用几何画板探究幂函数的图像和性质