一种基于改进差分的测井数据可逆变长码压缩方法

2018-07-28 07:19林永强唐露新刘海熊陵

电脑知识与技术 2018年11期

林永强　唐露新　刘海　熊陵

摘要：随钻测井系统需要提高速率和可靠性，常用的差分脉码调制可去除数据时域冗余，但受干扰时会引发错误扩散。本文根据测井数据及信道传输特性，提出一种改进差分测井数据压缩编码方法，先将测井数据进行基准值的动态分段求差预处理，采用不等重保护策略，对处理的差值数据进行量化和可逆变长码信源编码、对基准值进行纠错信道编码，并采用非等重保护的帧结构和脉冲间隔调制进行传输。通过仿真实验表明，数据压缩可以达到48%，数据传输的可靠性明显提升。

关键词：改进差分；基准值；可逆变长码

中图分类号：TP3 文献标志码：A 文章编号：1009-3044（2018）11-0254-04

A Kind of Inverse Variable Length Code Compression Method for Logging Data Based on Improved Difference

LIU Yong-qiang1， TANG Lu-xin1， LIU Hai2， XIONG Ling2

（1.Guangdong University of Technology， School of Electromechanical Engineering， Guangzhou 510006， China； 2.Zhongtian Qiming Petroleum Technology Co， Guangzhou 510535， China）

Abstract： While logging-while-drilling systems require increased speed and reliability， commonly used differential pulse code modulation removes data time-domain redundancy but causes false proliferation when disturbed. In this paper， based on the logging data and channel transmission characteristics， an improved differential logging data compression coding method is proposed. First， the logging data is pre-processed by dynamic subsection difference of reference value. The unequal weight protection strategy is adopted to deal with the difference The value data is quantized and reversibly variable length code source code， the error correction channel code is used for the reference value， and the frame structure and the pulse interval modulation which are not equal weight are used for protection. Simulation results show that the data compression can reach 48%， and the reliability of data transmission is obviously improved.

Keywords： improved difference； reference value； reversible variable length code

1 引言

目前最常用鉆井是随钻系统，随钻测井系统需将数千米的井下数据传输到井上，常用数据传输主要有钻井液脉冲传输与电磁波数据传输，前者利用钻井液压力正/负脉冲传输信号比较稳定可靠，国内研发的钻井液正脉冲发生器传输速率在0.5～3.0bit/s，国际主流的钻井液正脉冲发生器传输速率一般在10bit/s[1]。目前油气勘探开发向复杂地层发展，需要快速传输更多、更精确的测井数据，但目前钻井液脉冲传输难以满足数据传输实时性和抗干扰的更高要求，因此提高测井数据传输性能成为随钻测量技术的一个重点。

为提高随钻测量信息传输能力，发达国家已经将数据压缩技术、信息传输技术引入地质导向钻井领域，取得较好效果，为了保密较少发表论文。斯伦贝谢公司利用图像压缩技术将井下井眼成像图像压缩50倍后传输至地面，很好地解决了信息传输能力不足的难题，保证了数据实时性[2]。国内钻井液脉冲传输的数据编码研究开展较晚，2010年，张煜提出了基于差分脉码调制的数据压缩编码算法，可将实时传输数据量压缩为原始数据量的一半以下，将数据传输效率提高一倍以上，但信道噪声导致数据错误时，会引起误差扩散导致数据错误传播[3]。2016年，李婷提出一种LZW压缩编码和RS纠错码联合编码的算法LZW-RS，实现压缩比为2：1～3：1的无损数据压缩，在信噪比为5.5dB时，LZW解码能达到良好的重构性能，使数据传输效率最高提升2/3倍，误码率降低为LZW编码的1/4倍～1/8倍，但编译码表是动态生成的，数据传输错误会导致译码错误[4]。同年，江佩佩提出一种联合卷织编码与脉冲间隔调制（PIM）的网格编码脉冲间隔调制（TC-PIM）方法，在相同信息速率条件下，在误码率为10-5的时候，3比特TC-PIM与2比特PIM相比有大约2.5dB的增益，相同速率下，在信噪比为-2dB时，3比特TC-PIM误码率降低为2比特PIM的1/102倍左右，但卷积编码和Viterbi算法会造成传输延迟[5]。

针对上述差分易引起错误传播、动态编译码表不一致和纠错码带来传输延迟问题，本文提出一种改进差分的可逆变长码压缩编码方法。对测井数据进行基于基准值的求差预处理，采用不等重保护策略，对处理后的差值数据进行可逆变长码信源编码，对基准值进行纠错信道编码，然后封帧传输。解码端对数据进行解码，对于错误的数据利用预测方式进行恢复，实现测井数据的实时可靠传输。

2 随钻测井数据编码及传输方式分析

随钻测井无需中断正常钻进操作而将在钻头附近测量的多种信息传输到地面，其数据测量和环境具有相应特性，数据编码及传输方式应根据数据特点和传输因素进行设计。

2.1测井数据及传输特性分析

井下地质测量参数有电阻率和方位伽马，钻井轨迹参数有井斜、方位、工具面，以8比特或12比特的数据形式进行编码。井下发射器将传感器测量的地质、轨迹等参数以0.5～3.0bit/s的传输速度通过泥浆信道传输到地面。井下传感器测量的每种数据都有其独立性，但根据文献[6]对测井数据的分析，井下大部分参数变化趋势相对保持平稳，

泥浆脉冲信号在传输过程主要受到信号衰减和噪声干扰的影响。泥浆信号的衰减与泥浆信号的工作频率、井深深度以及泥浆的密度等因素有关。泥浆脉冲信号符合指数衰减规律，泥浆压力脉冲波幅的衰减模型为：

[P=P0*exp（-xL）] （1）

[L=Vd2ρπfu] （2）

式（1）中：P0为信源信号的脉冲幅度，单位为Pa；x为信号传输距离，单位为m；L为信号源衰减到1/e时的传输距离，单位为m；式（2）中：P为传输x距离后的信号强度，单位是Pa；V为信号的传输速度，单位为m/s；d为管路内径，单位为m；ρ为钻井液密度，单位是kg/m3；u为钻井液粘度，Pa*s；f为脉冲信号的频率，单位是Hz。由上式分析可知信号频率与钻井液粘度对信号衰减有显著的影响，尤其是信号频率，频率越高信号衰减越大，随钻测量系统需要提供更多的能量来补偿信号衰减。

误码主要由噪声产生，通常分以下几类：1）泵冲噪声。其为多频噪声，其基波频率与有用信号的基频很接近，具有周期性。2）扭矩噪声。由坚硬的岩层、钻头、稳定器等产生，可以通过改变钻进参数使其噪声频率远离有用信号频率而消除。3）其他噪声，其他噪声可以近似为白噪声。

2.2数据采集编码和传输方式

为提高速率和可靠性，可以分别从数据采集编码和传输过程采取措施。

数据采集编码采用基于基准值的动态分段差分处理方式，经进一步量化处理后进行可逆变长码压缩编码。因参数变化相对平稳考虑采用邻值差分方式去除数据时域冗余，但泥浆信道噪声复杂易造成错误传播，因而需对差分方式进行改进，采用基于基准值的动态分段差分处理。压缩编码中LZW编码和动态统计编码的编解码表是动态生成的，数据传输错误会导致译码错误，因而考虑使用固定的编解码表，算术编码实现复杂，变长码有唯一可译的特性因而可以做错误自检，不用对每一个数据加额外一个比特进行奇偶校验，传统的变长码抗误码性能较差，因而考虑采用可逆变长码方式进行压缩编码。

传输采用非等重保护的帧结构和脉冲间隔调制。考虑到基准值和差值的重要性不均等，因而采用不等重保护策略对帧结构进行设计，设计关键帧和非关键帧两种帧结构，其中，关键帧用前向纠错码方式保护基准值，而非关键帧利用可逆变长码自身的抗误码能力对差值进行保护。目前泥浆波随钻传输系统中井下采用的是Drilog脉冲发生器，该發生器采用的编码方式主要有曼切斯特编码和脉冲间隔编码[7]。考虑到曼切斯特编码传输速率只能达到0.5～0.8bit/s，传输速率过低，因而采用脉冲间隔编码进行调制。

3基于改进差分的可逆变长码压缩方法

改进差分采用基于基准值的动态分段差分方式对测井数据预处理，经进一步对差值量化处理后进行可逆变长码压缩。

3.1测井数据预处理

为了减少数据变化范围，在编码前对测井数据进行预处理，主要包括基于基准值的差分预处理和差值量化两部分。

3.1.1基于基准值的差分预处理

邻值差分在数据传输错误时会引起错误传播，除此之外，如果对差值量化，还会存在量化误差，其积累可能导致解码值偏离原始数据过大。因而对邻值差分进行改进，提出一种基于基准值的动态分段差分处理方法，预设基准值和阈值，以后续数据和基准值的差值替代原始数据进行传输，当差值超过设定的阈值时对基准值进行更新处理。这里的基准值根据不同参数变化特点选取。

对于升/降、平稳趋势的数据，如图1（a），存10个相邻的历史数据，以最邻近3个数据为起始数据，采用滑动窗口法按时间点从近到远依次查找最值点，当查找到最值点时停止查找，以时间邻近值点和最值点计算斜率，当大于45度时判为升/降趋势，以时间邻近值加/减半区间为基准值，否则判为平稳趋势，对窗内数据取平均作为基准值，当下一数据点不在基准值区间时视为趋势误判，以另外两种方式取基准值，当都不在区间时，视为断层做进一步处理。对于断层，如图1（b）所示，初判此点为异常点，以时间相邻值替代输出。当下一个数据在基准值区间时，此点判定为异常点，否则视为断层点。下一个数据与此点绝对差值少于半区间时，以下一数据与此数据求取均值作为基准值。当不在半区间，但与此点值绝对差值大于半区间时，以下一个数据作为基准值。

对于基本呈上升趋势如图1（c）的数据，根据邻值加/减半区间范围为基准值对此时数据是否在基准值区间范围进行判断以确定基准值，如果都不在区间范围，以断层方式进行处理。

3.1.2 差值量化

不同参数精度要求不一，因而可以通过量化方式变更差分范围。设定量化因子k，对于不同的输入x有不同的输出y，如式（3）所示。

y=kx （3）

3.2可逆变长码

可逆变长码（RVLC）是指在满足前后缀条件下可正反向解码的变长码，根据码字是否满足对称条件，其可分为对称和非对称形式，对称可逆变长码在进行双向解码时只需要单一码表，而非对称可逆变长码双向解码时需要两套码表，需要占用多一倍的存储容量[8]。在目前的测井数据传输中，最大的瓶颈是传输带宽而并非编解码器设备的存储容量，相对于对称可逆变长码，非对称可逆变长码的构造更为灵活，效率也更高，因此采用非对称可逆变长码对数据进行编码。

在RVLC码树的自顶向下的构造过程中，核心问题有两个：第一个是各层应选取多少个叶子节点，第二个是叶子节点位置又该如何选取[9]。

考虑到要实现8比特和12比特数据的码表统一以及压缩性能，只根据非对称可逆变长码的前后缀条件对-12～+12差值进行编码，如表1所示。对于8位数据只用到-7～+7范围的差值，而对于12位数据用到-12～+12范围的差值。

4帧结构与信道调制

4.1帧结构设计

根据不等重保护策略设置非关键帧和关键帧两种不同的帧结构类型。非关键帧的结构如图2所示，同步字节（FSB）包含1bit关键帧标志（KF）、1bit带关键帧标志（CKF）、4bit序列号（SN）和2bit帧未填零个数（FTZN）四部分，其中关键帧标志位为0时表示非关键帧，为1时表示关键帧，带关键帧标志为0时表示下一帧不是关键帧，否则下一帧为关键帧，序列号表示不同的参数组合，最大组合类型为16种，帧未填零个数是由于变长码码字长度的不确定，由于帧长是4的倍数，因而需要在尾部填零，从而有利于可逆变长码的反向解码，接下来的可变长传输数据（VLTD）是不同参数的差值的变长码字的组合，DC1～DCn各表示4bit数据，FB表示的是填零比特数，范围从1～4。关键帧的结构如图3所示，同步字节包含1bit的关键帧标志（KF）、3bit的基准值个数（NDV）、2bit的CRC校验位（CRC）、2bit的帧未填零个数（FTZN）四部分，3bit的基准值个数代表帧内数据的基准值个数，2bit的CRC校验位用于检验帧内数据正确性，接下来的数据是多个基准值在参数组合中的位置和对应的值的组合（PBC），纠错码（FEC）和填零比特数（FB），其中纠错码用于保护基准值的数值和位置。

4.2 脉冲间隔调制

脉冲间隔调制（PIM）是一种利用两个脉冲之间的时间间隔携带信息的调制方式，其符号如图4所示。

在图4中，TPW（ pulse width）表示脉冲宽度；TMP（min pulse time）表示最小脉冲间隔时间，用于减少码间干扰，对应的数值M为0，TBW（bit width）表示位宽度，是数据编码的时间间隔最小分辨值。PI码编码中脉冲间隔的计算公式如下：

Interval=TMP+M×TBW （4）

式4表明，当传输一个数值为M的数据时，经过PI编码后，数据对应的脉冲间隔的时长Interval的值为TMP与M个TBW时长的和。脉冲间隔通常分为两类，一类是普通的数据位，用4比特表示，数据的取值范围为0～15，可看作一个十六进制数，另一类是同步字节，用8比特表示，取值范围为16～255。

假设M在0，1，...，2N-1中等概率分布，N比特PIM的传输码率为

Tr（N，TMP，TBW）=[NTMP+2N-12TBW] （5）

非等重的帧结构实现了差值和基准值的不等重保护，以脉冲间隔调制方式对数据进行传输，与曼切斯码相比提升了数据的传输速率。

5仿真与分析

5.1压缩比仿真与分析

在Matlab仿真平台上，通过基于改进差分的可逆变长码压缩算法分别对三口井的井斜角、方位角、电阻率和方位伽马各2000个左右数据进行压缩，从而对压缩比和压缩时间进行性能分析。

通过表2可以看出，8bit的电阻率和伽马数据压缩比在60%左右，12bit井斜角和方位角的压缩比在50%左右，表明压缩性能随着数据比特位数的增大而有所提升。文献[3]中提出的差分脉码调制压缩编码，8比特数据以3比特、4比特、5比特编码时压缩率分别是37.5%、50%、62.5%，12比特数据以5比特、6比特、7比特编码时压缩率分别是41.7%，50%，58.3%。与文献[3]提出的方法对比，本压缩算法在8比特数据时，和5比特编码压缩性能相当，12比特数据时，和6比特编码压缩性能相当。在压缩时间方面，数据压缩时间和压缩比是成反比关系的，这是由于压缩比越高，其基准值个数越少，从而减少了基准值变更所消耗的时间，由于井斜角是基本呈上升趋势的，其基准值选取耗时较低，远小于方位角、电阻率和伽马值参数数据压缩时间。

5.2误码率仿真与分析

为验证非对称可逆变长码的抗误码性能，将非对称可逆变长码和常规变长码编码方案进行对比。发送端把可逆变长码的4比特码字转换成十进制，组合一个数字序列，每次随机从序列中抽取一个数据转换成4比特数，每抽取32次为一帧，共抽取500帧数据，信道模型采用高斯白噪声（AWGN）叠加周期为5Hz的泵冲噪声信道，接收滤波器采用FIR滤波器。验证在不同信噪比下的噪声对常规变长码和可逆变长码编码方式下的误符号率，最终的抗误码性能用误符号率（Pe）来衡量。

从图5可以看出，非称可逆变长码的误符号性能明显优于常规的变长码的。在叠加噪声信道下，相同误符号率下，非对称可逆变长码的信噪比变长码低1～2dB，也就是说在相同误符号率要求的条件下，非对称可逆变长码编码可以增加传输距离，或者在相同的传输距离条件下，其可以降低误符号率。

6结论

测井数据采集编码采用基于基准值的动态分段差分的可逆变长码压缩方法，克服了邻值差分的错误传播和动态编译码的译码错误，经仿真实验得出压缩率最大可达48%，提升了数据的传输速率。传输采用不等重保护策略对基准值进行纠错编码，对差分值利用可逆变长码的自身抗误码能力编码，减少了数据的传输延迟，利用脉冲间隔调制提升了数据的传输速率。虽然变长码有错误自检的功能，但也存在抗误码性能差的特性，经过对变长码和可逆变长码抗误码性能分析可知，在同误符号率下，非对称可逆变长码降低1～2dB的信噪比。因此，本算法在提高数据传输速率的同时也提高了数据传输的可靠性。

参考文献：

[1] 张煜.基于新型编码技术的随钻测井实时数据传输方法研究[D].北京交通大学，2013.

[2] 秦绪英，肖立志，索佰峰.随钻测井技术最新进展及其应用[J].勘探地球物理进展，2003，26（4）：313-322.

[3] 张煜，裘正定，熊轲，等.基于差分脉码调制的随钻测量数据压缩编码算法[J].石油勘探与开发，2010，37（6）：748-754.

[4] 李婷，史晓锋.泥浆信道数据压缩和纠错联合编码研究[J].电子测量技术，2016，39（4）；133-135.

[5]陈伟，江佩佩，顾庆水，等.用于MWD遥传系统的联合编码调制方法[J].测控技术，2016，35（9）：33-35.

[6]李忠伟，王瑞和，房军.无线随钻测量系统的数据报协议[J].石油学报，2011，32（5）；887-892.

[7]江佩佩.泥浆波随钻传输系统中信号处理方法的研究[D].电子科技大学，2016.

[8]S Kumar，L Xu.RVLC decoding scheme for improved data recovery in MPEG-4 video coding standard[J]Real-Time Imaging ， 2004 ，10（5）：315-323.

[9]范晨，崔慧娟，唐昆.一種高效可逆变长码的构造算法[J].清华大学学报（自然科学版），2002，42（7）：860-862.