游程编码压缩技术在水电机组状态监测系统中的应用

2010-07-02 03:29唐拥军潘罗平

大电机技术 2010年2期

唐拥军, 潘罗平

（中国水利水电科学研究院水力机电研究所, 北京 100038）

1 前言[1]

随着我国水电事业的发展，水电在整个电网中的比重越来越大，另外，水轮发电机组单机容量也在逐步增大，一旦事故停机会造成严重的经济损失，从而对机组可用率、机组运行的效率、安全性、可靠性与经济性提出了更高的要求。由于水力发电机组额定转速较低，其故障发展多数是渐变的，突发性恶性事故较少，使得利用状态监测和趋势分析技术，捕捉事故征兆，早期分析事故原因，防止故障的发生变得相对容易和正确。因此，对水电机组安装状态监测系统是水电发展的必然趋势。然而，水电机组状态监测系统测点较多，包括振动、摆度与压力脉动等测量参数，因此，在机组长期监测的过程中会产生大量的历史数据，庞大的数据量给存储和查询以及网络传输都带来很多问题，必须采用合理的压缩算法对原始采样数据进行压缩。同时考虑到系统的实时性，要求压缩算法的速度尽可能快，否则会造成数据丢失。

2 数据压缩[2]

数据压缩，就是以最少的码字表示信源所发的信号，减少容纳给定消息集合或数据采样集合的信号空间。

所谓信号空间亦即被压缩对象是指：

（1）物理空间，如存储器、磁盘、磁带等数据存储介质;

（2）时间区间，如传输给定消息集合所需要的时间;

（3）电磁频谱区域，如为传输给定消息集合所要求的带宽等。

由于信源特征千差万别，每一种信源所包含信息的相关性或冗余度都不尽相同，所以在编码时，应当根据各种信源的特点，选择不同的压缩算法，使得压缩性能尽可能高，时间开销尽可能短，易于实现，获得最佳的压缩效果。

在信息论中用“熵”来测量信息量的大小。设离散信源的输出Xk， k = { 1,2,...}取值于有限符号集A：

而该集合中每个对应符号出现的概率为：

于是可以定义信源的平均信息熵为：

数据压缩的理论起源于香农信息论，信源的熵是信源无失真编码的极限，也就是说不论采取何种压缩算法，其压缩后的平均码长不会小于该信息的熵，如果小于的话，那么这种压缩必然是失真的。按照压缩过程的可逆性进行分类，通常可分为有损压缩和无损压缩两种。

（1）有损压缩是不可逆压缩。在有损压缩的过程中，会损失掉一部分信息，这样，在还原压缩文件时就无法做到无失真地再现被压缩的数据。它是以丢失部分信息为代价来获得较好的压缩效果。

（2）无损压缩的工作机理是除去或尽量除去数据中重复和冗余的部分，而不丢失其中的任何信息，从而确保被压缩了的数据还原后与压缩前完全一致。

无损压缩是完全可逆的，不会给数据所携带的信息带来任何损失，但由于无损压缩方法其压缩率受到数据统计冗余度的理论限制，所以其压缩比是有限的。当不考虑信号的次要分量时，其压缩比可以得到大幅提高，由于不影响信号的特征信息可认为是无损压缩的。

3 游程编码[2]

在实际信源的数据流中，由于相邻符号数据间隔潜在的相关性，有些数据可能连续重复数次，表现出较高的冗余度，游程编码就是要设法利用这种数据流的特点来达到数据压缩的目的。所谓游程(RL)是指由信源符号构成的数据流中某个符号重复出现而形成的串的长度，在游程编码中用三个字节表示一个字符串：第一个字节是压缩指示字符S，第二个字节记录连续出现的字符，第三个字节记录重复字符出现的次数。由此可知，当游程长度RL大于3时游程编码就能达到数据压缩的目的，于是编码时要先判断RL值，再决定是否对信息进行游程编码；而译码时如果为普通字符，则直接输出，若遇到的是压缩指示符S，则应再读出它后面的两个字符，其中前一个字符是要释放的字符，应按字符后面所标识的数字重复输出该字符。

4 FFT变换与游程编码

本文介绍的压缩算法是一种变换编码压缩即首先对信号原始数据进行FFT变换，FFT系数是复数序列，其实部是偶对称，虚部是奇对称的，因此可以用FFT系数的前半部分来重构整个系数序列。然后，对FFT系数进行量化处理，对整个信号来说，幅值与能量很小的分量其系数可置为零，再对量化后的系数进行游程编码达到数据压缩的目的，连续零的位数大于2时就可以采用编码压缩，编码的方法为第一位用S表示压缩指示符，第二位数据表示连续零的位数。数据压缩与解压流程见图1。

图1 数据压缩与解压流程

5 实例演示

某水电站机组在某一负荷稳定工况下上导摆度信号原始波形与频域FFT如图2所示，采样率为1000 Hz，数据长度为4096个点。如对原始数据不进行压缩，则需要保存4096个单精度数据。考虑到稳定工况主要关注的是机组摆度幅值与主要频率成分，从信号频域FFT图可看出，信号主要频率成分为15Hz以下的低频。因此可在保证不丢失信号特征信息的条件下，对数据进行大量压缩。

FFT变换系数中以模值最大的频率分量作为基准，其他频率分量模值与它相比，比值小于1/150的分量其系数置为零，得到量化处理后的FFT变换系数数组，其中系数实部可以简单地示意如图3所示（0的连续个数小于3的也用非0表示，虚部与实部一致）。采用游程编码压缩后可表示如4所示，它需要保存的数组长度为51，虚部与实部需要保存的数组长度相同。因此，压缩后需要保存的数组长度为102，因此压缩比为 40.157，均方误差为 2.0324，解压后的数据波形与原始波形对比见图5。

图2 上导摆度时域与频域FFT

图3 量化后FFT系数表示图

图4 游程编码后FFT系数表示

图5 解压后的数据波形与原始波形对比

6 结论

（1）FFT变换系数是复数序列，其实部是偶对称，虚部是奇对称的，可以用FFT系数的前半部分来重构整个系数序列。

（2）对信号原始数据先进行 FFT变换，对 FFT变换系数用一门槛值进行量化处理，再对量化处理后的系数进行游程编码，可以有效地对信号进行压缩，压缩比由门槛值决定，对稳态信号，在保留信号特征的条件下，压缩比可达到 100以上，并且稳态信号的数据长度越大压缩比越高。这样，就可以大大减小存储信号数据的空间与缩短传输信号所需时间及网络带宽。

[1]董鸿魁. 关于水轮发电机组的在线监测及状态诊断[J]. 云南电力技术. 2001, (1): 1.

[2]汪大全. 电力录波数据压缩技术的研究[D]. 成都:西南交通大学, 2003: 5-7.