基于背景模型的AVS-S编码

2021-01-15 09:30桑爱军张汉宇

东北大学学报（自然科学版） 2021年1期

桑爱军，于欢,2，张汉宇

(1.吉林大学通信工程学院，吉林长春 130022； 2.上海无线电设备研究所，上海 201109 )

随着人们对安全意识的增强，监控视频的普及程度越来越高[1-4].如何能够提高监控视频的编码效率，是该领域所面临的一系列重要挑战.通常监控视频[5-7]有以下特点：固定的摄像头位置，光线变化呈一定规律性，场景变化少.根据这些特点，人们主要采用面向对象的编码方法[8-11]、基于感兴趣区域的编码优化方法和背景参考图像的编码优化方法[12-15]来解决监控视频中的编码问题.监控视频一般工作时间都是持续的，并且时间很长，为了减少监控视频工作的时间，选择合适的编码技术进行编码在实际应用中有很重要的意义.AVS监控伸展档次，即AVS-S，在该框架中有背景帧(G帧)和背景预测帧(S帧)，其中G帧是帧内预测编码时所使用的背景图像，用来显示场景信息，为S帧提供背景信息；S帧大大提高了监控视频的编码效率.该方法主要是通过消除监控视频中的背景冗余实现的.

本文在AVS-S的编码框架之下，提出一种新的背景帧更新方法，即迭代更新均值法(iterative update average,IUA)，该方法进一步加强了背景信息的完整性和提高了背景帧的质量，提升了监控视频的编码效率.

1 背景帧(G帧)更新

1.1 建立背景模型的理论基础

在任意一监控视频中，取某一像素点在一定范围的连续帧内的全部像素值组成集合A，则集合A内的所有数据是一组分类数据.分类数据是统计学中一种反映事物类别的数据，是离散数据.集合A中不同性质的数据之间相互独立，同一性质的数据之间具有相关性，因此可以根据数据之间的关系完成对集合A的分组.分组后集合A中包括众数组和非众数组，通过异众比率可以判定每个数组的性质.

异众比率是指非众数出现的频数占总频数的比例，即

(1)

其中：V0表示异众比率；f0为众数组的频数；N为总频数.当V0越小时，非众数组的频数在总频数中占比越小，说明众数组中的像素值是背景像素值的概率越大；当V0越大时，众数组的频数在总频数中占比越小，说明众数组中的像素值成为前景像素值的概率越大.保留背景像素值，建立最终的背景模型.

1.2 影响背景帧质量的因素

在监控视频编码的过程中，背景帧的质量越好，最终的编码效率越高.而影响背景帧质量的因素有以下两种：

1)训练集长度将会影响背景帧的质量.要想提高背景模型的质量和不断改善建模的效果，就要有充足的可参考实验数据和足够长的训练集长度，G帧更新的方法正好可以满足这两点要求.但是由于运动目标出现的不确定性，所以对建模效果也会有不同程度的影响.因此背景模型的质量与训练集的长度不成正比.

2)前景目标的运动速度将会影响背景帧的质量.在测试视频中，物体停留在某一像素点区域的时间由物体的运动速度决定，对建模效果也会有不同程度的影响，物体运动越快，影响越小，反之则相反.故要消除慢速运动的物体对背景模型的影响更困难.

2 迭代更新均值法

2.1 基本原理

迭代更新均值法通过众数将数据进行分组.根据异众比率判定该组数据的状态，并根据像素点状态的不同选择不同的处理方法，得到最终的背景模型.

根据对当前像素点的性质进行判定的结果共有三种，分别是仅受光照、受快速运动物体以及慢速运动物体影响的像素点.仅受光照影响的像素点的影响因素为光照的自然变化；快速运动的物体经过像素点停留时间短，对建模效果影响小；慢速运动物体与快速运动物体情况相反.迭代更新均值法对不同性质的像素点采用相对应的处理方法，尽可能减少对建模效果的影响，保留更为准确的背景像素值.

“这种说法属于偷换概念。”湖北省中医医院老年病科学科主任医师谭子虎介绍说，冬天因为晒太阳少导致人体骨骼出现的钙流失等问题，完全可以通过春、夏、秋3个季节弥补回来。骨头变脆是一个长时间渐变的过程。冬天骨折多可能与冬季地面变得坚硬，且与人们衣服穿得比较厚、行动笨拙，在冰雪天容易滑倒有关，中老年人尤其如此。因而，冬天比其他季节更容易让人滑倒和骨折，但并不能因此就说冬天骨头会变脆。

2.2 具体步骤

1)初始化.创建数据集，其长度为M，数据集用来存放前M帧数据，即

I={It(x,y),It+1(x,y),…,It+M-1(x,y)} .

其中，It(x,y)表示t时刻(x,y)处的像素值，从I中求得众数，将其记为T.

2)选择阈值.记μ为均值，σ2为方差，则对应的正态分布为

(2)

根据正态分布的3σ准则，x分布在(μ-3σ,μ+3σ)的概率为0.997 4，故将作为3σ阈值来判定像素点性质，阈值设置为14.

3) 数据判定及分组.当前像素值It(x,y)根据式(3)判定其状态，若式(3)成立，则Ft(x,y)记为1，否则记为0.其中，Ft(x,y)见文献[16]，为当前像素点状态判定标志，该标志的值用于后续的背景像素点的判定.

(It(x,y)-T)2<14.

(3)

4)求得当前像素点的背景像素值.若当前满足式(3)的像素点数大于训练集长度L的一半时，则将满足式(3)的所有像素的均值作为背景像素值；若满足式(3)的像素点数小于训练集长度L的一半且存在连续30帧，Ft(x,y)的数值均为1，则判定当前位置有运动物体长时间停留；将Ft(x,y)=0的所有像素值的均值作为背景像素值，否则背景像素值为训练集中该像素点所有像素值的均值.

5)循环步骤1)～4)直至遍历训练集所有像素点，得到最终的背景模型.

2.3 参数选取

迭代更新均值法中当前像素点的长度为K，而训练集的长度为L(K

选择不同长度的训练集和判定像素值状态的数据集，长度分别用L和K表示，本实验取L为100,200，K为10,50，在此数据条件下观察背景模型效果.图1～图3分别是视频训练集Classover，Crossroad和Overbridge在此数据下的实验仿真结果，图中方框是不同训练集、不同训练长度及不同当前像素点条件下得到的运动目标.

图1 训练集Classover下的背景模型

图2 训练集Crossroad下的背景模型

图3 训练集Overbridge下的背景模型

通过直观地观察和客观的实验结果分析可以得出，在当前像素点的长度和训练集长度分别为K=50，L=200条件下，可以获得最佳的背景模型效果.因此迭代更新均值法中的参数选取为L=200，K=50.

3 实验结果及分析

在AVS-S框架中，选取分段加权滑动平均值法(SWRA)、均值法(AV)以及混合高斯背景建模法(GMM)在训练集长度为200所生成的背景模型，同迭代更新均值法(IUA)所生成的背景模型进行比较，如图4～图6所示，图中方框为不同方法在不同训练集条件下得到的运动目标.从图中可看出，IUA所生成的背景模型在主观质量上要优于其他方法所生成的背景模型，并且SWRA方法生成的背景模型要优于AV和GMM方法.为了更进一步地观察背景帧质量对监控视频编码效率的影响，对编码效率进行以下数据分析.

本文实验中全部测试视频来自PKU-SVD-A，仿真软件为AVS-S编解码软件的官方版本RM09.13-v3.将AVS-S框架下的IUA和SWRA以及AVS基准档次在不同监控视频下进行编码效率对比.码率与峰值信噪比的关系曲线如图7所示，生成率失真曲线相关数据以及实验参数设置见文献[16].根据图7可以得出，在三种不同监控视频下，IUA编码性能优于其他两种编码方法，其中峰值信噪比越大编码性能越好，码率是单位时间内视频传输的数据量，单位为Kb/s，码率值越大，视频中信息量越大.对三种编码方式进行数值分析，如表1所示，评价指标为BDBR和BD-PSNR[17].BDBR表示在相等的峰值信噪比下，在率失真曲线中画一条水平线，得到的两种方法码率节省情况，即水平方向分析编码性能；BD-PSNR表示在相同的码率下，在率失真曲线中画一条垂直线，得到的两种方法峰值信噪比差异，即垂直方向分析编码性能.客观分析与直观观察结果保持一致，通过表1分别计算三种视频中得出的BDBR和BD-PSNR平均值，得出本文方法的G帧比SWRA方法平均节省码率12.402%，平均峰值信噪比提高0.363 dB；同理，与AVS基准档次相比平均节省码率43.283%，平均峰值信噪比提高1.186 dB.

图4 不同方法在训练集Crossroad下所生成的背景模型

图5 不同方法在训练集Overbridge下所生成的背景模型

图6 不同方法在训练集Classover下所生成的背景模型

图7 不同训练集下编码性能对比

表1 本文方法与各编码方法比较

4 结论

在AVS的编码框架下，本文提出一种新的G帧更新方法，即迭代更新均值法.该方法可以很好地区分不同运动速度的物体，从而得到视频中较为完整的背景信息，提高了背景帧的质量，并且在同等码率和相同峰值信噪比的条件下，G帧更新方法的编码效率要优于AVS基准档次方法和分段加权滑动平均值法，是一种更加高效的编码方法.