基于扩展双权重聚合的实时立体匹配

2017-03-27 12:21静大海

电子设计工程 2017年6期

关键词：立体匹配视差连通性

茆看，静大海

（河海大学计算机与信息学院，江苏南京 211110）

基于扩展双权重聚合的实时立体匹配

茆看，静大海

（河海大学计算机与信息学院，江苏南京 211110）

基于在保证实时性的前提下提高匹配精确度的目的，本文采用了一种基于扩展双权重聚合的实时立体匹配方法。扩展双权重聚合是基于以下2个新的想法。第一，扩展双权重聚合越过颜色边界连接相似区域，对于一个给定的像素给予一个很大的支持区域。第二，它不包括支持区域中的预估异常值，从而制作一个高质量的支持区域。通过实验将扩展双权重聚合的实时立体匹配方法和其他实时立体匹配方法的精确性相比较。实验结果表明，所提出的立体匹配方法显示了一个平均5.10%的坏像素率，是这些实时立体匹配方法中精确度最高的。

立体匹配；双权重聚合；远程连接聚合；异常排除聚合

立体匹配是对给定的一对立体图像计算视差图的过程。目前许多立体匹配的应用程序需要实时处理，但事实上立体匹配需要经历大规模的计算。幸运的是，无论硬件还是软件方面并行处理技术已经非常先进。因此，在最近几年实时立体匹配的方法被广泛研究。

立体匹配可以分为两种类型[1]：全局和局部方法。全局方法[2-3]通过一个能量函数来表示需要解决的立体匹配问题，然后通过使能量函数最小化来找到最优的解决方案[4]。局部方法[5-6]计算每个像素的异同，然后确定每个像素的最优视差。局部方法本质上是容易计算和适当并行化的。因此，大多数最近的实时立体匹配的方法都采用的是局部方法。一般情况下，局部立体匹配方法包括以下4个步骤[7]：代价计算，代价聚合，视差计算，视差精化。

文中，提出了一种高精度的实时立体匹配方法。为了实现该方法，采用了容易计算的双权重，聚合步骤中删除现有双权重方法的连通性约束。然而在现有的双权重方法中所有双权重应都需要与中心像素相关联。该方法会导致聚合变得复杂但拥有高精度性。

1 传统聚合方法

聚合步骤对局部立体匹配方法的性能的精度和运算速度方面有显著影响。根据权重类型，将聚合方法分为2类：双权重聚合和真值权重聚合。虽然双权重聚合一般精度不高，但它的计算复杂度较低。相反的，高精度的实时值权重聚合也有较高计算复杂度。

1.1 双权重聚合

最初，在聚合步骤中使用一个固定大小的正方形窗口，使窗口中的所有代价平均。然而，随着窗口大小的增加边缘区域变得更加模糊，随着窗口尺寸减小平滑区域的错误随之增加。

为了克服一个固定大小的窗口带来的缺点，提出可变窗口和多窗口。一个可变窗口分配一个正方形窗口尺寸能够自适应每个像素的代价函数和方差。多窗口方法将一个固定大小的窗口分为子窗口，然后选择一些子窗口作为支持区域，即这些像素将被聚合。

为了克服矩形支持区域这一局限性，提出了更加灵活的多边形区域。从中心像素向四向量或八向量的每个方向上的移动，直到遇到一个与中心像素颜色差异很大的像素。多边形支持区域是通过连接的所有顶点而生成的。

最近提出的双权重聚合使用一个基于交叉的支持区域，由其分配像素单元的双权重[8]。用“基于交叉”这个词是因为每个像素都有一个十字形元素。为了生成每个像素的元素，沿着4个方向扩展直到遇到一个颜色差异很大的像素作为中心像素。支持区域是通过收集水平穿过垂直交叉的中心像素从而动态合成的，如图1所示。这样使得分配双权重的形状更适合于每个像素，从而增加精确度。

图1 基于交叉支持区域的示意图

现有的双权重聚合都有连通性约束，因为在权重分配时，所有像素应与中心像素相关联。这个约束是能够快速运算速度的关键原因。然而，连通性约束也是精度较差的原因之一。由于连通性约束，有很多不属于聚合目标的像素。

1.2 实值权重聚合

一种自适应权重算法[9-10]根据比较中心像素的色差和空间距离给支持窗口中所有像素分配权重。自适应权重算法的基本假设是，与中心像素比只有较小的颜色和空间距离的像素视为与中心像素有相同的差距。自适应权重算法的准确性有很大的改善，但需要大量的计算。

许多各样的自适应权重算法需要考虑有效的计算方法。快速双边立体（FBS）通过为每个子窗口设置统一的重量降低了计算复杂度，从O（W2）降低到O（W2/），W是一个聚集窗口的大小。双通聚合[11]是利用水平聚集随后垂直聚集，同时代替二维聚合。可以将聚合的计算复杂度降低到O（W）。此外，指数逐步自适应权重（ESAW）将目标的数量呈指数增加的代价分层结合，从而降低计算复杂度到O(logW)[12]。然而，FBS，双通聚合，ESAW都带来不可避免的降低了它们的近似精度。真值权重聚合通常比双权重聚合更准确，因为真值权重聚合是不受连通性约束的。

2 基于扩展双权重聚合的立体匹配方法

所提出的方法包括以下4个步骤：代价计算，代价聚合，视差计算，视差精化。整体框图如图2所示。所提出的方法的主要改进点是它的聚合步骤，聚合步骤在精度和计算复杂度起着重要作用。

图2 该立体匹配方法的整体框图

2.1 代价计算

SAD和HD是两个被广泛使用的用来构建综合代价。将SAD和HD合并使用比分开单独使用它们效果更好[13]。然而，在结合两者之前，它们应该被截断以避免代价过大忽略掉聚合步骤的其他代价。此外，异常检测，聚合步骤中最重要的一个方面，取决于代价比例。因此，两者的代价应该被截断，使它们产生的影响有限。最后，综合代价为两个代价的截断总和：

τSAD和τHD分别代表SAD和HD的截断值阈值，下标init表示初始代价，用来区分它和聚合代价。

2.2 代价聚合

代价聚合步骤结合像素的代价，像素代价期望有相同差值从而提高匹配的精度。现有的双权重聚合都具有连通性约束，因为所有像素的双权重分配都要与中心像素相联系。然而，这种约束是得到一个准确视差图的一个主要障碍，因为它阻碍了双权重的灵活分配。与现有的双权重聚合相比通过移除连通性约束的该聚合方法提供了更高的精度。此扩展双权重聚合主要有两种方法：远程连接聚合和异常排除聚合。远程连接聚合将聚合目标扩展到颜色边界的外部，异常排除聚合主要是删除异常值的双权重。使用这些方法可以克服双权重聚合相对较低的精确度，同时可以保持其快速的运算速度。

2.2.1 远程连接聚合

双权重聚合根据颜色的相似性和空间约束来确定支持区域。我们希望同一个对象中的像素都能有相似的颜色。然而，在真实场景中，同一个对象中的许多像素颜色区别较大，尽管人们不能识别出来。当然，这些像素可以通过降低颜色相似的边界线的阈值来包含进支持区域中，但它可能会导致过度聚合而产生一个模糊的视差图。远程连接聚合方法要合理地扩展支持区域，而不是通过放宽的颜色阈值引起过度聚合。

现有的基于交叉的聚合方法中支持区域设置为每个像素的预定义窗口大小为。如果像素满足与中心像素颜色相似性和连通性这两个条件，双权重将分配给每个像素的4个方向，aggr_pts定义来表示双权重分配像素端点如下：

下标E表示正确方向，W是聚合窗口的大小，τcolor是颜色阈值。其他3个方向aggr_pts计算方法与它本身方向计算方式相同。函数diff定义如下：

为了降低计算复杂度，在水平聚集后进行垂直聚集，因此，聚合步骤的计算复杂度变成O（W）。因为颜色边界，很多颜色相似的像素都不能分配到双权重，如图3（a）。如果它们属于聚合目标，错误率将会降低。

远程连接聚合设置双权重时可以越过颜色边界。如果它们颜色类似中心像素，不管连通性如何双权重分配给每个像素在4个方向上。要做到这一点，aggr_pts要扩展到三维数据，定义如下：

aggr_ptE（x，y，1）的定义同（2）式。其他3个方向aggr_pts计算方法与它们自己方向计算方式相同。所提出的方法也是先水平聚集再垂直聚集以保持计算复杂度为O（W）。运算过程通过图3（b）以图形方式描述。当比较图3（a）和图3（b）时，很明显可以看出远程连接聚合方法能够更合理分配更多双权重。

图3 双权重分配图形化描述

黑点显示的是中心像素，而由黑体线包围的封闭区域则是聚集的目标像素。

2.2.2 异常排除聚合

一个视差图的精确度一般是可以通过聚合步骤来提高，因为在其聚集目标中大多数的像素都有一个明显正确的代价。然而，一些像素的聚合目标组成一个显然错误的代价，导致一个不一样的错误分配。在所提出的方法中，错误的代价在聚合之前就已被排除。

排除异常聚合的关键是异常值检测的准确性。因此，各种异常值检测方法都应进行测试，以找到一个理想的异常值检测法。在本文中，是通过结合左右一致性检测（LRC）和平均峰值比（APKR）来找出异常值的。

LRC是最广泛使用的异常值检测法。如果某一点在左、右视差图中的差异不一致，则该点是一个离群点，如下面所示：

dispL和dispR分别代表左，右视差图。LRC的基本思想是任意一点的视差都必须是唯一的。

APKR是最近提出的立体置信度，它在发现异常值上显示出了最佳性能[14]。它被定义为一个像素的二次最低代价和最小代价的比。APKR不仅考虑原始峰率还要考虑周围像素代价分布的一致性，如下所示：

其中d1和d2分别对应中心像素最小代价和二次最低代价视差，WAPKR是APKR的参考窗口。值得注意的是，APKR不是简单的平均峰值比。如果一个像素的APKR值比预定阈值低，这个像素将被视为一个异常点。

异常值可以被分为两类，一类是遮挡一类是不匹配。遮挡发生在由于立体相机拍摄的不同景象时背景被前景对象隐藏时。不匹配发生在立体匹配方法出现错误导致一个错误的预估视差。LRC专门用来找遮挡区域因为它主要利用左右视差图的差异。另一方面，APKR主要是搜索不匹配地区因为不匹配像素的代价分配通常与周围像素不一致。因此，我们尽量结合LRC和APKR来加强两项指标的强度，如下：

其中τL和τH分别代表阈值。即使LRC确定一个像素为非离群，当APKR值太小时像素仍可能是异常值，因此，APKR的τL就是用来过滤这种异常值的。

删除双权重的异常值之后双权重将稀疏分布。因此很难有效地计算聚合步骤。但是，利用离群图和聚合过滤代价，我们可以很容易通过过滤总代价的方法解决这个问题。

2.3 视差计算

正如前面提到的，代价与像素之间的相似性成反比。因此，将最小代价看作是视差是合理。在该方法中，计算视差采用赢者全胜策略，如下：

2.4 视差精化

视差通过3个阶段进行优化：异常检测，异常校正和中值滤波。异常值检测是利用异常排除聚合的相同的标准筛选的；然而，LRC和APKR是在聚合步骤后从聚合代价中重新计算的。

对于一个异常值的校正，是通过对每个异常像素向左右两个方向搜索最近的非离群像素点。异常值的视差就被具有更相似的颜色的像素视差替换掉。这是因为具有相似的颜色的像素可能有着相同的视差。之后，使用垂直中值滤波处理异常值，以消除因异常值校正而产生的水平划痕类型的错误。最后，利用平方中值滤波对整个视差图进行平滑处理。

3 实验结果

通过比较4种不同的情况下，对两种方法在精确度方面的影响进行了评价：方法0：直接连接聚合不用任何方法；方法1：远程连接聚合；方法2：异常排除聚合和直接连接聚合；方法3：扩展双权重聚合（远程连接聚合和异常排除聚合两者相结合）。后续处理步骤也在实验中进行。实验结果见表1。每种方法都明显地降低了错误率。当这两种方法都应用时我们得到了最好的结果。因为这两种方法是以一种互补的方式进行的。方法1从颜色边界的外部包含进了更多的聚合目标，而方法2排除了现有聚合目标中的错误代价。

表1 各种聚合方法的精度比较

表2显示了所提出的立体匹配方法和其他实时立体匹配方法的精确性。HEBF，RTAdaptWgt，FastBilateral，RealtimeBFV，ESAW and RT-ColorAW[15]被用作检测方法。精确度是通过预估坏像素的平均百分比，它的绝对视差错误是大于1的。对于每一个图像，坏像素率是对无遮挡的（NOCC），全部的（all），和不连续（disc）区域进行评估，然后取平均值。

表2 各种聚合方法的精度比较

所提出的方法显示了一个平均5.10%个坏像素率，是这些实时立体匹配方法中精确度最高的。设置，τSAD=30，τHD=40，ω=2，产生初始代价，采用远程连接聚合的颜色阈值为 13，采用结合LRC和 APKR相结合的异常排除聚合设置为，τH=1.35，τL= 1.05。最后，最后一步的中值滤波在3*3大小的窗口中进行。图4中提供了本文结果与参考图像和标准视差图。

图4 本文结果与参考图像和标准视差图

4 结论

在本文中，提出了一个新的使用扩展的双权重聚合的实时立体匹配方法。它有两个主要的方法来实现高精度：远程连接聚合设置双权重越过颜色边界和异常排除聚合在聚合之前重置异常值的双权重。该立体匹配方法克服现有的双权重聚合方法的连通性约束，表现出非常精确的结果，同时可以通过GPU采用CUDA平台实现，提供快速的运行速度。

[1]马颂德，张友正.计算机视觉[M].北京:北京科学出版社,1998.

[2]Saygili Gorkem,van der Maaten Laurens,Hendriks Emile A.Feature-based stereo matching using graph-cuts[C]//Conference on Asian Society of Cardiovascular Imaging,Hong Kong,2011:14-15.

[3]KlausA,SormannM,KarnerK.Segment-based stereo matching using belief propagation and a selfadapting dissimilarity measure[C]//The 18th International Conference on Pattern Recognition, Hong Kong,2006:15-18.

[4]Sharstein D,Szeliski R.A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J].International Journal on Computer Vision,2002,47(1-3):7-42.

[5]Yoon K J,Kweon S.Adaptivesupport-weight approach for correspondence search[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(4):650-656.

[6]Humenberger M,Zinner C,Weber M,et al.A fast stereo matching algorithm suitable for embedded real-time systems[J].Computer Vision and Image Understanding,2010,114(11):1180-1202.

[7]Einecke N,Eggert J.A two-stage correlation method for stereoscopic depth estimation[C]//International Conference on Digital Image Computing: Techniquesand Applications,Sydney,New South Wales,2010:227-234.

[8]Zhang K,Lu J,Lafruit G.Cross-based local stereo matching using orthogonal integral images[J].IEEE Trans.Circuits Syst.Video Technol，2009，19（7）:1073-1079.

[9]Yoon K J,Kweon I S.Adaptive support-weight approach for correspondence search[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(4):650-656.

[10]Rhemann C,Hosni A,Bleyer M,et al.Fast costvolume filtering for visual correspondence and beyond[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2011: 3017-3024.

[11]Zhang K,Lu J,Yang Q,et al.Van Gool,Real-time and accurate stereo:a scalable approach with bitwise fast voting on CUDA [J].IEEE Trans. Circuits Syst.Video Technol,2011,21(7):867-878.

[12]Yu W,Chen T,Franchetti F,et al.High performance stereo vision designed for massively data parallel platforms[J]IEEE Trans.Circuits Syst.Video Technol.2010,20(11):1509-1519.

[13]Sun X,Mei X,Jiao S,et al.Stereo matching with reliabledisparitypropagation [J].International Conference on 3D Imaging,Modeling,Processing, Visualization and Transmission,2011:132-139.

[14]Kim S,Yoo D,Kim Y H.Stereo confidence metrics using the costs of surrounding pixels[J].Interna’tional Conference on Digital Signal Processing, 2014:98-103.

[15]Chang X,Zhou Z,Wang L,et al.Real-time accurate stereo matching using modified two-pass aggregation and winner-take-all guided dynamic programming[J].International Conference on 3D Imaging, Modeling,Processing,Visualization and Transmission,2011:73-79.

Real-time stereo matching based on extended binary weighted aggregation

MAO Kan，JING Da-hai
（Computer and Information Institute，Hohai University，Nanjing 211110，China）

In order to ensure the accuracy of real-time to improve the matching accuracy，this paper puts forward a real-time stereo matching method based on extended binary weighted aggregation.The extended binary weighted aggregation is based on the following two new ideas.First，the extended binary weighted aggregation connects distant regions over color boundaries to make them one large support region for a given pixel.Second，it excludes outliers in the support region to make a high quality support region.The extended binary weighted aggregation and other real-time stereo matching methods are compared by the experiment. Experimental results show that，the proposed stereo matching method shows an average of 5.10%of the bad pixel rate，it is the highest accuracy of these all existing real-time stereo matching methods.

stereo matching；binary weighted aggregation；remotely connected aggregation；outlierexcluded aggregation

TN91

：A

：1674－6236（2017）06-0160-05

2016-03-07稿件编号：201603070

茆看（1992—），男，江苏盐城人，硕士研究生。研究方向：图像信息处理。

基于扩展双权重聚合的实时立体匹配

1 传统聚合方法

2 基于扩展双权重聚合的立体匹配方法

3 实验结果

4 结 论

4 结论