基于多尺度特征学习的阴影检测

2016-06-08 05:48张永库杜帅川孙劲光周积林金雅茹
计算机应用与软件 2016年5期
关键词:阴影卷积像素

张永库 杜帅川 孙劲光 周积林 金雅茹

1(辽宁工程技术大学电子与信息工程学院 辽宁 葫芦岛 125105)2(辽宁工程技术大学研究生学院 辽宁 葫芦岛 125105)3(山东中医药大学护理学院 山东 济南 250000)



基于多尺度特征学习的阴影检测

张永库1杜帅川2孙劲光1周积林2金雅茹3

1(辽宁工程技术大学电子与信息工程学院辽宁葫芦岛 125105)2(辽宁工程技术大学研究生学院辽宁 葫芦岛 125105)3(山东中医药大学护理学院山东 济南 250000)

摘要针对传统阴影检测方法存在精心设计特征、训练时间长与阴影检出率低等问题,提出一种有监督学习的阴影检测方法。首先输入的图像经过拉普拉斯金字塔变换,确定聚类中心,分别以聚类中心为中心进行窗口提取;然后合成训练样本,训练样本在卷积神经网络中进行训练得到后验分布;最后将得到的后验分布反馈给条件随机场生成有标签的图像。实验结果表明,该方法有较好的场景适应性、训练时间短并且有较高的阴影检出率。

关键词阴影检测卷积神经网络特征学习条件随机场

0引言

阴影是许多图像的组成部分,有时候反映了物体形状、大小等重要信息,然而图像中的阴影会对图像的后续处理造成不利的影响。例如:在智能视频监控中,阴影会严重影响目标的跟踪。阴影检测率会直接影响阴影消除的效果,因此阴影检测也是近些年的研究热点之一。

目前阴影检测方法大体可以分为两类:基于模型[1-3]的方法和基于特征[4-6]的方法。基于模型的方法利用一定的先验信息建立光照模型来检测阴影;基于特征的方法根据阴影的色度、亮度等特征来识别和检测阴影。基于模型的方法通常需要利用多幅图像的先验信息进行建模,该类方法有一定的局限性,只适合于特定的场景。基于特征的方法不需要场景的先验知识,仅仅通过图像的特征检测阴影,时间复杂度较小。当阴影区被覆盖时,虽然亮度变低却仍然保留着一定的色度信息,依据这一特点,在阴影检测时往往将图像转换为亮度与色度相互独立的颜色空间[7,8]。基于色度的阴影检测方法计算量小,但是对噪声和光照比较敏感。近几年来,基于统计属性[9-12]的阴影检测方法受到了更高的关注。Zhu等[9]基于图像的可变特征和不可变特征、Lalonde等[10]基于图像的色彩特征和纹理属性、Jiang等[11]基于图像的色彩分割与照明估计、Guo等[12]基于成对区域,这类方法都采用条件随机场标识阴影区域。该类方法对不同的场景与不同光照条件具有较强的适应性,代表了当前的研究水平与未来的发展方向。但是该类方法都需要花费大量精力小心的设计这些特征。Zhu等[9]提取可变特征与不可变特征,这些特征用来训练一个分类器,该方法消耗资源大训练时间长。Lalonde等[10]使用了48维的特征向量,虽然增加特征维数能够达到很好的效果,但是阴影检测的时间大大的增长了。Jiang等[11]对Lalonde等[10]方法进行了改进,取得了更好的效果,却花费了更长的时间。Guo等[12]首先采用均值漂移的方法对图像进行分割,把提取的特征作为支持向量机(SVM)的输入建立分类模型。该方法对局部细节噪声较为敏感并且当场景比较复杂时大大增加了SVM的测试时间。

针对上述方法的缺点,本文提出一种新的多尺度特征学习的阴影检测方法。与上述基于统计属性的方法相比,本文方法是一种在场景中,通过特征学习的方法学习大部分相关特征,这些特征用来进行阴影检测。卷积神经网络CNNs(Convolutional Deep Neural Networks)[13]是人工神经网络的一种,已成为当前图像处理领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。它模拟人脑进人脑的机制来解释、处理图像等。因此,本文采用卷积神经网络进行特征学习。一个像素是否属于阴影区像素,不仅与像素自身的亮度、色度等特征有关,还与其周围相邻区域与不相邻区域有紧密的关系,多尺度(图像的拉普拉斯金字塔)的特征学习很好地解决了这个问题。条件随机场CRF(Conditional Random Fields)[14]是一种基于统计的模型。2001年,由 John等人首次提出,可在给定全局条件的前提下,计算全局最优输出标记的条件概率。它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料。卷积神经网络特征学习之后的后验分布反馈给条件随机场,条件随机场对图像进行标注达到阴影检测的目的。

1自学习阴影检测框架

给定一副图像,本文在像素级别下检测和定位阴影。对于一个像素来说,不能简单地根据与周围相邻像素之间的关系来判断它是否属于阴影区像素。一个像素与其周围较远处不相邻的像素也有较为密切的关系。人眼能够根据图像中阴影区与其周围非阴影区的不同快速定位阴影。本文对输入的图像经过拉普拉斯金字塔变换,分别以确定的聚类中心为中心进行窗口提取达到考虑像素周围较远处区域的目的。合成训练样本后在卷积神经网络中进行训练,用小的测试集进行测试,最后产生的后验分布反馈给条件随机场,不同标签集合的交集形成阴影检测的结果。本文方法流程如图1所示。

图1 本文方法流程图

1.1确定聚类中心

图2 不同方法搜索范围比较

在聚类中心点数目相同时,该方法能够减少重复计算的时间,因为圆形具有严格的几何不变性[16],确定的聚类中心为:

Ck=[lk,ak,bk,xk,yk]T

(1)

其中,lk、ak与bk表示坐标为(xk,yk)的像素点在CIELAB颜色空间下各通道的值,k∈[1,K]。

1.2窗口提取与特征学习

输入图像经过拉普拉斯金字塔变换,以每个聚类中心为中心进行窗口提取,则对于坐标为(xk,yk)的像素点,此操作可以描述为:

Ωk=W(Ck,t)

(2)

其中,Ωk为所提取的图像块Ωk∈Ω,W(·)为窗口操作,t为提取窗口的大小,由于所选图像集阴影区域的不平衡性,采用合成少数类过取样算法[17]合成训练样本:

Ο=Λ(Ω)

(3)

其中,Λ(·)为合成样本操作,Ο为样本集,样本集在卷积神经网络中进行特征学习。本文卷积神经网络结构如图3所示。

图3 卷积神经网络结构图

对于卷积层来说,上一层的特征图被一个可学习的卷积核进行卷积,然后通过一个激活函数,就可以得到输出特征图。每一个输出特征图可能是组合卷积多个输入的特征图:

(4)

(5)

(6)

对于式(6)j∈[shadow,n-shadow],卷积神经网络以一个图像块作为输入,经过训练之后得到一个后验分布。在本文中,池操作的步幅等于池邻域的均值,通过降采样层执行池操作有助于学习不变性的特征描述。全连接层工作原理是有一层隐藏层的多层传感器,这个隐藏层后边跟着一个逻辑回归的输出层,逻辑回归的输出层提供类的分布。图像转化为二值图像,二值输出变量的后验分布:

(7)

图像块训练之前先进行预处理,采用卷积神经网络可以把概率分布的模型PCNNs(Yi|Οk)定义为:

PCNNs(Yi|Οk)=F(θ(Οk))

(8)

其中,θ(·)是预处理,F(·)是有5层隐藏层的卷积神经网络。预处理之后,通过在线学习(随机梯度下降),卷积神经网络进行有监督的训练。在训练过程中,梯度通过反向传播的方式计算,交叉熵损失函数被最小化[17]。采用交叉验证的方法确定训练参数,训练样本在训练之前被打乱,这是因为卷积神经网络对未知样本学习得更快。卷积神经网络的初值是从0均值的高斯分布中随机取样来初始化的。

卷积神经网络在训练过程的每个阶段用一个小的验证集来评估正在训练的网络,一旦验证集在执行时不能达到κ步,训练过程就停止(本文κ=5)。在验证集上表现好的网络被用来在图像库上进行测试,最初的学习率是试探性的选择能使误差收敛的最大学习率。

1.3条件随机场

给定输入图像,阴影检测的任务实际上就是把整幅图像的像素分为了两类,也是对每一个像素进行标签的过程,一个像素要么被标记为阴影像素要么被标记为非阴影像素。这种二分类问题从有监督的特征学习中建立概率估计并提供给条件随机场。条件随机场定义在网格拓扑结构图上,图的节点对应于图像的像素,如式(9),条件随机场是对像素标签最常用的方法之一。由于训练空间(标签图像)的大小增加了计算似然函数梯度的难度,因此条件随机场的参数不能被简单的手工标签阴影区的最大似然估计来得到,采用一种最大化利润学习方法[18]来学习条件随机场的参数。把阴影检测定义为条件概率分布:

(9)

其中,ω是该模型的权值,Z(ω)是归一化函数,ν表示节点(比如单个像素),ε表示边(比如相邻像素),X表示整幅图像的像素。对吉布斯能量函数而言,上述分布形式为:

(10)

(11)

(12)

当Yi≠Yj时φp1(Yi,Yj)=α,否则φp1(Yi,Yj)=0,φp2(X)如下:

(13)

其中,α和β通过在每个数据集上交叉验证得到,对随机变量Y∈ΓN,通过采用最大后验估计Y′来确定像素的标签,由于归一化函数Z(ω)不依赖与Y′,这种估计转化为能量最小化问题:

(14)

根据Y′求标签集合SJ最后求交集:

(15)

2结果与讨论

2.1实验方案

为了验证提出方法的有效性和高效性,本文实验方案如下:

(1) 图像库:本文实验图像库来源于文献[9]图像库(大部分阴影图像背景复杂,多为硬阴影,阴影面积小)和文献[12]图像库(大大部分阴影图像背景简单,多为软阴影,阴影面积大)。

(2) 实验参数:本文聚类数目K取150,拉普拉斯金字塔J取5。实验条件为Intel(R)Core(TM)i3-2370@2.40 GHz处理器,2 GB内存,32位操作系统,Visual Studio2012开发平台编程实现。

K的值小于图像大小与样本大小的商,这样能够保证在窗口提取时能够提取每个超像素的大部分像素,从而能够得到更可靠的样本。而当K等于150时,对于图像库中的所有图像,窗口提取都能够满足条件。对于一些特定的实时领域,K的值需要简单的计算与测试确定。实验的精度并不随J的增大而增大,当J=5时,阴影的检出率最高,而当J>5时,阴影的检出率反而下降,因此J取5。

(3) 实验方法:宏观上交叉训练,交叉测试;微观上选取9幅场景复杂度不同的图像进行测试。

(4) 计算方法:

对于一副有阴影标签的图像来说,假设A表示阴影区像素的集合,B表示非阴影区像素的集合,A'、B'分别表示经过实验得到的阴影区与非阴影区像素的集合。阴影检测效果采用阴影检出率SD、阴影误检率SE来评价,TP计算方法如下(其中N(·)表示计算像素的数目):

2.2实验结果

(1) 宏观测试

本文采用在其中一个图像库上训练然后在另一图像库进行测试的方法,然后比较本文在不同图像集上所能达到的最高精度(阴影检出率SD)。在文献[9]图像库上进行训练,在文献[12]图像库测试的精度达到81.9%;而在文献[12]图像库上训练,在文献[9]图像库上测试的精度为79.8%。这是因为文献[9]图像库的图像场景比较复杂能够训练得到一个更好的网络。本文方法在文献[9]图像库与文献[12]图像库上测试达到的最高精度分别为90.71%与93.37%。由阴影检测计算公式可知:在相同条件下误检率相同时,阴影区的面积越大阴影的检出率相对较高,而文献[12]图像库的阴影区面积较大,因此本文方法在文献[12]图像库上取得较高的精度。

(2) 微观测试

为了验证本文方法的场景适应性,选取了9幅场景复杂度不同的图像作为本位阴影检测结果的实例,如图4所示。其中第一排、第三排和第五排为源图像,第二排、第四排和第六排为阴影检测效果图。

定性上,从阴影检测的效果来看,本文方法能够很好地检测软阴影、硬阴影、自阴影以及场景非常复杂的阴影。(a)、(b)、(d)与(f)场景较为简单且无自阴影,但是(a)与(b)阴影多为软阴影,(d)与(f)阴影接近硬阴影;(c)、(d)、(g)、(h)与(i)都包含自阴影,其中(c)与(d)场景较为简单,(g)、(h)与(i)场景较为复杂,(g)与(h)为遥感图像,(i)为复杂的室外自然场景。实验表明,本文提出方法在各种不同场景下的图像的阴影检测效果较好,能够准确检测出由于遮挡产生的自阴影。

图4 阴影检测结果实例

定量上,本文对选取的图像进行测试并将本文方法的阴影检出率与误检率和传统的方法进行比较,如表1、表2所示。

表1 阴影检出率SD(%)

表2 阴影误检率SE(%)

从表1与表2可以看出,本文方法阴影检出率较传统的方法高,阴影误检率较传统方法低。而SD与SE并没有完全的相关性,这与SD与SE的计算方法有关。传统方法阴影的检出率随场景的变化变化较大且检出率较低,而本文方法相对较为稳定且能够达到更高的检出率。

在训练资源的消耗上,文献[9]所采用的方法需要更大的内存(9 GB)和更大的时间消耗(大约10小时训练125幅图像)。本文的多尺度特征学习方法只需要2 GB内存,训练时间也更短(大约4小时能训练两个图像库全部的图像)。在实验中当用网络i的权值初始化网络i+1时(1<=i,i+1<=5),本文方法的训练时间能够缩短到2.5小时左右。文献[12]采用的支持向量机方法只适合小数据,卷积神经网络模拟人的可视域可以用多个卷积核映射出多个特征图,更适合图像像素的分类。当图像扩展到三维,或图像场景非常复杂,卷积神经网络的优势就体现出来了。就目前来说,图像越来越复杂,卷积神经网络的适应性越强。

3结语

本文主要阐述了一种新的阴影检测方法,利用卷积神经网络进行特征学习,结合条件随机场对图像进行标签。该方法场景适应性强,在阴影面积较大、软阴影较多的图像中也取得了很好的效果,而且训练的时间也比现有的基于统计属性的方法大大缩短,阴影检出率也较现有传统的算法高。

本文方法虽然在当前图像库和一些采样的图像上取得了较好的效果,而一些参数仍需简单的计算与测试得到。如何自适应的确定参数、减少网络训练时间以及三维图像的阴影检测是以后研究的重点。

参考文献

[1] Hsieh J W,Hu W F,Chang C J,et al.Shadow elimination for effective moving object detection by Gaussian shadow modeling[J].Image and Vision Computing,2003,21(6):505-516.

[2] Cavallaro A,Salvador E,Ebrahimi T.Shadow-aware object-based video processing[J].IEE Proceedings on Vision,Image and Signal Processing,2005,152(4):398-406.

[3] Nicolas H,Pinel J M.Joint moving cast shadows segmentation and light source detection in video sequences[J].Signal Processing:Image Communication,2006,21(1):22-43.

[4] Huang X,Hua G,Tumblin J,et al.What Characterize a Shadow Boundary under the Sun and Sky?[C]//In ICCV,2011:898-905.

[5] 孙静,田建东,唐延东.静态室内图像投影边缘检测方法研究[J].仪器仪表学报,2010,31(S2):28-31.

[6] 郭迎春,吴鹏,袁浩杰.基于自投影和灰度检索的视频帧中异常行为检测[J].数据采集与处理,2012,27(5):612-619.

[7] Chen C T,Su C Y,Kao W C.An enhanced segmentation on vision-based shadow removal for vehicle detection[C]//International Conference on Green Circuits and Systems,2010:679-682.

[8] Finlayson G D,Drew M S,Lu C.Entropy minimization for shadow removal[C]//In:IJCV,2009,85(1):35-57.

[9] Zhu J,Samuel K G,Masood S Z,et al.Learning to recognize shadows in monochromatic natural images[C]//CVPR,IEEE,2010:223-230.

[10] Lalonde J F,A Efros A,Narasimhan S G.Detecting ground shadows in outdoor consumer photographs[C]//ECCV,2010:322-335.

[11] Jiang X,Schofield A J,Wyatt J L.Shadow detection based on colour segmentation and estimated illumination[C]//BMVC,2011:1-11.

[12] Guo R Q,Dai D,Hoiem D.Paired Regions for Shadow Detection and Removal[C]//IEEE,2013,12(35):2956-2967.

[13] Lecun Y,Bottou L,Bengio Y,et al.Gradient-Based Learning Applied To Document Recognition[C]//Proceedings of the IEEE,1998,10:2278-2324.

[14] Lafferty J,McCallum A,Pereira F.Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Processing of the International Conference on Machine Learning (ICML-2001),2001:282-289.

[15] Achanta R,Shaji A,Smith K,et al.Slic superpixels compared to state-of-the-art superpixel methods[C]//TPAMI,2012,34:2274-2282.

[16] 孟繁杰,郭宝龙.使用兴趣点局部分布特征及多示例学习的图像检索方法[J].西安电子科技大学学报,2011,38(2):47-53.

[17] Chawla N V,Bowyer K W,Hall L O,et al.Smote: synthetic minority over-sampling technique[J].Journal of AI Research,2002,16(1):321-357.

[18] Szummer M,Kohli P,Hoiem D.Learning crfs using graph cuts[C]//ECCV,2008:582-595.

SHADOW DETECTION BASED ON MULTI-SCALE FEATURE LEARNING

Zhang Yongku1Du Shuaichuan2Sun Jinguang1Zhou Jilin2Jin Yaru3

1(SchoolofElectronicsandInformationEngineering,LiaoningTechnicalUniversity,Huludao125105,Liaoning,China)2(InstituteofGraduate,LiaoningTechnicalUniversity,Huludao125105,Liaoning,China)3(SchoolofNursing,ShandongUniversityofTraditionalChineseMedicine,Jinan250000,Shandong,China)

AbstractTraditional shadow detection methods need careful hand-crafted features design and long training time. Specially, these methods have lower detection rate as well. In order to solve these problems, in this paper we propose a supervised learning method for shadow detection. Firstly, the inputted images are transformed through Laplacian pyramid to determine the clustering centres, and these clustering centres are then taken as the centres for extracting the windows separately. Secondly, the method synthesises the training samples, and trains these samples in convolutional neural network to generate the posterior distribution. Finally, it feeds the derived posterior distribution back to the conditional random field to generate the labelled image. Experimental results show that this method works well in different scenes, the training time is short and the shadow detection rate is high.

KeywordsShadow detectionConvolutional neural networkFeature learningConditional random field

收稿日期:2014-10-13。国家科技支撑计划项目(2013bah12f01)。张永库,副教授,主研领域:图形图像处理和多媒体,数据处理和数据挖掘。杜帅川,硕士生。孙劲光,教授。周积林,硕士生。金雅茹,本科。

中图分类号TP3

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.046

猜你喜欢
阴影卷积像素
像素前线之“幻影”2000
基于3D-Winograd的快速卷积算法设计及FPGA实现
你来了,草就没有了阴影
“像素”仙人掌
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
ÉVOLUTIONDIGAE Style de vie tactile
让光“驱走”阴影
阴影魔怪