核协同表示下的多特征融合场景识别*

2019-06-19 12:34宗海燕王田辰
计算机与生活 2019年6期
关键词:滑动尺度像素

宗海燕,吴 秦+,王田辰,张 淮

1.江南大学 江苏省模式识别与计算智能工程实验室,江苏 无锡 214122

2.物联网技术应用教育部工程研究中心,江苏 无锡 214122

1 引言

场景分类是计算机视觉的一个重要研究方向,在很多领域如图像检索[1]、视频检索[2]、安全监控系统[3]、移动机器人视觉导航[4]等都得到了广泛的应用。图像的场景分类问题实际上是利用计算机模拟人类的视觉感知原理,对包含若干语义信息的场景图像实现自动标注。虽然在特征提取方面已经取得了很多的成果,但是由于空间位置、光照、尺度等变化因素的影响,场景分类还是存在很大的挑战性。

早期的场景图像分类方法大多是利用图像全局的低层特征[5-7],包括图像的纹理、颜色和形状等,虽然执行简单,计算成本低,但是分类的性能有限。Lowe于1999年提出了尺度不变特征变换算法(scaleinvariant feature transform,SIFT)[8],在空间尺度中通过建立高斯差分金字塔提取关键点,对尺度、旋转和亮度具备一定的鲁棒性,但是SIFT特征向量维数过高,计算量较大。后来2005年Li等人首次提出用视觉词袋模型(bag of visual word,BOVW)[9]表示图像的方法。将提取的特征表述成多个视觉词汇的组合,构成字典,通过分析计算样本中视觉词汇出现的频率来对样本进行分类。模型主要分为三部分:特征的提取、视觉词汇的形成和场景模型的建立。BOVW模型比较简易,能够有效降低样本的特征维数,但是该模型没有考虑特征点的空间位置信息。针对这一缺点,Lazebnik等人于2006年提出了空间金字塔匹配模型(spatial pyramid matching,SPM)[10],对样本空间进行不同等级的划分,充分考虑了特征的空间位置信息,很大程度地提升了BOVW模型的性能。后来,Wu等提出了CENTRIST[11](census transform histogram)特征,该特征能刻画场景的全局结构信息,易于实现,无参数,计算成本比较低,具有光照不变性。2012年Gazolli和Salles改进提出的CMCT(contextual mean census transform)[12]特征,融合了结构信息以及上下文信息。2014年Gazolli和Salles再次改进提出了CTDN(census transform of distant neighbors)[13]特征,考虑增加远距离点的信息,但是对样本的旋转以及拍照角度等问题不具备一定的鲁棒性。于是本文提出多尺度远距离点差值统计变换特征(multiscale census transform of difference of distant neighbors,MCTDDN),充分考虑了像素之间的对比度信息,并且利用二维Gabor滤波解决了样本的旋转以及拍摄角度等问题。

由于场景具有复杂性和多样性,受到光照、拍摄角度等多方面影响,基于空间金字塔的词袋模型提供的分类信息仍然具有局限性,仅仅利用单一的词袋模型特征对场景进行分类达不到很好的分类效果。对于场景图像,相邻像素以及图像块之间存在着一定的空间对比度信息,基于这一发现,本文提出MCTDDN,并将该特征与BOVW模型特征进行相互融合,全局的结构信息和局部的关键点信息相结合,实现两者特征的互补。文献[14]的特征融合是将BOVW模型特征与局部二值模式(local binary patterns,LBP)或者LBP相关改进特征进行融合,但是LBP在图像比较模糊或者光照变化强烈条件下,不能有效刻画出纹理特征,而本文改进的算法对光照具有一定的鲁棒性。另外,以往的一些算法只是简单的两种特征的并集或者串集,或者是以某种系数的串集,得到的特征维数增加,会将占用很大的内存空间。不同于以往算法,本文采用的融合算法先分别利用两种特征进行分类,最后将两者分类结果进行融合,利用两者的互补关系,在场景分类中取得了较好的分类效果。

Fig.1 Framework of bag of word algorithm based on spatial pyramid图1 基于空间金字塔的词袋模型算法框架

随着计算机性能的大幅提升,机器学习尤其是深度学习的快速发展,特征融合的优势越来越明显。将来源不同的信息整合到一起,去冗余;得到的融合信息将利于之后的分析处理。融合模型有多种方式,例如多核学习[15-16]、多视图学习[17]等,融合没有唯一正确的方法。融合的目标就是尽量保持“准确性”和“多样性”间的平衡。多核学习虽然在解决一些异构数据集问题上表现出了非常优秀的性能,但由于需要计算各个核矩阵对应的核组合系数,需要多个核矩阵共同参加运算,会占用很大的内存空间。高耗的时间和空间复杂度是导致多核学习算法不能广泛应用的一个重要原因。多视图学习是把数据表示成多个特征集,在每个特征集上用不同的学习方法进行学习。如果只是简单地将不同特征组合,得到的特征将失去原来的意义,增加了维数给学习带来困难。本文就是将两种特征分别在不同的核协同表示模型上进行学习,通过计算两者结果的残差获得最后的分类结果,充分发挥了各个特征的优势。

2 相关工作

2.1 基于空间金字塔的词袋模型

给定一个样本集,首先提取每张图像的SIFT特征,将获得的离散特征点通过聚类生成视觉词汇表;同时对图像空间按金字塔水平进行多层次的网格划分,将第l层(l=0,1,…,L,L为总层数)图像沿水平和垂直方向分别划分2l个单元,每一层图像则被分为4l个相等同大小的子区域,分别统计每个子区域中视觉单词出现的次数,得到不同子区域的视觉单词频次直方图,将一层中所有子区域的视觉单词频次直方图按顺序排列,通过式(1)得到该层的直方图向量[10]:

给定两幅图像X、Y,它们在第l层的匹配度可通过式(2)直方图交叉核计算:

根据金字塔匹配原理,第l层匹配包含了第l+1层所有的匹配,因此可以用Il-Il+1来表示第l层新增加的匹配,层次越高,图像划分更稠密,匹配度更高,因此将每一层次的权重设置为1/2L-l,综合所有层次,得到金字塔匹配核如式(3):

基于空间金字塔的词袋模型引入了特征点的空间位置信息,在实际应用中取得了不错的成果,图1描述了该模型的基本框架。

2.2 CTDN描述符

Fig.2 Pixel distribution atK=4图2 K=4时的像素分布图

将得到的CTDN二进制值转化为十进制,最后将得到的所有点的特征值统计成直方图。

2.3 二维Gabor滤波

Gabor滤波器[20]是一个常用于边缘检测的线性滤波器。Gabor滤波器的频率和方向表示接近人类视觉系统对于频率和方向的表示,Gabor滤波常用于纹理表示和描述。二维Gabor滤波器具有在空间域和频率域同时取得最优局部化的特性,与人类生物视觉特性很相似,因此能够很好地描述对应于空间频率(尺度)、空间位置及方向选择性的局部结构信息。Gabor滤波器可以在频域的不同尺度、不同方向上提取相关特征,其定义如式(6)所示:

其中:

其中,μ为滤波方向;ν为滤波尺度;z为图像坐标;σ为高斯函数半径;κμ,ν为滤波器的中心频率;κmax为最大频率;f为空间因子。本文设置二维滤波器为5个尺度ν={0,1,…,4},8个方向μ={0,1,…,7},最终得到40个不同的Gabor滤波函数,将其与图像进行卷积操作。

3 多特征融合算法

3.1 多尺度远距离点差值统计变换特征

本文提出的多尺度远距离点差值统计变换特征算法的总体框架图如图3所示。给定一张测试图片,分别在像素图和滤波图上提取改进的远距离点差值统计变换特征,两者信息补充结合作为最后的多尺度统计变换特征(MCTDDN)。

Fig.3 Overall framework of MCTDDN图3 MCTDDN总体框架图

CTDN算法提取了远距离的邻点信息,但是并没有考虑远距离点与滑动窗口的对比度信息,对于背景类似的结构块不能获得区分性较高的特征,于是本文提出远距离点差值统计变换(census transform of difference of distant neighbors,CTDDN)特征,通过像素之间差值的计算提取滑动的窗口与对应远距离像素点的对比度信息,进而获得图像样本的上下文信息,该远距离点满足所在的窗口区域与滑动窗口无交集且距离最近的要求,如图4所示,通过增加对比度信息来增强图像特征的表达力,凸显出各个块的差异,使得结构类似的样本更加具有区分力。

Fig.4 CTDDN feature extraction process图4 CTDDN特征提取过程

假设给定一个中心点的像素值为I(x,y)的3×3滑动窗口,为了降低算法的复杂性,本文仅选取距离中心点k=4像素远的像素点Np作为远距离邻点,p=0,1,…,7,像素值分别表示为I(x-4,y-4),I(x-4,y),I(x-4,y+4),I(x,y-4),I(x,y+4),I(x+4,y-4),I(x+4,y),I(x+4,y+4)。将Np分别与滑动窗口边缘点Ip做差值运算,Ip的像素值分别表示为I(x-1,y-1),I(x-1,y),I(x-1,y+1),I(x,y+1),I(x+1,y-1),I(x+1,y),I(x,y-1),I(x+1,y+1),可以通过式(9)得到8个差值的均值(x,y):

该滑动窗口中心点的CTDDN值可以通过式(10)计算得来:

其中,(x,y)为中心像素点的位置坐标,Mp为远距离点与最近的滑动窗口边缘点的差值,将得到的CTDDN二进制值转换为范围在[0,255]的十进制数,最后将整个样本的特征值统计成直方图。

考虑到块与块之间的独立性,给定一个n×n的滑动窗口,设置距离值k=(3n-1)/2来选取远距离点,以避免块与块之间信息的重合。如图5所示,当k=1,2,3时,选取的远距离点所处的窗口都与原窗口有信息交汇;当k=4时,设置的远距离的邻点与中心点距离最近且与原窗口相互独立,既能在更大的区域提取特征,又能避免信息的冗余。

Fig.5 Information intersections with different distance values图5 不同距离值的信息交叉图

3.2 核协同表示的多特征融合算法

本文融合算法的整体流程如下:

(1)将训练样本和测试样本的两种特征通过高斯核映射到高维空间;(2)将训练样本高维空间特征作为字典;(3)提取测试样本的特征,根据对应字典的重构误差,得到误差最小时的整体重构系数;(4)将整体重构系数以及字典分别表示成每个场景种类的子重构系数和子字典;(5)根据子重构系数和子字典计算测试样本两种特征对于每个类别的重构残差;(6)设置权重参数组合两种特征的重构残差,通过残差的最小值来判断测试样本的标签。

具体运算步骤如下所示:

得到核空间的协同系数后,每个种类的重构残差如式(14):

将最优正则化参数λ1、λ2带入式(14),最后设置一个权重参数μ通过式(16)计算融合后重构残差的最小值来判断测试图像的标签:

本文的特征是BOVW模型特征和MCTDDN特征的融合,根据两者融合之后重构残差的最小值来判断给定测试图像的标签。样本的全局结构信息和局部关键点信息分别在不同的协同表示模型上进行学习,将两者最优分类状态的参数传递到混合模型中,通过重新计算两者融合之后的重构残差最后判断测试图像的标签,充分发挥了各个特征的优势,两者互补,与以往方法简单的并集或者串集特征融合方式相比,本文方法一定程度上降低了内存空间的使用。

4 实验结果与分析

4.1 实验数据集

为了验证本文提出算法的有效性,对两个标准测试数据集的数据进行测试。

第一个OT数据集[21]由Oliva和Torralba建立,包含8类:海岸(360幅)、森林(328幅)、高速公路(260幅)、市区住宅(308幅)、高山(274幅)、野外(410幅)、街道(292幅)、高层建筑(356幅)共2 688张图像,每张图像的大小为256×256像素。图6给出了每类场景的图像示例。

Fig.6 Samples of OT dataset图6 OT数据集的图像示例

第二个为LS数据集[22],包含15类:卧室(216幅)、郊区住宅(241幅)、厨房(210幅)、客厅(289幅)、海岸(360幅)、森林(328幅)、高速公路(260幅)、市区住宅(308幅)、高山(274幅)、野外(410幅)、街道(292幅)、高层建筑(356幅)、办公室(215幅)、工厂(311幅)、店铺(315幅)共4 485张图像,每张图像平均大小为300×250像素。在OT数据集的基础上增加了7类场景,主要为室内场景,室内与室外的结合增加了数据集的多样性,更能验证算法的有效性。图7为增加的7类场景图像示例。

4.2 在OT数据集的实验结果

Fig.7 Samples added in LS dataset图7 LS数据集增加的图像示例

本文实验选取OT数据库中每个种类的250张图片,每类使用200张用于训练,50张用于测试,进行5次交叉验证。OT数据集的每张图像都是同等像素大小,不需要做前期预处理操作,对于BOVW模型的特征提取,设置码本尺寸为1 024,空间金字塔为3个层次;对于本文提出的多尺度统计变换特征,设置5个尺度,8个方向的滤波器,然后分别在滤波返回值和原始像素图像上分别进行CTDDN特征的提取。对于分类器的设计,BOVW模型特征和多尺度统计变换特征都是用高斯核进行特征映射,通过实验验证,两者的高斯核参数σ分别设置为1.0和0.8,两者协同表示的正则化参数分别设置为10-5和10-3时得到较优的准确率。

表1为本文算法实验结果的混淆矩阵,矩阵第i行第j列的值代表第i类场景被分为第j类场景的比例,整体识别率达到90.8%,高楼的识别率最高达到98%,野外的识别率相对较低,野外和海岸的分界线有些模糊,可能是背景轮廓和颜色相似所致。图8给出了野外和海岸的图像示例,左侧的野外图形在本实验中被识别为海岸。

Table1 Confusion matrix of precision on OT dataset表1 OT数据集的准确率混淆矩阵 %

本文是BOVW模型特征和MCTDDN特征的融合,表1的实验结果是当融合权重值μ为0.8时,获得的最高的准确率,对于不同μ取值的准确率对比如图9所示。当μ=0时代表的是MCTDDN特征的识别率,当μ=1时代表的是BOVW模型的识别率,两者结合互补时,当BOVW模型特征比重大于MCTDDN特征时,取得较好的分类效果。

Fig.8 Examples of scenes identified as coasts in wild图8 野外被识别为海岸的场景示例

Fig.9 Results comparison of differentμon OT dataset图9 OT数据集中不同μ值的实验对比

4.3 在OT数据集的对比实验

在相同的实验环境下,对比七种算法结果,如表2所示。从实验结果可知,BOVW模型优于本文提出的多尺度统计变换特征MCTDDN,但MCTDDN优于MS-CLBP(multiscale completed local binary pat-terns),本文将BOVW模型特征与MCTDDN特征融合后正确率相比其他三种融合算法都有所提高,可见本文提出的算法在提高OT数据集场景识别率有一定的实用价值与有效性。

Table2 Precision comparison of different algorithms on OT dataset表2 OT数据集上不同算法准确率对比 %

远距离点差值统计变换特征的提取需设置滑动窗口,本文设置了3×3、5×5、7×7三种尺寸,表3为不同尺寸的滑动窗口下改进的MCTDDN特征以及融合特征的实验结果。结果表明,对于OT数据集,5×5的滑动窗口下取得最优的整体分类效果;3×3的滑动窗口过小,像素间距离过近,差异性不大,导致提取的特征不具备有力的区分性;7×7的滑动窗口过大,具有差异性的像素位于窗口内部,同样导致提取的特征没有足够的区分性。

Table3 Precision comparison of different sizes of sliding window on OT dataset表3 OT数据集上不同滑动窗口准确率对比 %

4.4 在LS数据集的实验结果

实验选取数据库中每个种类的200张图片,每类使用150张用于训练,50张用于测试,进行4次交叉验证,LS数据集的每个码本尺寸为1 024,空间金字塔为3个层次;对于多尺度统计变换特征,设置5个尺度,8个方向的滤波器,然后分别在滤波返回值和原始像素图像上分别进行CTDDN特征的提取。对于分类器的设计,BOVW模型特征和多尺度统计变换特征用高斯核进行特征映射,通过大量实验验证,当两者的高斯核参数σ分别设置为1.0和0.7,两者协同表示的正则化参数分别设置为10-5和10-2时,数据集取得最优的分类效果。

表4为本文算法的实验结果,整体识别率为85.3%。郊区的识别率最高为99.5%,卧室的识别率只有69.0%,很多的卧室场景被识别为客厅,主要是客厅和卧室很多背景物体相同,以及床的拍摄不完整,导致其轮廓与沙发类似。图10给出了卧室和客厅的图像示例,左侧的卧室图像在本实验中被识别为客厅。

在LS数据集中,对于BOVW模型特征和MCTDDN融合,表4的实验结果是当权重值μ为0.84时获得最高的识别率,当μ取0时为单一的MCTDDN特征的准确率,当μ取1时为单一的BOVW模型特征的准确率。对于不同μ取值的实验结果走势如图11所示。

Table4 Confusion matrix of precision on LS dataset表4 LS数据集的准确率混淆矩阵 %

Fig.10 Examples of scenes identified as living room in the bedroom图10 卧室被识别为客厅的场景示例

Fig.11 Results comparison of differentμon LS dataset图11 LS数据集中μ不同值的实验对比

4.5 在LS数据集的对比实验

在相同的实验环境下,在LS数据集中对比七种算法结果,如表5所示,从实验结果可知,本文提出的多尺度统计变换特征MCTDDN优于MS-CLBP,平均准确率提高了4.5%,本文BOVW模型特征与MCTDDN特征的融合特征的正确率相比其他三种融合算法都有所提高,平均准确率提高了1%至4%,可见本文提出的算法在提高LS数据集场景识别率有一定的实用价值。

对于LS数据集,本文远距离点差值统计变换特征的提取同样设置了3×3、5×5、7×7三种滑动窗口的尺寸,表6为不同尺寸的滑动窗口下场景分类实验结果对比。结果表明,本文单一的MCTDDN特征以及融合特征都在3×3的滑动窗口下取得最优的场景分类效果。5×5和7×7的滑动窗口对于LS数据集的样本过大,窗口内部包含了具有差异性大的像素,导致远距离点像素与窗口内像素差值计算提取的特征没有足够的区分性。

Table5 Precision comparison of different algorithms on LS dataset表5 LS数据集上不同算法准确率对比 %

Table6 Precision comparison of different sizes of sliding window on LS dataset表6 LS数据集上不同滑动窗口准确率对比 %

4.6 融合算法的有效性

为验证融合特征优于单个特征的分类结果,本文另外选择了经典的全局视觉特征GIST[23]和分层梯度方向直方图(pyramid histogram of oriented gradients,PHOG)[24]特征。根据表7中单独使用一种特征以及特征融合之后的实验结果,以及原论文中的实验结果表明特征融合的分类效果明显优于单个特征,利用两种特征优势的互补,能获得更好的分类效果。

Table7 Precision comparison of two algorithms on two datasets表7 两个数据集上两种特征准确率对比 %

5 结束语

针对单一特征无法给场景识别提供充足信息这一情况,以及基于空间金字塔的词袋模型提供的空间分类信息具有局限性,会丢失部分细节信息,本文提出了一种多尺度远距离点差值统计变换特征,将其与BOVW模型特征通过核协同表示的方法进行特征融合,添加了远距离像素点的对比度信息,充分考虑了全局特征和尺度信息。两种特征的互补,能得到更好的场景特征,从而获得更高的场景图像识别率。两个经典实验数据集的实验对比显示:本文提出的两种特征结合后的识别率明显高于其他单一特征的识别率。

在接下来的研究工作中,将尝试通过将高中低三个不同层次的特征结合来获取更佳的场景特征,并探索在不降低准确率的前提下降低算法空间复杂度和时间复杂度的方法。

猜你喜欢
滑动尺度像素
用于弯管机的钢管自动上料装置
像素前线之“幻影”2000
论社会进步的评价尺度
“像素”仙人掌
Big Little lies: No One Is Perfect
一种动态足球射门训练器
宇宙的尺度
高像素不是全部
9
您的像素,饱和吗?[上]