融合Bag-of-Words的室内场景分类研究

2015-03-05 02:34广东工业大学自动化学院邱少霞陈晓松万力衡钟映春

电子世界 2015年17期

关键词：码字

广东工业大学自动化学院邱少霞陈晓松林惺万力衡钟映春

广东工业大学自动化学院邱少霞陈晓松林惺万力衡钟映春

【摘要】场景分类是图像理解研究领域的热点之一。不同类型的室内场景由于具有比较高的相似性，因而成为场景分类领域的难点之一。本文采用吸引子传播方法自动获取快速获取码字数目，采用LDA主题模型构建室内场景与语义之间关联关系，最终实现室内场景的分类。实验结果表明，本文方法的室内场景分类平均正确率优于文献中报道的其他方法，说明采用主题模型方法可以更好地表达室内场景的语义含义。

【关键词】室内场景分类；码字；隐狄利克雷分配模型；吸引子传播

1 引言

自2006年在MIT召开的首次场景理解研讨会(Scene Understanding Symposium)上以来，场景分类就成为场景语义理解的一个研究热点[1]。虽然人们在场景的特征提取、自然场景分类等领域取得了诸多的成果[2,3]，但是室内场景由于其存在较高的内在相似性，使得室内场景分类成为当前场景分类的难点之一[4,5]。

本文首先采用吸引子传播方法自动获取快速获取码字数目，然后采用LDA主题模型构建室内场景与语义之间关联关系，实现室内场景的分类，并将我们的分类结果与文献报道的主流方法的结果进行对比。

2 融合BOW的室内场景分类方法

我们提出一种室内场景分类的方法如图1所示。在我们的方法中，我们不再采用尝试的方法获取词包模型的合理码字数目，而是采用了吸引子传播方法自动获取词包模型的最佳码字数目，并采用LDA模型构建视觉单词与场景之间的语义关系。

图1　室内场景分类的流程

2.1 特征提取

大部分的非概率模型都采用全局特征描述场景图像，例如：GIST,PHOG等。而概率主题模型通常都采用鲁棒性更强的局部特征描述场景。文献的实验表明，在各种局部特征中，SIFT特征具有更优的鲁棒性[6,7]。所以，在我们的研究中，先把场景图像分为相同尺度的子块，并采用SIFT特征进行描述，得到特征矩阵MF。

2.2 采用吸引子聚类算法产生码本

AP算法是Frey等人于2007年在Science上提出的一种新的无监督聚类算法[8]，该算法的基础是数据点之间的相似度，不需要事先指定聚类数目，初始时将所有数据点看作潜在聚类中心，通过数据点间的“消息传递”来实现数据集的聚类。

AP算法的消息传递机制主要包含两种信息：吸引度R(Responsibility)和归属度A(Availability)。吸引度R(i,k)表示点k适合作为点i的聚类中心的程度；归属度A(i,k)表示点i选择点k作为其聚类中心的适合程度。该算法的输入是N个数据点之间的相似度矩阵S，以矩阵S对角线上的数值S(k,k)作为点k能否成为聚类中心的评判标准，称之为参考度(Preference)。算法的关键步骤是R(i,k)和A(i,k)的迭代更新，如公式（1）和（2）所示。

2.3 主题模型结构

LDA模型是Blei在2003年提出的，是目前使用及其广泛的主题模型[9]。模型的图像表示如图2所示，其中表示主题出现第图中概率。表示码字出现在主题T中的概率。码字总数是N。此外，Wm,n和Zm,n分别表示第nth码字和它在第mth幅图像中的主题。参数and是Dirichlet分布参数。

图2　LDA模型结构图

表1　室内场景数据集的示例

3 实验与结果分析

3.1 场景图像数据集

实验测试的硬件环境为：CPU为Intel(R) Core(TM) i7-3.4GHz，内存为32G，操作系统为Windows7 旗舰版64位系统，编程软件为MATLAB R2013a。图像数据集是67类室内场景图像[10]。随机提取该数据中图像的示例如表1所示。

3.2 室内场景分类实验结果

3.3 实验结果对比

图3　三种室内场景分类方法实验结果对比

从图3可见，（1）本文方法的场景分类平均正确率为55.79%，文献11中ROI+Gist方法的平均正确率为27%，文献12中改进的DCT+GIST方法为44%，可见本文方法的场景分类平均正确率明显高于其他方法；（2）在bowling和book store这两类都比其他两种场景分类方法高出大概2～3倍左右；（3）本文方法的场景分类效果在clothing store和classroom这两类中并不是很理想，说明本文的方法还有值得改进的地方。

4 结论

针对室内场景类型相似度高，分类正确率低的问题，本文提出采用吸引子传播方法自动获取快速获取码字数目，采用LDA主题模型构建室内场景与语义之间关联关系，最终实现室内场景的分类。实验结果表明，本文方法的场景分类平均正确率高于文献中采用的方法；但是在某些类型的场景表达方面，仍然需要改进。

参考文献

[1]Zhou L,Hu D W,Zhou Z T.Scene recognition combining structural and textural features. Sci China Inf Sci,2013,56: 078106

[2]王瑞,杜林峰,孙督,万旺根.复杂场景下结合SIFT与核稀疏表示的交通目标分类识别[J].电子学报,2014,42(11): 2129-2134.

[3]李晓龙,张兆翔,王蕴红,刘庆杰.深度学习在航拍场景分类中的应用[J].计算机科学与探索,2014,8(3):305-312

[4]Jun Yu,Chaoqun Hong,Dapeng Tao,et al.Semantic embedding for indoor scene recognition by weighted hypergraph learning,in Signal Processing,Volume 112,July 2015,Pages 129-136.

[5]Lingxi Xie,Jingdong Wang,Baining Guo,Bo Zhang,Qi Tian, “Orientational Pyramid Matching for Recognizing Indoor Scenes”, CVPR,2014,2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)2014,pp.3734-3741

[6]L.Fei-Fei,P.Perona,A Bayesian hierarchical model for learning natural scene categories,in:IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR2005,vol.2,IEEE,2005,pp.524-531.

邱少霞（1993—），女，广东潮州人，大学本科，研究方向：模式识别与图像处理。

作者简介：

基金项目：广东工业大学大学生创新创业训练项目（项目编号：xj201411845022）。