基于双层模型的宫廷服饰龙纹自动分割算法研究

2019-03-02 02:00赵海英
图学学报 2019年1期
关键词:宫廷双层服饰

赵海英,杨 婷



基于双层模型的宫廷服饰龙纹自动分割算法研究

赵海英1,2,杨 婷1

(1. 北京邮电大学数字媒体与设计艺术学院,北京 100876;2.北京邮电大学世纪学院移动媒体与文化计算北京市重点实验室,北京 102101)

宫廷服饰纹样蕴含着丰富的文化内涵,但由于缺少像素级语义标注的数据库,使得宫廷服饰纹样精准分割成为极具挑战的问题。为此,提出一种融合深度学习和GrabCut算法的双层模型,实现目标检测和分割功能。分析不同深度卷积神经网络的特点,在模型目标检测层(ODL)选择使用二阶段目标检测框架中的R-FCN方法;在模型分割层(SL)使用基于图论的GrabCut算法产生最终分割结果。在宫廷服饰图像数据集上进行仿真实验,证明基于深度卷积神经网络和GrabCut算法的双层模型可以产生较好的分割效果。

自动分割;双层模型;目标检测层;分割层;宫廷服饰图像

宫廷服饰图像中的纹样,如龙、凤、祥云、海水、江崖等蕴含着丰富的文化内涵,其中龙纹样是最具代表的文化符号,也是封建时代中国帝王及东亚各国君王服饰的标志物。宫廷服饰图像中的大量典型纹样可以反映出穿戴者的身份、地位、所处朝代等文化属性,分割这些纹样有利于宫廷服饰文化的分析和解读。本团队一直专注民族服饰文化方面的研究,主要研究新疆民族织物图案的自动分割和生成算法[1-4],并对宫廷服饰中的纹样基元进行分割以用于图案生成。

交互式分割算法通过与用户互动可以产生良好的分割效果,但当待分割的图片数量庞大时不适合选用该方法。由于传统自动分割方法产生的分割效果均不理想,近几年兴起的深度学习方法在图像分割上取得了较好的效果,如FCN[5],DeepLab[6],CRF-RNN[7],DeconvNet[8],DPN[9],Piecewise[10]等方法,但都需要精确的手工标注ground-truth,且有些还需要像素级别的标注。目前,缺少宫廷服饰图像的数据集,为了解决这一特定类型的数据集分割问题,本文提出一种由目标检测层(object detection layer,ODL)和分割层(segmentation layer,SL)组成的双层图像自动分割模型,能够较好地分割出宫廷服饰图像中典型纹样。

1 相关工作

基于深度学习的图像自动分割方法主要分为基于候选区域和端到端的2类方法。

基于候选区域的自动分割方法不需要像素级别标注的数据集,人工标注代价少。文献[11]采用RCNN方法进行目标检测和语义分割,每张图片约有2 000个自底向上的区域,分别对这些候选区域提取CNN特征,然后利用线性SVM分类器对其进行分类,最后利用CNN特征实现语义分割,在PASCAL VOC 2011验证数据集上RCNN的分割准确度为47.9%。文献[12]采用SPP-net解决了RCNN重复提取特征带来的计算冗余问题,SPP-net对整张图片只进行了一次特征提取,速度更快。文献[13]采用SDS算法实现图像分割,其精度可达52.6%。针对SDS算法需要生成区域提议来协助解决分割产生时间开销大,及分割精度受区域提议质量影响较大的问题。文献[14]采用MPA算法实现端到端的分割,提高了算法效率。文献[15]提出Fast R-CNN方法克服了R-CNN和SPP-net存在的缺点,训练过程更加简单,使用多任务损失函数实现了整个网络端到端的训练方式,精度和速度更高,但是生成候选区域的时间代价仍是影响算法效率的主要因素。文献[16]提出Faster R-CNN方法,即使用区域建议网络(region proposal network,RPN)代替selective search方法,RPN与检测网络共享整幅图像的卷积特征,几乎可以无成本地生成高质量区域建议,算法速度和精度得到了进一步地提高。文献[17]提出的R-FCN方法丢弃了全连接层,使用全卷积层进行目标检测,一张图像上所有计算几乎都是共享的,并使用OHEM算法[18]提高了模型训练的效率,算法性能更好。本文方法属于基于候选区域的图像自动分割方法。

端到端的自动分割方法是直接对图像进行逐像素分类,所以分割效果更理想。文献[5]提出全卷积网络(fully convolutional networks,FCN)对图像进行像素级分类,FCN扩展了原有的CNN结构,可以在去除全连接层的情况下实现密集预测,FCN在PASCAL VOC 2012验证数据集上精度达到了62.2%。文献[19]提出的Zoom-out方法可直接基于超像素做特征提取和分类,提取超像素的Zoom-out特征后对其进行分类从而实现语义分割,该方法的精度为64.4%。文献[6]提出的DeepLab_v1模型先使用深度卷积神经网络(deep convolutional neural network,DCNN)做密集分类,产生比较粗糙的目标预测图,然后使用条件随机场[20]进行后处理以提高分割的精细度,其分割准确度为71.6%。受文献[6]的启发,文献[7]提出CRF-RNN方法,将CRF建模成递归神经网络(recurrent neural network,RNN),CRF-RNN模型是分类和后处理阶段合并为一体的端到端模型,其分割准确度为72.0%。文献[8]的方法结合了深度反卷积网络(deep deconvolution network,DDN)和候选区域级别的预测,减轻了基于FCN语义分割方法的局限性,分割准确度可达72.5%。文献[21]将膨胀卷积用于密集预测中,膨胀卷积考虑了多尺度的上下文信息且没有降低输入的分辨率,在CRF-RNN模型中应用膨胀卷积后分割精度从72.0%提高到了75.3%。文献[22]提出使用加权求和的方法融合多尺度输入图像特征,各个尺度的权重由注意力模型(attention model)获得,其分割精度为75.7%。文献[23]提出reconstruction模块代替普通的上采样操作,并提出一种基于拉普拉斯金字塔的不同层特征融合方法,整合了底层位置信息和高层语义信息,其分割准确度为76.8%。文献[9]采用深度解析网络(deep parsing networketworks,DPN)解决图像语义分割问题,使分割准确度达到78.0%。文献[24]提出的DeepLab_v2方法使用膨胀空间金字塔池化(atrous spatial Pyramid pooling,ASPP)实现了多尺度特征提取,其分割精度为79.7%。文献[25]中提出的DeepLab_v3方法改善了ASPP方法,并去除了CRF后处理阶段,使分割精度达到86.9%。

端到端的图像语义分割方法分割精度高,但需要对数据集进行大量像素级别的标注,标注的任务对人力和时间的需求远高于标定图像中目标位置的任务,因此在人力和时间相对紧缺的情况下可以优先考虑基于候选区域的语义分割方法。另外,团队之前进行的宫廷服饰图像采集工作,为本文的标注工作提供了基础。

2 双层模型

双层模型由ODL和SL组成,如图1所示。传统的目标检测算法着重于提取目标物体的颜色、纹理等特征,而宫廷服饰中大多数目标物体和背景颜色比较接近,同时由于服饰褪色和磨损,图像丢失了大量纹理信息。针对这些问题,本文在ODL采用R-FCN方法[17]检测宫廷服饰中的龙纹。在众多交互式分割算法中,GrabCut算法[26]拥有较好的分割性能且操作简单,只需用户将目标框住就可以完成良好地分割,所以本文在SL采用GrabCut算法完成最后的分割步骤。

图1 双层模型结构

2.1 目标检测层

通过分析宫廷服饰图像的特点和对比不同卷积神经网络,在ODL选择了R-FCN检测方法,并简要介绍其工作原理。

2.1.1 宫廷服饰图像分析与模型选择

宫廷服饰是一种具有丰富文化寓意的典型非物质文化遗产。首先,由于受时间久和环境因素的影响,大量服饰图像中显著目标的轮廓信息和纹理信息丢失严重;其次,由于宫廷服饰图像的文化背景,其目标与背景颜色相近,使得目标检测困难。而R-FCN模型的特点是:①主干网使用的残差网络ResNet深度更深,更容易优化,最重要的是对微小差异具有高度的灵敏度,在目标与背景差异性较小时(图2 (a))也能很好地学习特征;②移除了全连接层,采用全卷积神经网络进行目标检测,拥有较大的感受野,可更好地考虑上下文信息,并合理地推断出丢失或遮挡的信息,图2 (a)中有轮廓和纹理信息丢失严重及有遮挡的目标可以被检测出来;③二阶目标检测方法可以很好地检测尺寸较小或较大的目标;④使用PASCAL VOC 2007+2012训练集优化模型,在VOC 2007验证集上,YOLO[27],SSD300[28],Faster R-CNN VGG-16[16]和R-FCN ResNet-101[17]目标检测模型的精度如图2 (b)所示,可以看到R-FCN模型的检测精度最高,mAP达到79.5%,高于第二名SSD300[28]5.2。综上,由于宫廷服饰图像的特殊性和R-FCN模型的优点,在双层模型的ODL层,本文选择使用R-FCN模型完成了宫廷服饰图像中的龙纹检测。

图2 模型选择

2.1.2 R-FCN模型

R-FCN模型的基本结构如图3所示,首先使用一组基础的卷积网络(如ResNet)提取图像的特征图用于后续卷积计算。使用特殊构造的卷积层(2(+1))在特征图上进行卷积运算构建位置敏感分数图(position-sensitive score maps),位置敏感分数图编码了感兴趣区域(region of interest,ROI)的相对空间位置信息,RPN在特征图上进行卷积运算获得候选ROIs应用于位置敏感分数图。位置敏感 ROI池化层用于监管位置敏感分数图,为每个ROI生成分数,之后进行投票得到每一类的分数,最后使用Softmax得到每一类的最终得分。边界框回归是共享特征图的另一个分支,用来获得目标的精确位置。下面重点介绍R-FCN模型的核心——RPN网络和位置敏感分数图及位置敏感ROI池化。

图3 R-FCN基本结构

(1) 区域建议网络。RPN输入的是一幅任意尺寸的图像,输出的是一组矩形的目标建议以及每个建议的目标得分。在R-FCN最后一层共享卷积层输出的feature maps上滑动一个小型网络来生成区域建议,其与特征图上尺寸为×(取=3)的空间窗口全连接。每个滑动窗口都映射成一个低维向量,可使用ReLUs函数进行激活,然后将该向量送入2个全连接层,即用来微调目标位置的边界框回归层(reg)和用来二分类的边界框分类层(cls),从而得到ROI。

区域建议网络的损失函数[16]为

其中,

(2) 位置敏感分数图及位置敏感ROI池化。如图4[17]所示,最后一个卷积层可为每个类别产生2个位置敏感分数图,因此对于个目标类共有2(+1)个通道的输出层(+1为加入一个背景类),2个分数图与描述相对位置的×空间网格相关,例如×=3×3时,得到的9个分数图编码了一个目标类的{top−left, top−center, top−right, ···, bottom−right}。R-FCN[17]的最后一层是位置敏感ROI池化层,为每个ROI生成分数,该层是选择池化操作,即对不同的通道进行池化,×个bin的响应分别从×个分数图所对应的分数图获得。

图4 R-FCN进行目标检测的关键结构(k×k=3×3张位置敏感分数图)

2.2 分割层

在双层模型的SL选用了GrabCut算法[26],如图5所示,ODL的输出作为SL的输入,通过GrabCut算法输出SL的分割结果。GrabCut算法由初始化、迭代最小化和用户修正等组成,双层模型中的SL选用了GrabCut算法的初始化和迭代最小化2个部分。GrabCut算法流程(图6):①通过ODL获得矩形框,初始化算法参数;②给矩形框中每个像素分配GMM分量;③通过图像数据学习GMM参数;④使用min cut算法最小化能量E,重复第2~4步直到能量E收敛,从而获得图像分割结果。

图5 SL层

图6 SL选用的GrabCut算法流程

3 实 验

介绍本文使用的数据集,分析ODL的输出结果和整个双层模型的输出结果,并与传统图像分割方法进行对比。

3.1 实验数据集

本文实现宫廷服饰图像自动分割的实验数据集为420幅包含龙纹的宫廷服饰图像,其中300幅图像用作训练,120幅作测试。图7为部分宫廷服饰图像,其龙纹的数量、颜色、形状、姿态及空间布局等有很大差异。

3.2 实验结果及分析

3.2.1 目标检测层实验结果分析

在NVIDIA GeForce GTX 1080上进行实验,使用平均精度均值(mean average precision,mAP)衡量目标检测精度,其中,动量为0.9,权重衰减为0.000 5。Faster R-CNN[16]使用ZF网络[29]和VGG-16网络[30]进行训练,学习率为0.001,交替训练的迭代次数为[40000,20000,40000,20000],近似联合训练的迭代次数为20 000;R-FCN[17]使用不同深度的ResNets[31]进行训练,学习率为0.00 1,交替训练的迭代次数为[1000,1000,1000,1000,1000],近似联合训练的迭代次数为2 000;YOLO[27]使用GoogLeNet[32]进行训练,前520次迭代学习率为0.001,520~16 000次为0.01,16 000~24 000次为0.001,24 000~32 000次为0.000 1;SSD300[28]使用VGG-16[30]进行训练,前10 000次迭代学习率设置为0.01,10 000~20 000次为0.001,20 000~40 000次为0.000 1。表1为实验结果,SSD模型平均精度可达90.6%,R-FCN模型(ResNet-101)使用近似联合训练方法所需训练时间比SSD300少66倍,且平均精度与其相近。图8为宫廷服饰数据测试集上使用R-FCN模型ODL输出的龙纹目标检测结果。

图7 部分宫廷服饰图像

表1 使用不同卷积神经网络ODL的输出结果

3.2.2 双层模型实验结果分析

表2展示了在宫廷服饰图像数据集上双层模型的分割结果,其中第1列为原图,第2列为双层模型输出的分割结果,第3列为理想分割结果,第4列为分割结果和理想分割结果的交并比(intersection over union,IOU),第5列为假阳性率,第6列为分割一个子图所需的时间。

3.2.3 对比实验

使用融合mean shift和区域合并方法的图像分割方法(EDISON系统)与基于标记的分水岭图像分割算法进行仿真实验,并与本文方法进行对比。前两种方法在多次调整参数后可以得到较好的分割结果,但大多数情况下无法获得完整、有意义的分割结果,如图9所示。计算4幅图像分割结果的平均IOU,如图10所示,本文方法所得的平均IOU值最高。

图8 在宫廷服饰数据集测试集上使用R-FCN模型ODL输出的龙纹检测结果

表2 分割结果

与前两种方法相比,本文方法可获得较完整、有意义的分割结果,原因是双层模型中ODL输出的边界框为后续SL提供了完整目标的位置信息,指导了分割。

图9 融合mean shift和区域合并的图像分割方法(第1行)与基于标记的分水岭图像分割方法(第2行)分割图像失败的例子

图10 4幅图像分割结果的平均IOU柱状图

4 结束语

本文根据宫廷服饰图像中纹样的多样性和特殊性,提出基于深度卷积神经网络和GrabCut算法的双层模型实现宫廷服饰图像中龙纹的自动语义分割。该模型由ODL和SL组成,ODL选择使用R-FCN网络,其具有容易优化、训练时间短且准确率高的特点,SL采用GrabCut算法得到最终分割结果。未来工作将进一步优化模型,不断提高在不同数据源上目标分割的准确性和鲁棒性,并解决分割边缘不平滑的问题。

(致谢:感谢《天朝衣冠》和《明清织绣》为本论文提供相关的图片数据。)

[1] 赵海英, 彭宏, 杨一帆, 等. 基于拓扑构型的地毯图案生成方法[J]. 计算机辅助设计与图形学学报, 2013, 25(4): 502-509.

[2] 赵海英, 潘志庚, 徐正光. 基于构型风格的新疆民族织物图案自动生成[J]. 图学学报, 2013, 34(1): 17-21.

[3] 赵海英, 徐正光, 张彩明. 一类新疆民族风格的织物图案生成方法[J]. 图学学报, 2012, 33(2): 1-8.

[4] 赵海英, 陈洪, 叶瑞松. 一种基于平面对称群的对称图案生成方法[J]. 图学学报, 2015, 36(6): 872-878.

[5] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3431-3440.

[6] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [J]. Computer Science, 2014(4): 357-361.

[7] ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1529-1537.

[8] NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1520-1528.

[9] LIU Z, LI X, LUO P, et al. Semantic image segmentation via deep parsing network [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1377-1385.

[10] LIN G, SHEN C, VAN DEN HENGEL A, et al. Efficient piecewise training of deep structured models for semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3194-3203.

[11] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.

[12] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [C]//European Conference on Computer Vision. Cham: Springer, 2014: 346-361.

[13] HARIHARAN B, ARBELÁEZ P, GIRSHICK R, et al. Simultaneous detection and segmentation [C]//European Conference on Computer Vision. Cham: Springer, 2014: 297-312.

[14] LIU S, QI X, SHI J, et al. Multi-scale patch aggregation (mpa) for simultaneous detection and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3141-3149.

[15] GIRSHICK R. Fast r-cnn [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.

[16] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [C]// International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 91-99.

[17] DAI J, LI Y, HE K, et al. R-fcn: Object detection via region-based fully convolutional networks [C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2016: 379-387.

[18] SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 761-769.

[19] MOSTAJABI M, YADOLLAHPOUR P, SHAKHNAROVICH G. Feedforward semantic segmentation with zoom-out features [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3376-3385.

[20] KRÄHENBÜHL P, KOLTUN V. Efficient inference in fully connected crfs with gaussian edge potentials [C]// Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2011: 109-117.

[21] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2018-06-04]. https://arxiv. org/abs/1511.07122.

[22] CHEN L C, YANG Y, WANG J, et al. Attention to scale: Scale-aware semantic image segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3640-3649.

[23] GHIASI G, FOWLKES C C. Laplacian pyramid reconstruction and refinement for semantic segmentation [C]//European Conference on Computer Vision. Cham: Springer, 2016: 519-534.

[24] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2018, 40(4): 834-848.

[25] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2018-06-11]. https://arxiv. org/abs/1706.05587.

[26] ROTHER C, KOLMOGOROV V, BLAKE A. Grabcut: Interactive foreground extraction using iterated graph cuts [C]//ACM Transactions on Graphics (TOG). New York: ACM Press, 2004, 23(3): 309-314.

[27] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 779-788.

[28] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector [C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.

[29] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]//European Conference on Computer Vision. Cham: Springer, 2014: 818-833.

[30] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-05-10]. https://arxiv.org/ abs/1409.1556.

[31] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[32] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]//IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2015: 1-9.

Automatic Segmentation of Dragon Design Based on Bi-Level Model in Chinese Imperial Costume Images

ZHAO Hai-ying1,2, YANG Ting1

(1. School of Digital Media & Design Arts, Beijing University of Posts and Telecommunication, Beijing 100876, China; 2. Beijing key Laboratory of Mobile Media and Cultural Computing, Beijing University of Posts and Telecommunications, Beijing 102101, China)

The design pattern of Chinese imperial costumes contains rich cultural connotation. However, due to the lack of data set of pixel-level semantic annotation, the accurate segmentation of Chinese imperial costume images has become a very challenging problem. In this paper, a bi-level model integrating deep learning and GrabCut is proposed to realize the object detection and segmentation. The characteristics of different deep convolution neural network models are analyzed, and a two-stage object detector R-FCN is selected in the object detection layer (ODL). The segmentation layer (SL) of the proposed model employs GrabCut algorithmbased on graph theory to produce final segmentation result. Experiments show that the proposed bi-level model can produce good segmentation results in the Chinese imperial costume image data set.

automatic segmentation; bi-level model; object detection layer; segmentation layer; Chinese imperial costume image

TP 391

10.11996/JG.j.2095-302X.2019010150

A

2095-302X(2019)01-0150-08

2018-09-25;

2018-10-18

国家自然科学基金项目(61163044);北京市科委基金课题(D171100003717003);甘肃省人才引进项目(2015-RC-47)

赵海英(1972-),女,山东烟台人,副教授,博士,硕士生导师。主要研究方向为文化计算与媒体信息挖掘。 E-mail:zhaohaiying@bupt.edu.cn

猜你喜欢
宫廷双层服饰
双层最值问题的解法探秘
锋芒毕露的法国宫廷画家
动物“闯”入服饰界
明代宫廷队舞考论
听诸子百家讲“服饰穿搭”
歲朝图 帝王宫廷篇
雪人的服饰
墨尔本Fitzroy双层住宅
“双层巴士”开动啦
宫廷古法白米饭