融合运动信息的三维视觉显著性算法研究

2018-01-18 09:19,,,
计算机工程 2018年1期
关键词:显著性深度图像

,,,

(1.中国科学院 上海微系统与信息技术研究所,上海 200050; 2.中国科学院大学,北京 100049)

0 概述

视觉显著性可以引导人类视觉系统在解析场景时,只将视觉注意力集中在场景中显著的视觉刺激区域,这样可以大大降低人脑需要进一步处理的信息量,提高对场景进行感知和理解的效率。这一重要机制在认知心理学、神经学、计算机视觉等领域中都是重要的研究问题。在计算机视觉领域中,视觉显著性可以应用于图像分割[1]、视频压缩[2]、目标的检测与识别[3-5]、图像质量评价[6-7]等领域,出现了众多的计算模型来模拟人类视觉系统的这种机制,力求准确快速地提取出图像和视频中的显著性目标或区域。

视觉显著性的模型主要分为2种:一种是自底向上的计算模型,这种模型从图像底层的视觉刺激如颜色、纹理等图像特征出发,提取显著性的区域;另外一种模型是自上而下的计算模型,这种模型与观察者观测场景的目的性和场景的上下文语义有关,比如驾驶场景下道路上的车辆行人等更加吸引人的视觉注意力。

本文从底层的场景信息出发,同时考虑深度信息、运动信息,融合进传统的二维视觉显著性框架,提出适用于动态场景的三维视觉显著性模型。并针对三维动态场景下显著性数据集的稀缺问题,通过实验收集人眼在这些场景下的视觉注意力分布,构建一个用于评价算法性能的三维显著性数据集。

1 研究背景

传统的自底向上的视觉显著性模型都受到人类视觉系统的center-surround机制[8]、特征集成理论[9]以及早期注意力模型[10]的启发,从二维图像特征的局部对比度出发进行显著性的决策。但是人眼的显著性决策是在真实的三维世界中进行的,人眼获取的信息不仅仅局限于图像平面上的颜色、亮度等二维信息,还包含了人眼到物体的距离、物体的运动状态等更加复杂的场景信息,而这些模型都忽略了这一因素,因此可以说这些模型的研究并不符合人眼的视觉注意力机制,并且应用的场景也很有限。另外的一些研究考虑了场景的运动信息,如文献[11]将运动显著性与颜色显著性融合在一起,考虑视频中动态场景的显著性;一些研究考虑了场景的深度信息,如文献[12]通过比较人眼在观看2D和3D场景时的视线分布发现深度对显著性的重要影响;文献[13]直接将深度信息作为额外的特征通道融入到Itti[8]模型中去计算深度显著图;文献[14]则研究了将2D显著图与深度信息融合获取3D显著图的方法。这些方法的研究场景更接近真实的三维世界,但是只单独考虑了深度因素或者运动因素。

2 融合运动信息的三维视觉显著性算法

本文提出一个融合运动、深度、颜色信息的显著性算法框架,如图1所示。算法首先根据所求场景的左图获取到场景的颜色信息,根据左右和前后帧图像通过OSF[15]算法获取场景的光流信息和视差信息。利用双目立体视觉中视差与深度的关系,进一步提取出场景的深度信息。光流信息只代表真实三维世界中的点在图像平面上的运动,并不能真实地反映目标的三维运动信息,本文利用光流信息、深度信息和相机的投影矩阵获取场景中各点在相机坐标系下的三维运动轨迹,用它来表征场景的运动特征。在获取到当前场景的颜色、运动和深度信息后,先通过一个改进的超像素分割算法将场景分割为一系列的区域,采用RANSC算法(随机抽样一致性算法)计算出每个区域的主要颜色、运动和深度信息,然后根据每种特征分别计算出颜色显著图、运动显著图和深度显著图,最后使用动态融合的方法将三者融合,得到最终的显著性结果。

图1 算法框架

2.1 深度信息和运动信息的获取

首先根据视差信息可以推算出场景的深度信息,然后利用深度信息和光流信息进一步获取到各点在相机坐标系下的三维运动矢量。

2.1.1 深度信息的获取

在左右两个相机光轴平行时,视差与深度存在如图2所示的关系。

图2 视差与深度的转换关系

P点在左右像平面上的投影为P1、P2,两点的x坐标分别为XL、XR,f为相机的焦距,B为两相机的基线长,Z为P点的深度信息,通过推算可以得到深度与视差的关系:

(1)

其中,d为视差信息(d=XL-XR),这样结合两相机之间的基线长度与相机的焦距可以得到场景的深度信息。

2.1.2 相机坐标系下三维运动矢量的获取

光流信息表征的是三维场景中点的运动在图像平面上的投影。在相机运动的情形下,背景的运动都是由于相机的运动所造成的,这些运动是一致的。但是由于光流只是实际运动在图像平面上的投影,背景各个区域的光流矢量的方向和大小其实是不同的,这就导致了在相机运动时,利用光流难以有效地区分因相机运动导致的背景区域的运动和场景中物体自身发起的运动,因此难以从场景中提取出运动显著的目标。针对这个问题,本文结合光流信息和深度信息推算出场景中的点在相机坐标系下的三维运动矢量来表征场景的运动特征,推算的方法如图3所示。

图3 真实三维空间中点在前后像平面上的投影示意图

三维场景中的点P在前后帧像平面上的投影分别为P1(u1,v1)、P2(u2,v2)。前一帧图像的相机坐标系光心为O1,点P在此相机坐标系下的三维坐标为(x1,y1,z1);后一帧相机的光心运动到O2,新的相机坐标系以O2为原点,P在当前坐标系下的坐标变为(x2,y2,z2)。Pprojection是相机的内参投影矩阵(式(2)),表示相机坐标系下的坐标到图像坐标的变换关系,两个坐标之间的转换关系如式(3)、式(4)所示。

(2)

(3)

(4)

像平面上点P1、P2的坐标可以由光流信息得到,结合前后帧的深度信息z1、z2,即可推算出式(3)、式(4)中的两个尺度因子s1、s2,两式相减即可得到点P在前后两个相机坐标系下的三维运动矢量:

(5)

使用三维运动矢量的优势在于:背景中的点在相机坐标系下的运动都是由于相机坐标系的旋转或者平移产生的,这些点的三维运动矢量都是相同的,而场景中真正发生运动的点的三维运动矢量不仅与相机坐标系的几何变换有关,还与自身的运动方向和大小有关,因此与背景中的点的三维运动矢量存在明显差异,利用两者之间的差异可以有效地将背景区域和前景目标区分开来。

2.2 融合运动信息的超像素分割算法

SLIC超像素分割算法能够较好地分割不同物体,生成的超像素紧凑整齐,并且算法时间效率高。但是该算法只从LAB颜色空间去考虑像素点之间的相似度量,在室外复杂场景下,如果目标物体与背景的颜色区分度很低,再加上光照阴影等因素的影响,分割算法的性能易受到较大的影响,难以很好地分割出不同物体的边界。自然场景下同一个刚体运动目标的运动方向和速度都是一致的,因此运动特征也可以作为像素间相似程度的衡量准则之一,基于这一点本文将2.1节得到的运动信息融入分割算法,以提高复杂场景下的算法分割效果。

算法步骤和SLIC分割算法类似:先以网格化的形式初始化聚类种子点;然后在种子点的邻域内进行迭代的聚类,直至算法收敛或者达到迭代次数上限,在这一步中对聚类的准则进行调整,把运动信息融合进去。SLIC算法的聚类准则如式(6)所示,distc(i)是像素点i与种子点之间在LAB颜色空间的欧几里得距离,dists(i)是像素点i与种子点之间在空间位置上的欧几里得距离,Nc和Ns是相应的距离归一化因子,I是图像上所有像素点的集合;调整后的聚类准则如式(7)所示,加入了像素点i与种子点之间的三维运动矢量距离distm(i),Nm是对应的距离归一化因子。

(6)

(7)

迭代聚类过程完成之后,将不连续的超像素和尺寸过小的超像素分配给邻近的超像素,最终生成一系列紧凑、近似均匀的超像素,将场景分割为不同的区域。

SLIC算法与融入运动信息的SLIC算法的分割结果如图4所示,通过图4(b)和图4(c)的对比可以看到改进后的算法在前景和背景颜色相近时能够更好地分割物体的边界。为了便于可视化的对比,观察框线区域,原来的算法会将车辆和背景分割到同一个超像素中,而改进后的算法能将两者有效地分割开。

图4 分割算法改进前后的分割结果

2.3 局部与全局对比度融合的运动显著性算法

运动显著性算法的目的是检测场景中因为运动而对视觉注意力产生影响的区域。在诸如机器人自主导航、自动驾驶等领域,图像的采集都是在摄像机高速运动场景下进行的,如何在这种场景下进行运动显著性目标的准确检测仍然是一个难题。主流的运动检测方法主要分为3种:帧间差分法[16],背景抽取法[17]和基于光流的方法。帧间差分法只适用于摄像机静止场景下的运动目标检测,背景抽取法需要首先对特定场景下的背景进行数学建模,从而在接下来的图像帧中去除背景区域,该方法要求初始场景中不存在目标物体,否则需要较长的背景更新过程才能完成对背景的正确建模。在2.1节中已经阐述了光流表征运动信息的局限性,在运动相机场景下难以将相机运动导致的背景运动和目标自身发起的运动区分开,如图5 (b)所示。场景中某些小块区域的显著性较高是因为光照条件恶劣或者区域深度较大时深度计算不准确导致的。本文基于2.1节中获得的场景中点在相机坐标系下的三维运动矢量,提出一种基于区域局部和全局对比度融合的运动显著性算法。

图5 运动显著性结果

算法分为3步:1)根据2.2节中改进的超像素分割算法将场景分割为一系列的区域,R表示这些区域的集合(R={Ri|i=1,2,…,n}),利用RANSC算法(随机抽样一致性算法)计算出每个超像素的三维运动矢量,代表这块区域的运动方向与速度;2)按照式(8)、式(9)计算每个超像素块运动矢量的局部对比度与全局对比度;3)按照式(10)融合局部对比度和全局对比度,得到每个区域的运动显著性结果。

(8)

(9)

m_sal(i)=wl×m_contrastl(i)+wg×

m_contrastg(i)

(10)

其中,m_contrastl(i)和m_contrastg(i)分别表示区域Ri的局部运动对比度和全局运动对比度,Ni是区域Ri邻域内的区域,distm(i,j)和dists(i,j)分别是区域Ri与Rj之间的颜色距离和空间距离,wl和wg是两者融合的权重,σ因子本文中取0.4。

采用局部对比度和全局对比度进行融合的优势在于可以在两个尺度上提取对比度明显的区域。局部对比度可以有效地提取出局部邻域内运动信息与周围区域存在明显对比的区域。但是局部对比度存在一个问题:由于超像素分割会将同一目标分割为多个区域,因此只计算局部对比度会导致目标中间区域的对比度较低,产生“空洞”的现象;而加入全局对比度可以填补目标中心区域的空洞,同时衡量出在全局尺度上对比度明显的区域。运动显著性检测的结果如图5(c)所示。

2.4 基于水平区域对比度的深度显著性算法

在真实三维场景下,深度信息是决定人类视觉注意力的重要影响因素之一。文献[12]中的研究发现人眼在观察同样内容的2D图像和3D图像时注视点存在明显的差异,另外一个直观的事实就是人眼会更多地把视觉注意力集中到距离自己较近的目标上,这些都说明深度信息对于显著性的判断是至关重要的。

将深度信息融入到视觉注意力模型中有2点优势:1)根据前景与背景区域所处深度平面的差别,可以解决前景与背景区域由于二维特征相似产生的混淆问题;2)能够帮助提取场景中的多个显著性目标。

将深度信息融合到视觉注意力模型中去,主要分为2种方法:1)利用深度信息直接对二维特征得到的显著性结果进行加权处理;2)单独利用深度信息生成深度显著性结果,再和二维特征的显著性结果融合,这种方法更接近人类视觉系统的处理机制。

另外一个研究的问题是如何考虑深度信息,一些研究中[18]直接利用深度信息,认为距离人眼越近的区域(深度越小)越能吸引人的视觉注意力,越远的区域则越不显著;另外一些方法[19-20]考虑区域与邻域内其他区域的深度对比度信息,认为深度对比度大的区域更为显著。还有一些实验[21]表明当目标距离人眼过近时,人眼会产生不适的现象,由于这种不适感人的视觉注意力都会集中到这些区域,此时深度信息对显著性起到决定性的作用。本文综合考虑以上的研究发现,提出一种基于深度信息和深度对比度的深度显著性算法,综合考虑上面提到的3个因素。

首先同样利用RANSC算法得到每个区域的深度信息;借鉴传统视觉显著性模型中的center-bias机制[19],利用高斯模型建立深度大小对显著性的影响模型,具体关系如式(11)所示。

(11)

其中,d_coff(i)表示区域Ri的深度显著性系数,di表示区域Ri的深度,dmin是场景的最小深度,参数dr由场景的景深范围和实验得到。

同时考虑深度对比度对视觉注意力的影响。以往的研究[14]在考虑深度对比度对显著性的影响时,效仿传统的center-surround机制[8],计算每个区域相对于周围邻域内所有区域的深度对比度,比如利用一个DOG算子计算每个区域的局部对比度,这些算法都是应用在一些较为简单的静态场景下,背景区域基本都处在同一个深度平面上,而目标物体处在另外一个深度平面上。设想在诸如街道、高速公路等室外复杂场景下,背景区域并不是都位于相同的深度平面上,往往深度从近及远变化范围很大,尤其是在远处相邻的背景区域间的深度差会很大,因此用这些传统的方法会将背景区域误检为深度对比度很高的区域。为了在复杂的室外场景下有效地检测出深度对比明显的区域,本文提出一种基于水平区域内深度相对对比度的计算方法。

通过对典型场景下(如图4(a)左图中的场景)不同区域所处深度平面的分析,有如下两点发现:

1)同一水平线上的背景区域基本都位于同一深度平面上,在这条水平线上如果出现了凸出的目标物体,则深度会与背景区域存在明显的对比。

2)考虑到如图4(a)左图所示的这些复杂场景中,场景两侧会出现如房屋、树木等从近处向远处延伸的背景区域,导致在远处的背景区域深度与同一水平线上的邻域也会存在较大的深度差。为了抑制这些远处的背景区域,在计算出每个区域相对于同一水平线上其他区域的深度对比度之后,用当前区域的深度信息进行归一化处理,不仅可以达到抑制远处背景的效果,同时可以更好地突出水平线上深度凸出的区域。

综合以上2点发现,本文通过下面的方法计算每个区域的深度对比度:首先对场景的区域集合R进行划分,根据每个区域的水平位置(即区域中心的垂直坐标)将其划分到不同的区域集合中去:R={Ni|i=1,2,…,m},Ni表示第i个横向区域集合,总共划分为m个横向区域集合。划分的准则如式(12)所示。如果区域Ri中心的垂直坐标pos_y[i]处于横向区域集合Ni的垂直坐标上界upper[i]和垂直坐标下界lower[i]之间,就将其划分到Ni中。

Ni={Ri|upper[i]

(12)

划分结束后分别计算各个横向区域集合中每个区域相对于该集合内其他区域的深度相对对比度,计算方法如式(13)所示,Nh是区域Ri所处横向区域的集合,d_contrast[i]即表示区域i的深度对比度。

(13)

最后考虑目标太近时对人眼易产生不适这一因素,当目标的深度小于人眼观测的舒适距离时,该区域的显著性是最高的。

综合深度信息和深度对比度,按照式(14)得到最终的深度显著性结果,式中τ是人眼观测的舒适距离阈值。

(14)

2.5 多个显著图的动态融合

心理学的研究[11]发现,人类视觉系统对于运动信息的感知相比于其他的视觉刺激信号更为敏感。因此在动态的场景下,运动显著性在显著性的决策中占据主导的地位;而在静态的场景下人眼则会更多地关注颜色和深度凸显的区域。基于这两点本文根据场景的运动、颜色和深度显著图对比度来动态调整3个显著性结果的融合权重。

以运动显著图举例,需要使用一个定量的参数去衡量这个场景下是否有运动显著的目标存在。根据2.3节得到的运动显著图,若该图中各个区域的显著值接近,意味着各个区域的运动对比度接近,场景中不存在明显的运动目标,如果存在部分区域的显著值明显高于其他区域,则说明场景中存在运动对比度很高的目标,此时通过一个运动对比度因子k_motion来表征运动显著图中是否存在显著的运动目标,按照式(15)可以得到k_motion因子。

(15)

其中,salmax、salavg、salmin分别是运动显著图中的最大值、均值和最小值,k_motion因子越大,表示该场景中存在运动显著目标的可能性越大。

同样的方法可以得到颜色显著图和深度显著图中的对比度因子k_color和k_depth,利用这3个对比度因子根据式(16)~式(18)动态调整3个显著图的融合权重,sigma为实验确定的参数,本文中取0.3。

(16)

(17)

(18)

最后根据式(19)将3个显著图融合得到最终的显著性结果,m_sal、d_sal、c_sal分别是运动显著图、深度显著图和颜色显著图。

sal=wm×m_sal+wd×d_sal+wc×c_sal

(19)

因为运动信息相比于其他视觉刺激的重要性更高,所以当k_motion较大时,运动显著图的权重wm较大,颜色显著图和深度显著图两者之间再根据k_color和k_depth动态地调整。各特征下的显著图及融合结果如图6所示。本文中颜色显著性的计算使用文献[22]中的方法,从图6(a)可以看到复杂的场景下颜色显著性结果非常杂乱,因此在融合时的权重wc很低,这种情况下颜色显著性的结果是不可信的,融合的权重置为0,场景的显著性结果由运动和深度信息所决定。由图6(e)可以看到融合后的结果可以同时突出运动显著和深度显著的区域。

图6 各特征下的显著图及融合结果

3 三维动态场景下的显著性数据集

传统的显著性评价数据集诸如MSRA10K、ECSSD[23]、JuddDB[24]等都是针对二维并且静态场景下的显著性数据集,另外一些数据集如NUS-3DSaliency[12]是针对三维场景下的显著性数据集,但是局限于静态场景下的研究。现有的数据集都无法评价本文研究的三维动态场景下的显著性算法。

针对数据集的稀缺问题,本文依据KITTI数据集收集到的双目图像数据,对经过校正后的左右相机图片进行处理,将其水平方向的图像分辨率压缩至原来的一半,并左右对齐拼接在一起,形成左右并排的立体图像。从数据集中选取出64个不同的动态场,包含了KITTI数据集中城市、住宅区、道路等多个种类场景下的不同图像数据。选取每个场景下的前后6帧图像,采用3.0 frame/s的帧率获取这个场景下的视频数据。实验过程中邀请5位同事对这64个场景下的视频数据进行场景的显著性标注。首先在SONY 3D电视上播放3D视频,让实验的参与者站在距离电视1 m的位置上,头部对准电视的中心,利用被动式3D眼镜观看每个场景,然后标注出他们认为的场景中的显著性区域(也就是选出视频播放过程中视线的落点区域)。在采集数据时力求观察者不要对场景进行内容上的理解,简单地从视觉刺激层次上选取显著的目标区域,因此每一个场景在观察者实验时只播放一遍(2 s左右),同时观察者在标注显著性区域时可以选取任意多个显著区域,也可以选择在某些场景下不标注任何的显著性区域;可以标注出完整的显著性目标,也可以只标注某个物体的一部分作为显著的区域。

根据相机运动情况和场景中是否存在运动目标可以将这些场景分为4类:1)相机运动并且场景中至少存在一个运动目标的场景;2)相机运动但是场景中不存在运动目标的场景;3)相机静止并且场景中至少存在一个运动目标的场景;4)相机静止并且场景中无运动目标的场景。

在实验过程中,通过对实验参与者标注的显著性区域的分析,有如下发现:1)在包含运动目标的场景下,参与者标注的显著性区域基本都集中在运动区域上,说明在动态的场景下,运动确实是显著性的决定性因素;2)在不存在运动目标的场景下,观察者标注的显著性区域更多集中在颜色或者亮度对比度强的地方;3)距离观察者很近的目标,即使处于静止的状态也会被标注为显著性区域;4)当道路边缘或者视野较中间的位置出现行人时,这些区域往往是显著的。第2)点的发现验证了在静态的场景下,颜色等特征确实是决定显著性的因素之一,第1)点和第3)点发现则验证了深度和运动信息在三维动态场景下很大程度上决定着显著性,而第4)点的发现与场景的高层特征有关,这一点不在本文的讨论范畴之内。

根据实验参与者标注的显著性数据,选择显著性区域标注较为一致的场景,利用图像处理软件NI Visual Assistant获取得到各个场景下的显著性Ground Truth数据。

4 实验结果与算法评价

利用上文得到的数据集对本文算法(下面用MDC表示)进行验证,同时与HC[22]、RC[22]、GMR[25]这3种算法进行对比,这3个算法对于静态单目场景下的显著性检测均可以取得较好的效果。各个算法的显著性结果如图7所示。

图7 各算法的显著性结果

为了对不同算法的性能进行定量评价,本文对不同场景下的准确率、召回率、真正率、假正率进行计算并获取平均值,绘制出不同算法的准确率-召回率曲线与ROC曲线,同时计算出不同算法的F-measure值与AUC值来对算法的整体性能进行直观的对比。各项性能指标的结果如图8所示。

图8 不同算法的定量评价

准确率-召回率曲线越接近右上角(1,1)点,表示算法的性能越好;ROC曲线越接近左上角(0,1)点,表示算法的性能越好;F-measure值按式(20)计算,本文β2=0.3,F-measure值越高表示算法表现越好,MeanF-measure是所有阈值下F-measure的平均值,MaxF-measure是所有F-measure的最大值,AUC值是ROC曲线下方与水平坐标轴之间的面积,AUC值越大表示算法性能越好。

(20)

从图7的可视化结果以及图8的各项评价指标均可以发现,图7(b)~图7(d)这3种基于二维图像特征的显著性算法的结果都存在明显的问题。本实验进行对比的目的仅在于说明传统的显著性算法不适用于较为复杂的真实三维场景下的显著性决策。这些算法在静态单目的简单场景下可以达到很好的显著性检测效果,但是它们只考虑了场景中静态图像的颜色、纹理等二维信息,因此应用场景十分有限。人类视觉系统的显著性决策是在真实三维场景下进行的,所以只考虑二维图像平面上的显著性显然不符合人眼的视觉注意力机制。从图7的可视化结果中可以看到,本文提出的融合深度和运动信息的显著性算法更接近数据集的ground truth信息,而图8中的各评价指标也验证了本文算法相对于其他3种算法具有明显的优势。

5 结束语

在真实三维场景下,运动、深度、颜色等信息都是决定视觉显著性的重要因素。本文针对传统视觉显著性领域研究的局限性,提出了一个融合场景运动、深度信息的三维视觉显著性算法,适用于三维动态场景下的显著性目标检测,更贴合人眼的视觉注意力机制。同时针对该领域的数据集稀缺问题,提出一个三维动态场景下的显著性评价数据集,并通过本文算法与传统算法在此数据集上的结果对比,验证了本文算法的优越性。

本文从场景的底层特征信息出发,考虑在视觉刺激层次上的显著性区域,然而人类视觉系统的注意力机制同时受到高层特征[26]的影响,比如场景的上下文语义、观察者观察场景时的目的性等。下一步的研究方向就是研究高层特征与视觉显著性之间的关联,并将其与本文给出的底层特征模型融合,得到一个更加贴近于人眼视觉注意力机制的计算模型。

[1] DONOSER M,URSCHLER M,HIRZER M,et al.Saliency Driven Total Variation Segmentation[C]//Proceedings of the 12th IEEE International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2009:817-824.

[2] GUO Chenlei,ZHANG Liming.A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression[J].IEEE Transactions on Image Processing,2010,19(1):185-198.

[3] SHEN Hao,LI Shuxiao,ZHU Chengfei,et al.Moving Object Detection in Aerial Video Based on Spatiotemporal Saliency[J].Chinese Journal of Aeronautics(English Edition),2013,26(5):1211-1217.

[4] REN Zhixiang,GAO Shenghua,CHIA L T,et al.Region-based Saliency Detection and Its Application in Object Recognition[J].IEEE Transactions on Circuits & Systems for Video Technology,2014,24(5):769-779.

[5] 李正周,李文艳,谭 菊,等.基于空时显著性感知的运动目标检测方法[J].计算机应用研究,2010,27(6):2391-2393.

[6] LIU H,HEYNDERICKX I.Studying the Added Value of Visual Attention in Objective Image Quality Metrics Based on Eye Movement Data[C]//Proceedings of IEEE International Conference on Image Processing.Washington D.C.,USA:IEEE Press,2009:3097-3100.

[7] 冯 欣.基于视觉显著性的网络丢包图像和视频的客观质量评估方法研究[D].重庆:重庆大学,2011.

[8] ITTI L,KOCH C,NIEBUR E.A Model of Saliency-based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1998,20(11):1254-1259.

[9] TREISMAN A M,GELADE G.A Feature-integration Theory of Attention[J].Cognitive Psychology,1980,12(1):97-136.

[10] KOCH C,ULLMAN S.Shifts in Selective Visual Attention:Towards the Underlying Neural Circuitry[J].Human Neurobiology,1985,4(4):219-227.

[11] ZHAI Yun,SHAH M.Visual Attention Detection in Video Sequences Using Spatiotemporal Cues[C]//Proceedings of ACM International Conference on Multimedia.New York,USA:ACM Press,2006:478-482.

[12] LANG Congyan,NGUYEN T V,KATTI H,et al.Depth Matters:Influence of Depth Cues on Visual Saliency[C]//Proceedings of the 12th European Conference on Computer Vision.Berlin,Germany:Springer,2012:101-115.

[13] 曾志宏,李建洋,郑汉垣.融合深度信息的视觉注意计算模型[J].计算机工程,2010,36(20):200-202.

[14] WANG Junle,DASILVA M P,LECALLET P,et al.Computational Model of Stereoscopic 3D Visual Saliency[J].IEEE Transactions on Image Processing,2013,22(6):2151-2165.

[15] MENZE M,GEIGER A.Object Scene Flow for Autonomous Vehicles[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:3061-3070.

[16] WANG Zhihu,XIONG Jiulong,ZHANG Qi.Motion Saliency Detection Based on Temporal Difference[J].Journal of Electronic Imaging,2015,24(3).

[17] 万盼盼,张 轶.一种改进的基于背景差分的运动目标检测方法[J].计算机技术与发展,2015,25(2):38-41.

[18] GAO Shanshan,CHI Jing,LI Li,et al.Saliency Detection Based on Superpixels Clustering and Stereo Disparity[J].Applied Mathematics Journal of Chinese Universities,2016,31(1):68-80.

[19] WANG Junle,FANG Yuming,NARWARIA M,et al.Stereoscopic Image Retargeting Based on 3D Saliency Detection[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2014:669-673.

[20] JIANG Lixing,KOCH A,ZELL A.Salient Regions Detection for Indoor Robots Using RGB-D Data[C]// Proceedings of IEEE International Conference on Robotics and Automation.Washington D.C.,USA:IEEE Press,2015:1323-1328.

[21] JIANG Qiuping,SHAO Feng,JIANG Gangyi,et al.A Depth Perception and Visual Comfort Guided Computational Model for Stereoscopic 3D Visual Saliency[J].Signal Processing Image Communication,2015,38(3):57-69.

[22] CHENG Mingming,MITRA N J,HUANG Xiaolei,et al.Global Contrast Based Salient Region Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2011,37(3):409-416.

[23] YAN Qiong,XU Li,SHI Jianping,et al.Hierarchical Saliency Detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:1155-1162.

[24] BORJI A.What Is a Salient Object? A Dataset and a Baseline Model for Salient Object Detection[J].IEEE Transactions on Image Processing,2014,24(2):742-756.

[25] YANG Chuan,ZHANG Lihe,LU Huchuan,et al.Saliency Detection via Graph-based Manifold Ranking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:3166-3173.

[26] HUANG Xun,SHEN Chengyao,BOIX X,et al.SALICON:Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:262-270.

猜你喜欢
显著性深度图像
巧用图像中的点、线、面解题
深度理解一元一次方程
本刊对论文中有关统计学表达的要求
有趣的图像诗
基于显著性权重融合的图像拼接算法
深度观察
深度观察
基于视觉显著性的视频差错掩盖算法
深度观察
论商标固有显著性的认定