全景视频视口预测方法综述

2022-03-14 02:19缪辰启
电视技术 2022年2期
关键词:全景轨迹传输

缪辰启,罗 铖

(福州大学 物理与信息工程学院,福建 福州 350108)

0 引 言

全景视频作为元宇宙中提供沉浸感的最关键的技术之一,能够提供传统平面视频无法提供的体验感。与此同时,它也带来了更高的传输带宽需求,具体表现在相对于传统平面视频需要更高的视频分辨率以及图像质量。如此巨大的数据量在当前的网络条件下具有一定的局限性。因此,如何减少全景视频所需的传输带宽,成为全景视频落地的阻碍。视口预测技术作为全景视频自适应传输技术的关键,与传输带宽的利用效率密切相关。

1 全景视频视口预测

全景视频的观看如图1所示。观众需要佩戴头盔显示器(Head-Mounted Display,HMD)进行观看。在观看过程中,HMD可以通过传感器捕获观众头部姿态的变化,从而改变显示的视频内容,给用户提供身临其境的感受。其中,观众所观看的部分称为视口(Viewport),而视口之外的部分称为非视口。

图1 全景视频观看示意图

当前全景视频的应用主要集中于游戏、远程医疗、体育赛事直播、沉浸式旅游体验等场景[1]。其中大部分场景都对实时性提出了相当高的要求。因此,如何减少全景视频传输带宽,成为全景视频研究的热点。

全景视频传输的主流方案为ZARE等人[2]提出的基于tile的全景视频自适应传输方法。该方法根据全景视频只能观看视口部分的特性,将视频进行质量区别化传输。视口内使用更高质量的视频,而非视口使用较低质量的视频,从而在保证用户体验的情况下降低传输带宽。为了实现对同一视频质量的差异化传输,作者利用高效视频编码[3](High Efficiency Video Coding,HEVC)中的运动约束分块集(Motion-Constrained Tile Set,MCTS)技术,将视频分割为不同的tile独立编码,服务器根据视口位置来组合不同质量的tile进而组成完整视频。

视口预测是视频质量差异化传输的基础。服务器与客户端之间存在传输的固有延迟,为了避免卡顿,需要提前进行缓冲,而缓冲时需要确定未来视口的位置,从而确定每个tile的质量。因此,视口预测的作用在于,既能够通过视口内外视频质量差异化而降低传输带宽,又能够提前缓存视频内容从而提升观看流畅度。但与此同时也对视口预测的可靠性提出了要求。若预测结果偏离实际情况,则将需要重新缓冲,从而导致卡顿、黑屏等降低用户体验的情况出现。

当前的全景视频视口预测技术根据其预测依据分为基于轨迹的视口预测和基于视频内容的视口预测。两种方法的主要区别在于预测过程中是否使用视频内容信息。接下来将分别对这两种方法进行介绍。

2 基于轨迹的视口预测方法

基于轨迹的视口预测方法指的是使用过去时刻的视口位置作为预测依据,通过算法模型对未来时刻的视口位置进行预测。本文将根据是否使用深度学习来将基于轨迹的视口预测方法分为传统视口预测方法和基于深度学习的视口预测方法。

2.1 传统视口预测方法

QIAN[4]等人提出的线性回归模型与加权线性回归模型拉开了视口预测领域的序幕。线性回归模型通过对固定长度的过去视口位置进行线性拟合从而预测接下来的视口位置,而加权线性回归在线性回归的基础上增加了距离权重,使得时间间隔相近的位置在预测中产生更大的影响。以上两种模型仅仅适用于轨迹存在明显规律的情况,当视口轨迹存在多种变化模式时,性能将急剧下降。BAN[5]等人认为用户的观看行为是存在一定相似性的,因此提出了将最邻近算法与线性回归相结合的方法。该方法首次使用跨用户相似性进行预测,将存在相似性行为的用户进行聚类,并以相似性行为来指导预测。CHEN[6]等人则在此启发下提出了一种可解释预测模型,该模型能够根据不同的视频类型来调整用户相似性的使用程度,取得了更加稳定的预测性能。以上模型虽然简单,但仍难以部署在服务器与客户端上,并且无法随着用户的使用进行自身的调节。PARK[7]等人针对此问题提出了基于马尔科夫链的导航图(Navigation Graph)预测方法,通过不断收集客户端的用户轨迹以及在服务器进行汇总,从而生成导航图。导航图能够提供各个视口间转移的概率,根据概率大小来生成预测结果。

总体来说,传统的视口预测方法主要是对视口轨迹简单拟合、视口轨迹规律跨用户之间的使用以及借助概率统计进行预测,优点在于易于部署,尽管在精度和稳定性方面不断提升,但仍无法提供可靠的预测结果。

2.2 基于深度学习的视口预测方法

随着计算机算力的提升,深度学习的方法被广泛应用在时域问题中,而传统的视口预测的性能一直不尽如人意,因此研究人员对于深度学习在视口预测中的应用展开了尝试。

JIANG[8]等人提出了一种基于长短时记忆网络(Long Short-Term Memory,LSTM)的视口预测方法,通过单层LSTM对输入轨迹进行建模,最后通过转换层归一化输出预测结果。JAMALI[9]等在LSTM的基础上提出了一种基于编码器-解码器结构的方法,在这种结构中使用编码器提取轨迹信息,而通过解码器进行预测,更加复杂的模型降低了欠拟合的可能性。HOU[10]等人区别于以上方法直接输出视口位置,而是通过多层LSTM与激活函数相结合,从而输出每个tile的观看概率,这种输出形式能够更好地服务于传输过程。XIAO[11]等人首次将注意力机制引入到视口预测中,依靠注意力机制来分配从LSTM提取的信息的权重。绝大多数基于深度学习的方法都是建立在LSTM框架上的,然而ZOU[12]等人提出了一种基于卷积神经网络(Convolutional Neural Networks,CNN)的视口预测方法,利用一维卷积核提取轨迹信息,通过多层卷积核堆叠来获取高维特征,最后使用全连接层来生成预测结果。

基于深度学习的视口预测方法,主要使用以LSTM为基本架构的模型进行预测,相对于传统方法取得了性能上的提升,但该类模型存在如下两个问题影响性能:(1)依赖于自回归,即预测结果会被当做真实轨迹继续预测,当预测误差较大时会产生误差叠加;(2)缺乏长距离依赖,随着输入的增加,无法获得远距离时刻的信息。

3 基于视频内容的视口预测方法

迄今为止,单纯依据轨迹来进行视口预测仍然无法提供可靠的预测结果。其很大一部分原因在于用户的视口轨迹存在随机性,不同用户针对不同内容具有不同的观看模式,内容在其中起到了重要作用,无法简单地仅仅根据运动规律来进行预测。因此,结合视频内容进行视口预测的方法也吸引了大量研究。

在基于视频内容的视口预测方法中,有相当一部分研究集中于全景视频的显著度预测,认为显著度与用户兴趣共同影响视口轨迹,因此显著度与用户观看概率存在密切联系。事实上,传统视频图像的显著度研究已经产生了大量的成果[13],而全景视频图像的显著度预测却无法简单地套用传统方法,其原因在于当前投影技术缺陷导致的边缘图像畸变问题[14]。DAI等人[15]提出了一种支持立方体图输入的编码器-解码器结构的显著度预测网络,立方体图相对于其他投影方式畸变较小,从而减少了图像畸变的影响。在此基础上,ZHANG等人[16]提出的方案不仅支持立方体图输入,还加入光流以提供时空域信息,并将高斯先验加入到预测网络中,进一步提升了显著度的预测性能。XU等人设计了一种全新的球面深度神经网络,包括球卷积、球池化等模块,从本质上避免了投影过程所造成的畸变带来的影响。对抗生成网络(Generative Adversarial Network,GAN)在许多视频领域被广泛地使用,CHAO等人[17]首次将GAN引入全景视频显著度检测中,利用GAN网络强大的生成能力,并融合全局与局部显著度特征,为GAN网络应用在全景视频显著度检测提供了范例。

基于视频内容的视口预测方法差别主要在于对轨迹的建模方式以及视频图像特征提取方式。XU等人[18]采用显著度图作为视频内容特征,利用LSTM提取时域特征,使用全连接网络来结合两者进行预测。LI等人[19]则是利用LSTM的编码器-解码器结构根据用户轨迹生成该用户热图,接着使用全卷积网络对显著度图提取特征,最后使用全卷积将用户热图与显著度图进行组合从而输出预测结果。YANG等人[20]提出了CFVT(Correlation Filter-based Viewport Tracker,CFVT)用于视频内容特征提取,并使用循环神经网络(Rerrent Neural Network,RNN)对轨迹建模,最后通过融合模块对两者进行统一,从而输出预测结果。

相较于单纯依据轨迹进行视口预测,结合视频内容的方法获得了更高的预测精度,其性能提升的原因在于视频内容直接影响用户的观看行为。然而,其需要对图像进行显著性预测等计算,时间复杂度大大增加,对设备的算力要求也相应地增加,并不适用于当前的全景视频传输系统。

4 总结与展望

当前,基于轨迹的预测方法和结合视频内容的预测方法都存在各自的弊端。单纯利用轨迹来进行预测,虽然能够保证实时性,但无法提供可靠的预测结果;基于轨迹与视频内容的方法虽然预测精度较高,但由于涉及到视频图像特征等计算,暂时无法运用在实时系统中。

要进一步提高视口预测的可靠性,首先要在原理上对视口运动规律进行更加深入的认识,探究视频内容与视口轨迹之间的关系。其次,对其他领域新的方法的使用也很重要。

近来,自注意力机制[21]、图神经网络[22]等一批新的深度学习模型的提出,给视口预测提供了新的思路。例如,自注意力机制具有强大的并行计算能力以及长距离依赖捕获能力,可以代替LSTM对视口轨迹进行更好的建模;视口轨迹可以通过转移图来进行表达,利用图神经网络来提取转移图信息从而进行视口预测。如何将这些新的工具应用到全景视频视口预测中,将成为提升视口预测性能的突破口之一。

5 结 语

视口预测作为全景视频自适应传输的关键一环,能够有效降低全景视频传输带宽。本文对现有技术进行分类以及详细介绍,对视口预测的现状进行了总结,认为当前的视口预测方法无论是基于轨迹还是基于视频内容,都需要克服其本身存在的弊端才能走向实际应用。此外,当前深度学习领域的新技术与视口预测相结合,将会进一步推动视口预测技术的发展,从而推进全景视频更加广泛的应用。

猜你喜欢
全景轨迹传输
解析几何中的轨迹方程的常用求法
牵引8K超高清传输时代 FIBBR Pure38K
戴上耳机,享受全景声 JVC EXOFIELD XP-EXT1
轨迹
轨迹
基于同轴传输的网络传输设备及应用
关于无线电力传输的探究
全景敞视主义与侦探小说中的“看”
轨迹
支持长距离4K HDR传输 AudioQuest Pearl、 Forest、 Cinnamon HDMI线