超高清视频内容安全审核技术研究*

2020-08-14 06:32张家亮张明亮陈正宇

通信技术 2020年8期

张家亮，曾兵，沈宜，张明亮，陈正宇

（成都三零凯天通信实业有限公司，四川成都 610041）

0 引言

2019年3月1日，工业和信息化部、国家广播电视总局和中央广播电视总台联合印发《超高清视频产业发展行动计划（2019-2022 年）》[1]，明确提出“4K先行、兼顾8K”的总体技术路线，大力推进超高清视频产业发展和相关领域的应用，预期到2022年，我国超高清视频产业总体规模超过4万亿元，4K产业生态体系基本完善。该规划提及了超高清生态在5G领域的探索；该规划提出了超高清内容和服务的重点突破行业应用，鼓励“淘旧换新”政策，促进产业需求升级。2020年3月4日，中共中央政治局常务委员会会议召开，强调要加快5G网络、数据中心等新型基础设施建设进度，3月13日，国家发改委、财务部、商务部等二十三个部门联合印发《关于促进消费扩容提质加快形成强大国内市场的实施意见》，提出加快5G网络等信息基础设施建设和商用步伐。

超高清是继数字化、高清化之后的新一代重大技术革新,5G+4K的协同发展将驱动以超高清视频为核心的行业智能化转型,带来广播电视、在线视频等方面的体验升级,促进供给侧改革以及需求提升[2]。超高清视频应用将成为各大运营商及相关部门5G商用探索的一大亮点,有望成为5G前期部署的主要应用场景和业务拉动的重要驱动力[3]。

1 超高清视频内容安全审核需求

2020年4月28日，中国互联网络信息中心(CNNIC)发布的第40次《中国互联网络发展状况统计报告》显示，截至2020年3月，我国网民规模达9.04亿，手机网民规模达8.97亿，网络视频（含短视频）用户规模达8.50亿，人均每周上网时长为30.8小时。5G+4K带来的超高清视频全新体验，具有高分辨率(UHD)、高帧率(HFR)、高动态范围(HDR)、宽色域(WCG)[4]的视觉呈现效果，将对网络视频（含短视频）的推广应用产生积极的推动效果，超高清视频一旦出现色情、暴恐、涉政等相关内容，如果网民的言论缺乏应有的判断和理性，就容易造成偏激氛围，造成很强的误导和煽动性，产生的危害不容忽视。

2016年4月19日召开的网络安全和信息化工作座谈会上，习总书记强调要依法加强网络空间治理，加强网络内容建设，营造一个风清气正的网络空间。国家及行业监管部门先后出台了一系列管理规定和细则，包括全国人民代表大会常务委员会发布的《中华人民共和国网络安全法》，国家互联网信息办公室发布的《网络信息内容生态治理规定》，国家广播电影电视总局发布的《互联网视听节目服务管理规定(2015修订)》，中国网络视听节目服务协会发布的《网络视听节目内容审核通则》、《网络短视频平台管理规范》和《网络短视频内容审核标准细则》。

随着超高清视频内容的逐步普及，为了符合系列国家和行业监管部门的要求，超高清视频内容的生产、制作和发布部门及UGC用户对内容安全智能审核的需求会越来越迫切。

2 超高清视频内容安全审核分析

对比超清视频、高清视频及其它分辨率的视频，超高清视频由于具有“三高一宽”（分辨率高、帧率高、动态范围高、色域宽）的特点，从内容安全审核的角度，会带来如下几方面问题：

（1）更丰富的信息量：超高清视频由于分辨率高，4K分辨率的像素为3840 x 2160,8K分辨率的像素为7680 x 4320，为此，视频中会承载更多的细节和信息。一方面，采用人工审核时，对人的要求更高，相对来说，更容易忽略和遗漏部分细节信息；另一方面，采用机器审核时，机器需要关注的维度更高，需要同时进行多维的并行识别分析。

（2）更大的数据量：以4K超高清视频为例，由于采用逐行扫描，对比隔行扫描的高清视频来说，即使按最低的帧率50 Hz来进行比较，在相同编码算法情况下，数据量也将会至少提高到8倍，如此巨大的数据量，不管是采用人工审核，还是采用机器审核，如果不能及时有效地完成内容安全审核工作，将会带来巨大的数据存储压力。

（3）更复杂的运算：在机器审核过程中，由于数据量更大、帧信息更丰富，对识别算法来说，一方面将面临更大的待分析识别数据，另一方面将需要分析关注更多的细节，为此识别算法将面临更加复杂的运算处理。

新一代人工智能技术的发展为超高清视频内容安全审核提供了技术基础，综合运用视图像分类技术、目标检测识别技术、人脸识别技术和超大规模向量技术，并基于此，结合超高清视频应用进行改进和提升，有助于很好地满足此类内容安全审核需求。

3 超高清视频内容安全审核技术研究

3.1 技术思路

超高清视频内容安全审核的总体技术思路为：将内容安全审核需关注的特定人物、特别旗帜、特定徽标、特定场景等系列内容汇聚为“敏感信息库”，综合运用视图像分类技术、目标检测识别技术、人脸识别技术和超大规模向量检索技术，对待审核的超高清视频内容进行基于人工智能的识别、分析，实现是否涉黄、涉恐、涉特定人员的内容安全审核。

3.2 系统架构

超高清视频内容安全审核系统架构如图1所示，包括计算资源、数据接入、数据清洗、数据存储、应用服务和超高清视频分析引擎等。

图1 超高清视频内容安全审核系统架构

计算资源：系统由GPU超算服务器以及高性能GPU服务器构成，当业务处理分析量增加后，系统可采用分布式的集群架构体系进行增量扩容。

数据接入：负责接收用户需要分析的超高清视频数据，从而为视频内容分析引擎提供数据资源。获取的数据资源来源具有多样性，可以是线上提交，也可以是线下提供。

数据清洗：对视频进行帧抽取与分析，用于后续的视觉特征提取,并将数据标准化为统一的格式与文件存入数据库和视图文件磁盘阵列。

数据存储：数据存储优化技术采用分布式软件架构实现对超高清视频媒资库存取的能力，通过分布式存储将需要保留的长期冷数据与实时业务紧耦合的短期热数据进行差异化存储，规避由于分布式存储对于小微数据存取效率低而导致的系统性能瓶颈，同时系统对人脸样本库进行存储管理。

超高清视频分析引擎：为超高清视频提供内容审核支撑，包括各类内容审核识别引擎，具备色情识别、暴恐识别、旗帜识别、微标识别和人脸识别等多种智能分析能力。为系统提供常见超高清视频文件中特定信息的识别，实现对视频中人物、暴恐、旗帜、徽标内容的识别，为超高清视频内容审核提供识别分析能力。

应用服务：对内容安全审核分析进行策略配置，包括数据需要识别的服务等。为用户提供涉黄审核、涉暴恐审核、涉特定人员审核等多项内容安全审核服务。

3.3 系统组成

超高清视频内容安全审核系统主要由应用服务器、识别服务器、存储服务器和值班维护终端来具体组成，如下图2所示。

图2 超高清视频内容安全审核系统组成

其中，应用服务器主要包括预处理服务器、应用逻辑服务器和Web服务器。识别服务器主要包括涉黄识别服务器、涉恐识别服务器和涉特定人员识别服务器。存储服务器有一系列存储服务器组组成。值班维护终端由系列访问操作终端组成。

3.4 功能说明

超高清视频内容安全审核系统在应用上，可以支持线上、线下两种服务方式，用户提交审核申请和待审核的超高清视频内容，即可享受内容安全审核服务。系统根据用户的内容安全审核需求，包括特定人物、特别旗帜、特定徽标、特定场景，自动完成超高清视频视频内容的智能审核，实现是否涉黄、涉恐、涉特定人员的检测服务。系统可以实现的功能如下：

（1）支持超高清视频内容的特定人物提取与分析识别；

（2）支持超高清视频内容的特定目标提取与分析识别；

（3）支持超高清视频内容的特定场景提取与分析识别；

（4）支持内容安全的多维审核，审核类别包括：涉色情、涉暴恐、涉特定人物；

（5）支持内容安全的多角度审核，审核元素包括：特定人脸、特定旗帜、特定徽标、特定场景。

3.5 关键技术

3.5.1 视图像分类技术

针对超高清视频内容的视图像分类主要还是以基于深度学习的视图像分类技术为基础，采用的图像分类架构是卷积神经网络（CNN），具体原理为：基于卷积神经网络CNN、3D卷积神经网络CNN，对待分析识别视频进行关键帧抽取、短视频分割后，进行特征提取并形成特征向量，然后通过长短记忆网络LSTM对序列进行识别分析。针对待分析识别的超高清视频循环执行上述过程，直到所有的图像和短视频均被识别完成，从而更加合理地实现视频分类[5]。具体原理如下图3所示。

视图像分类技术通过对超高清视图数据进行特征提取及序列分析，具备对特定旗帜、特定场景的识别分类目的，为超高清视频内容安全审核实现特定旗帜、特定场景的智能分析识别。

图3 卷积神经网络原理示意

3.5.2 目标检测识别技术

针对超高清视频内容的目标检测识别主要还是以基于深度学习的目标检测与识别算法为基础，具体采用基于区域建议的目标检测识别算法R-CNN、Fast-R-CNN和Faster-R-CNN[6]，具体原理为：对待分析识别视频进行关键帧抽取，通过Selective Search从上到下提取一定数量（通常是2000个左右）的类无关的区域，然后对这些区域进行归一化处理（采取拉升或压缩），统一为大小相同的图片，采用CNN模型对所有这些区域提取相同长度的特征，通过特定类型的SVM线性分类器进行分类处理，最后再通过Bounding Box进行回归处理。具体原理如下图4所示。

图4 R-CNN算法原理示意

目标检测识别技术通过对超高清视图数据进行多维度多通道特征分析，具备特殊徽标的检测识别能力，为超高清视频内容安全审核实现特殊徽标的智能分析识别。

3.5.3 人脸识别技术

针对超高清视频内容的人脸识别主要还是以基于神经网络进行识别的算法[7]为基础，主要步骤包括人脸检测、人脸图像预处理、特征提取和人脸图像匹配和识别四个步骤，具体原理为：首先对待分析识别视频进行关键帧提取，综合应用参考模板法、人脸规则法和特征子脸法对图像进行人脸检测，识别出场景和背景中的人脸画像；接着，对检测到的人脸画像进行灰度校正、噪声过滤及归一化等系列预处理动作；然后，通过基于知识的表征方法对人脸特征进行提取，完成人脸特征建模；最后，基于提取到的人脸特征数据，与系统数据库中存储的特定目标人员的人脸特征数据进行比对，根据设置的相似度阈值完成人物身份判读。

人脸识别技术通过对超高清视图数据中的人脸局部感知区域特征提取分析，具备特定人员的定位、提取及分析对比能力，为超高清视频内容安全审核实现特定人员的智能分析识别。

3.5.4 超大规模向量检索技术

向量检索主要有两种方法：最近邻检索NN（Nearest Neighbor Search）和近似最近邻检索ANN[8]（Approximate Nearest Neighbor Search）。NN最初是用目标向量和数据库向量来逐条计算距离，结果较为精确，但是NN在面对海量高维度数据时就显现出了问题。ANN是在可接受的精度条件下对向量分簇来建立索引，可以大幅地提高搜索的效率，通常用于大规模向量检索场景下。

超大规模向量检索技术有机地融合分布式应用、并行计算和特征向量提取，以适应大规模向量检索应用场景。在分布式文件系统方面，主要通过分布式文件系统的工程化部署方式、安全性的保证模式实现大数据场景下的适应适配；在并行计算框架方面，主要通过在海量数据下建立有效的数据映射，并对特征相似性数据进行合并的有效计算模型，用以提升检索的效率；在向量检索算法方面，主要通过深度卷积神经网络与特征提取算法的融合，通过模型调优与算法优化，提升检索的精确度。

超大规模向量检索技术：通过分布式文件系统与并行计算框架的系统设计模式，利用深度学习与特征提取的算法理论，具备大规模的视图像检索能力，为超高清视频内容安全审核实现海量多媒体数据分析性能提升。

4 结语

本文对超高清视频内容安全审核需求进行了分析，基于此，对超高清视频内容安全审核相关技术进行了研究。本文从技术思路、系统架构、系统组成、功能说明和关键技术等多个方面，详细阐述了超高清视频内容安全审核技术研究情况。基于本文研究的相关技术成果，从涉黄、涉恐、涉特定人员几个角度，对部分超高清视频进行了内容安全审核探索和原理验证，测试验证结果基本符合预期，在后续工作中，针对超高清视频内容进行智能识别分析的效率还需要进一步的改进和提升。