基于深度学习的短视频广告推送系统

2021-06-26 08:25蒙俊杰

科学技术创新 2021年16期

党进蒙俊杰

(广西科技大学,广西柳州545026)

1 概述

随着移动网络与手机设备性能大幅度的提升,短视频行业出现迅猛的发展,2017年行业市场规模达到57.3 亿元,同比增长达到183.9%,而2020年全行业市场规模预计会达到300亿元,平均年增长率为74%[1]。短视频行业不可估量的经济收益引起了投资者的重视。但是要实际做到商业化,提高平台的内容变现能力是重要环节。本文将深度学习技术应用于短视频投放领域,提出了一种基于深度学习的视频物体检测和内容推荐系统,结合视频内容进行高相关度低打扰性的广告推送,从而实现在保证用户体验的基础上,提升投放广告的有效性。

2 视频关键帧提取

视频关键帧是指从短视频中获取某些至关重要的帧,可以用一帧表现出视频一个时间段的主要内容[2]。图像差分指[3]把两张图片的像素值做差,减弱图片的相似部分突显图片的变化部分。本文基于帧间差分的方法,将两帧图片实现差分,获得图片的平均像素强度,它可以评判两帧图片的变化大小。所以当短视频中的某一帧与前一帧图片的内容形成了大的改变,便指定它是关键帧,并将其选择出来。基于帧间差分的视频关键帧提取算法简单快捷,运行速度快,很好的适应了短视频视频关键帧的快速提取。

3 物体目标检测

3.1 SSD网络介绍

SSD(Single Shot MultiBox Detector)全称为单发多框检测器,将定位和检测任务封装在网络的一次前向传播中,从而可以大大加快检测速度,在不同的特征图上去分别匹配预测不同尺度的目标,因此有良好的目标检测精度[4],同时可以部署在较轻的硬件上。

3.2 网络结构

SSD模型框架[5]如图1所示,以VGG16做骨干网络,将原本VGG16的Conv5_3层后的pooling层进行修改,通过新的pooling层后特征矩阵的高和宽是不会发生变化的。在该层后通过一系列卷积可以得到6个不同的预测层,在这6个预测特征层上去预测不同尺度以及比例的目标,预测后通过非极大值抑制算法和滤出小概率目标就可以得到最终的预测结果。

图1 SSD模型

3.3 SSD网络的Default box

SSD网络一共有6个预测特征层,在6个预测特征层上,分别去预测不同大小目标。

如在第1层中检测相对较小的目标,随着抽象程度不断加深,我们会检测相对较大的目标。2-6层检测目标会越来越大。

SSD按照如下规则生成Default box[6]:

3.3.1 以特征图上每个点的中点为中心,生成一些同心的先验框。正方形先验框最小边长为min_size。

每个特征图对应先验框的min_size和max_size由以下公式决定,公式中m是使用特征图的数量,SSD中m一般为6。

3.4 正负样本的损失

损失分为两个部分,类别损失(Lcn(x,c))和定位损失(Lloc(x,l,g)),其中N为匹配到的正样本个数,a一般设为1。对于类别损失,计算公式如下:

4 序列感知推荐系统

本文将推荐任务抽象为一个图片的问题进行研究,将顺序排列的消费者的短期行为表示为一个矩阵,使用卷积过滤器提取其局部特征,获得消费者的一般爱好和短期兴趣[7]。本文介绍一种Caser模型(卷积序列嵌入推荐模型)。

4.1 序列模式的定义

序列模式有三种如图2所示。

图2 三种序列模式

(1)point-level(点级模式):点级模式表示历史序列中单个项目对目标项目的影响。(2)union-level,no skip(联级模式,无跳跃):联级模式表示前几个操作对后续目标的影响。(3)union-level,skip once(联级模式,无跳跃):采用跳跃的方式,三个序列采用并联的方式影响的不是相邻的序列,而是跳跃的影响非相邻的下一个序列。

4.2 模型架构

Caser对用户的日常爱好和顺序模式进行建模,使用卷积神经网络(CNN)学习序列特征,采用隐因子模型(LFM)学习用户特征。Caser模型,包含三个部分:(1)Embedding层:对用户,项目序列进行表示。(2)卷积层:学习近期用户行为的特征。(3)全连接层:将拼接的序列特征与用户偏好映射到用户在当前时间与每个物品交互的可能性。

5 结论

本文将深度学习物体检测结果用于个性化内容推荐,推动广告投放的智能性,实现了海量视频潜在信息的挖掘和匹配,具有重要的理论研究意义和商业价值。