基于深度学习的演示文稿布局评价

2019-01-08 03:16李瑞邢延超

电脑知识与技术 2019年33期

李瑞邢延超

摘要：对演示文稿布局的评价有助于筛选出好的布局。本文提出一种基于深度学习的演示文稿布局评价算法。首先对演示文稿內容属性分类，将样本划分成网格，并获取网格的相应属性作为输入数据集。将主观评价得分作为主要参考，训练出自动评价布局质量的神经网络。实验结果中网络准确率为0.551，加入容限后准确率可进一步提升。

关键词：深度学习;网格;演示文稿;布局质量

中图分类号：TP393 文献标识码：A

文章编号：1009-3044（2019）33-0195-02

非专业人员制作的演示文稿普遍存在不美观的问题，而对布局质量的自动评价限制了自动布局工具的有效性。这方面已有部分相关研究。Harrington等通过结合属性的启发式算法来对自动布局的美学进行度量，主要包括设计规则及其线性组合。BuhrM等依据文章的大小及优先级和重量分布两项美学标准研究人工神经网络在报纸布局美学评价中的应用。YangXuYong等设计一个与杂志主题相关的布局模板和继承高层次美学原则和低级图像特征的计算框架。这些工作对于演示文稿的质量评价缺乏针对性，本文提出一种基于网格和深度神经网络实现对演示文稿布局质量进行评价的算法。

1深度学习数据集生成

利用Python凹中的Office文档处理控件，分析训练幻灯片每一页中的对象树，提取包括对象形状类型（如文本、图片）、对象高度、对象宽度、对象位置等信息。

1.1正负样本获取

将专业网站下载频率较高的演示文稿作为正样本，将正样本随机打乱得到负样本。随机打乱的原则：对象不月越界;对象组整体移动;对象尽量避免重叠。正负样本的比例为1：5。

1.2输入数据集生成

卷积神经网络要求输入节点数相同，无法直接将幻灯片元素信息作為输入。本文将每张幻灯片划分为网格，提取网格属性，作为神经网络输入。

1.2.1确定网格大小

本文演示文稿设为宽度960、高度540磅。网格数量会对训练样本数、训练时间、训练精度等产生影响。需要在网格精度、准确性、训练时长间折中。确定网格数目时应权衡两个因数。图1中曲线1表示训练精度随网格数目收敛的曲线，曲线2代表训练时间随网格数目变化的曲线。最终，网格数量选择76x100，在保持较高精度时减少训练时间。

1.2.2确定网格属性

演示文稿元素包括文本、图表以及一些形状，文本又分为标题、正文等类型等。将页面划分成网格时，网格属性包括背景、标题、副标题、文本、图表、重叠、其他。确定网格属性的过程：一、获取元素位置，判断与哪些网格相交，相交的占比超过50%认为该网格处于形状内。二、确定当前形状所包含网格的属性。三、将所有处于该形状内的网格的属性添加到对应的网格属性列表中。四、遍历所有元素，根据网格属性列表确定最终网格属性。五、页面中所有的网格属性写入CSV文件中，每行保存一张页面的所有网格属性。

1.3输出数据集生成

深度学习输出为对演示文稿中幻灯片整体布局质量的评价得分。本文通过普通用户对正负样本进行打分形成输出数据集的方法，打分区间为O到9分。用户针对当前显示的页面进行打分，将分数写入CSV文件中。演示文稿与CSV文件对应关系为一个CSV文件对应一个演示文稿，CSV文件中每行数据对应相应的页面得分。

2深度神经网络训练

为了充分提取到特征，采用卷积神经网络进行训练。卷积神经网络输入为网格厨陸，输出为布局质量得分。训练样本数为153962，输人数据经过MinMaxScaler归一化。卷积层和隐藏层激活函数选ReLu，输出层激活函数选softmax，损失函数选交叉熵函数，优化器选择SGD随机梯度下降法，学习率选择0.1，卷积核大小为5×5，每批次项数128，训练周期200。

影响神经网络训练准确性的因素主要有卷积层数、隐藏层的层数与节点数。卷积层的主要作用是使用卷积核进行特征提取和特征映射，伴随着卷积层数增加，特征提取更加充分，但是到达某一临界点之后，继续增加卷积层不但不会提取到更多的特征信息，反而会降低训练准确度，增加训练时间。增加隐藏层数可以降低网络误差、提高精度，但增加了网络的训练时间和出现“过拟合”的倾向，增加隐藏层的节点数来获得较低的误差，其训练效果要比增加隐藏层数更容易实现。

首先，确定神经网络卷积层数。隐藏层节点数为512时，改变卷积层数分别进行训练。经过实验可得：当卷积层层数为2层，卷积核个数为16/32时，提取到的特征信息较少，准确率比较低;当卷积层层数为4层，卷积核个数为16/32/64/128时，准确率没有卷积层为3层时准确率高，而且训练时间长。因此，卷积层数选择3层，每层卷积核个数为16/32/64。

其次，确定隐藏层层数及节点数。卷积层选择3层，卷积核个数为16/32/64，分别改变隐藏层层数和节点数进行训练。实验表明，隐藏层层数为1节点数为896时，测试准确率最高，准确率为0.551。因此，隐藏层的层数选择1层，节点数选择896。

最终确定的对PPT布局质量进行打分的卷积神经网络结构如图2所示。

在该卷积神经网络结构下，选择153962个样本进入该网络进行训练，网络在训练了大约150个epoch后，准确率和损失率基本保持不变。

3深度神经网络测试

3.1网络加入容限

由于不同的用户对于完全相同布局的演示文稿也会有不同的得分，因此，卷积神经网络预测出的得分处于一定的容限内也应该认为正确。容限是神经网络预测值与真实值之间的差距。加入容限后，可以得到网络的预测精度。准确度容限为1、2、3时的训练结果如表3所示。准确度容限为1时，测试准确率比不加容限时上升了0.258;准确度容限为2时，测试准确率比容限为1时上升了0.072;准确度容限为3时，测试准确率比容限为1时上升了0.039。随着容限的增加，卷积神经网络准确率的上升速率明显减缓。

4总结

本文采用网格和深度学习相结合的方法对演示文稿的布局质量进行评价得分，测试准确率为0.551。加入容限为1后，准确率上升为0.809;加入容限为2后，准确率上升为0.881;加入容限为3后，准确率上升为0.920。表明网络预测方向是正确的，但是预测精度需要增加。本文只针对演示文稿的布局进行评价，没有考虑颜色和谐。下一步工作是提升预测精度的同时将演示文稿颜色信息添加到输人数据集中，对颜色和谐程度进行评价，形成一个完整的评价体系。