基于深度学习的电力数据推荐算法研究

2020-03-16 02:31李业锋刘彤
电子技术与软件工程 2020年24期
关键词:区分度约简编码器

李业锋 刘彤

(国网山东省电力公司枣庄供电公司 山东省枣庄市 277100)

多个层叠加形成深度学习思想,每一层均以上一层的输出作为输入,最终以分层的形式描述输入信息[1]。深度学习在学术研究与工业应用中广泛推广使用,多层神经网络具备突出的特征学习能力,能够获取表达数据本质的特征学习结果,为数据分类以及可视化研究提供精准的数据基础。为此,本文对深度学习网络模型加以改进,利用变分自编码代替经典深度学习算法中的自编码器,优化数据时间属性推荐结果,为电网工程建设提供高效率的信息推荐方式。

1 基于深度学习的数据时间属性实时推荐算法研究

1.1 基于改进深度学习的数据时间属性推荐算法

变分自编码是深度学习生成模型的一个支路,图像特征提取领域使用变分自编码较为频繁,提取文档数据特征的研究相对较少,本次基于深度学习思想研究数据时间属性推荐研究过程中,利用变分自编码提取时间属性的潜在电力特征。因此采用变分自编码代替深度学习模型中的自编码器得到变分自编码深度学习网络,即改进深度学习网络模型,据此优化深度学习算法推荐数据时间属性的效果。

1.1.1 变分自编码架构

在数据时间属性信息中获取潜在向量是变分自编码的关键目标,潜在向量模型即由潜在向量构成[2]。变分自编码结构如图1所示。

编码器与解码器是变分自编码结构与传统自编码器的共同结构[3],变分自编码的隐藏层和传统自编码器存在差异,结果无限接近于概率分布取决于损失函数的定义。初始输入(即时间属性数据集合)与重构后的输入分别用x 与x'表示,h、h'是隐藏层,概率分布用α、 表示,噪声变量ε 的维数和隐藏层相同。

结合变分自编码目标函数实现数据提取,设置噪声变量服从高斯分布且定义均值为0。分别为参数α 的均值与方差。基于输入文本向量的实值性,则存在:

公式中,W 与d 是权重矩阵与偏置量。

相同道理,σ2、λ 为参数 的方差与均值,计算方法为:

图1:变分自编码结构

基于上述定义得到目标函数如公式(8)所示:

1.1.2 变分自编码的特征提取方法

变分自编码在只有标签文本中获取时间属性特征,变分自编码在原始编码器结构中增加sotfmax 分类器,作用是评定时间属性预测分数[9],同时采用电力评分合理反馈特征的有效性。

变分自编码器网络是改进深度学习网络模型的组成部分,降维压缩与升维还原由x1与x2、x3与x4完成。变分自编码深度学习网络逐层训练过程中,第i 层变分自编码器训练完成后则将第i层网络权重设置为定值,第i+1 层的输入即为变分自编码的输出fi;变分自编码深度学习网络的初始权重即为变分自编码器全部训练完成获取的权重参数集合[4],形式如下:

变分自编码深度学习网络提取的特征不能正确体现电力用户对时间属性推荐的偏好,因此在末层网络中增加sotfmax 分类器,以通过分数评定方式保障时间特征提取的质量。时间属性的标签特征包含五个类别,采用电网分制评分标准,小幅度调整深度学习网络参数时,同时调整预测评分与真实评分数据,调整后的对应目标函数为:

表1:数据集信息

表2:新增信息延迟推荐量分析

图2:差异性参数G 对应的约简区分度

公式中,pi与 分别表示时间属性数据与重构的特征;qi与 分别为项目真实评分与sotfmax 分类器给出的预测评分,sotfmax 分类器预测评分基于特征 获取; 表示评分的反馈修正因子。

2 算法验证

在电网中展开数据时间属性推荐实验,验证本文提出的基于深度学习的数据时间属性实时推荐算法的可行性与优越性。将Tensor Flow 1.4 作为电网实验研究的深度学习计算架构,在Windows 10,32GB RAM,GTXI080 计算机系统中展开实验研究。表1 为实验采用的数据集,由电网工程自动竣工决算与工程造价全过程智能一体化管控项目获取。其中Construction cost 为电网工程施工阶段工程造价信息,Completion cost 为电网工程竣工阶段工程造价信息,Investment budget 为电网工程投资预算信息。

2.1 参数G区分度分析

区分度与约简大小和时间属性选择算法中参数G 存在如下关联:参数G 与区分度、约简大小成正比,但是随着参数G 增加,约简的区分度增加幅度逐渐降低。图2 为差异性参数G 对应的约简区分度散点图。

由图2 可知,参数G 达到120 时,不同数据集的近似约简区分度在0.97 以上;参数G 达到240 时,不同数据集的近似约简区分度在0.99 以上,其中Construction cost 与Completion cost 数据集时间属性约简的区分度为1,相对而言,Investment budget 数据集的时间属性约简区分度相对较低,参数G 达到240 时,区分度仍高于0.99。

所以本文采用的时间属性选择算法约简的区分度足够大,能够准确得到电力数据的时间属性,将准确选取的数据时间属性作为深度学习算法的输入数据,利于改善数据实时推荐效果。

2.2 数据时间属性推荐延迟性能分析

选定Investment budget 作为本文推荐算法延迟效果分析的数据集,以3s/次的频率向数据集中增加1000 条对象信息,10min 后终止,记录此过程中本文算法推荐新增信息的数量与延迟推荐数量,如表2 所示。

表2 显示,即使电力数据集不断更新,本文算法仍可确保推荐精度,新增信息延迟推荐量较低,实现了电力数据时间属性的实时推荐。

3 结论

深度学习算法在数据推荐中的应用研究较多,本文创新点在于对深度学习网络的自编码器加以改进,采用变分自编码代替传统自编码结构,且在变分自编码提取时间属性特征时在传统结构中增加sotfmax 分类器,用于时间属性预测评分,保障时间属性特征提取精度,进一步优化数据时间属性推荐效果,提升电力用户查询电网工程施工费用与预算的体验感。

猜你喜欢
区分度约简编码器
基于二进制链表的粗糙集属性约简
浅谈试卷分析常用的几个参数及其应用
基于FPGA的同步机轴角编码器
实值多变量维数约简:综述
基于模糊贴近度的属性约简
基于PRBS检测的8B/IOB编码器设计
浅观一道题的“区分度”
JESD204B接口协议中的8B10B编码器设计
单维参数型与非参数型项目反应理论项目参数的比较研究*
多总线式光电编码器的设计与应用