基于神经网络算法的数据预处理研究

2016-04-05 00:22翟龙飞陈迎春杨冲闫心宝

中文信息 2016年3期

翟龙飞　陈迎春　杨冲　闫心宝

摘要：输入神经网络数据的优劣直接关系着网络训练结果，因此训练数据的预处理在整个系统模型设计中具有十分重要的意义。本文以短波测量数据为初始样本训练集进行预处理研究。

关键词：BP神经网络归一化处理降维处理

中图分类号：TP183 文献标识码：A 文章编号：1003-9082（2016）03-0008-01

BP神经网络是基于训练数据的建模，因此由神经网络建立起的模型能够精确反映实际预测情况[1]。本短波场强预测系统的测试训练数据是建立在已有短波资源仿真调度系统生成数据集基础上，因此，可对比网络学习模型预测输出值与期望输出值来判断网络适应能力。

一、输入输出变量的选择

由于BP神经网络的灵活扩展性以及快速自适应能力，使得其应用广泛。在最适网络选取阶段，根据模型传输损耗影响因素，做到相关性小甚至不相关，结合数据库提供数据，训练输入变量选取为：侦收位置（经纬度），信号位置（经纬度），信号功率，信号频率，侦收任务时间（月、日、时、分）。输出量即期望值为：场强中值，传输损耗。

二、归一化处理

1.基于最大最小样本值的线性归一化处理

该归一化数据处理方式是将相同输入变量（输出量）的样本进行预处理。其数学关系为：（1）

针对短波场强样本训练集，在原始数据的基础上进行线性归一化处理，而后进入网络仿真学习。本学习运算是在Matlab中运行采用标准梯度学习算法并以均方误差MSE作为性能参考。

2.基于标准差的归一化处理

因此归一化数据的数据区间大于[-1，1]。从而使得训练网络得到的性能参数MSE较大。为了能够得到适用于本系统的性能参数参考值，采取两者结合的归一化方法。

3.混合的归一化处理方法

该方法是在数据训练前期进行最大最小值线性归一化处理，将输入变量压缩至[-1，1]区间，而后在网络训练阶段采用标准差法处理数据。由MSE平均值可知，在网络内部运用标准差归一化法处理数据可以使训练时更加规整从而利于训练。

4.归一化方法分析比较

通过仿真实验，比较三种归一化方法的MSE，如表1：

在相同训练数据的情况下，以混合的归一化处理方法处理训练样本数据得到的MSE最小，因此在系统设计应用中选取混合归一化处理方法，对数据进行预处理。

三、降维处理

分析样本产生、样本变量因素（特别是时间因素）以及神经网络运算效率，若对短波传播损耗模型进行完全学习，由于样本集的过大导致学习过慢，训练精度也可能无法保证。因此提出对训练集的单个月份学习，模型预测针对网络学习所在月份任务进行预测。因此，选取训练样本集较完备的5月份进行训练学习。根据短波损耗模型，短波传播主要受电离层影响，而电离层区别主要存在于白天与黑夜的区分[2]，因此对时、分输入变量进行降维处理仅区分白天与黑夜。在神经网络预测实验中，对训练数据分析而后进行数据的概略区分，选取6：00至19：00为白天数据，以“1”表示，19：00至次日6：00为黑夜数据，以“2”表示。

在训练集经过归一化以及筛选降维处理后，对其进行神经网络学习，并分析其训练性能参数，以及其预测结果。下面针对5月份数据进行预测并与期望值进行对比，如表2：

通过对比可知，神经网络训练时，完备数据集是网络学习的关键，通过分析输入变量，进行合理性降维对提高网络训练效率提高训练精度也十分重要。

参考文献

[1] 朱凯，王正林等. 精通MATLAB神经网络[M] 北京：电子工业出版社， 2010.1.

[2] 罗佳，张文明，王雪松. 通信对抗中短波天波传输损耗的仿真建模[J]，计算机仿真，2007，8（24）.