基于特征优化的BP神经网络在电动汽车价格上的预测研究

2020-07-02 11:57刘佳丽赵小敏
福建质量管理 2020年12期
关键词:关联度电动汽车标准化

刘佳丽 赵小敏

(南通大学交通与土木工程学院 江苏 南通 226019)

一、引言

(一)背景及意义

随着可持续化发展得到大力倡导,21世纪在汽车领域发展的终点将结合环境问题、能源问题和交通拥堵问题来进行研究,整个汽车行行业的发展将呈现出节能化、智能化、信息化的局面。新能源汽车中,纯电动车的发展前景十分广阔,优势明显。随着电动汽车的推广,许多消费者开始将目光转入购买电动汽车以取代传统的燃油汽车,这时候建立一套电动车价格预测模型显得尤为重要,以便于消费者以科学的标准去了解电动汽车的定价。文中首先对所给的电动车数据集进行数据预处理,筛选数据中需要修改和剔除的数据,并将数据进行归一化和特征值筛选等数据处理工作,随后建立BP神经网络对处理后的数据进行数据训练,通过确定最优的模型参数对模型进行调试,然后对所给的未知价格的电动车数据进行价格预测,并给出结果。

(二)价格预测模型研究现状

目前所有的价格预测模型中,大体分为两类价格预测模型,分别为时序价格模型和非时序价格模型。时序价格模型的主要特点是商品的价格随着时间进行着波动,比如苹果价格的预测,此类商品的价格随着时间具有较大的波动变化,刘斌[1]在针对传统的农产品价格模型无法对苹果市场的价格波动进行预测的问题,提出了一种基于分布式神经网络的苹果价格预测模型;随着时间进行变化的还有房产价格的变化,赵泰[2]以青岛市近8年商品房销售价格为基础,通过建立GM(1,1)模型预测商品房价格走向,对房地产市场的宏观调控及工作的开展有着重大意义。非时序价格模型的主要特点是价格的定价主要是受制于其自身的特征相关,比如原材料、成本、具有的功能等,刘蕾[3]在分析顾客需求与销售商策略间基本关系的基础上,从期望销售利润最大化的角度,构建了销售商的最优定价模型;梁肖裕[4]通过对多元回归定价模型进行检验,使用SVM支持向量机解决平台中的任务合理定价问题。

目前主流的神经网络预测模型有许多,例如RNN,LSTM,BP,GRU等等,由于本题的主要目的是根据电动汽车的商品参数确定其价格登记,与时间序列无关因此LSTM、GRU等模型并不合适,并且其参数为一维数组,相邻的参数之间并不存在特殊联系,因此RNN等模型也不合适,所以我们采用BP神经网络进行电动汽车价格预测。

二、BP神经网络

(一)模型原理

BP神经网络(Back Propagation Neural Network)是一种使用误差逆传播算法进行训练、测试、仿真的多层前馈神经网络,是当前在研究和科学应用中较为广泛的神经网络模型之一[7]。BP神经网络可以对采集的数据样本进行非线性函数关系映射,对信息处理具有自组织、自学习、知识推理等特点,对非确定规律性系统具有自适应特征,通过建立的映射关系揭示其内在规律、特征。

BP神经网络的学习训练和建模规则是使用最速下降算法,通过误差反馈的反向传播从而不断调整BP神经网络各层神经元的权值和阈值,使得BP神经网络的均方误差最小。在前向传播过程中,输入信号从输入层经隐含层逐层处理,直至输出层,产生输出信号,每一层的神经元状态只影响下一层的神经元状态;若输出信号不能满足期望输出要求,则转入误差反向传播过程,根据预测误差从输出层开始到输入层,不断修正网络的权值和阀值,从而使BP 神经网络的预测输出不断逼近期望输出。

BP神经网络的模型结构包括:输入层(input)、隐藏层(hide layer)和输出层(output layer)。标准的BP神经网络模型结构如图1所示。BP神经网络的每一层的预测公式为O=IW+B其中O为该层的输出,I为输入函数,W为模型的参数矩阵,B为模型的参数偏置。

图1 标准的BP神经网络模型结构

(二)BP神经网络在价格预测中的应用

针对电动汽车价格预测模型表现出来的非时序的特点,通过对电动汽车的不同特征进行筛选,研究BP神经网络在价格预测中的应用。BP 神经网络是一种复杂的智能信息处理技术,有着强大的非线性处理能力,也有着良好的自组织性、适应性以及学习能力和抗干扰能力,非常擅长处理非线性复杂问题,并且它能发挥训练速度快的优势,能自动从历史数据中提取有关活动的信息,可以克服传统定量预测方法的许多局限和困难,同时能避免人为的影响,因而为电动汽车的价格建模和预测提供了很好方法,预测准确率比传统统计方法高。黄山[5]基于BP神经网络的随机信号预测方法,利用三种国际货币汇率价格的历史数据作为参考,对未来汇率价格进行短期预测;孙婷婷[6]基于特征选择方法提取影响房价变化的典型经济要素;然后针对房价要素特点构建BP网络模型,通过已有数据对BP神经网络模型进行深度训练和校验,预测房屋价格的走势。

(三)预测流程

通过建立BP神经网络模型对电动汽车价格进行预测,首先需要对数据进行数据预处理,筛选出有效特征值,并对数据进行归一化处理,将处理完的数据用于数据模型训练。BP神经网络模型在进行预测前需要进行模型的训练,将文中所给的电动车的数据进行划分,分为训练集和测试集,训练集的数据用来对模型进行训练,测试集的数据用来对模型的训练效果进行测试,通过数据的训练可以使网络具备联想记忆和预测能力。图2所示的是具体算法流程图。

图2 算法流程图

三、电动汽车价格预测模型

(一)数据来源

通过结合某品牌电动汽车给出了不同规格的电动车属性与价格数据建立价格预测模型进行分析,该数据集中存在已知价格的训练数据和未知价格的预测数据,通过建立预测模型挖掘属性与价格之间的关系预测这批未知价格电动车的价格。

(二)数据处理及评价标准

1.回归特征筛选

特征选择(Feature Selection)也称特征子集选择(Feature Subset Selection,FSS),或属性选择(Attribute Selection)。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。

灰色关联度分析是一种多因素统计分析法,主要根据各因素变化曲线几何形状的相似度来判断因素之间的关联度大小,在进行分析时需要比较研究对象与待识别对象之间的曲线贴近程度,并分别量化,计算出研究对象与待识别对象之间的关联度,进而通过比较各关联度的大小来判断待识别对象对研究对象的影响程度[8]。简单来说,当对某个系统进行灰色关联度分析时,先要确定使用的关联度模型,选好参考序列、比较序列,然后计算关联度,最后按关联度的大小进行排序和分析并得出结论。为进一步剖析电动汽车价格与其影响因素之间的相关性,选取价格为参考序列,feat(1-20)为比较序列,并利用灰色关联度分析法计算各比较序列与参考序列之间的关联度,各特征之间的关联度分析表见图3。为了更直观的展现电动汽车各特征指标与price之间的关联度,我们将第20列数据单独取出,并按影响因素从大到小排序生成图4的灰色关联度特征值筛选图。

图3 各指标之间的影响程度

图4 各指标对价格的影响程度

发现数据集所给的20个指标中第14个指标“以兆字节为单位的随机存取存储器”对price的影响程度最高为0.81,其余指标对price的影响均在0.6左右均不可忽略,因此通过该节的分析,将使用全部的20个指标对price进行价格预测。

2.标准化处理

图5 未做标准化的训练过程

在对数据进行预测之前,首先对数据进行标准化处理,在深度学习领域中,不同数据特征评价指标往往具有不同的量纲和量纲单位,这种情况会影响到数据预测的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理。图5展示的是未做标准化的训练过程,可以看出,由于数据的量纲差距过大,导致训练过程不收敛,因此标准化处理必不可少。

目前最常用的是Min-Max标准化和Z-Score标准化。Min-Max标准化又称0-1标准化(0-1 Normalization)/ 线性函数标准化 / 离差标准化是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。图6展示的是标准化处理后的训练过程,很明显进行标准化处理之后训练的效果得到了极大的改善。但这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

图6 max-min标准化的训练过程

Z标准化也叫标准差标准化,是SPSS中最为常用的标准化方法,SPSS默认的标准化方法就是Z-Score标准化。这种方法给予原始数据的均值(Mean)和标准差(Standard Deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:

其中μ为所有样本数据的均值,σ为所有样本数据的标准差。Z-Score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。该种标准化方式要求原始数据的分布可以近似为高斯分布,否则标准化的效果会变得很糟糕。图7展示Z标准化下的训练效果。

图7 Z-Score标准化的训练过程

由于本题中会新加入测试集的数据,会导致样本部分指标的max值和min值产生波动所以并不适用于Max-Min标准化,并且Z-score标准化后收敛后的准确率也更高,我们采用Z-score对数据进行标准化处理。

(三)参数选取

一般来说,训练BP神经网络模型靠增加隐层节点数来获得较低的误差的训练效果,要比通过增加隐层数来降低误差更容易实现[9-10]。因此在本文构建的神经网络中只考虑3层网络(即只有1个隐藏层)的网络进行训练,下面我们将讨论激活函数以及隐藏层个数的选取。

1.激活函数选取

目前常用的激活函数有Sigmod、Tanh、Softmax、Relu等,由于本题的输出结果共分为0、1、2、3四类,属于多分类问题,因此从隐藏层到输出层的激活函数选用Softmax。当输出总共有n类时,第j类的概率为:

Sigmod函数常用与隐藏层的输出,在特征相差比较复杂的情况下效果比较好因此,我们选用Sigmod函数作为隐藏层到输入层的激活函数。Sigmod函数为:

图8 Sigmod函数图

2.隐藏层元素个数以及训练次数选取

将隐藏层元素的个数分别设置为5个,10个,15个以及20个训练次数设置为2000次分别进行训练,其准确率(ACC)随训练次数的变化如下由于中间部分过于一致,将从前200次以及拟合之后的情况进行讨论。通过训练发现在隐藏层元素不同的情况下收敛的速度相近,大约都在150次之后收敛,大约在800次左右收敛稳定,训练的效果无法再继续提升,收敛稳定之后的准确率也相近,均稳定在97%到99%之间,隐藏层元素个数为10的情况下收敛后的准确率最高,因此将隐藏层元素的个数定位10个,训练次数定为800次。

图9 前200次训练过程

图10 拟合后的训练结果

(四)预测结果及分析

将上节中确定的参数以及训练模型进行训练,最终训练的过程如图11所示,训练效果如图12所示,部分预测结果如表1所示。采用R-Square作为训练效果的评价指标,预测的准确率约为98%,并与LSTM模型进行比较,表2展示的是预测对比情况。

图11 最终训练的训练过程

图12 训练效果

表1 部分预测结果

序号idPredict_priceTrue_price0150111115020021503113150401415051051506116150733

表2 预测结果评价

四、结论

通过对某品牌电动汽车所给的不同规格的电动汽车属性和价格数据进行数据分析与模型搭建,构建了一套用于电动汽车价格预测的BP神经网络模型。首先对BP网络模型在价格预测中的适用性情况进行了分析,确定了BP神经网络模型在电动汽车价格预测中具有良好的适用性。随后对原始数据进行灰色关联度分析,进行关键特征值筛选,通过分析得出,在给出的数据集中,20个特征值都具有一定的权重影响因子,对模型的最终预测结果都有相应的作用。随后将特征值筛选后的数据进行归一化处理,并搭建BP神经网络价格预测模型对价格未知的数据集进行预测,通过最后的数据拟合情况和预测成功率为98%。可知,基于特征优化的BP神经网络在电动车价格预测上具有很好的实用性。

猜你喜欢
关联度电动汽车标准化
标准化简述
纯电动汽车学习入门(二)——纯电动汽车概述(下)
中国制造业产业关联度分析
中国制造业产业关联度分析
电动汽车
沉香挥发性成分与其抗肿瘤活性的灰色关联度分析
标准化是综合交通运输的保障——解读《交通运输标准化体系》
现在可以入手的电动汽车
论汽车维修诊断标准化(上)
专注:电动汽车背后的技术创新