基于改进深度强化学习的电动汽车充换电站调度技术

2022-07-04 01:02胡勇

电子测试 2022年10期

胡勇

（许继电气股份有限公司，河南许昌，461000）

0 引言

近些年来，随着新能源技术的不断发展，节能型汽车逐渐受到越来越多的关注，在其发展进程中，电动汽车以及油电混合汽车成为了未来主要的发展趋势。与此同时，电力负荷中所占比例的增加要求相应的配套设施也要不断优化[1]。其中，充换电站(batteryswappingstation,BSS)作为电动汽车能源补给的主要方式，对其进行合理调度对于提高电动汽车应用具有重要意义[2]。为此，不少学者也开展了相关研究，其中，王生生等人利用群智能算法对充换电站调度进行研究，通过模拟自然界生物种群的社会行为，随机搜索方法可行的调度方案，有效解决了调度研究中的最优化问题，实现了对换电站资源的有效调度，但其在寻优过程中受数据基础的影响，容易出现局部最优的情况，进而影响作用的调度结果[3-4]；在对充换电站调度问题进行研究时，需要注意电池自身的充电损伤问题，由于每块电池由于充电方式以及充电频率，耗电速度均不同，这些都对调度决策变量的构建有直接影响，在最小化电池充电损坏的基础上，如何实现促进充换电站稳定运行，减小其存在的运行风险是充换电站调度研究中需要关注的重点[5-7]。

基于此，本文提出基于改进强化深度学习的电动汽车充换电站调度技术研究，并通过试验测试验证了设计方法的有效性。通过本文的研究，以期为提高充换电站调度的合理性带来帮助，为充换电站的合理布局提供参考价值。

1 基于改进深度强化学习的电动汽车充换电站调度

1.1 基于LSTM的充换电站需求响应模型

为了实现对充换电的合理调度，首先要分析其现有的对充换电的需求响应，为此，本文利用LSTM(LongShort-TermMemory，长短期记忆网络)构建了充换电站需求响应模型。这种深度强化学习算法是通过在所有可选用方案中不断“试错”，在不断训练中选择出最优的方案[8]。本文建立的充换电站响应行为模型是根据充换电站实际响应行为的特点，结合深度学习算法，以充换电站用户侧构建基于LSTM的充换电站响应网模型[9]。由于充换电站响应模型的可靠性与充换电站调度行为需求预测结果的准确性之间有着密不可分的关联，因此，本文采用深度强化学习的方式对模型的参数进行训练，通过这样的方式提高最终充换电站调度的综合决策结果的有效性[10]。考虑到基于LSTM构建的充换电站响应模型的可靠性主要受请求规模以及需求资源种类影响，本文在现有经验的基础上，对LSTM模型预测准确率进行了校验。

首先，以一个二次函数近似表示需求响应充换电站的响应行为的效益，则充换电站响应模型可以表示方式为

其中，F（x）表示充换电站的响应成本；x表示用户的实际响应量；λ和γ分别表示不定参数，该参数值以实际充电需求为基准，因此，当提出充换电的电动汽车不同、请求提出时段不同时，λ和γ的取值结果都会发生相应的变化，而二者的变化也决定着可调度资源的规模。

在对充换电站响应行为的学习过程中，本文设置λ和γ以0.25为方差，呈正态分布，且正态分布的期望中心各不相同。以此为基础，在该分布范围内随机取值。此时在搜索最优调度方案的过程中，容易出现跨过空间可行域，导致最终的搜索结果超出可行域，此时得到的结果需要重新进行初始化，为了降低该类问题，本文设置了搜索区间的边界位置。首先，将超出边界的结果采用对立点搜索方法在搜索区间重新进行初始化，以竞争机制为基础保留较优结果，其表示方式为

其中，la和lb分别表示搜索的上限和下限，F’（x）为F（x）的对立结果，通过这样的方式，得到最优的充换电站需求响应方案。

1.2 电动汽车充换电站调度

在得到可靠的充换电站需求响应方案后，即可根据实际情况对电动汽车充换电站资源进行调度。对此，本文主要分2步进行，首先将充换电请求与电动汽车充换电站进行匹配，其次，根据匹配结果下发与该目标请求相匹配的激励。但是，值得注意的是，如果将这两个步骤分别罗列进行会造成动作空间增大，为此本文将上述两步动作进行了分解处理。将单次需求响应请求拆分成若干个步骤。电动汽车充换电站每次只可选择一个请求，并对其下属的资源分发激励，直至资源储备的响应量与请求的需求量匹配，或资源储备量超过请求所需的最大响应量。有考虑到由于请求数量是不稳定的，可能会在短时间内出现大幅度的增加，为此，本文采用卷积神经网络实现对电动汽车充换电站调度的寻优。

在电动汽车充换电站内部，资源的调度实质上是状态到动作奖励值之间的一种映射。充换电站通过聚合电动汽车参与充换电站的不同业务，从资源交换中获得利润P，此时对应完成的任务量为n，第i次资源的激励为Ii，请求的响应量为xi，则每次调度动作的奖励值ci可表示为

在此基础上，从时间的角度对请求的用电量以及充换电站的响应行为进行分析，不难看出二者是存在一定关联性的，因此，本文调用了每个请求的边缘需求资源，在每次需求响应业务开展时，充换电站首先根据历史数据对不同请求的响应模型进行训练，以高置信度为标准，针对每一个请求形成响应模型，以此为基础的调度方式如下。

首先，对经验池进行初始化处理，采用随机值初始化的方式将请求选择价值函数表与权重初始化值之间建立映射关系，此时的调度动作价值函数与初始化的请求目标动作价值函数是以关联的形式存在的，当充换电站接收到需求响应业务时，基于LSTM的需求响应模型在初始化的接收激励方案中选择状态值与实际调度需求一致的方案，并将对应的激励量传送给电站需求的LSTM模型。以此为基础，观察电站需求的响应情况，确定下一时刻状态并及奖励值，其计算方式为

其中，yi表示调度量，τ表示更新请求状态矩阵中其接受的激励量最大浮动量。通过这样的方式，实现对电动汽车充换电站的调度。

2 算例与实验分析

将本文提出的基于改进深度强化学习的电动汽车充换电站调度技术进行测试分析，采用Matlab2019作为仿真实验测试的环境。

2.1 实验数据

实验所用的数据是在现实场景的基础上进行提取的，通过全景模拟电动汽车充换电站的运行数据，计算得出最终的实验数据。其中，本文的模拟对象为某300m2的充换电站，采集了该充换电站100天内的负荷数据，通过模拟仿真的方式，计算得到该区域的负荷曲线，并将其作为实验算例。其中，（假设该充换电站每天提供服务的汽车规模为100辆，此时换电站电池充电功率、负荷数据综合实际数据的均值），以此为基础，得到的原始负荷曲线如图1所示。

图1 充换电站原始负荷曲线

以此为基础，分别采用文献[4]、文献[5]以及本文提出的方法对其进行调度，并同样采用仿真模拟的方式对调度后的负荷曲线进行计算。

2.2 实验结果

在上述基础上，对比了三种方法的调度结果，得到了负荷曲线结果如图2所示。

图2 调度后充换电站负荷曲线

从图2中可以看出，以文献[4]和文献[5]方法相比，在本文提出的调度方法下，电动汽车充换电站的负荷处于相对稳定的状态，未出现明显的超负荷情况，且随着充电需求车辆的增加，其负荷曲线的变化趋势相对稳性；而文献[4]和文献[5]方法的调度结果中，对于充电请求小于100的情况，可以实现对负荷的有效控制，但是当充电请求大于100时，均出现了不同程度的超负荷情况。表明本文提出的电动汽车充换电站调度具有良好的应用价值。这是因为本文在对调度需求进行计算时，构建了边界反弹机制，增加了求解方案的合理性，提高了算法寻优的可靠性。

3 结束语

电动汽车的发展不仅对于全球环境的保护具有重要意义，也是适应现阶段能源紧缺大环境的重要举措。基于此，电动汽车未来的发展空间是不可限量的。未来促进其健康发展，对于其配套设施的建设必须受到重视。充换电站作为电动汽车能源供应的主要方式，对于进行合理调度是确保电动汽车运行的重要基础。本文提出基于改进深度强化学习的电动汽车充换电站调度技术，实现了对负荷的有效控制，确保负荷曲线处于相对稳定的状态，不会由于充换电请求的改变而出现超负荷情况。