面向多目标参数整定的协同深度强化学习方法

2022-09-17 07:10罗森林魏继勋刘晓双潘丽敏

北京理工大学学报 2022年9期

罗森林，魏继勋，刘晓双，潘丽敏

（北京理工大学信息与电子学院, 北京 100081）

现代自动化系统中，广泛使用PID、自抗扰控制等算法[1-2]实现系统在不同环境下的高效、稳定运行.此类控制算法的参数需要专家基于规则或经验在运行现场反复调试[3]，整定过程耗时长且包含大量重复工作. 强化学习方法[4]可将整定过程近似为控制目标优化问题[5]，在一定程度上代替专家，自主完成参数整定.

实际的参数整定任务常包含多个存在矛盾的控制目标[6]，例如列车自动驾驶系统的停车误差、舒适度，锅炉温控系统的上升时间、超调量等. 此类任务中一个目标减小时，与之冲突的目标将增大，呈现矛盾关系. 多数强化学习方法侧重于优化单一目标. 为实现多目标优化，其处理方式为依据目标间的矛盾关系及对目标的偏好程度，将各目标加权线性组合[7-8]，利用所得的全局单一目标建立单智能体. 实际在线应用时，因系统本身的复杂特性和运行环境的不确定，目标间关系随系统性能及运行环境改变而发生变化，矛盾将减小、增大甚至消失，与先验存在偏差.此时，智能体仅学习到了固定的调参知识，依旧按照预设的权重优化目标[9]，无法在矛盾关系变化时做出自适应性调整并探索可能存在的最优解，导致整定效果不理想.

针对上述问题，提出一种面向多目标参数整定的协同深度强化学习方法. 方法将整定过程转化为离线单目标整定学习及在线多目标感知强化两个阶段. 离线阶段针对单一目标设计奖励、调参动作，应用Double-DQN 建立多个面向单一目标的智能体；离线阶段，建立整定效果反馈，从反馈中感知目标关系变化情况，同时对各智能体添加动态权重，自适应调节智能体协同策略，使其根据目标关系的变化调整对目标的优化程度，提升所有目标的参数整定效果.列车自动驾驶系统参数整定实验结果表明，本方法与单智能体的方法相比，能够适应不同的车轨性能差异，提升停车误差、舒适度两个目标的参数整定效果.

1 相关工作

多目标控制参数整定方法有经典控制理论方法、基于启发式算法的方法、结合机器学习的方法[1]等.经典控制理论方法通过推导系统模型确定最优参数，但复杂系统建模困难；基于启发式算法的方法[10]，如NSGA-Ⅱ、MOPSO 等，在参数空间中搜索可行的解集，但算法时效性不理想；结合机器学习的方法，如模糊神经网络[11]，构建环境与参数的映射，通过感知环境状态信息输出最优参数，但在环境非平稳时学习能力弱.

强化学习通过与环境交互积累知识，可以在无系统模型的条件下通过环境反馈快速调参. 李金娜等[12]使用Q 算法进行无模型系统的最优控制，祝亢等[13]使用深度确定性策略梯度算法进行船舶航向参数调整，甄岩等[14]用深度Q 网络方法进行飞行器制导的参数整定. 但这些方法对多个优化目标的处理方式是将目标加权组合或排除冲突目标，虽然降低了问题复杂度，但必须建立先验假设以对目标做出权衡[6]，实际所得结果往往是次优，甚至难以满足任务要求. 因此，提出一种面向多目标的多智能体协同深度强化学方法.

2 算法原理

所提方法分为离线单目标整定学习和在线多目标感知强化两个阶段，离线单目标整定学习阶段，针对单目标进行特征提取，使用DNN 网络学习调参知识，训练多个智能体；在线多目标感知强化阶段，从运行特征中感知整定效果，根据运行效果自适应调节智能体权重，协同优化多个目标，得到整定控制参数并持续优化. 图1 表示所提方法的原理框架.

图1 方法原理框架Fig. 1 Principle framework of the proposed method

2.1 系统运行环境

系统运行环境为智能体提供状态特征信息. 如图2 所示，可调参控制器控制受控对象，受控对象与运行环境交互并输出实际值. 智能体的调参过程便是感知与实际值相关的状态特征信息，调整控制参数，使实际值满足系统运行需求，数学描述如式（1）所示.

图2 系统运行环境Fig. 2 The system operating environment

2.2 单目标整定学习

离线阶段使用随机控制参数初始化系统运行仿真环境，应用Double-DQN 构建多个智能体. 每个智能体对应一个控制目标，以环境状态特征信息为输入，调参动作为输出，在有限次的“感知-调参”循环中学习最优参数整定策略 π(s). 每次循环，智能体感知状态St，执行调参动作At，环境转移至下一个状态St+1，并给予智能体收益Rt+1. 最优策略下，多次循环的累计收益最大. 收益是根据实际值设置的正值奖励或负值惩罚，当实际值接近目标值时给予奖励，远离时给予惩罚，实际值满足约束条件时给予大额奖励. 动作指对控制参数进行不同幅度的增减.

Double-DQN 算法是一种深度强化学习模型，可以避免过估计问题对性能的损耗，有效加快训练速度[15-17]. 算法以价值函数Q(s,a)为学习对象，并用深度神经网络逼近，原理如图3 所示. 训练时每次从经验池中随机选取样本＜St,At,Rt+1,St+1＞以公式（2）为损失函数，使用随机梯度下降法（SGD）更新DNN 参数.

图3 Double-DQN 算法原理Fig. 3 Principle of the Double-DQN method

2.3 多目标感知强化

在线阶段各智能体嵌入自动化系统中，对初始控制参数进行调整，使用动态权重自适应目标关系变化，在系统整个生命周期中进行持续优化. 随系统自身性能变化以及运行环境改变，目标间的关系充满不确定性. 参数整定过程中，多个目标的增减情况一致时，各智能体优化各自目标，可使所有目标共同减小；不一致时，智能体需优先保证重要目标的优化效果，同时减小对冲突目标的优化.

使用权重wm体现目标的重要程度，wm位于[0,1]之间，数值越大表示目标越重要. 多个目标加权联合，作为参数整定的全局目标，如式（4）所示.

fm(x)是随控制参数变化而改变的连续函数，当参数小幅度变化时，目标函数值在小范围内波动. 对各智能体添加代表智能体对目标的关注程度的权重.权重为0 时智能体将不再改变控制参数，也不再对目标进行优化. 智能体与目标共享相同的权重，使关注程度与重要程度保持一致. 将所有智能体的策略联合，使用联合策略对全局目标进行优化，公式为

各智能体受权重控制，优先关注重要目标. 由于冲突存在，低权重目标优化效果较差，重要目标达到最优时，其他目标仍有优化空间. 因此，在优化过程中，根据目标间关系的变化情况，对非重要目标的权重进行动态调整，调整方式如下：当非重要目标未满足约束条件时，每次目标值增大将增加权重wm=wm+λ ， 0 ＜λ ＜1，使其在全局目标中重要程度升高，联合策略对其关注程度加重；满足约束条件时，每次目标值增大将减少权重wm=wm-λ，使得其重要程度减少，联合策略减少关注程度，避免影响重要目标的优化效果；如果目标值减小，则权重维持不变. 重要目标的权重保持不变，保证其在整个调参过程中的优化效果；非重要目标的权重始终保持在 [0,1]之间，在原有的优化效果上进行小幅度调整. 通过动态权重调整，改变对各目标的优化顺序，在不断变化的多目标关系间寻求最优解.

3 实验分析

3.1 实验目的

为验证提出的多智能体协同方法对多目标参数整定的提升效果，进行列车自动驾驶系统（automatic train operation）参数整定实验，并与Q、DQN、Double-DQN 单智能体方法进行比较. 实验通过调整3 个控制参数优化舒适度、停车误差两个不定矛盾目标，停车误差具有高优先级. 单智能体方法利用线性组合后的全局目标进行参数整定.

3.2 实验环境

列车自动驾驶参数整定实验环境为利用某地铁轨道电子地图、列车性能数据、专家知识建立的车辆运行状态仿真环境，由自动驾驶系统、列车、运行线路构成. 自动驾驶系统实时控制列车在发车、提速、巡航、减速、停靠等过程中的运行速度. 速度控制有PID、速度追赶、专家策略等多种控制策略. 自动驾驶系统需要在列车运行的不同阶段适时切换不同的控速策略，以实现列车稳速舒适运行及在停车站点精准停车. 策略切换点由转换参数控制，部分参数需要根据列车性能、运行线路、运行需求定期重调.

实验环境可正确响应参数改变所带来的运行效果变化，且对一组确定的参数，其仿真结果与真实列车运行结果相似. 环境的输入为待整定参数，输出为轨道线路上列车在各站点间的运行效果. 运行效果包括：停车误差、控速策略转换时列车速度表现、实际速度曲线与理想速度曲线差异、列车制动表现等.环境的状态特征为运行效果的量化.

生成仿真列车时，对列车添加随机性能噪声，使各列车性能不同；列车仿真运行时，对列车的制动力进行随机增减，使环境对列车的作用效果不断变化.通过两个随机过程，模拟车轨性能不断发生变化的真实环境.

3.3 评价指标

使用停车误差f1(x)及舒适度f2(x)评价参数整定效果.

停车误差f1(x)=e，通过传感器直接获取，指车厢门与屏蔽门或等候线对齐时的偏移量，表示列车能否精确停靠在站台指定停车点.

列车运行过程中速度v(t)随时间变化，舒适度f2(x) 为列车实际速度曲线va(t)与理想速度曲线vi(t)的差异，如公式(6)所示.

根据列车运行要求，停车误差绝对值小于30 cm、舒适度小于500，列车可正常运行.

3.4 实验过程

在列车自动驾驶系统控制参数调整任务上，将所提方法与Q、DQN、Double-DQN 单智能方法进行比较，单智能体方法以采用不同权重组合后的全局目标函数为学习、优化对象.

多智能体协同方法分别对目标函数f1(x)及f2(x)构建智能体. 智能体的深度神经网络含有3 个隐藏层，每个隐藏层有128 个神经元，层与层之间使用线性整流函数（RLU）作为激活函数. 单目标整定学习时，min-max 标准化处理已量化的环境状态，使用Adam算法更新神经网络参数. 多目标感知强化时，设置重要目标f1(x)的权重为1，非重要目标f2(x)的权重为0.5，权重变化系数 λ=0.05.

单智能体方法对各个目标设置权重，利用线性组合后的全局目标进行整定策略学习，将停车误差f1(x)奖励权重设置为1，舒适度f2(x)奖励权重分别设置为1、0.5、0.1，每种方法对应3 组权重. 智能体的网络结构与多智能体协同方法相同.

各智能体整定策略学习时的超参数设置如表1所示，其中 ε随Episodes 线性减小，从 εstart减少至 εend.

表1 实验方法超参数Tab. 1 Hyperparameters of experimental methods

3.5 实验结果及分析

随机选取100 组初始参数进行整定效果验证，每组参数对应一辆不同性能的列车，整定次数限定为100 次. 将均值作为最终结果，如表2 所示.

由表2 结果可知，（1）本文的协同方法在不同车轨性能下对停车误差、舒适度优化结果的均值分别为21.89、281.081，满足停车误差绝对值小于30 cm、舒适度小于500 的运行需求. 而单智能体方法，舒适度指标最低为653.38，无法满足运行需求. （2）单智能体方法，随舒适度权值升高，舒适度的结果值减小，但始终未达目标要求. （3）本文方法的停车误差结果为21.892 cm，大于Q-learn 方法的18.175 cm，但在舒适度指标上的结果远小于Q-Learn 方法.

这些结果表明，（1）多智能体协同方法优于其他单智能体方法，具备根据实际情况自适应调节目标优化效果的能力，可嵌入自动化系统中进行持续优化. （2）单智能体方法中，调节目标的权重可以改变对目标的优化效果，但目标线性加权组合的方式无法表达不同环境下目标间的复杂关系，难以引导智能体使两个目标同时达到最优. （3）本文方法在多目标协同阶段动态改变对目标的关注度，在一定程度上以牺牲重要目标的效果为代价，使其他目标得到优化.

为进一步说明多智能体协同方法的优异性，图4展示了参数整定过程中各目标值随调参次数的变化情况对比. 其中，图4(a)(b)为相同车轨性能下本方法与单智能体Double-DQN 方法的对比，图4(c)(d)另一车轨性能环境下的过程对比.

由图4 可知，多智能体协同方法能够在100 次内使双目标下降到最低点，并在满足约束条件的基础上，进行持续优化，同时适用于不同的车轨性能. 而单智能体方法难以适应动态的目标关系，整定效果不理想.

图4 参数整定过程对比Fig. 4 Comparison of parameter-tuning process

综上所述，所提方法可以通过关注参数整定过程中目标关系的变化，自适应调整对目标的优化程度，改变目标优化顺序，在满足列车运行要求前提下，提升控制参数整定的效果，具有平稳、快速、持续的优化性能.

4 结论

本文提出了一种面向多目标参数整定的协同深度学习方法，应用于自动化系统的参数整定. 方法包含离线单目标整定学习及在线多目标感知强化两个阶段，离线阶段应用Double-DQN 构建多个可实现单目标参数自整定的智能体，在线阶段使用动态权重机制进行多智能体多目标参数自动化调整，在满足约束条件下对多个目标进行持续优化. 列车自动驾驶参数整定实验中，针对停车误差、舒适度两个控制目标进行参数整定，并与单智能体方法对比. 结果表明所提方法应用效果良好，可以自适应不同车轨性能且持续优化，满足实际列车运行需求，具备解决多目标参数整定问题的能力. 未来将进一步研究多智能体与多目标的交互问题，以期达到更优的整定效果.