基于在线学习的车辆经济自适应巡航控制

2021-12-27 06:48司明玉周金应褚观耀龙军程前

机械制造与自动化 2021年6期

司明玉，周金应，褚观耀，龙军，程前

(中国汽车工程研究院股份有限公司，重庆 401122)

0 引言

自适应巡航控制系统作为一种先进的驾驶辅助系统，可以实时控制自车与前车的距离，显著提高了道路车辆的行驶安全性，受到了广泛的关注。文献[1-2]研究了自适应巡航控制的经济性，采用基于动态规划的算法，兼顾了安全与节油。文献[3]提出了基于多目标优化的模型预测控制算法，以提高车辆跟随工况下的燃油经济性和跟随性能。文献[4]设计了一种鲁棒的自适应巡航控制器，用于改善车辆加速度和换挡策略，使车辆在不同交通状况下都能保持良好的燃油经济性，但由于换挡策略是离线设计的，无法保证发动机处于最佳工作点。文献[5-6]采用脉冲滑模控制方法，使发动机在高效率的区域工作，可有效降低车辆行驶时的燃油消耗。文献[7-8]将道路坡度和车距信息加入到控制系统，优化了车辆的加速度输出，可改善车辆的燃油经济性。

综上所述，针对自适应巡航控制的研究日益得到重视，但对于如何基于车辆的动力响应特性，实现安全与节油的协同控制并兼顾控制的最优性，还有待进一步研究。

本文以自适应巡航控制器为研究对象，在分析其结构与特性的基础上，提出一种基于在线学习的经济自适应巡航控制器，该控制器可以同时实现换挡控制和牵引力控制，以提高燃油经济性和行驶安全性。基于执行依赖启发式动态规划(ADHDP)方法得到车轮牵引力，控制车辆速度，确保安全行驶。通过设定换挡控制策略，调整发动机工作点，从而提高车辆的燃油经济性。

本文设计的经济自适应巡航控制器的主要优点有：1)所提出的控制方法是基于在线学习的，不依赖于车辆动力学模型，可以适应不同的行驶工况；2)将牵引力与换挡控制相结合，兼顾车辆的燃油经济性和行车安全性，可实现在线计算。

1 系统动力学建模

本文研究的汽车跟随过程如图1所示。vp和vh分别表示前车和自车速度，L为两车的实际距离，可以通过雷达传感器等测得。在跟随前车过程中，自车在自适应巡航控制器的作用下，保持期望的安全距离Ldes行驶。

图1 跟车工况

1.1 纵向动力学模型

自车的纵向动力学模型如式(1)所示。

(1)

其中：Ft是车轮的牵引力，当Ft<0时，表示其为制动力；ρ为空气密度；A为车身迎风面积；Cd为空气阻力系数；m为车辆质量；f为滚动阻力系数；α为路面坡度。

1.2 发动机模型

燃油消耗率如图2所示。燃油消耗率是发动机转矩Te和发动机转速ωe的非线性函数，可表示为

图2 燃油消耗率图

(2)

1.3 传动系统模型

自车采用自动机械传动(AMT)，将发动机转矩传递到车轮上，以满足行驶动力要求，发动机和车轮的速度和转矩关系分别由下式确定：

(3)

其中：ig为齿轮位置g对应的传动比；rw为车轮半径；ηg为传动效率。

AMT中的换挡策略决定了齿轮传动比，并以此调整发动机的工作点。为了避免跳跃式换挡所带来的车辆舒适性变差的问题，仅允许顺序换挡。设计的换挡策略根据上一时刻的齿轮位置g(t-1)来控制当前时间步长的齿轮位置g(t)，并且根据如下的动态模型来发出换挡指令：

g(t)=g(t-1)+ug(t)

(4)

其中：ug属于集合{-1，0，1}，-1表示下降，1表示上升，0表示保持不变。

在车辆跟随情况下，经济自适应巡航控制的目标有两个：最低燃油消耗率和为了保证安全行驶所需的期望车辆间距Ldes。车辆距离偏差定义为ΔL=L-Ldes，相对速度偏差定义为Δv=vp-vh，Ldes的表达式如下：

Ldes=τhvh+d0

(5)

其中：τh是采样时间间隔；d0是静止距离。

车辆距离偏差ΔL和相对速度偏差Δv的动态模型可以表示为：

(6)

其中ap是前车加速度。

通过车辆距离偏差和车速偏差来评价车辆跟车工况下的跟踪性能，为了改善燃油经济性和跟踪性能，设置目标函数为

(7)

其中Tcyc是车辆的行驶里程。

经济自适应巡航控制的最优问题是综合考虑经济和安全指标，求解控制变量u=[Ft，ug]T，使得目标函数式(7)最小。因此，设置如下的约束条件：

amin≤ah≤amax
ΔLmin≤ΔL≤ΔLmax
Δvmin≤Δv≤Δvmax
Te,min≤Te≤Te,max
ωe,min≤ωe≤ωe,max
ig∈{ig1，ig2，ig3，ig4，ig5}

(8)

2 经济自适应巡航控制器设计

本节介绍基于Actor-Critic结构的自适应动态规划(ADP)，并讨论其在经济自适应巡航控制中的应用。

2.1 ADP简述

ADP作为强化学习的一种主要变体，是一种基于学习的控制方法，它根据与环境的交互进行决策。

如图3所示的Actor-Critic结构，从Actor网络中可生成一个行为，并使用Critic网络进行评估，得到一个增强信号。通过最小化从Critic网络获得的值来改善控制策略。ADP通常可以在不依赖系统模型的情况下，在线近似地求解最优控制问题[9]。

图3 Action-Critic结构

设有如下非线性离散时间系统：

r(xt,ut)=r(xi,ut)+βV(xt+1)

(9)

其中：0<β<1；r(xi,ui)是根据控制输入ui和状态量xi得到的瞬时值。

ut=h(xt)的贝尔曼最优方程如下：

(10)

由式(10)可得

h*(xk)=argmin[r(xt,h(xt))+βV*(xt+1)]

(11)

1)Critic网络和在线学习

图4 Critic网络的结构

Critic网络的误差函数定义为估计值与实际值之间的误差，如下所示：

(12)

其中r(t)为外部增强信号。

Critic网络的学习目标是通过更新参数wc，使误差函数ec(t)最小化，如下所示：

(13)

基于链推导规则的梯度下降自适应算法可用于更新权重，得到修正的权重为[10]：

(14)

其中ηc(t)是Critic网络的学习速率。

2)Action网络与在线学习

(15)

Action网络的训练和Critic网络类似，其权重如下所示：

(16)

其中ηa(t)是Action网络的学习速率。

2.2 经济自适应巡航控制

经济自适应巡航控制的目标是保持与前车的安全距离，并且使相同时间内的燃油消耗最小。通过调整牵引力Ft来控制自车的速度，使其跟随前车安全行驶，并由最优换挡控制ug来调整发动机工作点，总体控制算法如图5所示。

图5 控制算法

假设已经测得车辆距离偏差ΔL和车速偏差Δv，在每个时间步长，可以从集合{-1,0,1}选择换挡指令ug。由式(3)和式(4)可得ug对应的发动机转矩和发动机转速。牵引力Ft可由Action网络中的ADHDP方法计算得到。

在学习过程开始时，Critic和Action网络的参数在[0,0.4]中随机选取。在每一个时间步长中，利用Critic网络对式(13)进行迭代。迭代停止判据为最大迭代次数Nc和容差Tc。如果迭代满足任意一个条件，则停止迭代过程，并从Critic网络中导出近似值函数。同理，利用Action网络对式(15)进行迭代，迭代停止判据为最大迭代次数Na和容差Ta，当满足任意一个条件时，停止迭代过程，并从Action网络中导出最优牵引力和换挡指令，最终应用于车辆。

3 仿真测试及有关分析

针对城市道路和高速公路的行驶场景，对所提出的控制方法进行了仿真。仿真参数如表1所示。

表1 仿真参数

3.1 城市道路循环工况仿真

针对城市道路循环工况(UDDS)进行了经济自适应巡航控制器的仿真。前300 s的仿真结果如图6所示，自车的速度曲线与前车的速度曲线非常接近，距离偏差保持在-2 m～2 m的范围内，这表明车辆具有良好的跟踪性能和安全性。车辆的加速度<2 m/s2，可保证良好的乘坐舒适性。

图6 城市道路循环工况(UDDS)仿真

与文献[11]中给出的基于规则控制策略产生的挡位相比，获得了更高的挡位，这有利于发动机燃油经济性。

UDDS工况仿真的燃油消耗量如表2所示。相比本文提出的换挡策略，基于规则的换挡控制方法的燃油消耗率要高出23.3%。另外，在仿真过程中，前车所消耗的燃油量比同一档位的自车多3.7%左右。由此表明，本文设计的经济自适应巡航控制器不仅能保证行车安全，而且能够提高燃油经济性。

表2 UDDS仿真燃油消耗量对比

3.2 高速公路燃油经济性测试仿真

高速公路燃油经济性测试(HWFET)工况前300 s仿真结果如图7所示。自车的速度可以很好地跟随前车的速度，使得车距偏差的变化范围很小，并保持安全行车所需的车辆间距。

图7 HWFET仿真

车辆行驶过程中，加速度始终处于小范围内，因此可保证车辆具有良好的舒适性。相对于基于规则的控制策略，本文所提出的换挡方案能够产生更高的挡位调节发动机工作点，从而改善车辆的燃油经济性。

表3给出了高速公路燃油经济性测试的仿真燃油消耗量。基于规则的控制方案燃油消耗比本文所提出的换挡策略高3.8%，并且，与相同换挡控制的前车相比，自车的燃油消耗少0.7%。

表3 HWFET仿真燃油消耗量对比

4 结语

本文基于车辆纵向动力学特性分析与辨识，设计了一种兼顾安全与节油的车辆经济自适应巡航控制器。采用执行依赖启发式动态规划(ADHDP)方法控制车轮的牵引力，实现跟车功能。通过设置在线换挡策略来调整发动机工作点，从而改善车辆的燃油经济性。通过仿真对比，验证了系统的有效性，得出如下结论：

1)基于在线学习的经济自适应巡航控制器，能在保证安全跟车的前提下，改善车辆的燃油经济性。仿真结果表明，该控制器实现了车辆的安全与节油的协同优化。

2)设计的控制器无需模型，通过在线计算可以适应不同的行驶工况，在兼顾最优性的同时，能够保证控制的实时性。