基于神经网络状态估计器的高速AUV强化学习控制

2022-05-12 12:08郭可建林晓波郝程鹏侯朝焕
水下无人系统学报 2022年2期
关键词:姿态控制器神经网络

郭可建,林晓波,郝程鹏,侯朝焕

(1.中国科学院大学 集成电路学院,北京,100049;2.中国科学院 声学研究所,北京,100190)

基于神经网络状态估计器的高速AUV强化学习控制

郭可建1,2,林晓波2,郝程鹏2,侯朝焕2

(1.中国科学院大学 集成电路学院,北京,100049;2.中国科学院 声学研究所,北京,100190)

随着海洋研究与开发的日益扩大,高速自主水下航行器(AUV)作为重要的无人水下工作平台受到广泛关注。然而由于其模型具有多输入多输出、强耦合欠驱动以及强非线性特性,因此依赖精确模型的传统控制方法在实际应用中常受到限制。针对此问题,文中提出一种不依赖精确模型的强化学习位姿控制器,该控制器通过姿态环和位置环的配合不仅可以实现高速AUV的快速姿态稳定,还可以更快地完成下潜到指定深度的动作;同时,为了降低获取用于训练强化学习控制器数据的成本,结合神经网络技术提出了一种改进的高速AUV状态估计器,该估计器可以在已知当前时刻AUV的状态以及所受控制量的情况下估计出下一时刻的状态,从而为强化学习控制方法提供大量的训练数据。仿真实验结果表明,估计器达到了较高的估计精度,基于神经网络状态估计器训练得到的强化学习控制器可以完成原AUV的平稳快速控制,从而验证了所提方法的可行性及有效性。

自主水下航行器;强化学习;神经网络;状态估计

0 引言

近年来,随着海洋开发活动的日益频繁,自主水下航行器(autonomous undersea vehicle,AUV)以其功能丰富、性价比高和便捷性等优点成为重要的水下工作平台,并在水下搜索、海洋搜救、海洋环境数据搜集以及海洋资源开发等领域发挥着越来越重要的作用[1-2]。

由于应用场景的不断扩展以及任务对性能要求的提高,AUV的运行速度不断提升,这给AUV的控制以及状态的估计带来一定困难。典型AUV是一个多输入多输出、欠驱动强耦合的不确定非线性系统,因而如何对其进行高机动控制一直是研究的难点。传统AUV一般根据机理模型设计控制器,如反步(back-stepping)控制方法[3-4]、比例-积分-微分(proportion itegral differential,PID)控制方法[5-6]、线性二次型调节器(linear quadratic regulator,LQR)控制方法[7-8]等;同时根据系统的扰动、不确定特性设计相应的补偿策略,如鲁棒控制方法[9]、自适应控制方法[10-11]等。上述方法在系统的机理模型较为精确时可取得高精度的控制性能,然而AUV是一个强耦合的非线性系统,对其进行精确建模十分困难。相比于典型的低速AUV,高速AUV具有机动性强(高水流航速带来更强的舵效)的显著优点,但也存在控制方面的困难:首先,建模和参数辨识更困难(高速的水动力环境模拟较为困难),需要不依赖精确模型的控制算法;其次,高速AUV一般不安装多普勒测速仪(Doppler velocity log,DVL)等测量水流速度的传感器(外置突出的传感器会影响机体的光滑表面),因此一般需要高性能的状态估计器来估计当前的航速;最后,高速AUV需要经常工作在陌生的海域,对其外部干扰进行提前建模也是不现实的。考虑到上述问题,需要研究不依赖精确模型的控制方法,并通过实时经验数据抵抗未建模的干扰。

在不依赖精确模型的控制方法中,强化学习控制方法是一个很好的选择。首先,强化学习方法可以在不建立模型的情况下获得性能最优的控制器。强化学习控制器是通过AUV与海洋环境的交互进行学习获得的,具体言之,即通过AUV控制器的控制输出以及AUV的运动状态数据进行自主学习,从而在不需要模型的情况下,按照预定要求自主获得最优的控制性能。同时,强化学习的控制相较于传统的反馈控制更加迅捷,由于强化学习的控制是通过训练得到的控制策略来实现的,因此其控制器在面对某一状态时,会直接按照既有的控制策略生成相应的符合预定要求的控制量,因此其控制不是一个尝试性的慢调节过程。此外,强化学习追求的是最优的综合性能。在实际情况下,除了追求任意环境下良好的自主控制性能,还可能会对AUV的续航力、容错控制等综合性能提出要求,强化学习可以通过对奖励函数的合理设置,自主学习到最优的控制策略,以实现对控制效果、续航力、容错等性能的最优兼顾,从而获得最优的综合性能。目前已经提出的众多强化学习算法主要分为值迭代(value iteration,VI)[12],策略迭代(policy iteration,PI)[13-14]及动作器-评价器(actor-critic,AC)[15-18]3种类型。文献[19]提出一种改进的VI类算法——Q-learning算法,该算法可以同时进行单障碍物和多障碍物下的避障控制;文献[20]通过将容错控制转化成最优控制器求解问题,利用PI求解HJB(Hamilton-Jacobi-Bellman)方程,进行AUV推进器故障以及海流扰动下的容错跟踪控制,仿真实验证明了提出方法的有效性;文献[21]结合滑模控制(sliding-mode control,SMC)和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法(AC类),提出了SMC-DDPG算法,用以进行不同速度的AUV控制,仿真结果表明,该算法可以实现稳定、高精度的控制,且可以快速收敛。

强化学习控制方法虽然可以解决AUV的未建模干扰和非线性控制问题,但需要大量的经验数据进行训练,而AUV实时运行采集的经验数据十分有限,这限制了强化学习在AUV上的应用。为解决这一问题,必须研究AUV的状态估计技术。AUV的状态估计是指根据AUV当前时刻的状态和当前时刻的控制输入预测下个时刻的状态。AUV的状态估计器通过仿真运行给强化学习控制算法提供充足的训练数据。

传统的状态预测方法通常基于AUV的动态模型,因此,部分研究致力于通过建立更精确的AUV动态模型来提升状态估计精度[22-23]。文献[24]提出了一种基于线性离散时间观测卡尔曼滤波器的识别方法来进行AUV的状态估计。然而,由于AUV的运动模型是非线性的,因此线性的估计方法通常只能工作在很小的范围内,为解决这一问题,研究人员提出了一系列非线性的状态估计方法,包括采用基于动态模型的状态估计器以提升估计性能,通过流体动力学计算获取更为精确的流体动力学因数从而构建性能更优的状态估计器等方法[25-26]。然而,以上非线性的估计方法仍依赖精确的AUV动态模型,大大限制了其在实际情况下的应用。

随着机器学习技术的快速发展,无模型的状态估计方法得以实现。文献[27]提出了一种线性回归方法用以估计AUV的速度、角速度以及运动半径,并在实际估计预测实验中取得了良好的效果。但是线性回归方法很难学习更为复杂的AUV运动学特性,因此,基于神经网络的非线性方法在实际情况下得到了更为广泛的应用。文献[28]提出了一种单层神经网络的控制器,该控制器通过预测AUV所受的力及力矩进行控制,并取得了优于传统控制器的控制性能。文献[29]提出了一种多层的神经网络控制器,能够对AUV动态特性以及所受干扰进行估计,通过跟踪性能实验证明,跟踪误差得到了有效抑制。

目前针对高速AUV的状态估计方法较少,由于运动学特性上的差异,直接将普通的状态估计器应用在高速AUV上会造成实际应用中的性能损失。为了解决这一问题,文中提出一种基于神经网络的状态估计器和与之适配的强化学习控制方法。构建和训练神经网络状态估计器的方法包括:1)间接估计;2)控制量的非线性变换;3)训练数据的归一化;4)双网络结构。同时,为了评估状态估计器的估计精度,文中提出2种指标:1)统计性能指标(statistics performance index,SPI),用以表征估计器输出的状态估计值与真实值之间的误差情况;2)趋势性能指标(tendency performance index,TPI)用以表征估计器对AUV运动学特性的学习情况。在以上估计器构建完成后,在AC结构之下,结合文献[30]以及DDPG算法提出一种改进的双环补偿控制器。该控制器包括姿态环和位置环2个强化学习网络,姿态环负责输出控制量进行AUV姿态角度的快速调整和跟踪,位置环主要根据目标位置给出最优的参考姿态角度,双环合作进行高速AUV的控制。仿真实验验证了所构建的训练神经网络状态估计器和基于强化学习的双环补偿控制方法的可行性及有效性。

1 问题描述

1.1 高速AUV运动模型

高速AUV通常是指运行速度超过30kn的长条形AUV[31],由于水下环境恶劣加之AUV的高速运动,使得AUV模型变得更为复杂。为了描述AUV的运动,分别引入了大地坐标系和体坐标系,如图1所示。

图1 AUV运动坐标系Fig.1 Motion coordinate system of the AUV

其中,大地坐标系固结于大地某处,体坐标系通常固结于AUV的浮心Ob,其坐标[x0,y0,z0]代表AUV的浮心Ob相对于大地坐标系的位置,而其姿态角,即横滚角φ、俯仰角θ以及偏航角ψ是通过两坐标系之间的转动角度来表征的。基于以上坐标系建立的AUV的运动模型如式(1)~(10)所示[32-33]。

式中:v=[vx,vy,vz]和ω=[ωx,ωy,ωz]分别为AUV的速度和角速度在体坐标系的分量;为无量纲的角速度;xc,yc,zc分别为AUV的质心在体坐标系上的分量;α和β分别为攻角和侧滑角;δe,δr,δd分别为水平舵角、垂直舵角和差分舵角;T为AUV所受的额定推力;m和G分别为质量和重力;∆G为负浮力;ρ为水的密度;S和L分别为AUV最大横截面积和长度;Jxx,Jyy,Jzz分别为AUV在体坐标系3个轴向所受的转动惯量;∆Mxp为失衡力矩。此外,,CxS以及λ11,λ22,λ33,λ44,λ55,λ66,λ26,λ35为与流体动力相关的参数;和为与流体动力矩相关的参数。

1.2 状态估计器及强化学习控制器性能指标

由以上运动方程可见,AUV的运动模型中存在着大量的流体动力参数,这造成了对AUV进行精确建模时大量的资源消耗。文中拟在不基于机理进行建模的情况下,建立一个“黑盒”模型的方程,即

该方程可以在输入某一时刻的状态s(t)和控制量a(t)时,估计出下一时刻的状态s(t+1),文中称其为状态估计器。其中,AUV的状态如下:所受控制量主要指a(t)=[δe(t),δr(t),δd(t),T]。

为了评价状态估计器的估计精度,提出SPI和TPI两种指标。

1)SPI

SPI指标是根据各个被估计状态项的估计值与标签值之间的相对误差得到的统计结果提出的。统计对象是与标签值的相对误差大于所设门限的估计器的输出值,该输出值被称为离群值。SPI的计算如式(12)所示,当只针对某状态进行统计时即为该状态的单项SPI,当对所有被估计状态进行统计时即为总体SPI。二者对比可以反映估计精度的均衡性。

式中:M为状态项数(当只针对某一状态计算时,M=1);N为从测试集中抽取的用于测试的数据量;siE为估计方程输出的对下一时刻状态的估计值;siL为对应被估计状态项的标签值;th为相对误差门限。

根据SPI可以得出目前估计方程输出的估计值与真值之间的误差情况。

2)TPI

为了反映状态估计器对原AUV运动模型运动学特性的学习情况,分别让状态估计器和原模型在同一初始状态下对AUV进行控制,并计算其在一定时间内各个状态控制曲线的时间平均误差,进而得出

式中:T为控制时间;M为状态项数;sEi基于状态估计方程的控制曲线;sMi为基于模型的控制曲线,同时为了避免各个状态之间数量级之差的影响,对各状态的控制误差进行了相应的归一化处理。

最后,该估计器训练完成后可以产生数据供给强化学习控制器进行训练。由于AUV控制中位置和姿态的响应时间差距较大,因此可将位置和姿态分成2个部分构造双环补偿控制器。该控制器具有位置环和姿态环2个强化学习网络,其中,位置环主要结合位置信息输出参考姿态αref(t),姿态环主要负责输出控制量u(t)追踪参考姿态,双环合作进行高速AUV的控制。训练最优强化学习控制器的过程即为最优化性能指标的过程。该基于强化学习的双环补偿控制网络的性能指标为

式中:V代表的价值函数即为该强化学习控制器的长期性能指标;ra和rp分别为姿态环和位置环的奖励函数。当得到最优价值函数V∗时,即为获得最高的姿态环奖励和位置环奖励,此时该强化学习控制器的2个网络分别输出最优的控制量u∗和最优的参考姿态。

2 基于神经网络的AUV状态估计器及适配的强化学习控制方法设计

2.1 基于神经网络的AUV状态估计器

由于AUV运动模型本身的复杂性,在建立高精度的状态估计器时,传统方法往往难以胜任,而机器学习(machine learning,ML)技术的发展为解决这一问题提供了新的方案。由于AUV模型的强耦合以及非线性特性,拟采用具有无限逼近能力的神经网络进行这一状态估计器的回归训练。为了在尽量少的数据需求下训练得到高精度的神经网络状态估计器,提出以下改进方案。

1)通过∆s(t)间接估计s(t+1)

直接估计是指输入某一时刻的状态s(t)和控制量a(t),由神经网络输出下一时刻的状态s(t+1),然而这种估计方法存在搜索空间过大的不足,即在2个不同状态之下输入同一控制量a(t),在运动特性上是相似的,但是其各自的输出却可能存在较大的差距,这在一定程度上增大了神经网络学习的负担,因而文中采用间接估计的方法,即神经网络的估计结果是状态的增量∆s(t),此时,对下一时刻的状态估计可以表示为s(t+1)=s(t)+∆s(t)。仿真实验证明,这一改进降低了神经网络学习的负担,显著提升了估计精度。

2)控制量的非线性变换

高速AUV在运行中,机体所受的流体动力和流体动力矩与速度矢量的模的二次方v2呈线性关系。此外,由第1章中AUV的运动模型可知,参数v2作为控制量的非线性变换因子对AUV状态的变化会产生较大的影响。因此,为了提升神经网络的训练效率,对输入特征中的控制量进行类似的非线性变换,即,其中。仿真实验表明,该非线性变换在一定程度上提升了神经网络估计器的估计精度。

3)训练数据的归一化

由于用于训练神经网络估计器的数据在数量级上有着较大的差距,如AUV的位置和速度在数量级上远大于其他状态(如姿态角和角速度),因此,若不对数据进行归一化处理则可能造成训练过程中数量级较小的状态被忽略,进而影响估计器的估计精度。为了提高训练的效率,对神经网络的输入和输出数据同时进行了归一化。

4)双网络结构

为了能在使用简单的全连接网络的同时高效率地训练神经网络状态估计器,提出双网络结构构建估计器,即以姿态网络对AUV的深度y0,姿态角,以及角速度ωx,ωy,ωz进行回归训练,如图2所示;以速度网络对速度vx,vy,vz进行回归训练,如图3所示。

图2 估计器姿态网络Fig.2 The attitude network of estimator

图3 估计器速度网络Fig.3 The velocity network of estimator

由于2个网络在结构和所使用的激活函数上基本相同,因此训练的复杂度并未明显增加,其计算公式如式(15)所示,对于姿态网络,其输出,而对于速度网络,其输出。

同时,其梯度的反向传播公式

式中:zL为标签值,∆z=z−zL;J为损失函数;⊙为哈达玛积。

2.2 强化学习控制方法

在完成基于神经网络的AUV状态估计器后,设计了基于上述估计器的强化学习控制器。

在AUV的控制过程中,由于位置环和姿态环的控制响应时间明显不同,因此针对位置和姿态分别设计了一个强化学习控制器,采用了强化学习中经典的DDPG,如图4所示结构。

当赋予AUV的状态初值s(k+1)之后,右侧的位置环结合当前时刻AUV的位置(包括在s(k)中)以及预定到达的位置输出参考姿态ref(k)(即后文的αd),左侧的姿态环结合AUV当前的姿态(包括在s(k)中),学习控制舵角,输出控制量a(k)=[δe(k),δr(k),δd(k),T(k)],将当前时刻的状态s(k)以及控制量a(k)输入状态估计器(即图中的AUV,它在实际训练中可被状态估计器代替),可得下一时刻的状态s(k+1),如此循环将相应的状态项以及获得的奖励值保存进姿态经验池和位置经验池,即可进行强化学习控制器的训练,最终,右侧的位置环经过学习能够输出最优的参考姿态,左侧的姿态环能够快速稳定地对参考状态进行跟踪,双环合作即可实现对AUV的快速控制。

由于二者学习目标不同,因此分别对位置环和姿态环进行奖励函数的设计。由于AUV既需要快速的姿态调整,又需要保持平稳,因此姿态环的奖励函数同时对姿态角、角速度以及控制量进行了约束,其奖励函数

式中:α=[φ,θ,ψ]T为AUV当前时刻的姿态角;为参考姿态角;为AUV的角速度;为AUV所受控制量;分别为对各个状态以及控制量的权值;ca为常数。

对于位置网络,其奖励函数

图4 双环强化学习控制器结构图Fig.4 Structure of the double-loop controller with reinforcement learning

3 仿真结果与分析

为了验证提出的基于神经网络的AUV状态估计器和配套的强化学习控制器的有效性,进行了一系列仿真实验。首先,对基于前文提出的方法训练得到的神经网络状态估计器的性能进行评估;然后,基于该状态估计器产生的数据,对提出的强化学习双环补偿控制器进行训练,并对其控制性能进行测试。

3.1 仿真实验设置

由于暂时无法获取真实的AUV航行数据,结合某533mm口径高速AUV的相关参数建立参考模型,用以验证提出的构建和训练神经网络状态估计器方法的可行性并分析其性能表现。参考模型的相关参数如表1所示。

表1 高速AUV参考模型参数Table 1 Parameters of the reference model of the high speed AUV

基于以上参数所建立模型产生的数据可以被看作AUV航行时传感器记录的数据,此后的神经网络状态估计器的训练以及性能评价工作都建立在数据集[s(t),a(t),s(t+1)]的基础之上。该数据集是在随机初始化的状态下,由参考模型运行产生的。

3.2 神经网络状态估计器训练及精度分析

为了尽量保持网络结构简单且易于实现和训练,双网络结构的神经网络状态估计器采用全连接网络,且隐藏层都为4层,隐藏层中的神经元数为256个,采用Relu作为激活函数,输入层和输出层的激活函数为tanh函数,训练过程中采用Adam优化器,学习率lr设置在[10−7,10−5],随训练代数逐渐降低以提升训练的稳定性,神经网络的搭建以及训练均基于Tensorflow平台。

通过前文所述方法及参数训练得到神经网络状态估计器后,从测试集中随机抽取1 000组数据进行估计器的估计精度测试,并计算各个状态的SPI以及总体的SPI,相对误差门限th设置为0.1。最终统计结果表明,估计器除了对速度vx进行估计时SPI高于0.1,其余各个状态项的SPI几乎都在0.05左右,同时总体SPI也在0.05以下,说明估计器总体的估计性能较均衡,且间接说明了估计值与真实值之间的相对误差低于0.1,实现了较高的估计精度。

为了评估神经网络状态估计器对参考模型的运动学特性的学习情况,在同一初始状态下,分别基于状态估计器和参考模型进行AUV的控制,得到各个状态的控制曲线如图5~图7所示。

图5 基于原模型和估计器的姿态控制曲线Fig.5 The attitude control curves of the original model and the estimator

由以上结果对比可见,神经网络估计器基本可以实现与参考模型同等水平的控制,从TPI上看,图5所示情况下的TPI为0.11,而与参考模型控制曲线相对误差为5%时计算得到的TPI为0.14,因此,当总体上估计器输出的估计值与实际值的相对误差低于0.1时,估计器与参考模型控制的相对误差将低于5%,可以认为估计器基本学习到了参考模型的运动学特性。具体的基于SPI以及TPI的性能分析及结论参考文献[34]。

图6 基于原模型和估计器的角速度控制曲线Fig.6 The angular speed control curves of the original model and the estimator

图7 基于原模型和估计器的速度控制曲线Fig.7 The velocity control curves of the original model and the estimator

3.3 基于强化学习的双环补偿控制器的训练及性能分析

文中结合估计器以及基于强化学习的双环补偿控制器进行了高速AUV的姿态和深度的控制测试。控制的目标是以随机姿态入水后迅速下潜到水下30m并保持姿态平稳,经过仿真测试,将姿态环的奖励函数参数设置为ca=1,wα=[12,1,30]T,wω=[0.02,0.001,0.001]T,wδ=[0,0,0.001,0]T,将位置环的奖励函数参数设置为cp=1,wp=[0,1,0]T。

将估计器作为参考模型,进行姿态环以及位置环的训练。训练400轮后得到奖励值曲线如图8所示,通过奖励值曲线可以发现,姿态环和位置环的训练过程收敛迅速,均可在100轮左右达到稳定。

图8 控制器在训练过程中所获奖励值Fig.8 The reward values during the training process of the controller

此后用训练好的补偿控制器进行运动控制,得到运动过程中的速度曲线和姿态曲线如图9和图10所示。由图9结果可见,AUV的运行速度最终达到了26m/s(约52kn),这已属于高速AUV的范畴。由图10可见,在强化学习控制器的控制之下,AUV的横滚角和偏航角可在2s内恢复至0°,机身快速稳定,俯仰角也可在2.5s内实现对参考俯仰角的跟踪。因此,此时的双环补偿控制器已达到了较好的姿态控制效果。此外,由图11可见,基于补偿控制器进行的深度控制可以在10s左右到达目标深度,而基于PID进行深度控制时,需要近17s才能到达目标深度,说明位置环为姿态环提供了更优的参考姿态,使得AUV在双环补偿控制器下快速达到目标深度。这进一步证明了文中使用的强化学习双环补偿控制器的优越性。

图9 AUV运行速度曲线Fig.9 The velocity curves during the AUV running

图10 双环补偿控制器下的AUV姿态控制曲线Fig.10 The attitude curves of the AUV controlled by the double-loop complementary controller

图11 基于双环补偿控制器与PID控制器的AUV深度控制曲线Fig.11 The depth curves of the AUV controlled by the double-loop complementary controller and the PID controller

4 结束语

文中针对高速AUV的控制问题,提出了一种基于强化学习的双环补偿控制器,并构造基于神经网络的高速AUV状态估计器为其提供训练数据。其中,针对神经网络状态估计器的构建以及训练方法提出的改进技术包括:1)通过∆s(t)间接估计s(t+1);2)控制量的非线性变换;3)训练数据的归一化;4)双网络结构。同时,基于强化学习的双环补偿控制器,通过姿态环和位置环的协作,可以在保证姿态平稳控制的基础上实现AUV的快速下潜。随后设计仿真实验,通过估计器运行产生的数据训练得到的强化学习控制器进行高速AUV的姿态及深度控制。仿真结果表明,基于估计器数据训练得到的控制器不仅使得以随机姿态入水的AUV能够迅速调整姿态达到平稳,并且能够快速下潜至预定深度。这验证了采用状态估计器配合文中的强化学习控制器进行训练具有可行性及有效性。文中尚未针对强化学习控制器的鲁棒性进行进一步的改进与探究,这将留待后续进一步完善。

[1]杜度.基于RBF神经网络参数自整定的AUV深度控制[J].水下无人系统学报,2019,27(3):284-289.

Du Du.Parameters Self-Tuning for Depth Control of AUV Based on RBF Neural Network[J].Journal of Unmanned Undersea System,2019,27(3):284-289.

[2]李鑫,黄茹楠,丁宁.输入受限的自主水下航行器自适应反演控制[J].水下无人系统学报,2019,27(6):624-628.

Li Xin,Huang Ru-nan,Ding Ning.Adaptive Backstepping Control of Autonomous Undersea Vehicle with Input Limitation[J].Journal of Unmanned Undersea System,2019,27(6):624-628.

[3]Chen W,Wei Y,Zeng J.Back-stepping Control of Underactuated AUV’s Depth based on Nonlinear Disturbance Observer[C]//2015 34th Chinese Control Conference(CCC).Hangzhou,China:IEEE,2015:6061-6065.

[4]Wang H J,Chen Z Y,Jia H M,et al.NN-Backstepping for Diving Control of an Underactuated AUV[C]//2011 Oceans’11 MTS/IEEE KONA.Waikoloa,HI,USA:IEEE,2011:1-6.

[5]Hu B,Tian H,Qian J,et al.A Fuzzy-PID Method to Improve the Depth Control of AUV[C]//2013 IEEE International Conference on Mechatronics and Automation.Takamatsu,Japan:IEEE,2013:1528-1533.

[6]Liu W,Ding X,Wan J,et al.An Effective Motion Control Based on 2-DOF PID and ELM for AUV[C]//2018 OCEANS 2018 MTS/IEEE Charleston.Charleston,SC,USA:IEEE,2018:1-4.

[7]吕建国,王育才,崔昊.基于LQR方法的水下航行器热动力推进系统控制研究[J].弹箭与制导学报,2007,27(1):174-176.

Lü Jian-guo,Wang Yu-cai,Cui Hao.Research of Control for Propulsion System of Thermal Power Underwater Vehicle Based on LQR[J].Journal of Projectiles,Rockets,Missiles,and Guidance,2007,27(1):174-176.

[8]Lakhwani D A,Adhyaru D M.Performance Comparison of PD,PI and LQR controller of Autonomous under water vehicle[C]//2013 Nirma University International Conference on Engineering(NUiCONE).Ahmedabad,India:IEEE,2013:1-6.

[9]赵旭,龚时华,杨进.基于LMI的无人水下航行器干扰补偿控制[J].水下无人系统学报,2020,28(3):271-277.

Zhao Xu,Gong Shi-hua,Yang Jin.Disturbance Compensation Control for Unmanned Undersea Vehicle Based on LMI[J].Journal of Unmanned Undersea System,2020,28(3):271-277.

[10]Makavita C D,Nguyen H D,Jayasinghe S G,et al.Predictor-Based Model Reference Adaptive Control of an Unmanned Underwater Vehicle[C]//2016 14th International Conference on Control,Automation,Robotics and Vision.Phuket,Thailand:IEEE,2016:1-7.

[11]Nayak N,Das P,Das S R.Heading Plane Control of an Autonomous Underwater Vehicle:A Novel Fuzzy and Model Reference Adaptive Control Approach[C]//2020 Third International Conference on Advances in Electronics,Computers and Communications(ICAECC).Bengaluru,India:IEEE,2020:1-5.

[12]Riedmiller M.Neural Fitted Q Iteration-First Experiences with a Data Efficient Neural Reinforcement Learning method[C]//2005 Machine Learning:ECML 2005.Oporto,Portugal:ECML,2005:317-328.

[13]Parr R,Russell S.Reinforcement Learning with Hierarchies of Machines[C]//1997 11th Annual Conference on Neural Information Processing Systems(NIPS).Denver,CO:Massachusetts Institute of Technology Press,1998:1043-1049.

[14]Xu X,Hu D,Lu X.Kernel-based Least Squares Policy Iteration for Reinforcement Learning[J].IEEE Transactions on Neural Networks,2007,18(4):973-992.

[15]Barto A G,Sutton R S,Anderson C W.Neuronlike Adaptive Elements That Can Solve Difficult Learning Control-Problems[J].IEEE Transactions on Systems Man and Cybernetics,1983,13(5):834-846.

[16]Konda V R,Tsitsiklis J N.Actor-Critic Algorithms[C]//Advances in Neural Information Processing Systems 12.Cambridge:Mit Press,2000:1008-1014.

[17]Peters J,Vijayakumar S,Schaal S.Natural Actor-Critic[J].Neurocomputing 2008,71(7-9):1180-1190.

[18]Vamvoudakis K G,Lewis F L.Online Actor Critic Algorithm to Solve the Continuous-Time Infinite Horizon Optimal Control Problem[C]//2009 International Joint Conference on Neural Networks.New York:IEEE,2009:58-65.

[19]Bhopale P,Kazif,Singh N.Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater Vehicle[J].Journal of Marine Science and Application,2019,18(2):228-238.

[20]Che G F,Yu Z.Neural-Network Estimators Based Fault-Tolerant Tracking Control for AUV via ADP with Rudders Faults and Ocean Current Disturbance[J].Neurocomputing,2020,411:442-454.

[21]Wang D,Shen Y,Sha W,et al.Adaptive DDPG Design-Based Sliding-Mode Control for Autonomous Underwater Vehicles at Different Speeds[C]//2019 IEEE Underwater Technology(UT).Kaohsiung,Taiwan:IEEE,2019:1-5.

[22]Wang S,Su Y M,Wang Z L,et al.Numerical and Experimental Analysis of Transverse Static Stability Loss of Planning Craft Sailing at High Forward Speed[J].Engineering Applications of Computational Fluid Mechanics,2014,8(1):44-54.

[23]Wang S X,Sun X J,Wang Y H,et al.Dynamic Modeling and Motion Simulation for a Winged Hybrid-Driven Underwater Glider[J].China Ocean Engineering,2011,25(1):97-112.

[24]Tiano A,Sutton R,Lozowicki A,et al.Observer Kalman Filter Identification of An Autonomous Underwater Vehicle[J].Control Engineering Practice,2007,15(6):727-739.

[25]Dantas J L D,Barros E D A.Numerical Analysis of Control Surface Effects on AUV Manoeuvrability[J].Applied Ocean Research,2013,42:168-181.

[26]Martin S C,Whitcomb L L.Preliminary Experiments in Comparative Experimental Identification of Six Degree-Of-Freedom Coupled Dynamic Plant Models for Underwater Robot Vehicles[C]//2013 IEEE International Conference on Robotics and Automation.Karlsruhe,Germany:IEEE,2013:2962-2969.

[27]Zheng X W,Wang W,Xiong M L,et al.Online State Estimation of a Fin-Actuated Underwater Robot Using Artificial Lateral Line System[J].IEEE Transactions on Robotics,2020,36(2):472-487.

[28]Jagannathan S,Galan G.One-Layer Neural-Network Controller with Preprocessed Inputs for Autonomous Underwater Vehicles[J].IEEE Transactions on Vehicular Technology,2003,52(5):1342-1355.

[29]Duan K R,Fong S,Chen C L P.Multilayer Neural Networks-Based Control of Underwater Vehicles with Uncertain Dynamics And Disturbances[J].Nonlinear Dynamics,2020,100(4):3555-3573.

[30]Lin X B,Yu Y,Sun C Y.Supplementary Reinforcement Learning Controller Designed for Quadrotor UAVs[J].IEEE Access,2019,7:26422-26431.

[31]王超,胡志强,衣瑞文,等.高速水下机器人通气空化减阻技术的水洞实验研究[J].机器人,2018,40(6):779-785.

Wang Chao,Hu Zhi-qiang,Yi Rui-wen,et al.Water Tunnel Experiment Research of Ventilated Cavitation Drag Reduction Technology for a High Speed AUV[J].Robot,2018,40(6):779-785.

[32]严卫生,徐德民,李俊,等.远程自主水下航行器建模研究[J].西北工业大学学报,2004,22(4):500-504.

Yan Wei-sheng,Xu De-min,Li Jun,et al.A New Method for Modeling Long Distance Autonomous Underwater Vehicle(AUV)[J].Journal of Northwestern Polytechnical University,2004,22(4):500-504.

[33]Willy C J.Attitude Control of An Underwater Vehicle Subjected to Waves[D].Massachusetts Ave,Cambridge:Massachusetts Institute of Technology,1994.

[34]Guo K J,Lin X B,Hao C P,et al.An Improved State Estimator for High-Speed AUV with NN[C]//2021 40th Chinese Control Conference.Shanghai,China:IEEE,2021.

Reinforcement-Learning Control for the High-Speed AUV Based on the Neural-Network State Estimator

GUO Ke-jian1,2,LIN Xiao-bo2,HAO Cheng-peng2,HOU Chao-huan2

(1.School of Integrated Circuits,University of Chinese Academy of Sciences,Beijing 100049,China;2.China Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China)

With the development of ocean research and exploitation,high-speed autonomous undersea vehicle(AUV)has attracted increasing attention as important unmanned underwater platforms.However,the high-speed AUV model is multiinput-multi-output(MIMO),strong-coupling,underactuated,and strongly nonlinear;therefore,the traditional control method that relies on the exact model is often limited in practical applications.To address these problems,a position-attitude controller based on reinforcement learning(RL)that does not rely on an exact model is proposed.The RL controller can not only regulate the attitude of the AUV but also the driver,as it reaches the target depth faster with the aid of the attitude and position loops.An improved state estimator of a high-speed AUV is designed based on a neural network(NN)to decrease the cost of collecting data,which is employed to train the RL controller.The improved state estimator can estimate the state at the next time instant according to the current state of the high-speed AUV and the control input.The simulation results demonstrate that the NN-state-estimator can estimate the state of a high-speed AUV with high precision,and the RL controller trained by the estimator achieves fast and steady performance,which verifies the feasibility and effectiveness of the proposed method..

autonomous undersea vehicle;reinforcement learning;neural network;state estimation

U674.941;U661

A

2096-3920(2022)02-0147-10

10.11993/j.issn.2096-3920.2022.02.002

郭可建,林晓波,郝程鹏,等.基于神经网络状态估计器的高速AUV强化学习控制[J].水下无人系统学报,2022,30(2):147-156.

2021-06-22;

修回日期:2021-08-03.

国家自然科学基金项目资助(61971412).

郭可建(1997-),男,硕士,主要研究方向为高速水下航行器控制.

(责任编辑:杨力军)

猜你喜欢
姿态控制器神经网络
基于神经网络的船舶电力系统故障诊断方法
三转子式比例控制器设计与内泄漏分析
南京溧水电子3款控制器产品
基于人工智能LSTM循环神经网络的学习成绩预测
MIV-PSO-BP神经网络用户热负荷预测
基于NFV的分布式SDN控制器节能机制
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
另一种姿态
以文青的姿态回归主流——对《后悔无期》的两重解读
智能液位控制器在排水系统中的应用