基于积分强化学习的连续线性不确定系统最优控制分析

2020-12-06 10:48陈昱

河南科技 2020年28期

陈昱

摘要：针对系统模型参数未知的连续系统，本文主要分析和验证鲁棒积分强化学习的必要性。该方法不要求连续线性系统参数完全已知，也不需要对动态模型参数进行进一步估计。首先，采用优化性能的最优控制问题，基于动态规划方法得到代数黎卡提方程;然后，利用积分强化学习方法，得到迭代贝尔曼方程，进一步利用积分强化学习算法，分析此算法在针对不确定系统时是否有效;最后，算例仿真验证在是否考虑不确定性存在状态下对连续线性不确定系统的影响。

关键词：积分强化学习;连续系统;鲁棒性;不确定性

中图分类号：O232文献标识码：A文章编号：1003-5168（2020）28-0012-03

Optimal Control Analysis of Continuous Linear Uncertain Systems

Based on Integral Reinforcement Learning

CHEN Yu

（College of Innovation and Entrepreneurship， Liaoning University of Petroleum and Chemical Technology，Fushun Liaoning 113000）

Abstract： For continuous systems with unknown model parameters， the necessity of robust integral reinforcement learning was analyzed and verified in this paper. The method does not require that the parameters of the continuous linear system are completely known， and it does not require further estimation of the parameters of the dynamic model. Firstly， the algebraic Riccati equation was obtained by using the optimal control problem of optimal performance based on dynamic programming. Then， the iterative Bellman equation was obtained by using the integral reinforcement learning method， and the integral reinforcement learning algorithm was further used to analyze whether the algorithm is effective for uncertain systems. Finally， an example was given to verify the influence on the continuous linear uncertain system with or without considering the existence state of uncertainty.

Keywords： integral reinforcement learning;continuous system;robustness;uncertainty

1 研究背景

強化学习（Reinforcement Learning）又称再励学习、评价学习或增强学习，是智能系统从环境到行为映射的学习方式，以使奖励信号（强化信号）函数值最大。控制系统在试错过程中，外界会针对试错结果进行一定的反馈，此过程中强化学习算法可以调节相关参数以获得更好的控制结果。该算法利用系统的部分或完全动力学知识来强化学习系统的控制器。然而，对于许多实际问题很难得到系统动力学知识。积分强化学习是针对系统模型参数未知的连续系统，且无须估计动态模型参数的一种强化学习方法。近年来，随着对不确定连续系统研究的深入，研究者们致力于发展积分强化学习方法，以获得不确定动态系统的最优控制器。

目前，越来越多的研究开始涉猎积分强化学习并将其应用于自动控制领域，其中在连续线性系统中应用较多。采用积分强化学习方法，不完全依赖系统模型参数，而是利用数据学习状态反馈来判断控制策略是否最优。优化控制系统性能的研究成果有很多，如研究线性系统最优调节[1]、近似动态规划最优控制[2]、自适应容错控制[3]等。策略学习（on-policy）指获取数据的动作和最终策略的动作是一致的，非策略学习（off-policy）即获取数据的动作和最终策略的动作不一致。积分强化学习涉及两个关键流程：一是选择用来获取数据的动作，二是最终用来选择动作的策略。因此本文采用策略学习进行动作。从线性连续系统的相关文献[4]来看，其并未考虑不确定性的存在，控制器是否能在存在不确定性的前提下有效使用值得我们深入探究和验证。

本论文验证了一种基于积分强化学习算法的控制器用以解决连续线性系统部分参数未知的线性问题。首先，给出具有不确定性的优化问题模型，假设该系统不存在不确定性，然后给出基于积分强化学习的数据驱动的算法，以保证系统稳定并且优化控制器相关性能指标。之后通过实验分析表明，在系统存在不确定性并且该不确定性不可忽略的条件下，控制器作用无效即不能保证该线性连续系统的稳定性。最后通过仿真实验验证了所提算法对最优控制解的收敛程度。

2 问题阐述

考虑如下线性连续时间系统：