基于神经网络的启发式动态规划在非线性系统中的研究

2020-10-28 08:46宋孟豪

科学导报·学术 2020年44期

宋孟豪

摘要：在當今的社会领域和工业领域中存在着大量的复杂系统，如交通系统、通信网络系统等。这些复杂系统通常具有高度的非线性和不确定性，并且难于建立精确的数学模型。而现实世界中的系统都具有本质非线性，传统的线性系统理论只是一种局部近似。常见的几种非线性系统的控制方法[1]有适应控制、模变结构控制、鲁棒控制、自学习控制。传统的控制方法已逐渐不能满足当下科技高度发展的控制需求，因此寻找一种更加先进的控制方法显得尤为重要。由于动态规划是一种非线性规划方法，并且适用于不确定性问题。因而，自适应动态规划理论在解决复杂非线性系统的优化控制问题中具有极大的应用潜力。

关键词：神经网络;自适应动态规划;非线性系统

1 自适应动态规划的简述

动态规划理论是20世纪50年代的美国数学家贝尔曼（Bellman）为了解决非线性动态系统的最优控制问题而提出的一种先进控制理论[2]。动态规划是一种非线性的最优化规划方法，并且适用于随机系统，因此是解决复杂非线性系统控制问题的有效方法。其核心思想是最优性原理，可以将多级决策控制问题转化为一系列单级决策控制问题，广泛应用于经济管理和决策、工业控制、空间技术等领域。启发式动态规划（Heuristic Dynamic Programming，HDP）是1992年，Werbos[3]提出了启发式动态规划（HDP）和二次启发式动态规划（DHP）两种基本的结构之一。

2 启发式动态规划

HDP结构是最基本也是应用最广泛的一种ADP结构，如图2-1。

该结构由三个神经网络组成：第一个为执行网络（Action Network），根据状态变量产生控制变量 ;第二个为模型网络（Model Network），根据此刻的状态变量和控制变量得到下一刻的状态变量，可以对复杂的非线性系统进行建模，通过在线或离线方式进行训练;第三个为评判网络（Critic Network），输入为状态变量或，输出为近似的性能指标函数，通过权值传递，可以得到两个时刻的输出或。为效用函数。

3 基于BP神经网络的训练算法推导

4 总结

传统的非线性系统的控制方法仅能在一定程度上解决模型未知或建模不精确、参数未知或变化等问题，具有一定局限性。而且由于复杂系统的高度非线性和不确定性，因而实现复杂非线性系统的最优控制一直是一个热点问题。虽然基于神经网络启发式动态规划能在某种程度上解决传统算法的局限性，但是在面对一些复杂的非线性系统的控制中还显得束手无策，因而对复杂系统的非线性控制的研究不能停留在当下，依旧要继续向前。

参考文献

[1] 方勇纯，卢桂章. 非线性系统理论. 清华大学出版社. 2009年5月.

[2] Bellman R E. Dynamic Programming. Princeton University Press. 1957.

[3] Werbos P J. Approximate Dynamic Programming for Real-Time Control and Neural Modeling. Handbook of Intelligent Control：Neural，Fuzzy，and Adaptive Approaches，D.A. White and D.A. Sofge，Ed.，New York：Van Nostrand Reinhold. 1992.