生成对抗思想在强化学习技术中的研究与应用

2020-05-08 08:43王嘉伟

大经贸 2020年2期

王嘉伟

【摘要】近年来，生成对抗网络技术和强化学习技术取得了很大的进步，前者主要研究了生成对抗网络应用于分布建模的基本原理，而后者研究了智能体如何在与环境交互过程中学习最优策略的基本问题。实际上，这两个技术在思想层面上存在着交叉与耦合，本文将深入探讨生成对抗思想在强化学习技术中的研究与应用，并在数学形式上揭示其异同。

【关键词】生成对抗网络强化学习深度学习

引言

2014年，Ian Goodfellow首次提出了一种名为生成对抗网络（Generative Adversarial Networks，GAN）的架构[1]，GAN是一类能够学习数据分布，并实现在该数据分布中采样的模型。其架构主要由判别器D和生成器G组成，D能够估计数据分布与生成分布之间的散度或距离，G则负责最小化该散度或距离，以生成以假乱真的样本。而后，GAN便取得了极大的发展。2016年，阿尔法围棋（Alpha Go）横空出世，成为第一个战胜世界围棋冠军的强化学习算法[2]。这种算法使用了一种名为Actor-Critic的架构，其结合了Value-based模型和Policy-based模型的优点，使得强化学习模型能够在自我博弈和互相对抗中学习和进步。这种算法在本质上与生成对抗思想具有异曲同工的地方，下文将从优化函数的角度对其进行阐述和说明。

算法思想分析

生成对抗网络 GAN的目标是，给定一个来自真实分布的数据集，我们想用一个模型学习一个生成分布，从而去逼近真实分布。首先，GAN由一个判别网络（Discriminator， D）和一个生成网络（Generator， G）组成，D用来估计生成分布与真实分布的散度，G则通过优化其网络参数来最小化该散度。以标准GAN的原理为例，其损失函数的形式如下：

其中，为噪声，其满足均值为0，方差为1的高斯分布。从公式中可以看出，D和G分别是用min-max训练方式迭代学习的，D的目标是要最小化网络生成结果的判别误差，而G网络的目标是要最大化其判别概率。

强化学习在强化学习技术中，有两种主要的基本模型，一种是Value-based的模型，另外一种是Policy-based的模型。前者通过学习值函数来评估策略，并通过比较不同策略的估计值来选择当前时刻的动作。而后者不学习值函数，其通过梯度估计的方法直接优化策略网络以最大化收益。Actor-Critic算法结合了两者的优点，其中Actor为一个策略网络，其输入为状态、动作，输出为相应概率值;而Critic的作用是估计给定状态和动作的值函数，用于策略评估和策略改进。标准的Actor-Critic算法的更新算法如下：

其中，为智能体的行动轨迹。对于Q网络而言，其目标是要最小化行动所造成的值函数估计误差，而对于网络而言，其目标是要最大化其行动策略的值函数。这和GAN一样，刚好构成了min-max对抗训练过程。

生成对抗思想与Actor-Critic技术的对比 GAN与Actor-Critic网络的损失函数从数学形式看非常相似，这两种算法都有一个共同点，就是任务本身难以实现有监督学习。比如对于GAN而言，我们无法获取生成图像的标签进行有监督训练;对于Actor-Critic而言，策略网络生成的动作我们也没法直接判斷其正确与否;为此，这两种技术都采用了生成对抗思想，即用一个值网络对目标进行估计，再用最大化其值估计的方式去训练另一个子网络，从而刚好对应min-max训练过程。

结论

生成对抗思想是人工智能技术中一种巧妙的理论构思，其脱胎于生成对抗网络技术领域，却有利于强化学习技术的进步。从本质上来说，这是一种自动化构建损失函数的方法，使得机器学习算法能够在自我博弈中学习。本文从数学形式进行讨论，研究了生成对抗思想在强化学习技术中的应用，但这其实只是生成对抗思想的应用之一。本人希望在未来工作中，能看到更多生成对抗思想的借鉴与使用，进而促进人工智能领域的蓬勃发展。

【参考文献】

[1] Goodfellow I， Pouget-Abadie J， Mirza M， et al. Generative Adversarial Nets[C]//Advances in Neural Information Processing Systems. 2014： 2672-2680.

[2] Silver， D.， Huang， A.， Maddison， C. et al. Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature 529， 484–489 （2016）. https：//doi.org/10.1038/nature16961