简述自由基线采样的参数探索政策梯度

2016-06-06 22:55宋涛吕思思
电脑知识与技术 2016年6期

宋涛++吕思思

摘要:最近已经引起很多关注的直接在参数空间中探索策略梯度方法是最有效和有力的政策搜索方法。这个领域的基本方法,基于参数探索的政策梯度,使用的两个样本都是围绕着当前假设对称,以规避在不对称的分布式聚集基准方法的奖励中的误导性奖励。勘探参数仍然由基线的方法更新 - 离开容易发生探索非对称奖励分布。在本文中,我们将展示如何探索有限制的可以准对称的参数,而不是勘探自由参数进行采样。我们给出了一个相对于勘探准对称的近似改造获得的样本,而不改变整体抽样分布。最后,我们将证明,为勘探参数的对称取样以及优于原始抽样方法,在所需要的样品和稳健性方面。

关键词:超对称 PGPE;梯度估计方差;参数探索政策梯度

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)06-0242-02

1介绍

1.1当前最高水平和题目说明。

在过去几年,引起了很多关注的直接在参数空间探索政策梯度(PG)方法有很多标准PG方法的主要优点,如描述的。来自参数探索政策梯度(PEPG)领域的基本方法,具有基于参数的探索(PGP)政策渐变,使用两个样品是围绕当前假设对称规避不对称报酬收集的通常基线方法的分配问题误导性奖励。尽管事实上,它表明梯度估计方差比最优基线的方法更低一些,但对称采样(SYS)优于最佳的基线。但是,勘探参数仍然是由基线方法(离开容易发生探索非对称奖励分布)更新的。

而最佳基线显著改善此问题,它很可能是由对称的样品相对于勘探参数完全除去基线将再次卓越的。勘探参数是零和无穷大之间界定的标准偏差,因此,对于他们存在不正确的对称样品。然而,我们将显示如何勘探参数可以准对称地取样。我们给出了一个近似改造拿到准对称样本而不改变总体抽样分布,从而使基于正态分布样本PGPE假设仍持有。我们还将实施免费基线和基线采样之间的公平比较最佳基线的方法。所得相对于该问题的参数和勘探参数对称地采样的方法被称为超对称采样(SupSyS)和利用SupSyS名为超级对称PGPE的PGPE变体(SupSymPGPE)。

我们强调,SupSyS不仅在关于样品复杂的搜索空间的需要和不需要任何基线方面更有效,并且它也显示出在更不稳定的搜索空间方面的一个增长的稳健性。这表现为一个问题领域与处罚条款,奖励功能引入约束。这里SupSyS产生违反限制显著较少的样本。

1.2 动机

虽然本文所提到的SUBSYS的性能和稳定性是主要的焦点,但是对这项工作的动机是以避免基准,从而避免对旧的样本收集的来历。一下有几点原因:

l 懒惰评价:懒惰评价仅仅是问题的一个子集,以减少计算时间或精力的技术。懒惰评价是进化算法中常用的。报偿/合格范围可以彻底改变,同时改变懒惰评价的程度,甚至不同的评价子集之间。虽然使用懒评价的高度对旧的样本相当数量平均基线变得无用。从机器人领域的一个很好的例子是行走任务。如果一个机器人的任务是要移动一段距离,那么要先评估在较短的时间跨度的行为,为了区分和根本不移动一定距离的人的行为。随着学习的进行,评估的时间跨度,必须越走越能有所区分,让来自机器人在轻微的曲线或在一条直线上了走了很长一段时间的机器人的运动行为增加它一段时间后翻倒(在人形情况)。人们可以除以评估时间覆盖得到某种形式的标准化奖励的距离,但还是喜欢在一开始势头将改变不同的评价倍的奖励效果。

l 运动目标和人工好奇心:在某些情况下学习的不是一个固定的目标,而是一个不断发展的实体。这种移动目标的一个极端的例子是人工好奇心。什么都移动目标的问题(包括人工好奇心)的共同点是,我们的目标随时间的变化,并用它来获得奖励的某些行为的变化也。在这样的设定的基准是无用的。

2 经验和结果

我们使用的平方函数作为搜索空间实例与无局部最优和Rastrigin功能作为搜索空间成倍局部最优解,以测试SupSym-和SYS-PGPE的不同行为。我们也显示这两种方法的性能在一个真实世界的例子,优化安装可再生能源在分布式能源系统的能力。该实验表明这两种方法如何应付被实施为在回报函数惩罚项和类似于用在搜索空间陡坡或悬崖区域限制。与SYS-PGPE以及与SupSymPGPE连接的两个元的参数,即对于μ和σ的更新步长,进行用于经由网格搜索每个实验优化。

2.1 平方函数

对于一个没有supsympgpe局部最优解的搜索空间显示标准SyS-PGPE没有优势。然而,尽管使用4个样品更新性能也不是减少使用SupSymPGPE——这两个方法仅仅是等价的。也使用最优基线没有明显区别。

2.2 Rastrigin函数

如果Rastrigin函数用作测试功能的情况变化了,不仅需要一半的PGPE 和SupSymPGPE相比,效果似乎也成为更强的高维搜索空间。我们还增加了SupSymPGPE情节与元参数最优(贪婪的)SyS-PGPE显示效果,不仅是由于(最优)更积极的元参数。而且这比PGPE也更有效率,但是效果不太明显。

3 结论和下一步需要进行的工作

我们介绍了SupSymPGPE,一个完全地基线自由PGPE,它是使用quasisymmetric关于样品。勘探参数。我们表明,Rastrigin功能,作为一个测试函数的例子与指数许多当地的最适条件,这部小说方法明显优于标准SyS-PGPE和两种方法成为等效性能如果搜索空间缺乏分散当地的最适条件。性能测试的标准和最佳的基准。我们还发现了几个约束作为惩罚项的奖励功能有supsympgpe也优于标准PGPE清楚一个问题。我们也表现出与引入惩罚条款奖励函数制约的例子,SUPS MPG也优于标准PGPE。到目前为止,在所有的实验中进行的(也不列在这里)SupSymPGPE比标准的 PGPE更有效。然而,最引人注目的特性是如果搜索空间变得不稳定,那么MPG应该是更强大。

对于今后的工作中,我们要强调的是SUPS MPG可以很容易地与PGPE的其他扩展结合起来。多模态PGPE可以直截了当配备SUBSYS。在未来,我们会认为完成此实验结果是有趣的事情。此外,PGPE自然梯度可以被定义为SUBSYS梯度,而不是thevanilla梯度。Whileit是很难想象的一个抽样方案,该方案是对称充分协方差样本,它可以很容易地产生超对称样品中的协方差矩阵定义的旋转空间。

然而重要性采样是减少所需的评价非常有效的方法,通过它不能直接应用于SupSymPGPE。如果SupSymPGPE用于性能原因和基线,它可通过添加历史标准示例和SupSymPGPE PGPE更新直接样品。另一种替代方法就是使用重要性混合,它也是使用同样的因素。

未来工作的最后一个重点是理论结果验证,也是机器人任务,也是SupSymPGPE及其他PGPE扩展的组合。