基于人工智能的无人机区域侦察方法研究现状与发展

2020-02-04 07:28吴兆香欧阳权王志胜马瑞丛玉华
航空科学技术 2020年10期
关键词:人工智能

吴兆香 欧阳权 王志胜 马瑞 丛玉华

摘要:区域侦察是无人机研究领域的一个重要分支。由于实际任务和环境十分复杂,区域侦察控制方法必须具备较快的计算速度、较强的自主性和智能性。人工智能因具有学习能力强、效率高、融合度高等特性被应用于区域侦察任务中。本文系统介绍了区域侦察问题的背景并综述了基于人工智能解决该问题的方法,主要分为构造并优化目标函数的启发式算法和求解最优价值或策略的深度强化学习方法这两类。通过对上述方法的全方位比较,发现深度强化学习因具有自学习和在线学习的性能,能很好地适应复杂、未知环境进而能快速、准确解决区域侦察问题。此外,本文还探讨了无人机区域侦察技术的发展趋势及深度强化学习面临的挑战。

关键词:人工智能;区域侦察;深度强化学习;启发式算法;自主智能

中图分类号:TP18文献标识码:ADOI:10.19452/j.issn1007-5453.2020.10.010

基金项目:江苏省高校自然科学研究面上项目(18KJB520023);南京理工大学紫金学院校科研项目(2019ZRKX0401006)

无人机因具有机动性高、隐蔽性好、生存能力强、成本低等特点,被广泛应用于救灾抢险、环境监测、监控搜寻、航空记录等领域,无人机区域侦察是其中一项重要的任务。随着环境和任务的日渐复杂,单个无人机因完成任務载荷低、计算能力弱、感知范围小已不能满足人们的需求。因而,无人机“集群”概念随即产生,越来越智能化和体系化,无人机群协同侦察也成为当下的一个研究热点[1-2]。

无人机区域侦察的核心任务是获取一个或多个目标位置信息,可分为目标位置信息已知和目标位置信息未知两种情形。早期的研究[3-5]多是针对目标信息已知的情况,此时无人机需要规划航路抵达目标所在位置,从而获取更详细的信息或者监视跟踪它。V. K. Shetty等[3]基于优先级将目标分配给无人机,用禁忌搜索启发式算法协调分解问题,用欧几里得(Euclid)公式计算距离代价函数,从而完成多无人机的路径规划。但随着任务环境日趋复杂化,无人机无法获得目标的具体信息[6-8]。因此,需要研究无人机在目标位置信息未知的情况下执行区域侦察任务,即通过算法规划出无人机航路使其侦察覆盖率最大,从而能大范围、快速搜索到目标以获取信息。J. Tisdale等[6]设计了一个基于视觉的传感系统,该系统允许在同一个框架中进行目标搜索和定位,无人机之间传递似然函数,协同搜索目标。

值得注意的是,现实场景和任务会遇到通信存在干扰甚至通信拒止的情况。这种情况下,无人机无法实时接收到系统发出的控制指令,需要无人机具备自主控制的能力从而独立或者协同完成目标搜索任务。沈延航等[9]基于搜索域上的“回报率”状态图,研究了多无人机协同搜索规划方法并将其与随机搜索进行比较,协同搜索方法明显更优。杨少环等[10]根据无人机和目标的行为建立了博弈模型,以扫描方式规范路径,实现待搜索区域的完全覆盖。

目前,用来求解目标搜索问题的方法种类繁多,如何判断这些算法的优劣也成为一个问题。一般而言,评价指标有完成区域侦察所需时间、区域覆盖率、无人机数量、航路长短、能量损耗等。参考文献[11]采用多无人机斜线编队的方式对任务区域进行侦察,以覆盖率为指标函数,避免无人机并行造成的面积重叠问题并提高了搜索效率。参考文献[12]将区域遍历搜索问题转化为最优问题,即使最后完成任务的无人机花费的时间最小化,并结合一些约束条件,最终达成无人机数量最少、路径最短、时间最短的搜索目的。实质上,这些评价指标都是基于算法的侦察代价函数而言的,函数考虑的因素越多,约束越复杂,实现后的效果越优越。

总之,在无人机区域侦察领域,主要研究有单/多无人机、静态/动态目标[13]、无人机自主/协同控制、性能指标优化、航迹规划等,研究宽泛而复杂,对方法要求越来越高。近年来,由于人工智能[14-17]能够模仿人的思维进行思考,甚至是做出决策,在某些方面超过人的智能,所以学者们对其展开大量理论研究和实际应用,使其发展迅速并逐渐深入人们的生活,在现代科技领域有着广泛的应用和广阔的前景。用人工智能方法求解无人机区域侦察问题确实能使无人机自主协同、高效率、低成本地完成任务,具有极高的研究意义。

本文分类整理了人工智能在无人机区域侦察上的应用,比较了各方法的性能优劣,以便研究者们能够快速掌握无人机区域侦察的研究现状,从而进一步展开深层次的研究。

1问题概述

无人机被任意部署在特定任务区域周围,并对这个区域进行侦察,在满足无人机控制的基础上实现短时间内区域覆盖最大、目标确认最多的目的,并计算完成任务区域完全覆盖、目标全部确认的总时间。无人机区域侦察任务环境示意图如图1所示。

任务区域可能是布满高楼大厦的陆地,或者是广阔辽远的海面;区域内没有障碍物或者障碍物是隐性的等,这都是由现实情况所定的。现实环境随机变化的复杂性要求算法有一定的智能性、自主性,能够识别环境特征、躲避障碍物,实现区域侦察、快速覆盖。

此外,无人机进行区域侦察的终极目的是找到任务区域内的目标,并将其位置、动态信息反馈给控制中心以便分配下一任务。而目标在区域内的位置也是任意的,包括已知或未知、静止或动态、普通或高级等情况。这就导致算法需要具备更高的性能才能快速、高效、准确地搜索到目标。

人工智能因具有搜索技术、知识库技术、归纳技术等基本技术在求解区域侦察问题上具有一定的优越性。所以,本文致力于研究人工智能求解无人机区域侦察问题,具体框架图如图2所示。将基于人工智能处理区域侦察问题的方法分成两类:一类是构造目标函数并进行优化的启发式算法;另一类是求解最优价值或策略并实施在线奖惩的深度强化学习方法。

2传统方法

在人工智能方法还未普及之前,学者们把区域当作研究突破点,即将区域划分成小块分配给每个无人机。那么问题就转化为单无人机规划问题:每架无人机在各自领域内进行航迹规划,搜索所在区域的目标,降低了问题的复杂性。

为了追求均衡,一般是将任务区域等面积划分。每个无人机分得相同面积的区域,然后规划如何在该区域内快速找到目标。高春庆等[18]先将任务区域划分为小网格,每4个小网格汇聚成一个方格,基于方格划分区域进而优化每个无人机的侦察路径。但是方格数量不一定会使每个无人机分配到的搜索面积完全相等,存在近似情况。基于面积均衡原则,戴健等[19]研究了凸多边形和非凸多边形的区域划分。依据无人机来向,将凸多边形区域划分为n等份(n为无人机数量);利用区域分割线平行于某一边界的原则[20]在区域凹口处进行凸分解,再进行凸等分。

上述文献区域内没有禁飞区或者障碍且没有考虑到无人机的初始位置;将无人机任务区域固定没有充分考虑区域形状对无人机转弯的影响,导致无人机执行时会有难度。参考文献[21]依据无人机初始位置进行Voronoi图[22](V图)划分,每走完一步就进行V图更新。每个无人机在各自的V图区域内进行侦察搜索。随着搜索的进行,任務区域的不确定度就会不断降低。

上述方法虽然各有优点,但也存在相应问题:未考虑无人机转弯数从而增加执行难度;最优解难以求得,计算复杂,而且还存在区域重复侦察的情况。最主要的问题是无人机只负责各自分得的区域独立完成任务,相互之间没有信息交流、协同合作。然而,每个区域内的目标数量是不一样的、复杂度也不统一,易出现无人机先完成目标搜索然后在此区域内重复搜索的情况,导致资源利用不合理、不充分而大量浪费,经济效益不高。所以,需要研究更智能的算法:不需要区域划分,无人机直接侦察区域;无人机能够根据具体情况实时、自主采取措施;无人机之间相互配合协同工作,更合理、更智能、更快速地实现区域侦察任务。

3人工智能方法

人工智能作为计算机科学的一部分,研究如何表示、获得、运用知识,通过模拟人的思维方式并将其应用到机器中,使机器具有智能性。无人机在执行区域侦察任务时,由于环境复杂多变很可能发生无人机无法做出及时、准确的判断而导致任务失败的情况。因此,需要深入研究如何让无人机具备一定的自主性。这与人工智能方法的特点是相呼应的,所以将人工智能应用在无人机区域侦察问题上具有极高的现实、实用意义。

3.1目标函数优化——启发式算法

20世纪80年代,启发式算法一出现就成为一个新兴领域,成为人工智能以及经济、社会、生物等交叉学科的研究热点。在没有集中控制和全局模型的前提下,自然界中简单的个体通过组织和相互协作做出群体智能行为,具有天然的自组织特征,为解决复杂问题提供新的求解思路。启

发式算法主要有蚁群算法[23-24](ACO)、粒子群算法[25-26](PSO)、遗传算法[27-28](GA)等,通过构造无人机区域侦察问题的目标函数,用启发式算法的智能性来求解,有一定的研究意义。

3.1.1基于蚁群算法求解区域侦察

蚂蚁是自然界中的一种微小、弱势的群体,单独的蚂蚁没有太多智能行为,但当多个蚂蚁一起工作时,它们可以沿着最优的路径寻找、搬运食物,具有良好的协同性、智能性。具体蚁群寻找最优路径的过程如图3所示。图3(a)表示蚁群遇到一个分叉路口,需要做出选择;图3(b)表示上下两条路径长度是不等的,蚂蚁随机选择一条;图3(c)表示选择下面这条路的蚂蚁先到达目的地,沿原路返回并释放更多的信息素;图3(d)表示下面路径积累的信息素比上面路径更多,蚂蚁倾向于选择下面这条路,也就是信息素多的路径(图3中的虚线表示信息素)。

同样,将蚁群寻找最优路径的想法应用到无人机区域侦察上面,能优化各个无人机的路径,减少能量损失。

参考文献[29]将任务区域分为8个子区域,采用蚁群算法使得每个区域的飞行路线最优,从而求得最佳侦察方案;参考文献[30]提出多群体蚁群算法来优化多无人机协同目标搜索算法。不再局限于一个蚁群群体,而是拓展至多个蚁群群体,与多无人机的编队相呼应,比较适用于多无人机编队执行区域侦察任务。

多群体蚁群算法求解多无人机区域侦察问题的思路如下:增加蚁群群体,多群体蚁群共同解决更复杂的多无人机区域侦察问题;处于不同群体具有相同编号的蚂蚁之间信息素相互排斥,增加负反馈机制;蚂蚁之间的组合方式多样,增加系统的稳定性;确定下一步动作时使用轮盘赌选择法;每次迭代结束后只更新全局最优的路径,加快算法的收敛速度;根据代价函数及时计算已搜索目标的收益,减少重复率。

此外,该算法还考虑了无人机的禁飞区:通过探测是否到达禁飞区并判断哪个方向是不会进入禁飞区的。因此,在含有禁飞区的任务区域内,该算法使无人机能够自主避开所有禁飞区,最终得到无人机数量少、时间短、路线优的区域侦察方案。

蚁群算法因其多元性、整体性、相关性、分布式计算、自组织、正反馈等特征而被广泛应用于组合优化问题上,可以用来求解区域侦察无人机航迹规划问题。

3.1.2基于粒子群算法求解区域侦察

PSO算法流程如下:(1)粒子群初始化:包括种群规模、权重系数、速度位置信息等;(2)计算每个粒子的适应度值,找出个体最优值和全局最优值;(3)判断是否是最优解:若是最优解或者达到迭代次数,则输出该解。否则根据式(2)更新粒子的速度和位置信息;(4)更新速度和位置并返回第(2)步,进行新一轮的迭代。

上述流程可以看出,PSO算法简单易实现,并且不需要调整太多的参数,计算量小,收敛速度快,特别适合求解优化问题。

许友平[31]用粒子群算法求解目标搜索阶段的航路规划问题,使无人机在较短的时间内遍历任务区域,从而侦察到更多的目标,降低区域信息的不确定度。参考文献[32]用粒子群算法为每架无人机规划航路,在求解过程中,将其他无人机考虑进目标函数,从而实现多无人机的协同搜索,如图4所示。

3.1.3基于遗传算法求解区域侦察

遗传算法[33]是一种模拟自然界生物进化的迭代进化算法,依据“优胜劣汰,适者生存”的原则对种群进行筛选,经过选择、交叉、变异操作,不断接近最优解直至求得最优解[34]。图5解释了遗传算法的主要过程。主要思想是:将可能解看作种群中的个体,并对其编码;基于适应度函数对个体进行评价;接着选择、复制优良个体(适应度函数值较高的个体);交叉、变异产生新的个体,更新种群。重复以上操作,直至满足终止条件,从而求得最优解,具有良好的全局搜索能力。

参考文献[35]采用经典的遗传算法求解多无人机进行区域监视的航路规划问题,具体步骤如下:

(1)基因编码[36]:对无人机的转弯角进行编码而不是直接对无人机的位置进行编码,一方面是更新后的位置可能违背无人机的飞行约束条件;另一方面在计算量上有明显的优势。

(2)初始化种群:种群用矩阵表示,矩阵大小是s×N,种群个体为s,即无人机群的协同飞行方式;N是无人机数量。

(3)适应度函数[37]:无人机群在下一时刻的区域面积覆盖率,用无人机的侦察面积除以任务区域的总面积。

(4)选择:采用轮盘赌选择法[38],适应度值越大的个体被选择的概率就大。

(5)交叉与变异[39-40]:基于交叉概率两两配对进行转弯角互换;基于变异概率随机对某个转弯角变异。

(6)判断是否满足最大迭代次数,若满足则输出整个过程中适应度值最大的个体;若不满足则转到(4)继续。

经过以上遗传操作,依次得到无人机接下来每一步的转弯角,再将其转换为无人机的位置和航向信息,一个个节点连接起来便形成各架无人机的航迹。从而实现满足任务区域覆盖最大的航迹规划。

参考文献[41]针对传统遗传算法耗时长、易陷入局部最优解的缺点,在传统的遗传算法上做了改进,加入了反向思想[42],提高种群的多样性并提高解的质量。

除了以上三种启发式算法,还有很多算法被用来求解区域侦察问题,如参考文献[43]采用离散布谷鸟搜索算法[44-45]来求解如何使得遍历全部侦察区域的航程最短、时间最少、侦察收益最大,并通过仿真验证其有效性和可行性。

上述启发式算法求解无人机区域侦察问题的出发点是建立无人机侦察过程中的目标函数,将问题转化为优化问题,然后用这些算法来求解目标函数,即求得最优解,再实现无人机的航迹规划。但如果这些目标函数考虑的全面而复杂、无人机数量较多时,维数增加,计算量会很庞大;约束条件增多,求解困难甚至可能求不出解。所以,还需研究更智能、更强大的算法来解决这些问题。

3.2策略优化——深度强化学习

强化学习[46-47]是机器学习的一种,其本质是描述智能体不断与环境交互进行策略学习,解决如何使环境回报值最大或实现特定目标的问题。具体的模型如图6所示。

智能体在当前状态执行动作a,环境接受该动作后赋予智能体新的状态s并反馈一个回报r给智能体,智能体根据回报r调整策略并重复学习,不断得到状态-动作值关系对,直至任务完成并产生一个最优的策略。

强化学习由于其试错搜索、延迟奖赏的特点,被用来训练无人机的自主性,能使无人机完成一些复杂决策的任务。但在面对复杂高维环境时,状态矩阵的维度会非常大,无法找到最佳的状态-动作关系,导致智能体不能做出正确的动作。而深度学习[48-49]模仿人脑对数据进行处理,给出解释,自主性更强。用函数拟合问题替代强化学习中的状态-动作值函数矩阵更新问题,状态相近输出也相近,进而解决复杂环境下的决策问题。

因此,将深度神经网络与强化学习融合起来构成深度强化学习[50],汲取两者的优势、补足相应的不足,在计算机视觉、游戏、机器人等领域取得较大的突破,正逐步成为机器学习、人工智能领域最火热的应用方向,具有极高的研究价值。当然,深度强化学习在无人机方面的技术也越来越成熟,关于区域侦察任务也有所涉及。

3.2.1基于深度Q网络求解区域侦察

深度Q网络[51](deep Q-network,DQN)将深度学习中的卷积神经网络(convolutional neural network,CNN)与强化学习中的Q-Learning结合在一起。利用CNN处理大规模输入数据,输出提取到的特征,并發现数据的内在规律;然后用Q-Learning通过马尔可夫决策建立模型,不断更新神经网络的参数,从而实现对Q表的拟合。具体算法原理如图7所示。

DQN强大的两个因素是经验回放和两个神经网络。从经验池里随机抽取数据进行估计网络,减少数据间的关联性[52];估计值网络训练出值函数的估计值,目标值网络训练出值函数的期望值,计算两者的差值再利用随机梯度下降更新估计值网络的参数,进行新一轮的训练。估计值网络和目标值网络是两个完全一样的网络,只是网络参数更新步调不一致,相差一个步长。这种延迟更新参数的方式也减少了相关性。

李艳庆[35]用DQN解决多无人机协同区域监视的航路规划问题,在一定程度上解决多无人机对任务区域的覆盖问题,主要关键点如下。

(1)确定无人机状态和动作

每架无人机的状态包括三个元素:位置横坐标、位置纵坐标、速度方向;在小于最大转弯角的前提下对可到达位置圆弧进行均分,确定可选择的动作。

(2)确定奖赏函数

针对多无人机区域侦察问题,将无人机群的监视面积覆盖率作为奖励函数。

(3)训练网络

通过以上步骤对估计值网络和目标值网络进行训练,采用梯度下降方法不断逼近目标值、更新网络参数,使得各个无人机执行训练得到的动作,进而形成航路来进行区域侦察任务。

3.2.2基于近端策略优化算法求解区域侦察

近端策略优化算法[53](proximal policy optimization,PPO)也是深度强化学习的一种,是基于策略梯度的异策略学习算法。它不同于DQN,因为DQN是通过估计最优价值函数来求得最优策略;而PPO试图用含参函数近似最优策略,通过迭代更新参数值。简言之,DQN是一种最优价值算法,PPO是一种策略梯度算法。

PPO算法本质上是Actor-Critic算法,Actor网络输入是智能体的状态,输出是智能体采取行为的概率分布;Critic网络输入是Actor网络选择动作后的下一状态,输出是状态的价值。Critic计算下一状态的价值加上环境给的回报与当前状态的价值的差值,即时间差分(temporal-difference error,TD-error),如果下一状态值大于当前状态值,则critic会告诉actor当前状态下的动作选择的概率应该增加,否则减小,并且概率变化的幅度由TD-error决定。具体原理图如图8所示。

参考文献[54]用PPO算法来解决室内无人机随机搜索目标问题,提出一种基于位置标注的好奇心驱动的PPO算法,提高了算法的搜索效率和准确度,缩小训练周期。

无人机的动作有前进、后退、左移、右移、左转、右转、上升、下降和无动作共9种。奖励规则[54]见表1。

将PPO算法和基于空间位置标注好奇心探索的算法结合起来,展示一个无人机如何在室内以较快速度进行目标搜索的过程,并获得了在陌生区域随机搜索目标、躲避障碍物和实时调整高度的技能,很好地解决了无人机在搜索过程中陷入局部区域出不来的问题,具有高准确性、短训练周期、高智能水平等特点。

将深度学习的拟合函数、神经网络与强化学习的试错搜索、延迟奖赏结合起来形成深度强化学习,并将其应用在无人机区域侦察问题上有助于训练无人机的自主性,使其自主决策完成复杂任务[55]。然而,现有的深度强化学习算法大多数采用无模型的结构,虽然简化了算法的复杂度,但需要大量的样本数据和较长的训练时间。此外,奖励函数设计比较困难,稀疏的奖励使得学习经验难以稳固,训练困难,难以收敛而积极地奖励,智能体容易钻空子,产生预期外的结果。目前深度强化学习还很不稳定,超参数的设置直接影响训练结果,调参困难,延展性不好,适用性不强。通过研究基于模型的深度强化学习方法[56]不仅能够解决训练时间长的问题,还能提高数据利用效率、增强网络的泛化性,使其有效应用在现实任务场景中。

4比较和展望

4.1比较

对上面介绍的主要技术进行了各方面的比较,结果见表2。算法的差异主要体现在离线/在线、评价指标、经济性和自主性上面。

传统方法和启发式算法都是离线规划无人机的航路的,而深度强化学习方法能够实现在线规划、实时调整无人机航路,具有较优的性能。随着研究的深入,无人机执行任务过程中考虑的因素越来越多,约束条件和目标函数越来越复杂,算法性能也就越来越好。相较于传统方法,人工智能方法的经济性更高、评价指标更丰富、更全面。启发式算法在面对解空间变大问题时只能扩大算法的搜索空间再将其离散化寻找最优解,因而导致算法计算时间变长甚至是找不到全局最优解,陷入局部最优解。而基于策略梯度的深度强化学习能适应连续的动作空间,可选择的动作数不胜数但能输出最优的那个动作值,在这方面是优于启发式算法。此外,在无人机自主性这方面,目前只有深度强化學习方法涉及,其他方法还不能实现无人机自主完成任务的目的。

综上,人工智能算法在无人机区域侦察问题上的研究越来越深入,尤其是深度强化学习方法。不仅在已有方法的基础上从单/多无人机、区域内有/无障碍物、离线/在线规划航路、评价指标约束多少、经济性等方面不断提高算法性能,还开始研究无人机的自主性,促使研究更全面、性能更优、效率更高、更智能。

4.2展望

随着无人机的应用需求不断扩大,人工智能技术不断革新,人工智能在无人机各领域的应用将日趋增加。而无人机在区域侦察方面的技术由于无人机自身飞行约束条件颇多、任务环境越来越复杂等因素还需进一步发展,未来发展趋势[57]如图9所示,主要包括以下4个方面:

(1)高效率是未来区域侦察技术发展的重要方向:快速、高效的计算能力使得无人机在执行区域侦察任务时能更精准地找到区域内的目标,从而反馈信息给控制中心,方便控制中心及时做出判断,發布下一任务。

(2)多智能体是未来区域侦察技术发展的必要方向:随着任务区域的扩大化,单架无人机已不能满足侦察需求,需要多架无人机一起协同搜索区域。

(3)动态实时性是未来区域侦察技术发展的生存保证:由于任务区域内的目标信息越来越不可预知,目标具有一定的反抗攻击能力也是有可能的。这时就需要无人机在飞行过程中能够实时改变航向,躲避障碍物。此外,在线规划比离线规划更符合未来发展需求。

(4)自主性、智能性是未来区域侦察技术发展的最终目标:在通信不畅甚至阻断的环境中,无人机接收不到控制中心发出的指令,需要无人机针对现场环境自主控制,做出如何飞行的判断从而自主完成侦察任务。

目前,学者们针对无人机侦察效率、多无人机协同完成任务已经做了大量研究,研究成果较多;但是无人机动态实时规划航路和自主完成任务这两个方面的研究还是浅层次的。因为基于启发式算法的人工智能技术已趋于饱和而基于深度强化学习的人工智能技术才刚刚开始,不够深入,具体的研究难点有:(1)将深度强化学习对应到人脑机理的生理学基础;(2)将知识迁移技术运用到深度强化学习中;(3)将更多的深度学习模型运用到深度强化学习中。

由此可见,无人机区域侦察和深度强化学习相结合是未来研究趋势,着重攻破上述深度强化学习存在的难点并将其应用在区域侦察上,实现实时规划、调整无人机的航路及无人机智能控制、自主完成任务的最终目标。

5结束语

本文针对无人机区域侦察任务进行了相关研究,介绍了求解该问题的主要方法包括传统算法和人工智能算法并详细阐述各种算法是如何应用在区域侦察问题上的。此外,还概括以上算法的特性和优缺点,对比算法的优劣性。结果表明人工智能方法相比于传统方法更智能,无人机不再是独立完成各自的任务而是产生信息交互,能够协同完成任务;深度强化学习算法比启发式算法更自主,深度强化学习训练得到的策略具有在线规划特性,能够根据现实场景实时改变航向,更符合现实任务要求。最后,对未来区域侦察技术发展做了几点延伸并阐明深度强化学习存在的应用难点,可供研究者们开展更为深入的研究。

参考文献

[1]Sonia T. UAV cooperative decision and control:challenges and practical approaches[J]. IEEE Control Systems Magazine,2010,30(2):104-107.

[2]Ren W,Beard R W. Distributed consensus in multi-vehicle cooperative[M]. London:Springer,2008.

[3]Shetty V K,Sudit M,Nagi R,et al. Priority-based assignment and routing of a fleet of unmanned combat aerial vehicle[J]. Computers & Operations Research,2008,35(6):1813-1828.

[4]Koopman B O. The theory of search,II. target dection[J]. Operations Research,1956,4(5):503-531.

[5]Koopman B O. The theory of search:optimum distribution of searching effort[J]. Operations Research,1957,5(5):613-626.

[6]Tisdale J,Kim Z,Hedrick J,et al. Autonomous UAV path planning and estimation[J]. IEEE Robotics & Automation Magazine,2009,16(2):35-42.

[7]Bertuccelli L F,How J P. Search for dynamic targets with uncertain probability maps[C]//In proceeding of the American Control Conference,2006.

[8]Bourgault F,Furukawa T,Durrant-Whyte H F. Decentralized bayesian negotiation for cooperative search[C]//Proceeding of the International Conferenc on Intelligent Robots and Systems,2004.

[9]沈延航,周洲,祝小平.基于搜索理论的多无人机协同控制方法研究[J].西北工业大学学报, 2006(3): 367-370. Shen Yanhang, Zhou Zhou, Zhu Xiaoping. Research on cooperative control method of multiple UAVs based on search theory[J]. Journal of Northwestern Polytechnical University, 2006(3):367-370.(in Chinese)

[10]杨少环,高晓光,符小卫.基于博弈论的无人机搜索路径规划[J].系统工程与电子技术,2011,33(10):2254-2257. Yang Shaohuan, Gao Xiaoguang, Fu Xiaowei. UAV search path planning based on game theory[J]. Systems Engineering and Electronics, 2011,33(10): 2254-2257.(in Chinese)

[11]王勛,姚佩阳,梅权.多无人机协同运动目标搜索问题研究[J].电光与控制, 2016, 23(8): 18-22. Wang Xun, Yao Peiyang, Mei Quan. Research on multi-UAV cooperative moving target search[J]. Electronics Optics and Control, 2016, 23(8): 18-22.(in Chinese)

[12]Brown S S. Optimal search for a moving target in discrete time and space[J]. Operations Research,1980,28(6):1275-1289.

[13]Washburn A R. Search for a moving target:the FAB algorithm[J]. Operations Research,1983,31(4):739-751.

[14]王文杰.人工智能原理与应用[M].北京:人民邮电出版社, 2004. Wang Wenjie. Principles and applications of artificial intelligence[M]. Beijing: Posts and Telecom Press, 2004.(in Chinese)

[15]王万良.人工智能及其应用[M].北京:高等教育出版社, 2005. Wang Wanliang. Artificial intelligence and its applications[M]. Beijing: Higher Education Press, 2005.(in Chinese)

[16]马骋乾,谢伟,孙伟杰.强化学习研究综述[J].指挥控制与仿真, 2018(6): 68-72. Ma Pinqian, Xie Wei, Sun Weijie. A review on reinforcement learning[J]. Command Control and Simulation, 2018(6): 68-72.(in Chinese)

[17]王宇楼.人工智能的现状及今后的发展趋势展望[J].科技展望, 2016, 26(22): 299. Wang Yulou. The current situation of artificial intelligence and its development trend in the future[J]. Technology Outlook, 2016,26(22): 299.(in Chinese)

[18]高春庆,寇英信,李战武,等.小型无人机协同覆盖侦察路径规划[J].系统工程与电子技术, 2019,41(6): 1294-1299. Gao Chunqing, Kou Yingxin, Li Zhanwu, et al. Cooperative coverage reconnaissance path planning for small UAVs[J]. Systems Engineering and Electronics, 2019, 41(6): 1294-1299.(in Chinese)

[19]戴健,许菲,陈琪锋.多无人机协同搜索区域划分与路径规划研究[J].航空学报, 2020, 41(S1):723770. Dai Jian, Xu Fei, Chen Qifeng. Study on multi-UAV cooperative search on region division and path planning [J]. ActaAeronautica et Astronautica Sinica, 2020, 41(S1): 723770.(in Chinese)

[20]Yan Li,Hai Chen,Meng J E,et al. Coverage path planning for UAVs based on enhanced exact cellular decomposition method[J]. Mechatronics,2011(21):876-885.

[21]朱利,符小卫.基于Voronoi图质心的多无人机协同区域搜索算法[J].无人系统技术,2019(2):39-51. Zhu Li, Fu Xiaowei. Multi-UAV cooperative area search algorithm based on Voronoi diagram center of mass[J]. Unmanned System Technology, 2019(2): 39-51.(in Chinese)

[22]Breitenmoser A,Schwager M,Metzger J C,et al. Voronoi coverage of non-convex environments with a group of network robots[C]//2010 IEEE International Conference on Robotics andAutomation,2010:4982-4989.

[23]Dorigo M,Gambardella L M. Ant colony system:a cooperative learning approach to the traveling salesman problem[J]. IEEE Transactions on Evolutionary Computation,1997(1):53-66.

[24]Wu H,Li H,Xiao R,et al. Modeling and simulation of dynamic ant colonys labor division for task allocation of UAV swarm[J]. Physica A:Statistical Mechanics and its Applications,2018,491:127-141.

[25]Kennedy J,Everhart R. A new optimizer using particle swarm theory[C]//Proceedings of the sixth International Symposium on Micro Machine and Human Science,1995:39-43.

[26]James K,Russell E. Particle swarm optimization[C]//1995 IEEE International Conference on Neural Networks,1995:1942-1948.

[27]雷德明,严新平.多目标智能优化算法及其应用[M].北京:科学出版社,2009. LeiDeming,YanXinping.Multi-objectiveintelligent optimization algorithm and its application[M]. Beijing: Science Press, 2009.(in Chinese)

[28]张莹莹,周德云,夏欢.不确定环境下多无人机协同搜索算法研究[J].电光与控制, 2012, 19(2): 5-8. Zhang Yingying, Zhou Deyun, Xia Huan. Research on multiUAV cooperative search algorithm in uncertain environment[J]. Electronics Optics and Control, 2012, 19(2): 5-8. (in Chinese)

[29]孙纯岭,李影,任磊磊,等.无人机灾情巡查区域搜索的建模与求解[J].数学的实践与认识,2018,48(15):83-93. Sun Chunling, Li Ying, Ren Leilei, et al. Modeling and solving of UAV disaster patrol area search[J]. Mathematics in Practice and Theory, 2018, 48(15): 83-93.(in Chinese)

[30]薛政钢.基于多群体蚁群算法的多无人机协同搜索方法研究[D].开封:河南大学,2018. Xue Zhengang. Research on multi-UAV cooperative search method based on multi-colony ant colony algorithm[D]. Kaifeng: Henan University, 2018.(in Chinese)

[31]许友平.无人机对地侦察/攻击航路规划软件系统的研制与开发[D].南京:南京航空航天大学,2013. Xu Youping. The research and development of the software system of UAV reconnaissance/attack route planning[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2013.(in Chinese)

[32]鄭宏捷.无人机区域侦察航路规划研究[D].长沙:国防科学技术大学,2011. Zheng Hongjie. Research on regional reconnaissance route planning of UAV[D]. Changsha: National University of Defense Technology, 2011.(in Chinese)

[33]Taylor C E. Adaptation in natural and artificial systems:an introductory analysis with applications to biology,control,and artificial intelligence. complex adaptive systems[J]. The Quarterly Review of Biology,1994,69(1):88-89.

[34]李敏强,寇纪淞,林丹,等.遗传算法的基本理论与应用[M].北京:科学出版社, 2002. Li Minqiang, Kou Jisong, Lin Dan, et al. The basic theory and application of genetic algorithm[M]. Beijing:Science Press,2002.(in Chinese)

[35]李艳庆.基于遗传算法和深度强化学习的多无人机协同区域监视的航路规划[D].西安:西安电子科技大学,2018. Li Yanqing. Route planning of multi-UAV cooperative regional surveillancebasedongeneticalgorithmanddeep reinforcement learning[D]. Xian: Xidian University, 2018.(in Chinese)

[36]朱春媚,莫鸿强.一类适应度函数的遗传算法编码[J].计算机应用, 2017(7): 1972-1976. Zhu Chunmei, Mo Hongqiang. Genetic algorithm coding of fitness function[J]. Journal of Computer Applications, 2017(7): 1972-1976.(in Chinese)

[37]常佳佳,郭百巍,王星德.基于遗传算法的模型辨识[J].计算机仿真, 2015(2): 102-105. Chang Jiajia, Guo Baiwei, Wang Xingde. Model identification based on genetic algorithm[J]. Computer Simulation, 2015(2): 102-105. (in Chinese)

[38]Goldberg D. Genetic algorithms in search,optimization and learning[M].Addison-Weseley,1989.

[39]李翠翠.混合自进化遗传算法的矢量场校正研究[D].哈尔滨:哈尔滨工程大学, 2016. Li Cuicui. Vector field correction based on hybrid selfevolutionary genetic algorithm[D]. Harbin: Harbin Engineering University, 2016.(in Chinese)

[40]Larra A P,Kuijpers C M H,Murga R H,et al. Genetic algorithms for the travelling salesman problem:a review of representations and operators[J]. Artificial Intelligence Review,1999,13(2):129-170.

[41]溫永禄.不同信息条件下的多无人机协同区域搜索航迹规划研究[D].北京:北京理工大学, 2016. Wen Yonglu. Research on cooperative regional search track planningofmultipleUAVunderdifferentinformation conditions[D]. Beijing: Beijing Institute of Technology, 2016.(in Chinese)

[42]Rahnamayan S,Tizhoosh H R,Salama M M A. Oppositionbaseddifferentialevolution[J].IEEETransactionson Evolutionary Computation,2008,12(1):64-79.

[43]张耀中,陈岚,张蕾,等.一种改进CSA算法的UAV多任务区侦察决策问题研究[J].电光与控制, 2018, 25(5): 1-6. Zhang Yaozhong, Chen Lan, Zhang Lei, et al. An improved CSA algorithm for UAV reconnaissance decision in multiple mission area[J]. Electronics Optics and Control, 2018, 25(5): 1-6.(in Chinese)

[44]Yang X S,Deb S. Engineering optimization by cuckoo search[J]. International Journal of Mathematical Modelling and Numerical Optimization,2010,1(4):330-343.

[45]Yang X S,Deb S. Cuckoo search:recent advances and applications[J]. Neural Computing and Applications,2014,24(1):169-174.

[46]谭民,王硕,曹志强.多机器人系统[M].北京:清华大学出版社, 2005. Tan Min, Wang Shuo, Cao Zhiqiang. Multiple robotic systems[M]. Beijing: Tsinghua University Press, 2005.(in Chinese)

[47]David S. Smooth UCT search incomputer poker[C]// Proceedings of International Joint Conference on Artificial Intelligence,2015:554-560.

[48]Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning,2009,2(1):1-12.

[49]Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.

[50]Mnih V,Kavukcuoglu K,Silver D,et al. Playing Atari with deep reinforcement learning[C]//Proceedings of fine NIPS Workshop on Deep Learning,2013.

[51]褚伟,茹琦,任明仑.结合先验知识的深度Q神经网络算法研究[J].合肥工业大学学报(自然科学版), 2019, 42(7): 901-905. Chu Wei, Ru Qi, Ren Minglun. Research on deep Q network algorithm based on prior knowledge[J]. Journal of Hefei university of technology (Natural Science), 2019, 42(7): 901-905.(in Chinese)

[52]Lin L J. Reinforcement learning for robots using neural works[D]. Pittsburgh:Carnegie Mellon University,1993.

[53]Schulman J,Wolski F,Dhariwal P,et al. Proximal policy optimization algorithms[D]. New York:Cornell University,2017.

[54]赖俊,饶瑞.深度强化学习在室内无人机目标搜索中的应用[EB/OL]. (2020-05-25).Http://kns. cnki. net/kcms/detail/11. 2127.TP.20191113.1528.014.html. Lai Jun, Rao Rui. Application of deep reinforcement learning in indoor UAV target search[EB/OL]. (2020-05-25). Http://kns. cnki. net/kcms/detail/11.2127. TP. 20191113.1528.014. html. (in Chinese)

[55]李文正.无人机发展刍议[J].航空科学技术, 2012(4):11-13. Li Wenzheng. Discussion on UAV development[J]. Aeronautical Science & Technology, 2012(4): 11-13.( in Chinese)

[56]Doll B B,Simon D A,Daw N D. The ubiquity of model-based reinforcement learning[J]. Current Opinion in Neurobiology,2012,22(6):1075-1081.

[57]蔣浩,高鑫.人因工程在无人机中的应用及展望[J].航空科学技术,2019,30(5):9-13. Jiang Hao, Gao Xing. Application and prospect of human cause engineering in UAV[J]. Aeronautical Science & Technology, 2019, 30(5): 9-13.( in Chinese)(责任编辑王为)

作者简介

吴兆香(1995-)女,硕士研究生。主要研究方向:无人机集群控制。

Tel:18851172812E-mail:wuzhaoxiang@nuaa.edu.cn

欧阳权(1991-)男,博士,讲师。主要研究方向:无人机飞行控制、电池管理等。

Tel:15968118392E-mail:ouyangquan@nuaa.edu.cn

王志胜(1970-)男,博士,教授。主要研究方向:信息融合,无人机蜂群控制、计算机视觉等。

Tel:13813019305E-mail:wangzhisheng@nuaa.edu.cn马瑞(1997-)男,硕士研究生。主要研究方向:深度强化学习。

Tel:17806258833

E-mail:maruinuaa@nuaa.edu.cn

丛玉华(1981-)女,博士研究生,讲师。主要研究方向:跨域协同、无人机飞行控制等。

Tel:13913981289

E-mail:28989116@qq.com

Status and Development of Regional Reconnaissance Methods of UAV Based on Artificial Intelligence

Wu Zhaoxiang1,Ouyang Quan1,*,Wang Zhisheng1,Ma Rui1,Cong Yuhua1,2

1. Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China

2. Nanjing University of Science and Technology,Nanjing 210023,China

Abstract: Regional reconnaissance is an important branch of unmanned aerial vehicle(UAV) research. Due to the complexity of the actual mission and environment, the control method of regional reconnaissance must be provided with fast calculation speed, strong autonomy and intelligence. Artificial intelligence has been used in regional reconnaissance because of its strong learning ability, high efficiency, and high degree of integration. This paper systematically introduces the background of the regional reconnaissance problem and summarizes the methods based on artificial intelligence to solve this problem, which are mainly divided into two categories: heuristic algorithms for constructing and optimizing the objective function and deep reinforcement learning methods for solving the optimal value or strategy. Given by a comprehensive comparison of the above methods, it is found that deep reinforcement learning performs self-learning and online learning well, which can adapt to complex and unknown environments,and further it can quickly and accurately solve regional reconnaissance problems. In addition, this paper also discusses the development trend of regional reconnaissance technology and the challenges faced by deep reinforcement learning.

Key Words:artificial intelligence; regional reconnaissance; deep reinforcement learning; heuristic algorithm; autonomous intelligence

猜你喜欢
人工智能
人工智能AI
人工智能
人工智能之父
2019:人工智能
人工智能
人工智能与就业
China’s Artificial Intelligence Revolution
数读人工智能
人工智能时代,就业何去何从
下一幕,人工智能!