基于强化学习的通信受限环境多无人机协同策略

2024-01-29 15:26邓丽敏陈蓓蓓
数字通信世界 2023年12期
关键词:决策协同状态

邓丽敏,陈蓓蓓,刘 慧

(南京铁道职业技术学院,江苏 南京 210031)

1 通信受限环境中的多无人机协同架构

通信受限环境中的多无人机协同架构是指在通信受限的环境,无人机之间如何进行信息交互和协同作业的方式。这种架构通常会考虑无人机之间的通信方式、信息传输速率和可靠性等因素。常见的通信方式包括Wi-Fi、蓝牙、移动数据传输等。在通信受限环境中,无人机需要选择适合自己的通信方式,并确保信息传输的可靠性。在信息交互方面,无人机需要通过无线通信网络进行信息交互,以实现彼此之间的协同作业。这种架构通常包括基站、无人机和移动终端等组成部分。在基站之间,无人机需要通过无线通信网络将数据传输到基站,再由基站转发给其他无人机。总体来说,通信受限环境中的多无人机协同架构需要考虑各种因素,以确保无人机之间的信息交互和协同作业的可靠性和安全性。

2 通信连接需求

多无人机协同通信是指多架无人机通过通信技术实现协同合作,提高通信效率和可靠性的过程。多无人机协同通信需求主要有以下几种。①大带宽:无人机之间需要实现高速的数据传输和同步,以保证信息的及时传递和任务的顺利完成。②高精度:无人机需要具备高精度的定位和路径规划能力,以保证其在执行任务时的安全性和可靠性。③强信号覆盖:无人机需要在恶劣的环境中保持一定的信号覆盖,以保证信息的传达和接收。④多用户认证:为了保证用户之间的通信安全,无人机需要具备多用户认证功能,以确保只有授权用户才能进行通信。⑤自主决策和控制:无人机需要具备自主决策和控制能力,以实现任务的自主执行和任务的调整。这些需求都需要通过多无人机协同通信技术来实现。

3 基于强化学习的通信受限环境中多无人机协同策略

3.1 层级通信网络

近年来,随着人工智能技术的快速发展,基于智能体的机器学习在控制领域中得到了广泛的应用。使用智能体来进行建模,可以解决传统机器学习方法中存在的一些问题。

强化学习是一种人工智能方法,其目的是通过训练算法来自主地学习最优策略。基于强化学习的多无人机协同策略层级通信网络可以通过建立多无人机之间的通信关系,实现对环境的感知、任务分配、通信协调等功能[1]。在该网络中,每个无人机都有一个状态和一个动作。状态是指无人机当前所处的位置和状态之间的关系,动作是指无人机根据环境信息和自身状态做出的决策。通信网络则是一种将各个无人机连接起来的协议,它将状态和动作传递给其他无人机,从而实现多无人机之间的通信。

多无人机协同层级网络通信的关键技术主要有以下几种。①数据共享:多架无人机之间需要互相传递信息,因此需要在彼此之间进行数据共享。这种技术可以通过文本、图像、语音等方式进行。多架无人机需要互相传递信号,因此需要使用合适的通信技术。②带宽管理:多架无人机需要在不同的地区和时间传输不同的信息,因此需要选择合适的带宽管理技术。③安全保障:多架无人机之间需要进行安全保障,以确保信息的安全性和可靠性。④数据压缩:多架无人机需要进行数据压缩,以节省带宽和时间。⑤智能决策:多架无人机需要进行智能决策,以确定下一步该往哪里传信息。总之,多无人机协同层级网络通信技术是一种复杂的技术,需要考虑到多个方面的因素,包括数据共享、带宽管理、安全保障等。通过优化和协同工作,多架无人机可以提高通信效率和网络性能,实现更好的通信效果[2]。

3.2 连续连接探索

多无人机协同连续连接策略(Multi-UAV CONNECTION Connected Connectivity,MUSC)是一种基于多无人机智能协作的策略,它将多架无人机连接到一起,以实现更高效的任务执行。MUSC通常由一个管理者或指挥官来管理,以确保所有无人机的目标一致,同时协调无人机之间的连接和协作。MUSC的优势在于可以提高任务完成效率,同时降低任务执行成本。MUSC的连接方式通常分为以下几个步骤。①建立连接:需要建立一个初始连接,以确保所有无人机之间的信息交流和沟通。该连接可以通过无线电或卫星通信等方式实现。②分配任务:根据不同无人机的任务需求,将监测环境、监视目标等任务分配给它们。③协作:在完成任务后,无人机之间需要相互协作,以更高效地执行任务。这种协作可以通过连续连接来实现。④连续连接:当所有无人机完成任务后,可以通过无线通信或卫星通信等方式将任务结果返回给管理者或指挥官。管理者或指挥官可以根据实际情况,选择合适的连接方式来实现MUSC的连续连接。

3.3 循环连接

无人机在执行任务时,往往需要面对通信受限、通信时延、任务切换等问题。在传统的多机协同中,由于每个无人机之间的通信距离较远,通信时延较大,导致任务执行的效率较低。为了提高协同效率,研究者们提出了很多基于强化学习的网络协同训练方法,但这些方法大多只考虑了单一无人机的局部状态和局部动作,缺乏对多机协同关系的考虑[3]。

以下是多无人机协同策略循环连接分析的一些关键步骤。①确定任务需求:确定需要实现的任务需求,这需要根据具体任务需求进行分析和建模。②建立通信连接:需要建立多个无人机之间的通信连接,以确保每个无人机都能够接收到来自其他无人机的信息,并将这些信息传达给它们。③确定最佳策略:在建立了通信连接后,需要确定最佳的协同策略。这需要考虑每个无人机的性能、任务需求和环境因素等因素,最终确定最佳的协同策略,确保任务能够得到有效完成。④协调行动:在完成协同任务后,需要协调所有无人机的行动,以实现整体任务目标。这需要通过制定决策和规划来实现。⑤监测任务进展:需要监测所有无人机的任务进展情况,并根据需要进行调整和决策。这需要对无人机之间的通信连接、执行任务过程中的状态和结果等进行实时监测和分析。

3.4 场景特征提取

多无人机协同场景特征提取是指将多个无人机分别拍摄同一地点的图像,并从图像中提取出场景的特征,如建筑物、道路、植被等。提取的特征可以用来进行场景建模、三维重建、目标检测等应用。以下是一些常见的多无人机协同场景特征提取方法。①建筑物特征提取:建筑物是多无人机协同场景中最常用的特征之一。在图像中,可以通过提取图像中建筑物的轮廓、色彩、形状等信息,为后续的三维重建和目标检测等应用提供支持。②道路特征提取:道路是多无人机协同场景中另一个常见的特征。在图像中,可以将图像转换为数字图像,然后通过边缘检测、Canny边缘检测等算法提取出图像中的道路边缘信息。三维重建是多无人机协同场景中另一个常用的应用。在图像中,可以将图像转换为数字3D模型,然后通过立体匹配、定位与导航等算法实现3D模型到二维平面图的投影,从而提取出场景的三维信息。

3.5 网络训练

基于强化学习的多机协同训练方法,可以在通信受限环境中,实现对无人机间通信距离、任务切换等问题的解决。该方法首先利用多智能体系统(Multi-Agent System,MAS)模型对无人机进行建模,然后基于马尔可夫决策过程(Markov Decision Process,MDP)建立多无人机协同网络模型,最后根据每个无人机与其他无人机间的通信距离以及任务切换等情况进行网络训练,从而实现多机间协同。

多无人机协同网络模型包括两个部分,即无人机之间的通信关系和任务切换关系。对于每架无人机而言,其状态包括飞行状态和交互状态两个部分。飞行状态描述了每架无人机在飞行过程中的飞行动作,而交互状态描述了每个无人机与其他无人机的交互动作[4]。其中通信关系与任务切换关系分别用矩阵形式来表示。其中,在多无人机协同网络模型中,通信关系可以用一个矩阵表示。假设有N个无人机,通信关系矩阵C的元素C[i][j]表示第i个无人机与第j个无人机是否能够进行直接通信。如果能够进行直接通信,则C[i][j]=1;否则,C[i][j]=0。例如,若某个位置上的无人机A和B可以建立直接通信,则C[AB]=1。

类似地,任务切换关系也可以用一个矩阵表示。假设每个无人机有M个任务可供切换,任务切换关系矩阵T的元素T[i][j]表示第i个无人机是否可以切换到第j个任务上执行。如果可以切换,则T[i][j]=1;否则,T[i][j]=0。例如,在某种情况下,若无人机A和B可以相互切换任务,则t[AB]=1。

在该部分,可以采用来自AIRS的飞行数据,对所提出的算法进行实验验证。AIRS是一个用于分析无人机在飞行过程中各种性能指标的开源工具,它由美国国家航空航天局(NASA)发布,是美国宇航局用于飞行测试与评估的重要工具。该数据集包括P-8A、P-9A、P-10A和P-8B四个飞机型号,可在不同的训练环境中对所提出算法进行验证,包括无人侦察机、固定翼无人机和旋翼无人机。实验环境包括大气湍流、风和云、地形起伏以及干扰情况等。本节中,主要使用了人工数据集和真实飞行数据集来验证本文提出算法的性能,并将验证结果与其他基于强化学习的多机协同算法进行比较。还可以用三种不同的训练方法来测试算法的性能。最后以平均绝对误差、平均误差标准差、平均绝对误差方差和平均绝对误差百分比四个指标来衡量算法的性能。

3.6 控制系统框架

可设计一个基于马尔可夫决策过程的多无人机协同控制系统框架,其中控制器可以对多无人机进行协调和管理,包括任务分配、编队管理、航迹规划等方面。在任务分配方面,通过对环境进行建模,将任务分为简单任务和复杂任务两类。在编队管理方面,通过对无人机之间的协同行为进行建模,实现对无人机之间的动态协作和控制。

基于马尔可夫决策过程的多无人机协同控制系统框架是一种用于多无人机协同控制的技术,它将无人机看作是一个马尔可夫决策过程的参与者,通过制定协同控制策略,实现无人机之间的通信和协调,以完成预定的任务。该框架主要由以下几个模块组成。①状态模块:该模块用于收集和存储无人机之间的交互信息,包括无人机的位置、状态、速度、加速度等信息。②决策模块:该模块使用马尔可夫决策过程来分析和解决问题,通过对无人机之间的交互行为进行分析,寻找最优解[5]。③行动模块:该模块根据决策结果,选择最优的行动方案,并将行动方案传递给无人机。④评价模块:该模块使用状态转移矩阵和奖励函数来评估行动方案的优劣,并将结果反馈给无人机。⑤通信模块:该模块使用无线通信技术将数据传输给无人机,以保证无人机之间的实时通信。⑥控制模块:该模块使用状态转移矩阵和奖励函数来控制无人机之间的通信和协同动作,并将行动方案转化为数字信号传递给无人机。⑦输出模块:该模块使用控制指令来控制无人机完成预定任务,并将结果反馈给用户。以上框架的设计和实现,实现了多无人机之间的协同控制,提高系统的效率和精度,同时也为研究多无人机协同控制提供了一种新的思路和方法。

4 结束语

基于强化学习的通信环境受限下的多无人机协同策略通过加强其通信功能,实现通信模块性能的优化。本文同时基于马尔科夫决策进行协同策略的设计,建造出多无人机协同模型,对其进行网络训练,以提高多无人机协同的精准度,进而在强化学习的基础上实现多无人机的协同运行。

猜你喜欢
决策协同状态
为可持续决策提供依据
蜀道难:车与路的协同进化
状态联想
决策为什么失误了
“四化”协同才有出路
生命的另一种状态
三医联动 协同创新
坚持是成功前的状态
协同进化
关于抗美援朝出兵决策的几点认识