基于Dueling-DDQN的星上带宽资源预留算法研究

2024-01-04 04:31刘治国张姣姣潘成胜

兵器装备工程学报 2023年12期

刘治国,张姣姣,潘成胜

(1.大连大学信息工程学院, 辽宁大连 116600; 2.大连大学通信与网络重点实验室, 辽宁大连 116600;3.南京信息工程大学电子与信息工程学院, 南京 211800)

0 引言

卫星通信网络由于其覆盖广、部署快、不受地面情况影响的优点,已经被用于多个商用系统,同时在国家基础服务、抢险救灾、军事应用等方面也是最可靠的通信手段[1-2]。然而由于卫星高速运动,低地球轨道(low earth orbit,LEO)卫星经常发生点波束切换。新的点波束没有足够的可用带宽,可能会导致切换失败概率增加,降低用户服务(quality of service,QoS)满意度。因此本文中的重点在于如何利用合适的带宽预留策略来满足用户的高QoS需求。

Maral等[3]提出了允许保证切换(guaranteed handover,GH)策略,该策略实现了一个合适的信道预留过程,保证正在进行的呼叫所有切换的成功,仿真证明GH方案比排队方案获得了更好的服务质量。但是,造成信道资源严重浪费,锁定的信道无法为其他新的业务或者是切换业务使用。

Huang等[4]提出基于概率的动态信道预留(probability dynamic reservation,PDR)的通信接纳方案,根据实时业务的切换概率来动态预留带宽。仿真证明该方案不仅降低了新通信阻塞概率,而且在一定程度上减少了越区切换连接丢失概率,同时保持了较高的资源利用率。

Chen等[5]提出一种基于自适应概率的预留策略(reservation strategy based on adaptive probability,APRS),在一定的概率下,为前一个小区预留的带宽可以分配给新呼叫请求。仿真证明,通过这种方式,增加系统可以服务的用户数量并有效地使用带宽。

Li等[6]提出了一种多波束联合资源分配(multi-beam joint resource allocation,MJRA)方案,充分利用不拥挤的波束带宽资源,在保证QoS的同时提高系统性能。

虽然上述文献在一定程度上解决了频繁点波束切换缺乏可用带宽导致用户连接中断的问题,并降低了切换失败率和新呼叫阻塞概率,提高了用户服务质量,但是策略中关于相关参数的计算过度依赖人工先验条件,其策略缺少灵活性。

针对上述问题,提出基于Dueling-DDQN的星上带宽资源预留算法,可根据用户的业务特性进行带宽资源预留。该方法首先构建SDN卫星网络带宽资源预留模型来获取卫星资源情况,然后构建Dueling-DDQN(dueling-double deep Q-network)网络结构,并作为决策评估器,可以避免人为条件的干扰,其中在网络结构中引入Noisy方法,增加探索效率。最后通过Dueling-DDQN算法对带宽资源进行智能分配,有效提高用户的服务质量和带宽利用率。

1 SDN卫星网络带宽资源预留模型

SDN[7]卫星网络带宽资源预留模型由3个部分组成,包括GEO控制层、LEO转发层和用户请求接入层。

在图1中,利用深度强化学习(deep reinforcement learning,DRL)方法来解决星上带宽资源的动态预留问题[8-9],其中 SDN 控制器被部署为 GEO(geosynchronous earth orbit) 卫星中的智能体(Agent),对整个卫星网络的全局资源控制,为各类呼叫请求制定动态细粒度的预留方法。通信用户向LEO卫星发出呼叫请求,LEO卫星会将用户呼叫请求信息作为状态信息(State,s),传递给Agent以分配带宽,Agent处理呼叫请求总共有3种动作策略(Action,a)以最大带宽分配、以最小带宽分配和不分配,通过最小带宽分配和不分配来预留带宽。Agent将动作策略返回给LEO卫星,LEO卫星会返回给Agent一个奖励(Reward,r),为了评估当前动作的质量,通过环境状态和智能体之间的持续交互,最终获得奖励积累最大的策略,并将最终的带宽资源预留策略返回给用户。

图1 SDN卫星网络带宽资源预留模型图

关于模型的元素设置如下:

1) 状态信息。假设一颗LEO卫星的每个点波束对应的总带宽为Bm,可以为G种业务类型提供服务,类别属于Class Ⅰ或Class Ⅱ(G∈{Class Ⅰ, Class Ⅱ})[10-11]。业务优先级的权重定义为λ=[λ1,λ2,…,λG]。通信用户向低轨卫星网络系统发出呼叫请求P=[WS1,WS2,…,WSi…,WSn]T,n代表呼叫请求个数,其中WSi=[WBi,WCi]。WBi代表业务类型WBi∈{1,2,…,G},WCi表示呼叫类型WCi∈{0,1}(0代表新呼叫,1代表切换呼叫)。

相应的状态信息包含呼叫请求信息WSi,si可以表示为

si=WSi

(1)

2) 动作策略。在Dueling-DDQN算法中,输入一个状态State,会对当前的呼叫请求进行带宽分配,接着便会执行这个动作ai。本文中对呼叫请求处理有3种带宽分配方式,定义为

(2)

式(2)中:Bmax表示以最大带宽接入,Bmin表示以最小带宽接入,Failed表示接入失败。因为Bmin和Failed会影响信道预留,可以通过动作Bmin和Failed来处理呼叫请求,以预留带宽。

3) 奖励。以动作ai处理呼叫信息后,需要根据实际环境来检验信道带宽分配方式ai的有效程度。环境会向Agent提供奖励反馈,反映Action所执行的正确性。如果所执行的Action是一个拒绝操作,那么环境状态便会提供一个负反馈。本文中关于3种动作,对应的初始奖励r′i定义如下:

(3)

以最大带宽处理呼叫请求,获得的奖励最大,以最小带宽处理呼叫请求获得第二奖励,拒绝获得负奖励,所以r0>r1>0>r2。此外,WSi的呼叫类型对策略的绩效有不同的影响,如式(4)所示。σ0反映切换连接的优先级,σ1表示新连接的优先级。

(4)

2 卫星网络带宽资源预留策略

2.1 Dueling-DDQN网络结构

图2 Dueling-DDQN网络结构

2.2 Dueling-DDQN策略

1) 决策目标。星上资源预留过程,是根据卫星带宽资源利用情况和呼叫信息,以分配信道带宽,并根据获得的累积奖励确定最优的资源预留策略。由于卫星带宽有限,不能以最高奖励处理每一个业务请求,本文中方法的最终目标是确定一个长期性能增益最大、最优的动态星上资源策略π*,π*定义如下:

(5)

式(5)中:γ表示奖励重要性的折扣因子,Eπ[·]表示带宽预留策略π*的期望。

(6)

但是在原始的Dueling DQN算法中采用的epsilon-greedy(ε-greedy)是通过根据行动的最佳概率来选择行动,从而提高探索效率。但是,ε-greedy实际上对于很多问题[13]都是无效的,在某些情况下,由于探索空间有限[14],可能永远无法通过ε-greedy学习到最优策略。因此将Noisy[15]方法应用于Dueling-DDQN框架中,解决ε-greedy存在探索效率低效的问题。Noisy与传统的探索启发式方法ε-greedy策略不同,引入参数噪声Noisy提高探索效率。

所以本文中关于价值函数和优势函数的计算,加入Noisy方法,最终动作值函数可以表示为式(7):

(7)

(8)

(9)

(10)

由于无法通过学习Q函数来唯一确定价值函数和优势函数,通过优势函数的平均值来解决可识别性问题,如式(11)所示:

(11)

Dueling-DDQN算法中DDQN算法[16]是在原有的DQN算法模型基础上,通过解耦目标Q值动作的选择和目标Q值的计算,消除由于神经网络预测的最大Q值导致的误差,每次更新也将神经网络向误差最大的目标Q值进行改进,导致存在过度估计问题。在动作选择时,不是在目标Q网络里面找各个动作中最大Q值,而是先在当前Q网络中找出最大Q值对应的动作,具体表达为式(12):

(12)

利用式(12)选择出的amax去计算目标Q值,如式(13):

(13)

DDQN的最终目标Q值,可由式(12)和式(13)可得:

(14)

3) 损失(Loss)函数构建。Dueling-DDQN算法基于Q-Learning来确定Loss函数,函数表达式为

(15)

2.3 Dueling-DDQN算法流程

Q网络通过最小化Loss函数持续更新神经网络参数,基于Dueling-DDQN的卫星带宽资源预留算法流程如下:

算法：基于Dueling-DDQN的卫星带宽资源预留算法

1.初始化记忆池容量D,遍历次数M

2.初始化卫星系统相关参数

4.统计用户业务的请求情况和卫星当前带宽资源利用情况;

5. for episode=1,Mdo

6. 初始化卫星资源状态信息si

7. fori=1,ndo

8. 以Noisy方法使得Q值随机化

9. 执行带宽分配动作ai,更新状态信息si,并获取卫星下一资源状态信息si+1

10.获得当前奖赏ri

11.将转换transition存储到记忆池中

12. ifD>5 000 then

13. 随机从记忆池中选择一批数据进行训练

14. 代入式(15)更新Q网络;

15. end if

16. end for

17.end for

18.返回最优策略

2.4 性能评估指标

为了衡量信道带宽预留策略的性能,通过3个部分来定义性能评估指标。Pe1作为用户通信过程中的系统整体性能评估的参考指标。具体式(16)所示:

(16)

Pe2为通信速度的效益评估指标,具体表示为式(17):

(17)

Pe3为带宽利用率评估指标,具体表示为式(18):

(18)

3 仿真

考虑卫星在环绕地球的圆形轨道上周期性和固定的轨道运动所带来的轨道可预测性,可以将单颗卫星覆盖模型简化为小区模型[18-20],并且卫星覆盖范围内的用户满足均匀分布[21]。模拟了G种典型的多媒体服务[10],这些多媒体应用的业务参数定义在表1中。在仿真模型中,卫星方面的模拟参数[22],定义如表2所示。根据各类优先级情况和中断正在进行的连接更加影响用户QoS,优先级权重和权值参数[4,8]定义如表3所示。文中方法所涉及的深度强化学习参数也定义在表3中。经过多次实验不同的学习率获得不同的性能,收敛速度也会不同,所以表3中学习率设置为0.01[23],学习速率为0.01时收敛的速率最快,稳定性高。

表1 数据相关参数

表2 卫星相关参数

表3 方法相关参数

在仿真模型中,针对不同的连接到达速率,我们比较了不同接入策略下的系统性能,包括基于无优先接入策略(NPS)、基于概率的动态信道预留策略(PDR)、基于DQN的卫星信道带宽资源预留策略(DBR)和基于Dueling-DDQN的星上带宽资源预留策略(DDBRR),最终仿真图如图3、图4和图5所示。

图3分析了系统整体服务质量,按照式(16)所示,可以看出Pe1越大,用户服务质量越低,Pe1越小,用户服务质量越好。显然,本文中所提出的基于DDBRR策略性能最好,因为DDBRR策略避免了人工干扰,通过建立Dueling-DDQN神经网络结构来做决策。DBR策略因为过估计等问题性能低于DDBR策略,而NPS策略性能最差,因为NPS策略没有为高优先级的业务呼叫保留信道。

图3 Pe1用户整体服务质量

图4显示了性能评估指标Pe2的仿真结果,从图4中可以看出,本文中提出的DDBRR策略的Pe2值在所有方案中最低,但是从用户通信速度满意度方面,DDBRR策略性能优于NPS、PDR和DBR策略。

图4 Pe2用户通信速度服务质量

带宽利用率是衡量系统的一个重要参数,通过资源利用率来衡量系统性能。图5表示了4种策略的带宽利用率与连接到达速率的关系,性能评估指标Pe3。与其他3种策略相比DDBRR策略带宽利用率最高,说明本文中所提出的策略可以更加有效的利用系统带宽资源。

图5 Pe3带宽利用率

4 结论

针对波束频繁切换缺乏可用带宽导致用户连接中断问题,提出基于Dueling-DDQN的星上带宽资源预留算法,可以根据当前的卫星资源状态来做出最佳的带宽分配策略。基于Dueling-DDQN算法,利用Dueling Network提高学习性能,通过DDQN保证无偏估计,其中加入Noisy来增加探索空间,通过不断的学习探索来为请求动态分配带宽。

通过仿真证明所提出的星上带宽资源预留算法,可以保障用户整体服务质量、用户通话质量满意度和最大化提高带宽资源利用率。下一步的研究工作中将针对Dueling-DDQN算法模型中经验池采样方法进行优化,降低经验相关性。