基于深度强化学习的反向散射网络资源分配机制*

2022-10-28 03:28江巍，朱江

电讯技术 2022年10期

江巍，朱江

(重庆邮电大学 a.移动通信教育部工程研究中心;b.移动通信技术重庆市重点实验室，重庆 400065)

0 引言

随着物联网(Internet of Things，IoT)技术的发展，连接互联网的设备数量日益增加，世界正在朝着超密集的物联网网络发展[1]。随着数据交互增多，人们期望满足不同通信环境的各种业务需求，能量短缺问题是制约泛在物联网发展的重要因素之一[2]。

为解决数据交互产生的能量短缺问题，无线供能技术[3]和反向散射技术[4]的出现，使上述问题的解决称为可能。具体来说，无线供能技术通过专业能量站或混合接入点为物联网结点设备提供能量，有效解决了物联网结点设备的能量供给问题[5]；采用反向散射技术的节点不需要自身产生射频信号，并且节点本身不对信号进行处理，因此反向散射技术的能量消耗较低[6]。而将反向散射技术和无线供能技术相结合，构成反向散射辅助的无线供能通信网络可以同时具有上述两种技术的优点，预计反向散射辅助的无线供能通信网络将在实现物联网、体域网以及6G网络定位和映射方面发挥关键作用[7-8]。

资源分配是无线通信网络中的关键技术，对反向散射网络资源分配问题的研究已经取得一些有价值的进展[9-16]。然而现有技术大多着眼于从局部角度实现单个网络内的最佳性能，导致全局资源利用率较低，并且大多考虑静态信道，但是实际上，由于无线衰落信道的时变特性，信道是不断变化的。在多用户网络中，提高系统吞吐量和能效获取通信资源是实际网络应用的客观要求。因此，面向多个反向散射通信节点构成的无线供能通信网络，研究用户能效和吞吐量资源分配方法至关重要。

因此，本文提出了一种资源分配机制，构建了用户配对和时隙分配的联合优化模型。由于直接使用深度强化算法会生成一个高维的动作空间。因此本文结合深度强化学习(Deep Reinforcement Learning,DRL )算法和凸优化算法，将问题分为两层子问题，以降低动作空间维度：基于深度强化学习算法，利用历史信道信息推断当前的信道信息以进行最优的用户配对；在用户固定配对的情况下，基于凸优化算法，以最大化IoT设备总吞吐量为目标进行最优的时隙分配，以提高系统性能。

1 系统模型

本文考虑的反向散射网络的系统模型如图1所示，包含1个基站(Basic Station,BS)、3个物联网设备和3个用户(User)。基站位于区域的中心，IoT设备和用户在基站周围按照均匀分布随机放置。基站通过时分多址(Time Division Multiple Access,TDMA)的方式服务于3个蜂窝用户。

图1 系统模型

如图2所示，首先，基站通过预测实时的信道信息，根据ε-greedy策略决定IoT设备与用户的配对方式，并向IoT设备发送射频信息。其次,IoT设备通过两种方式将自身的消息传输到用户：一是基站发射射频信号，IoT设备调制并反射从基站接收的信号向相配对的用户传输自身消息，并进行能量收集(Energy Harvesting,EH)；二是当基站沉默，IoT设备利用收集的能量，主动将自身的消息传输到用户。最后，用户解码相配对IoT设备的信号并将可用的信息发送到基站，基站根据收集到的信息再进行下一帧的用户配对方式和时隙分配。

图2 帧信号传输流程图

图3所示为IoT设备与用户之间进行信息传输的帧时隙图，每个IoT设备仅在对应于一个相互配对的蜂窝用户的一个时隙中传输信息。图中t0,t1,…,tj表示IoT设备调制基站射频信号并收集能量反射到用户的时隙，tsum表示反射到用户的时隙的总和，T0,T1,…,Tj表示当基站沉默时IoT设备主动发送信息到用户的时隙。

图3 帧时隙图

1.1 信道模型

(1)

(2)

(3)

1.2 吞吐量模型

如图1所示，基站在一帧的一个时隙以单位功率向用户j发送消息xj，而IoT设备i调制并反向散射接收到基站信号向一个相互配对的用户j发送自己的消息ci。用户j处的接收信号为

(4)

式中：p表示基站的发射功率；ai,j∈{0,1}表示IoT设备i与用户j的配对系数，如果IoT设备i和用户j配对，那么ai,j=1，否则ai,j=0；ai表示IoT设备i的反射系数；μe表示在用户j处的复高斯噪声，即μe～CN(0,σ2)。

本文在IoT设备i处使用分段线性能量收集模型，其中收集的功率随着接收的基站的功率线性增加，但是IoT设备可以获取的最大功率存在限制。IoT设备i的能量收集能力可以表示为[18]

(5)

IoT设备将自身信息传输到用户有两个阶段：第一阶段，基站发射射频信号，IoT设备调制并反射基站的信号，从而将自身的信息传输到用户；第二阶段，基站保持沉默，IoT设备利用收集的能量主动将自身的信息传输到用户。

(6)

式中：σ2表示噪声功率。由于反向散射通信采用的是简单的调制方式，其信道容量小于传统通信模式。本文采用与文献[19]一样的方法来刻画这种信道容量的差异，即将信号接收信噪比乘以一个实数ξ，0<ξ<1。

在第二阶段，第一阶段收集的能量表示为

(7)

IoT设备i的吞吐量可以表示为

(8)

1.3 优化问题

IoT设备i在系统中一帧的吞吐量函数可以表示为

Ri=R1,i+R2,i，

(9)

则目标函数(P1)可以表示为

(10)

(11)

(12)

(13)

其中：式(11)、(12)是时间约束；式(13)是用户配对系数，表示每个IoT设备在一帧中选择一个时隙发送信息。

上述优化问题的决策可以由基站来执行，可以直接使用DRL算法来进行求解。由于考虑到用户配对和时隙分配联合优化，因此直接利用DRL求解会产生一个二维的动作空间，即Aact={{b1,b2,…,bN}；{t1,t2,…,ti,T0,…,Tj}}且它的时隙分配是一个连续的动作空间，对于二维的动作空间，网络较复杂且训练时间较长。因此本文将DRL算法和凸优化算法结合，以降低其动作空间的维度。本文将上述优化问题分为两层子问题进行优化，以提升系统IoT设备的吞吐量性能。首先根据信道增益影响，基于深度强化学习算法，将IoT设备与适当的用户进行配对；然后基于凸优化算法，求解最优的时隙分配来优化IoT设备吞吐量性能。

2 基于深度强化学习的用户配对算法

2.1 DRL概述

图4 DQN更新流程图

(14)

近似表示值函数的优化目标，即目标Q值。预测值网络中的θ是实时更新的，每经过Ne轮迭代，预测值网络就会将本身的参数信息复制给目标值网络。通过最小化当前的Q值和目标Q值之间的均方误差即损失函数来更新网络参数。损失函数L(θi)可以表示为

L(θi)=E(s,a,r,s′)[|Ytar-Q(s,a;θi)|2]。

(15)

通过梯度下降法对θ进行求偏导，θ的更新表示为

θi←θi-{[Ytar-Q(s,a;θi)]▽θiQ(s,a;θi)}。

(16)

目标值网络在Ne步时间内是保持不变的，可以降低当前Q值与目标Q值之间的相关性来稳定学习算法。

同时，经验回放(experience replay)机制也可以提升学习算法的稳定性。回放记忆单元D的大小为ans，D采用先进先出原则来存储经验样本，神经网络通过在D中随机抽取小部分经验样本来进行训练，通过随机抽取经验样本的方式降低了经验样本之间的相关性，提升了算法的稳定性。

DRL可以通过试错法有效地学习隐藏的相关性，并从环境的相互作用中设计其最优策略。因此，可以使用DRL学习信道校正并设计适当的用户配对策略来提高系统的性能。

2.2 基于DRL的用户配对算法

用户配对算法将每个IoT设备与适当的用户配对以有效提高系统性能。根据式(10)～(16)，基于深度强化学习的用户配对函数(P2)可以表示为

(17)

(18)

用户配对问题的最优策略，需要完全的实时的信道信息。随着用户增多，基站想要获取完全实时的信道信息需花费很大开销，在一帧中，基站只能获取IoT设备与其相互配对的用户之间的信道信息，而不是所有的IoT设备和用户之间的信息。但信道存在时域相关性：不同帧的信道，如果位置不变，大尺度衰落分量保持不变；小尺度遵循服从式(1)～(3)的一阶复高斯马尔科夫过程。因此基站可以通过探索和利用历史信道信息来学习不同帧之间的信道相关性，从而来推断实时的信道信息，并将每个IoT设备与适当的用户配对，以最大化IoT设备总吞吐量。

在基于深度强化学习最大化吞吐量的用户配对算法中，基站充当代理(Agent)。在此算法中，基站针对给定的环境状态给所有的IoT设备做出用户配对决策。下面先介绍该算法的动作空间、状态空间和立即奖励函数。

(1)动作空间

由于每个IoT设备与适当的蜂窝用户配对以最大化IoT设备总吞吐量，因此动作空间包括所有的配对方案，故动作空间表示为

(19)

Aact={{1,2,3},{1,3,2},{2,1,3},{2,3,1},{3,1,2},{3,2,1}}。

(20)

(2)状态空间

Ssta(t)={HL(t-1)}。

(21)

(3)奖励函数

深度强化学习算法的目的是利用历史信道信息预测实时的信道信息，从而为IoT设备做出适当的决策跟用户配对，同时考虑最优的时隙分配，以最大化IoT设备吞吐量。因此，帧t中的立即奖励函数Rrew(t)应为凸优化后求得的IoT 设备总吞吐量。奖励函数为

(22)

完整的算法如下：

重复：代理在一帧中通过ε-greedy策略选择一个动作a(t)(t>Z)。

1 代理在帧t中根据凸优化算法计算采取行动a(t)后的立即奖励Rrew(t)

2 代理在帧(t+1)中观察到新状态Ssta(t+1)

3 代理将新样本：(Ssta(t),a(t),Rrew(t),Ssta(t+1))存储到回放记忆单元D中

4 代理从回放记忆单元D中随机抽取一小批Z经验(Ssta,a,Rrew,Ssta′)训练DQN

5 代理使用梯度下降法更新DQN权重θi

输出：平均吞吐量(每个平均吞吐量都是历史立即奖励Rrew(t)的总和平均值)。

3 基于凸优化的时隙分配算法

根据不同的信道条件，合理地分配系统在反向散射和主动发送的时间能有效提高系统的吞吐量性能。

当IoT设备和用户的配对方式确定时，最优的时隙分配目标函数(P3)为

(23)

(24)

(25)

0≤tsum≤1,

(26)

0≤ti≤tsum,∀i

(27)

0≤Ti≤1-tsum,∀i。

(28)

式(24)～(28)是时间约束，容易证明P3是一个凸优化问题，可以使用拉格朗日对偶法或者CVX工具箱来获得解析解。由于求解次数过多，本文利用Matlb中CVX工具箱来获得解析解，并将其代入到深度强化学习的立即奖励函数中。

约束(24)～(28)是线性的，因此只需要证明目标函数是凹函数。目标函数是凹函数的充要条件是目标函数的Hessian矩阵是半负定矩阵。

定理1 函数的Hessian矩阵是半负定矩阵则函数是凹函数。

证明：构建函数

(29)

将常数项统一归为k1、k2，则式(29)简化为

(30)

并将其Hessian矩阵表示为

(31)

式(31)所示的Hessian矩阵的奇数阶行列式非正，偶数阶行列式非负，以此类推，因此Hessian矩阵为半负定矩阵。

证毕。

对于上述凸优化问题，总吞吐量最大化问题在BS发射功率p、反向散射系数ai、能量转化效率ηi、噪声功率σ2已知的情况下，时间变量只受信道增益的影响，即不同信道增益对应不同的时隙分配。先求得最优化时隙分配，再将系统IoT设备的吞吐量作为深度强化学习的立即奖励，深度强化学习以此来进行学习和更新。

4 仿真与分析

为验证本文所提机制的有效性，分别对比了传统的纯反向散射模式[20-21]和无凸优化混合模式(HTT模式+反向散射模式)[22]，同时比较了不同策略的影响，即随机策略和距离策略，其中随机策略即物联网设备随机和用户进行配对，而距离策略即物联网设备选取最近的用户进行配对。假设BS到IoT设备的距离和IoT设备到用户的距离都在100 m以内[23]。BS的发射功率p=40 dBm，考虑距离相关的路损模型，即自由空间路径损耗模型：

32.45+20lg(f)+20lg(d)-Gt-Gr。

(32)

式中：f表示载波频率(MHz)，d表示距离(km)，Gt表示发射天线增益，Gr表示接收天线增益。f=2.4 GHz，Gt=Gr=2.5 dB。假设，所有IoT设备有相同的反射系数ai=a=0.8。表1是DRL的参数设置。此外将折扣因子设置为γ=0.7，同时设置为0.3，意味着以0.3的概率选择一个随机动作来探索经验，随着时间增加，贪婪策略的因子会逐渐变大，从更具探索性变为更具贪婪性的决策。概率ε服从ε(t+1)=1-max{0.0005,0.9995kl×ε}，这里kl随着时间自增，每次加1。

表1 神经网络参数设置

图5对比了基于凸优化时间调度的纯反向散射模式[20]下平均吞吐量、混合模式(HTT模式+反向散射模式)[21]平均吞吐量、纯反向散射模式[22]平均吞吐量。通过设置ρ=0.5来考虑相对动态信道场景，考虑的蜂窝用户的数量是j=3，IoT设备的数量是i=3。可以看出，在相对动态信道环境中，与其他资源分配方法相比，本文的资源分配方法具有较好的收敛性能，且能达到较高的平均吞吐量。

图5 不同资源分配方法平均吞吐量比较

图6给出了四种不同资源分配方法平均吞吐量随信道相关系数ρ的变化曲线，设置了i=j=3。可以看到，本文算法有较高的平均吞吐量，并且四种资源分配方法的平均吞吐量随着相关系数的增大而呈现递增的状态，相关系数越大性能越好。当ρ=0时，不同帧之间的信道没有相关性，DRL无法更好地预测未来的信道信息，因此无法选择最优的用户配对方式，四种资源分配方法平均吞吐量较低。当ρ=0.9时，相关系数越大，不同帧之间的信道相关性越强，DRL能够更好地学习不同帧之间的信道变化规律，更好地预测未来的信道条件，从而选择最优的用户配对方式，实现更高的平均吞吐量。

图6 不同资源分配方法信道相关系数对平均吞吐量影响

图7给出了四种不同资源分配方法下平均吞吐量随基站功率的变化曲线，可以看出，随着功率的增加，四种资源分配方法的平均吞吐量也在增加，与纯反向散射模式相比，本文所提算法充分利用时间资源和无线能量资源以提高系统的吞吐量性能，而纯反向散射通信相对于传统通信模式采用简单的调制方式，信道容量较小，因此本文资源分配方法能够实现较高的平均吞吐量。

图7 不同资源分配方法基站功率变化对平均吞吐量影响

图8显示了ρ=0.5相对动态信道场景下不同策略的平均吞吐量的性能，由图中的对比曲线可以看出，相较于随机策略，本文策略和距离策略所实现的性能较好，主要是因为随机策略没有考虑已知的因果关系，因此该策略的平均吞吐量较低。而距离策略只考虑了IoT设备每次只选择最近的用户进行配对，没有考虑信道变化的影响，因此该策略的平均吞吐量也比较低。

图8 不同策略平均吞吐量比较

图9显示了ρ=0.5的相对动态信道场景中不同策略的平均吞吐量随相关系数的变化，设置了i=j=3。可以看到，对于距离和随机策略的平均吞吐量随信道相关系数变化基本不变，原因在于随机策略无法考虑已知的因果关系，因此平均吞吐量基本不变；而距离策略IoT设备每次只与最近的用户进行配对，不考虑信道变化的影响，因此平均吞吐量也基本不变。

图9 不同资源分配方法相关系数变化对平均吞吐量影响

图10显示了ρ=0.5相对动态信道场景中不同策略的平均吞吐量随基站功率的变化，设置了i=j=3。可以看到，平均吞吐量随着功率的增大是增大的，并且本文所提DQN策略的性能明显高于其他两个策略，在功率p=10 W的情况下，本文所提策略得到的平均吞吐量分别比距离策略、随机策略高出了1.26倍和1.32倍。

图10 不同策略下基站功率变化对平均吞吐量影响

5 结束语

本文面向反向散射网络提出了一种资源分配机制，以系统IoT设备平均吞吐量为目标，构建用户配对和时隙分配联合优化资源分配模型。将DRL算法和凸优化算法相结合以降低动作空间维度，将其拆分为用户配对和时隙分配两层子问题。比较了本文方案和其他方案的吞吐量性能，仿真验证了本文所提方案具有较好的吞吐量性能。

在未来的工作中，将考虑把功率加入，对功率和时隙进行联合优化；同时考虑IoT设备的功耗影响，以进行能效最大化的资源分配方案设计。