基于深度强化学习的车车通信智能频谱共享

2022-04-13 13:06赵军辉陈垚张青苗
铁道科学与工程学报 2022年3期
关键词:链路信道频谱

赵军辉,陈垚,张青苗

(华东交通大学 信息工程学院,江西 南昌 330013)

在现代化城市建设中,城市轨道交通系统发挥着越来越重要的作用。作为城市轨道交通系统的大脑和中枢,基于通信的列车控制(Communica‐tion Based Train Control,CBTC)系统是当前常用的列车控制系统。CBTC 系统通过无线通信方式实现列车运行状态和控制信息的传递,以保障列车高效安全运行,其主要有车地(Train-to-Ground,T2G)通信和车车(Train-to-Train,T2T)通信2 种基本通信模式。T2G 通信是利用车载设备和轨旁设备及控制中心的信息交换进行列车控制,是目前实际运行的CBTC通信模式,这种通信模式下轨旁设备繁多、系统结构复杂。T2T通信是列车之间直接通信模式,减少系统对控制中心的依赖,降低系统复杂度,能够显著提升列车的运行效率,因此,T2T通信已经被研究人员视为下一代轨道交通列车通信模式[1-2]。徐纪康[3]根据法国里尔1 号线的CBTC系统模型,提出了一种基于T2T 的新型CBTC 系统,并对该系统的系统结构、系统功能、数据传输特性进行了理论分析和深入的研究。林俊亭等[4]对列车防碰撞系统进行了研究,指出列车间通信存在的必要性。林俊亭等[5]对列车防碰撞系统进行了建模分析,得出了T2T 通信有助于增强系统安全性的重要结论。王鹏等[6]研究了T2T 通信的通信方案,并对不同的方案进行了分析比较,得出适合当前系统的最佳通信方案。这些研究为T2T 通信的实际应用提供了理论基础,但未考虑T2T 通信和T2G 通信共存的问题。目前,系统中的轨旁设备仍然是必需的,例如,当相邻的2 列车通过T2T通信获取彼此的位置和状态信息时,列车仍需要与轨旁设备通信。但如今,随着各种无线通信设备数量的急剧增加,无线通信资源已经严重不足,这已经成为制约无线网络发展的重要因素[7]。为了能够充分利用有限的频谱资源,频率复用已被证明是一种有效的技术[8]。但不幸的是,频谱复用必然会带来同信道干扰,从而影响无线通信的服务质量(Quality of Service,QoS)。在T2T 通信与T2G 通信并存的情况下,合理地利用频谱资源是一大挑战。目前,对T2T 通信资源分配的研究较少。ZHOU 等[9]基于博弈论的方法,提出了一种应用于列车控制系统上行链路的通信资源分配方案。ZHAO 等[10]提出了一种基于多智能体深度Q 网络(Multi-Agent Deep Q-Network,MADQN)的T2T 通信信道选择和传输功率选择算法以减少同信道干扰,但是,该方案中每个智能体都学习基于自身行动和观测的分散策略,将其他因素视为环境的一部分,这将导致环境不稳定,从而破坏学习的准确性。本文针对T2T 通信和T2G 通信链路复用引起的干扰问题,提出了一种基于深度强化学习的T2T 通信智能频谱共享方案。本文的主要创新点如下:

1) 以T2T 通信链路为智能体,将频谱共享建模为多智能体深度强化学习(Multi-Agent Deep Re‐inforcement Learning,MADRL)问题,并设置合适的奖励函数,以最大化系统的信道容量。

2) 引入能够表征智能体行动轨迹的低维指纹(Low-Dimensional Fingerprint,LDF)信息,以提升深度强化学习的稳定性。

1 系统模型

T2T 通信系统模型如图1 所示。为了降低轨旁设备的复杂性,列车和轨旁控制器集成了区域控制器(Zone Controller,ZC)、列车自动监控(Auto‐matic Train Supervision,ATS)和计算机互锁(Com‐puter Interlock,CI)功能,每辆列车都可以通过列车控制模块中的T2G 通信终端与轨旁设备进行通信,轨旁设备可以根据列车发送的路线信息直接控制道岔的旋转和打开[11-12]。不仅如此,相邻列车还可以通过T2T 终端直接通信,以传达列车速度和位置等关键信息。相比于传统的T2G 通信,这种直接通信的方式可以使列车获取信息更及时,从而提升列车运行的安全性。由于列车运行环境的特殊性,城市轨道交通列车通信网络中的基站是沿轨道线性分布的,且每个蜂窝小区的列车数量是有限的。假设在单个小区中,存在M个T2G 通信链路,存在N个T2T 通信链路,可用带宽被分为R个资源块,不失一般性,定义R=M,每个T2G通信链路使用单个资源块,即T2G 链路之间没有频谱共享。

图1 T2T通信系统模型Fig.1 T2T communication system model

在一个相干时间段内,在第m个资源块上第t个T2T通信链路的信道功率增益表示为:

其中:αt为大规模衰落系数,包括路径损耗和阴影衰落;为小规模衰落功率分量。在资源块m上,设第t个T2T 列车和第t'个T2T 列车之间的信道增益表示为第t个T2T 列车和轨旁基站(Base station,BS)之间的信道增益可以表示为,第m个T2G 列车和轨旁BS之间的信道增益可以表示为,第m个T2G 列车和第t个T2T列车之间的信道增益可以表示为。

因此,在资源块m上,第m个T2G 通信链路的信干噪比(Signal to Interference Plus Noise Ratio,SINR)可以表示为:

第t个T2T通信链路的SINR可以表示为:

其中:表示第m个T2G列车的发射功率;表示第t个T2T 列车的发射功率;σ2表示噪声功率;表示频谱资源共享指标;=1时表示第t个T2T通信链路使用第m个资源块;=0 时表示不使用。

表1 重要符号说明表Table 1 Table of important symbols

因此,第m个T2G 通信链路使用第m个资源块时的信道容量可表示为:

其中:B为每个频谱的带宽。

第t个T2T 通信链路使用第m个资源块时的信道容量可表示为:

2 智能频谱共享方案

2.1 MADRL学习模型

在使用MADRL 的频谱共享问题中,将所有T2T通信链路当作智能体共同探索列车所处的通信环境[13-14]。如图2 所示,展示了智能体与通信环境交互的过程。在一个相干时间段k内,给定当前环境状态Sk,此时,第t个智能体从环境中获取的观测值,然后采取动作,根据智能体采取的动作,可以获得相应的奖励Rk+1,环境状态会以p(s',r|s,a)的概率进入下一个状态Sk+1,此时每个智能体将得到新的观测值,在整个环境中,所有智能体都共享同一奖励。

图2 智能体与通信环境交互示意图Fig.2 Schematic diagram of interaction between agents and communication environment

在实际交互中,不妨假设,在第t个T2T 通信链路在一个相干时间段k的开始阶段便能准确估计其他信道状态信息,并且该类信息能够及时获取。在一个相干时间段k内,可以从轨旁BS 处对信道状态信息估计,然后以广播的方式发送给小区内其他列车,这样可以减小信令开销。在本地观测空间中,智能体t的观测函数可以表示为:

其中:Gm为T2G 通信链路信道状态信息;Ht为T2T通信链路信道状态信息;Bt和Tt分别表示列车传输数据包大小以及传输数据所用时长。

在解决MADRL问题时,研究者通常采用独立的Q 学习算法[15]。但是,将神经网络与独立的Q 学习算法简单的结合起来会出现不兼容的问题,因为在学习过程中,每个智能体都面临一个不稳定的环境,所有智能体都在学习并调整自己的行为。随着经验池的不断扩大,不兼容的问题变得更加严重,此时,从经验池获取的样本已经不再反映当前智能体的状态,从而破坏学习的准确性。为了解决这个问题,研究人员通常采用加入低维指纹的方法,该方法的具体思想是通过估计其他智能体的行动策略来扩大每个智能体的观测空间,从而避免环境的不稳定性[16-17]。但是,动作值函数中包含的所有参数并不是都能够作为输入的,因为每个智能体的行动策略都由高维深度Q 网络(Deep Q-Network,DQN)组成,将所有参数均作为输入将会导致网络变得十分复杂,因此,就需要将输入变成在文献[17]中提到的包含重要信息的低维指纹,该指纹能够跟踪其他智能体行动策略的变化轨迹,从而起到表征智能体特征的效果。进一步的分析表明,在Q 学习广泛使用的ε贪婪策略中,每个智能体的行动策略更改都与训练迭代次数e及其探索率ε高度相关,因此,本文将ε和e都包含在智能体的观测空间中。此时观测空间可以表示为:

列车通信链路的资源共享方案是基于T2T 通信链路频谱选择和传输功率控制设计的。本文共设置了R个不相交的子带,每个子带都由一个T2G通信链路占据,智能体的每个动作会对应频谱和功率选择的一种特定组合。

强化学习(Reinforcement Learning,RL)算法由于奖励设计很灵活,所以常被用来解决难以优化的问题。设置合适的奖励函数,使其与优化目标相关,可以极大地提高系统性能。本文的主要目标是最大化系统的总容量,并在一定的时间内增加T2T 通信链路数据传输的成功概率。因此,本文将奖励函数设置为:

其中:λ为T2G 通信链路信道容量在整个系统中所占权重;分别表示T2G 通信链路与T2T通信链路在相干时间k内的信道容量。

2.2 算法步骤

基于MADRL 的频谱复用方案分为2 个阶段:第1个阶段为训练阶段,第2个阶段为测试阶段。

在训练阶段,利用深度Q 学习和经验重播对多个智能体进行训练[18],使智能体能够有效地学习频谱共享策略。Q 学习算法是基于策略π的动作-值函数Q(s,a)来采取行动的一种算法,其定义为从状态s跟随行动策略π采取动作a,可以将动作-值函数表示为:

其中:Gk为经过折扣后的奖励。

在Q 学习算法中,智能体所采用的策略π和其动作-值函数息息相关。一般来讲,智能体会选择Q值最大的动作a,并以此来更新策略π,然后再通过新的策略π来更新Q值,反复迭代直到Q值收敛到最优值Q*(s,a)。因此,可以将动作-值函数的迭代式表示为:

其中:α是学习速率;γ是折扣因子。在Q 学习算法中,Q值存储在Q表中,Q表的大小为|A||S|。

在T2T 通信的频谱共享问题中,由于状态空间S很大,进而导致Q 表也变大,因此本文采用能够处理该问题的DQN。如图3 所示,将观测到的状态视为神经网络的输入,将每个动作对应的Q值当作神经网络的输出值,此时Q表已经可以被Q网络所替代。

图3 DQN结构Fig.3 Structure of Deep Q-Network

在智能体的学习过程中,主要存在2 个问题:一是目标不稳定,参数学习的目标取决于参数本身;二是样本之间有很强的相关性。为了解决这2个问题,DQN 算法主要采取2 种措施:一是冻结目标网络,即在一定时期内固定目标网络中的参数以稳定学习目标;二是经验重放,建立体验池以消除数据依赖性[19-20]。本文提出的算法在这2 种措施的基础上,引入能够表征智能体行动轨迹的低维指纹信息,该算法的具体过程如下所示:

步骤1 初始化神经网络参数;

步骤2 启动环境模拟器;

步骤3 启动循环;

步骤4 从环境获取初始状态:s∈S;

步骤5 根据策略π选择频谱;

步骤6 产生下一个状态和奖励;

步骤7 更新列车位置和信道状态信息;

步骤8 将数据项{sk,ak,rk,sk+1}保存到经验池中;

步骤9 从经验池中随机选择一部分数据来训练神经网络;

步骤10 选择最大Q值对应的动作;

步骤11 定期更新目标Q网络;

步骤12 结束循环。

在测试阶段,在一个相干时间段k内,每个智能体首先估计环境观测值,然后根据已经训练完成的Q 网络,智能体自主选择策略价值最大的策略π*,最后智能体根据选定策略采取行动,确定的发射功率和频谱资源开始传输数据。

3 实验仿真对比分析

在本小节中,在Python 环境下对频谱共享算法的系统性能仿真,并对仿真结果进行解释说明。结合相关文献以及列车的实际运行情况,在城市轨道交通T2T 通信场景中采用Winner II 路径损耗模型。每列列车上都可以同时存在T2T 通信模式和T2G通信模式,主要仿真参数列于表2中。

表2 主要仿真参数Table 2 Main simulation parameters

如图4所示,随着训练次数的不断增加,累积的奖励不断提高,这说明了所提出训练算法的有效性。当训练次数达到大约1 000 次时,尽管在城市轨道交通环境中,由移动性引起的信道衰落会导致一些波动,但系统的整体性能仍然呈现出收敛的趋势。基于这样的观测,在后续评估T2T 和T2G链路的性能时,将每个智能体的Q网络均训练了1 500次,以此来保证模型均收敛。

图4 训练次数及获取平均奖励Fig.4 Training times and average reward

如图5 所示,随着T2T 链路传输数据包大小的增加,最大信道容量、引入低维指纹的MADRL与MADRL 方案的性能都会下降。显而易见,当传输的数据包大小增加时,为了提高T2T 链路数据传输成功的概率,需要T2T 链路增加传输数据的时长以及提高T2T链路的发射功率。随着T2T链路传输数据的时间变长,由于频谱共享,T2T 链路对T2G 链路也会造成更强的干扰。由图5 中可以看出,本文所提方案在不同的T2T 传输数据包大小上相对于其他方案能够达到更好的性能。这也进一步说明,本文所提方案在引入多智能体低维指纹之后,经验复用池的稳定性大大提升,使得训练结果更加准确。

图5 数据包大小与信道容量关系Fig.5 Relationship between data packet size and channel capacity

如图6所示,在使用相同大小数据包训练模型情况下,随着需要传输数据包大小增大,除最大信道容量外,加入低维指纹的MADRL 和MADRL方案的成功率都在逐渐变小,相比于未加入低维指纹的MADRL方案,本文所提方案的传输成功概率更接近于最大信道容量下的传输概率且下降幅度很低。结合图6的观察结果,可以得出结论:本文所提方案训练后的DQN,在数据包大小发生变化后,即使在未重新训练的情况下,也能达到较好的效果。

图6 数据包大小与数据传输成功概率关系Fig.6 Relationship between data packet size and data transmission success probability

4 结论

1) 在现有研究的基础上,提出一种新的频谱选择方案,降低了不同通信模式的列车之间产生的干扰对整个通信系统带来的影响。

2) 在传统多智能体强化学习算法的基础上创新性地引入多智能体低维指纹,大大降低Q 函数的维数,从而提高学习的稳定性。

3) 有效提高T2T 通信系统的信道容量,应用在城市轨道交通T2T 通信的环境中,具有较强的实用性。

猜你喜欢
链路信道频谱
一种移动感知的混合FSO/RF 下行链路方案*
基于自适应学习的5G通信系统信道估计方法
基于凸优化的FSO/RF 自动请求重传协议方案
电机在60Hz运行过程中的故障频谱分析
天空地一体化网络多中继链路自适应调度技术
信号/数据处理数字信道接收机中同时双信道选择与处理方法
典型办公区域Wi-Fi性能的优化
基于信道跟踪的LFM信号检测方法研究
FCC启动 首次高频段5G频谱拍卖
一种IS?IS网络中的链路异常检测方法、系统、装置、芯片