基于增强学习的非协作认知无线网络路由算法研究

2018-01-29 07:51杨振宇

西安文理学院学报（自然科学版） 2018年1期

杨振宇

(安徽交通职业技术学院信息工程系，合肥 230051)

无线通信系统所需的无线电频谱是一种有限的资源.随着各种无线应用的蓬勃发展，可用的频谱已经越来越少，频谱稀缺问题日益严重.认知无线电网络(Cognitive Radio Networks，CRNs)允许通过支持动态频谱接入(DSA)来提高无线电频谱的使用效率.在CRNs中，次用户(SUs)只有在主用户(PUs)没有占用频谱的情况下才可以使用频谱资源；当PUs需要使用频谱时，SUs必须立即停止数据传输，并将频谱资源让给PUs[1].CRNs中的路由利用中间SUs节点，以多跳方式将源SU的数据转发到目的SU.在设计路由算法的时候需要考虑以下几个问题：1)CRNs是一个动态的环境，所以SUs需要适应环境的变化；2)SUs需要交换大量的路由信息，由于CRNs是一个分布式的环境，需要考虑如何优化路由算法以减少路由开销；3)由于各个SUs之间是非协作的，因此，设计路由算法时考虑到SUs之间的非协作交互；4)CRN路由协议设计是需要考虑PUs的活动模型，在实现高路由性能的同时并满足PU的服务质量(QoS)需求.

1 问题建模

1.1 系统模型

假设CRN中有N个SUs以及M个PUs，网络中有多个源SU发送数据包，并以多跳的方式通过中间SU发送到目的地SU节点.假设PUs也在发送数据包，PUs也可以转发其他PUs的数据包.利用离散时间马尔科夫泊松过程(DT-MMPP)来对PUs的活动进行建模[2-3].SUs之间是非协作的，每个SU只优化自己的路由性能，而不考虑其他SU的路由性能.当一个SU将数据包传输到到下一跳节点后，该SU会收到来自下一跳SU的确认包(ACK).

1.2 问题定义

每个SU的目标是选择下一跳SU节点来发送数据包，使其被PU干扰的概率小于给定阈值，从而最小化其端到端时延.因此，SUi的优化问题具有如下的形式：

(1)

(2)

Costi(nhi,nh-i)=Di(nhi,nh-i)+Li(nhi,nh-i)

(3)

其中，Li(nhi,nh-i)是干扰的成本，计算如下：

(4)

B是一个很大的常数.

1.3 路由问题的博弈模型

(5)

其中，Costi(si(t),ai(t),a-i(t))是使用公式(3)计算，Dmax是最大的时延.SUi的一个策略被定义为一个概率向量[πi(si,ai)]ai∈Ai∈Oi(si)，πi(si,ai)是指在状态si选择动作ai的概率.SUi的期望折合成本函数可以表示为[6]：

(6)

其中，β∈[0,1)是折合因子.

2 基于增强学习的路由策略

(7)

(8)

(9)

利用Boltzmann分布[8]，可得以下的结论：

(10)

(11)

(12)

(13)

将式(12)、(13)代入(7)，可得：

(14)

于是，根据Boltzmann分布，可以得到SUi的策略如下：

(15)

基于增强学习的非协作路由算法如表1所示.

表1 基于增强学习的非协作路由算法

3 仿真实验及结果分析

图1 端到端时延对比

利用NS-2网络模拟器，通过与最短路径算法进行对比来评估本文算法的性能.实验网络中一共有100个节点，其中有4个源Sus，两个Pus，其余的是中间SU.模拟实验场地的大小是1 km2.每一个SU的传输范围是100 m，PU每秒发送20个数据包，参数τ的值是1，β的值是0.5.

图1和图2分别是时延以及SU被干扰概率的实验结果.如图1所示，使用本文的算法，当PU可接受干扰的概率增加时，SU可以更自由地转发数据包，从而减少了缓冲数据包的数量，所以时延就会降低.当PU可接受干扰的概率低时，本文算法的延迟会大于最短路径算法的延迟.当使用本文提出的路由算法时，在PU可接受干扰的概率低的情况下，SU必须缓冲更多的数据包，此时被转发的数据包就会变少.这是为了保证PU实际受到干扰的概率小于PU可接受干扰的概率.当PU可接受干扰的概率大于0.8时，SU缓冲的数据包数量减少，因此时延会小于最短路径算法的延迟.如图2所示，本文算法所获得的干扰概率总是小于PU的可接受的干扰概率.图3是SU数据包投递率的实验结果.当PU可接受干扰的概率低时，本文算法的数据包投递率略小于最短路径算法.这是由于当PU可接受干扰的概率低时，SU需要缓存部分数据包，以此避免SUs的传输会对PU造成影响.当PU可接受干扰的概率逐渐增大时，本文算法的数据包投递率要比最短路径算法的要高.

图2 SU被干扰的概率

图3 数据包投递率

4 结论

本文提出在认知无线电网络中的SU的分布式路由方案，SU通过本地的信息进行路由，使用MMPP模型对PU行为进行建模.关于SU之间是非协作的，SU需要对环境的变化进行快速适应，将路由问题建模为非合作的随机学习过程.使用多agent的Q学习方法作为路由问题的解决方案框架.仿真实验的结果显示出本文算法优异的性能.

[1] LIANG Y C,CHEN K C,LI G Y,et al.Cognitive radio networking and communications:an overview[J].IEEE Transactions on Vehicular Technology,2011,60(7):3386-3407.

[2] FU F,SCHAAR M V D.A systematic framework for dynamically optimizing multi-user wireless video transmission[J].IEEE Journal on Selected Areas in Communications,2009,28(3):308-320.

[3] FU F,SCHAAR M V D.Learning to compete for resources in wireless stochastic games[J].IEEE Transactions on Vehicular Technology,2009,58(4):1904-1919.

[4] CHAN W C,LU T C,CHEN R J.Pollaczek-Khinchin formula for the M/G/1 queue in discrete time with vacations[J].IEE Proceedings -Computers and Digital Techniques,2002,144(4):222-226.

[5] ROTH U.Highly dynamic destination-sequenced distance-vector routing[C].Proc Acm Sigcomm94 Aug,1994:234-244.

[6] MOZER S M C,HASSELMO M.Reinforcement learning:an introduction[J].Machine Learning,1992,8(3-4):225-227.

[7] HUSHENG L.Multiagent-learning for aloha-like spectrum access in cognitive radio systems[J].Eurasip Journal on Wireless Communications & Networking,2010,2010(1):1-15.

[8] KIANERCY A,GALSTYAN A.Dynamics of boltzmann Q learning in two-player two-action games.[J].Physical Review E,2011,85(4):1574-1604.