基于增强学习的非协作认知无线网络路由算法研究

2018-01-29 07:51杨振宇
关键词:投递数据包路由

杨振宇

(安徽交通职业技术学院 信息工程系,合肥 230051)

无线通信系统所需的无线电频谱是一种有限的资源.随着各种无线应用的蓬勃发展,可用的频谱已经越来越少,频谱稀缺问题日益严重.认知无线电网络(Cognitive Radio Networks,CRNs)允许通过支持动态频谱接入(DSA)来提高无线电频谱的使用效率.在CRNs中,次用户(SUs)只有在主用户(PUs)没有占用频谱的情况下才可以使用频谱资源;当PUs需要使用频谱时,SUs必须立即停止数据传输,并将频谱资源让给PUs[1].CRNs中的路由利用中间SUs节点,以多跳方式将源SU的数据转发到目的SU.在设计路由算法的时候需要考虑以下几个问题:1)CRNs是一个动态的环境,所以SUs需要适应环境的变化;2)SUs需要交换大量的路由信息,由于CRNs是一个分布式的环境,需要考虑如何优化路由算法以减少路由开销;3)由于各个SUs之间是非协作的,因此,设计路由算法时考虑到SUs之间的非协作交互;4)CRN路由协议设计是需要考虑PUs的活动模型,在实现高路由性能的同时并满足PU的服务质量(QoS)需求.

1 问题建模

1.1 系统模型

假设CRN中有N个SUs以及M个PUs,网络中有多个源SU发送数据包,并以多跳的方式通过中间SU发送到目的地SU节点.假设PUs也在发送数据包,PUs也可以转发其他PUs的数据包.利用离散时间马尔科夫泊松过程(DT-MMPP)来对PUs的活动进行建模[2-3].SUs之间是非协作的,每个SU只优化自己的路由性能,而不考虑其他SU的路由性能.当一个SU将数据包传输到到下一跳节点后,该SU会收到来自下一跳SU的确认包(ACK).

1.2 问题定义

每个SU的目标是选择下一跳SU节点来发送数据包,使其被PU干扰的概率小于给定阈值,从而最小化其端到端时延.因此,SUi的优化问题具有如下的形式:

(1)

(2)

Costi(nhi,nh-i)=Di(nhi,nh-i)+Li(nhi,nh-i)

(3)

其中,Li(nhi,nh-i)是干扰的成本,计算如下:

(4)

B是一个很大的常数.

1.3 路由问题的博弈模型

(5)

其中,Costi(si(t),ai(t),a-i(t))是使用公式(3)计算,Dmax是最大的时延.SUi的一个策略被定义为一个概率向量[πi(si,ai)]ai∈Ai∈Oi(si),πi(si,ai)是指在状态si选择动作ai的概率.SUi的期望折合成本函数可以表示为[6]:

(6)

其中,β∈[0,1)是折合因子.

2 基于增强学习的路由策略

(7)

(8)

(9)

利用Boltzmann分布[8],可得以下的结论:

(10)

(11)

(12)

(13)

将式(12)、(13)代入(7),可得:

(14)

于是,根据Boltzmann分布,可以得到SUi的策略如下:

(15)

基于增强学习的非协作路由算法如表1所示.

表1 基于增强学习的非协作路由算法

3 仿真实验及结果分析

图1 端到端时延对比

利用NS-2网络模拟器,通过与最短路径算法进行对比来评估本文算法的性能.实验网络中一共有100个节点,其中有4个源Sus,两个Pus,其余的是中间SU.模拟实验场地的大小是1 km2.每一个SU的传输范围是100 m,PU每秒发送20个数据包,参数τ的值是1,β的值是0.5.

图1和图2分别是时延以及SU被干扰概率的实验结果.如图1所示,使用本文的算法,当PU可接受干扰的概率增加时,SU可以更自由地转发数据包,从而减少了缓冲数据包的数量,所以时延就会降低.当PU可接受干扰的概率低时,本文算法的延迟会大于最短路径算法的延迟.当使用本文提出的路由算法时,在PU可接受干扰的概率低的情况下,SU必须缓冲更多的数据包,此时被转发的数据包就会变少.这是为了保证PU实际受到干扰的概率小于PU可接受干扰的概率.当PU可接受干扰的概率大于0.8时,SU缓冲的数据包数量减少,因此时延会小于最短路径算法的延迟.如图2所示,本文算法所获得的干扰概率总是小于PU的可接受的干扰概率.图3是SU数据包投递率的实验结果.当PU可接受干扰的概率低时,本文算法的数据包投递率略小于最短路径算法.这是由于当PU可接受干扰的概率低时,SU需要缓存部分数据包,以此避免SUs的传输会对PU造成影响.当PU可接受干扰的概率逐渐增大时,本文算法的数据包投递率要比最短路径算法的要高.

图2 SU被干扰的概率

图3 数据包投递率

4 结论

本文提出在认知无线电网络中的SU的分布式路由方案,SU通过本地的信息进行路由,使用MMPP模型对PU行为进行建模.关于SU之间是非协作的,SU需要对环境的变化进行快速适应,将路由问题建模为非合作的随机学习过程.使用多agent的Q学习方法作为路由问题的解决方案框架.仿真实验的结果显示出本文算法优异的性能.

[1] LIANG Y C,CHEN K C,LI G Y,et al.Cognitive radio networking and communications:an overview[J].IEEE Transactions on Vehicular Technology,2011,60(7):3386-3407.

[2] FU F,SCHAAR M V D.A systematic framework for dynamically optimizing multi-user wireless video transmission[J].IEEE Journal on Selected Areas in Communications,2009,28(3):308-320.

[3] FU F,SCHAAR M V D.Learning to compete for resources in wireless stochastic games[J].IEEE Transactions on Vehicular Technology,2009,58(4):1904-1919.

[4] CHAN W C,LU T C,CHEN R J.Pollaczek-Khinchin formula for the M/G/1 queue in discrete time with vacations[J].IEE Proceedings -Computers and Digital Techniques,2002,144(4):222-226.

[5] ROTH U.Highly dynamic destination-sequenced distance-vector routing[C].Proc Acm Sigcomm94 Aug,1994:234-244.

[6] MOZER S M C,HASSELMO M.Reinforcement learning:an introduction[J].Machine Learning,1992,8(3-4):225-227.

[7] HUSHENG L.Multiagent-learning for aloha-like spectrum access in cognitive radio systems[J].Eurasip Journal on Wireless Communications & Networking,2010,2010(1):1-15.

[8] KIANERCY A,GALSTYAN A.Dynamics of boltzmann Q learning in two-player two-action games.[J].Physical Review E,2011,85(4):1574-1604.

猜你喜欢
投递数据包路由
传统与文化的“投递”
二维隐蔽时间信道构建的研究*
民用飞机飞行模拟机数据包试飞任务优化结合方法研究
铁路数据网路由汇聚引发的路由迭代问题研究
多点双向路由重发布潜在问题研究
一种基于虚拟分扇的簇间多跳路由算法
路由重分发时需要考虑的问题
C#串口高效可靠的接收方案设计
大迷宫
派发广告分工做得好 人人努力效率高