基于认知无线网络的移动终端业务流的分析方法

2014-06-07 05:53王慧强陈晓明
中国电子科学研究院学报 2014年6期
关键词:网络流量时空尺度

王慧强,陈晓明

(哈尔滨工程大学计算机科学与技术学院,哈尔滨 150001)

基于认知无线网络的移动终端业务流的分析方法

王慧强,陈晓明

(哈尔滨工程大学计算机科学与技术学院,哈尔滨 150001)

针对认知移动终端业务流在多网络层具有不同复杂性的特点,提出了一种基于多时空尺度的业务特性分析方法。该方法首先建立多空间尺度业务模型,然后利用多尺度熵方法对终端业务流信息进行特征提取,对比分析不同时空尺度上网络行为的结构复杂度,探索其随时空尺度的变化规律,从而预测下一时段的业务量。实验数据分析的结果表明,该方法能够有效的实现业务流的在线监测。

认知网络;多尺度熵;业务分析;跨层感知

0 引 言

认知网络(Cognitive Networks)的核心思想[1,2]是网络能够感知当前环境及其变化,通过对所处环境的理解,实时调整网络系统的配置,智能地适应环境的变化;同时,认知网络具备自学习的能力,并指导未来的自主决策过程。因此,网络如何能感知环境变化是认知网络研究的基础。

受限于层次化网络限制,网络控制与数据层的紧耦合关系,再加上混合式的网络控制模式,加剧了新业务需求与网络控制层可扩展性之间的矛盾,导致网络的控制和管理越来越臃肿,网络安全性、可靠性难以实现。而未来网络的发展将用户体验的服务质量放在发展的首位,这使得对用户业务特性的分析显得至关重要。而移动终端的时变性、通信业务多样性,致使终端业务特性难以直接分析。

认知终端用户活动区域具有一定规律性,各个用户活动区域在不同时段呈现出比较强的相关性和相似性[3],因此采集不同时段用户业务特征作为历史数据,通过多尺度熵对当前用户的特征进行分析并预测下个时段的业务类型及业务量,从而推测出各个区域需要服务的用户数。开展基于多尺度熵(MSE,Multiscale Entropy)理论[4]的用户业务特性研究,是实现认知网络接入选择、认知网络重配置、认知网络频谱分配的基础。

多尺度熵理论在机械滚动轴承故障检测、脑电波疾病检测上有广泛的应用。近年来,多尺度熵理论被应用于网络蠕虫病毒检测、网络流量分析等领域。文献[5]提出网络流量具有自相似特性,参数具有稳定性,即自相似程度不会随着时间粒度的取值、分析序列的长短、划分尺度的起止值等参数的变化而发生显著变化。文献[6]利用复杂网络的统计特性,在多尺度分析的基础上提出一种基于多重分形小波模型的网络连接层流量模型,对网络流量进行了较为准确的预测;文献[7]提出使用多尺度熵分析用于描述网络流量的复杂性;文献[8]使用多尺度熵分析对不相关(white)和长相关(1/f)模型进行了成功仿真,为最终成功建立网络流量行为模型带来了希望。在以上文献对网络流量特性的分析基础上,对认知无线网络业务流进行了分析,且考虑多网络层分层特性的分析方法。

采用多尺度熵对认知网络移动终端用户的业务流规律进行了分析,获取不同业务类型的多尺度熵值的范围,并采用K-近邻法对业务流进行分类,并应用多元回归分析预测下一时刻的业务量,为认知网络优化配置奠定基础。

1 多尺度业务流模型建立

1.1 模型建立

为分析认知移动终端用户业务流特性,首先建立多尺度业务流模型,由四元组构成,表示为T=(G,V,S,F)。

G表示业务流的不同采样时间粒度;G={Mi+ croSec,MilliSec,Sec,Min,OPT},其中MicroSec表示微秒,MilliSec表示毫秒,Sec表示秒,Min表示分钟,OPT为备选时间粒度。

V表示不同网络层次集合。研究中仅选取应用层、网络层及MAC层的网络流作为参数。时间序列表示为{Packeti},{Bytej},{Bitk},其中 0≤i≤ Npacket,0≤j≤Nbyte,0≤K≤Nbit。Npacket、Nbyte、Nbit.分别表示各层可用于多尺度分析的时间序列长度。

S表示移动终端业务类型的归属分类,用集合{Si}表示,traffic_type={Si}。

F为空闲集合,作为模型系统升级、性能扩展的预留字段。

以上述四元组建立多尺度流量初始参变量数据库,记为T_HistoryData;经多尺度分析、约简,并由K-近邻法对网络流量进行分类、记为T_CurrentDa+ ta;由多元回归分析预测下一较小时段网络流量,对下一时刻业务流的预测记为T_NextData,每个数据库至少包含两个字段,分别为认知移动终端的业务类型和业务流量。

模型表示的时空尺度关系如图1所示。

1.2 实施过程

人类活动的聚集效应表明人与人的活动并不完全独立,尤其在局部空间呈现出较强相关性。因此,不可忽视网络环境在空间尺度上蕴含的潜在结构及其对网络行为的影响。要开展基于多尺度熵理论的终端业务时空尺度特性研究,首先需根据多尺度熵在时间尺度上由单尺度向多尺度扩展的原理,进一步将其推广到空间尺度上。推广之后,运用多尺度熵对业务流时空尺度特性展开研究,主要分五个步骤,整个过程如图2所示。

图2 业务流分析框架

(1)确定所需考察业务流特性的物理量,从网络测量认知移动终端节点所监测的物理量中选取时空尺度序列,选取应用层、网络层、MAC层的数据包流、字节流、比特流进行分析。

(2)以多尺度熵理论为基础,对既定不同层次(Layer),计算多尺度熵值,从而实现量化分析,依据多尺度熵理论中显著异常行为信号将降低结构复杂度的论断,研究基于多尺度熵变化规律。

(3)约简所得的时空尺度参数,作为K-近邻法学习的输入。对比分析不同时空尺度业务流的结构复杂度,探索其随时空尺度的变化规律,寻找相对稳定的多尺度熵值,完成终端业务流分类。

(4)从网络测量认知移动终端节点所监测的物理量中选取时空尺度序列,对其进行多元回归分析,根据当前业务流类型,流量特性,预测较短的下一时刻的数据流量。

(5)根据对下一时刻业务量的预测,及不同业务类型对网络性能指标参数的需求,配置相应的网络参数,以满足移动终端用户的业务需求。

2 多尺度业务流分析方法实现

认知网络移动终端业务流分析方法由时空尺度业务流分析、K-近邻法业务流分类,多元回归分析预测组成。

2.1 时空尺度业务流分析

多尺度熵的业务流分析方法包含三个重要参数τ,m和r,τ是尺度因子,m是嵌入维数,r是阈值,也称相似系数,分为下面7个步骤。

(1)设获取的网络业务流离散序列x1,x2,…,xL,共L个点;对序列进行coarse+graining变换,得到新的时空尺度序列,从不同网络层获取的尺度序列为空间尺度序列,从相同网络层获取的尺度序列为时间尺度序列,表示如下。

①空间尺度:分别为数据包级P:Packets,字节流级By:Bytes,比特流级Bi:Bits,如式(1)~式(3)所示,空间尺度也可根据具体的应用进行扩展。

②时间尺度:分别为毫秒级MS:millisecond,秒级S:second,分级M:minute,如式(4)~式(6)所示,具体可能时间的尺度还需要依据应用探索,主要依据所采集的数据流的级别而定,选取0.1 s作为采样粒度,选取时间尺度为1~40。

式中,τMS,τS,τM分别为毫秒级,秒级,分级的尺度因子;相应的coarse+graining时间尺度序列的长度为L/τMS,L/τS,L/τM;而τP,τBy,τBi分别为数据包级,字节流级,比特流级的尺度因子;相应的coarse+grai+ ning空间尺度序列的长度为L/τP,L/τBy,L/τBi。当尺度等于1时,coarse+graining时空尺度序列及时原始序列。式(7),式(8)给出了尺度因子为2和3的变化。

(2)以下τMS,τS,τM,τP,τBy,τBi统一用τ表示。根据尺度τ变化所得到的新序列,长度N=L/τ,按连续序号组成一组 m维矢量:从 Y(x)(1)~Y(x)(N-m+1),其中,Y(x)(i)=[y(x)(i)],y(x)(i+1),…,y(x)(i+m-1)]],i=1,…,N-m+1。这些矢量代表了从第i个点开始的连续m个y值。

(3)定义d[Y(x)(i),Y(x)(j)]为尺度τ,矢量Y(x)(i)和Y(x)(j)对应元素相减并取绝对值最大的那个值,即其中i,j=1,…,N-m+1,i≠j,k=0,…,m-1,(此时Y(x)(i),Y(x)(j)中对应元素间差的绝对值都小于r)。并对应i值计算Y(x)(i)与其余矢量Y(x)(j)间的距离d[Y(x)(i),Y(x)(j)]。

(4)给定阈值r,对于每一个i≤N-m+1的值,统计d[Y(x)(i),Y(x)(j)]小于r的数目及次数目与距离总数N-m的比值,记作(r),

(5)对同网络层的空间尺度序列,同种时间粒度的时间尺度的所有点求取平均值,即(r)=。Cτ,m(r)表示矢量{Y(τ)(j)}在尺度τ下的平均自相关程度。

(6)增加维数值m+1为,重复(2)~(5)步骤,从而得到尺度τ,m+1维数下的(r),求其平均值,得到(r)。

该序列在尺度τ下的样本熵值定义为

当N为有限值时,按上述步骤的而出的是序列长度为N,尺度为τ时样本熵估计值,将估计值记为

多尺度熵定义为样本熵值在多个尺度下的集合,所以多尺度熵值为

(7)依照以上(1)~(6)步骤,分别对不同层进行空间尺度熵分析,序列{xi}熵值记为{mse(xi)}。

2.2 K-近邻法业务流分类

以上文多尺度熵的结果{mse(x1),mse(x2),…,mse(xn)}作为样本输入,以Si为业务流分类预测结果。类别数c事先确定(本文取值为3),选择误差平方和准则函数为目标函数:

式中,wi为第i个类别的聚类中心。Jc度量了用c个聚类中心w1,w2,…,wc代表c个类别是对样本集合进行分类时所产生的总的误差和。

根据式(13),如果mse(xj)离第i个类别中心最近,则dij=1,即mse(xj)归入第i个类别;否则dij=0,即mse(xj)不归入第i个类别。

根据上述分析获取不同类型的业务流多尺度熵值,建立多尺度熵值和业务流之间的映射关系,用式(14)表示。fK,fL为置信度95%时的置信区间值,由多次试验统计获得。

设业务流的分类集合为Si,则可表示为式(14)。

由于不同的业务流对带宽的需求不同,所以,依据业务流的分类完成相应的认知网络移动终端节点的带宽配置,如式(15)所示。

2.3 多元回归分析预测

多元回归的回归截距a和各回归系数bi(i=1,2,…,k),依据最小二乘法确定。即:

多尺度业务流的时间粒度用x表示,所对应的业务流用y表示,则对于每一个自变量x预测y的取值范围,则y表示下一时刻的流量数据。对于变量x的每一个可能的xi,都有随机变量yi的一个分布与之对应,则多元回归方程的一般表示形式为

根据最小二乘原理,视a,bi(i=1,2,…,k)为统计量,进行参数估计得其值,需要分别对各统计量求偏导数,并令其偏导数为零,即:

整理式(18)后,即得多元回归统计量的正规方程组,即:

通过求解式(19),即可得出各统计的估计量,从而可得回归方程。最终完成下一时刻业务流量在线预测。

3 时空尺度终端业务分析

3.1 参数分析

由式(10)可知,多尺度熵的计算明显与参数(尺度因子τ、嵌入维数m、相似系数r)有关,另外由于多尺度熵是样本熵在多个尺度τ下的集合,根据式(6)和式(8),多尺度熵的计算与序列长度L有关。下面分别讨论以上参数的取值。

(1)尺度因子τ的选取。尺度因子τ为正整数,τ=1,2,3,……,当τ=1时,yi(1)为原序列,根据需求设置,τMS,τS,τM,τP,τBy,τBi等尺度因子,分别表示毫秒级、秒级、分钟级尺度因子,及数据包流、字节流、比特流级尺度因子。

(2)嵌入维数m的选取。m值越大,根据式(4)计算Cm(r)时,将获得更多的序列信息;但m值和原始序列长度具有一定关系(一般L=10m~30m),m越大,需要的序列就越长,获得相应的计算结果将会出现延迟。综合考虑两方面,本文选取m=2。

(3)相似系数r的选取。如果r过大,会导致序列信息丢失较多;如果r过小,又难以分析出序列的统计特性。一般选取r=(0.1~0.25)SD,其中SD为序列的标准差,序列{xi}={x1,x2,……,xN}的标准差按照式(20)计算。

综合考虑,相似系数选取r=0.15SD。

(4)数据长度L的选取。数据长度L和业务流采样频率相关,选取的L过长,将导致计算多尺度熵的速度较慢,影响算法的时间复杂度,考虑m的取值为2,选取嵌入维数L的值大于500,小于2 000。

3.2 方法实现

(1)初始化网络各子层复杂度参数τ、m、r。

(2)取离散序列表示不同网络层得设计变量集,x1,x2,……,xN共L个点,表示不同网络层的业务流向量集,对序列进行coarse+graining变换,得到新的时间时空尺度。

分析样本熵确定时间序列在单一尺度上的无规则程度,进而计算时间序列在多个尺度上的样本熵值,由熵值确定时间序列在尺度上的无规则度。若熵值在尺度上越小,则序列在尺度上自相似性较低,结构简单,属于随机时间序列;若熵值在尺度上越大,则序列自相似性越大,复杂度大;若一个时间序列的熵值在绝大部分尺度上大于另一个时间序列的熵值,说明后者比较复杂。根据不同认知网络移动终端业务流的样本复杂度不同,区分业务流类型,从而自适应完成认知网络的业务流预测。

4 仿真实验及结果分析

4.1 仿真场景设计

实验环境采用NS2仿真[9]实现,设置仿真区域大小为 400×400。区域中心设置一个固定的WLAN AP,40个的认知移动终端随机分布在仿真区域内,在基站发射功率覆盖范围内的圆形区域随机移动,30个节点用作业务流多尺度特性分析训练集,10个移动节点用作在线测试。所有节点均能够发送三种业务类型的数据流,业务类型设置为常用的三类,分别为文件传输、网页浏览,视频播放,仿真实验拓扑如图4所示。仿真实验采用802.11 g协议。其它参数按照NS2 2.31版本默认设置参数,路由协议采用DSDV。仿真实验时间为100 s,为使得仿真更具有准确性,仿真场景运行100次。其中以VBR流量模型模拟文件传输,数据分组大小区间设为[200:700];以指数on/off流量模型模拟网页浏览,数据速率设为200 KB/s;以帕累托on/off流量模型模拟视频播放,数据速率设为350 KB/s。

图4 仿真实验场景

从30个移动终端节点获取的网络流量信息时间序列如图5所示,其中能发送三种业务的节点各10个,为了训练的有效性和准确性,设置训练集的每个节点只发送一种类型的数据流。图5(a)为认知移动终端在文件传输中获得时间间隔为0.1s网络流量图,并在空间尺度上,分别获取比特流级、字节流级和数据包流级网络流量图。图5(b)为认知移动终端在网页浏览中获得时间间隔为0.1 s网络流量图,并在空间尺度上,分别获取比特流级、字节流级和数据包流级网络流量图。图5(c)为认知移动终端在文件传输中获得时间间隔为0.1 s网络流量图,并在空间尺度上,分别获取比特流级、字节流级和数据包流级网络流量图。

图5 三种类型业务流时间序列

图6 业务类型与多尺度熵

三种业务类型在空间尺度(bits,packets,bytes),如图6所示。尺度因子1~40的平均多尺度熵。依据图中易得出流媒体的多尺度熵值最高,文件传输的多尺度熵值居中,网页浏览的多尺度熵值最低。表明流媒体的业务流复杂度最高,网页浏览的业务流复杂度最低。从图6中观察得出,尺度因子在1~9,15~20时,能够较明显的区分出三种业务流类型,且比特流和字节流的多尺度熵值具有高度相似性。为获得更高的效率,约简获取比特流或字节流中的一种,作为K-近邻法的输入数据。选用数据包流和字节流的多尺度熵值作为分析依据。

4.2 实验结果分析

依据上述实验,时空尺度和业务流之间的映射关系,分析混合流量类型,验证算法的有效性,为验证所提出算法的可行性,选取字节流和数据包流计算多尺度熵值,进行流量类型预测,混合类型数据包流如图7所示。取样时间粒度分别为0.1 s。

应用测试移动终端节点,发送混合业务流数据,测试算法的有效性,如图7所示,仿真时间为300 s,从0~50 s为ftp文件传输,50~150 s为网页浏览,150~250 s为视频播放,现测试场景运行100次,来验证算法的有效性。

图7 混合类型数据流图

依据算法可得出,应用多尺度熵对终端流量类型进行分类预测,见表1。准确率可达到95.3%,误报率可达到4.7%,算法运行的平均时间延迟为0.2 s,效率较高,能够满足认知终端用户的需求。

表1 多尺度分类检验

混合类型数据流预测如图8所示,其中,蓝色线条表示原始数据流图,绿色表示预测的数据流图。选取七元多项式完成回归拟合分析,预测曲线和原曲线具有较高拟合性。

图8 混合类型数据流预测

5 结 语

多时空尺度的认知网络移动终端业务流分析方法,建立多尺度业务流模型,并引入K-近邻法对终端业务类型进行分类,采用多元回归方法对下一时刻业务流量进行预测。仿真实验结果表明,该分类预测方法具有可行性和正确性,能够实现网络流量的在线预测。本研究为认知网络的频谱资源分配、认知网络接入选择、认知网络重配置的研究奠定基础。下一步将以此研究作为基础,对认知网络的重配置参数设置进行深入研究。

[1]王慧强,徐俊波,冯光升,等.认知网络体系结构研究新进展[J].计算机科学,2011(8):9.

[2]THOMAS R W.Cognitive Networks[D].Blacksburg,VA,USA:Virginia Polytechnic and State University,2007.

[3]ZHAO RONGCAI,ZHANG SHUO.Network Traffic Gen+ eration:A Combination of Stochastic and Self+similar[C]//2010 2nd International Conference on Advanced Computer Control.2010:171+175.

[4]MADALENA C,ARY L.G.Multiscale Entropy Analysis(MSE)[EB/OL].http://www.physionet.org/phys+ iotools/mse/tutorial/,2014

[5]傅雷扬,王汝传,王海艳,任勋益.R/S方法求解网络流量自相似参数的实现与应用[J],南京航空航天大学学报.2007,39(3):56+60.

[6]洪飞,吴志美.基于小波的多尺度网络流量预测模型[J].计算机学报,2006,29(1):166+170.

[7]JANNE R,PETRIM,MATTHIASW.Metrics for Char+ acterizing Complexity of Network Traffic.[C]//in Proc. of ICT,St.Petersburg,Russia,2008.

[8]VANDENDRIESSCHE B,PEPERSTRAETE H,ROGGE E,etal.A Multiscale Entropy+Based Tool for Scoring Se+ verity of Systemic Inflammation[J].Critical care medi+ cine,2014,42(8):5+8.

[9]http://www.isi.edu/nsnam/ns/,2014.

王慧强(1960—),男,河南周口人,博士,教授,主要研究方向为认知网络、可信超网络、空间信息网、物联网、网络技术与信息安全、网络安全态势感知等;

E+mail:wanghuiqiang@hrbeu.ed

陈晓明(1983—),女,黑龙江哈尔滨人,博士研究生,主要研究方向认知网络、跨层设计、异构网络接入、网络体系结构等;

E+mail:chenxiaoming@hrbeu.edu.cn

A Network Traffic Analysis M ethod for M obile Term inal Based on Cognitive Network

WANG Hui+qiang,CHEN Xiao+ming
(Institute of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China)

For cognitive networks acrossmultiple network layers have the characteristics of varying com+ plexity,a traffic characteristics analysismethod based on space and time scales is put forword.Firstly,the traffic model is established using multi+scale,and then network behavior at different temporal and spatial scales of structural complexity network behavior is analyzed;explore its change law of time scale,so as to accurately forecast the next period of time of business.The results of the experiment data analysis show that themethod can effectively realize onlinemonitoring of the business flow.

cognitive network;multi+scale entropy;network traffic analysis;cross+layer perception

TP393

:A

:1673+5692(2014)06+575+07

10.3969/j.issn.1673+5692.2014.06.005

2014+10+22

2014+11+10

本课题得到国家自然科学基金 (60973027,61370212,61402127);黑龙江省自然科学重点基金项目(ZD 201102);黑龙江省自然科学基金(F201037);博士点基金优先发展领域项目(20122304130002);教育部高等学校博士点基金(20102304120012);中央高校基本科研业务费专项资金(HEUCF100601;HEUCFZ1213);黑龙江省博士后基金(LBH-210204)资助。

猜你喜欢
网络流量时空尺度
基于多元高斯分布的网络流量异常识别方法
大数据驱动和分析的舰船通信网络流量智能估计
跨越时空的相遇
镜中的时空穿梭
财产的五大尺度和五重应对
玩一次时空大“穿越”
AVB网络流量整形帧模型端到端延迟计算
宇宙的尺度
时空之门
9