面向校园网的IPv6网流量成分分析

2021-11-23 00:19周朝姜

电子技术与软件工程 2021年2期

周朝姜

（贵州财经职业学院贵州省贵阳市 551400）

IPv6 是国际通用的互联网工程IETF 设计的互联网协议。而随着互联网的应用越来越广，上一代IPv4 互联网协议已经无法适应当今时代的发展和人们对互联网的应用需求，因此IPv6 互联网协议应运而生。而随着IPv6 的完善，越来越多的应用都在积极改造自己的核心程序和运作技术，以图更好的适应IPv6 协议。在全球范围内来看，一些知名搜索引擎和应用，如Google、Facebook 和云服务商以及运营商couldflare 等都已经完全适应的IPv6 协议。而使用IPv6 服务的个人用户也呈爆炸式增长。仅我国，在近年来，应用IPv6 的活跃用户数量就已经高达上亿人。这都全面突出了IPv6 的重要性和重要作用。因此，为了更好的分析IPv6 网络流量，本文将面向校园对IPv6 网络流量成分进行深度分析。

1 nDPI的检测

1.1 nDPI的分类

在本篇研究面向校园的IPv6 网络流量成分的文章中，文章将以开源工具ndaf 为起点，对现有的流量及成分进行识别，识别的流量内容包括P2P 流量和HTTP 的加密视频流量。之后再同时接入三个校园网的不同时期进行测试比对，进而细化分析IPv6 网络流量成分。

nDPI 是DPI 的开源库，它的主要功能是对应用层信息进行检测，对报文源IP、宿IP、源端口和宿端口及其协议进行阻流，同时解析信息，判断这些数据流的使用协议[1]。因此，要检测分析IPv6 的流量成分，就要选择三个校园网的原始流量，并将其作为初步分析对象，这样才可以将持续三周采集到的数据流量保存下来，并对数据进行优化分类。如果将已知的nDPI 识别到的流量分成7类，它类型分别是unknow、other、P2P、P2P-predict、TLS-know、

TLS-unknow、TLS-video、HTTP-know、HTTP-unknow、HTTPvideo。简单来说，HTTP-know 这种流量成分就代表着nDPI 标注的已知HTTP 流量，是nDPI 能够识别的一种流量成分。相对的，TLS-know 就代表着nDPI 标注的已知TLS 流量。同理，如果后续带有unknow 的标识，则证明是nDPI 标注的未知流量成分，后续带有video 标识的则是指视频分类器判断为视频的HTTP 或TLS 流量。

1.2 nDPI的不足

从对nDPI 的数据分类来看，它无法识别的流量有许多，且部分类型的流量字节数和报文数无法明确标识。换句话来说就是利用nDPI 识别流量的效果并不好。因此，要以校园网为对象来研究IPv6 网络流量成分就要改变识别工具，要进一步优化nDPI 的识别效果，并及时维护开源库，强化应用层协议的流量判别效果。

2 未知流量识别

2.1 P2P分类器

通过上述分析可以得知，利用nDPI 进行流量数据识别的有效性并不高，其中高达50%～70%的流量无法有效识别，这是由于它的流量识别机子还存在着巨大的缺陷。nDPI 识别程序主要是探测一条已知的数据流，然后再创建一定的报文数量之后，再根据应用层的信息去决定这一股数据流的协议归属，所以无法识别很大一部分不完整的数据流的所属协议。而在无法识别的未知数据流中，它们的连接接口基本都是使用的高端端口，因此，许多人认为，这些无法识别的未知数据流大概率是P2P 流。想要识别这一部分数据信息，就需要根据它的结构去构造一个二级分类器。根据现有的研究情况表明，目前视频流量在互联网的下载量占比非常高，超过5成。而要下载视频流量数据就必须要用到HTTP 协议。这就表明了HTTP 流中的未知数据流很大可能是加密视频。因此对于这一部分加密视频，流量进行分析就需要在二分类器中进行改进，要不断添加HTTP-video 和TLS-video 等目标。故而可以将其整体概括为，要完成流量成分的分类工作，就必须要在网络编在抓取具有一定时长的原始报文流量，然后再将这些原始报文流量交给nDPI 进行识别，同时还要保留所有的识别文件。之后，又可以将保存好的识别文件交给P2P 分类器进行再度识别，再然后可以将二次识别的数据交给视频分类器识别[2]。也就是说，要进一步识别IPv6 网络流量，并对这些流量进行细致分类的话，需要不断重复多个过程，多次进行识别分类。

利用P2P 分类器可以将这部分未知流量，分为非P2P 流量和P2P 流量。常见的P2P 流量是nDPI 可以识别的流量；而非P2P 流量主要指聊天软件、常用协议以及社交软件和远程桌面等留下的数据信息，如QQ 微信、微博、ins 以及teamviewer 等。在识别整个流量级的过程中，运用数据的传输时间比较长，字节也比较多，可以有效排除不包含实际运用的数据流量，即一些虚假流量。而在用这些分类器的时候，由于它的特征数量比较多，就可以使用bestfirst 算法作为特征子集搜索策略，然后对不同的等级进行评估。它的特征类型有数据包长、到达间隔以及传输期个数，空白期个数、每毫秒传输字节数和传输期每毫秒字节数等6 大类。他们的特征取值范围不同，如传输期个数和空白期个数的特征取值分为均值、方差、最大值和最小值，而其他四大特征类型的特征取值都会多一个熵值。在使用分类器分析数据时，所使用的分类器特征集合也不同。如常用的特征集合有数据包长均值、数据包长最大值、数据包长最小值，以及传输过程中平均空白期个数、传输期每ms 字节数最小值、传输期每毫秒字节数均值。要研究分析流量数据时，就可以利用这些数据指标选择对应的模型。

最后再通过交叉运算的方式来选择最优子集，识别关键特征。而在bestfirst 算法中，因为它的准确率生成相关评估函数可以生成共计236 个特征子集，能有效提高数据识别的准确率。除此之外，由于在P2P 分类器的使用上采取了C4.5 决策树算法，就能够有效规避样本分布变化带来的负面影响，能够使数据处理更具优势。因此在选择分类识别模型时，就可以将这种分类器作用于dataset I 中的未知流量。

2.2 视频分类器

视频分类器的应用非常广，多是直接采用小波包变换结合的方式识别视频流量，主要通过使用源地址、宿地址和源端口将HTTP报文进行阻流，然后再通过提取生成它的内在特征，并以此为支持向量机的输入特征，那就能够提高时域特征的稳定性和小波包数据分析的均匀性，其数据识别准确率高达9 成以上。为了检验强化视频分配器的作用效果，文章对采集的数据流量进行了整合分析，进而得出不同数据视频识别率和字节数占比比例，因而得出要利用视频分配器去判断不同的数据流量，提高判断的准确率，数据流的持续时间就要在300s 以上。因为未知应用流持续的时间太短，会无法高效准确的辨别出它的具体成分，无法对数据流进行标识。因此，后文在采取IPv6 网络和IPv4 网络的P2P 数据时，大多都持续在300s 以上。通过分析整体流量中的占比可以发现，HTTP 视频和TLS 视频的识别率存在较大差异，其中两个校园网的HTTP 视频识别率会明显高于TLS 视频的识别率，而剩下的一个校园网成呈现出相反的结果，这是由于IPv6 网络中P2P 流量数据占比比较大。

3 IPv6与IPv4网络流量成分对比

3.1 分类器识别效果

根据未知流量的分类和研究结果来看，三个校园网流量成分自己的占比不同，其差别较大。文章将详细研究IPv6 与IPv4 的网络流量成分，通过两者的仔细比对，去分析两种的异同点和优势与不足。比如现今各大高校的IPv4 网络流量数据比较庞大，在一定程度上超出了平台的处理能力，这就导致IPv4 的采集效率比较低。而IPv6 技术比较完善，且各种协议和功能相对成熟，它对数据的采集度就比较高。如利用该分类器进行识别网络流量数据，其面向的数据仅仅是大于300s 的HTTP/TLS 流，它能够识别的字节比例相对较低，在一定程度上与P2P 分类器的表现及其相似。而IPv6由于其特殊性和技术的先进性，又因为IPv6 网络中的未知流量远远大于IPv4 网络中的位置流量，所以识别未知流量的时候，识别率就会比较高。

3.2 面向分类结果的相关性分析

通过上述研究对IPv6 和IPv4 网络流量成分进行差异评估，可以明显看出三个校园网中的其中两个流量成分表现为弱相关，而剩下一个则表现为强相关。换句话来说，就是它的流量成分占比差异比较小，在测试中呈现出的相关系数相对稳定。这主要是由于这一个校园网的数据流量是IPv6 数据流量，其中的未知数据流量，也就是P2P 成分明显要低于前两个校园网。而经过分析研究得出的相关细数又决定着院校网数据的稳定性，因此后者会呈现出相对稳定的状态。所以从这一方面可以看出，利用IPv6 技术进行分析，所得到的结果更精确、更全面、更具有普适性和实用性。

3.3 IPv4与IPv6网络P2P流量特征对比

对IPv4 和IPv6 网络的P2P 流量套餐进行对比可以明显看出P2P 的成分在IPv6 流量中占比较大，但同时也在IPv4 流量中体现着不可忽视的作用。因此经过进一步分析比对可以发现，两者在流量传输层的协议使用中存在着较大的差距。比如进行了分析对比，可以得出利用IPv4 网络的数据流量在运用TCP 和UDP 协议使用中明显比较均衡，换句话来说就是两种使用不同的两种协议的占比相对平衡，不会有太大的差距。而利用IPv6 网络展开的数据分析中可以得出，P2P 流量绝大部分都会利用TCP 这种协议进行数据传输，会摈弃UDP 协议。除此之外，IPv6 网络和IPv4 网络中的P2P流量字节占比也存在较大的差异。比如将三个不同校园网所提取出的数据进行对比，就可以发现IPv6 中的字节占比比较大，IPv4 网络中的字节占比比较小。更甚至，在某些高校的校园网络中，IPv6网络的P2P 流量字节占比可以高达整体之间占比的一半以上，这是IPv4 网络的数据占比达不到的。从这一点也能够明显体现出IPv6互联网协议比上一代互联网协议更完善，体系更加成熟，应用范围和应用途径更广。

4 结束语

综上所述，要面对校园网进行分析IPv6 网络流量成分，就需要立足于深度包探测工具nDPI 去捕获IPv6 网络流量的数据，并对数据进行初步分析。在分析数据类型的过程中，可以发现它主要由未知流量数据、已知流量数据和剩余流量数据等多项类别组成，而简单利用nDPI 进行的初步分析准确率不高，有5 成至7 成的数据是无法识别的。而无法识别的这些数据大多都是不完整的数据流，可以简单归类为P2P 数据流。而要对P2P 数据流进行分析，就可以利用二分类器和面向HTTP 的加密视频流量的相关分类器去分析研究数据流量的具体组成。经过分析可以得出，不同的分类器在采集分析识别数据的过程中，都发挥出了较好的效果，而在对比同期的IPv6 网络和IPv4 网络流量成分时，能够明显看出IPv6 网络流量中的P2P 流量占比比较大，且在运用数据的时候常常会采用TCP这种协议进行数据传输。而从IPv6 网络和IPv4 网络的端口分布情况来看，就可以明显看出IPv6 网络的流量传输稳定性相对较低，它的速度波动更大，跳跃得更高，数据更活跃。总体来看，这两代不同的互联网协议各有优势，各有长处。虽然目前得出的结果是P2P 分类器的数据分析效果会高于HTTP/TLS 的视频分类器，但这并不代表着HTTP 的视频分类器就毫无可取之处，只能说如今面向HTTP 的流量分析还有进一步的提升空间，需要不断加强研究，进一步细化校园网中的IPv6 网络流量成分构成。