深度分组检测技术研究及在流量经营中的应用

2013-02-28 03:05青,陈翀,向
电信科学 2013年1期
关键词:端口号网络流量分组

张 青,陈 翀,向 勇

(中国电信股份有限公司广州研究院 广州510630)

1 引言

大数据时代电信运营商面临的主要问题是为了满足数据流量的增长而不断进行网络扩容,但数据流量却“增量不增收”,数据流的附加值被互联网公司赚走,同时面临沦为管道化的尴尬。在电信运营商转型中,实现流量经营[1]已成共识。流量经营是把电信管道里的流量和用户的消费需求进行高效和精确的匹配,从而给用户带来最好的业务体验,以获得高效的商业收益。

流量经营,最重要的就是建立业务、内容、协议和流量的精确识别,深度分组检测(deep packet inspection,DPI)技术能够使互联网中的所有流量具备可见性,通过对网络流量的分组头和荷载进行分析,实现对流量洞察、应用分类和用户行为的研究。

本文在分析目前电信运营商流量经营策略基础上,提出深度分组检测技术在流量经营中的应用模式及应用难点,为建立完善流量信息分析系统提供理论参考。

2 深度分组检测技术

传统的流量和带宽管理是基于OSI参考模型的L2~L4层,通过IP分组头的五元组(包括源地址、目的地址、源端口、目的端口以及协议类型)信息进行分析,通常称此为“普通报文解析”。“普通报文解析”仅分析IP分组的4层以下的内容,通过端口号来识别应用类型。而当前网络上的一些应用会采用隐藏或假冒端口号的方式躲避检测和监管,造成仿冒合法报文的数据流侵蚀着网络(例如P2P下载软件大多采用动态协商端口机制),此时采用L2~L4层的传统检测方法就无能为力了。

为了识别诸如基于开放端口、随机端口甚至采用加密方式等进行传输的应用类型,深度分组检测技术应运而生。当IP数据分组、TCP或UDP数据流经过基于深度分组检测技术的流量管理系统时,该系统通过深入读取IP分组荷载的内容来对OSI 7层协议中的应用层信息进行重组,对数据流的类型、状态和内容等进行识别。深度分组检测技术可以分为端口号检测和报文特征检测两种数据分组检测技术。

(1)基于“端口号检测”的数据分组检测技术

端口号检测是根据TCP/UDP的端口来识别应用,检测效率高。随着IP网络技术的发展,端口号检测技术适用的范围越来越小,但仍有很多传统网络应用协议使用固定的知名端口进行通信。因此对于这一部分的网络内容流量,可以采用端口号检测技术进行识别。

(2)基于“报文特征”的数据分组检测技术

当前,许多传统的和新兴的业务应用,如P2P下载、视频等应用,都采用了端口号隐藏技术,如果单纯依赖端口号检测技术,将无法精确地对这些业务应用进行识别,因此,有必要采用报文特征检测技术[2]。

报文特征检测技术,大致可以分为两种。一种是已知应用的识别,例如FTP、HTTP、DNS等,这些业务应用具有标准的协议,并规定了特有的消息和命令字以及状态迁移机制,通过对这些专有字段和状态的检测分析,可以精确、可靠地识别出这些业务应用。另一种是未公开应用的识别,例如当前多数的P2P协议,这些业务应用通常采用私有的消息和命令字,无法得知其协议细节。对这些业务应用的识别需要通过逆向工程分析协议机制,总结归纳出属于该业务应用的报文特征,并通过这些特征字段来识别这些业务的应用内容。

3 深度分组检测技术在流量经营中的应用模式

随着智能手机的普及,移动数据业务爆炸性增长,对电信运营商来说这是巨大的机会和挑战。作为移动数据业务基础的通信网络是最重要的组成部分,如何洞察网络数据流量,成为流量经营的关键一步。

3.1 流量洞察

深度分组检测技术对用户使用流量的具体用途进行了深度分析,包括使用位置、内容、业务、时段、用户类型,从而获取用户的流量使用特征、内容使用特征、业务使用特征以及时段使用特征等[3]。

目前电信运营商采用深度分组检测技术,专注于OSI网络模型的L7层,实现了对各种网络应用协议的精准识别。不仅能够识别网络游戏、VoIP、即时通信、P2P下载、网络电视、股票软件、办公自动化等上百种传统网络应用协议;还能及时识别并精确控制加密传输、动态协商端口、借用常规协议及端口的网络应用,如迅雷、BT、IM传输等。从而提供用户网络流量的透明感知能力,并能够从多种维度进行流量信息的清晰展现。深度分组检测采集分析示意如图1所示。

图1 深度分组检测采集分析

3.2 用户行为

深度分组检测技术采集的用户上网数据,包含着准确的应用识别与丰富的用户行为数据,通过这些数据可以洞悉用户的消费行为与偏好,挖掘巨大的商机,给市场营销带来新思维。

基于深度分组检测技术输出的移动互联网数据,是对URL(uniform resource locator,统一资源定位符)内容采用分类打标签等方式明确用户的访问兴趣,通过社交圈分析方法获取不同的社交群体,从而对社交群体的兴趣进行分类。其后通过流量推荐引擎,根据设置好的推荐规则向用户进行资费、业务、内容的推荐,包括潜在用户、叠加包、资费变更、使用提升及沉默激活的推荐等。交叉营销和关联营销示意如图2所示。

精准广告推荐是根据用户内容偏好、社会特性、人际交往、位置特征构建用户标签,支撑广告推送时的目标受众获取。用户全面画像的针对性营销示意如图3所示。

图2 交叉营销和关联营销

图3 用户全面画像的针对性营销

3.3 智能策略

随着网络流量的不断增长以及网络应用的日趋纷繁复杂不难看到,简单、无限制地增加网络带宽是不能解决网络流量的根本问题的。需要对网络流量进行管理,从而保证网络的健康和网络应用的正常服务。

深入的网络流量分析是根据优先级别分配带宽资源。分配的依据可以是主机、应用等,特别需要考虑的是将消耗资源的P2P程序或者音视频下载等进行滞后考虑。具体操作时可以使用主流的流量控制工具来实现,如进行分类监视和控制网络流量,这样,就可以对网络流量进行有效管理,将原来无序的网络流量变得有序。

在日常的网络流量管理中,为了有效实现网络管理,可以采取以下策略。

·带宽控制策略测算:为市场人员进行带宽控制设计提供信息支撑,同时对设计好的带宽控制测量提供依据,用于预测该控制测量带来的影响。

·动态FUP(fair usage policy,公平使用原则):对于相同业务的订购用户,针对用户群体的使用情况如平均流量、在线时长等进行使用分类,当网络资源受限时,优先控制业务使用已经达到一定水平的用户,保障业务使用水平较低的用户群体使用。

·用户级应用控制:对于占用网络资源的应用,例如QQ,当网络资源受限时,对于运营商价值较低的用户,实行智能分配,将其使用的业务指定到PDCH(分组数据信道),保障高价值用户使用体验的同时,从而限制第三方应用对网络资源的占用。

4 深度分组检测数据的应用难点和解决方案

4.1 深度分组检测未识别应用

利用深度分组检测技术可实现移动互联网数据应用解析,对IP数据分组的内容进行分析,综合特征字的查找和行为模式识别技术,得到业务应用类型。统计用户的使用情况和业务流量分布,从而实现业务和流量监控,为网络和业务优化提供依据。如发掘对用户有吸引力的业务、验证业务提供水平是否达到了用户的服务等级协议、统计有多少用户正在使用某种游戏业务、哪几种业务最消耗网络的带宽等。以下针对当前运营商未识别应用流量做进一步分析。

目前深度分组检测技术已能解析上百种应用,但仍存在大量未识别主流应用(如天翼空间已达十万款应用)。从协议、业务两个层面对未识别应用进行细分,存在以下3种情况。

·协议已知,应用未识别:已知某个应用是基于HTTP,但DPI未能识别该款应用,如招行客户端(HTTP)。

·协议未知,应用可识别:已知某个应用是有较多用户使用,而目前的DPI未能识别,如网络游戏。

·协议未知,应用未识别:已知某个应用是有较多用户使用,但未知其应用协议,目前的DPI未能识别,这种属于未识别流量。

为了对网络流量进行精细的检查、监控和分析,对于上述前两种未识别应用流量,可考虑采用如表1所示的解决办法,第3种暂时无有效解决方法。

表1 解决办法及优缺点

4.2 深度分组检测数据流量与计费流量比对

基于深度分组检测输出的移动互联网数据,可支撑流量明白消费。根据计费流量和业务使用明细流量进行稽核,保证流量的合理性,以支撑客服人员应对客户在流量使用方面投诉,从而进一步提升客户服务质量。以下从理论基础、数据验证手段进行探讨。

4.2.1 从DPI设备与计费系统的流量数据源角度,理论上探讨两者的可比性

DPI设备与计费系统流量数据源如图4所示。

图4 DPI设备与计费系统流量数据源

(1)DPI设备采集流量数据源

·采集AAA、AN-AAA侧、Pi链路的流量;

·包含用户认证登录记录和访问互联网详细清单记录。

(2)计费系统流量数据源

·记录AAA侧互联网流量;

·记录用户在一段时间内的上网流量,不包含用户的详细互联网行为。

(3)理论上探讨两者的可比性

·流量可比:数据来源出处相同,都来自PDSN。

·时长不可比:用户一次认证进行多种上网行为会产生多条记录,同时,存在应用交叉。

4.2.2 DPI数据与计费数据比对过程

从某省抽取了12个移动用户,对比12月12号10:00发生的流量情况,累加各协议流量与计费流量清单对比,情况如图5所示。

经过对抽样数据比较与分析得出抽样比对结果(据某省抽查):流量吻合较好、时长差异较大。

图5 DPI数据与计费数据比对

图6 数据稽核流程

4.2.3 差异原因

(1)时长差异原因

时长差异很大:用户一次认证进行多种上网行为会产生多条记录,同时,存在应用交叉。

(2)流量差异原因

·来源不一致:计费数据源来自AAA服务器,DPI来自分光流量;AAA服务器基于网络接入,DPI基于使用内容,两者存在一定差异。

·部分免费流量在计费后续处理可能被剔除。

·深度分组检测设备在数据解析过程中对于未知应用的数据可能未输出。

由此可见,基于深度分组检测基础上的数据流量与计费流量比对具有一定参考性,可用于客服处理流量投诉争议。从长远来看,深度分组检测难以全量捕获、解析所有协议。基于深度分组检测的分析系统重点是进行客户的特征刻画及整体趋势分析,计费系统用于准确计量用户的上网费用,二者用途不同。

4.3 深度分组检测数据稽核

数据准确性问题是数据应用中的重要问题之一。基于深度分组检测输出的移动互联网数据,数据量大,采集实时性要求较高,通常采用系统自动采集的方式。作为流量经营分析的数据基础,应加强数据稽核和系统验证,确保自动采集数据的及时和准确,以提高数据质量,提升数据应用水平。以下从最容易出错的采集环节探讨这部分数据稽核的基本方法。数据稽核流程如图6所示。

(1)完整性稽核

为保证采集的数据文件的完整性,接口需具备日志稽核文件。建议按稽核频率生成稽核文件。稽核文件内以行区分不同记录,即一行代表一条记录;各字段之间以“,”分隔各列,代表不同的域;以文件名和文件记录数组成一行。

稽核文件必须严格按照以下规则命名,包括:文件类型.chk;采取无首行的文件类型,包括文件名称、记录数。文件名称以生成时间,精确到分钟为文件名称,如01_20091201230100_00000.chk。

完整性稽核文件结构如图7所示。

图7 完整性稽核文件结构

(2)合规性稽核

对每一个字段的有效性进行验证,并返回当次非法记录条数与清单文件。稽核方法如下。

01字符型:如IMSI字段稽核,是15 bit长度的数据,其他长度都是非法数据。

02数字型:如时长、流量。

03日期型:如Start Time字段稽 核,时间格式 为yyyymmddhhmmss(24 h制)非空。

04定值型:如用户所接入的CDMA网络类型,33为cdma2000 1x,59为cdma2000 1x Ev-Do,32876为Wi-Fi,空值。除了这4个值,其他都是非法数值。

文件命名格式:内容序号_设备标识号_文件生成时间_序号.err(无错误可不生成合规性稽核)。

文件内容:异常字段序号,原始记录。

合规性稽核文件结构如图8所示。

图8 合规性稽核文件结构

5 结束语

大数据时代对流量分析的实时性和精确性提出了更高要求。本文在分析目前电信运营商流量经营策略基础上,提出以深度分组检测数据为基础的流量洞察、用户行为分析、智能策略等多种应用模式,并进一步分析了深度分组检测数据应用难点,提出了切实可行的解决方案。

本文所提出的基于深度分组检测数据为基础的流量经营应用模式,在某省电信运营商中得到了实践,针对流量使用情况提醒、热点新闻推荐、3G应用辅导、基地业务推荐、终端推荐、商圈位置营销等,进行了精准化的营销,其营销成功率得到显著提升,提升率可达10%以上。

通过对深度分组检测数据的深入使用,将进一步提高大数据分析和决策的高效和精准。

1 刘克飞.基于流量经营的电信运营商智能管道构建研究.电信科学,2012(8)

2 张晟,孙伟.3G系统中基于业务特性深度识别的应用.电信工程技术与标准化,2010(9)

3 乔治.基于DPI的内容缓存技术及应用.信息通信技术,2011(3)

猜你喜欢
端口号网络流量分组
基于多元高斯分布的网络流量异常识别方法
基于神经网络的P2P流量识别方法
在Docker容器中安装应用程序
分组搭配
怎么分组
AVB网络流量整形帧模型端到端延迟计算
分组
浅谈以java为基础的Socket通信简介及实现
Winsock编程在《计算机网络基础》教学中的应用
基于Android系统的互动展示APP的研究与设计