一种基于Hadoop的大数据流量经营系统解决方案*

2016-01-04 11:21
电信工程技术与标准化 2015年2期
关键词:云计算分布式大数据



一种基于Hadoop的大数据流量经营系统解决方案*

肖露1,2,王晶1,2

(1 北京邮电大学网络与交换国家重点实验室,北京 100876;2 东信北邮信息技术有限公司,北京 100191)

摘 要随着工信部宣布发放4G牌照,各大运营商大力推动3G/4G网络建设,网络覆盖的不断完善和4G时代的来临,大大推动了移动互联网的快速发展和智能终端的普及。在移动端,用户的流量必将不断增长。结合当前的大数据模式,提出一个基于Hadoop分布式计算平台的大数据解决方案,为培养用户的流量体验,挖掘和发展适合用户的互联网应用,以及推动流量经营提供数据支持。

关键词分布式;大数据;云计算

随着电信业的重塑及电信运营商的转型,业务重心几经变迁,“流量”在不同语境下含义不同,但也有脉络可循。大致说来,从话音通信业务、宽带接入业务到移动互联网业务,流量内涵的演进脉络一是从同质流量到异质流量,即所谓流量内涵的丰富;一是从底层流量到表层流量,即所谓流量层次的提升。与显而易见的扩大流量规模相比,丰富流量内涵和提升流量层次是流量经营更为重要却易被忽视的两大方向。

当运营商进入全业务运营时代,需要转变为以用户为核心的运营模式。从客户需求出发,一方面评估互联网业务流量价值,另一方面深入洞察客户个性化上网需求,通过产品、终端、内容和客户需求的精确匹配,精准定位客户,并采取合适的方式推荐业务及流量产品,最终实现业务及流量价值提升。

1 研究目标

本系统依托于现有的大量流量,采用ETL工具及数据仓库hive完成系统建设,做好流量经营分析支撑,助力流量市场运营。

2 系统架构

2.1 系统总体架构

系统总体架构如图1所示,采用分层建设思路,各层功能职责明确,相互独立,通过内部接口交互信息。各层功能采用模块化开发,各模块改变不影响整体结构。该架构在解决当前业务需求和管理的前提下充分考虑未来的业务需求变化,为后续系统升级、扩展以及与其它应用系统的互通接口提供了快速响应和良好的扩展能力。整个体系架构包括如下。

2.1.1 接口层

提供了用户接入平台部署业务、外部系统获取分析结果数据的管理功能,将不同用户以不同权限采用不同方式使用不同功能的差异化需求封装起来,向底层功能实现进行屏蔽,不仅有利于系统底层统一建设而且便于灵活调整扩展。接口层具备丰富的规范化接口形式和管理能力,满足各类数据产品向用户展现推送与其它系统交互的需要。

2.1.2 应用层

实现了流量经营分析支撑平台上运行的业务功能和管理功能,应用层是平台对数据智能化、系统化、流程化、自动化处理的具体体现,各功能模块在应用上相互独立,结合访问层的展现界面和下面能力层、数据管理层、计算支撑层的基础支撑,能够满足系统当前和持续发展的需要。

2.1.3 能力服务层

通过分析需求,在平台建设和应用中沉淀积累总结的一些基础的、通用的数据加工(ETL、数据可视化)、分析挖掘(数据挖掘算法、数据分析模型)、应用支撑(分析界面、推荐引擎、营销引擎、数据开放引擎)等能力工具、组件,为上层数据产品开发和应用提供支撑。

2.1.4 数据管理层

负责平台统计分析源数据的采集和加工。通过自助开发的ETL工具PDM(Parallel Data Miner)实时和非实时地采集、清洗和转换原始数据,形成便于统计分析的用户上网信息等数据。数据层同时还负责数据的存储和备份,支持按时间备份、按使用冷热程度备份,定期将过期数据清除。

图1 系统总体架构

数据服务层通过构建数据集市、数据立方体、知识库等来支撑上层应用对数据的需求。

(1)主题域:将数据层入库数据进行主题划分,如用户的行为主题、业务发展主题、内容及产品分析主题、营收主题、合作伙伴分析主题等,根据各主题的业务属性、关键分析维度、度量进行分层聚合存储。

(2)知识库:将各主题域中的信息进行归并、整理,将用户行为、消费、特征等各方面信息集中,形成各种知识库:如客户统一视图、产品统一视图。

(3)数据集市:根据业务特征和不同用户需求,关联不同维表,建立不同的数据集市,包括用户数据集市、产品数据集市、营收数据集市,并建立报表指标库,支撑各类指标的数据输出。

2.1.5 计算支撑层

是一个混合型的数据计算和管理环境,“分布式计算+关系型数据库+领域相关的NoSQL数据库”构成的。涵盖从批处理到交互式,从业务系统到分析系统,从结构化数据到非结构化数据的应用场景支撑。

传统采用数据库作为单一存储和计算的机制已经无法满足海量数据处理要求了(分析型应用、无法横向扩容、非结构化数据处理、IT成本),因此当前推崇的是分布式无共享计算方式,比较流行的是MapReduce、流式计算模型,对应具体的产品就是Hadoop、Storm、Hbase。

2.1.6 系统管理层

从系统整体层面上进行基础设施和运维的管理,为系统平稳运行保驾护航。主要包括如下。

(1)流程调度管理:把系统中的一些应用逻辑看成是可复用组件组成的工作流,提供工作流的并行、串行、依赖调度执行,实现应用逻辑的快速支撑和分布式并行计算能力;并提供可视化的流程设计界面。

(2)元数据管理:将数据仓库中的数据信息、数据处理规则等采用元数据来描述,建立动态和静态数据索引,便于平台维护、分析、消费各种数据,帮助平台内各数据使用者了解存在哪些数据、数据存储位置及其含义,形成统一的平台信息地图,平台各层都基于元数据驱动开发。

(3)数据质量管理:分析性平台赖以生存的是数据,而数据赖以生存的是数据质量,只有保证数据质量,才能提高数据的可用性。数据质量管理提供了文件级、记录级、表级和业务级等4个级别的质量监控,提供最大力度的异常数据修复能力,并对异常行为进行告警。

(4)系统运维管理:青海移动流量经营分析支撑平台具备良好的系统配置和运行维护管理能力,通过自主开发的EB-OMS(OperatingManager System),以Web界面形式提供用户管理、日志管理、安全管理、系统监控功能。

2.2 系统架构特点

应用快速支撑能力:具备丰富的、通用的、开放的数据处理加工、分析挖掘能力池,快速构建上层应用专题;并可以支撑定制化的开发。

可扩展能力:分层模块化架构,各层职责明确,相互独立,基于业务规则、基于能力调用、基于数据来相互协作,让系统提供充分的扩展弹性能力。

大数据处理能力:采用分布式多样化计算和存储技术,满足大数据时代的处理效率。

技术应用优势:产品架构和技术已经在中国移动手机阅读基地BI、某省流量经营、彩铃深度运营系统中应用验证,积累了大量的可复用经验。

2.3 系统硬件架构

系统硬件架构如图2所示,包括数据采集服务器、数据仓库服务器和数据挖掘服务器等。

数据采集服务器:负责从数据源系统上实时和非实时地采集用户业务使用行为数据,对这些数据进行清洗转换和加工,然后加存入到关系数据库中。

数据仓库服务器:一部分基于商业数据库如Oracle RAC来构建,支持用户的数据查询、交互式分析需求;另一部分大量复杂的数据处理和综合分析功能基于分布式计算框架Hadoop构建,具有很高的I/O处理能力,对原始数据进行ETL处理、各维度、层次的统计和运算,构建主题域和集市,为OLAP、数据挖掘提供数据和运算的基础。

数据挖掘服务器:基于Hadoop部署在多主机分布式集群上,能够根据数据容量和处理效率要求进行横向平滑扩展,保证系统的稳定性。

2.4 系统关键技术方案

2.4.1 数据可视化技术

系统提供可视化设计组件库,包括地图引擎、仪表盘、常用图表、流程设计引擎等,基于可视化组件库,用户可以实现所见即所得的在线设计页面。数据可视化展现形式:地图、网络图、矩阵图、折线图、柱状图(如图3所示)、饼图(如图4所示)、数据表等。可视化技术展现示例如图5所示。

2.4.2 OLAP分析技术

平台提供OLAP多维分析工具,可以对数据进行不同角度、不同深度的分析,最终形成多维业务报表,并根据报表中数据的客观规律,发现数据中的趋势和异常。通过OLAP工具能实现钻取、旋转、切片、切块等多维数据分析功能;可自动分解时间维,支持图表输出与操作等。平台提供的OLAP分析具备如下特点。

Web查询:支持同时具有客户端随机查询分析前端工具和Web上的随即查询前端分析工具。

拖拽查询:在Web上的随即查询分析能够直接将维度、度量等直接拖放到显示的数据表格中,表格中则能够实时刷新数据。

报表操作:在Web上的随即查询分析工具,在数据展现区域支持鼠标右键快捷菜单,实现过滤、分组、计算等功能。

服务支持:有自主OLAP服务,支持MS OLAP等主流OLAP Server。

3 系统功能

3.1 传统流量经营与大数据流量经营的区别

随着话音业务趋于饱和,各大运营商都希望通过为用户提供更多的增值业务来寻找新的业务收入增长点,因此各运营商不断地开发新的增值业务。2009年,中国3G牌照的发放和3G无线网络的建成,为用户提供了一条无线数据业务的“高速公路”,为3G用户随时、随地高速访问无线数据业务提供了可能。电信运营商都抓住了这个契机,为3G用户提供了丰富多彩的互联网数据业务,如手机音乐、手机电视、微博等,数据流量也随之与日俱增,成为增值业务收入提高的重要来源。如今随着4G网络的普及,面对大数据时代的流量挑战,运营商再采取提供众多的增值业务,对流量价值提升的效果微弱。

图2 系统硬件架构图

图3 流量结构查询页面1

在大数据时代,流量增值业务种类已经可以满足用户的多种需求,业务种类不再是流量经营的重点。运营商需要改变传统的流量经营思维,围绕用户展开流量经营策略。用户面对如此众多的增值业务,如何快速找到自己感兴趣的业务,运营商又如何去对用户进行分类,根据用户的兴趣爱好有效地向用户推荐业务,这是一个必须解决的问题。

本系统根据已有的用户流量数据,采用多维度分析,对用户的流量提取后进一步分类,了解用户在什么地方、什么时间、喜欢做什么。要做到这一点,需要知道用户的生活轨迹、业务使用爱好以及消费行为等用户基本数据。通过对这些用户基本数据的分析,对用户进行有效的分类,并能够知道用户业务的喜好后,再通过有针对性的营销手段,快速将业务信息有效地通知用户,促使用户去使用他感兴趣的业务,同时避免对用户的重复打扰,这样真正实现流量提升的营销目标。

3.2 业务应用功能

3.2.1 流量发展KPI监控

通过对流量套餐、终端、产品、网络、互联网业务等KPI指标、重点指标监控预警,总体监控流量套餐的效益、终端销售对流量的影响、流量产品的发展、网络的协同和分流效果、互联网业务发展情况等,并利用Web、短信、彩信、媒体等通道,向决策层、管理层及时提供关键业务指标数据,为其全面掌握流量整体运营情况提供支撑。

3.2.2 流量套餐监控分析和价值评估

从地域、套餐类型等维度,全面分析用户、流量等指标信息,展现各类套餐用户消费情况。

(1)套餐使用分析:建立综合价值评估模型,从不

图4 流量结构查询页面2

图5 营销平台页面

Design and implementation of a large data solution based on Hadoop distributed computing platform

XIAO Lu1,2, WANG Jing1,2

(1 State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China; 2 EBUPT Information Technology Co., Ltd., Beijing, 100191)

Abstract With the issuance of 4G licenses, the major operators began to vigorously promote the construction of 3G/4G network. The coming of the 4G era, which greatly promoted the spread of mobile Internet and intelligent terminal. In the mobile terminal, user flows will continue to increase. Combined with the large data model at present, this article puts forward a large data solutions based on Hadoop distributed computing platform, which training for the user flow experience, Internet application of mining and development suitable for the user, and to promote the fl ow of business to provide data support.

Keywords distributed; large data; cloud computing同类型流量套餐的使用率、户均流量、流量单价、套餐等级、套餐补贴相关指标,定期价值评估结果,为业务人员进行流量套餐优化及套餐用户流量提升提供数据支撑。

(2)套餐迁移分析:通过对套餐迁移用户的业务使用进行跟踪监控,掌握用户在套餐迁移前后收入和业务量的变化情况,为业务人员评估客户套餐迁移效果提供支撑。分析包括迁移前后流量、ARPU、流量收入、业务偏好等变化对比分析。

(3)套餐效益分析:通过对流量套餐的使用、成本和收益情况进行监控,评估流量套餐的效益,为业务人员进行套餐资费设计提供依据。

3.2.3 终端流量监控及分析

终端流量监控及分析主要通过掌握用户终端更换带来的流量变化商机、各种终端数据流量使用情况及差异,服务于终端精确营销及流量使用引导活动。

(1)终端类型分析:根据终端对流量耗用的情况进行分类,输出重点明星终端、大众终端、中等终端、低等终端等。

(2)终端用户行为分析:终端流量监控及分析主要通过掌握用户终端更换带来的流量变化商机、各种终端数据流量使用情况及差异,服务于终端精确营销及流量使用引导活动,并及时监控终端分析对流量的拉动效应。

(3)换机行为分析:通过分析客户换机行为的前后消费行为变化,了解换机对业务和流量的影响,为业务人员进行终端选项、业务捆绑设计提供支撑。

(4)智能终端影响分析:对用户更换TD智能终端前后ARPU、移动数据流量以及相关增值业务的使用情况进行跟踪分析,为业务人员进行TD智能终端选型、功能优化、业务捆绑设计提供支撑。从时间、地域、品牌、终端型号、销售价格、操作系统等维度,展现客户更换智能终端前后的ARPU变化、流量使用变化、订购业务变化等指标。

4 结语

* 基金项目:国家973计划项目(编号:2013CB329102);国家自然科学基金资助项目(No. 61471063, 61471063, 61372120, 61271019, 61101119, 61121001);教育部科学技术研究重点(重大)项目资助(编号:MCM20130310);北京高等学校青年英才计划项目(编号:YETP0473)。

收稿日期:2015-01-06

文章编号1008-5599(2015)02-0087-06

文献标识码A

中图分类号TN915

猜你喜欢
云计算分布式大数据
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
基于大数据背景下的智慧城市建设研究
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL