针对运营商的大数据建设方案研究

2015-11-30 05:08赵晶
电信工程技术与标准化 2015年3期
关键词:结构化集群运营商

赵晶

(中国移动通信集团设计院有限公司北京分公司,北京 100038)

针对运营商的大数据建设方案研究

赵晶

(中国移动通信集团设计院有限公司北京分公司,北京 100038)

随着大数据应用在互联网行业的蓬勃发展,大数据逐步成为国内外运营商的关注焦点。首先基于电信运营商面临的挑战和建设难题,分析建设大数据平台的重要性和必要性;然后,结合运营商实际需求,提供了大数据平台建设的关键技术分析、系统架构、设备配置方法和组网方案等,对运营商进行大数据平台的规划、设计以及建设具有很好的借鉴意义。

大数据;运营商;Hadoop;MPP

1 概述

大数据(Big Data)指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。大数据具备4“V”(Volume,Variety,Value,Velocity)特点。

第一,数据体量巨大。从TB级别,跃升到PB级别,甚至EB和ZB级别。

第二,数据类型繁多。包括结构化、半结构化、非结构化数据。例如网络日志、视频、图片、地理位置信息等。

第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有1~2 s。

第四,处理速度快,实时获取需要的信息。这一点也是和传统的数据挖掘技术有着本质的不同。

大数据已经席卷了每个行业和业务功能,如今已成为重要的生产要素,大数据正在通过多种方式创造价值。

2 运营商建设大数据平台的必要性

2.1 降本需求驱动架构调整

中国移动目前的分析系统使用的都是传统的“小型机+关系型数据库+高端磁盘阵列”的模式,这种传统模式建设成本高昂。为了支撑流量经营、智能管道的运营,运营商需要理解移动互联网的业务特征、需要了解网络的状态,因此需要分析和存储大量业务内容数据和信令数据。随着数据量从TB级上升至PB级甚至ZB级,如果仍采用传统架构,其成本将是运营商难以承受的。

以某运营商近几年的系统建设数据统计,成本对比情况如表1所示。

表1 基于传统架构和基于X86架构工程建设造价对比

可以看出,采用基于x86架构的新型数据存储和处理技术可以大大降低系统建设成本。

2.2 数据类型的多样化对存储和分析技术提出新的需求

随着移动互联网的高速发展,用户上网行为数据中潜藏巨大的价值,但是这类互联网数据中包含大量非结构化数据,例如网站日志数据、呼叫中心通话记录、社交媒体中的文本数据、智能手机中内置的GPS所产生的位置信息、时刻生成的物联网传感器数据,还有互联网上的图片和视频等,数据的种类有了大幅度的增加。

单靠传统关系型数据库技术只能处理结构化数据,无法挖掘非结构化数据的价值。因此,需要采用可以分析处理非结构化数据的新技术来适应新的需求。

2.3 数据成为资产

随着大数据时代的到来,各式各样的大数据应用在为我们提供了生活便捷的同时,也使我们的观念进行了变化。运营商应该意识到“数据是企业的核心资产”。要将这个思路运用到企业的商业过程中,竭尽可能收集数据、保存数据,这是大数据给我们带来的一个改变。因为数据的应用很多是设想不到的,是外部性的,传统BI采用的需求驱动的数据采集和获取方法就不合适了。

我们需要的是全量的采集和存储,尽可能多的将数据保存下来,然后再去对其进行挖掘,获取其中的价值。这就需要系统能够支持海量的数据存储和分析。

综合以上分析,需要建设新的基于x86架构的,能够分析和存储结构化、非结构化数据,能够满足海量数据分析和存储需求的大数据分析系统。

3 大数据平台建设方案

3.1 关键技术

为了应对数据处理的压力,过去10年间在数据处理技术领域有了很多的创新和发展,其中主流的大数据处理技术具有一些共性的特点:硬件基于x86 PC服务器;存储基于服务器自带的本地硬盘;操作系统主要是Linux;拥有极高的横向扩展能力和内在的故障容错能力和数据高可用保障机制;能大大降低每TB数据的处理成本,为“大数据”处理提供技术和性价比支撑。

大数据存储和管理的技术路线最常用的有两种。

第一种是采用MPP架构的新型数据库集群,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。

第二种是基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。

Hadoop和MPP技术特点对比如表2所示。

基于两种技术路线的特点,大数据中心建设可以根据情况采用Hadoop+MPP的混搭模式,根据数据情况和应用需求合理配置两个集群的规模比例。

3.2 系统架构

大数据平台系统架构分为数据采集层、数据计算存储层、能力服务层、应用层、平台管理和数据治理等,如图1所示。

3.2.1 数据采集层

数据采集层主要包括数据采集和预处理两项工作。数据采集实现批量数据的采集和流数据采集,包括接口管理、数据抽取、事件处理等功能;数据预处理主要实现数据清洗、数据转换、数据加载分发、稽核校验等功能。

采集层主机建议使用基于x86架构的刀片机PC服务器,云化ETL支持通过扩容方式线性增加ETL平台处理能力,支持设备的动态扩容。

表2 Hadoop和MPP技术特点对比

3.2.2 数据计算存储层

MPP集群主要负责实时深度分析,深度挖掘;非固定模型,存储量由业务需求决定,存储较小,轻度汇总后清单;支撑即席查询、多维分析、非固定的模型运算任务、复杂的模型运算等。

Hadoop集群主要负责非结构化和海量数据处理,包括DPI 数据(GPRS上网日志、位置信令、WLAN上网日志、宽带上网日志)和详单数据的处理分析,形成数据仓库汇总层模型以及基于大数据的深度行为分析,如进行路径分析、社交网络分析等。

MPP集群和Hadoop集群均建议使用自带硬盘的机架式PC服务器,MPP集群和Hadoop集群的规模可根据数据量的大小分别进行配置。

3.2.3 能力服务层

将数据进行封装,实现数据的统一开放,将应用和数据进行解耦,解决数据使用不够灵活的问题,实现应用百花齐放的效果。

3.2.4 应用层

应用层用来实现各种大数据应用,针对移动运营商的特点,建议优先实现精细化规划、客户满意度维系、精确营销(包括实时推荐、定向广告推荐、基于细分用户的终端和业务推荐)、数据分析服务(用户群行为分析、人群轨迹分析、区域发展分析)等。

3.2.5 平台管理层

主要对应用、服务的开发框架进行统一管理,以及应用开发过程中需要的通用技术的管理,实现数据中心各类资源的集中管控和统一调度。

3.2.6 数据治理层

数据治理层主要包括元数据管理、数据质量管理、数据安全管理、数据生命周期管理四部分。元数据管理主要是通过工具实现对数据模型、数据规则、源数据进行管理;数据质量管理主要是对数据质量进行检查和分析,并管理质量规则;数据安全管理主要是管理数据权限、数据加密和安全审计;数据生命周期管理主要是管理各数据层的存储策略和规则执行。

图1 大数据平台系统架构

表3 Hadoop数据节点硬件存储能力估算参数表

3.3 设备配置方法

3.3.1 Hadoop集群设备配置方法

一个Hadoop集群由Namenode和一定数目的数据节点Datanode组成。Namenode由两台服务器组成,数据节点通过存储数据量计算,节点数=数据量/单节点存储量,节点数一般为偶数。Hadoop数据节点硬件存储能力估算参数表如表3所示。

整个Hadoop集群需要配置的服务器数为:

根据以上参数表中建议的取值就可以配置Hadoop集群所需设备。

3.3.2 MPP集群设备配置方法

一个MPP集群由管理节点和一定数目的数据节点组成。管理节点由两台服务器组成,数据节点通过存储数据量计算,节点数=数据量/单节点存储量,节点数一般为偶数。MPP集群数据节点硬件存储能力估算参数表如表4所示。

整个MPP集群需要配置的服务器数为:

根据以上参数表中建议的取值就可以配置MPP集群所需设备。

3.4 组网方案

大数据平台通过与核心网信令网元、核心网和承载网的DPI系统进行连接,获取信令数据、用户移动通信网上网数据、用户CMNet上网数据等数据信息;与业务网的VGOP连接,获取业务数据;与IT支撑系统的CRM和网管系统连接获取用户相关数据和网络相关数据。

表4 MPP集群数据节点硬件存储能力估算参数表

另外,大数据平台还需要与综合网关、PCRF、计费系统等进行连接,以实现业务的智能推送,根据动态业务情况实现实时计费、分发网络控制指令等策略。

4 结论

大数据正在以不可阻挡的趋势走进各行各业,电信运营商拥有庞大的用户数据和网络数据等数据资源,在大数据时代具备天然的优势。建设适合运营商自身的大数据平台是发挥数据资源优势,挖掘运营商大数据价值的必由之路。本文阐述了运营商建设大数据平台的关键技术、系统架构、设备配置的方法以及组网方案等内容,对运营商进行大数据平台的规划、设计以及建设具有很好的借鉴意义。

[1] 刘洁. 基于大数据的电信运营商业务精确运营平台的构建[J]. 电信科学, 2013(3).

[2] 陈淑梅. 移动运营商的大数据发展策略研究[J]. 信息通信,2014(6).

[3] 陈娜. 基于Hadoop的电信BSS 大数据平台建设研究[J]. 电信科学, 2013(3).

News

中国铁塔地铁项目第一单完工 全国首例地铁九制式公网覆盖仅用时45天

近日,中国铁塔地铁项目第一单——辽宁大连地铁1、2号线一期公网覆盖项目主体工程历经45天建设顺利完工。3月2日,来自中国铁塔31个省(区、市)分公司的建维人员齐聚大连,参加地铁及高铁专项工程现场会,交流建设经验。

本次地铁公众通信网络覆盖项目是国内首次将移动、联通、电信的2G/3G/4G共计9制式系统全部引入地铁覆盖,硬件结构按支持MIMO(指在发射端和接收端分别使用多个发射天线和接收天线,使信号通过发射端与接收端的多个天线传送和接收,从而改善通信质量)双路设计,未来可以通过升级直接实现4G MIMO的地铁分布系统。

(来源:中国信息产业网-人民邮电报 作者:宋闯)

Research on big data system scheme for telecom operators

ZHAO Jing
(China Mobile Group Design Institute Co., Ltd. Beijing Branch, Beijing 100038, China)

With the development of big data applications in the internet industry, big data gradually become the focus of domestic and foreign telecom operators. This paper based on the challenges and problems of telecom operators, analyzed the importance and the necessity of developing big data system. According to the actual needs of telecom operators, the paper provides key technology analysis, system architecture, equipment configuration method, and network scheme. This paper had very good reference value for large data platform planning and design of telecom operators.

big data; operators; Hadoop; MPP

TN929.5

A

1008-5599(2015)03-0017-05

2015-01-28

猜你喜欢
结构化集群运营商
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
取消“漫游费”只能等运营商“良心发现”?
第一章 在腐败火上烤的三大运营商