规划建模数据分析平台技术架构研究

2016-03-21 10:50陈涛孟德香傅云瑾教湘飞中国移动通信集团设计院有限公司北京100080
电信工程技术与标准化 2016年2期
关键词:大数据分析

陈涛,孟德香,傅云瑾,教湘飞(中国移动通信集团设计院有限公司,北京 100080)



规划建模数据分析平台技术架构研究

陈涛,孟德香,傅云瑾,教湘飞
(中国移动通信集团设计院有限公司,北京 100080)

摘 要面对互联网技术的激烈竞争,电信运营企业迫切需要建立以市场为导向的精细化资源配置管理体系,通过大数据分析提升企业效率和竞争能力。但是大数据分析技术在运营商业务和网络协同规划中的应用尚没有成熟经验,本文研究提出支撑运营商网络规划建模工作的数据分析平台功能设计和关键平台架构技术,为构建类似规划分析平台提供技术架构参考。

关键词网络规划建模;软件架构;大数据分析

1 规划建模数据分析平台

电信运营企业面临传统业务增长趋缓、竞争日趋激烈、互联网技术快速发展带来替代效应日益明显等诸多挑战。以规划管理为抓手,提升企业精细化管理能力,提升企业效率和竞争力成为运营商的普遍选择。运营企业传统的网络规划存在业务需求分析相对粗放、与年度项目管理工作脱节等问题。业务需求分析粗放主要体现在市场分析不够深入,缺乏全面准确的市场信息收集和科学的模型工具支撑,导致市场和网络不能形成紧密衔接的一体化规划,严重制约项目决策效率与质量提升,企业规划的价值没有充分发挥,因此传统网络规划工作存在改进需求。

部分运营企业探索建立以市场为导向的精细化资源配置管理体系(Resource for Market Management System),旨在通过大数据分析平台,搜集地方经济数据、公司经营分析统计数据和财务系统数据等,支撑市场、客户、话音、流量等业务评估模型,更科学的指导网络资源的配置,积累规划经验数据,建立以市场需求为起点,以项目验收为终点的具有实际指导意义的新型规划闭环体系,推进公司实现持续健康发展。

本文对支撑RFM管理的规划建模数据分析平台的技术架构进行了深入的研究,提出了平台功能设计和技术架构,为建立同类大数据应用提供了参考。

2 大数据分析平台架构技术

大数据分析技术在运营商业务和网络协同规划中的应用尚没有成熟经验,但是一般数据分析平台主要包含如下功能。

(1)数据收集与存储,实现与外部异构数据源的接口、数据清洗与萃取、数据融合与集成等。

(2)信息整理与提取,按照业务需求,对原始数据进行分类整理、统计、索引等计算,对外提供查询、统计等数据操作接口。

(3)业务应用与知识发现能力,根据应用要求实现业务指标预测和新知识、新模式的发现。

实现大数据应用平台数据存储主要有并行数据库、Hadoop(MapReduce)技术和混合架构技术。

并行数据库起源于20世纪80年代,使用SQL语言对外提供数据服务。优点是擅长处理结构化数据,且处理速度快。但是可扩展性不强,容错性较差,不适合上千节点的规模部署。

MapReduce技术2004年由Google提出,其开源实现为Hadoop。适合处理非结构化的数据,如文本、图片等。系统可扩展性好,对硬件要求不高,能运行在廉价的x86集群上。但是处理速度较并行数据库慢。

根据数据分析平台的实际,也可以采用并行数据库、Hadoop(MapReduce)技术混合架构来完成平台搭建。

3 规划建模数据分析平台功能设计

规划建模数据分析平台要求自动或在人工参与下完成市场竞争情况分析、客户发展分析与预测、话音业务发展及预测、流量业务发展及预测、家庭客户/集团客户分类等功能。架构设计和功能设计如下。

3.1 平台总体架构与工作流程

如图1所示,平台系统主要由4个部分组成,分别是网络硬件基础设施、数据层、业务层、展现层;信息安全管理体系和系统运维管理贯穿整个平台的建设、运行、维护各个阶段。

其中,数据层包括数据接口层和数据仓库。数据接口层接收其它异构系统数据源(如经分系统、网管系统等)传送来的业务数据,通过ETL组件清洗后储存到数据仓库。目前,规划建模数据主要包括本地用户表、漫游出访/来访表、无线平台类参数指标等结构化数据和片区经理上传的日志、图片等非结构化的数据。系统设计通过并行数据库和Hadoop混合架构完成数据存储。

业务层包括业务支撑子层和分析应用子层。业务支撑子层把曲线拟合、聚类、分类分析等通用统计建模组件进行封装,供上层应用进行调用。分析应用子层实现具体分析应用,包括但不限于市场分析、业务规划预测、网络资源分析等能力。

平台提取模型数据和基础信息数据,应用话音、流量、行业、市场等分析模型进行计算,将分析的结果以回归预测曲线或表格的方式展现给各级管理层。

3.2 规划建模功能设计

图1 数据分析系统总体架构图

分析平台的重要功能除了积累、存储业务相关的基础数据外,就是要利用这些基础数据建立、固化规划模型,输出供管理层分配、考核、后评估使用的业务指标,如话音、流量的业务发展指标等。表1提出了平台的主要规划建模功能。

表1 主要规划建模功能

3.3 数据清洗与管理功能

数据清洗与管理是平台系统的重要功能。被清洗和过滤掉的数据,称之为脏数据。平台系统将脏数据划分为“独立型脏数据”和“依赖型脏数据”两类,这两种分类在检测和解决方法上采取不同的清洗和过滤策略。如图2所示。

独立型脏数据可以使用“数据合法性检验规则”进行检测纠正。如对数据格式、范围、类型进行检查并进行数据转换,统一计量单位或字段名称等。

图2 脏数据清洗过程

依赖型脏数据指通过记录本身的信息并不能检测出其中是否包含脏数据,如重复信息、汇总错误;或者可以进行检测,但需要参考其它记录才能予以解决,如缺损数据。依赖型脏数据通常需要根据数据含义设计特定的清洗算法。

平台系统设计支持对上述数据录入、清洗和分析过程产生的异常进行管理,能统计呈现数据异常的类型和原因等,逐步提升数据仓库的数据质量。

3.4 安全性设计数据分析平台采集的经营分析基础数据及业务分析预测指标均属于公司管理运营机密,需要严格的系统安全设计。除了采用通常的授权管理、身份认证、入侵检测、备份恢复、安全监控、补丁升级及安全审计等管理措施外,还设计采用了如下安全技术。

(1)数据传输采用SFTP、HTTPS等加密信道进行接口数据传输。

(2)数据存储采用Raid5和数据库双机备份进行冗余数据存储。

(3)敏感客户信息进行模糊化处理,采用金库模式防止非授权执行高价值数据的批量导出操作,利用页面水印、关键数据设置只读和下载数据加密处理等措施保证数据安全。

4 规划建模数据分析平台技术选型研究

4.1 数据平台主要技术指标

为支持全省规划建模应用,平台系统需要满足如下关键技术指标。

(1)系统并发访问用户在500以上。

(2)MPP数据库单服务器每秒钟平均可以处理(插入、修改、删除)1万条记录,峰值满足每秒处理2万条记录,服务器CPU负荷率应在50%以下,内存使用率应在70%以下,数据吞吐量应跟随服务器的数量近似呈线性增长。

(3)系统处理非结构化数据能每秒并发写入10万条数据,支持存储峰值流量约1.5 Gbit/s。

4.2 数据平台技术架构选型

为满足上述规划建模平台技术要求,遵循跨平台、可扩展、技术成熟等原则,平台推荐技术选型如图3所示。

图3 数据分析系统技术选型图

主要技术选型优势如下。

4.2.1 GBASE 8a MPP Cluster并行数据库

GBase 8a(Cluster)是支撑海量数据快速分析的新型列储存数据库,采用Shared Nothing分布式架构,可支持TB到PB级别结构化数据存储查询。运行在标准x86 32位或64位PC服务器和常见Linux系统平台上(如CentOS,Radhat等),可实现7×24高可用性。单节点并发数为300个,系统可实现2 000~10 000及以上高并发能力,支持最大节点数为192个,是国产数据库中首个支持100个节点以上的MPP数据库。

在与Oracle 11g数据库进行全文检索性能对比测试中,GBase 8a(Cluster)在数据导入速度上快50%,建立和更新全文索引的速度快3~9倍,其采用的自适应压缩技术也能够降低存储成本和能耗,因此软硬件投资可节省50%~90%,省电30%~50%。国产化技术使每TB处理成本降低到1万元左右,在性能和成本方面对同类MPP产品有明显优势。

目前为止GBase在电信行业已有多个成功案例,如新疆移动云经分项目、湖北移动信令监测系统等,能满足规划建模平台并发处理要求和成本、可靠性需求。

4.2.2 Hadoop

Hadoop目前是半结构化数据和非结构化数据的主流存储软件,存在开源Apache Hadoop和多种厂商发行版本,如华为FusionInsight Hadoop、Cloudera CDH、Hortonworks Data Platform等,如下对比了这几款主流软件的优势。

开源Apache Hadoop软件要求用户软件运维和开发团队能力较强,一般供开发者学习和厂商定制使用,不适合直接用来建设运营商的数据平台。

规划建模平台需要根据业务需求和安全需求对系统进行定制开发,如对客户数据加密、根据业务特性进行软件优化等。从可维护性和与硬件配合能力角度,华为的Hadoop软件解决方案较有优势。此外,中国移动WLAN日志留存系统等实施案例表明,华为Hadoop软件单服务器和系统整体数据吞吐量均可以达到平台要求的技术指标。

图1

4.2.3 Kettle(ETL组件)

目前市场上主流的ETL工具有IBM公司的DataStage、Informatica公司的Powercenter、免费工具Kettle。

(1)DataStage是一款商业级的ETL工具,其特点是图形化开发,无须编码,运维较便捷;但是关键数据信息不公开,与业务系统的集成度不高。

(2)PowerCenter也是一款商业级的ETL工具,与业务系统集成方便,具有高性能、高可扩展性、高可用性的特点,但是价格较高。

(3)Kettle是一款开源的ETL工具, Java语言编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定,开放源代码且提供丰富的SDK,便于二次开发。

基于规划建模平台需求与成本考虑,推荐选择Kettle作为ETL的开发工具,可以低成本满足平台数据清洗和二次开发的技术要求。

4.2.4 Java 及SpringMVC

目前,Java平台中使用较多的成熟框架有SSH 和SpringMVC。这两种框架都是开源的,都是典型的J2EE 3层结构,包括表现层、中间层(业务逻辑层)和数据服务层。

在维护难度上,SSH框架是struts2+spring+ hibernate 3种框架的整合,故障定位与解决较为复杂;SpringMVC可以灵活的选择结合一种数据库管理框架,如hibernate、ibatis,或直接使用JDBC方式,维护较为容易。

在性能方面,SSH框架采用类级别的拦截,每次请求相应创建一个Action,处理速度慢;SpringMVC采用方法级别的拦截与参数注入,速度较快。

在配置方式上, SSH框架采用传统的文件配置方式; SpringMVC几乎无需配置即可使用,开发难度相对简单。

通过以上两种框架的对比,平台系统设计推荐选择轻量级、更灵活简便的SpringMVC框架。

4.2.5 R语言与PMML

规划业务数据分析常用的工具包括SPSS、R、 OriginPro等,这些工具都可以完成相关系数、线性/非线性回归、多元回归分析等工作。各自的技术优势对比如下。

SPSS是一款商业统计软件,目前广泛用于统计规划建模工作中。软件按照授权用户数进行收费,每个授权使用成本在35万左右。软件不开源,提供统计功能API开发包,但是需要额外收费,导致平台系统建设成本较高。

OriginPro也是商业统计软件,主要用于科学计算建模,可进行复杂函数的拟合,目前没有提供统计功能API开发包,不能与业务系统紧密集成。

与上述两款建模工具相比,R语言统计建模工具是免费和开源的,提供方便的R-Studio开发包,支持数据分析平台集成完整的统计建模功能,可以辅助业务规划建模人员在线完成业务规划统计模型的建立和固化工作。

平台还使用预测模型标记语言(PMML)在数据分析平台系统和统计规划软件间共享数据挖掘分析模型。R语言统计建模工具和SPSS软件均支持 PMML的开源统计工具包,可以将规划人员利用上述软件建立的话音、流量分析模型导入系统,方便扩充、固化预测模型。

4.3 并发与扩展性设计

数据分析平台需要支撑高性能并发操作以满足全省用户的使用需求,系统对数据库、应用程序、中间件进行如下设计以提高系统的并发性能。

4.3.1 数据库集群和库表散列

数据分析平台系统采用数据库集群应对基本的并发要求。此外,应用软件采用库表散列的方式增加并发访问能力,如针对登陆模块和用户表功能,按照用户ID进行表散列,将数据分散到几个数据库表中,低成本的提升系统的性能。

4.3.2 缓存

架构方面的缓存,系统采用Apache的mod_proxy缓存模块,及使用Squid进行页面缓存。从数据库缓存的角度,系统采用分布式数据缓存,减少数据库的查询次数。预先加载部分热点数据到Cache中。此外,Linux上提供的Memcached也是可以采用的备选缓存方案。

4.3.3 负载均衡

数据分析系统采用Nginx来搭建负载均衡,从而提高系统的并发性能。

5 总结

运营商网络中沉淀了大量的数据有待分析和挖掘,目前除了个性化业务推荐成功应用大数据分析技术外,运营商还需要在网络规划、业务管理等环节推广使用大数据分析技术预测有价值的业务指标。

本文研究提出了规划建模数据分析平台的功能设计和关键架构技术,改进了传统业务规划工作流程和建模手段,为网络规划、业务数据积累和预测分析模型的集成应用提供了平台支撑。

参考文献

[1] 大数据时代的IT架构设计[M]. 北京:电子工业出版社,2014,4.

[2] 王珊. 架构大数据:挑战、现状与展望[J]. 计算机学报,2011,10.

[3] Michael Milton. 深入浅出数据分析[M]. 北京:电子工业出版社, 2012,12.

Research on technologies architecture of network planning and modeling platform

CHEN Tao, MENG De-xiang, FU Yun-jin, JIAO Xiang-fei
(China Mobile Group Design Institute Co., Ltd., Beiing 100080, China)

AbstractFaced with intense competition from Internet technologies, telecom companies need to establish a marketoriented resource allocation management system and enhance the effi ciency and competitiveness using big data analysis technologies. But the operators have no mature experiences to use big data analysis techniques in business and network collaborative planning. This paper studies the functional designs, architecture and key technologies of network planning and modeling platform and provides a reference for building similar big data analysis system.

Keywordsnetwork plan and model; software architecture; big data analysis

News

Silicon Labs推出增强UV防护和手势识别的新一代光学传感器

1月19日,Silicon Labs宣布推出新一代光学传感器,其可以用来保护消费者免受紫外线(UV)辐射的有害影响,并且能够凭借高性能接近感应和手势识别帮助开发人员开发创新的非接触式用户界面。Silicon Labs新型Si1133光学传感器为在广泛的运动装备和户外活动产品上添加高精度UV指数测量功能提供了高性价比解决方案。Si1153环境光传感器特别针对强日光条件和更大范围操作进行了优化,这使得它非常适用于室外环境中的手势控制和接近检测等应用。

(刘怡君)

收稿日期:2015-01-09

中图分类号TN918

文献标识码A

文章编号1008-5599(2016)02-0014-06

猜你喜欢
大数据分析
基于大数据分析的低压台区降损系统研究及应用
大数据分析对提高教学管理质量的作用
基于大数据分析的电力通信设备检修影响业务自动分析平台研究与应用
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新