基于国产软硬件的行业大数据体系架构研究

2016-12-28 18:08孙业志何有钧
中国科技纵横 2016年20期
关键词:体系架构国产化大数据

孙业志++何有钧

【摘 要】面对当前云计算和大数据的浪潮,面向行业应用的大数据系统技术发展日趋明显,浪潮作为国产软硬件核心信息装备和整体解决方案提供商,在为行业客户的云计算和大数据系统应用方面形成了丰富的技术积累。本文从行业大数据的应用需求出发,基于行业大数据对安全和技术自主可控的要求,设计了行业大数据的硬件基础架构、软件基础架构和安全体系。相关的技术成果已经在多个行业得到应用,并能满足行业对大数据管理和分析的需求,项目成果具有应用推广价值。

【关键词】大数据 体系架构 国产化 自主可控

1 前言

在全球已经全面进入信息时代的今天,数据已经成为与水、石油、天然气同等重要的国家战略资源。IDC报告指出,截止2011年底,全球的数据量已达到了1.8万亿GB,未来十年还将增长50倍,迅速积累的海量数据蕴含着重大的商业价值和社会价值。作为云计算领域的重要延伸,大数据在行业内的热度在不断升温。2012年我国大数据市场规模为4.5亿元,同比增长40.6%。IDC预计,全球大数据2016年将达238亿美元,中国市场规模未来5年将增长近7倍。

大数据技术最近几年在迅速发展,国内外的厂商和组织已经推出了多种大数据解决方案。在金融领域,已经利用大数据技术解决诈骗检验、IT风险管理和自助服务等问题,未来大数据技术将会起到越来越重要的作用。目前国内外很多金融机构如摩根大通、花旗银行,以及风电、太阳能发电、石化企业等制造业企业也开始采用大数据的解决方案进行设备监控、优化和故障预防[1]。

由于国内外针对商业机构系统频频发生的安全事件,国内各行业的信息化目前正在向基于国产软硬件和自主可控方向发展,大数据也是目前国内各行业重点关注的技术。很多厂商和企业纷纷进行技术研究、方案准备和内部测试,并逐步开始在历史数据查询、分析,非结构化数据检索等方向上开始使用[2]。从最近几年的趋势来看,安全、自主可控的大数据解决方案在大数据的行业领域有非常大的市场需求。

国内的很多关键行业应用,如金融信息系统的许多关键设备都没有采用国产产品,导致无法准确判断其安全隐患,这使得我国信息化建设的安全底数不清。迫切需要国内IT企业和行业共同研发自主可控、自主知识产权的信息系统、信息环境和信息安全产品。针对这种状况国家银监会提出了“自主可控,持续发展,科技创新”的三大战略[3],国产的信息化产品,在金融领域的应用已经开始了破冰之旅,事实也已经开始证明,自主可控的软硬件产品,在关键行业领域的应用是可行的,但是缺乏完整的经过验证的整体解决方案和实际案例,无法复制和推广。

本文基于国产软硬件产品进行自主可控的大数据体系架构研究要打破国外技术依赖,掌握技术命脉。针对现有行业关键系统多数是直接引用国外成熟技术,关键、复杂、核心的应用系统大多是建立在非自主产品上,形成了对国外的技术严重依赖的现状,本文的研究将可以在大数据领域打破国外技术的垄断,形成有竞争力的国产解决方案。

2 主要研究内容

本文主要研究面向行业应用、基于自主可控基础软硬件产品的大数据体系架构,研究内容主要包括:

2.1 行业大数据应用的需求分析

2.1.1 面向多源异构业务数据的采集和管理需求

在客户信息为例,行业内的集团企业经常会面临急需解决的数据集成问题,企业存在大分散的客户信息资源,并由各系统自主采集和维护,没有良好的共享体系,客户信息、订单信息等异构的存在不同数据源中,没有横跨多个业务领域的客户信息的统一管理和分发体系。因此,要求统一建设行业信息大数据管理系统,是一套为所有在线业务服务的、整合的行业信息大数据管理与分析系统,并具有行业先进水平的大数据管理和分析能力,以满足企业形成市场竞争优势的要求。

2.1.2 针对海量异构大数据的高性能存储需求

通过调研发现很多大型企业的信息系统已经积累了大量的业务数据,而且随着业务拓展的需求,大数据分析的数据源已经不仅局限于企业内部,如对客户流失分析或者产品销售趋势预测,就还需要互联网社交网络或者电商消费信息等。这些多源、异构、海量的数据对于大数据平台的存储提出了极高的要求。以某大型企业集团的客户和生产经营信息为例,数据规模已经达到上百TB容量,且相关数据量,特别是生产线的传感器数据和用户行为等数据还在持续大幅增长。

2.1.3 多样性大数据分析和处理需求

大数据分析系统不但集成了多个系统的数据源,未来大数据分析应用系统也会被多个部门,多个业务中使用,而且不同的部门和不同业务对大数据分析处理 的响应时间、数据量、结果准确程度以及具体的分析算法都会有很大差异。因此需要完整的对这些分析和处理需求进行分析,以便于设计满足当前和潜在需求的大数据分析处理架构。

2.1.4 行业大数据的安全监控和隐私保护需求

面向行业和企业的大数据平台都将集成来自于不同数据源的数据,其中有很多数据会涉及商业秘密和个人隐私等安全问题,所以这些数据在大数据平台中应该被合理的授权使用,并有完善的安全监控和隐私保护措施,以避免引起数据泄密或者隐私纠纷。

2.1.5 行业大数据平台的业务应用和可视化展现的需求

大数据分析的结果是更好的支持业务推广和运营决策,所以企业大数据分析还是要和现有的业务应用紧密结合,并且以简单友好的操作,以及可视化的方式直观的展现分析结果,这样才能被各部门和各级别的人员使用好大数据系统。

2.2 基于自主可控服务器的大数据基础架构研究

通过行业大数据需求和数据现状的调研和测算,大数据基础平台如采用传统的集中数据库ORACLE+小型机+集中式存储环境,将无法满足大数据在存储和分析处理方面的需求,而且采用国外进口设备为主的方式也无法保证系统数据的安全和自主可控,国外小型机和存储的硬件成本过高,投入产出比低。因此本文研究对比了主流的大数据硬件方案,提出基于国产主机的行业大数据基础平台,包括分布式Hadoop大数据存储和处理集群、分布式海量数据采集集群和应用与可视化展现服务器集群架构研究,形成满足行业大数据应用的基础硬件平台技术方案。

系统的网络部署架构如图1所示。

2.3 自主可控的大数据分析基础软件平台研究

通过项目前期技术研究和分析,传统数据仓库模式进行行大数据分析在软件平台方面是不能满足性能、容量和成本方面的需求的。为此,本文在对大数据软件平台进行充分对比研究,重点研究了国内面向行业的大数据平台的软件基础架构,包括操作系统、分布式文件系统、列式数据库、批处理框架、内存计算引擎、资源调度、安全管控等方面的研究。形成了满足行业大数据应用的基础软件平台技术方案。

本文研究和评估了基于国产操作系统和基于开源自主可控的大数据平台基础软件架构,操作系统层面可以支持国产Linux和Unix操作系统。大数据基础软件架构采用了大量的组件实现大数据的存储、计算、分析和管理功能,如图2所示。

在大数据软件架构中设计通过分布式ETL工具各业务系统完成数据采集,支持结构化数据以及非/半结构化数据,即数据库数据、文件、日志等类型,采集数据包括全量历史数据迁移以及增量数据同步。未来保证数据质量和数据溯源,采集过程中需要对数据质量分析、治理。

架构中设计了数据分层存储的解决方案,对于需要进行持久化存储的数据(离线保存3年以上)和非结构化数据,可直接在HDFS中存放,以数据仓库ORC表形式存储;需要挖掘或检索管理的数据放入HBase列式数据库中,中并支持与传统数据库互导,系统会自动完成多个数据副本的拷贝,从而实现冗余备份;对于需要快速实时交互式分析的的数据以Cube的形式存储在SSD或内存中,可以提供快速交互式分析能力。

架构中还包括了数据分析功能和组件,对需要进行数据关联分析和数据挖掘等涉及大数据量的统计和查询需求的应用,可选用Mahout,R等数据分析和数据挖掘工具。

架构中的数据服务设计包括数据集市所提供的业务/部门级服务,数据Cube及交互式报表、数据质量分析报告、数据流程监控及告警、API数据调用和数据能力开放等服务。对于实时性要求较高的数据(如Kafka采集的数据)放在Spark Stream中提供实时服务。

架构中还设计了数据管理模块负责进行数据查看,流程管理,用户权限角色分配等功能。

2.4 大数据安全体系研究

研究太平洋保险大数据管理和安全体系,对大数据类型进行安全等级分类,形成大数据管理策略和技术规范。

由于大数据时代的数据财富化导致了大量的信息泄露事件,而这些泄露事件中,来自内部和外部的威胁都存在,而且内部的威胁更大。所以在本地数据安全策略的构建上需要加入对于内部管理的监控、监管手段,用数据技术+资产管理的模式来避免由于人为原因造成的数据流失,信息泄露。对于外部的的威胁通过防火墙、入侵检测、数据加密等手段,确保大数据平台具有“进不来、拿不走、看不懂”的安全能力。

本文设计的大数据体系架构基于最新的大数据、以及数据安全技术,初步研究了适合企业的大数据资产管理体系,并设计高性能、高效率、安全可靠的大数据安全技术体系,实现大数据资产的有效管控、增值和安全控制。

3 成果特点

本项目研究形成的行业大数据体系架构采用自主研发和生产的服务器,并部署国产操作系统和自主知识产权的大数据平台软件。经过全局性的优化,性能、可用性、效率等关键技术指标方面有了大幅提升。在系统设计上采用硬件加速技术,会设计专门的FPGA模块固化特定算法,并集成多级缓存,数据排序性能预计可以提高50%以上;系统任务调度策略是影响系统响应及时性的重要技术,本项目将开发动态调整任务执行模块,有效减少慢任务数量,任务执行时间平均缩短16%。副本数量和存储效率是难以调和的矛盾,在大数据平台软件中将引入Reed-Solomon算法,优化分布式散列数据布局,满足文件高并发和高带宽双重需求同时平衡数据冗余度,并设计两副本加编码的方式对大数据存储进行管理,相对三副本最大可节省30%空间。

4 应用效果和研究价值

相对于市场上的国内外竞争对手的产品,基于国产软硬件的大数据体系架构应用了诸多浪潮自主研发的安全技术,包括自主研发发明专利达50多项、软件著作权2项,RAS特性超过20项,而模块化的安全体系设计和操作系统安全增强系统,确保了产品符合国家信息安全等级保护第三级认证标准。同时,快速故障定位、高可用元数据备份和管理、高可用系统恢复等多项系统管理技术,以及内存纠错、内存镜像和高冗余设计,也确保了产品无单点故障,运行稳定可靠;其次,体系架构的需求分析由浪潮和多个代表性行业客户共同完成,充分考虑了我国行业大数据应用的现状和常见问题,覆盖了大数据分析的分布式数据存储、分布式计算、批处理、内存 计算等技术,能完全满足各行业的企业大数据分析对数据集成、数据存储、数据处理和分析等多方面的需求。

相对于项目体系架构设计和产品研发的关键技术:支持国产操作系统软件和国产化硬件、分布式数据存储、大数据批处理分析、大数据内存计算、大数据分析流处理等几项技术进行对比,国内现有的产品中没有一个可以全部覆盖,特别是国产软硬件支持、信息系统和信息环境安全可靠是本产品的突出优势。

本项目研发的产品将为行业客户提供覆盖大数据平台建设、管理、维护全过程的一揽子解决方案。可在自主可控、安全可靠的基础上为用户降低建设和管理成本,提升金融企业对大数据的利用,降低系统信息安全风险。采用国产及自主可控的软硬件产品,相比于国外产品,用户成本可显著降低。

项目成果已经在电力、金融和工业等领域进行了应用,相关性能和功能指标完全可以满足行业大数据管理和分析的需求,未来在相关技术方面还会进行深入的研究,并推向更多的行业用户。

参考文献:

[1]陈锦铭,朱卫平,郭雅娟等.配网故障辅助分析系统的设计与应用[J].电力信息与通信技术,2015,13(6):81-86.

[2]郭乃网,苏运,瞿海妮等.电力大数据安全体系架构研究与应用[J].中国电业(技术版), 2016年04期:32-35.

[3]郭利根.科技创新推动银行转型[J].中国金融,2014(03):13-14.

猜你喜欢
体系架构国产化大数据
特大型桥梁供电系统国产化改造探讨
元器件国产化推进工作实践探索
ASM-600油站换热器的国产化改进
基于国产化ITCS的卫星导航仿真研究