基于海量网络数据(面向金融领域)综合处理服务平台的研究与实施

2017-09-14 22:32杨桂珍
教育教学论坛 2017年39期

杨桂珍

摘要:面向金融领域的海量数据综合处理服务平台融合了分布式云计算技术、SOA技術、ETL技术、作业调度技术,以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,具有统一、高效、可拓展性。该服务平台支持灵活构建面向数据仓库、数据集市、数据集文件进行海量数据的处理、加工和交换,实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性,是一个基础服务框架的服务平台。

关键词:面向金融;海量网络数据;综合处理服务平台

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2017)39-0264-03

一、研究的意义

目前,全球IT行业讨论最多的两个议题,一个是海量数据分析“Big Data”,一个是云计算“Cloud Computing”,中国的金融行业也不例外。中国五大国有商业银行发展至今,积累了海量的业务数据,同时还不断的从外界收集数据。通过对不同来源,不同历史阶段的数据进行分析,银行可以甄别有价值潜力的客户群和发现未来金融市场的发展趋势,针对目标客户群的特点和金融市场的需求来研发有竞争力的理财产品。所以,银行对海量数据分析的需求是尤为迫切的。再有,在信息技术高速发展的今天,金融业面临的竞争日趋激烈,信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。随着国内银行业竞争的加剧,五大国有商业银行不断深化以客户为中心,以优质业务为核心的经营理念,这对银行自身系统的不断完善提出了更高的要求。而“云计算”技术的推出,将成为银行增强数据的安全性和加快信息共享的速度,提高服务质量、降低成本和赢得竞争优势的一大选择。面向金融领域的海量数据综合处理服务平台融合了分布式云计算技术、SOA技术、ETL技术、作业调度技术,以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,为金融行业建立统一、高效、可拓展的面向金融领域的海量数据综合处理服务平台。该平台支持灵活构建面向数据仓库、数据集市、数据集文件进行海量数据的处理、加工和交换,实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性,是一个基础服务框架的产品平台。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。系统支持构筑面向运营的服务平台,可以按功能点或数据量来向使用方收费,使用方按格式要求提供数据,然后点击相关功能模块得到目标结果。随着全球各行业对数据整合应用需求的扩大,“面向金融领域的海量数据综合处理服务平台”的需求将会越来越大。该平台为银行、证券、保险行业等金融领域服务业创新和转型升级提供决策支持,能有效推进信息化技术在传统金融优势产业的融合渗透,属于国家优先发展和重点支持技术领域。从宏观的角度来看,通过本服务平台的实施,能促进我国金融信息化的发展,调整产业结构,同时增强企业品牌竞争力,提高企业在国内外信息科技领域的知名度,打破跨国厂商在金融软件方面的垄断地位,促进传统优势企业走新型信息化道路,完善社会主义市场经济体制,符合我国“十二五”规划刚要发展的特点,对全面建设小康社会新胜利、推进中国特色社会主义伟大事业,具有十分重要的意义。

二、研究内容

当前,银行、证券和保险等金融行业,积累了海量的业务数据和非机构化数据,并在海量数据的基础上构建了数据仓库、数据集市和影像存储平台。有些金融机构的海量数据达到TB级甚至是PB级,海量数据加工的性能问题、复杂异构的加工环境、不断变化的加工处理流程、成本的不断增加,这些都可能成为海量数据处理的诸多棘手问题。为了有效解决上述问题,充分挖掘金融机构海量数据的潜在价值,并为金融机构提供一套合适的海量数据处理平台,是本服务平台实施的目标和出发点。本服务平台融合了分布式云计算技术、SOA技术、ETL技术、作业调度技术、影像处理技术、工作流技术,以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,为金融行业建立统一、高效、可拓展的面向金融领域的海量数据综合处理与运营平台。面向金融领域的海量数据综合处理与运营平台支持灵活构建面向数据仓库、数据集市、数据集文件、影像文件进行海量数据的处理、加工和交换,实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性,是一个基础服务框架的产品平台。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。系统支持构筑面向运营的服务平台,可以按功能点或数据量来向使用方收费,使用方按格式要求提供数据,然后点击相关功能模块得到目标结果。

三、拟解决的关键问题

1.融合多种先进技术。系统融合了分布式云计算技术、SOA技术、ETL技术、作业调度技术、影像处理技术、工作流技术。系统采用基于hadoop架构计算模式,突破传统数据库系统对海量数据处理的速度限制,通过对大量数据的并发访问和处理,极大地提高了数据处理效率。hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,为构建面向金融领域的海量数据综合处理与运营平台奠定了坚实的基础。

2.针对金融行业的强大的海量数据处理功能。公司有多年在金融行业从事海量数据处理的经验,再结合当前最前沿的海量数据处理技术,包括并行处理技术、作业调度技术、Hadoop架构等,提供适合金融行业的强大的海量数据处理功能。

3.松耦合的、灵活的海量数据处理模式。采用SOA技术实现处理、运行、监控服务之间的松耦合,使系统变得更加灵活,以适应不断变化的业务需求和环境。

4.支持构筑面向运营的服务平台。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、资产质量监控、风险预警、业务流程、统计报表等功能模块。系统支持构筑面向运营的服务平台,可以按功能点或数据量来向使用方收费,使用方按格式要求提供数据,然后点击相关功能模块得到目标结果。endprint

四、关键技术与创新性

云计算技术:本服务平台采用高性能的分布式云計算技术,实现海量文件存储、海量数据存储和统一的海量数据处理编程方法和运行环境。云计算主要基于虚拟化和分布式并行架构两大核心技术,虚拟化平台将服务器虚拟为多个性能可配的虚拟机,对整个集群系统中所有虚拟机进行监控和管理,并根据实际资源使用情况对资源池灵活分配和调度。虚拟化技术不仅消除大规模异构服务器的差异化,其形成的计算池可以具有超级的计算能力。分布式并行架构是云计算的另一个核心技术,用于将大量的低配置机器整合为一台高性能计算机,提供海量的数据存储和处理服务。SOA技术:面向服务的体系结构(service-oriented architecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称之为服务)通过这些服务之间定义良好的接口联系起来。接口是独立于实现服务的硬件平台、操作系统和编程语言的。采用SOA技术实现处理、运行、监控服务之间的松耦合,使系统变得更加灵活,以适应不断变化的业务需求和环境。ETL技术:ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。ETL作为构建数据仓库的一个重要环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等加工到临时中间层,然后进行清洗、转换、集成,最后加载到数据仓库或数据集市,作为联机分析处理、数据挖掘的数据基础。采用自主开发的ETL工具或整合主流ETL工具,通过周期性的刷新,为用户提供一个统一的干净的数据视图,为数据分析提供一个高质量的数据源。作业调度技术:数据仓库、数据集市的批量作业数量很多、处理流程和作业依赖关系复杂多样、性能低下,是ETL处理加工遇到的常见问题,系统采用作业调度技术,通过统一的操作平台和图形化界面,定义批量作业的调度策略和调度规则,实现跨平台、跨系统的批量作业的调度、执行和监控。针对数据量巨大、源数据文件多、加工逻辑复杂的系统,使用作业调度技术达到简化管理复杂度,提高系统总体性能的目的。作业调度模块主要包括Buildtime和Runtime两部分;Buildtime负责批量原子作业(简称为Job,下同)的定义和调度策略的定义及其维护,为作业调度运行时制定调度规则。调度策略就是决定作业何时运行、哪些作业先运行、那些作业可以并发运行及作业的运行顺序的规则,Buildtime能满足多种规则触发作业运行;Runtime负责调度定义与修改、启动与停止、挂起与恢复、作业重跑和调度监控等功能的实现,批量作业的运行、正常停止、异常停止都由Runtime的Job Scheduling Engine(作业调度引擎)实现,作业调度引擎实现在调度运行过程中监控作业的运行情况,同时对相关资源、并发和冲突都作了管理;Job Scheduling Engine(作业调度引擎)是参数驱动的作业管理程序,参数不仅包括作业本身、作业流程、作业依赖关系、作业并行度、例外级别,同时还包括外围系统和总行系统定义、数据文件组定义、数据文件定义、功能模块定义、功能模块组定义等。参数在Buildtime中定义和维护,作为Job Scheduling Engine(作业调度引擎)的输入。作业调度模块具有支持多种不同作业(如Shell Job、Store Procedures Job、DataStage Job等)的通用接口,而无需根据不同的作业要编写专用的调用接口程序;作业调度模块全程跟踪作业的运行轨迹,详细记录作业状态和日志,提供作业的出错控制功能和重跑功能。影像处理技术:采用我公司自有知识产权的影像扫描通过平台来实现影像的处理及上传。扫描影像:作为一个插件,该软件可以在IE浏览器平台上调用各种扫描设备扫描图像,并按照预先设定的摸板,对影像自动存盘,并对扫描的影像进行数据格式压缩,确保传输文件的大小。影像处理:对扫描出来的影像提供了预览的功能,支持放大、缩小查看。对影像还具有自动去黑点、去黑框、自动纠偏,以及旋转角度等功能。影像分类:对扫描的影像文件提供分类文件夹,便于用户按照实际的业务需求来进行分类。文件操作:支持影像文件的一般操作,如复制、粘贴、删除、建立文件夹等功能,并支持缩略图的拖拉操作。影像上传:对于指定的影像资料,在特定的目录下,支持影像的上传功能,由服务器进行影像的存放及数据库更新。在传输过程中严格保证文件传输的准确性。

五、技术推广与社会效益

金融业的数据大集中从当初概念的提出,到现在差不多已有五六年时间。中国银行业进行了大规模的数据集中工作,一些银行的数据集中工作基本完成,取得了很多成效。但是,随着数据大集中的渐渐完成,一些实际操作中出现的麻烦和大集中完成后数据中心的未来趋势等问题,又成为新的热点。现在所说的数据大集中的完成只是指所需的物理设备的建设完成,而数据资源还没有开始真正整合和集中应用。各应用系统间缺乏信息沟通与整合,不能对数据资源进行有效的集成管理,也无从对数据资源进行更深度的挖掘与分析。在未来的五年内,国际金融市场对数据仓库和数据分析的市场需求将会持续增长,本服务平台开发的数据仓库支撑技术将得到进一步的升级改造。同时,进一步推进了国内金融信息化同行对数据仓库相关的支撑技术的研发投入,包括云计算技术、商业智能分析、ETL工具、超并行数据库系统、海量数据挖掘、SOA技术、作业调度等技术的开发和进步。从而大大推动了国内商业智能技术在金融行业的普遍应用,缩短国内银行业IT技术与外资银行、全球金融信息化技术的差距,增强软件企业品牌竞争力,提高企业在国内外信息科技领域的知名度,打破跨国厂商在金融软件方面的垄断地位,对国内金融信息化产业的发展,加快我国转变经济发展方式,保持经济平稳较快发展,具有一定的推动作用。

金融业的商业智能是国民经济和社会信息化的重要组成部分。发展金融业的BI是以信息化带动工业化,转变经济增长方式,提高国民经济运行质量和效率,走新型工业化道路的重大举措,对实现全面建设小康社会的宏伟目标具有十分重要的推广意义。endprint