装备保障异构大数据统一访问与转换平台的构建研究

2016-03-15 16:54王加吴迪何嘉武郭英
科技与创新 2016年3期
关键词:数据源

王加 吴迪 何嘉武 郭英

摘 要:在大数据背景下,针对装备保障业务信息系统综合集成中异构数据统一访问和转换处理需求,拟采用基于SDO和MDA的系统技术架构、基于DAS的异构大数据统一访问数据结构、基于MapReduce的数据转换架构和基于HBase的开源分布式NoSQL数据库等云中大数据关键技术,研制具有自主知识产权的装备保障异构大数据统一访问与转换平台,以达到为装备保障业务信息系统综合集成提供统一格式的数据支撑架构的目的。

关键词:SDO;装备保障异构大数据;统一访问与转换平台;数据源

中图分类号:TP311.52 文献标识码:A DOI:10.15913/j.cnki.kjycx.2016.03.006

1 研究背景

近年来,随着信息系统集成理念和技术的发展,数据集成或数据统一访问作为一种资源整合方式受到了相关部门的高度重视。在我军装备保障信息化建设的过程中,各个业务口分别建立了能够满足自身业务需求的信息系统和相应的数据库生成TB级的数据。数据来源多种多样,数据类型也有所不同,它们大多存在于不同的硬件和软件环境中,常常以不同的格式存储和表现出来。由于这些数据源的差异较大,数据量庞大,所以,统一处理和分析这些数据成为了装备保障业务信息系统研制和综合集成过程中需要面对的首要问题。通过一个集成系统整合装备保障领域内的异构数据源,提高资源的利用效率,为装备保障业务信息综合集成、信息资源共享和应用提供有效的数据支持,是现代信息系统建设面临的巨大挑战之一。

2 国内外研究现状

2.1 研究现状

经过20多年的发展,已经有诸多理论支持信息数据统一访问工作的实施,研发出了相应的技术,相关研究者也提出了有关数据访问的体系结构和实现方案。因此,从模型上看,数据访问体系可分为联邦方式、数据仓库和中间件方式;从集成技术上分,异构数据库集成技术主要包括数据的迁移和转换、多数据库系统和使用中间件。综合国内外成功的应用案例可知,采用中间件方式最稳妥、最实用,性价比也最高。目前,对通用数据统一访问和转换平台的研究尚处于起步阶段,国外一些著名的数据库公司开发出了相应的中间件产品用于解决异构数据集成问题。要想广泛使用这些中间件产品,就需要开发大量的数据接口,但是,它们并不能满足我军装备保障领域的数据需求和安全保密要求,而且国内和军内对其的研究甚少,也没有与之相配套的产品。

2.2 技术途径选择

目前,实现大数据共享的途径有2种,即数据转换和数据集成。第一种途径是物理意义上的数据集中,它不仅需要在硬件和相关软件上投入较多的资金,而且海量数据迁移和管理也有相当大的风险,访问速度可能不理想;第二种途径属于逻辑集中,它能充分利用现有系统分布存储、分散管理信息资源,统一访问接口,以适应我军装备保障信息系统的发展,满足其需求。

3 需求分析

3.1 功能性需求分析

装备保障异构大数据统一访问与转换平台的功能性需求如图1所示。

从图1中可以看出,系统的主要功能有:①用户注册数据源信息到数据处理中心;②异构数据源预处理数据源中存储的全部数据;③数据处理中心抽取相关异构数据源的元数据信息;④数据处理中心依据元数据信息建立映射模式;⑤数据处理中心抽取数据源中的数据信息;⑥数据处理中心灵活转换异构数据,并存储转换后的数据等。

数据应用主要是指数据处理中心应用转换后的数据或者对相关存储数据有特定的应用。由于异构数据源中的数据量较大,因此,在抽取数据信息、转换数据和存储数据的过程中,主要借助服务数据对象编程技术Hadoop平台、分布式MapReduce计算框架和HBase存储等技术完成高效、快速、准确的运算和存储操作。

3.1.1 数据预处理

数据预处理的目的是要保证数据的基本质量,为数据的抽取、转换、存储等提供基础服务。数据源处理工作主要是在数据源本地完成的,通过对数据的清洗、过滤、去重和修正等操作,保证其基本质量,使它能够满足数据分析抽取等工作的统一处理要求。预处理数据详细用例规约如表1所示。

3.1.2 注册数据源信息

注册数据源信息功能允许用户将需要的异构数据源信息(数据源访问信息,比如数据库的访问地址、端口、数据库名、用户名、密码和权限等)注册到数据处理中心。数据处理中心得到数据源信息后,可以随时访问数据源,以获取数据源的数据信息。注册数据源信息详细用例规约如表2所示。

3.1.3 抽取数据源元数据信息

在此过程中,允许数据处理中心抽取异构数据源的元数据信息。这些信息主要包括对数据库名、数据库表名、属性(类型名、格式、约束等)、主键和外键等的描述,而标准元数据通常被用来访问分布式异构数据源。鉴于此,可以通过服务数据对象(Service Data Object,SDO)、数据访问服务(Data Access Service,DAS)API读取数据库中的元数据(Metadata)信息,并提取相对应的异构资源数据库的所有表信息、视图、相关规则和语义约束(比如主外键、唯一性约束、默认值等)信息。抽取数据源元数据信息的详细用例规约如表3所示。

3.1.4 建立映射模式

建立映射模式主要是为了解决数据转换中各异构数据源中数据模型的异构性,以局部模式实体存储数据源局部模式实现映射。这样做,既最大限度地保留了数据源中的各种信息,又保证了映射中没有过多的冗余信息。数据源的全局模式包括数据源元数据全局模式和领域知识元数据全局模式2种。建立映射模式的详细用例规约如表4所示。

3.1.5 抽取数据源数据信息

抽取数据源数据信息是为了获取数据源中存储的数据信息,以供后续的转换和应用等。在此,可以通过服务数据对象(Service Data Object,SDO)、数据访问服务(Data Access Service,DAS)API读取数据源中的数据信息。抽取数据源数据信息的详细用例规约如表5所示。

3.1.6 转换数据

转换数据是最重要的功能之一,它主要用于异构数据源数据之间的转换。在转换过程中,如果异构数据源间的数据表达方式一致,可以直接把原数据源的数据复制到目标数据源,以供后续使用;反之,则可以将预先定义好的数据源数据表达方式转换为目标数据源数据的表达方式,也可以像关系数据库中的存储过程一样,由用户转换,将相关内容注册到数据处理中心,然后通过主动调用完成转换。转换数据的详细用例规约如表6所示。

3.1.7 存储数据

存储数据主要存储的是抽取的数据源元数据信息和异构数据源之间的数据转换信息等。数据的存储可以借助Hadoop平台下的HBase数据库实现。存储数据的详细用例规约如表7所示。

3.2 非功能性需求分析

在数据统一访问和灵活转换系统中,非功能性需求主要体现在数据质量方面。下面,主要从4个方面介绍数据质量的基本要素和评估要素。完整性、一致性、准确性和及时性是衡量数据质量的4个基本要素,它们与数据质量的关系如图2所示。

3.2.1 完整性

完整性主要是指记录的数据和信息要完整,无缺失。数据的缺失主要包括记录缺失和记录中某个字段信息的缺失,两者都会影响统计结果的准确性。由此可知,完整性是数据质量最基础的保障,而数据质量的完整性评估也是比较容易的。

3.2.2 一致性

一致性主要是指数据的记录符合规范,与前后及其他数据集合相统一。数据的一致性主要包括数据记录的规范和数据逻辑的一致性。数据记录的规范主要体现在数据编码和格式上;数据逻辑性主要是指指标统计和计算的一致性。在审核数据质量时,一致性是比较重要、复杂的内容之一。

3.2.3 准确性

准确性主要是指数据中记录的信息和数据准确,无异常情况或者错误信息。一致性出现问题的原因可能是数据记录的规则不一,但是,不一定存在错误;而准确性关注的是数据记录中的错误,比如字符型数据的乱码现象也应该归到准确性的考核中。另外,对于异常数值——异常大或者异常小的数值、不符合有效性要求的数值,例如,装备保障人员的年龄一般在1~100之间、转化率为0~1等,在审核时可能会遇到一些困难,这是因为没有明显异常的错误值是很难发现的。

3.2.4 及时性

及时性主要是指数据从产生到可以查看的时间间隔,也叫作数据的延时时长。虽然对分析型数据实时性的要求不太高,但是,并不意味着就没有要求。装备保障数据分析可以接受某天的数据次日查看,但是,如果数据要延时两三天才能出来,每周的数据分析报告就要2周后才能出来,那么,分析结果就会失去时效性,数据分析工作便是徒劳的。另外,当某些实时分析和决策需要用到小时或者分钟级的数据时,就会对数据的时效性提出极高的要求。由此可知,及时性也是衡量数据质量的重要因素之一。

4 研究方案

4.1 技术路线

课题研究的技术路线如图3所示。在此过程中,要依据用户的要求预处理、分析数据源数据。在预处理、分析的基础上,通过数据访问服务(DAS)统一访问异构数据源,并采用基于服务数据对象(SDO)的技术结合基于MapReduce的数据转换架构、基于HBase的存储技术完成海量数据的并行转换应用处理。

4.2 总体设计

基于对平台的需求分析,得出了系统的功能和性能等要求,并提出了平台总体设计方案。描述平台的系统数据流如图4所示。

数据源是数据处理中心的基础,当用户向数据处理中心注册数据源信息后,数据处理中心就会从数据源中抽取元数据信息并将其存储起来,然后通过元数据管理模块创建异构数据源间的映射模式。用户选择了数据转换操作后,在数据处理中心转换数据的过程中,数据处理中心要读取元数据和相应的映射模式,以实现异构数据的转换。所有工作完成后,数据处理中心会将转换后的目标数据返给用户应用或者将其存储到目标数据库中。基于SDO的数据统一访问与转换平台的总体技术架构如图5所示。

基于SDO的数据统一访问与转换平台由数据源、元数据抽取管理、数据抽取管理、数据转换管理、模式映射管理、数据存储管理和目标数据应用7部分组成。

元数据抽取管理和数据抽取管理共同构成了数据源访问模块。它负责根据所选择的数据源类型获取元数据信息,并在其运行时与数据源交互完成数据抽取工作。在元数据信息抽取和数据源数据信息抽取的过程中,主要使用服务数据对象(SDO)和数据访问服务(DAS)完成相关工作。

模式映射管理和数据转换管理共同构成了数据转换管理模块。在数据转换管理模块中,用户需要定义各转换节点的转换规则,创建任务工作流,依据模式映射构建从源到目标的字段映射转换等,然后再将这些映射规则(元数据)存储在元数据管理模块中。当用户执行任务时,系统会从元数据管理模块中查询转换映射规则,并完成数据的转换。

元数据管理和模式映射管理共同构成了模式管理模块。在该模块中,元数据管理主要负责元数据的抽取和解析。这里的元数据主要包括数据源信息描述、目标信息描述。模式映射管理主要依据元数据管理模块提供的元数据信息创建、转换和映射规则信息等。

数据存储管理主要负责模式映射管理模块创建的映射模式存储和转换规则、转换中间数据的存储等。

5 应用前景和效益分析

基于SDO的装备保障异构大数据统一访问与转换平台是基于“规范化、模型化、工具化、资源化”的工程化思想,针对大数据背景下装备保障异构数据源数据的统一获取和处理需求而构建的具有自主知识产权、能够满足可伸缩需求的数据统一访问与转换平台。它能够为装备保障业务信息系统提供统一格式的数据支撑架构,其研究方法和成果不仅可以推广应用到全军武器装备综合业务信息系统的研制过程中,还可以为全军武器装备信息化建设面向大数据的应用需求提供技术和平台支撑,从而获得良好的军事效益和经济效益。

〔编辑:白洁〕

猜你喜欢
数据源
图表中的交互 数据钻取还能这么用
基于ASP的商业公司网站的设计分析
数据报道视域下新闻叙事主体的解构与重组
基于大数据平台的日志分析预警技术研究
Word邮件合并功能的高级应用
基于Excel的照片查询系统开发与应用
再谈利用邮件合并功能批量生成准考证
信息系统集成与数据集成策略研究
Word邮件合并应用浅析
数据有增加 图表自适应