高校异构系统数据集成平台的构建研究

2020-12-08 08:40王芬芬

无线互联科技 2020年19期

张军，王芬芬

(湖南铁道职业技术学院，湖南株洲 412001)

0 引言

信息技术高速发展，大数据时代已经来临，高校的信息化建设也经历了多年的发展，在高校数字化校园的建设过程中[1]，校内各业务职能部门在不同时期都建设相关的业务系统来满足本部门的业务需求。同时，学校为满足信息化教学的需求，也建设了一批教学相关的学习平台。这些系统功能各异，系统间相互独立，采用不同的技术方案，所产生数据的组织结构和存储方式也大有不同，数据间的壁垒已经严重影响了数据的流动与共享，各系统数据存在大量的冗余与不一致[2]。当前，高校对数据的整合共享越来越重视，很多学校都在建立大数据平台，但在实际的情况中，各业务系统归属不同的部门，系统分散，部门间的业务联动性较差，数据的源头不统一，缺少专门对数据管理进行监督和控制的组织，针对数据的共享和整合缺乏全局的规划。这些因素都大大制约了数据共享流动的范围以及数据共享的实效性等方面。

除上述问题外，在高校数据集成平台的建设中，还应解决数据的全生命周期的管理，就是学校数据的产生、使用、维护、备份到过时被销毁的数据生命周期管理规范和流程还不完善[3]；同时缺乏统一的校级数据质量管理流程体系，跨部门的数据质量沟通机制不完善，严重影响了数据质量。基于上述背景，本文从数据标准的建立、数据清洗规则与数据ETL过程等方面构建一套完整的数据集成方案。

1 相关技术

数据集成主要是将不同业务系统中所产生的不同格式、不同类型、不同性质的数据进行统一和集中管理的过程，数据集成是一个逐渐完善的过程，旨在为用户提供完整的、准确的数据共享服务。目前，数据集成的相关的技术已经比较成熟，在具体实施过程中，因为各个业务系统数据的组织结构和选用的数据库都不尽相同，数据的内容、数据的格式以及数据的质量也各自不同。所以，数据集成首先要解决的问题就是不同业务系统所产生的异构数据源的整合，数据整合的主要是数据的抽取、转换、加载的过程，就是数据ETL(Extract，Transform，Load)过程[4]。

ETL是数据集成中最主要的一个环节，主要解决异构数据源的整合问题，通过抽取、转换和加载过程，将分散的、不一致的、冗余的业务系统源数据按照事先定义的数据标准进行整合。首先，根据需求在源业务系统数据库中建立源数据视图。然后，与源数据库建立连接，抽取源数据库中的源数据视图到中间表中，在抽取的过程中依据既定的数据清洗规则对源视图中的数据进行清洗转换，使抽取的源数据符号制定的数据标准。最后，将转换后的数据存储至共享数据中心中，存储方式有全量和增量两种方式，数据ETL模型如图1所示。

图1 数据ETL模型

2 平台构建

2.1 信息标准建立

建立信息标准主要是保证数据在采集、清洗、转换与流转的过程中有统一规范，保证数据的一致和准确，最大范围的实现数据的共享。高校信息标准的制定应充分参考国家已有的教育信息化标准或相关的行业标准，同时根据高校自身的特点，信息标准应具有实用性、易扩展性和易操作性。

2.2 数据清洗

数据清洗就是利用相关技术依据规则将数据转换为满足质量要求的规范化数据，其目的就是保证数据的一致性，确保数据的参照完整性和精确性，数据清洗的主要有以下几点。

(1)数据清洗的基本规则包括：非空检查、主键重复、非法代码清洗、非法值清洗、数据格式检查、数据记录数检查。

(2)缺失值清洗：要依据缺失的比例和缺失字段的重要性，分别制定策略，对于重要性高且缺失率低的字段，可通过计算或业务知识估计进行填充；对重要性高且缺失率高的字段由业务部门补全或通过其他字段计算获取；对重要性低的字段可不做处理或简单填充，如果缺失率高可直接删除该字段。

(3)格式内容清洗：主要有时间、日期、数值、全半角等显示格式不一致，可直接将其处理为某种一致的格式；内容中存在非法的字符，如字段值的头尾或中间存在空格或异常字符，这种情况需要半自动校验半人工的方式来进行清洗。

(4)逻辑错误清洗：主要包括去除重复、去除不合理值和修正矛盾内容。

2.3 数据集成实现

平台采用Oracle公司的ODI作为数据ETL工具，ODI具有跨平台的优势，不仅能够支出当前所有主流的关系型数据库系统，还可以完成TXT文件、EXCEL文件以及XML等类型数据的集成。ODI通过可插拔的知识模块来实现数据的抽取，知识模块可定制，这就大大提高了数据集成的扩展性和灵活性。

数据的流转过程采用虚拟视图和中间库的方式来降低数据间的耦合性，将业务源数据抽取至虚拟视图中，经过清洗转换后存入共享数据中心；将业务所需的标准数据存入中间库，由业务系统按需加载至目标库中。基本工作流程为：首先基于预定需求在业务系统源数据库中建立源视图，然后在基于信息标准建立源虚拟视图，该视图中的字段及含义与共享数据中心的目标表保持一致，用于完成与源视图中数据的等价转换，再由虚拟视图存储至共享数据中心中；另外，在将标准数据推送至业务系统时，也由中间库进行流转，共享数据中心和业务系统数据库之间不直接发生数据流动，基本工作模式如图2所示。

图2 数据流转过程

3 结语

本文主要讨论了利用ETL工具实现对高校各个业务系统的数据进行统一的抽取、清洗、转换、加载和存储，选择ODT为实施数据集成的ETL工具，提高了数据集成平台的灵活性和扩展性；分析了高校数据信息标准的制定，数据集成过程中数据的清洗规则，业务数据缺失值的处理策略以及数据格式和数据逻辑错误的清洗方法。重点分析了数据的流转过程，采用虚拟视图和中间库的方式降低了数据间的耦合性，保持了各业务系统数据间的独立，降低了实施成本，提高平台的拓展与灵活性，对其他高校数据集成平台的建设具有一定的借鉴意义。