教育信息化2.0背景下基于数据中台的高校数据治理方案研究

2022-11-03 07:51黄贤明梁爱南张汉君冯兆
现代信息科技 2022年18期
关键词:统一标准校园

黄贤明,梁爱南,张汉君,冯兆

(湖南工业大学 计算机学院,湖南 株洲 412007)

0 引言

随着大数据、云计算、物联网以及人工智能技术的快速发展和广泛应用,高校信息化建设迈入了一个新的阶段。教育部在2018年4月发布了《教育信息化2.0 行动计划》,提出到2022年要基本实现“三全两高一大”的发展目标,标志教育信息化从1.0 时代进入2.0 时代。该行动计划提出:要“促进智慧校园建设全面普及”“全面推进各级各类学校智慧校园建设与应用”。2021年3月22日,教育部发布《高等学校数字校园建设规范(试行)》的通知,对高校校园信息化提出了进一步的规范要求。

1 当前校园数据治理存在的问题与困境

由于缺少清晰的校园信息化建设总体结构性框架与可视化模型,当前高校信息化建设的目标愿景尚未实现。各学校在校园信息化建设过程中,出现了如下弊端情况:一是数据缺乏统一规范,没有形成统一数据标准;二是“信息孤岛”现象突出,无法实现数据的实时共享;三是缺少统一的身份账号认证与管理平台;四是应用系统建设缺乏顶层设计等等。国内高校信息化建设在经历了一段迷茫期后,在教育信息化2.0背景下急需重新定义,以更智能、更生态、更人本的样态出现。因此,随着高校信息化建设进程的进一步推进,当前校园信息化建设有了四个显著的变化特点:一是碎片化:原有大型信息系统应用场景不断被碎片化、多样化、即时化的轻量级微服务解构,校园管理往往需要针对某一个简单场景快速上线和变换;二是服务化:将原有面向单一部门的管理转向跨部门的流程服务,实现数据互通、服务流程跨部门推进;三是移动化:掌上校园、移动校园、线上课堂等基于手机端、Web 端的应用广泛普及对于使用习惯的改变也催生移动化办公的转变;四是数据分析化:学校各管理职能部门对于数据的要求,也从原来单纯的业务管理转向数据分析支持决策判断。

然而,高校在推进“智慧校园”过程中,数据整合管理成为高校普遍存在的困扰,这种情况产生的本质原因往往逃不开“智慧校园”建设中“重应用、轻数据、缺标准”的历史原因。高校作为数据产生、拥有和使用的主体,面对这些纷繁杂乱、若隐若现、捉摸不定的数据,难以实现关联、统计、分析、挖掘,无法形成整体视图,数据的价值得不到充分开发利用,管理水平难以提升,重要决策难以支撑。在这种情况下,“智慧校园”的推进难以获得明显的成效。正是因为“智慧校园”这些变化特点,对于数据质量要求越来越高,数据问题日益暴露,数据治理已经成为由“数字校园”迈向“智慧校园”过程中,必须经历和完成的一项重大工程。

当前各高校在数据治理过程中,普遍感觉到数据治理难度很大,主要是前期在数据管理中存在四大难点:一是数据中心黑盒运行,难以管理。主要表现为数据黑盒运行,状态不清,出故障难以排查;数据管理技术要求高,操作复杂;接口又多又乱,不知道哪些有用,数据不能复用;标准缺乏全局统一,只能点对点交换;部门之间要数据,沟通周期长,安全难以保障。二是数据维度缺少内容,难堪大任。主要表现为只有主数据、结果数据,缺乏过程数据;只有线上数据,缺乏线下数据;只有结构化数据,忽视了非结构化数据的价值;只考虑数据交换,数据价值未充分利用,师生重复填表。三是数据资源散落各处,难以收集。主要表现为业务系统归口各部门管理,数据难以获得;大量线下数据无法流动共享,比如电子表格、纸质文档等;多个系统多份数据,数据来源缺乏权威;部署在校外的系统,需要数据时还要看厂商脸色、缴纳接口费。四是数据质量缺乏保障,难以采信。主要表现为部分系统数据缺失、错误、不完整;部分系统数据结构单一,应用功能简单,难以支持数据统计、数据填报等需求;个别系统数据独立,与别的系统关联不强,难以支持复杂的跨部门业务协作;部分系统数据陈旧,难以为部门管理水平的提升提供参考;数据共享不够,难以为领导决策提供可信数据支撑等。

随着校园信息化的不断发展,高校数据呈现更多元化的状态,传统的业务系统建设模式已不足以满足当下院校对于数据深层次挖掘利用的需求。同时在教育信息化2.0背景下,数据的隐私和安全也是需要核心保障的,而对于以上两点的需求,传统的主数据(数据中心)建设模式无论是从能够容纳的数据体量以及数据供给的模式均无法满足需求。

2 基于数据中台的校园数据治理方案探索

2.1 数据中台概述

一般来说,数据中台是指企业利用大数据技术,对内外部海量数据统一进行采集、计算、存储,并使用统一的数据规范进行管理,数据规范包括数据口径、数据模型、元数据规范、参考数据标准、主数据标准、业务规则等。

数据中台的核心是数据应用程序编程接口(Data Application Programming Interface,Data API),起到连接前台和后台的作用,通过API 的方式提供数据服务,而不是像以往那样直接把数据库给到前台,让前台开发自行使用数据。那么产生DataAPI 的过程,DataAPI 怎样可以产生得更快,Data API 怎样可以更加清晰,Data API 的数据质量怎样可以更好,这些就是需要围绕数据中台去构建的能力。

虽然数据中台有着不同的导向和具体定位,但其最终的目标是一致的,就是以数据资产化为导向进行数据治理,以共享数据服务的方式实现数据共享,通过构建中间平台,打通业务和数据环节,减少冗余,增加复用,快速响应用户需求,实现数据驱动业务创新。

2.2 高校数据中台体系

数据质量是高校“智慧校园”建设中数据治理的重中之重,只有高质量的数据,才能给学校带来高效率和高价值。为了进一步提升高校智慧校园的数据服务能力,针对当前存在的数据管理问题,本文以某高校智慧校园为参照,提出教育信息化2.0背景下基于数据中台的校园数据治理建设模式——数据中台体系,探索解决数据的“管”“通”“用”三类核心问题,即制定完整的数据发展规划,树立基于数据的全生命周期管理理念,建立以数据标准为起点、数据应用为终点、数据闭环治理为保障的数据中台架构体系,构建统一数据“管”理平台;在传统的数据仓库和数据中心的建设模式上升级底层架构,通过数据治理实现数据的互融互“通”,消除数据孤岛,实现数据共享与解耦;通过整合统一底层的数据标准和计算组件,运用数据中台将数据抽象封装成服务,形成满足业务场景需求的数据模型,使数据统一开放使“用”,如图2所示。

图2 校园数据中台体系

该校智慧校园的数据中台体系架构共分为五层,分别为数据源层、数据采集处理层、数据仓库平台层、数据治理输出层、数据应用层。

2.2.1 数据源层

航运制裁。由于全球约90%的油轮保险公司总部位于西方国家,美国通过获得欧盟的支持,拒绝为伊朗石油出口服务的油轮提供海运保险,达到从航运上切断伊朗石油出口的目的。上次欧盟对伊朗的石油禁令中,就有禁止欧盟保险公司对出口至世界各地的伊朗石油进行承保。受此影响,中国船东互保协会于2012年7月停止了对运送伊朗石油的油轮提供损失补偿险。

数据源层是高校智慧校园的数据采集层,采集涵盖高校常见的各类数据,主要包括关系型数据、文本文件、Syslog日志、二进制日志等数据类型的采集和存储,在物理上形成一个大的数据集。数据来源可以分为校内数据和校外数据两类,其中校内数据既有来源于校内线上业务如教务、科研、学工、一卡通等信息系统数据,也有来源于线下业务如各业务部门的文本文件、电子表格等数据,还有从相关智能设备上采集到了温度、湿度、设备运行日志等校园环境监测数据。校外数据主要是相关信息系统对接上级平台获取数据以及通过网络爬虫获取的互联网数据。

2.2.2 数据采集处理层

数据采集处理层负责通过统一数据集成管道对相关数据进行优化处理,它应以需求为驱动,以数据多样性的全域思想为指导,采集与治理全业务、多终端、多形态的数据,同时构建满足学校智慧校园建设要求的统一数据标准,以达到解决各类数据在逻辑层面的统一。

2.2.3 数据仓库平台层

数据仓库平台层是指在前期统一数据采集、存储的基础上,建立数据共享中心,通过对数据的集成、计算和管控,提供数据流水线的管理方式,向下承接数据治理的成果,向上提供数据统一的通道,帮助学校各信息系统用户简化数据的管理和使用,提高数据使用的效率和安全性,盘活学校数据资产,达到消除数据孤岛和数据烟囱的作用。

2.2.4 数据治理输出层

数据治理输出层是高校智慧校园数据治理成效关键一层,它将构建全域数据标准,集成不同类别的数据,完善数据管理规范制度。通过数据治理,统一数据接口定义与发布,规范用户权限控制与使用审计,最终形成统一数据开放平台。

数据应用层是指在统一数据开放平台的基础上,通过统一底层的数据标准和计算组件,形成满足业务场景需求的数据模型,最终实现数据应用共享化、数据访问移动化和运营监控自动化。

智慧校园的数据中台体系通过五层模型构建,最终将形成统一数据采集、统一数据存储、统一数据治理、统一数据开放和统一数据门户的五位一体院校数据中台,使得数据治理真正成为一个不断循环和迭代的良性过程。

2.3 基于数据中台的高校数据治理方案

所设计的方案将对学校内外的全量数据进行盘点、梳理、采集、清洗和标准化,建立一个标准规范、来源权威稳定、数据高度融合、数据质量可靠的全量数据平台,实现对数据的全面采集、规范建模、质量提升、安全存储、可控共享和充分应用。数据治理的主要活动包含采集识别、清洗治理和成果生成与发布。

具体包括设计校级数据标准,全量采集各种管理业务数据、电子表格数据、日志数据等,并对数据质量进行检核,针对质量问题进行清洗、转换、去重、补漏、纠错等操作,再按照标准模型和标准代码进行统一建模存储,形成战略级数据资产,并由大数据平台进行承载和运营发布。本方案在实施过程中,主要将整个数据治理工作分成三个域来进行,分别是管理域、数据域和知识域,如图3所示。

图3 基于数据中台的校园数据治理方案

2.3.1 管理域

校园数据治理的根源在于数据不规范、各个信息系统数据缺乏统一的顶层设计。因此,在高校数据治理工作中,首要的就是进行数据的顶层设计和数据管理规范的制定。高校数据顶层设计必须由学校信息化职能部门或机构牵头,协同教务、财务、人事、学工、后勤、一卡通等业务系统部门,对相关信息系统的数据分类、命名、技术架构、逻辑架构、物理架构、管理架构、开发架构和整合流程等进行统一数据标准、统一开放接口、统一数据共享。在此基础之上,再形成学校的数据标准遵从、数据标准管理、数据生成职责、数据质量保障、数据安全职责、应用开发规范、开发共享规范等系列数据管理规范,从而实现数据产生、运用、共享、传递与消亡的生命周期式的系统性管理。

2.3.2 数据域

数据域是高校数据治理的核心内容,按照数据的流向,主要包括三个工作流。一是数据工作流,主要包含数据的识别、采集、集中、质量检查,成果数据生成入库,数据共享发布,直至被业务系统使用,生成新的数据,再次被采集,形成良性的闭环。二是标准工作流,在依据国家标准和教育系统行业标准的基础之上,根据高校实际情况设定学校数据信息标准,再依据标准进行分类建模、生成数仓结构数据,最终形成成果数据的元数据模型。三是质量流,质量流是数据治理中工作量最大的部分,工作的内容就是对各信息系统检查出来的质量问题进行修正、转换、纠错等操作,最终实现数据质量本质性的提升。

2.3.3 知识域

知识域是数据治理过程中对前一阶段的进一步梳理和归结,它包含两个方面的工作:一是各类标准的输出,最后形成校级数据标准;二是对数据采集来源、采集接口、供需关系、质量保障原则等等形成的知识沉淀构建成高校数据管理知识库。

3 结论

高校数据治理是一项系统工程,涉及各个业务系统归属部门,因此必须统筹兼顾、合理规划、逐步实施。采用数据中台技术实现数据治理,是从数据全量视域角度出发的一种方式。在实际工作中,数据治理要做好以下几个步骤:一是摸清家底,要通过业务部门和数据调研,进一步摸清学校数据家底,了解现状;二是全量采集,要更加广泛的收集数据,实现数据的全量、全维度、全生命周期;三是标准制定,要依据学校实际情况合理制定、建设校级标准,原则上能采用国家标准和教育行业标准的应尽量采用;四是标准落地,标准不能停留在纸上,应该将标准应用到数据上、应用到对业务系统的数据交换过程中;五是积累与量化成果,通过数据治理,积累治理成果,保证延续性,步步为营,层层推进;六是知识库建设,通过治理过程,形成数据资产目录、元数据库、数仓体系、数据质量原则库、数据质量报告和数据血缘关系等等;七是制度形成与保障,通过规范和制度建设,理顺流程、规范行为、严格执行,确保治理成果能够不断更新迭代。

猜你喜欢
统一标准校园
最新出版团体标准
中考省级统一命题意味着什么?
淝水之战
永远幸福
校园的早晨
春满校园
党员标准是什么?
统一方向 瞄准目标
自然界中相互作用的大统一理论简介
李敖论标准