质量元数据在数据治理领域的研究与应用

2021-07-21 15:17李惠松王晓光
今日自动化 2021年4期
关键词:数据治理数据管理

李惠松 王晓光

[摘    要]互联网以及数字技术的普及,使得人们的生产生活数据激增,也使得数据成为了辅助人们工作和生活的必要性工具。基于此,从数据治理的角度出发,对质量元数据的内涵、内容以及其规范集建立概况进行了简要分析,阐述了数据治理的问题和危害,并对质量元数据在数据治理中的应用进行了论述。

[关键词]质量元数据;数据治理;数据管理

[中图分类号]TP311.13;TM7 [文献标志码]A [文章编号]2095–6487(21)04–0–02

Research and Application of Quality Metadata in the Field of Data Governance

Li Hui-song,Wang Xiao-guang

[Abstract]The popularity of the Internet and digital technology has caused a surge in people's production and life data, and it has also made data a necessary tool to assist people in their work and life. Based on this, from the perspective of data governance, this article briefly analyzes the connotation and content of quality metadata and the establishment of its specification set, expounds the problems and hazards of data governance, and discusses the application of quality metadata in data governance.

[Keywords]quality metadata; data governance; data management

目前,为了能让数据价值得以提升,开展数据治理势在必行。在数据治理工作中,质量元数据发挥着极为重要的作用,质量元数据管理将成为数据治理的重要环节。因此,在实践中应该开展有关于数据治理和质量元数据管理的研究。

1 质量元数据的基本情况

质量元数据就是质量管理中所用的元数据,在使用环节能帮助质量管理人员提高质量数据使用效率。目前,质量元数据可以被分为质量业务元数据和质量技术元数据,这两种数据分别以业务用户和技术客户为使用者[1]。在实践工作中,质量业务元数据与质量技术元数据的内容存在交叉,但二者也存在明显差异。比如,产品生命周期内的质量管理活动、业务活动信息、质量数据结构、质量决策支持元数据等都属于质量业务元数据;而数据ETL响应时间、OLAP规则、决策与系统运行相关性等都属于质量技术元数据。

现阶段,质量元数据可以为企业质量管理工作的开展提供巨大辅助,在使用环节需要建立质量元数据规范集,该项工作的根本目的是为建立质量元数据标准奠定基础,规范集就是这一标准建立的依据。因此,建立质量元数据规范集时,需要遵循特定原则作业。比如,基于简便性、适用性、交互操作性、易转换性、可拓展性和结构化原则建立规范集;同时,还应该在作业时重视用户需求和工作灵活性。

2 数据治理的问题和危害

数据治理是提高数据可用性的有效方法,从本质上来说数据治理是一种集组织、制度和技术为一身的管理行为。元数据、数据质量、数据开发、数据安全、数据价值和数据组织都属于数据治理的工作范围,所以在其作业环节存在诸多干扰因素。

2.1 数据治理问题

数据治理工作意义重大,但在其开展环节却十分容易出现以下问题:

(1)不完整问题。在数据治理环节,数据不完整问题十分常见,这种问题主要表现为缺少关键性ID、存在明显的位数不符问题和历史数据保留期限缺乏一致性上。当然,也有部分辅助信息的代碼缺乏规范性,许多以文本方式描述,也影响了数据完整性。

(2)逻辑错误。对于数据治理工作而言,数据逻辑的准确性将会直接影响其处理成效。但是,在实践中却常常出现逻辑错误问题,具体表现为违反业务规则和业务代码定义两方面。

(3)缺乏一致性。数据的一致性是开展数据治理的基础,但是在相关工作开展环节,很容易出现数据不一致问题。比如,不同系统的数据定义差异,就会导致同一业务的数据缺乏一致性;相关联业务系统的数据不同步也会导致数据缺乏一致性。

(4)冗余问题。在数据治理工作中,并非所有数据皆可用,许多数据之间都存在内容重复的问题,而且在治理环节也存在数据记录重复的现象,造成了非常严重的冗余问题。此外,非法键值的存在也同样易引发数据冗余。

2.2 数据治理问题的危害

数据治理问题会对数据的正常使用以及相关工作的开展造成极大干扰,将会危害实践工作的正常开展。基于上述治理问题,许多无效和重复性的工作浪费了人力物力资源,使得数据治理工作的成本大幅增加,数据集成项目的重复实施率高达83%。同时,面对数据治理问题,企业会错失商机,还容易让消费者丧失信心,低劣的数据质量将会严重干扰企业的正常年收入[2]。此外,在数据治理问题的出现使得工作人员不得不在辨别数据可用性上花费更多时间,会导致作业成本进一步增加。所以,为了提高数据治理工作的有效性以及长效性,相关工作人员需要合理开展数据组织建设工作。在建设数据治理体系(图1)时,应该对数据治理委员会、数据管理指导委员会、数据管理制度团队等基础管理组织进行有效建设。

3 基于质量元数据的数据治理

元数据可以用于描述数据,是数据治理工作中极为重要的组成部分。对于数据治理工作而言,有效开展元数据管理至关重要。

3.1 质量元数据管理作用

在数据治理工作中,质量元数据的应用应该满足端对端数据连线需求和业务反应需求,同时业务和技术用户还应该共享数据库。为有效开展数据治理,需要对质量元数据进行科学管理,此项工作的开展可以发挥出如下作用:

(1)优化业务导航。基于质量元数据管理,业务人员能更为快速地明确业务范围、流程、数据类别以及归属关系,将强化对工作整体内容和需要的认知,为相关工作的开展提供便捷性导航。

(2)强化数据质量。质量元数据是对质量数据和其他相关数据的描述,所以质量元数据管理工作的开展更有助于提高数据质量,能为提升数据可用性和实用性奠定基础。

(3)提高工作效率。质量元数据管理工作的开展,能提高效整合工作成效,还能极大提升数据应用环节的作业质量。而且,在开展质量元数据管理工作后,出现重复数据的概率将会大幅降低,那么数据冗余和非一致性问题也将得到缓解。此外,质量元数据管理还将基于多种分析方式(图2),为业务数据问题提供快速响应的机会,可以极大提升问题数据定位的精准性,降低定位难度。

图2  多元分析模式

(4)降低成本。质量元数据管理能提高沟通和应用的精准性,数据逻辑错误问题将会被极大消除,数据的使用成本会降低。在实践中,管理工作的开展为提高数据信息获取速率、强化数据系统建设提供了辅助,所以数据开发和分析成本也将随之降低。

3.2 质量元数据管理方法

元数据主要用于描述其他数据,质量元数据的主要描述对象就是企业质量管理工作中出现的各种数据。在实践工作中,质量元数据有着多样化来源,其形式并非全都为数字,“数据”属于事务性符号,是一种可用于统计计算工作的数值,也属于可能是图表信息、公式信息、数字信息或代码信息[3]。

3.2.1 质量元数据接入

确定质量元数据的范围是开展质量元数据管理的第一步,而质量元数据接入是质量元数据管理中的另一个重要内容,元数据通常由源系统接入。若企业没有实时性要求或建立数仓,那么数仓就是接入已有元数据的最佳渠道,而其他元数据则主要由源系统补充。但是,这种方法存在较高风险,容易引发数据治理当中的不一致问题,所以现阶段大多数企业都以配置自动化方式开展元数据抽取工作。

3.2.2 质量元數据标准

质量元数据的定义规范性将会影响质量元数据管理和数据治理质量,所以在实践中应该设立明确标准,为确保质量元数据具有一致性和完整性奠定基础。在实践中,企业的实际需求存在差异性,所以质量元数据的开放对象也不完全相同。那么,要保证质量元数据使用和管理质量,就应该明确其使用人群和应用标准。比如,制定元数据开放权限,规范质量元数据申请、发布和审核流程等。为了避免质量元数据滥用,非质量元数据对应业务工作者必须在申请后才可使用质量元数据。

3.2.3 质量元数据查找和分析

质量元数据内容庞杂,包含大量信息,所以在使用时需要对相应信息进行查找和分析。为了能提高数据治理效率,提升企业质量管理成效,相关工作人员应该为质量元数据的快速查找提供支持。比如,开发单独的质量元数据查找页面,设计模糊匹配和精准匹配,提供关键信息查找等。在此环节,应该充分提升查找方式的便捷性、易操作性和多样性,为迅速锁定质量元数据奠定基础。同时,在质量元数据分析方面,可以采取血缘分析法。如今,大多数数据仓库都是Hadoop平台,所以血缘分析主要存在两种思路:①对hql脚本进行解析,进而基于正则表达式来完成各行字符串的匹配工作;②基于平台自带的语法进行分类解析。这两种方法都可以满足血缘分析需求,但是后者的使用便捷性较高。对于质量元数据管理工作而言,血缘分析是一种十分重要的关联影响分析方法,能有效提升数据分析和定位的速度与质量。

4 结束语

质量元数据已经成为了企业质量管理工作的重要工具,为优化现代质量管理提供了巨大帮助。在数据治理环节,质量元数据管理是极为重要的组成部分,所以在实践中应该通过合理应用质量元数据、有效开展质量元数据管理来提高数据治理成效。

参考文献

[1] 郑跃平,甘祺璇,张采薇,等.地方政府数据治理的现状与问题——基于43个政务热线部门的实证研究[J].电子政务,2020(7):66-79.

[2] 康军.数字化转型下通信运营商数据治理的“困”与“道”[J].江苏通信,2020,36(3):58-64.

[3] 程芳,张权,董少林.基于数据集成的质量元数据研究[J].标准科学,2019(5):140-142.

猜你喜欢
数据治理数据管理
《大数据管理》课程思政教学质量评价体系研究
穿越数据的迷宫
金融行业数据管理将何去何从?
如何有效开展DCMM数据管理成熟度评估
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
高校数据融合路径及其治理框架的探讨
基于本体的企业运营数据治理
云端数据治理初探
大数据治理模型与治理成熟度评估研究