基于数据中台的矿山大数据治理方法

2022-07-12 02:13孙文凯张孝临姜山红孙祎楠
探索科学(学术版) 2022年1期
关键词:矿山数据库标准

孙文凯 张孝临 姜山红 张 军 孙祎楠

1.辽宁科技大学计算机与软件工程学院 辽宁 鞍山 114000

2.鞍钢集团矿业有限公司 辽宁 鞍山 114000

1 背景

作为数字经济的核心生产要素,数据正成为经济转型和发展的新引擎,以及社会治理的有效工具。随着5G、宽带业务、网格化运营的发展,涉及的数据量也在不断上升。伴随数据量的增多,企业面对的问题和调整以随之增加。

我们在面对大量数据时,数据质量问题、数据使用问题和数据安全问题都是值得关注也是经常遇到的三个问题。伴随着数据平台及数据日益复杂,数据也存在着开发投入大数据价值密度低,冗余数据增多,运维困难等问题。

2 引言

我们在面对大量数据时,数据质量问题、数据使用问题和数据安全问题都是值得关注也是经常遇到的三个问题。伴随着数据平台及数据日益复杂,数据也存在着开发投入大数据价值密度低,冗余数据增多,运维困难等问题。

2.1 数据治理解决方案

在整个数据治理过程中,我们认为数据治理是和数据资产是融合的,每一个治理方案都有一套单独的治理体系。我们预期的数据治理模式是和数据生成过程是融合的,不应该是一套孤立的体系。数据治理同生产,最好做到的是事前治理,事中治理。是同数据生产是贯穿的,尽量避免事后补救治理[1]。

2.2 元数据采集及数据资产发布服务

首先对企业元数据进行采集。在数据采集方便数据管理,针对不同格式的数据做了分类的模型,模型对应数据库中各种表结构。可以采用多种方式进行针对数据进行采集。可以通过数据库导入。在使用数据库导入,手动选好数据库,选好表,也可以自拟规则进行筛选。另外我们希望的是系统可以进行自动导入,我们可以写好定时任务,在规定时间点进行数据反向工程导入,同时检测数据表是否发生过改动当检测到数据改动,我们同样将数据版本体现到数据库上。同时我们还可以对导入的元数据进行更深层次的管理,可以对数据进行脱敏标记,是否选择加密,是否定期清理和备份等等。

将采集的元数据形成资产目录。根据不企业不同模式,形成不同的目录类型。在管理者界面中方便管理和查看数据。

将资产信息根据资产目录进行导入,进一步完善资产业务信息。我们将最后形成的数据统一放入信息中心,在信息中心我们可以查看到各种各样的数据,同样可以选择对应的库进行直接或者间接检索数据,并含有多种检索方式,提供用户去检索。

维护完成会形成资产数据知识库,形成知识库就方便用户查阅,用户资产申请。在形成数据库在宏观上会形成数据地图。在用户数据申请的过程中也会设计数据安全方面的问题,对数据进行脱敏处理,添加数据水印的能力做一个贯穿。[2]

针对数据安全方面,我们针对不同数据进行定义不同等级,打上安全级别标签。在数据保护过程中同样给出一定的安全存储建议。同时也标记访问和导出建议,以保证数据安全性。相对数据敏感度低的数据,部分数据需要明文还是密文加密处理等等。[3]

除此之外,我们还定义了敏感信息数据规则,像电话号身份证等等规则,自由度很高也可以自定义规则手写正则表达式的方式去形成最终的过滤规则。

2.3 事前治理能力

制定数据标准体系,在治理中主要分为两条链路,一个是层量,另一个是增量。层量的方式是一种被动的方式进行治理维护。增量就是对数据进行强管控的方式,我们要做的就是管好增量,把层量在特定时间内进行处置。

针对标准体系建模,目前标准主要分为一下几种标准。主要有字段标准,词根标准,分层分域标准,前后缀标准,术语标准,指标标准,维度标准。这些标准针对数据治理都有着不同的作用。字段标准为例,在创建表数据时,我们使用这些标准来针对数据库进行命名,而不是根据自己一套标准去修改的命名格式。使用这种方式对数据进行整合的时候有以下几个优点,在收集身份信息的时候使用相同的标准方便对数据进行整合,方便数据进行管理和关联性的处理。同时,使用同一套标准也能方便大家理解数据所代表含义。通过标准能让大家形成一套相同的数据语言,方便管理人员还开发人员针对数据整合和管理交流,都是可以规避交流困难的障碍,减少数据歧义。同时我们管理者也可以根据自己规定一套数据标准体系进行规划数据。

数据标准稽核,在数据发布之前的一种检查机制,任务上线前,提供标准化的检查机制。分为以下几个部分对数据进行打分,表命名规范,字段命名规范,在任务发布是否存在大表扫描等等不合规的情况,临时表有没有清理的检查,在事前进行一个强管控的检查在数据治理前进行检查动作。[4]

2.4 事中治理能力

数据稽核规则配置,更多的是从数据质量进行保障,系统提供很多提供规则,像数据是否关联,数据表是否一致,表和表之间,文件和文件之间是否有一致性。规范性稽查,查看数据是否非空,是否超长方面进行稽查。波动性稽查,主要是查看趋势的波动,准确性稽查等等。在一定稽核中可以使用规定的稽核脚本模板进行对数据进行稽核,另一种方式就是使用自写脚本片段的方式进行稽核,去拼接稽核体系。

数据质量稽核,我们可以对数据质量进行检查,我们可以创建,可以添加具体某一张表,去选择目标模式,最终选择规则上的指定,最终形成检查的逻辑,会根据需要进行执行。可以使用周期性的方式,也可以使用一次性的方式。更多的稽核工具需要结合ETL工具进行贯穿。ETL的方式就是使用稽核过程和数据调度的过程进行融合。

数据质量问题预警,我们将稽核的结果问题进行统计列表,将出现问题的稽核数据列表发送给稽核数据责任人的手中,形成数据处理的闭环。

2.5 数据价值及热度

我们在数据治理的过程中,表和模型都是有声明周期,我们通过识别数据使用的情况,我们创建了一套数据热度分析的体系。

数据热度信息采集,主要从数据库执行日志的视角进行采集信息,数据库平台获取数据库操作日志,通过日志获取表使用情况。如果单单依靠数据表的情况是远远不够的,另外也可以使用数据库浏览的热度,浏览权重,数字化起源依赖进行评估。便依此针对数据热度进行打分,评估出来的数据热度高的数据我们需要做的就是保障。相反,热度低的数据是否考虑做数据下线的处理。在热度处理的时候也考虑数据血缘的关系,部分数据可能在用户使用占比较少,但是在维护整个数据关系发挥着巨大的作用,我们便以此对表进行加权处理。这样在数据处理会有着更加客观的治理体系和能力,方便运维人员参考和指导意义。[5]

我们通过热源分析,可以找到数据热度分布图,找到数据热度主要分布的数据库。找到拓扑分部还有数据趋势的分析。可以将数据热度详情的方式进行导出。

3 矿山数据治理解决方案

在解决矿山数据时,根据矿山数据源特点,矿山数据在治理过程中会面临着治理困难,冗余度高等缺点,在导入系统的时候会重新生成一份心得模型表,来协助矿山数据治理。[6]

通过导入的数据,创建资产虚拟目录,方便矿山系统管理者维护信息资产。导入完矿山数据后,会形成数据知识库。安流程进行导入和治理数据。[7]

在导入完快闪数据后我们便可以根据矿山数据制定特定的数据标准管理体系。建立相对于的数据模型,建立好的数据模型,便可以针对矿山老数据平台进行在平台的虚拟重构。重新定义表结构,重新定义表名称和落地标准。这样对数据库再次进行操作便可以开启稽核,准许符合稽核规则标准的数据,过滤不合规则的危险数据。[8]当出现稽核预警危险时,将问题提交给矿山数据管理人员,这样便可以针对矿山数据进行重构处理,对后期矿山数据维护起来更加方便。在矿山数据上线数据治理中台时,我们便可以根据血缘分析标签,针对血缘对数据进行标签化处理,评估数据热度。形成一个综合数据热度图,我们便可以参照这一热度图进行数据处理,热数据我们便加权维护处理,相对冷数据我们便可以进行推荐下线处理。这样高热的数据得以维护,地热的数据也可以减少数据库冗余,优化数据库结构。

4 总结

在了解大数据治理中台体系中,了解到了大数据治理平台管理方法。数据治理在近年来是个火热的词,他的出现实现了老数据的管理和维护变得运筹帷幄。

在大数据平台阶段,用户对数据信息的需求持续上升,用户范畴从数据信息部门拓展到全企业,数据治理无法再仅仅面向数据信息部门了,需用变为面向全企业用户的办公环境,需用以全企业用户为中心,从给用户提供服务的角度,管控好数据信息的同时为用户提供自助式获得大数据的能力,帮助企业实现数字化转型。

在以往数据模型包括矿山数据在内的老数据模型,都存在这治理困难,维护困难等等问题,我们逐渐的将老的数据去架构到新的数据治理中台体系中,老的数据冗余度高的数据便可以变得容易维护,可操作,降冗余,减轻服务器负担,提升管理者管理数据困难程度。

在以往数据中都是靠着主外键关系来确定各个表之间的关系网,有了数据治理中台我们便可以通过这一中台通过界面化可视化的方式去进一步了解和理解矿山数据表各个数据分部和联系关系。

现阶段各领域都开始了大数据平台的搭建,期望运用大数据的能力,来实现数字化转型。大数据平台的搭建实际上还是数据信息的搭建,传统型数据平台遇到的全部难题大数据平台都会有可能遇到,鉴于数据信息量级的发生变化,大数据平台必定还会出现新的难题。

大数据时代,企业急需建立以用户为中心的自服务大数据治理,信息梳理、数据管控、连接用户、智能化是实现自服务大数据治理的四个主要阶段,掌握一系列关键技术和技术原则,是实现自服务大数据治理的重要基础。

猜你喜欢
矿山数据库标准
2022 年3 月实施的工程建设标准
四大“矿山修复”方法
在矿山里耕耘(国画)
智能化矿山建设在中小型矿山的应用探讨
我国矿企海外十大矿山简介
忠诚的标准
美还是丑?
数据库
数据库
数据库