数据质量监控系统的构建

2019-10-09 05:48冉冉刘颖刘为胡非
电子技术与软件工程 2019年17期
关键词:数据源完整性逻辑

文/冉冉 刘颖 刘为 胡非

数据质量监控系统是测度质量以及整合数据的方法等一套处理准则,而数据传输数量庞大、运行速度快和数据类型多样化的特点,决定了大数据质量监控所需的系统构建方式有别于传统信息系统的质量监控系统,需要进行全方位的革新。

1 系统实现的硬件环境

系统硬件应尽量选择高性价比的设备,尽量节省开销,在实现系统功能的前提下,能对系统的功能实现提供扎实的基础,提高监控系统平均性能(即启动延迟时间、峰值负荷等)及目标平均负荷(即用户总量、处理信息量等)。

系统硬件设备的选择如表1所示。

2 系统实现的软件环境

数据监控软件主要面向数据管理人员,便于其实施信息监控。为了减轻数据管理人员的操作负担,也为了方便非专业的管理层领导进行决策,指挥数据运营,软件应当尽量操作简便、界面友好和易于调控。对数据质量的检测软件,采用开放式式的管理思维,借助大数据运营的分流管理模式,对流经系统的数据质量进行关联和参数设置,形成对数据完整、逻辑、准确和规范等检测过程 ,通过阶段性的扩展和Limit限制,形成最终的数据质量监测日志。

本软件设计借助的是中国联通开发的TWONET开发云平台,平台能够帮助软件开发者轻松实现设备接入与设备连接,提供多线程功能模块,实现软件开发的简易化。本数据质量监控系统软件的功能模块设计如图1所示。

表1:数据质量监控系统硬件组成

表2:系统测试实验结果

2.1 数据完整性监控模块

完整性包括实体完整性、引用完整性和域完整性。

(1)实体完整性要求每一个数据唯一属性必须是完整的。

(2)引用完整性要求不同相关性之间的引用关系必须完整。

(3)域完整性要求某一列的数据在合法的范围内保持完整。

该模块实现对内核数据不变量(除第一类静态不变量外)的监控,通过周期性的验证动态不变量和第二类静态不变量的是否符与标准不变量一致,判断当前内核数据不变量是否被破坏,从而实现对数据完整性的监控。

2.2 逻辑一致性监控模块

数据的逻辑一致性包括:

(1)上下游数据栈间对接的数据逻辑结构保持一致;

(2)上下游数据栈间对接的数据属性内容保持一致;

(3)上下游数据栈间对接的数据属性描述、口径保持一致。检测逻辑一致性的程序设计中应用的属于Expara 参数设置。监控系统此模块需设计一个线程,实时检测数据中继器的连接请求,验证通过后,开启数据接收线程,实时接收数据库。根据逻辑类型处理数据并将结果存储于系统检测结果中,供远程使用者实时在界面中监测。

图1:监控软件系统结构设计

2.3 数据准确性监控模块

数据准确性监控模块主要对数据真值、数据文件表与属性分类真值范围的符合程度进行监控,如项目管理中描述业务结果的定量数据属性的值、计量单位、计算指标要正确。多数据源的监控有两种方式:针对每个数据源定制实现一部分准确性逻辑,也可以通过实用化任务将多数据源中的数据结果通过任务写入一个数据源中,再对该数据源进行监控实时数据监控:区别在于扫描周期的不同,因此在设计的时候可以先以离线为主,但是尽量预留好算法监控的设计。算法异常数据放到一张结果表中,再在上面配置简单的告警规则即可。对关键数据从原始指标直接开始计算结果,和日常的结果表做数据对比,发现不同则发出预警信号。这种方式也可以理解为是数据之间的审计对账。

2.4 数据规范性监控模块

数据质量的规范检查功能自带的规范类型非常多,包括:身份证、手机号码、邮箱、邮政编码、固定电话、Ipv4地址、Ipv6地址、Mac地址、纯中文、纯英文、数值、日期、长度范围等。不同环境和用户对安全具有不同的需求,如果使用统一的监控标准虽然降低了监控机制实现的难度,但却可能给低安全性需求用户带来不必要的安全开销。我们可以修改系统自带的类型,在资源管理器中的root/products/edq/rule//standardConfig.xml中修改自带类型的正则表达式,重启服务器后生效。

3 系统功能运行测试

根据实验室现有条件,对阿里云的I/O数据库进行两种不同方式的篡改。运用传统数据质量监控系统和本文构建的系统分别对其进行质量监控。若系统反馈出现异常报告,则证明成功实现了对该数据库监控;否则,说明数据质量监控失败。实验结果如表2所示。

PLCHash 表和任务链表都是内核中的动态数据结构,根据上述测试结果可知传统数据质量监控系统无法发挥作用,相比之下本文构建的数据质量监控系统具有优越性与实用性。

4 结束语

数据质量是数据资源建设、数据应用建设和运营决策的关键因素,可通过完善部门间衔接和协调,加强组织架构和管理流程,严格按照标准或考核指标执行,确保数据质量方能将数据的商业价值最大化,进而提升我国数据管理领域的核心竞争力和保持经济的可持续发展。随着时代发展,数据并发量逐渐增大,各种系统交互更加频繁,该数据监控系统的应用也会向其他管理平台拓展。如何保证数据的实时性监控、提高监控信息交互的效率,将是下一步需要着重研究解决的问题。

猜你喜欢
数据源完整性逻辑
刑事印证证明准确达成的逻辑反思
稠油热采水泥环完整性研究
逻辑
创新的逻辑
Web 大数据系统数据源选择*
莫断音动听 且惜意传情——论音乐作品“完整性欣赏”的意义
基于不同网络数据源的期刊评价研究
精子DNA完整性损伤的发生机制及诊断治疗
基于真值发现的冲突数据源质量评价算法
桩身完整性检测中缺陷的综合判别