面向大型离散制造企业的业务大数据平台建设与应用

2022-01-10 20:13田玉梅胡君君黄纪权高盛

科技信息·学术版 2022年1期

田玉梅胡君君黄纪权高盛

摘要：离散型制造企业存在产品组成零件多、工序不连续、数据信息繁多的特点，这些数据存储在不同业务系统中，随着业务系统的增多，使得数据孤岛的现象越发严重。近年来，大型离散制造企业越来越重视业务大数据平台的建设，打破数据孤岛，实现数据互通共享，为企业创造更多有用的数据价值。本文主要通过业务大数据平台的搭建，实现了ERP、CRM、MES、PLM、SRM等业务系统数据集成，为各个业务部门的数据分析实现统一数据源。通过实现对集团中人员、产品、物流、物料等全体数据的集中采集、存储、处理、分析等，加快了数据更新的速率，减少了执行人员、管理人员的工作量，并为决策层的决策提供可靠依据。

关键词：离散制造，数据共享，业务大数据

1 背景和目的

在当今竞争越发激烈的产业环境下，为更好帮助全球制造业应对挑战，各个发达国家都提出了工业发展的战略，如德国最先提出工业4.0这个概念，这些都离不开物联网、大数据、人工智能这些先进技术。借助大数据技术实现快速准确的决策，是全球制造企业正在尝试的方向。

近几年，国内龙头制造企业借助越来越来成熟的信息技术在提高产品产量和提升质量服务方面获得了显著成效。随着信息系统的增多，国内其他大中型企业也开始意识到数据重要性，并纷纷建立了自己的大数据平台。国家电网下属的省公司、三一重工、中联中科等企业均搭建了自己的业务大数据平台，旨在通过数据的集中管理与综合分析，辅助业务部门进行业务改善、为决策层正确决策提供数据支撑。

2 业务大数据平台的关键技术

2.1 Hadoop

Hadoop[1]是以JAVA语言为基础实现的Apache[2] 的开源软件框架，可以使用简单的编程模型用以处理和分析海量数据的平台。Hadoop主要由MapReduce、HDFS、HBase、Hive等核心组件组成，使该框架具有可靠、高效、可伸缩的特点[3]。该框架的可靠性主要体现在它可对存储或计算失败的数据重新分布处理。它的高效性体现在其采用了数据并行处理方式，相较于传统的数据处理方式具有较快的处理速度，过程更加高效。Hadoop还具有可伸缩性，能够处理PB级数据，可对大型数据集进行分布式处理，从而通过在多个数据块之间利用“分而治之”的方法来消除数据上限。

2.2 HDFS

HDFS是分布式文件系统的简称，是Hadoop架构的底部基础，它的上一层是MapReduce引擎[4]。HDFS的数据分布并行处理方式使其具有可靠性、容错性、易扩展等特点。HDFS是以M/S（主从）模式运行的，由NameNode、SecondaryNameNode 和 DataNode三个组件组成，它们在集群上是按照1：1：N的比例组成。其中，Master上运行的节点由NameNode和SecondaryNameNode各一个组成，Slave上运行的节点则是由单种类节点DataNode多个组成。NameNode能够对文件的元数据信息、文件命名、客户端对文件进行访问等数据进行管理。SecondaryNameNode能够对NameNode上的edits 和 fsimage 文件定期合并并进行处理。DataNode是负责对数据进行删除、存储等处理的存储单元。

2.3 MapReduce

MapReduce是Hadoop框架组成部分，与HDFS共同组成Hadoop体系结构的核心[5]。其对数据的处理遵循分而治之的原则，在工作过程中将数据拆分到不同的计算机中，加快服务器对数据的访问和处理，在可扩展的方式下能对超过TB级的数据进行处理。MapReduce主要由Map（映射）和Reduce（规约）两部分组成。在工作过程中，程序会将输入的文件拆分成多个splits，map task将会对每个splits逐一处理，并将结果输出到缓冲区shuffle中。map task任务完成之后，在Reduce任务启动之前，线程会将每个map结果拉取到相应的reduce task中进行合并，最终将所有的reduce task任务合并在一起，由Reduce输出。

2.4 HIVE

HIVE是以Java语言为基础的Apache构建，是Hadoopd的一个数据仓工具。相较于Hadoopd，直接使用HIVE的开发难度和学习成本都相对较低。HIVE由用户接口、元数据存储和解释器、编译器等组件组成，可对数据进行提取、转换和加载等操作。并通过使用类SQL语言就可在Hadoopd上进行存储、查询、分析等操作。其中用户接口提供实现命令行、JAVA实现、瀏览器访问HIVE的功能。元数据存储提供元数据存储到数据库的功能。解释器、编译器等实现查询语句的词法分析、存储、调用等功能。

3 研究内容与技术架构

3.1 研究内容

业务大数据平台本着实现数据共享的设计理念，意在将集团分散在ERP、CRM、MES、PLM、SRM等业务系统内的订单、财务、物料、客户、采购、库存等数据进行集中管理与分析，为各业务人员在做数据分析时提供统一的数据源。为实现以上目的，本文将从以下几个方面进行研究：（1）;完成业务大数据平台的搭建;（2）实现数据集成、清洗、整理、计算、存储等功能;（3）实现数据可视化。目前大数据平台按照业务场景分为财务、供应链、质量、人力资源、服务等业务板块来进行数据处理并实现各板块数据可视化功能。

3.2 技术架构

业务大数据平台基于互联网技术进行构建，其系统功能架构如图1所示。平台采用开源hadoop的生态系统作为大数据基础平台底座，提供大数据处理的全生命周期配套组件，可根据业务场景，如财务、供应链、质量、人力资源、服务等业务场景实现数据分析与应用服务。上层交互采用springboot+react实现前后端交付服务，实现后台一套代码可应用到不同的可视化端。并且提供了组件mysql/es/redis/minio等，解决了主从架构存在数据不一致的问题。

3.2.1 数据集成

数据集成作为底层基础支撑性服务，是大数据平台的核心功能之一[6]。通过数据接入工具将集团结构化和非结构化的数据进行集成，并为业务大数据平台提供原始数据支撑。在据集成过程中数据源可以是公司内部的业务信息系统数据库，也可以是外部的WEB网页。并且在配置抽取方法时，也可按照业务的应用场景来选择抽取方式和抽取时间。目前抽取方式分为全量抽取和增量抽取，抽取时间分为实时抽取和定时抽取。

3.2.2 数据存储

数据存储作为数据采集的上层功能，为数据分析共享提供支撑，也是大数据平台的核心功能[7]。数据存储需要满足对结构化数据、非结构化数据和半结构化数据的统一存储和查询的需求。在数据存储层中通过数据仓四层架构和建立事实表、维度表等方式对数据进行整理和存储。文中大数据平台的数仓四层架构主要是包括ODS、DWD、DWS、ADS四层模型有，以及数仓DIM维度建模。

3.2.3 数据开发

数据开发是将集成数据作为原始数据来获取有价值的信息，即将数据转化为信息的过程。这个过程主要是将各种结构数据按照业务需求进行加工处理，其过程主要包括加工、分类、归并、计算、排序等一系列演变与推导过程[8]。数据开发要结合具体的业务场景进行，比如财务、质量、服务等不同业务场景的开发应用。

3.2.4 数据分析

数据分析作为业务大数据平台提供数据深度挖掘和分析服务的核心功能，利用分布式存储和并行计算框架，结合多种分布式计算引擎，对各类结构化、半结构化及非结构化的信息资源进行快速的分布式计算。在数据分析中要根据具体业务点进行，例如，在服务板块中就可以按照产品月度服务满意度、产品年度满意服务度等具体点进行数据开发。

3.2.5 数据呈现

数据呈现即使数据可视化，可视化是对结合业务场景进行数据整理的最终应用。该模块可根据用户的层级和部门业务类型来分配查看相应的可视化数据，帮助用户了解当前业务的运营情况，从而作出更精准的预测和判断。数据呈现可以在PC端、移动端以图表呈现、报表推送等形式进行展示。

4 实践应用

业务大数据平台搭建后，可应用日常工作和日常管理的方方面面，基于本平台搭建后的相关实践经验，将对部分应用场景进行介绍。

4.1 业务应用

4.1.1 员工职业全生命周期

员工信息数据通过业务大数据平台进行数据可视化分析展示，图3中（1）图从人员数量、男女比例、学历分布、层级比例等显示了不同系统的人员整体情况。其余三个图则是从每个员工的个人详细情况进行呈现，全方位展示每个员工从入职到离职的信息，包括人员基本信息、教育、薪资社保、培训、资产等。

4.1.2 产品生产制造全生命周期

在跟进产品全生命周期时，通过根据产品类型和销售属性分不同界面显示每台产品从市场到回款不同时间节点的进度完成情况。并且在详细界面以每台设备为基础对其每个时间节点进行详细描述。以产品DZXXX为例，可在市场节点中查询该产品合同信息，包括项目名称、客户名称等详细信息。在物资采购节点可查询该节点计划进行时间和实际进行时间，以及不同物料属性的签约率和到货率。解决了业务人员需要在不同业务系统查询不同节点的信息的问题，统一了数据来源，降低了时间成本，减少了工作量，避免了数据人工统计出错，帮助业务人员从整体到局部全方位把控生产进度，提高了工作效率。产品生产制造整体进度情况如4所示，产品生产制造进度详细内容如图5所示。

4.1.3 指挥监控中心

根据业务类型制作不同的可视化监控大屏，本文将主要从经营、生产、服务三个业务板块进行介绍。经营计划板块，从客户分布的地图显示可直接看出客户各地分布集中情况，客户分类汇总中可看出公司产品主要面向的客户行业以及项目进度监控可了解到某台产品的整体进度概况。生产制造板块，主要显示了工位的使用情况，以及设备的利用率和生产人员分布情况的分析。售后服务板块，主要分析内容为每种产品派工次数、产品的分布情况，服务人员调度信息，服务达成率，以及服务满意度等内容。

4.2 成效分析

4.2.1 经济效益分析

业务大数据平台的搭建，改变了公司员工传统的数据统计分析方式，减少工作量，保证了数据统一性，提升了工作效率，减少人力物力和生产成本输出。具体体现在：一是员工不需要再去各个业务系统里下载业务需求的数据再线下人工进行统计分析，只需将工作中涉及到的业务系统和业务指标计算逻辑提供给大数据人员即可;二是业务大数据平台可对其他业务系统进行集成，抽取目标业务数据，规范了数据源，减少了不同部分由于系统不相通而造成的数据偏差，保持了数据统一性;三是利用机器学习对业务的历史数据进行学习挖掘，如对物料的采购、库存情况进行分析预测，减少物料呆滞，降低生产成本。

4.2.2 时间效益分析

面对离散分布在各业务系统的海量数据，传统的处理方式需要在不同的业务系统中进行运算再合并，需要耗费大量的时间，而业务大数据平台可以将这些业务数据快速集成运算，减少了计算的时间消耗。

5 总结与展望

5.1 研究创新

业务大数据平台，依据企业关于业务服务的个性化要求，实现了数据集中处理，规范化了产品离散制造数据来源，提高了企业产品制造和服务的管理水平，为公司不同层级的员工提供了高效的运行服务管理平台。

（1）基于Hadoop平台搭建集团数据仓库，进行结构化、非结构化数据管理。当进行业务数据集成时，会面对各种不同的数据源，如结构化数据源Hive、MySQL、SQL、Server、PostgreSQL、Oracle、DB2L等，和非结构化数据源Mongodb等。本平台的搭建可以各种数据源类型的业务平台进行数据抽取，打破了各业务系统数据壁垒的现象，实现了数据共享，为业务部门的数据调用规范了数据来源，提高了數据利用率，促进了各业务系统数据治理的进度。

（2）将机器学习算法应用于业务分析及预测。根据收集来的不同数据源的信息，利用机器算法对数据进行价值挖掘，对业务的发展进行预测。

（3）全流程数据链路可视化管理。通过业务大数据平台可视化模块实现报表设计功能与报表管理功能，在报表设计模块中，配置数据源实现从大数据平台数据仓库中获取数据，进行统计分析，以图表形式在浏览器中实现可视化展示。同时根据公司员工的业务部门以及层级对报表进行权限控制，保证报表资源安全管控，帮助业务人员在日常工作中实现全流程数据链路可视化的管理。

5.2 不足与展望

本文中的业务大数据平台已建设完成，但实际应用还处在初期。目前已完成数据集成进行业务数据分析，但是数据的更深层次价值的挖掘还有待我们进步一步研究。

参考文献：

[1]李建平.Hadoop大数据计算平台搭建实践[J].中国无线电，2021（04）：98-101.

[2]李学龙，龚海刚.大数据系统综述[J].中国科学：信息科学，2015，45（01）：1-44.

[3]李晓晴.大数据平台技术分析[J].信息记录材料，2021，22（01）：117-118.

[4]员青泽.人工智能大数据平台及应用分析[J].电脑知识与技术，2020，16（26）：171-172+175.

[5]李晓东，叶思水.基于Hadoop的高可靠分布式计算平台的构建[J].北京电子科技学院学报，2014，22（02）：25-29.

[6]顾军华，官磊，张建，高星，张素琪.基于Hadoop的IPTV隐式评分模型[J].计算机应用，2017，37（11）：3188-3193.