生产制造企业大数据分析平台技术

2020-06-11 09:26向薇
电子技术与软件工程 2020年1期
关键词:组件框架数据库

文/向薇

(长江存储科技有限责任公司 湖北省武汉市 435000)

随着工业4.0 和中国制造2025 的概念提出,如今第四次工业革命已经逐渐兴起,在此背景下,传统的生产制造产业已经无法满足时代的发展需求。为此,很多生产制造企业都开始加大对自身生产设备升级的力度,并将信息技术与智能化生产进行紧密结合,然后通过大数据技术的应用来加强企业的生产质量管理,生产工艺提升、服务效果提升等方面的管理效果和决策效果。因此,该如何充分利用大数据技术的优势,提高企业多方面管理效果和决策效果,是如今众多生产制造企业都在思考的一个重要项目内容。本文将以大数据技术为基础,介绍智能制造生产过程中所采用的大数据分析方法,以期能够为业内人士提供理论参考。

1 大数据技术的特征

在工业4.0 时代,大数据作为智能制造的重要组成部分,其是保障生产制造企业提高生产效率,控制生产缺陷成本的最好方式之一。在此背景下,大数据技术得到了良好的发展和应用,并在如今生产制造企业中表现出了以下几方面特征:

(1)体量大:随着生产制造企业的非结构性数据的日益增长,大数据技术的体量也在持续上升,甚至在某些生产制造企业中,PB级的大数据体量也已经成为了一种常态;

(2)多样性:在工业4.0 的大背景下,生产制造企业所常设的数量类型也将会越来越多样化,为能够满足生产制造企业的实际需求,大数据技术也必须要实现多样化发展;

(3)密度低:大数据技术可以在如今实用信息密度比较低的市场信息中,发掘出有利于企业发展的信息,进而帮助企业提高生产力和市场竞争力,促进企业发展:

(4)快速化:大数据技术可以实现对大量数据的实时分析,并且通过快速处理的方式转化成能够被人们所理解的信息[1]。

2 生产制造企业大数据分析平台技术框架

2.1 平台架构设计

本设计中生产制造企业大数据分析平台的整体架构家分为企业级数据库、Spark 分布式计算框架组件、Sqoop 传输组件、企业管理平台、数据储存、Hadoop 生态组件等等,具体框架架构如图1所示。

2.1.1 企业级数据库

现如今,生产制造企业常用的数据库大多都是开源数据库,这些数据库中比较常见的有MySQL,Postgresql,Oracle 等,这些数据库将会应用于生产制造企业的市场发掘、生产制造,产品销售、后期维护等方面工作的数据处理与数据管理过程中。但这些数据库从实际应用情况来看,因其缺乏有效的数据分析处理能力,因此不适合用于对生产制造企业日常所生成的数据的处理过程,只能够用作于数据信息的存储工作[2]。

2.1.2 分析型数据库

图1:大数据分析平台架构图

在本平台架构中,分析型数据库将会以企业级数据库为基础,通过Hadoop生态组件、Sqoop传输组件、Spark分布式计算框架组件、HDFS 分布式文件系统等诸多组件共同设计组成,本设计中所需要的大数据生态组件,该组件的主要功能就是提高数据库数据分析及处理的能力。其中Hadoop 生态组件是一种分布式大数据分析处理计算框架,能够有效提升数据库的数据处理和分析能力[3]。Sqoop传输组件主要作用是实现关系型数据与HDFS 分布式文件系统之间的数据实时传输工作,并且还能够在HDFS 分布式文件系统中抽取所需的数据导入到关系型数据之中。Spark 分布式计算框架组件是一种分布式、开源的计算框架,其在本构架中的主要作用便是实现对计算机集群的并行程序编写的简化工作。在实际数据处理过程中,Spark 分布式计算框架组件不仅可以有效发挥出Hadoop 生态组件对大数据的实时处理能力,还可以实现对数据库的并行集成的简化工作,从而实现启动任务、实时计算、函数式编程的实时处理等方面能力。

2.1.3 企业管理平台

一般来说,企业管理平台通常是企业信息化平台、ERP 等比较常见的生产系统平台,这些平台都需要进行二次开发设计才能够有效支持大数据平台的数据展出。而在实际大数据平台设计过程中,企业可以结合自身的实际情况来设计开发出一款有着良好实用性的Web 系统,从而实现大数据分析功能后续的企业业务分析及数据展出等功能,更好的强化本框架设计的实用性。

2.1.4 数据分析

现有的数据分析主要是针对结构化数据进行分析,并且在如今该方面内容已经有着一套较为有效的分析体系。而在本文所设计出的大数据分析平台框架则有着以下分析流程。首先通过企业级数据库来对数据内容进行储存,然后大数据分析平台则会对数据库中现有的数据信息进行分类筛选,建立数据中心,在此基础和构建出数据仓库,再根据生产制造企业对于数据内容的实际需求情况来构建出一个数据立方体进行联机分析处理。随着社会经济的不断发展,如今生产制造企业所产生的数据类型和数据量也在逐年上升,很多数据内容将会随着时间的不断推移,其数据价值也将会日趋下降。在这种情况下,为能够有效解决多类型数据的处理问题,本设计将会通过聚合类和分散类两种方式来对数据内容进行先一步的预处理,分析出所有数据内容中对生产制造企业有利的数据内容,并且保证数据内容的实效性,进而提高数据分析效果。

2.1.5 数据存储

所谓数据储存,就是指将已经经过大数据分析平台进行分析处理后的数据进行存储。当然为能够加强大数据平台分析的实际效果,生产制造企业还应该将企业经营数据和市场数据也一同存储到数据库中,以此来方便数据的实时调用,扩大数据库中数据内容的范围,增强数据的实用性和精准性。

2.1.6 分析结果展示

为能够方面人们对于数据分析结果的理解难度,本设计中的分析结果展示方式将会采用如今应用最为广泛,技术效果最为成熟的Spring MVC 可视化技术来讲大数据分析平台所得出的数据分析结果转化为易于用户理解的信息内容[4]。

2.1.7 编程语言

Python:Python 是一种解释型脚本语言,其不仅有着强大的扩张类库能力,并且还有着程序简洁清晰,易于学习的优点。在本设计中,Python 将被用于相应响应Web 应用请求过程,在Web 响应请求以后,Python 将会实现与数据库进行数据交互,然后根据业务需求的实际数据需求,对数据内容进行初次处理,并动态生成Web应用所情况的数据分析报告。

Scala:Scala 语言是一种与Java 语言相类似的编程语言,该语言在及面向对象编程和函数式编程等多种功能于一身,在本设计中,该种语言将会作为Spark 分布式计算框架组件的底层实现语言。

Java:Java 语言是如今极为常用的一种编程语言,在本平台设计中,该种语言将会被应用与Web 应用程序的开发过程中。

2.2 大数据分析理论

想要设计出一个完善的大数据分析平台框架,那么就需要在其中运用到大数据分析理论来作为理论基础。现如今比较常用地的大数据法系理论主要分为海量数据分析与数据挖掘分析两大类,而本文则会以现有的两类大数据分析理论为基础,结合国内外诸多相关研究文献理论及自身的看法,进而提出一种聚合分类的大数据分析理论,并基于该理论提出相应的大数据分析方法。该方法分析流程如图2 所示。在本文所涉及的大数据分析平台框架中,首先需要建立个数据仓库,通过该数据仓库,将可以实现对诸多异种数据源进行直接继承,然后根据所需要面向的分析主题不同,对所有异种数据进行界定划分管理,从而对后续的分析、处理、查询等工作内容提供有力的基础保障。特征提取则是根据聚合分析过程中所分析出的潜在运行模式的区别,在数据集成中寻找出与所需要的数据内容相近的数据特征。该过程一方面可以降低大数据分析模型对于分析数据的理解难度,令大数据分析平台的实际分析效果得到有效提升。另一方面则会保障大数据分析平台能够更有效的提取出生产制造企业所需要的数据内容,进而为生产制造企业提供强有力的数据支持。

另外,由于生产制造企业的数据源比较多,并且不同数据源所产品的数据也不尽相同,为能够加强大数据分析平台的实际处理效果,需要在进行实际数据处理之前,将所有数据源所产生的数据内容根据数据来源不同,采取不同的预处理办法,进而转化成为相近似的数据内容。而为了能够保证数据预处理效果,本文所采用的则是将聚合类和分散类两种类型的数据进行分析处理。其中聚合类数据需要通过现有的聚合类数据处理技术,将其分解成为诸多不同的子集集合,然后以子集集合为基础进行数据处理工作。而分散类数据则需要先建立起一个统一的数据处理模型,然后将不规则化的数据转化成为规则化的数据,然后在大数据分析平台在对这些有规划化的数据进行分析处理工作。最终对同类型的数据,将会采取同种的数据处理办法,从而分析归纳出生产制造企业可利用的数据内容,进而为生产制造企业的后续工作提供数据参考。

图2:聚合分类大数据分析算法流程图

3 结论

大数据技术作为智能制造的重要组成内容,如今我国众多科研单位和生产制造企业都给予了极大的关注和重视,并将其列为当今生产制造行业技术研发的重点研究内容。本文针对生产制造企业无法进行大规模数据分析处理问题进行相关研究,最终确立了本文中所提出的生产制造企业大数据分析平台技术框架结果,并进一步提出了框架核心算法的实现理论。不过由于本设计仅提出了大数据分析平台框架,未进行详细的设计说明,因此只能够作为生产制造企业构建大数据分析平台的理论参考,而无法应用与实际数据分析,该方面问题还需要在未来研究过程中进行有效解决。

猜你喜欢
组件框架数据库
无人机智能巡检在光伏电站组件诊断中的应用
广义框架的不相交性
新型碎边剪刀盘组件
U盾外壳组件注塑模具设计
WTO框架下
一种基于OpenStack的云应用开发框架
风起新一代光伏组件膜层:SSG纳米自清洁膜层