工业大数据软件架构及核心构件

2019-11-29 07:28
软件和集成电路 2019年9期
关键词:清华数据库工业

第四次工业革命来袭,大数据成为关键支撑手段,而清华数为大数据软件栈可以通过高通量时序数据管理,实现高效的数据持久化,实现面向工业设备的数据一体化管理。

——清华大学大数据系统软件国家工程实验室总工、副研究员王晨

今天我演讲的题目是《工业大数据软件架构及核心构件》。大数据的重要性不用多言,刚才演讲嘉宾的PPT里有一张架构图,也展现了工业互联网大系统。

首先我们看看大数据是什么?我们总会说是因为它大,所以叫大数据。以前我们也有很多数据,通过PDM系统、MASS数据库以及ERP数据库进行研发数据的管理。今天为什么叫大数据时代?我们将数据领域分成了三个域,与传统的做法有所不同。

第一是工业信息化域。我们有工业信息化系统,将SAE的数据放入PDM的系统进行存储与管理,这些数据大多数是非结构化数据。

第二是制造域。在制造过程中,会产生很多机器设备的数据。这些数据从哪里来?其实是从传感器上来,我们去采集了这些数据。这些数据以前存储在哪里?有两种方式:如果资金充足,可以购买实时数据库,像电力、冶金、石化等行业,他们本身是工业信息系统的一部分;但更多的是采用工业数据快速存储的方式,用来进行数据回放和展示。

第三是工业互联网域。如今的数据是各种数据的融合,包括产业上下游数据、客户数据、环境数据、气象数据等。工业互联网需要跨界,需要工业化和信息化融合。从数据维度看,不同的数据在不同的系统里,比如自动化数据就在自动化系统里,如果将这些数据放在一起,会产生什么样的化学反应呢?这是我们要考虑的第一个维度。

第二个维度是什么?我们把边界之外和边界之内的数据放在一起,又会发生什么?这是工业互联网的两化融合,我们把一些小数据变成了大数据,形态各异。无论是工业大数据也好,还是工业互联网也好,都要把关注点放在大数据上。我们解读工业大数据特性的时候,发现了不同之处。清华建了一个中心泵,大概是135个类别,以CAD数据为例,软件不同则格式不同,不同版本也不一样。我们认为这是非结构化的数据,但尝试打开的时候,发现里面都是结构化的数据。比如仿真数据,都是一个个独立的文件,当尝试打开文件的时候,里面其实是一些在控制条件下产生的时间序列,除了各种参数就是各类三维图。

其次存在的问题是数据量大。例如金风科技的数据量是500GB,而且这些数据有一个明显的特点,就是不会断。只要设备在运转,就有设备传回数据,所以是一天24小时不间断产生数据。如果机械停了,数據就会乱序、断码,或者丢失、重传,相当复杂。

更重要的是数据关联性。在我所学的专业中,可以用一个系统将数据连接起来。工业里的连接很复杂,比如离散制造业,在一个制造流程里,用不同的工序去连接,物料的流转是有时间差异的。在航空航天中,有一种多学科的映射关联。淘宝推荐的购物,跟浏览的商品非常相似,但是我们不知道为什么相似。我们要根据因果分析,找到原因所在。本身工业设备的结构设计是有机理的,要利用图纸去做推断,因为人、机、料有很多不确定性。我们依据一些正向机理反射出关联关系,交给业务专家来确定他们之间的因果关系,从而完成整个建模过程。因此工业大数据和我们传统看到的大数据差异是非常大的。

下面讲一下智能制造,工业大数据在其中扮演了很关键的技术角色。智能制造这个词从哪里来?如果钢板表面不平整,这时有个调整工人,推断哪个环节出了问题,去调整,这就是迭代过程。有没有办法来替代这个人?只有自动化可以做到。离散制造业从业人员根据运维数据去判断要解决哪种设备故障问题,正向设计也是靠人的经验,靠有限经验去猜测和尝试很多东西,过程中完全缺少数据的连接。我们最终希望打造一个数字孪生的世界,但是这条路很长,如今我们能够把数字化做好就已经很好了,我们能否走到正向推理模型的那一步,还是一个未知数。

清华研发了数为大数据软件栈,希望可以通过自己的技术来解决诸多问题与挑战,同时又能很好地与大数据生态做对接。它与传统的数据库相比,要求很快的写入速度、很强的查询能力,又要满足惯性数据库的能力。为了做出前端采集的一站式方案,我们研发了数为大数据软件栈,这成为了中国高校唯一一个在Apache的项目,是我与清华的团队共同做了4年的成果。我们在端上进行所有文件的存储,并将同样的文件开放给Hadoop平台。我们现在有18项国内授权专利,发表了比较高水平的学术论文。

很多典型的工业场景和模式,可以表现成某种具体的形态,比如将故障模式表达成什么值大于某数值、什么值小于某数值,或者将这种故障模式注册在流引擎上,把数据匹配出来。我们可以使用类似这样的数据,首先从工业需求出发,再考虑如何用技术解决相应的问题。我们现在可以做到每秒600次的写入速度,查询速度也很快。我们针对异构数据做了通用关联方案,对底层几种数据进行了连接,其实所有数据的关联都可以通过一体化的查询模式来完成。

(根据演讲内容整理,未经本人审核)

猜你喜欢
清华数据库工业
Notes
是心动啊,糟糕,躲不掉雪中的清华路156号
孙清华作品
数据库
数据库
清华院系手机背景图
数据库
数据库
掌握4大工业元素,一秒变工业风!
工业技术