基于Hadoop平台的深部矿产大数据平行化处理研究

2019-12-30 01:38秦飞龙成和平成亚丽周昕悦胡涵劲
成都工业学院学报 2019年4期
关键词:矿产资源大数据

秦飞龙 成和平 成亚丽 周昕悦 胡涵劲

摘要:合理的数学地质方法模型可以预测到深部矿产资源富集位置,矿产资源数据格式多样,传统的方法难以进行有效处理,并且处理方式大多基于單机上进行,处理速度慢。因此,建立大数据分布式并行化Hadoop平台,对实际矿产资源数据进行分布式并行化处理,结果发现在Hadoop平台下不仅能够完成各类数据处理,并且处理速度为单机串行算法处理速度的2 400倍,提高了数据处理有效率,有利于矿产预测。

关键词:Hadoop平台;并行化;矿产资源;大数据

中图分类号:P628文献标志码:A

文章编号:2095-5383(2019)04-0050-05

Research on the Parallel Processing of Big Data of

Deep Mineral Resources based on the Hadoop Platform

QIN Feilong, CHEN Heping, CHEN Yali, ZHOU Xinyue, HU Hanjin

(School of Big Data and Artificial Intelligence, Chengdu Technological University, Chengdu 611730, China)

Abstract:The enrichment location of deep mineral resources can be predicted though establishing a reasonable method with mathematical geological method. However, traditional methods are difficult to deal with the data of mineral resources because the formats of it are various. Besides, the processing methods are mostly based on single computer, which results in slow processing speed. Therefore, a big data platform named Hadoop platform which has the distributed and parallel processing functions was established in this paper. At lastly, the platform was used for the actual data of mineral resources, and the results show that the platform not only can process the different types of data, but also the processing speed is 2 400 times faster than the serial algorithm in single-computer. So, the platform can improve the efficiency of data processing, which is advantageous to mineral prediction.

Keywords:Hadoop platform; parallelization; mineral resources; big data

矿产是国家向前发展的重要能源基础。然而,随着人们对矿产资源不断开采、过度索取,地球表面及浅部矿产将近枯竭,以至人们越来越难以发现矿产、识别矿产、利用矿产,矿产勘探面临“三难”问题[1]。向地球第二空间(地球表面500 m以下)寻求深部矿产已成为目前找矿的热点[2]。近年来人们不断进行深部矿产预测研究以此诞生了众多找矿方法,主要集中为地球化学找矿方法[3-4]、地球物理找矿方法[5-6]、遥感技术找矿方法[7-8]。这些成果的不断积累,为我国预测深部盲矿提供了宝贵经验。然而矿产资源成矿极具复杂性,应用各种方法预测矿产资源时,依据的地质数据量较大,数据种类繁多,如非结构化数据、结构化数据、半结构化数据等[9],难以进行统一处理,即使能处理,处理速度慢,效率也极低[10],从而需要对各类型地质数据进行分布式并行化处理,基于地质大数据的高性能并行计算平台能够以高扩展性、高容错性、高效性、高可靠性地完成数据的处理和分析,尤其是分布式Hadoop平台能够让用户轻松架构和使用,对不同类型的地质大数据数进行高效化,分布式处理、有效解决上述问题[11]。本文以矿产资源数据为背景,构建矿产资源大数据分布式并行化平台,进行矿产资源数据处理。

1 矿产资源大数据Hadoop平台

Hadoop是Aapche公司为大数处理设计的一个开源项目,具有分布大数据并行式计算,大数据分布式存储(数据量为GB~PB)、可扩展性、高效率、高可靠性等特征[12]。目前,有3种模式进行Hadoop平台搭建:单机模式,伪分布模式以及全分布模式。单机用于调试MapReduce程序,伪分布模式在单机情况下增加了代码调试和HDFS分布存储,全分布模式则通过集群进行分布式存储和高性能并行计算。结合矿产资源数据属性,本文设计的矿产资源大数据Hadoop平台主要包括应用层、处理层、资源层模块,见图1,该平台能支持每秒1 000条数据插入,支持亿条级数据存储和管理。矿产资源数据主要通过MapReduce进行高性能并行化计算,通过HDFS完成分布公式存储。其中,MapReduce主要有Map和Reduce的两个阶段工作程序,首先将矿产资源数分解成若干小块数据,对各小块数据使用Map处理,再对Map处理的数据结果进行归并,在此基础上采用Reduce对归并后的数据进行处理,将所得结果输出到相应目录文件中。HDFS利用Master/Slave结构形式进行数据控制,它有多个数据节点Data Node和共用名字节点Name Node组成。名字节点对数据进行统一分配,映射各类数据到相应的数据节点上,可以进行打开、创建、重命名、删除文件等工作,数据节点负责处理数据的读写请求,定时为名字节点上报数据。

2 算法并行改造

由于矿产资源数据处理算法种类较多,因此本文选取主成分算法进行研究[13],其他矿产资源数据处理算法作类似处理即可,设矿产資源原始数据X′=(xij)mn,并行化改造步骤如下:

为变量。再将结果存入文件TF5中进行输出。从而矿产资源数据并行化处理手段为:

1)数据准备,不同类型的地质数据均可接入;

2)数据在Hadoop平台HDFS下实施分布式处理,客户端对Name Node发出数据写入的要求,并将数据分解为多个小块,依次将各小块数据分配到各个数据节点Data Node中;

3)在各个节点Data Node上,用户编写Map数据处理算法函数,并确定运行的相关参数,输入和输出的路径,并将目标数据分解为大小相等的若干小块,方便多个Map同时操作,各个Map函数处理一个节点Data Node上的数据。数据的输入和输出将存储在文件系统中;

4)Map函数对输入的数据键值进行处理,然后生成一组新的键值,两组

键值可能会有差异,对于Map中相同的值归为一类,再传输给Reduce进行处理,将处理结果进行输出;

5)客户端再对HDFS上的Name Node发起数据读取的请求,从而Name Node将存储的数据信息返回给客户端,进而读取Name Node上的数据,流程详见图2。

3 实际数据处理

为体现设计的矿产资源大数据分布式并行化Hadoop平台处理效果,将其进行数据处理研究。数据来源于湖北省大冶市铜绿山20万水系数据,选取其中的Au、Ag、Cu

元素含量进行主成分析研究,主成分可以提取地质变量的综合信息,有利于地质评价。通过大数据平台计算得出元素的主成分结果如表1所示,特征向量见式(3)。

由表1可知,前2个主成分的特征值累计贡献率为0.90>0.85,从而选取前两个主成分就能满足要求。通过式(3)可以评价出第一主成分Ag、Cu

利用分形算法[14-15]结合Hadoop平台得出

Au、Ag、Cu 3种元素异常下限值分别4.50、44.73、30.86,从而得出

元素含量异常分带(见图3)和第一,二主成分综合异常分带(见图4)。由图3、图4可知,第一主成分异常分带区域综合反映了单元素异常含量分带区域,第二主成分异常分带区域综合反映了单元素异常含量分带区域,与主成分评价结果吻合,从而设计的大数据矿产数据处理平台具有合理性。

将矿产资源大数据分布式并行化Hadoop平台与单机串行处理时间进行加速比对比分析(加速比指的是大数据平台处理相同数据与单机串行处理形同数据所用时间比),随着数据量越大,平台处理速度较串行处理速度越快,当数据量达到20万个数据时,处理速度为串行的2 400倍,见图5。

4 结论

本文以矿产资源数据为背景设计了矿产资源大数据分布式并行化Hadoop平台,具有如下结论:

1)设计了深部矿产资源大数据分布式并行化Hadoop平台,并在平台中将矿产资源处理算法进行并行化改造,具有国内先进处理水平;

2)大数据平台对实际矿产资源数据能够进行合理处理,利用分形算法和主成分方法提取的综合异常区域与主成分评价结果完全吻合;

3)大数据并行化处理平台比单机串行处理矿产资源数据速度更快,数据越大,效率越高,当数据量达到20万时,处理速度是单机的2 400倍。

参考文献:

[1]赵鹏大. 成矿定量预测与深部找矿[J]. 地学前缘, 2007, 14(5): 1-10.

[2]秦飞龙. 原生晕地球化学和岩心高光谱粗糙集耦合建模与深部矿产预测研究[D]. 成都: 成都理工大学, 2017.

[3]CHENG Q M. Singularity analysis of magmatic flare-ups caused by India-Asia collisions  [J].Journal of  Geochemical Exploration, 2018, 189: 25-31.

[4]QIN F L, LIU B L, GUO K. Using EVT for geological anomaly design and its application in identifying anomalies in mining areas [J]. Mathematical Problems in Engineering, 2016: 1-11.

[5]QIN F L, LIU J, YAN W Y. The improved ICA algorithm and its application in the seismic data denoising [J]. Journal of Chongqing University (English Edition), 2018, 17(4): 162-170.

[6]李玉录, 邢利娟, 拜占红, 等. 综合物探方法在青海省跃进山铁矿勘查中的应用[J]. 物探与化探, 2018, 42(5): 889-895.

[7]刘原麟, 马嘉翌, 潘蔚. 高光谱岩心扫描数据库及其应用软件的设计与实现[J]. 铀矿地质, 2018, 34(3): 186-192.

[8]卢燕. 高光谱矿物填图技术在金属矿产和油气勘查中的应用研究[D]. 北京: 中国地质大学, 2018.

[9]吴永亮, 贾志杰, 陈建平. 基于大数据智能的找矿模型构建与预测[J]. 中国矿业, 2017, 26(9): 79-84.

[10]王亮. 地质调查信息化中大数据平台研究[D]. 武汉: 长江大学, 2014.

[11]任晓霞, 喻孟良, 张鸣之, 等. 基于Hadoop分布式系统的地质环境大数据框架探讨[J]. 中国地质灾害与防治学报, 2018, 29(1): 130-134,142.

[12]何迪. 基于Hadoop的大数据网络安全实体识别方法[J]. 电子技术与软件工程, 2019(5): 204.

[13]朱家明, 程倩倩, 朱海龙. 基于主成分分析法土地储备风险的定量评估[J]. 成都工业学院学报, 2015, 18(1): 22-25.

[14]秦飞龙, 刘剑, 李琦, 等. 分线性方法C-A在地球化学异常提取中的研究[J].云南化工, 2018, 45(2): 84-85.

[15]秦飞龙, 王茜. 多种地球化学异常算法对比研究及其应用[J]. 科技展望, 2016, 26(24): 178.

收稿日期:2019-04-20

基金项目:四川省科技厅计划项目(2019YJ0375);成都工业学院博士基金项目(2018RC022);数学地质四川省重点实验室开放基金资助项目(scsxdz2018yb03);成都工业学院实验室开放基金项目(2018ZH10)

第一作者简介:秦飞龙(1983—),男,讲师,博士,研究方向:数学地质。

通信作者简介:成和平(1964—),男,教授,硕士,研究方向:应用数学,电子邮箱:820948193@qq.com。

猜你喜欢
矿产资源大数据
承包地上发现铁矿石,所有权应归谁
我国矿产资源领域“走出去”现状与形势分析
简论当前职务犯罪现状及预防对策
宁夏自然资源资产证券化的可行性分析
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
从供给与需求看国家矿产资源安全的影响因素