基于大数据的元素协变图自动绘制软件的设计与实现

2021-03-05 06:07方思源董少春
高校地质学报 2021年1期
关键词:演化过程岩浆线性

方思源,董少春,胡 欢

南京大学 地球科学与工程学院,南京 210023

1 前言

近年来,基础地质数据表现出了爆炸性增长的态势,复杂且大量的地质数据开始被系统性的积累整合,形成了具有相当规模的大数据集,地球科学从一个数据匮乏的时代逐步迈入大数据时代(Guo et al.,2017;吴冲龙等,2018;董少春等,2019)。地球科学大数据巨大的信息量改变了地球科学研究的方法、思路和理论,提供了多样化的数据挖掘手段和知识发现途径(翟明国等,2018;Karpatne et al.,2019)。地球科学大数据分析更加注重挖掘和分析数据之间隐藏的内在联系与特征,以数据驱动来发现规律,解释现象,探求问题,减少了主观经验上的人为干扰(张旗等,2015;张旗和周永章,2017;张旗等,2018;周永章等,2018;罗建民和张旗,2019)。地球科学大数据的处理也给地学研究带来了新的挑战。大数据的处理通常离不开超级计算机、云计算、并行计算等计算机技术的支撑(Wyborn and Evans,2015;廖湘科等,2016)。但是由于缺乏适合于地球科学大数据的专门算法、模型和软件,因此难以对大规模数据集进行快速、有效的处理,一定程度上限制了地球科学大数据的应用发展。因此,根据大数据的特点和数据处理需求开发适合地球科学大数据的处理、分析和可视化算法、模型或软件势在必行。

以岩石地球化学研究为例,元素协变图(Element Variation Diagram)常被用来研究元素之间的相关关系,对岩浆演化和不同构造背景下元素的地球化学行为进行分析。元素协变图清晰、直观地展现了元素在岩浆演化过程中的变化趋势,结合地质构造背景等信息可以帮助分析不同地质过程对元素地球化学行为的影响以及成矿元素的时空分布规律性等问题,为揭示成矿元素的富集成矿规律,指出找矿的区域构造方向等提供依据(王登红等,2015;蒲东,2019;罗建民等,2019;周永章等,2019)。

元素协变图通常基于数据值在全值域采用单一的线性或非线性函数模型进行拟合,生成趋势线来揭示元素的地球化学行为特征。但由于采用单一函数模型拟合整个岩浆演化过程中元素的变化趋势,忽略了岩浆演化不同阶段元素地球化学行为特征的差异性。当数据集较小时,这种差异性可能表现得并不明显;而大数据支撑下的元素地球化学行为特征在不同阶段的差异性可能非常明显。如果仍然采用单一的函数进行拟合,势必掩盖掉这种差异性,从而忽略了重要的演化特征,难以真实反映演化趋势。因此分段拟合趋势线的思路更符合大数据支撑下元素协变图的绘制和分析。

本文以元素协变图为例,从地球科学大数据的角度出发,针对元素在岩浆演化中的变化特点,突破传统函数理论模型的限制,采用积分学中“穷竭法”的思路,设计了一个针对元素行为趋势研究的多区间线性回归拟合模型,并基于此模型开发出一款基于岩石地球化学大数据分析元素在岩浆演化过程中地球化学行为的可视化软件。利用该软件,我们对GEOROC数据库中的地球化学元素进行数据处理,基于大规模地球化学数据集生成不同构造背景下的元素协变图,以进行地球化学行为的分析。

2 方法原理

2.1 元素协变图

元素协变图通过数字化的方式将样品数据中元素含量(或比值)设为横纵坐标,绘制成二元或三元平面散点图。其中,哈克图解(Harker diagram)(Harker,1909)是最有代表性的元素协变图之一。因为随着岩浆演化的进行,通常SiO2含量升高,所以常将SiO2含量设为元素协变图的横坐标以指示岩浆演化的方向,并将其他主要元素的氧化物含量设为纵坐标,由此分析岩浆演化过程中主要元素含量的变化趋势以及判断不同矿物分离结晶对元素变化的影响。随着研究的不断深入,元素协变图不再局限于分析主要元素的氧化物,而是扩展到了微量元素含量、元素比、同位素比值等地球化学参数。通过元素协变图分析,一些元素(组合)、元素之间的相互关系等趋势特征可以作为“指纹元素”,在判别各类岩石成因、构造背景、演化阶段上具有良好的指示作用(Green,1995;李永军等,2015)。

2.2 穷竭法的区间划分

古希腊数学家欧多克斯最先创立了“穷竭法”(Method of Exhaustion)的思想,后来由欧几里得将其成果收入到《几何原本》中,阿基米德对其进行了进一步完善,最后被引用于积分思想中(邵明湖,1990)。近现代“穷竭法”在经过不断的完善改良后,经常被用于求取平面坐标中一些由曲线围成的面积。其基本思路是:通过沿X轴做切割,将X轴平均划分成n个区间段,在区间内近似的认为曲线是水平不变的,因此可以将其看成n个矩形。每一区间段中点对应的函数值代表了矩形的高,依次计算每个矩形的面积S1+S2+…+Sn,则这些矩形的面积之和SN可以较为精确的代表曲线围成的面积S(图1)。利用穷竭法求取面积S的公式如公式1所示。

在分析岩浆演化过程中元素行为特征时,通常用横坐标的元素指示岩浆演化的方向。区别于以往在整个横坐标采用单一函数拟合生成元素协变图的方法,本文利用穷竭法的思想将横坐标平均划分为若干个区间,每个区间代表岩浆演化过程中的一段很短的过程。在每个很短的时间段内近似认为元素含量特征基本相同或者满足同一简单的函数模型,因此可以取一固定值或函数值代表每个区间的元素特征。

图1 穷竭法区间划分示意图Fig. 1 Schematic diagram of interval division in the method of exhaustion

2.3 区间线性拟合

区间内拟合模型的选择对最终趋势线拟合效果有着直接影响。拟合模型通常需要结合区间内的样品数量、数据质量、分布方式等因素综合考虑。划分后每个区间的跨度很小,因此对应每个较短的演化过程中的元素变化并不复杂。在保证了区间内数据的数量与质量的前提下,可以认为区间段内元素的含量呈简单的线性变化,然后在每个区间内进行线性拟合,获得该区间内的回归趋势线。本文采用最小二乘法对区间内数据点进行线性拟合,对每个区间段内的一系列样本点(y1,y1)、(x2,x2)……(xn,yn)构建一元线性回归方程。

获得区间内线性回归线后,在每个区间的回归线上取中点作为特征点,代表该区间对应演化阶段中元素的特征含量。将每个区间的特征点连接起来即可获得一条代表元素含量随岩浆演化的整体变化趋势线。

3 方法实现及可视化应用

区间线性拟合方法的实现主要包含以下步骤(详见图2):

基于上述思路,我们在Matlab GUI框架下实现了该模型,并开发了可视化数据操作和输出界面,设计出一个面向大数据的元素地球化学行为分析应用 软 件(Elemental Behavior of Magmatic Evolution,EBME)。EBME软件界面如图3所示。

EBME以岩石地球化学数据库为基础分析研究岩浆演化过程中重要的地球化学元素在不同构造背景下含量的变化趋势,具有绘制拟合线、保存图片、保存拟合线特征数据等多项功能。EBME支持动态加载大数据集和简单参数设置(如选择横纵坐标元素、设定区间长度、选择制定条件的数据等)。用户使用该软件不需要具备Matlab编程基础,也无需安装Matlab软件,通过可视化操作即可非常方便地完成区间数据拟合与绘图过程,实现基于大数据的元素协变图的数据处理与分析功能。EBME软件主要操作流程为:(1)选择并导入岩石地球化学数据库文件(支持Excel格式批量数据导入);(2)选择一种或多种区域构造或大地构造背景对数据进行筛选(默认加载全部数据集);(3)选择横、纵坐标元素,设置x轴区间、划分拟合区间、标准差数值;(4)点击绘图进行数据投图与趋势拟合,并在右侧绘图区显示。(5)点击“保存图片”按钮可导出结果图片,点击“导出趋势数据”按钮可导出趋势拟合线特征点的坐标,点击“清空”按钮即可删除软件加载的所有数据。

图2 分区间拟合方法的流程示意图Fig. 2 Flow chart of dividing interval fitting method

图3 EBME界面示意图Fig. 3 Interface of EBME

4 软件应用

4.1 数据来源

本文数据来源于GEOROC(Max Planck Institute for Chemistry Mainz, Germany, 2018-11-17)数据库。该数据库是马克斯·普朗克化学研究所建设与维护的海洋和大陆岩石数据库,共发布了从1883年至今公开发表的数百万个包含100多种元素或同位素含量的岩石地球化学数据。GEOROC数据库建设成熟,数据量大,开放性好,有坚实的理论基础,已取得了丰富的研究成果,在岩石、火山、沉积、古海洋以及大气等科学研究中应用广泛(葛粲等,2018;焦守涛等,2018; Liu et al.,2018;Ueki et al.,2018;Zhao et al.,2019)。

4.2 数据的整合和清洗

GEOROC数据库含有400多个数据表。由于每个数据表的属性名称、内容格式各异,直接下载的数据无法直接利用,主要存在以下三点问题:(1)不同数据表中的表格属性名称(字段名)、属性个数、排列顺序不一致。(2)不同数据表中数据的单位量纲不一致,或无标注,部分数据缺少属性标注,变量关系不清晰。(3)部分属性名表述不清,数据格式错误。

本文对数据库中火成岩全岩地球化学数据进行了如下整合和清洗,以便开展与岩浆演化有关的元素地球化学行为分析:(1)对各个表格中的属性进行分析和比较,根据应用需求对相同含义的属性进行整合,统一属性名称与顺序。例如:Fe元素的百分含量统一换算成FeOT;(2)对单位量纲不一致的数据进行单位换算,统一量纲,也对属性格式表述方式进行统一调整。例如,主量元素和烧失量(LOI)的单位统一为wt%,微量元素的单位统一为(×10-6);(3)剔除内容错误、模糊、定义不清或存在异常的数据。此外,为便于分析不同构造背景下元素地球化学行为的演化特征,我们将所有数据按照Intra Continental(陆内构造背景)、Convergent Margins(汇聚板块边缘构造背景)和Oceanic(海洋构造背景)进行分类。经过上述数据整理和清洗,共计获得岩石地球化学数据样本261350条,其中包括111237条陆内数据,122044条汇聚板块边缘数据和28069条海洋数据。每条数据均记录有样品采集的地理位置(纬度和经度坐标)、岩石类别、样品测试类型和元素含量等信息。

4.3 结果分析

4.3.1 参数设置

批量加载从GEOROC数据库采集到的261350条样品数据作为数据源,将MgO的百分含量作为横坐标轴,含量限制在0~30 wt%范围内。MgO含量由高至低即x坐标轴从右往左代表岩浆演化的进行方向,并将MgO含量划分成15个区间,即每段小区间中MgO含量的跨度为2 wt%,那么元素趋势特征点横坐标MgO含量分别为1、3、5、7……29(wt%)。由EBME根据区间内线性趋势线拟合方法分析不同元素在陆内、海洋、汇聚板块三种大地构造背景下随岩浆演化的含量变化行为。

4.3.2 趋势线生成及分析

根据上述参数设置,采用区间线性拟合模型生成了高场强元素、大离子亲石元素等元素与MgO的元素协变图,汇总如图4所示。从图4中可以通过演化趋势线看出不同元素在岩浆演化过程中的富集与亏损趋势、元素之间的相关关系以及元素在不同大地构造背景下的差异性变化。

4.3.2.1 高场强元素及稀土元素

根据图4所示,随着岩浆演化的进行,汇聚板块边缘和海洋两个环境下高场强元素总体表现出随岩浆演化逐渐富集的趋势。在不同构造背景下,部分元素表现出一定的差异性:汇聚板块构造背景下的高场强元素的含量低于其他两种构造背景,海洋构造背景下的元素富集程度更高。其中图4(1)-(20)显示Nb、Ta、Th以及轻稀土元素LREE在岩浆演化前期MgO含量大于20 wt%阶段,其元素在陆内构造背景下的含量明显为高值,并且有一定的亏损趋势,而在其他两种构造背景下则呈现低值并有微弱的富集趋势,直到演化后期MgO含量降低到8%左右时,Nb、Ta、Th和LREE元素才呈现出较为一致的富集趋势。然而Zr、Hf和HREE却没有出现这样的特征,不同构造背景下整体富集趋势较为统一。

4.3.2.2 大离子亲石元素

图4(21)~(24)显示大离子亲石元素(Ba、Na2O、K2O、Rb)随着岩浆演化总体也表现出逐渐富集的趋势。其中Ba元素同样也表现出在陆内构造背景下,演化初期富集程度很高,在其他两种背景下则明显偏低的特征。此外,Na2O、K2O、Rb与富集趋势存在差异:K2O、Rb元素在演化初期富集趋势微弱较为平缓,但是到MgO含量为8%左右时,富集趋势徒增,而Na2O演化趋势基本呈线性富集,演化后期海洋构造背景下其富集程度相对高于另两种构造背景。

4.3.2.3 其他

图4(25)显示Zn元素在岩浆演化过程中具有微弱的富集特征,但在不同的构造背景下,岩浆演化后期表现出显著差异性趋势。海洋构造背景下Zn含量明显高于其他两类构造背景,而在汇聚板块构造背景下Zn含量最低。在岩浆演化后期,在海洋构造背景下Zn含量呈现上升趋势,而在汇聚板块构造背景下,则呈现出下降的趋势。

图4 基于区间线性拟合方法绘制的元素协变图Fig. 4 Element variation diagram based on the dividing interval linear fitting method

由此可见,通过不同构造背景下分区间拟合的岩石地球化学大数据元素协变图分析,揭示出不同元素在岩浆演化过程中表现出差异性的地球化学行为,较传统认识更能体现出演化趋势和特征,为更好的认识岩浆演化过程中的元素地球化学行为提供了更多证据。

5 总结

本文针对以往元素协变图生成方式无法适应地球化学大数据集的弊端,引入穷歇法的思路,采用分区间线性拟合方法绘制岩浆演化过程中元素变化的趋势图,以直观、清晰的方式揭示岩浆演化不同阶段元素富集与亏损特征,并在Matlab GUI平台上开发了面向岩石地球化学大数据的元素协变图自动绘制软件——EBME。该软件具有操作界面友好,参数设置简单,运行速度快等特点,大大降低了大数据处理分析的门槛。通过从GEOROC数据库中收集的261350条火成岩样品数据进行整合分析,利用该软件自动绘制生成了新型元素协变图。结果表明其拟合的趋势线很好的揭示了元素在不同构造背景和不同演化阶段下的演化趋势,为深度挖掘和分析岩浆演化过程中元素地球化学行为提供了新的工具和思路。但现阶段EBME软件的数据处理模块还比较简单,仅限于基于穷歇法的区间线性拟合模型,尚不具备数据预处理功能,数据处理模型和算法还有待进一步丰富和完善。

地球科学大数据的快速发展,为面向大数据处理需求的专业软件的研制与开发带来了新的机遇和挑战。根据大数据特点和处理需求精准定制的分析处理软件必将在大数据驱动下的地球科学研究中发挥更大的作用。

致谢:感谢马克斯·普朗克化学研究所提供了GEOROC数据集,感谢中国科学院地球化学研究所高剑峰研究员对程序设计和本文写作提供的宝贵意见,感谢南京大学地球科学与工程学院的周会群教授对论文算法和写作给予的修改意见。感谢两位审稿人和编辑对本文提出的宝贵意见和建议。文章系“深时数学地球”(Deep-time Digital Earth)大科学计划系列成果之一。

猜你喜欢
演化过程岩浆线性
渐近线性Klein-Gordon-Maxwell系统正解的存在性
模因论视角下韩语“먹다”表“喝”动作演化过程研究
时间非齐次二态量子游荡的演化过程分析
线性回归方程的求解与应用
重庆万盛石林的形成时代及发育演化过程
岩浆里可以开采出矿物质吗?
火山冬天——岩浆带来的寒冷
二阶线性微分方程的解法
基于耗散结构的农产品冷链物流系统演化分析
狰狞的地球