基于随机森林分类模型的古代玻璃制品成分分析

2023-06-07 20:37张倩吕坤山赵先庆李瑞杰
河南科技 2023年9期
关键词:随机森林相关性分析聚类分析

张倩 吕坤山 赵先庆 李瑞杰

摘 要:【目的】中国古代利用外来玻璃制作工艺制作出的玻璃制品,其化学成分与外界传入的并不相同。古代玻璃易受环境影响而被风化,内部元素和外部元素进行大量交换,成分比例会因此发生变化。通过分析玻璃类型等外部因素与表面风化的相关性及玻璃组成成分与表面风化的相关性,找出玻璃表面风化原因。【方法】通过分析玻璃外部因素的相关性和对玻璃进行独立样本Mann-Whitney检验,得到玻璃制品的成分,基于随机森林建立模型,构建不同分类标准。【结果】研究发现,玻璃制品纹饰等与表面风化的相关性较弱,与二氧化硅等玻璃制品的相关性大,且氧化铅成分在玻璃中的重要性最大。【结论】要防止玻璃发生风化,就要减少杂质成分。

关键词:独立样本检验;机器学习分类-随机森林;聚类分析;相关性分析

中图分类号:TP181     文献标志码:A     文章编号:1003-5168(2023)09-0019-04

Abstract:[Purposes] The chemical composition of glass products produced by absorbing foreign glass production processes in ancient China is not the same as that imported from the outside world. Ancient glass is susceptible to environmental impact and is prone to being weathered. The internal elements and external elements are exchanged in large quantities, and the composition ratio will change accordingly. By analyzing the correlation between external factors such as glass type and surface weathering and the correlation between glass composition and surface weathering, the reasons for glass surface weathering are found. [Methods] Firstly, the correlation analysis of external factors of glass was carried out, and then the independent sample Mann-Whitney test analysis was carried out to obtain the composition of glass products. Based on the random forest model, different classification criteria were constructed. [Findings] It is found that the correlation between the decoration of glass products and surface weathering is weak, and the correlation with glass products such as silica is strong, and the lead oxide composition is the most important influence factor in glass. [Conclusions] The impurity components should be reduced to prevent the glass from weathering.

Keywords: independent sample testing; machine learning classification-Random Forest; cluster analysis;correlation analysis

0 引言

在中國玻璃发展史上,装饰艺术玻璃制品因独具特色的形制、纹饰和工艺,成为世界玻璃发展史上一颗璀璨的明珠[1]。中国古代匠人在吸收西方玻璃制作技术后,就地取材制作玻璃制品。因此,我国玻璃制品虽与国外玻璃制品外观相似,其化学成分却截然不同[2]。制作玻璃的主要原料是石英砂,主要化学成分是二氧化硅(SiO2)。在铅钡玻璃中,氧化铅(PbO)、氧化钡(BaO)的含量较高。古代玻璃极易受埋藏环境的影响而发生风化,其成分比例发生变化,导致无法对玻璃类别进行正确判断。需要对玻璃成分进行分析,探寻其风化程度及成分之间的关联程度。

1 问题分析

问题一:对玻璃文物表面风化程度及玻璃类型、纹饰、颜色相关性进行分析,分析文物样品表面有无风化化学成分含量及预测风化前的化学成分含量。问题二:寻找高钾类[3]玻璃、铅钡类[3]玻璃的分类规律,对其化学成分选择合适的亚类进行划分,分析分类结果的合理性和敏感性。问题三:对未知类别玻璃的化学成分进行分析与分类,分析分类结果的敏感性。问题四:分析两种玻璃文物样品的化学成分关系,比较两者的差异性。

2 模型假设

为便于模型构建,作出以下两个假设。①古代玻璃受环境影响,导致其化学成分改变,为分析风化、表面变色对玻璃化学成分的影响,假设玻璃仅存在风化和表面变色。②随着时间推移,玻璃可能会被人为破坏或修补,导致分析过程中存在不准确的情形。为便于对成分进行分析,假设玻璃文物未受到人为破坏或修补。

3 模型建立与求解

3.1 数据预处理

根据相关研究可知,成分比例累加和在85%~105%的数据可视为有效数据。经观察可知,在玻璃风化过程中,SiO2 的净含量不变[4]。需要特别指出的是,空白处表示未检测到该成分,并不是缺失值,应将检测到的成分赋“0”值处理。

3.2 问题一求解

3.2.1 表面风化与定类变量间的差异化卡方检验。通过观察数据,使用SPSSPro软件进行分析,发现类型、纹理、颜色和表面风化为定类变量,多组定类变量应采用差异性分析卡方检验。将类型、纹理、颜色分别与表面风化进行差异性分析,结果见表1。

由表1可知,基于类型和表面风化,检验得到的P值为0.020 *,水平上呈现显著性,拒绝原假设,因此类型和表面风化数据存在显著性差异;基于纹饰和表面风化,检验得到的P值为0.056 **,水平上不呈现显著性,接受原假设,因此纹饰和表面风化数据不存在显著性差异;基于颜色和表面风化,检验得到的P值为0.507,水平上不呈现显著性,接受原假设,因此颜色和表面风化数据不存在显著性差异。

3.2.2 量化效应分析。采用phi、Crammer's V、列联系数和lambda指标来分析样本的相关程度,在此基础上进行效应量化分析,得出表面风化和三个定类变量的相关程度。效应量化分析结果见表2。

由2可知,类型对应的Cramer's V值为0.316,即类型和表面风化的差异程度为中等程度差异;纹饰对应的Cramer's V值为0.326,即纹饰和表面风化的差异程度为中等程度差异;颜色对应的Cramer's V值为0.341,即颜色和表面风化的差异程度为中等程度差异。

通过对玻璃表面风化与风化化学成分含量的独立样本Mann-Whitney检验,得到中位数、统计量、效应量Cohen's d等的相关值。通过P值与显著性水平0.05的比较,得到几种主要的风化化学成分,即二氧化硅差异幅度中等、SrO差异幅度中等、PbO差异幅度非常大、氧化铝差异幅度较小、氧化钾差异幅度非常大。由于二氧化硅、SrO、氧化铅、氧化铝和氧化钾对应的P值均小于0.05,所以风化与这五种化学成分的含量呈正相关。

3.2.3 五种主要风化化学成分的分类汇总描述性分析。分析五种风化化学成分分类汇总结果,计算出样本量、最大值、最小值等统计量,研究分组后定量数据的整体情况,得到各成分在不同玻璃类型中的比重。经分析后发现,高钾玻璃风化后,二氧化硅的含量会显著增加,其他四种化学成分会相应降低。铅钡玻璃风化后,氧化铅、氧化铝及氧化锶的含量会有些许增加,二氧化硅和氧化钾的含量会降低。

3.3 问题二求解

3.3.1 随机森林分类。各特征(自变量)的重要性比例如图1所示。由图1可知,氧化铅的重要性是最大的。通过以下步骤对所有特征进行随机森林分类。①基于训练集数据建立随机森林分类模型;②基于建立的随机森林来计算特征重要性;③将建立的随机森林分类模型用于训练、测试数据,得到模型的分类评估结果;④由于随机森林具有随机性,每次运算结果都不一样。若保存本次训练模型,后续可直接上传数据代入到本次训练模型中进行计算分类。

3.3.2 聚类分析。变量类型的聚类汇总如图2所示。由图2可知,在聚类分析划分类别时存在显著性差异,对氧化钾、氧化铅、氧化钡、氧化硅、氧化钠、氧化铝、氧化磷、氧化锶进行聚类分析划分时,类别间存在显著性差异;对氧化镁、氧化钙、二氧化硫、氧化铁、氧化锡、氧化铜在进行聚类分析划分时,类别间不存在显著性差异。由图2可知,聚类结果共分两类,聚类类别1的频数为35,所占百分比为52.24%;聚类类别2的频数为32,所占百分比为47.76%。

3.4 问题三求解

根据已有数据建立文物类型和各种成分含量散点分布,如图3所示。由图3可知,序号为2、3、4、5、8的文物为铅钡类[3]文物。

3.5 问题四求解

建立灰度关联分析模型,关联系数值见表3。

结合关联度数值,对所有评价项进行排序,得到各评价项排名。氧化铝的评价最高(关联度为0.831),其次是氧化铜(关联度为0.768)。

对定量变量氧化钙、氧化铜、氧化铝、氧化铅、五氧化二磷、氧化锶、氧化钡进行描述性统计和正态性检验,分析不同成分的量化结果。其中,氧化铜、氧化铝、氧化锶、氧化钡不满足正态分布,其余均满足正态分布,水平上不呈现显著性。数据不全满足正态分布,若正态图基本上呈现钟形(中间高、两端低),说明数据虽不是绝对正态,但基本可接受为正态分布。对所有足量变量进行方差齐性检验,方差齐性檢验结果显示,氧化铅、氧化锶、氧化钡数据不满足方差齐性。相关性分析结果说明,高钾、铅钡玻璃在氧化钙、氧化铝、氧化铅、氧化锶、氧化钡存在显著差异,氧化铜、五氧化二磷不存在显著差异。

4 模型评价

4.1 随机森林模型优点

随机森林是常见树结构机器学习方法,具有对异常值和噪声的高容忍度、不易出现过拟合等优点。随机森林模型的准确率极高,能在大数据集上运行,通过引入随机性,不易过拟合,也具有很好的抗噪声能力,但在数据噪声较大时会出现过拟合。随机森林模型能处理很高维度的数据,不用降维,能处理离散型数据和连续型数据,不用将数据集进行规范化。

4.2 随机森林模型缺点

虽然随机森林算法足够快,但当随机森林中的决策树个数很多时,训练所需的空间和时间就会变大,导致模型运行缓慢。在实际应用中,遇到实时性要求很高的情况,最好选择其他算法。

5 结语

本研究基于随机森林模型对高钾玻璃和铅钡玻璃成分进行分析,分析其风化程度和变色程度对玻璃成分变化的影响及不同因素(如纹饰等)对玻璃成分的影响。在对古代玻璃成分进行分析时,发现铅钡容易风化而高钾不容易风化。建立随机森林模型,得到氧化铅的重要性最大。通过对分类结果的敏感性及各成分间的关联性进行分析,可以看出,要想防止风化等影响玻璃制品,就要减少杂质成分。

参考文献:

[1]何媛媛.中国当代装饰艺术玻璃设计研究[D].武汉:武汉理工大学,2015.

[2]殷宇龙.通过关联预测对古代玻璃制品成分分析[J].当代化工研究,2023(1):122-126.

[3]顾亮亮,周静.关于中国古代玻璃艺术研究的几个问题[J].艺术与设计:理论版,2021(4):112-114.

[4]王承遇,陶瑛.硅酸盐玻璃的风化[J].硅酸盐学报,2003(1):78-85.

猜你喜欢
随机森林相关性分析聚类分析
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
上市公司财务指标与股票价格的相关性实证分析
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究
农村居民家庭人均生活消费支出分析
基于随机森林算法的飞机发动机故障诊断方法的研究
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究