机器学习在土壤盐渍化遥感中应用的文献计量分析

2023-12-11 10:09张佘淑
草业科学 2023年11期
关键词:盐渍化机器光谱

张佘淑,赵 军

(西北师范大学地理与环境科学学院, 甘肃 兰州 730070)

土壤盐渍化又称土壤盐碱化,是世界范围内正面临的主要生态环境问题之一,也是世界各地土壤退化的主要原因之一[1],严重威胁着粮食安全和生态系统的功能,需要通过监测和管理予以充分的关注[2]。盐渍化土壤复杂时空特性的及时有效监测是遥感技术长处所在[3],在过去十多年间,已经快速发展成为监测土壤盐渍化程度及分布的重要工具[4]。

机器学习是人工智能的一个重要发展方向。机器学习的基本原理是寻找某种函数,能从数据与类别之间得到正确或最佳的映射[5]。土壤是具有高度变异的时空连续体,在发育成土过程中成土因子对其的作用是非线性的,在较大区域中对土壤属性的非线性作用更加明显,与传统的统计回归模型相比,机器学习模型能够更有效表达土壤盐分与遥感数据之间的复杂非线性关系[6]。除此以外,机器学习算法不需要假设数据分布,更加简化了实测样点的筛选工作。因此,机器学习可以提供比传统方法(如简单或多重线性回归)更强大的性能和更高的准确性[7]。近年来,基于机器学习算法的土壤盐渍化遥感研究成果日益丰富,已有学者从不同视角对该领域进行了回顾与展望[4,8-12],目前使用文献计量法开展机器学习算法在土壤盐渍化研究应用中的可视化分析比较少见。文献计量分析通过分析已发表的科学文献来评估特定研究领域的发展趋势,以帮助研究人员快速掌握一个研究领域随时间的演变特征,不仅极大提高了科学计量学研究的效率,而且可以指导后续的研究[13]。

本文运用CiteSpace 文献计量分析工具[14],以WOS (Web of Science)核心合集数据库为数据源,以“[ALL= (salinization) OR ALL = (ssc) OR ALL=(soil salt content) OR ALL=(saline soil) OR ALL=(soil salinity) OR ALL=(salt affected soil) OR ALL=(soil electrical conductivity)) AND (ALL = (machine learning)OR ALL = (deep learning) OR ALL = (algorithm)OR ALL=(regression) OR ALL=(classification)) AND(ALL=(remote sensing) OR ALL = (satellite imagery)]”

为检索式进行文献检索,时间范围为2012 年1 月至2022 年12 月,共检索到205 篇文献,通过科学知识图谱可视化分析机器学习算法在土壤盐渍化遥感研究领域应用的进展和热点,探讨土壤盐渍化遥感模型构建过程中的局限性与未来发展趋势。

1 相关研究文献基本信息统计

发表文献数量的年际变化可以衡量一个领域的发展过程,还反映着该研究方向的热度[15]。2018 年之前在利用机器学习算法进行土壤盐分遥感反演领域发表的期刊论文数量很少,之后开始较快增长(图1),表明随着人工智能技术和遥感探测技术的快速发展,越来越多学者选择使用机器学习工具,寻找和建立模型特征变量之间的关系来实现土壤盐分估算[16]。

图1 相关研究文献年际分布Figure 1 Interannual distribution of national and international research literature

图2 是文献作者所属国或者地区的分析图谱,图中节点大小表示发文数量,其中中国、美国、伊朗、澳大利亚、德国发文量居前5 位,连线表示两者之间的合作关系,连线颜色表示发文时间,随时间变化不同国家或地区学者之间的合作越来越紧密。近年来,与我国研究者合作最多的研究机构来自澳大利亚、加拿大、德国和伊朗,这些也是2012 年以来发文量排在前列的国家。

图2 基于Web of Science (WOS)数据的发文国家或地区共现图谱Figure 2 Co-occurrence mapping of issuing countries based on WOS data

2 基于机器学习算法的土壤盐渍化遥感研究主题与热点

2.1 研究主题分析

剔除中介中心性为0 和属于检索主题词的高频关键词后,利用CiteSpace 对WOS 数据合并同类关键词,进行关键词共现分析,其中前15 位关键词如表1 所列。在关键词共现分析基础上,采用LLR(Log-Likelihood Ratio)算法对WOS 数据关键词共现数据进行聚类分析,揭示研究热点之间的关系(图3)。本文在自动划分的20 个聚类中筛选出前10 位节点最多、轮廓值较高的聚类进行分析。

表1 Web of Science (WOS)数据高频关键词统计Table 1 National and international high-frequency keyword statistics

图3 Web of Science (WOS)数据关键词聚类图谱Figure 3 Keyword cluster mapping based on WOS data

根据表1 中关键词共现频次与中介中心性,所有重要关键词节点可以大致分为机器学习建模、研究区域、数据源3 个方面,包括“vegetation”“region”“reflectance spectroscopy ” “machine learning ”“model”等。综合聚类分析结果与高频关键词,可以将基于机器学习算法的土壤盐渍化遥感研究主题归纳如下:

1)机器学习算法及其精度研究,内容包括机器学习、随机森林算法和偏最小二乘法。

2)机器学习建模特征变量选择研究,内容包括特征选择、盐分指数。

3)遥感数据源选择对机器学习模型的影响研究,内容包括高光谱数据、土壤电导率。

4)土壤盐渍化研究区域选择,主要内容是农业用地。

5)基于机器学习的土壤盐渍化数字制图应用研究,内容包括数字土壤制图、多光谱遥感监测。

2.2 研究热点分析

对WOS 检索得到的文献数据进行突发性探测,得到文献爆发式引用强度和持续时间。从文献爆发引用开始时间来看,2017 年后出现了更多爆发式高引用文章;从爆发强度来看,Sidike 等[18]研究的强度值最大,其发表时间为2014 年,爆发引用时间为2017—2019 年。该文使用实测土壤高光谱数据与QuickBird 高分辨率数据,分析了实测光谱获得的土壤盐度敏感带与光学传感器的光谱覆盖范围之间的关系,在考虑了土壤光谱特性基础上加入根据遥感图像得出的光谱指数,采用偏最小二乘回归(PLSR)预测模型估算了中国平洛县土壤盐度,分析了植被指数对估计精度的贡献[18]。其余爆发引用持续时间在2017—2019 年的文献中,Nawar 等[19]基于实测的土壤电导率和实验室测量的土壤反射光谱,经重采样到Landsat 影像分辨率后构建了PLSR和MARS 预测模型。Fan 等[20]通过实测光谱和土壤盐度数据探究土壤盐度检索的最佳光谱波段,应用PLSR 模型构建了土壤盐度与ALI 传感器光谱的关系,Taghizadeh-mehrjardi 等[21]在使用Landsat5 TM影像时还使用了土壤表观电导率以及地貌参数作为辅助变量参与模型构建。

由WOS 爆发引用强度和持续时间(表2)可知,近年来与机器学习相关的土壤盐渍化遥感研究的热点主要有在机器学习模型构建过程中加入辅助变量作为特征变量、实测光谱数据与多源遥感光谱数据结合、最佳机器学习算法选择。

表2 Web of Science (WOS)爆发引用文献统计Table 2 Outbreak citation literature statistics based on WOS data

2.3 土壤盐渍化遥感识别的机器学习模型算法

在WOS 数据关键词聚类图谱中,与机器学习算法相关的聚类有人工神经网络、随机森林回归和深度机器学习。根据上述3 种聚类的子聚类和聚类中与算法有关的关键词和高频、高中心性关键词对应的相关文献发现,主流的机器学习算法是随机森林、偏最小二乘回归、人工神经网络、支持向量机等[33-35]。

通过对关键词共现结果进行突发性探测(表3),发现最早爆发出现的机器学习算法属于无监督学习的聚类分析。2019 年前,土壤盐渍化识别遥感建模的热门算法是偏最小二乘回归,也是爆发出现持续时间最长的一种建模算法,直到2019 年以后,各种神经网络算法和随机森林算法开始被大量使用,出现各种新的机器学习模型。

表3 Web of Science (WOS)文献关键词突发性探测表Table 3 Keyword burst table of national and international literature

2.4 土壤盐渍化遥感识别的机器学习特征变量

建模特征变量主要包括实测土壤数据、光谱指数及数学变换后的光谱数据、环境协变量和遥感影像数据等。

实测土壤数据是遥感模型建立的基础,也是进行变量选择和模型精度验证的依据[4]。一般使用多点采样法进行土壤表层采样,同时使用GNSS 仪记录样本位置信息,最后将野外采集的土壤样本带回实验室通过测量饱和土壤提取溶液中的电导率测定盐分含量[36-38]。由于不同土壤深度的盐分含量不一样,越来越多的学者选择采集多种深度的土壤样本测定相应的含盐量,进行不同深度的土壤盐分反演[39-40]。除此以外,也有学者使用电磁感应(EM)仪器测定土壤表观电导率,与传统的方法相比,更加快速且具有非侵入性[41-42]。还有部分学者通过土壤的介电常数与土壤含盐量之间的关系进行盐分反演[35, 43]。

在自然条件下,受土壤湿度、植被覆盖度和数据采集时间等其他因素的干扰,单一波段获得的盐渍土光谱信息有限。因此,在模型构建时选择不同波段光谱反射率进行不同波段之间的组合运算,建立光谱数据与土壤盐分含量之间的相关性,作为预测和估算土壤盐度的间接指标。通过使用各种波段组合生成最佳光谱指数,可以检测更多的特征波长,并进一步增强目标的特定属性与光谱特征之间的相关性。为了提高光谱反射率与土壤盐分含量的相关性,可以对原光谱数据进行不同形式的光谱变换处理,其主要形式包括对原波段反射率R 进行倒数(1/R)、对数(lnR)、指数(eR)、一阶导数、二阶导数等[44-46]。

盐渍化土壤的形成与发展受到其所处环境的多种因素的影响,如气候、生物、地形、土壤理化性质等。因此,引入这些环境因素进行建模是提高模型质量的重要途径[47]。气候因子多选择气温、降水、潜在蒸散发、实际蒸散发等;反映土壤理化性质的因子包括土壤质地、地表温度、地下埋水深、土壤湿度等;地形因子主要包括DEM、坡度、坡向、海拔、地表粗糙度等;植物因子主要以一系列植被指数、植被类型和植被根系深度表征[18,48-49]。

随着遥感传感器技术的发展,数据源越来越多样化,除了主流的Landsat8 影像和Sentinel-2 影像以外,各种高光谱、雷达以及无人机遥感数据被应用于土壤盐渍化反演[50-52]。雷达的后向散射系数与土壤介电常数虚部有较好的拟合,为雷达遥感反演土壤盐渍化提供了可能,也解决了遥感数据源有限的问题[53]。无人机遥感具有成本低、数据获取速度快、地面分辨率高等优势,利用无人机高光谱数据进行土壤盐渍化反演的研究有明显增多的趋势,在精准遥感监测领域具有较大的应用潜力[54-55]。

3 进展评述与讨论

3.1 机器学习在土壤盐渍化遥感研究领域的进展

基于机器学习算法的土壤盐渍化遥感研究在近十年可以大致分为两个阶段:

起步阶段(2018 年之前),主要关注使用机器学习算法进行土壤盐分识别、反演和制图,以及方法的可行性和有效性,探究最佳光谱指数进行土壤盐分的反演和识别,先后建立了数十种盐分指数[27]。

高速发展阶段(2019 年至今),以高光谱遥感影像、实测高光谱数据、雷达影像和无人机遥感与多光谱数据结合的多源遥感方法为新的研究热点;以深度学习理论和神经网络算法为代表的机器学习新方法迅速受到土壤盐渍化遥感研究的重视,而辅助特征变量选择和模型参数优化也成为了提高模型精度研究的重点。

随着模型参数优化以及变量筛选等建模技术的发展,越来越多的机器学习模型将会被运用到土壤盐渍化遥感研究领域中,模型的精度将会不断提高。云计算技术的发展和专业遥感软件的不断升级,将会给模型的建立提供新的平台,如Google Earth Engine (GEE)平台的发展使得长时序的遥感数据分析更加容易实现[56],由此可见基于云计算平台和机器学习算法的大尺度长时序的土壤盐渍化遥感监测将成为未来发展的重要方向之一。

3.2 机器学习在土壤盐渍化遥感研究应用的局限性

1)从研究区域来看,大部分文献为小尺度研究,研究区盐渍土的理化性质和环境气候导致构建的模型不具有普适性,实用性也存在较大问题。未来需要建立普适性较高的模型来应用于不同研究区、更大尺度乃至全球以及不同时序的土壤盐渍化变化监测。

2)模型研究主要聚焦于对土壤盐分的反演,应用于解决土壤盐渍化问题还远远不够。利用土壤盐渍化遥感反演和专题制图成果分析土壤盐渍化的时空变异特征,对盐渍化的形成和调控提供科学数据支持,将是今后研究的重点。

3)机器学习所获得的知识难以被转化成规则型知识,也难以直观衡量土壤与环境因子之间的定量关系[6],在考虑机器学习模型表现的同时,今后还应关注模型的可解释性。

4 结语

总的来看,机器学习算法以其高于普通线性回归方法的精度优势在土壤盐渍化遥感研究中展现出很好的应用前景。随着对模型精度需求的提高以及研究尺度、研究目的的转变,多源遥感数据融合应用、多种辅助特征变量的优选和机器学习算法的改进,将会成为未来该研究领域关注的重点。

本文仅以WOS 数据库为数据源,机器学习算法也是近年来才在土壤盐渍化遥感领域得到较为广泛的应用。由于不同文献中使用的土壤盐渍化相关专业名词表述不一,进行文献检索时可能出现遗漏的情况,导致对检索结果进行数据清洗后得到的文献数量较少,在进行突发性检测或共现分析时,2018 年以前的结果准确性较低。但与传统的文献综述方法相比,使用文献可视化方法的观点结论更准确可靠,也更直观。

猜你喜欢
盐渍化机器光谱
蔬菜大棚土壤盐渍化成因及防治措施
基于三维Saab变换的高光谱图像压缩方法
机器狗
机器狗
土地质量地球化学调查成果在判定土壤盐渍化、沙化中的应用
甘肃苏干湖湿地土壤盐渍化、地下水位埋深及其对生态环境的影响
未来机器城
玛纳斯河流域土壤盐渍化时空动态变化
星载近红外高光谱CO2遥感进展
无敌机器蛛