改进的基于密度峰值背景纯化的高光谱异常检测

2021-09-24 13:13汤书路赵春晖
黑龙江大学工程学报 2021年3期
关键词:学习机光谱聚类

汤书路,赵春晖,崔 颖

(哈尔滨工程大学 信息与通信工程学院,哈尔滨 150001)

0 引 言

高光谱图像包含二维空间信息和一维光谱信息,具有“图谱合一”的特点[1]。高光谱图像具有光谱分辨率高的特点,包含非常丰富的地物光谱信息[2],为地物分类、检测、识别提供了很大的可能[3]。目前,在军事、农林业、土地资源管理和海洋遥感等领域已得到广泛的使用[4-6]。

对高光谱图像中的目标进行检测可以分为:有先验信息的目标检测和没有先验信息的异常目标检测。“异常”指目标与背景的光谱信息存在很大的差异性[7],这种异常目标在高光谱图像中存在的比例较小。通常在异常检测的算法中需要找到异常目标与背景的差异,达到检测出异常目标的目的。

在高光谱图像异常检测的算法中,Reed I S[8]提出的 RX 算法最为经典。由于异常目标和背景在高维特征空间的分布差异性,一种基于核方法的异常检测算法应运而生了,如核 RX(KRX)[9]。Banerjee A等[10]提出了一种新的基于支持向量域描述的非线性检测算法 (Support Vector Domain Description,SVDD)。近年,基于表示理论的异常算法逐渐被提出,这些算法摒弃了经典算法中对目标、背景和噪声做出的假设,如基于协同表示的异常目标检测算法(Collaborative-Representation-based Detecter,CRD)[11]。此外还有基于稀疏表示的异常目标检测算法[12],该算法根据像元的稀疏表示其系数向量的非零系数位置来判别该像元是背景还是异常目标。上述方法均用到了地物的光谱信息,由于高光谱图像蕴含着丰富的空间信息,利用空间信息有利于提升算法的精度和效果。如Du B等[13]提出的局部和异常检测(Local Summation Anomaly Detection, LSAD)把测试点近邻域局部窗的多层局部分布与空间和光谱谱特性相结合,提高了异常目标检测的性能。为了进一步提高检测精度,Su H等[14]使用主成分分析方法(Principal Component Analysis,PCA)在局部区域提取背景的主要像素信息作为CRD的样本,同时去除背景中的异常像素信息。

通常用矩形窗口来提取背景像元,在选定的背景像元中仍有少量的相关像元及噪声,对背景估计产生影响,降低异常检测算法的检测精度[15]。为了解决这个问题,提出了一种改进的基于密度峰值背景纯化的高光谱图像异常目标检测算法。由于高光谱图像的维度较高,会造成信息冗余[16]。提出用极限学习机对原始高光谱图像进行降维,得到一个低维的特征空间;用基于密度峰值背景纯化的算法去除噪声和异常目标的干扰,得到纯背景集;用 CRD 算法进行异常目标检测,避免了对背景进行假设估计。

1 基于极限学习机和背景纯化的高光谱图像异常目标检测

对高光谱图像进行目标检测时,直接对原始的高光谱数据进行处理,只用到了高光谱数据的光谱信息。高光谱图像光谱维度高,容易造成信息冗余的问题,会对最终的异常检测结果产生影响。利用极限学习机网络将原始的高光谱数据映射到低维的非线性特征空间,避免了“同物异谱,同谱异物”对检测结果的影响。进行异常目标检测时,会受到噪声和异常目标的干扰,影响最终的检测效果。因此,本文提出利用基于密度峰值背景纯化(Density Peak Background Purification,DPBP)的方法获取纯背景集并对其进行异常检测(DPBP_AD)算法框图见图1。

1.1 基于极限学习机的特征空间的获取

新加坡南洋理工大学的黄广斌教授提出的极限学习机(Extreme Learning Machine,ELM)是一种新型单隐层前馈神经网络(Single-hidden Layer Feed forward neural Networks,SLFNs)学习算法[17]。SLFNs逼近拟合理论指出,对于输入网络中的N个样本,确定了激活函数和隐藏层的节点数,对隐藏层权重和偏置随机赋值,可无限地接近N个样本。ELM是随机确定隐藏层权重和偏置,找到最优的隐藏层和输出层间的参数,使输出的误差尽可能最小,与神经网络的算法相比,ELM网络不需要调节隐藏层参数。ELM的网络结构见图2。p,l和m分别为输入层、隐藏层和输出层的节点个数;a和b分别为输入层与隐藏层间的连接权重和偏置,通过随机初始化赋值;β为隐藏层与输出层间的连接权值。

图2 ELM的网络结构

(1)

则ELM的输出表示为

(2)

其中:g(·)为激励函数,是任意有界的分段连续函数。

β*=H+T

(3)

其中:H+为矩阵H的Moore-Penrose 广义逆。可以证明,求得的最小二乘解β*的范数最小且具有唯一性。

输入待测试的高光谱影像XHSI,根据式(2),利用训练样本所求得的最优输出矩阵β*,计算XHSI在嵌入空间的特征映射:

YHSI(XHSI)=HHSIβ*

(4)

其中,HHSI与训练样本的H计算方法相同,通过随机初始化赋值。

由于 ELM 网络是一个有监督的网络,而异常检测中没有异常点的先验信息,因此需要一个带标签参考数据来训练网络。参考数据需满足以下2个要求:①参考数据必须是与待测图像同源(同源指由同样的传感器接收到的高光谱图像)的带有标签的数据集;②数据的维度相同。ELM网络训练好后,输入待测图像,得到测试数据的特征空间。

1.2 基于密度峰值的纯背景集的获取

1.2.1 基于密度峰值快速搜索的聚类算法

传统的聚类方法,如 Kmeans 聚类算法,优点是计算效率高且收敛速度快,适用于实时的聚类背景[18]。缺点是结果差异性较大,算法的鲁棒性较差[19]。其他的聚类算法,如启发式聚类算法和全局智能优化聚类方法等,这些算法的复杂度较高[20],不适用于较高次数重复聚类的高光谱异常探测。因此 Rodrigurez A等[21]提出了一种基于密度峰值快速搜索的聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSDP),简称密度聚类算法(Density Cluster,DC)。该算法计算速度快,能够对任意形状的分布进行聚类,适合对于维度较高,成分复杂的高光谱图像。

该算法假设:①聚类中心由局部密度较低的邻域像元包围;②聚类中心与局部密度较大的像元间的距离较大。通过计算最小邻域距离来确定聚类中心,根据密度将剩余的点归到相应的类别中。假设待聚类的高光谱数据为X=(x1,x2,…,xi,…,xn),n为数据的像元总数。局部密度可表示为

(5)

当δ值高时,ρ值相对高的点为聚类中心,ρ值低的点是异常点。确定了聚类中心后,剩余的像元将被归为最近邻密度最高的簇。与其他优化目标函数的迭代算法不同,该算法的集群分配可以一步完成。

1.2.2 纯背景集的获取

1)计算中心像元与内外窗间所有像元的欧氏距离,构造距离向量,即

(6)

2)在双窗内计算局部密度,即

(7)

(8)

其中:p为自由参数,表示选取像元的比例。

1.3 基于协同表示的异常目标检测

不同于经典的算法对异常目标、背景和噪声的假设,CRD 算法是任意背景像元可以近似地由其邻域像元线性表示,而异常像元则不能。因此待测像元的估计值为

(9)

(10)

式中:λ为拉格朗日乘子;Γy为 Tikhonov 正则化矩阵,即

(11)

异常检测算子为

(12)

获取纯背景集后,改进的检测算子为

(13)

如果δ大于阈值,则γ为异常目标;反之γ为背景像元。

2 实验结果和分析

2.1 高光谱实验数据

实验中所用的数据集均来自机场—海滩—城市(airport-beach-urban)数据集,分别在3个场景中选取一个数据集来验证算法的有效性。其中 Dataset1 和 Dataset3 均是由机载可见、红外成像光谱仪(AVIRIS)传感器采集的数据集,Dataset2 是由德国的机载反射光学光谱成像仪(ROSIS-03)传感器采集的数据集[22]。由于极限学习机是有监督的网络,需要带有标签的同源且光谱维度相同的数据集先对网络进行训练。因此,截取测试图像的1/10作为训练集。各个数据集的信息、伪彩图和真值图见表1和图3。

表1 各个数据集的基本信息

图3 3个数据集的伪彩图和真值图

实验中以 ROC(Receiver Operating Characteristic)曲线、ROC 曲线下面积 AUC(Area Under Curve)的值和检测时间作为评价指标[23],实验使用的硬件环境是 Intel(R) Core(TM) i5-5200U 处理器,内存 8 GB,软件环境为 Windows 8.1。

2.2 实验结果及分析

2.2.1 检测结果

将提出的方法与5个经典算法(分别为 RX、KRX、CRD、KCRD、BACON 算法)进行比较。以 ROC 曲线、AUC 值和检测时间作为不同算法的检测性能评价指标,给出了各个算法对不同数据集的检测结果,见表2。

由表2可见,提出的方法对2个传感器获取的3个不同的数据集均能在一定程度上提高检测精度。对 AVIRIS 传感器和 ROSIS-03 传感器分别获取的 Dataset1、Dataset2 和 Dataset3 数据集,提出的算法在一定程度上缩短了检测时间,与对比算法中检测精度最高的算法相比,检测时间分别缩短了 74.4 s、27.77 s和33.19 s。其中,对 Dataset1 和 Dataset2 来说提出的算法的检测时间最短,而对 Dataset3 数据集,提出的算法较 KCRD 算法用时较长,这可能是由于异常目标较大,导致 DPBP_AD 选取的内外窗口尺寸较大,影响了检测时间。总之,提出的方法对2个传感器获得的数据集都能提高检测精度。在只要求检测精度高时,可选用提出的算法。不同算法对3个数据集检测结果的 ROC 曲线见图4。由图4可见,提出的算法在一定程度上提高了检测精度。

表2 各个算法对不同数据集的检测效果

图4 3个数据集检测的ROC曲线

不同算法对各个数据集的检测效果图见图5~图7,由图5~图7可见,提出的算法其检测效果优于其他几种算法。DPBP_AD算法能有效地检测出大多数异常目标,并能保持异常形状。相反,RX、KRX 方法获得的检测图中很难见到异常目标。RX 算法存在许多错误警报(图5(c));与图5(g) 相比可见局部密度信息能进一步纯化背景光谱信息。

图5 Dataset1的彩色合成图和比较方法的检测图(第二列为通过人工标记获得的参考检测图)

图6 Dataset2的彩色合成图和比较方法的检测图(第二列为通过人工标记获得的参考检测图)

2.2.2 DPBP_AD算法的参数选择

根据 AUC 值分析了不同参数的设置对算法性能的影响,在提出的方法中分别有4个参数:特征空间维数m;纯背景集选取的比例p;内外窗口尺寸ωin和ωout。

特征空间维数的选取,影响背景和异常目标的可分性,也对异常检测的结果产生影响。选取最优特征空间维数能很大程度上去除冗余信息的同时最大限度地保留原始信息。3个数据集的最优特征空间维数检测结果由 AUC 值给出,见表3 。由表3可见,当最优特征空间维数分别为 10、6 和 13 时,检测精度最高,分别为 0.988 7、0.989 0 和 0.964 0。

表3 各个数据集的最优特征空间维数

参数p的选择是为了保证选取的背景集的纯净性。3个数据集的特征空间维数均为上述分析结果下最优特征空间维数,改变参数p的值(从 0.1 到 1)分别对3组数据进行异常检测,探测结果同样由 AUC 值给出见表4。由表4可见,各个数据集中背景集选取的比例对检测结果的影响。数据集 Dataset1、Dataset2 和 Dataset3 的纯背景集选取的最佳比例均为 0.8,此时检测性能最好,分别是 0.988 7、0.989 0 和 0.964 0。参数p的值越接近于 1 的原因在于异常目标的分布比较集中。

表4 各个数据集中纯背景集选取的比例对检测性能的影响

内窗口的大小是由中心像元的均匀区域的大小决定的,外窗口的大小由用于表示中心像元的信息量决定的。即窗口的大小是根据不同场景中的异常目标的大小而改变的。设置内窗口的大小,以满足中心像元周围的均匀区域可以适当去除的条件。当外窗口足够大时,说明背景像元能更加精确地表示中心像元。因此,当外窗口较大时,算法将获得较高的 AUC 值。各个数据集内外窗口尺寸的选取见表5。由表5可见,数据集 Dataset1 和 Dataset2 的最佳窗口尺寸均为ωin=3,ωout=5。而数据集 Dataset3 的最佳窗口尺寸为ωin=13,ωout=15。

表5 内外窗尺寸对不同数据集检测结果

3 结 论

高光谱图像异常目标检测的效果会受到噪声和异常目标的干扰、由光谱维度较高导致的信息冗余以及“同物异谱,同谱异物”的影响。提出了一种改进的基于密度峰值背景纯化的高光谱图像异常目标检测算法。利用基于极限学习机的特征空间提取,获得了低维的非线性特征空间,不仅避免了“同物异谱,同谱异物”的影响,更避免了由于光谱维度较高所带来的信息冗余的影响,提高了检测精度。并且极限学习机结构简单,拥有快速的学习能力,缩短了检测时间。密度峰值背景纯化的方法避免了噪声和异常目标对检测结果的影响,同时也有效地挖掘了像元间的空间信息,提高了检测精度。DPBP_AD算法不需要对背景进行假设估计,对不同的高光谱图像都具有较好的检测结果,同时也更适用于真实的高光谱数据。实验表明,所提的 DPBP_AD算法相比于其他算法,提高了检测精度。同时与 RX、CRD 和 BACON 算法相比,所用的检测时间较短。

猜你喜欢
学习机光谱聚类
基于三维Saab变换的高光谱图像压缩方法
“机”关
高光谱遥感成像技术的发展与展望
基于随机权重粒子群优化极限学习机的土壤湿度预测
基于改进极限学习机的光谱定量建模方法
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
雷达点元聚类算法性能的比较与分析
基于GPU的高光谱遥感图像PPI并行优化