一种利用花粉算法优化的遥感图像分割方法

2021-03-30 08:10段明义卢印举苏玉
遥感信息 2021年1期
关键词:高斯分布花粉聚类

段明义,卢印举,苏玉

(郑州工程技术学院 信息工程学院,郑州 450044)

0 引言

随着遥感技术的不断发展,人类获得的遥感图像越来越丰富。遥感图像与自然图像有着明显区别,是一种十分重要的信息资源[1]。为了能够从遥感图像中提取出感兴趣的信息,人们提出了很多方法,图像分割是常用的一种。该方法主要是通过将一幅需要处理的图像根据一定的算法划分为不同的区域,以达到提取出感兴趣信息的目的。图像分割是图像分析中关键的一步,目前主要有基于阈值的、基于区域的、基于边缘理论的以及基于特定理论的方法[2-4]。

聚类作为一种无监督分类技术,在遥感图像分割中被广泛应用。学者们通过使用该技术将遥感图像中特征相似的像素点划分到同一类中,使得类间相似度尽可能低。K-means是目前在图像分割领域已经广泛应用的一种聚类划分方法[5]。该方法通过对定义的目标函数进行迭代、逼近,最终得到结果,其缺点主要在于需要事先人工设置、确定一系列的参数值,比如初始聚类数目;同时,图像中的噪声也能极大地影响结果[6]。花粉算法(flower pollination algorithm,FPA)模拟自然界显花植物花朵的授粉过程,是一种仿生算法[7],该算法原理简单、参数少、易于实现,同时具有良好的全局寻优能力。本文采用花粉算法来对K-means算法的初始参数进行优化,以期达到改进聚类效果的目的。高斯模型是常见的数据模型,可以用来对遥感图像特征数据进行模拟,对于多个数据的模拟需将多个高斯模型根据权值系数结合在一起,即高斯混合模型(Gaussian mixture model,GMM)[8]。在实际应用中,高斯分布易受到噪声值的干扰,同时,对于样本尾部的拟合不如具有更长尾部的学生t分布(student’stdistribution)。本文算法引入学生t分布来替换高斯分布。

本文针对遥感图像的特点,采用学生t分布混合模型(student’stdistribution mixture model,TMM)[9]对数据进行拟合。为提高拟合效果,采用改进的K-means聚类算法来优化混合模型的初始参数,同时使用EM算法对模型中的参数进行求解。本文方法为花粉K-meanst分布混合模型法(K-means student’stdistribution mixture model with FPA,KF_TMM)。

1 方法

1.1 学生t分布

随着科学技术的发展,数据信息的获取越来越方便,但对数据的处理却显得越来越复杂,一般都采用统计学方法。t分布又名学生分布,含有自由度参数v,其概率密度函数如式(1)所示。

(1)

式中:Γ(·)为Gamma函数。如图1所示,当v=1时,t分布即为柯西(Cauchy)分布密度函数(t(v=1)=C(0,1)),当t(v→)=N(0,1),柯西分布与高斯分布是t分布2个边界特例[10]。这为后文中的自适应变异提供了基础。t分布变异恰好融合了柯西分布变异和高斯分布变异的特点,通过不断改变自由度参数v的值可以获得不同的变异幅度。

图1 t分布、柯西分布、高斯分布函数分布图

1.2 聚类算法

1)K-means。设遥感图像中N个数据点为X={x1,x2,…,xN},xi表示第i个像素的灰度值,N表示图像像素总数量。算法运行结果是将遥感图像中的N个图像数据点根据预先设置好的聚类个数K,划分成K个遥感图像子集(聚类)M1,M2,…,MK,子集中心分别为c1,c2,…,cK。目标函数如式(2)所示。

(2)

式中:x是来自遥感图像子集Mj的样本。

如果目标函数取得最小值,根据式(3)来更新K个图像子集的中心点c1,c2,…,cK。

(3)

式中:cj、Nj分别代表第j个子集的中心和样本数。聚类算法通过迭代,求出每个子集中心的最终位置,算法终止。

传统K-means 聚类方法简单、易实现且得到了广泛应用,但其需要随机选择初始聚类中心,且需要事先确定初始中心点数目。本文针对此缺点采用花粉算法加以改进。

2)花粉算法。花粉算法主要来自于对自然界显花植物授粉过程的模拟,是一种新型的元启发式算法[11]。显花植物主要通过授粉繁殖,这一般与花粉的转移有关,而这种转移通常与授粉媒介(如昆虫、鸟类、蝙蝠和其他动物等)有关。授粉过程可采取2种主要形式:非生物的和生物的。大多数的开花植物是生物授粉,花粉是由昆虫和动物等授粉媒介转移。少部分的授粉采取非生物形式,不需要任何传粉媒介。同一植物物种的授粉,可以在同株或异株之间进行,即自花授粉或异花授粉。FPA算法认为自花授粉、生物授粉为在局部区域寻找最优值,即局部寻优;异花授粉、生物授粉为在全局区域寻找最优值,即全局寻优。异花授粉中,授粉媒介(如蜜蜂、蝙蝠、鸟类和苍蝇等)可以飞行很远的距离,飞行行为认为是Levy飞行[12],其跳跃或飞行距离步长遵循Levy分布。花的恒定性即繁殖概率正比于参与授粉花朵的相似性。整个授粉过程在局部和全局授粉之间来回切换,切换时机由概率p控制,p∈[0,1]且稍微倾向于局部授粉。理想化的情况假设每株植物只开一朵花,每朵花只有一个花粉配子,不需要区分花粉配子、花朵、植物或问题的解,问题的解xi即花朵或花粉配子。

FPA算法有2个关键步骤,即全局授粉和局部授粉。

(4)

(5)

式中:Γ(λ)是标准Gamma函数,对大步长s>0有效,下文中,取λ=1.5。

(6)

大多数的授粉活动发生在局部或全局范围。实际授粉过程中,花朵倾向于被临近的或者不太远的花朵授粉。因此,全局授粉与局部授粉之间转换概率p的取值为0.8,而不是等概率的0.5。

实际运行过程中,花粉算法前期容易局限于局部最优解,后期接近最优解时,收敛速度慢。为了对其改进,本文借鉴文献[13]中的思想,对花粉状态Xi=(xi1,xi2,…,xin)进行自适应t分布变异,定义如式(7)所示。

(7)

本文主要利用FPA算法全局寻优能力强的优点,将其与K-means算法相结合,迅速找到接近全局最优的解。以此解输入K-means算法作为K-means算法的初始聚类中心,然后执行K-means算法,发挥K-means算法局部寻优能力强的特点,最终找到最优解,以此作为有限混合模型参数求解的初始值。

1.3 t分布混合模型

高斯分布(Gaussian distribution)是统计学中常用的一种分布,通常用来描述样本数据的分布情况,但由于其尾部较短,容易受到噪声值的影响,数据拟合能力较差,特别是对于样本数据边缘。学生t分布是另一种常用的分布,式(1)为其概率密度函数,v代表自由度参数。从图1可以看出,与高斯分布相比,t分布曲线更扁平一些、尾部更长,更适合用来模拟数据样本的尾部。

多维(p维)学生t分布可以用式(8)表示。

(8)

式中:δ(x,μ;∑)=(x-μ)T∑-1(x-μ)。与高斯模型相似,为了对多个数据进行模拟,需要将多个学生t分布模型根据权值系数结合在一起,即学生t分布混合模型,由式(9)表示。

(9)

式中:πk为混合系数。

上述TMM中未知参数的求解,可以使用EM算法来进行拟合[14]。

E步:

(10)

(11)

M步:

(12)

(13)

(14)

(15)

重复执行EM算法E步和M步,直到算法收敛或者满足终止条件即可求出TMM中的参数。

感兴趣样本的混合分布模型确定后,借助于贝叶斯公式可以计算出每一个像素的后验概率,进一步可确定每一个像素xi所属的类别,从而完成图像的分割。

2 实验结果与分析

2.1 分割效果评价准则

实验部分验证本文所提算法的运行性能,主要从2方面来衡量,即误分率(misclassification ratio,MCR)[15]和概率随机(probabilistic rand,PR)索引[16]。

MCR取值范围为[0,1],其值越小,表示分割结果越好。该指标主要表征图像错误分割部分所占的比例。PR利用2个分割结果共同部分测量它们的一致性。PR∈[0,1],其值越大算法分割效果越好。

2.2 实验结果与分析

为了验证本文所提出的分割算法,在实验部分,构建以Matlab 2012b为基础的测试环境。硬件平台主要指标为:8 GB内存以及英特尔酷睿3.2 GHzCPU。

实验主要在合成图像[17]和实际遥感图像[18]上进行,以验证算法的有效性和鲁棒性。对比算法包括TMM、自适应均值滤波t混合模型(SMM-AM)[19]、基于马尔科夫随机场的t混合模型(SCSMM)[20]。本文方法为花粉K-meanst分布混合模型法(KF_TMM)。

实验方案为:首先,分别对合成图像添加高斯噪声进行污染,运行各对比算法,进行结果分析;然后,针对真实遥感图像,运行各算法并对结果进行对比分析。

1)合成图像。图2(a)为合成图像原图,图2(b)为添加高斯噪声(均值0,方差0.05)的图像,图2(c)至图2 (f)为运行各算法的分割结果。

图2 合成图像分割结果对比

从图2可以看出,各算法都可以进行分割但效果各异。TMM分割出来的图像不论是浅色的区域还是深色的区域,虽然轮廓很清楚但图中噪声点明显较多。SMM-AM和SCSMM 2种算法较传统TMM结果有很大改进,各区域的边界更加明显,在对噪声的抑制方面SCSMM优于SMM-AM,前者噪声更少。图2(f)为本文方法分割的结果。从图中可以看出,相对于其他3种算法,噪声明显减少,分割出的区域界限分明,说明本文算法的抗噪性强。定量结果如表1所示。

表1 定量评估结果

从表1可以看出,本文算法在2个评价指标即误分率(MCR)和概率随机(PR)索引方面都优于其他对比算法。但是,本文算法在运行时间方面不是最优的,主要是因为该算法分别在聚类算法、花粉算法和混合模型方面都进行了改进,使得整体算法较复杂,增加了运行耗时。

为了验证本文算法的抗噪性能,对合成图像添加均值0,方差分别为0.01、0.03、0.05、0.07、0.09的高斯噪声,运行本文算法。各噪声下MCR和PR曲线对比结果如图3所示。

图3 抗噪性能对比图

由图3可以看出,随着高斯噪声方差的增大,MCR增加,说明在高噪声下本文算法的分割效果有所降低,但从曲线图可以看出曲线增幅不大,说明该方法受噪声影响不大。同理可以看出,虽然噪声会影响PR索引的值但影响不大,曲线降幅不大,说明本文方法抗噪性强。

2)实际遥感图像。为进一步测试本文算法的有效性,在图4(a)的实际遥感图像上运行各算法进行分割,结果如图4(b)至图4(e)所示。

图4结果显示,各算法分割效果有明显不同。TMM和SMM-AM分割出来的图像轮廓清晰,但是对于船只和岸上建筑物的细节处理欠佳。SCSMM分割出来的图像较前者有很大改进,建筑物清晰,基本能被识别出来,但对水域的划分欠佳,整体的水域被划分为不同的部分。本文方法分割的结果优于其他3种算法,图中目标清晰,整个水域划分为一体。定量结果如表2所示。

图4 实际遥感图像分割结果对比

表2 定量评估结果

从表2可以看出,本文算法在2个评价指标MCR和PR方面都优于其他对比算法。因为算法整体较复杂,运行耗时不如对比算法。

以上实验结果表明本文算法分割图像效果好,抗噪能力强。

3 结束语

本研究提出了一种新的遥感图像分割方法,该方法主要基于聚类算法和t分布混合模型。为提高最终的图像分割效果,使用花粉算法对聚类算法进行改进,使用EM算法求解t分布混合模型中的参数。将改进后的算法应用于仿真图像和实际遥感图像,运行结果表明,该算法抗噪能力强、精度高且分割效果好。

猜你喜欢
高斯分布花粉聚类
花粉的烦恼
利用Box-Cox变换对移动通信中小区级业务流量分布的研究
2种非对称广义高斯分布模型的构造
蜜蜂有礼让行为
基于DBSACN聚类算法的XML文档聚类
花粉过滤器
一种基于改进混合高斯模型的前景检测
基于高斯混合聚类的阵列干涉SAR三维成像
花粉过敏
一种层次初始的聚类个数自适应的聚类方法研究