基于自适应标注样本的高分辨率影像道路提取

2022-02-28 12:08袁欢欢隋立春徐家利李彦东李冠宇
科学技术与工程 2022年5期
关键词:决策树标签聚类

袁欢欢, 隋立春, 徐家利, 李彦东, 李冠宇

(长安大学地质工程与测绘学院, 西安 710061)

道路作为交通网络的主要组成部分,也是重要的基础地理信息,在智能交通、物流配送、资源环境等方面起着关键作用。目前遥感影像道路提取方法很多依赖人工操作,自动化程度低,因而如何从影像上快速高效获取准确的道路成为研究重点。

目前道路提取的算法主要有以下几类[1]:第一类是基于像素层次的道路提取,该类算法是在提取像素特征如光谱特征的基础上,根据分类规则依次判别像素点是否划分为道路,获得道路提取结果。洪绍轩等[2]提出融合模糊C均值聚类(fuzzyC-means, FCM)与支持向量机(support vector machine,SVM)的提取算法,提高道路提取的完整度;Shi等[3]提出SVM结合光谱与空间特征的算法提取道路区域,减少错误提取的道路像元数目。第二类为基于对象层次的提取算法,采用分割算法将影像分成不同的对象,结合对象的光谱特征、形状特征、纹理特征、语义特征等选取最优特征组合,提取道路信息。周家香等[4]使用Mean-shift算法分割影像,引入形状因子去除干扰区域,实现城区道路网的提取;曹云刚等[5]在多尺度分割基础上决策融合像素级与对象级特征,采用SVM对特征分类提取道路,减少粘连现象。第三类为基于知识层次的道路提取,综合学习已给定的先验知识或利用卷积神经网络自主学习的知识提取道路。Poullis等[1]融合感知编组理论提出了自动化检测特征、分类、提取复杂道路网的框架,对于卫星影像与激光雷达数据均有较好的道路提取效果;Buslaev等[6]提出以基于预训练的ResNet-34网络为编码器、U-Net网络为解码器的卷积神经网络,设计混合损失函数,稳健而准确地提取影像道路。

现有较高精度的道路提取算法大多属于监督学习,需要大量带有标签的样本进行训练,但实际应用中难以人工标注大规模的道路样本集。因此现提出一种基于自适应标注样本的高分辨率遥感影像道路提取算法,利用基于马氏距离的模糊C均值聚类算法进行初步道路分类,根据分类结果标注样本;利用基于二次投票的集成去噪算法定位标签错误的噪声样本,更新样本数据集;利用随机森林训练更新的样本集,获得道路提取结果;最后采用多方向形态学滤波,去除非道路区域,得到最终提取道路的二值图像。

1 算法基本原理

1.1 基于改进FCM算法的初步样本标注

本文算法流程如图1所示。

模糊C均值聚类算法是通过求解最小目标函数,得到像元对不同类别的隶属度,从而实现聚类的一种非监督聚类算法[7-8]。

假设X={x1,x2,…,xn}是影像像元的灰度值集合,且影像共有c个类别,则影像的模糊集合表示为A={[μA(xi),xi]|xi∈A}。

隶属函数J(U,C)表示为

(1)

式(1)中:dij(ci,xj)=‖ci-xj‖;U为隶属度矩阵;C为聚类中心;m表示模糊程度,一般取值为2。

传统的FCM算法采用欧氏距离计算目标函数,这一准则成立的前提是数据在特征空间中不相关,各簇具有相同的超球形结构。实际影像聚类中不满足该条件,传统FCM算法聚类效果不佳。欧式距离计算样本间的距离,而马氏距离计算样本与分布总体的距离,能够克服欧氏距离的缺点,并且在高维特征数据有着计算优势。因此采取基于马氏距离的FCM算法提取道路。

马氏距离计算公式为

(2)

式(2)中:Σ为协方差矩阵。

此时隶属函数调整为

(3)

约束条件为

(4)

基于马氏距离的FCM算法的样本标注首先输入待标注影像,设置各参数,初始化聚类中心与隶属度矩阵,通过迭代计算马氏距离更新隶属度矩阵,继而更新聚类中心,直至前后两次误差小于阈值,结束算法。该算法具体实现过程如表1所示。

图1 道路自动提取方法流程Fig.1 The process flow of the proposed approach for automatic extraction of road

表1 改进FCM算法实现过程Table 1 The process of the improved FCM algorithm

1.2 基于二次投票的集成去噪算法

样本的类别标签来源于上述改进FCM算法的标注,不可避免地存在特征数据与类别标签不一致的情况,此类样本即为标签噪声样本。标签噪声样本对于分类器的决策会产生较大偏差,造成提取道路中包含较多错误分类的像元。

针对标签噪声的问题,处理方法主要有两种,一类是利用模型对标签噪声鲁棒的特性降低噪声干扰[9],另一类是建立模型检测并剔除标签噪声[10]。设计了基于二次投票的集成去噪算法,首先通过K折交叉验证的方式多次划分数据集,即每个数据集下轮流选择1份数据作为测试集,其余K-1份数据作为训练集。然后分别对每一数据集采用训练样本集建立随机森林模型,按照多数投票的方式得到测试集的噪声样本。最后对所有数据集预测的噪声样本二次投票,去除误分类的正确标签样本,获得最终的噪声样本集。

样本去噪算法的主要步骤如下。

步骤1数据准备。原图像与标签图像构成样本数据集,采取K折交叉验证方法对数据集多次随机划分成m个不同的数据块,每个数据块划分为训练集与测试集。

步骤2定位标签噪声样本。对于任一数据块,首先将训练集投入随机森林训练得到n个决策树。然后对于测试集的每个样本进行统计,如果超过半数的决策树未能正确分类该样本,将此样本加入噪声样本集。

步骤3二次投票表决噪声样本。m个数据块决策出m个噪声样本集,采取一致投票方法获得交集,即为最终的标签噪声样本集。在之后提取道路的算法中不参与模型训练。

本文算法剔除噪声样本的效果如图2所示,经本文算法去除噪声后,在不同噪声比例下,训练样本集的标签正确率均得到明显提高。

图2 不同噪声比例下的去噪效果Fig.2 Noise cleaning results with different mislabeled ratios

1.3 基于随机森林算法提取道路

随机森林算法是以决策树为基分类器的一种集成学习算法,并且引入随机属性扰动,降低过拟合风险,噪声容忍度高,性能优异[11-12]。随机森林提取道路区域的主要步骤为。

步骤1首先采用 bootstrap有放回重抽样方法得到n个训练样本子集,每次未被抽取的样本作为袋外样本。本算法中训练集为经过样本标签噪声检测后的数据集。

步骤2设置参数,建立T棵决策树模型。每棵决策树的根节点包含所有训练样本,从根节点根据基尼系数G进行一系列属性判别测试,最后叶节点储存决策结果。基尼系数计算公式为

(5)

式(5)中:D为样本集合;c为数据集中包含类别数目;pk为D中第k类样本所占比例。

步骤3T棵决策树组成随机森林,将测试集输入模型中,每棵树预测出样本的分类结果,进行多数投票,票数最高者为样本的类别属性。

步骤4输出道路二值图像。

其中,决策树数量T极大影响随机森林的分类性能,如图3所示。当T较小时,随机森林的袋外分类(out-of-bag,OOB)误差明显较大;当T逐渐增大时,袋外分类误差明显降低,但运算效率同样降低。选择决策树数量T,必须兼顾提取精度与运算效率,因此在袋外分类误差趋于稳定时,需要选择较小的决策树数量节省计算开销。

图3 参数T对分类误差的影响Fig.3 The influence of parameter T on classification error

1.4 提取道路优化处理

高分辨率影像空间分辨率增大造成同物异谱现象增加,道路提取结果易受车辆、阴影、建筑物、空地等干扰,路面出现孔洞、粘连等现象,道路边缘的平行性遭到破坏,提取的道路结果目视效果较差。

数学形态学是数学与拓扑学的有机结合,将图像处理的复杂操作转换为简单的集合运算。其基本思想是借助带有对象某种特征的结构元素进行影像中特定目标的识别与检测。数学形态学中的膨胀、腐蚀及其组合运算可以有效填充孔洞、去除毛刺、消除孤立噪声,但普通结构元素的形态学运算无法区分建筑物等其他地物与道路混叠的区域。在高分辨率遥感影像中,道路呈现细长且有一定像素宽度的长条状,具有方向性。因此可以构造一种具有明显道路特征的多方向形态学滤波[13],将道路从粘连区域中独立出来。

结构元素EL,αi表达式为

(6)

式(6)中:αi为方向角;L为结构元素的长度。

利用该结构元素对道路二值图像进行开运算,提取道路区域。

多方向结构元素显示如图4(a)所示,图4(b)与图4(c)为道路片段利用该结构元素形态学滤波去除非道路区域的作用效果。

图4 多方向形态学滤波结果Fig.4 Multi-direction morphological filtering results

2 试验结果与分析

算法试验环境为Intel(R) Core(TM) i7-9750H CPU、8 GB内存、Win10系统,在MATLAB 2019b平台实现,共设计了3组实验,从不同方法、不同分辨率、不同道路类型进行对比道路提取效果,验证本文算法的有效性。

道路提取算法的精度评价从定性和定量两个角度出发,定性评价主要是从目视效果上对比道路提取是否完整、是否存在毛刺、孔洞等;而定量评价采用完整率(completeness,Com)、正确率(correctness,Cor)、检测质量(quality,Q)等指标综合评价道路提取效果[14]。具体指标计算公式为

(8)

(9)

(10)

式中:TP为正确提取的道路像元个数;FN为未提取出的道路像元个数;FP为错误提取的道路像元个数。

试验数据选取Massachusetts Roads Dataset[15]与预处理后的ZY-3卫星影像数据。前者参考道路图像来源于数据集的标记图像,后者为人工目视解译结果。试验数据相关信息如表2所示。

表2 3组试验数据信息Table 2 Three experimental datasets

通过与文献[2-4]中算法对比,3组实验结果分别如图5~图7所示,各方法精度评价如表3所示。

试验1数据区域为包含简单直线道路的城镇区域,地物类型包括道路、建筑物及少量植被。由图5中的提取结果可以看出,几种算法都可以较为完整地提取道路。但文献[2]提取道路存在较多的断裂,毛刺现象突出;面向对象的文献[4]方法提取出的道路存在少量的粘连现象,道路与部分空地未分离开;本文算法提取结果的视觉效果较好,基本上将全部道路提取完整,从定量角度看,本文算法与其他两种算法相比,完整率、正确率、提取质量上均最优。

试验2区域由曲率较大的道路组成,道路标志线与部分土地植被光谱特征相似,提取难度增加。由图6可知,相较文献[2]与文献[4]算法,本文算法对于城郊曲线型道路提取效果较好,提取结果光滑流畅,基本保持道路边缘的平行性,而且提取道路较为完整,正确率及提取质量高于其他两种算法。

试验3数据为ZY-3号卫星数据,分辨率较航空影像有所降低,场景较为复杂,存在较多建筑物遮挡,部分阴影下的道路区域光谱特征不明显,几种算法整体上提取结果较差。本文算法相较其他算法较为完整地提取出主要道路,但未能准确提取出阴影下的道路区域,造成道路上的断裂、遗漏等。道路提取的完整率、正确率与提取质量数值相对较高,优于其他算法,但与试验1与试验2中的结果相比,提取效果较差。

图5 试验数据1不同方法道路提取结果Fig.5 The road extraction results by different methods of data1

图6 试验数据2不同方法道路提取结果Fig.6 The road extraction results by different methods of data2

图7 试验数据3不同方法道路提取结果Fig.7 The road extraction results by different methods of data3

表3 不同算法提取精度Table 3 Extraction accuracy of different algorithms

3 结论

提出了一种基于自适应标注样本的提取遥感影像道路方法,得到以下结论。

(1)该方法自主标注训练样本的类别标签,避免人工采集样本数据,提高作业效率,得到较为精确的道路提取结果。

(2)3组实验通过不同场景、不同分辨率进行各方法的对比,实验结果表明,本文算法有效改善了道路提取中的椒盐噪声以及相似地物之间的粘连现象。对于高分辨率遥感影像中直线型及曲线型道路均有较好的道路提取效果。

(3)对于存在较多建筑物阴影、光谱特征受到破坏的城镇复杂影像提取效果一般,但优于其他算法。

自适应样本标注方法得到的类别标签含有一定噪声,影响道路提取精度,因此在今后的研究中将探索如何更精准地标注类别标签。另外,如何提取阴影遮挡下的道路区域需要进一步研究。

猜你喜欢
决策树标签聚类
基于K-means聚类的车-地无线通信场强研究
决策树和随机森林方法在管理决策中的应用
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于高斯混合聚类的阵列干涉SAR三维成像
基于决策树的出租车乘客出行目的识别
基于Spark平台的K-means聚类算法改进及并行化实现
基于模糊关联规则和决策树的图像自动标注
基于改进的遗传算法的模糊聚类算法
让衣柜摆脱“杂乱无章”的标签