基于纹理特征的超声图像乳腺肿块识别

2021-02-27 01:29李梓龙谭国平
计算机与现代化 2021年2期
关键词:人工神经网络识别率纹理

李梓龙,吕 勇,谭国平,严 勤

(1.河海大学计算机与信息学院,江苏 南京 211100; 2.河海大学无线通信与智能系统研究所,江苏 南京 211100)

0 引 言

目前,乳腺癌已经成为全世界妇女中常见的疾病[1]。事实上,正常乳腺如果出现肿块、钙化和结构扭曲等状况,会有癌变的可能。尽管现在科技很发达,有很多疾病可以被治愈,但是乳腺癌的病因还不是很清楚,发病机制也非常复杂,因此,早期发现乳腺癌对于提高生存率是非常重要的。近年来,各种成像技术如超声成像、X线检查、MRI等手段用于对乳腺进行早期的检查[2]。在许多成像技术中,超声成像由于成本低、不使用电离辐射以及能够从多个平面以高分辨率评估等优点,多年来在乳腺癌检测中发挥着基础性作用。然而这项技术在很大程度上依赖于医生的临床经验,导致许多普通患者常常需做一些不必要的深入检查[3]。因此,使用计算机辅助检测乳腺癌成为研究的热门[4]。这种辅助检测一般用于大规模筛查,为放射科医生预判影像性质提供一个依据。目前,有许多研究提出了乳腺超声图像中病变增生鉴别诊断的方法[5-16]。一方面,一些研究尝试提取图像的纹理特征以及乳腺的生物特征,然后使用神经网络等进行识别分类;另一方面,一些研究使用深度学习,将特征提取和识别分类都交给深度神经网络,但由于大量的乳腺超声图像难以获得,所以这方面研究较少且以迁移学习为主。总而言之,这些研究都是在超声图像存在乳腺肿块的基础上判别其是否癌变。事实上,大部分的乳腺超声图像是不存在乳腺肿块的,因此单独对乳腺肿块存在与否进行识别是必要的。近期,Acharya等人[17]设计了一种专门判别乳腺肿块存在与否的方法,使得研究识别乳腺肿块的方法具有较高的可行性。本文针对乳腺超声图像小样本数据集,使用人工神经网络对提取的图像纹理特征进行乳腺肿块识别,实验效果良好。

1 方 法

本文提出的算法流程如图1所示。首先对输入的原始图像采用最大响应滤波进行去噪处理,去除超声图像中特有的斑点等噪声干扰;然后将输出得到的滤波图像进行特征提取,从而得到其灰度直方图特征和灰度共生矩阵特征的统计量;最后将得到的统计量特征作为输入训练人工神经网络,得到训练好的神经网络模型,并利用此模型完成对未知乳腺的识别分类。

图1 乳腺肿块识别方法流程图

1.1 图像的预处理

由于超声图像的成像特性,原始乳腺超声图像存在许多噪声干扰如斑点噪声和混响伪影等[18],如图2所示。因此,为了更加准确地提取出图像目标区域的纹理特征,需要对其进行进一步的去噪增强处理。

图2 未经滤波处理的乳腺图像目标区域

本文采用最大响应滤波器[19]对所得到的乳腺图像目标区域进行滤波去噪处理。这种滤波器具有旋转不变性且在不同的方向和尺度上提供最大的滤波器响应。本文分别对图像进行了高斯滤波、拉普拉斯滤波和各向异性高斯滤波,在每个像素点上进行比较,取最大响应作为此点滤波后的结果,从而最终得到了整个图像的最大滤波响应。这样做的好处是去除了部分噪声,并且在一定程度上保持了边缘组织结构的完整性,如图3所示。

图3 使用最大响应滤波处理后的乳腺图像目标区域

1.2 图像的纹理特征提取

在对目标区域进行了滤波处理后,就需要对所得的滤波图像进行特征提取。本文主要提取图像的一阶、二阶纹理特征即图像的灰度直方图统计特征和灰度共生矩阵特征。

图像的灰度直方图统计是对图像中灰度级分布的统计,将数字图像中的所有像素,按照灰度值的大小统计其出现的频率,反映了图像中某种灰度出现的频率。这种特征主要描述了图像整体的纹理分布特性。图像的灰度共生矩阵是由具有某种空间位置关系的2个像素联合分布构成,具体可以看成2个像素灰度对的联合直方图。这种特征可以较好地反映局部纹理结构变化。

考虑到本文实际使用的图像样本规模较小,如果直接将直方图和灰度共生矩阵组合作为图像特征,其维数太多,容易造成过拟合问题。有研究表明灰度共生矩阵的对比度、相关性、能量、逆差矩这4个统计量互不相关,便于计算且能给出较高的分类精度[20]。其中,对比度主要度量图像局部亮度变化,反映了图像的清晰度和局部纹理的沟纹深浅;能量主要度量图像纹理灰度变化稳定程度,反映了图像灰度分布均匀程度和纹理粗细度;逆差矩主要度量图像局部纹理变化,反映了图像纹理局部变化的大小;相关性主要度量图像灰度级在行或列方向上相似程度,反映了局部灰度相关性。因此,对照着灰度共生矩阵,本文从不同的角度选取直方图的4个统计量:均值、标准差、熵、平滑度。其中,均值主要反映图像整体纹理的亮暗程度;标准差主要反映图像整体纹理的平均对比度;熵主要反映图像纹理所含信息量的大小;平滑度主要反映图像整体纹理的一致程度。具体而言,本文首先求得图像的灰度直方图和灰度共生矩阵,然后分别提取上述这2个特征的统计量共计8个,最后将这8个统计量组合形成一个8维特征向量,作为图像最后的总特征。通过提取图像一阶、二阶特征代表性较强的统计量作为图像总特征,在考虑图像局部纹理特征的基础上增加全局的纹理特征,并大大减少了总特征维数,从而在保证图像特征信息损失较小的同时极大程度上降低了过拟合风险。

1.3 图像的识别分类

通过上述步骤,本文提取到了乳腺超声图像的一阶、二阶纹理特征共计8个,并将它们组合起来,作为图像的一个8维特征向量。然后,将此作为输入训练一个基于误差反向传播(Error Back Propagation)算法的人工神经网络。本文设计的神经网络是一种由输入层、隐藏层、输出层组成的3层前馈网络,训练时通过不断的误差反向传播调整层内参数,以期使网络的实际输出值最大程度上逼近期望输出值。最后通过训练好的神经网络对未知乳腺超声图像进行识别分类。具体而言,本文在输入层中对纹理特征进行归一化处理,即将特征数据归一到[-1,1]之间,这样做的好处是可以减少计算量且加快神经网络的收敛。在隐藏层中,将归一后的特征通过全连接的方式连接到隐藏层中的每个神经元,并通过激活函数得到更深层次的特征值。本文考虑到所提取的各个特征相差较大,因此选择效果较好的双曲正切函数作为隐藏层的激活函数,而神经元个数的选取主要依照公式(1)[21]。

(1)

其中,m是隐藏层的神经元数目,n是输入的特征向量维数,l是输出的个数,α是1~10的常数。

在输出层中,将隐藏层所得到的特征值通过全连接的方式连接到输出层的每个神经元中,由于本文的目标是识别出乳腺中存在的肿块,可以看成将乳腺超声图像分类成含肿块和不含肿块的二分类问题,因此将输出层的神经元数定为2个,分别作为最终图像可能属于的类别,并通过softmax函数将这种结果映射成概率形式,从而方便判断。此外,在训练神经网络模型时对于模型内部参数的调整本文采用了trianlm,这种训练算法对于本文较小规模的神经网络来说训练速度最快且模型收敛效果较好。

2 实验结果

2.1 实验样本

与普通的图像相比,真实的带标记超声图像一般无法从医院大量获取,因此本文的样本集规模较小。具体而言,数据样本集由133幅乳腺超声图像组成,其中包括2种不同类型:84幅含肿块乳腺图像和49幅正常乳腺图像。

医学图像识别最大的限制在于训练数据集的数量级很难达到万级。因此,对于小样本的训练效果测试是有必要的。对于训练样本与测试样本数量比例的划分,本文刚开始按照一般训练的规则:训练集与验证集的比例为3∶1,虽然识别效果很好(测试总识别率可以达到90%),但由于总的样本较小,导致测试样本数量太少,结论普适性较差。所以尝试增大测试样本比例,在尽可能降低过拟合风险的同时最大程度保证测试结果的普适性,结果发现当训练集与验证集的比例为1∶1时,测试样本的数量级与训练样本持平,一定程度上提高了结果的普适性。而且为了防止过拟合现象的发生,通过不断地调参,特征维数为8、神经元数目为3且神经网络层数为3时识别效果最好(达到86.7%),三者增大或减小识别效果均会下降;当训练集与验证集的比例为1∶2时,为了防止过拟合的发生,一般需要减少训练参数,但在减少参数数目的过程中,识别结果都较差(最高只达到75.5%)。所以这种情况下,虽然测试样本比例较大,结论有更好的普适性,但不管怎样调整特征维数及训练参数数目识别效果都较差,只能通过增大训练样本提升识别效果,所以存在过拟合现象。总的来说,使训练集与验证集比例为1∶1,是可以将训练参数数目调整到与特征维数和训练样本数目相匹配,达到较好的识别效果,从而避免过拟合现象的,而且也增大了测试样本比例,提升了结论的普适性。具体而言,选取了73个作为训练样本(正常乳腺29个,含肿块乳腺44个),剩余60个作为测试样本(正常乳腺20个,含肿块乳腺40个),在此基础上与使用其他滤波处理和分类器进行性能对比分析。

2.2 实验结果对比与分析

所有测试过程均在Matlab R2018a平台上实现。测试过程中,在滤波处理方面,主要选取了巴特沃斯高通滤波器[22]、巴特沃斯低通滤波器[22]、加权核范数最小化滤波器[23]与本方案的最大响应滤波器进行对比测试;在纹理特征方面,测试不同维数特征向量(从一阶、二阶纹理特征统计量选取)的影响;在分类器的使用上,主要选取了高斯混合模型、支持向量机与人工神经网络分类器进行对比测试。

表1、表2分别展示了最大响应滤波处理前后人工神经网络隐藏层的神经元数目对识别率的影响。表中的神经元个数均依照公式(1)选取,8维特征为一阶、二阶特征的8个统计量,4维特征为一阶特征的4个统计量,识别率均为60个测试样本中识别的正确率。可以看出,在不进行任何去噪增强处理情况下,人工神经网络分类在8维特征、4神经元时效果最好,之后由于过拟合问题其识别率随着神经元数目的增大而下降,并且对于特征方面来说,一阶、二阶纹理特征组合的识别率高于一阶纹理特征,说明增加这种反映局部纹理差异的特征对人工神经网络的分类性能有一定的提升;在使用最大响应滤波处理后,人工神经网络在8维特征、3神经元时识别率最高,较之滤波前神经网络训练参数有所减少,在节约了一定的网络训练时间的同时改善了识别效果,而4维特征时的识别率较之滤波前有明显的下降,说明对于人工神经网络而言最大响应滤波处理更倾向于改善具有更多种类特征的识别效果。总体而言,本文使用滤波处理后对于人工神经网络识别乳腺肿块效果有一定的改善。

表1 不使用任何滤波处理的不同特征维数下人工神经网络分类识别率与隐藏层神经元数目关系 单位:%

表2 使用最大响应滤波器的不同特征维数下人工神经网络分类识别率与隐藏层神经元数目关系 单位:%

表3、表4展示了在进行最大响应滤波处理下高斯混合模型与支持向量机各自主要参数对识别率的影响。表中的2维特征为一阶特征的熵和二阶特征的逆差矩,4维特征为一阶特征的熵、平滑度和二阶特征的逆差矩、相关性,6维特征为一阶特征的标准差、熵、平滑度和二阶特征的能量、逆差矩、相关性,8维特征为一阶、二阶特征的8个统计量。可以看出,高斯混合模型在8维特征、3高斯混合数时识别率最高,然后由于过拟合问题识别率随着混合数的增加而降低,并且随着特征种类的减少识别率整体上呈下降趋势;支持向量机在使用sigmoid核函数时2、4、6特征维数的识别率均达到最高,但整体上较之人工神经网络和高斯混合模型识别率有一定的降低。分析上述实验结果可知,相较于支持向量机这种通过寻找最优线平面来分类的分类器,人工神经网络和高斯混合模型这种通过深度训练多层参数来逼近正确类别的分类器对于将一阶、二阶纹理特征统计量作为乳腺肿块特征的小规模乳腺超声图像数据集有着更好的识别效果,且对于后者,一阶、二阶纹理特征统计量的结合整体上对于乳腺肿块的识别效果有一定的改善。

表3 使用最大响应滤波器的不同特征维数下高斯混合模型分类识别率与高斯混合数目关系 单位:%

表4 使用最大响应滤波器的不同特征维数下支持向量机分类识别率与不同核函数关系 单位:%

表5进一步展示了使用最大响应滤波器后人工神经网络、高斯混合模型与支持向量机分类器能达到的最好识别性能指标。其中,敏感度为对于测试样本中含肿块乳腺识别的正确率,反映了方法对于乳腺肿块的识别效果;特异度为对于测试样本中正常乳腺识别的正确率,反映了方法对于正常肿块的识别效果。可以看出,对于识别率,人工神经网络分类器效果最好,达到86.7%;对于敏感度,高斯混合模型分类器效果最好,达到97.5%;对于特异度,人工神经网络分类器效果最好,达到80%。综合来看,在分类器方面,本文使用人工神经网络对乳腺肿块的整体识别性能有一定的提升。

表5 使用最大响应滤波器下各分类器最高识别性能对比

根据上述得到的实验结果与分析,可知在加入滤波预处理操作后,提取乳腺超声图像的8维一阶、二阶纹理特征且使用人工神经网络分类器对于乳腺肿块识别效果较好,且较之预处理前有一定的提升。因此,本文在提取图像8维纹理特征并使用人工神经网络进行分类的前提下,尝试不同滤波器进行预处理,并对其识别效果进行对比。对于进行对比的滤波器选取,本文主要依据滤波目的的2个方面:去除噪声和边缘结构增强,且这2方面是相互制约的。在实验中,主要使用峰值信噪比(Peak Signal-to-noise Ratio, PSNR)和结构相似性(Structural Similarity Index, SSIM)[24]这2个评判指标分别对所选滤波器的去除噪声和边缘结构增强能力进行量化对比。其中,PSNR值越大,说明滤波器去噪能力越强;SSIM值越大,说明滤波器保存的组织结构信息越完整,具体公式如下:

(2)

其中,X、Y为滤波前、后的2幅M×N的图像,xij和yij分别为图像X和Y中第i行、第j列的像素值。

(3)

其中,x、y为滤波前、后2幅图像中分割的图像块,μx、μy分别为x、y的均值,σx、σy分别为x、y的标准差,σxy为x、y的协方差,c1和c2是避免分母为0的2个常数。

对于完整的图像X、Y,一般用Mean Structural Similarity Index(MSSIM)值评价图像整体的结构相似性。一般来说,MSSIM值的范围在[-1,1]之间,当值为0时,说明2幅图的结构没有任何联系;当值越趋于1,说明2幅图的结构越相似,具体公式如下:

(4)

其中,X、Y是滤波前、后的2幅图像,num是图像的总图像块数,SSIM(xi,yi)是第i块图像块的SSIM值。

本文用巴特沃斯低通滤波器滤除图像中的高斯白噪声,用巴特沃斯高通滤波器增强图像的边缘和区域间对比度。此外,本文还选择了与最大响应滤波器目的相同的加权核范数最小化滤波器,即牺牲一定噪声抑制能力而保持边缘组织结构。表6、表7分别展示了所选滤波器去噪增强能力的量化值及使用后的识别性能。可以看出,就单纯地去噪或边缘结构增强而言,两者对增生乳腺超声图像的识别效果差异很小,而在处理时对这两者进行一个均衡能使识别效果得到进一步的提升。在识别性能上,加权核范数最小化滤波器相较于本文所使用的最大响应滤波器有一定的提升,但其处理的时间却远远高于最大响应滤波器。一般来说,对于处理一张乳腺超声图像,最大响应滤波器的时间复杂度为O(n),加权核范数最小化滤波器的时间复杂度为O(n4)。在实际的测试中,最大响应滤波器平均处理每张图需要花费1 s,而加权核范数最小化滤波器则需要4 min。

根据上述一系列的对比试验可知,本文使用最大响应滤波器进行预处理,然后提取图像8维特征向量,最后使用人工神经网络进行识别分类,在节约了大量识别时间的同时提升了乳腺肿块的识别性能。

表6 各滤波器去噪增强能力指标比较

表7 进行不同滤波处理的识别性能

3 结束语

本文提出了一种基于纹理特征提取的乳腺肿块超声图像识别方法。从处理整体图像的角度出发,不用考虑结节分割技术,从而减少了算法的复杂度。滤波处理方面,使用最大响应滤波器,将总的识别率提升到86.7%,敏感度可达到90%,特异度达到80%,增加了分类的精度,且较之效果更好的滤波方法,算法时间复杂度从O(n4)降为O(n)。测试时,为了适应乳腺超声图像难以大规模获得的特点,将训练样本和测试样本数量比例调为1∶1,并做了一系列的横向、纵向实验对比,以测试所提方法对于较小规模样本识别的效果。实验结果表明:1)对于较小规模样本的训练识别,在提取图像简单的一阶、二阶纹理特征统计量并使用人工神经网络进行识别前,如果能对目标图像进行很好的增强去噪处理,其识别性能得到较好的提升;2)对乳腺超声图像做是否有肿块的识别是可行且效果良好的,能够为乳腺癌变检测算法提供一个前提的数据筛选参考。

猜你喜欢
人工神经网络识别率纹理
利用人工神经网络快速计算木星系磁坐标
基于BM3D的复杂纹理区域图像去噪
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
人工神经网络实现简单字母的识别
使用纹理叠加添加艺术画特效
滑动电接触摩擦力的BP与RBF人工神经网络建模
提升高速公路MTC二次抓拍车牌识别率方案研究
TEXTURE ON TEXTURE质地上的纹理
高速公路机电日常维护中车牌识别率分析系统的应用