基于改进EfficientNet的木材识别研究

2023-08-08 03:29戴天虹翟冰

森林工程 2023年4期

戴天虹翟冰

摘要：木材是一种常见的可再生资源，不同品种的木材有着不同的用途和商业价值。传统的木材分类工作主要依靠人工完成，工作效率较低。为提高木材识别效率，提出一种基于改进EfficientNet的木材识别方法。该方法以EfficientNet 作为基准模型，采用大核注意力模块代替部分移动翻转瓶颈卷积（Mobile Inverted Bottleneck Convolution， MBConv）模块中的压缩激励网络（squeeze-and-excitation networks， SENet），联合2种注意力机制使网络能更有效地提取木材细粒度信息。训练过程中引入渐进式学习策略，采用不同尺寸大小的图像和不同丢弃概率的Dropout层进行训练，进一步提升模型训练速度和识别准确率。试验结果表明，改进后的EfficientNet模型识别准确率达到99.83%，相比于未改进的EfficientNet模型提高了0.49%，且模型参数仅6.16 MB。该研究的模型能够很好地识别木材种类，为移动端部署木材种类识别模型提供参考。

关键词：木材识别；EfficientNet；大核注意力；细粒度信息；渐进式学习

中图分类号：TP391.4 文献标识码：A 文章编号：1006-8023（2023）04-0093-08

Wood Recognition Research Based on Improved EfficientNet

DAI Tianhong， ZHAI Bing

（College of Mechanical and Electrical Engineering， Northeast Forestry University， Harbin 150040， China）

Abstract：Wood is a common renewable resource. Different kinds of wood have different uses and commercial values. The traditional wood classification work mainly depends on manual work， and the work efficiency is low. In order to improve the efficiency of wood recognition， a wood recognition method based on improved EfficientNet is proposed. In this method， EfficientNet is used as the benchmark model， and the large kernel attention module is used to replace part of squeeze-and-excitation networks （SENet） in Mobile Inverted Bottleneck Convolution （MBconv）， and combines the two attention mechanisms to enable the network to extract wood fine grain information more effectively. Progressive learning strategy is introduced in the training process， and images of different sizes and Dropout layers with different discarding probabilities are used for training， which further improves the training speed and recognition accuracy of the model. The experimental results show that the recognition accuracy of the improved EfficientNet model can reach 99.83%， which is 0.49% higher than that of the unimproved EfficientNet model， and the model parameters are only 6.16 MB. The proposed model can identify wood species well， and can provide reference for the deployment of wood species identification model in mobile terminal.

Keywords：Wood recognition; EfficientNet; large kernel attention; fine-grained information; progressive learning

收稿日期：2022-10-22

基金項目：中央高校基本科研业务费专项资金资助（2572019CP17）；黑龙江省自然科学基金项目（C201414）；哈尔滨市科技创新人才项目（2014RFXXJ086）

第一作者简介：戴天虹，教授，硕士生导师。研究方向为木材缺陷检测、图像处理、无线传感器网络路由协议及汇聚节点选址算法等。E-mail： th_2000@sina.com

引文格式：戴天虹，翟冰. 基于改进EfficientNet的木材识别研究[J]. 森林工程， 2023，39（4）：93-100.

DAI T H， ZHAI B. Wood recognition research based on improved EfficientNet[J]. Forest Engineering， 2023， 39（4）：93-100.

0 引言

木材是社会生产活动中重要的物质材料，与人们的生活息息相关。不同种类的木材具有不同的理化性质，从而导致其用途和商业价值各不相同。正确地识别木材类别，对于木材合理利用、质量评定和公平论价等都具有重要意义[1]。

早期的木材分类工作主要依靠人工根据木材物理性质的直观表征，通过观察对比完成，这需要一定的专业经验知识，且容易出现误判，其效率较低。随着计算机视觉技术的发展，木材种类自动识别技术主要包括2类方法，一类是基于传统的机器学习的识别方法，另一类是基于深度学习的识别方法。基于传统的机器学习的识别方法需要人工提取图像特征，例如颜色和纹理等，再运用机器学习的方法进行识别。Wang等[2]采用灰度共生矩阵（Grey Level Co-occurrence Matrix， GLCM）进行特征提取，通过支持向量机（Support Vector Machine， SVM）实现分类，在24种木材的480个样本的数据采集达到了91.7%的识别准确率。戴天虹等[3]利用RGB图像中3个颜色分量的颜色矩信息以及图片的均值和方差构建了11个特征向量对图像进行处理和分级。王克奇等[4]将图像从RGB空间转换到L*a*b*颜色空间，并利用模拟退火算法进行特征选择，最后结合BP（Back Propagation）神经网络和K最近邻（K-Nearest Neighbor， KNN）2种分类方法实现木材分类。Sugiarto等[5]利用方向梯度直方图（Histogram of Oriented Gradient， HOG）提取木材的纹理，然后采用支持向量机进行识别。赵鹏等[6]对高光谱图像进行降维处理并采用非下采样轮廓波变换（Nonsub Sampled Contourlet Transform， NSCT）实现图像融合，再对融合图像使用改进的基本灰度光环矩阵（Improved-Basic Gray Level Aura Matrix， I-BGLAM）提取其纹理特征，同时将高光谱图像的全波段求均并进行光滑处理得到光谱特征，最后融合纹理特征和光谱特征并利用极限学习机（Extreme Learning Machine， ELM）实现分类。传统的机器学习方法在特征提取阶段效率较低，并且所提取的特征相对于样本数据的代表性将直接影响最终识别的效果。近年来，深度学习发展非常迅速，卷积神经网络（ Convolutional Neural Networks，CNN）作为深度学习的重要组成部分，其显著的特征提取性能使他受到广泛关注[7-12]。Gao等[13]提出一种结合卷积神经网络和注意力机制的模型对木材缺陷进行分类。Yang等[14]采用在ImageNet预训练过的VGG19对25种木材进行特征提取和分类，识别准确率达到93.63%。Liu等[15]提出一种基于分割混洗残差（Split-Shuffle-Residual， SSR）的CNN，利用SSR模块在通道维度进行分割和洗牌操作，并通过与残差结构相结合减少了计算消耗成本，对橡胶木板的分类准确率达到了94.86%。

综上，为进一步提高木材图像识别准确率和速度，本研究提出一种基于改进EfficientNet的木材识别方法，通过消融试验证明该方法的有效性，为未来更高效地开展木材识别工作以及移动端设备的模型部署提供技术与方法。

1 改进的EfficientNet模型

1.1 EfficientNet 模型

以往的卷积神经网络模型通常通过调整图像输入分辨率、网络的深度和通道宽度3个参数中的一个来优化模型性能，而这种优化方法需要手动调整网络模型，这使得网络设计的难度增大，且需要消耗更多的资源成本。Tan等[16]提出了一种复合缩放方法对网络的宽度、深度和分辨率进行统一缩放调整，复合缩放公式如式（1）所示。

depth：d=αφ

width：w=βφresolution：r=γφ

s.t.α β2γ2≈2

α≥1，β≥1，γ≥1。（1）

式中：d、w、r分別表示网络的深度、宽度和输入图像的分辨率；φ表示复合缩放系数；α、β、γ表示对应的缩放基数。

通过固定φ=1，并基于式（1）中的限制条件，利用网格搜索得到α=1.2，β=1.1，γ=1.15，至此得到EfficientNetB0模型。以EfficientNetB0为基线模型，即固定α、β、γ的值，对φ取不同的值便可得到EfficientNetB1—B7。因此，EfficientNet共包括8个系列网络，即EfficientNetB0—B7，而EfficientNetB0作为基线模型他的参数量最小，运行速度最快，因此本研究选择EfficientNetB0为基准模型进行改进。

EfficientNetB0模型的结构如图1所示，由2个卷积层、16个移动翻转瓶颈卷积（Mobile Inverted Bottleneck Convolution， MBConv）模块、1个全局平均池化层和1个全连接层（Fully Connected Layers，FC）组成。其中，输入图像的尺寸大小为224×224×3，首先通过Conv3×3进行升维操作得到112×112×32的特征图，然后利用一系列MBConv模块对特征图进行运算处理得到7×7×320的特征图，最后利用Conv1×1、平均池化和全连接层实现输出结果。

MBConv模块结构如图2所示，主要由普通卷积、深度卷积（Depthwise Convolution）（包括BN和Swish）、SE（Squeeze-and-Excitation）模块和Dropout层组成。其中深度卷积是逐通道的卷积运算，即1个卷积核负责1个通道。而1×1的普通卷积也称为逐点卷积，可以在通道维度上对深度卷积产生的特征图进行加权运算，两者结合可有效降低模型的计算量与参数量。SE模块是一种注意力机制，可获取不同通道的权重，通过权重与原始特征相乘得到加权后的输出特征，有助于模型在通道维度上对重要的特征信息产生更多的关注。

1.2 模型改进

近年来，注意力机制在计算机视觉中发挥着越来越重要的作用，可以看作是一个基于输入特征的自适应选择过程。计算机视觉中的注意力可分为通道注意力、空间注意力、时间注意力和分支注意力4个基本类别[17]，不同的注意力在视觉任务中有着不同的效果。除此之外，自注意机制[18-19]是另外一种特殊的注意力机制，起源于自然语言处理（Natural Language Processing，NLP），由于其拥有捕获长距离依赖关系和自适应性的优点，逐渐在计算机视觉领域得到了广泛应用。

大核注意力（Large Kernel Attention，LKA）[20]具有卷积操作和自注意力机制的优势，既兼顾了局部上下文信息和长距离依赖关系，又避免了自注意力机制忽略通道维度的适应性等缺点。大核注意力由3个部分组成：深度卷积、深度膨胀卷积（Depthwise dilation convolution）和逐点卷积（Pointwise convolution）。具体地说，1个K×K的卷积可以分解为1个K/d×K/d的深度膨胀卷积（d为膨胀率，·表示向上取整），1个（2d-1）×（2d-1）的深度卷积和1个1×1的普通卷积，因此连接上述分解后的模块便可组成大核注意力模块。特征图通过大核注意力模块可以计算1个像素点的重要性并生成注意力图。LKA模块结构如图3所示。

LKA模块可以描述为下式

Attention=Conv1×1（DW-D-Conv（DW-Conv（F）））。（2）

Output=AttentionF。（3）

式中：DW-D-Conv表示深度膨胀卷积；DW-Conv表示深度卷积；F∈RC×H×W表示输入特征图，C为通道个数，H为高度，W为宽度；Attention∈RC×H×W是注意力图，注意力图中的值表示每个特征元素的重要性表示元素相乘。

LKA能兼顾长距离依赖关系和局部上下文信息的同时实现通道维度的适应性，进一步优化模型性能。使用LKA模块代替SE模块得到改进后的LKA-MBConv模块，其结构如图4所示（试验中K=21， d=3）。由于LKA模块的参数量相比于SE模块较多且2种注意力机制各有其特点，因此不明显增加模型参数量以及联合2种注意力机制的作用使模型可以更有效地提取图像中的细粒度信息，仅针对含有MBConv模块的阶段（Stage）中的第一个MBConv模块采用LKA-MBConv模块代替，最终改进后的EfficientNetB0如图5所示。

1.3 渐进式学习策略

图像分辨率的大小对训练效率起着重要的作用。在训练过程仅仅单一地改变图像分辨率的大小可能会导致模型准确率的下降。Tan等[21]提出渐进式学习策略，即当采用不同分辨率大小的图像对模型进行训练时，也需要自适应地调整正则化程度以匹配当前图像分辨率，而非采用固定的正则化手段。具体地说，当采用较小分辨率的图像时，其包含的细粒度信息也会缩减，需要较弱的正则化手段促进模型快速学习到简单的特征表示，若此时采用较强的正则化手段则会进一步弱化图像的语义信息，从而难以获得理想的特征表示。当采用较大分辨率的图像时，其包含的细粒度信息较多，更容易过拟合，因此采用更强的正则化手段有助于提高模型的泛化性能。

本研究基于渐进式学习策略将总迭代次数划分为多个阶段，不同阶段中采用不同尺寸的输入图像和不同丢弃概率的Dropout层，在训练过程中引入渐进式学习策略能够有效提高模型训练速度和识别准确率。

2 试验与性能分析

2.1 试验参数设置

采用的操作系统是Windows10 专业版，中央处理器为Intel Core i7-12700H 2.30 GHz，显卡为NVIDIA GeForce RTX3060，显存大小为 6 GB，深度学习框架采用了Pytorch 1.12。试验中基于渐进式学习策略进行模型训练，训练中的輸入图像最小尺寸为128×128，最大尺寸为224×224，测试图像的尺寸始终为224×224，Dropout层丢弃概率最小为0（即不丢弃），最大为0.2，使用Adam优化器训练50个周期，将总的迭代次数分为5个阶段，每个阶段10个周期，在同一个阶段中采用的输入图像尺寸和Dropout丢弃概率相同，渐进式学习中图像尺寸与Dropout概率设置见表1。此外，初始学习率设置为0.000 1，采用学习率指数衰减的方式更新学习率，衰减步长为1步，学习衰减率为0.95。批处理大小设置为16，损失函数采用交叉熵损失。

2.2 数据集

选择了东北地区常见的5类树种（白桦、红松、落叶松、水曲柳和柞木）的木材样本进行试验，木材图像在标准照明体为D65（即色温为6 500 K）的条件下采集，最终获得了包含1 000张图片的源数据库，图片尺寸大小均为512×512，每种木材又分为径切和弦切2类，因此共得到10个类别，其中每种类别各100张图片，各类别数据样本示例如图6所示。

2.3 数据增强

针对源数据样本过少的缺点，对其采用离线数据增强进行扩充，采用的离线数据增强方法有：1）水平翻转，对源数据集图片进行水平翻转；2）随机旋转，对图像随机旋转固定角度（90°、180°和270°）；3）随机添加高斯模糊，由于实际应用场景中图像清晰度各不相同，因此添加高斯模糊有助于模拟真实场景，增强后的图像样例如图7所示（以红松弦切为例）。通过以上离线数据增强最终获得扩充后的数据集共6 025张木材图像。按照大约8∶2的比例划分训练集与测试集，最终得到训练集4 814张图片，测试集1 211张图片，各类别木材图片数量统计见表2。

2.4 试验评价标准

将正确分类的木材图像数量与总的木材图像数量的比值作为分类评价标准，如式（4）所示。

P=NTNA×100%。（4）

式中：P为识别准确率，%；NT为分类正确的木材图像数量，个；NA为全部木材图像数量，个。

2.5 不同模型性能對比

采用ResNet50、MobileNetV3、EfficientNetB0和改进后的EfficientNetB0进行对比，评价指标包括4项，分别是识别准确率（测试集）、模型参数、浮点运算量和批处理时间（批次大小为16），试验结果见表3。不同的模型在50个epoch中的识别准确率变化曲线如图8所示，训练损失值变化曲线如图9所示。

由表3可知，本算法的识别准确率达到了99.83%，要高于ResNet50和MobileNetV3，且相比于基准模型EfficientNetB0提高了0.49%。本模型对于内存的需求不大，模型参数量仅为6.16 MB，要远低于ResNet50，浮点运算量同样低于ResNet50，而准确率要高于ResNet50。虽然本模型参数量和浮点运算量与MobileNetV3和EfficientNetB0相比都要高一些，但是其差距并不大，从批次处理时间上可以看出本模型仅仅高于基准模型0.005 s，在实际应用中的影响较小，而识别准确率相比而言则是显得更为重要。因此整体而言，本模型针对木材识别问题具有一定的应用价值。

2.6 消融试验

1）试验1

为验证改进方法中不同模块和策略对模型性能的贡献，以EfficientNetB0为基准模型设计了消融试验。试验结果见表4。由表4可知，单独引入LKA模块后，识别准确率相比于基准模型提升了0.24%，但总的训练时间有所增长。单独采用渐进式学习策略时，识别准确率相比于基准模型提升了0.08%，同时总的训练时间更短。而联合LKA模块和渐进式学习策略2种改进后，相比于基准模型的识别准确率提升了0.49%，总的训练时间也比基准模型更短。测试结果表明，LKA模块和渐进式学习策略使模型性能均有所提升，二者同时添加的效果最好。因此本研究所提出的模型能更好地胜任木材识别任务。

2）试验2

针对LKA模块中K和d的取值对最终模型性能的影响进行了试验。以本模型为基准进行了对比，结果见表5。由表5可知，当K和d分别取值21和3或28和4时，模型性能最好，这表明大核卷积对于视觉任务的重要性。与分解21×21的大核卷积相比，采用分解28×28的大核卷积的模型性能并无明显提升，但分解28×28的大核卷积会使模型参数量增加，因此本模型在试验中将K和d 设置为21和3。

3）试验3

针对基准模型中MBConv模块内的SE模块替换为LKA模块的方案设计了对比试验，即采用2种方案来验证不同的改进对模型性能的影响。方案1是本模型，即基准模型中含有MBConv模块的阶段中的第一个MBConv模块内的SE模块替换为LKA模块；方案2则是将基准模型中所有MBConv模块内的SE模块替换为LKA模块。试验结果见表6。由表6可知，虽然方案2实现了比基准模型更高的识别准确率，但是方案1（本模型）相比于基准模型提升更大，而且相比于方案2，方案1的模型参数和浮点运算量更小，由此可见联合2种注意力机制的模型性能更好。因此综合考虑下，本模型更适合移动端的部署。

2.7 混淆矩阵

混淆矩阵是表示精度评价的一种标准格式，经常被用来描述分类模型在测试数据上的性能。本试验中10个类别的混淆矩阵如图10所示，横轴表示预测类别，纵轴表示真实类别，蓝色深浅表示识别的准确性，颜色越深，识别准确率越高。从图10可知，改进后的模型除了第6类（水曲柳径切）识别存在误差，其余类别均能百分百识别正确，总的识别率能达到99%以上，因此改进的模型实现了预期效果，能够很好地识别多数木材种类，可以为自动化木材种类识别提供技术参考。

3 结论

针对木材识别问题提出一种基于改进EfficientNet的识别方法。该方法引入大核注意力模块和渐进式学习策略，有效增强了模型对细粒度特征信息的提取能力，加快了模型训练速度，提高了模型识别准确率。消融试验对比了不同模块与策略对模型性能的影响。此外，虽然改进后的模型实现了更高的识别准确率，但其相比于基准模型在参数量和浮点运算量都有所提升，从批处理时间上来看该提升对模型处理图片速度影响甚微，仍适合部署于资源有限的移动端设备，但是还需进一步优化。同时，本试验所采用的木材数据集规模有限，因此如何进一步优化模型结构和进一步挖掘细粒度特征信息，使模型参数量和浮点运算量减小的同时更加适合移动端部署和更广泛的木材识别任务是下一步要研究的内容。

【参考文献】

[1]晁晓菲，樊李行，蔡骋，等.基于多特征提取和选择的木材分类与识别[J].现代农业科技，2018（18）：118-120.

CHAO X F， FAN L X， CAI C， et al. Wood texture classification and identification based on multi-feature extraction and selection[J]. Modern Agricultural Science and Technology， 2018（18）： 118-120.

[2] WANG B， WANG H， QI H. Wood recognition based on grey-level co-occurrence matrix[C]//2010 International Conference on Computer Application and System Modeling （ICCASM 2010）. IEEE， 2010， 1： V1-269-V1-272.

[3]戴天虹，王克奇，白雪冰，等.基于神经网络和颜色特征对木材进行分级的分析[J].森林工程，2006（1）：18-20.

DAI T H， WANG K Q， BAI X B， et al. Analysis of wood classification based on neural network and color features[J]. Forest Engineering， 2006（1）： 18-20.

[4]王克奇，杨少春，戴天虹，等.基于均匀颜色空间的木材分类研究[J].计算机工程与设计，2008（7）：1780-1784.

WANG K Q， YANG S C， DAI T H， et al. Research on wood classification using uniform color space[J]. Computer Engineering and Design， 2008（7）：1780-1784.

[5]SUGIARTO B， PRAKASA E， WARDOYO R， et al. Wood identification based on histogram of oriented gradient （HOG） feature and support vector machine （SVM） classifier[C]//2017 2nd International conferences on Information Technology， Information Systems and Electrical Engineering （ICITISEE）. IEEE， 2017： 337-341.

[6]赵鹏，韩金城，王承琨.基于I-BGLAM纹理和光谱融合的高光谱显微成像木材树种分类[J].光谱学与光谱分析，2021，41（2）：599-605.

ZHAO P， HAN J C， WANG C K. Wood species classification with microscopic hyper-spectral imaging based on I-BGLAM texture and spectral fusion[J]. Spectroscopy and Spectral Analysis， 2021， 41（2）： 599-605.

[7]趙鹏超，戚大伟.基于卷积神经网络和树叶纹理的树种识别研究[J].森林工程，2018，34（1）：56-59.

ZHAO P C， QI D W. Study on tree species identification based on convolution neural network and leaf texture image[J]. Forest Engineering， 2018， 34（1）： 56-59.

[8]张玉薇，陈棋，田湘云，等.基于UAV可见光遥感的单木冠幅提取研究[J].西部林业科学，2022，51（3）：49-59.

ZHANG Y W， CHEN Q， TIAN X Y， et al. Individual tree crown extraction based on UAV visible light remote sensing technology[J]. Journal of West China Forestry Science， 2022， 51（3）：49-59.

[9]汪泉，宋文龙，张怡卓，等.基于改进VGG16网络的机载高光谱针叶树种分类研究[J].森林工程，2021，37（3）：79-87.

WANG Q， SONG W L， ZHANG Y Z， et al. Study on hyperspectral conifer species classification based on improved VGG16 network[J]. Forest Engineering， 2021， 37（3）： 79-87.

[10]朱良宽，晏铭，黄建平.一种新型卷积神经网络植物叶片识别方法[J].东北林业大学学报，2020，48（4）：50-53.

ZHU L K， YAN M，HUANG J P. Plant leaf recognition method with new convolution neural network[J]. Journal of Northeast Forestry University， 2020， 48（4）：50-53.

[11]王爱丽，张宇枭，吴海滨，等.基于集成卷积神经网络的LiDAR数据分类[J].哈尔滨理工大学学报，2021，26（4）：138-145.

WANG A L， ZHANG Y X， WU H B， et al. LiDAR data classification based on ensembled convolutional neural networks[J]. Journal of Harbin University of Science and Technology， 2021， 26（4）：138-145.

[12]DONG S， WANG P， ABBAS K. A survey on deep learning and its applications[J]. Computer Science Review， 2021， 40： 100379.

[13]GAO M， WANG F， LIU J， et al. Estimation of the convolutional neural network with attention mechanism and transfer learning on wood knot defect classification[J]. Journal of Applied Physics， 2022， 131（23）： 233101.

[14]YANG J， HUANG P， DAI F， et al. Application of deep learning in wood classification[C]//2019 IEEE International Conference on Computer Science and Educational Informatization （CSEI）. IEEE， 2019： 124-129.

[15]LIU S， JIANG W， WU L， et al. Real-time classification of rubber wood boards using an SSR-based CNN[J]. IEEE Transactions on Instrumentation and Measurement， 2020， 69（11）： 8725-8734.

[16]TAN M， LE Q. Efficientnet： rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. PMLR， 2019： 6105-6114.

[17]GUO M H， XU T X， LIU J J， et al. Attention mechanisms in computer vision： a survey[J]. Computational Visual Media， 2022， 8： 331-368.

[18]DEVLIN J， CHANG M W， LEE K， et al. Bert： pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv：1810.04805， 2018.

[19]Brown T， Mann B， Ryder N， et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems， 2020， 33： 1877-1901.

[20]GUO M H， LU C Z， LIU Z N， et al. Visual attention network[J]. arXiv preprint arXiv：2202.09741， 2022.

[21]TAN M， LE Q. Efficientnetv2： smaller models and faster training[C]//International Conference on Machine Learning. PMLR， 2021： 10096-10106.