基于深度强化学习的木材缺陷图像重构及质量评价模型研究

2020-09-14 12:20张旭中翟道远陈俊

湖北农业科学 2020年13期

张旭中翟道远陈俊

摘要：針对典型仿生智能算法处理木材缺陷图像感知及质量决策问题时存在的多维退化因素作用下的缺陷图像失真严重、缺陷图像先验特征提取方差波动频繁、质地不均匀缺陷图像灰度分割失效、异种木材自身纹理泛化能力与学习能力失衡、最优收敛速度随缺陷维度呈迟滞变化等先天不足，提出了一种基于深度强化学习的木材缺陷图像重构及质量评价模型。引入深度学习机制，通过利用深度残差网络进行迭代训练，实现差异性木材多维缺陷图像实时高效重构，构建面向差异性木材多维缺陷精细分割与特征提取的全景自主感知模型，构建大数据量级木材缺陷特征共享资源池;引入强化学习机制，利用深度确定性策略梯度算法建立缺陷特征迭代更新、自主决策、全景可视、深度预测与木材质量评价之间的高维度决策映射，实现多维差异性木材缺陷图像重构及质量评价的横向共享集成。基于Tensorflow开源框架，在Gym Torcs环境下进行模型效能仿真验证，较好解决了典型仿生智能算法处理木材缺陷图像感知及质量决策问题时存在的若干固有缺陷，实现木材缺陷图像自主感知重构及质量评价自主决策，具有缺陷特征感知全面、抗干扰性强、自主决策性高等优势。以浙江省湖州市南湖林场辖区内某经济林木为效能评价载体，对模型进行了工程应用分析，结果表明，该模型可以较好实现木材多维缺陷感知与重构、全局最优质量评价自主智能决策，在感知自主性、重构复现性、自主决策性、模型泛化能力等方面具有明显优势。

关键词：木材缺陷检测;图像重构;深度强化学习;质量评价;自主感知与决策

Abstract： Aiming at the problem of wood defect image perception and quality decision-making in typical bionic intelligent algorithm， the defect image distortion was serious， the variance of prior feature extraction of defect image fluctuates frequently， the gray level segmentation of defect image with uneven texture is invalid， the generalization ability and learning ability of different wood texture are unbalanced， and the optimal convergence speed is delayed with the defect dimension， a model of wood defect image reconstruction and quality evaluation based on deep reinforcement learning was proposed.By introducing the deep learning mechanism and using the deep residual network for iterative training， we can realize the real-time and efficient reconstruction of the multi-dimensional defect image of different wood， build a panoramic autonomous perception model for the fine segmentation and feature extraction of multi-dimensional defect of different wood， and build a large data level shared resource pool of wood defect features;By introducing reinforcement learning mechanism and using depth deterministic strategy gradient algorithm， a high-dimensional decision mapping among iterative updating of defect features， independent decision-making， panoramic visibility， depth prediction and wood quality evaluation was established， which realized the horizontal sharing integration of multi-dimensional difference wood defect image reconstruction and quality evaluation. Taking an economic forest in Nanhu forest farm area of Huzhou city， Zhejiang province as the evaluation carrier， the engineering application analysis of the model was carried out. The verification results showed that the model proposed in this paper can better realize the multi-dimensional defect perception and reconstruction of wood， the autonomous intelligent decision-making of global optimal quality evaluation， and has the obvious ability of sensing autonomy， reconstruction reproducibility， autonomous decision-making， model generalization， etc show superiority.

Key words： wood defect detection; image reconstruction; deep reinforcement learning; quality evaluation; self perception and decision making

木材是基础建筑材料中最珍贵的一种自然资源，同时也是人类历史上使用时间最长的材料之一。木材、水泥、钢材和塑料是当今四大基础建筑材料，其中，唯独木材是可再生的资源。当前，中国面临森林资源短缺、木材质量低下等不利于林业发展的现状，作为一个森林资源相对贫乏的国家[1]，应珍惜和保护有限的森林资源，做到充分合理地使用木材资源。如何提高木材利用率，充分利用好森林资源，是中国林业科技人员需要认真面对的重要课题。在木材加工生产过程中，木材质量检测分级是一个重要环节，所谓的木材质量检测与分级，即是以中华人民共和国国家标准中的标准为依据，对木材质量进行检测与分级，检测实质上是木材缺陷检测[2]，分级的标准则是依据国家标准进行分级，如GB/T 4822-2015即是锯材检验的国家标准，其中详细地描述了锯材的材质判定以确定木材的等级。目前对于木材质量检测分级主要是依靠人工目测进行，由于人工检测标准不一，导致缺陷误判增加从而影响木材质量判定。另外，由于人工作业强度大、时间长，容易造成视觉疲劳，影响最终检测精度。研究基于人工智能对传统木材表面缺陷检测及质量分级进行数字化改造[3]，将极大解放人工劳动力，引导原有体力劳动向脑力劳动转换，改变传统木材筛选的生产模式，提升产业效率及自动化水平。

构建具有自我感知、自我分析、自我决策属性的木材生产质量视觉检测信息实时感知与全景重构机制是中国制造2025重大战略部署的重要组成部分，构建基于深度强化学习的木材缺陷图像重构及质量评价模型是木材生产质量视觉检测的底层数据需求，在木材生产质量視觉检测系统构建的全局中发挥基础作用，是保障木材生产质量视觉检测系统全链条畅通的关键一环[4]。借助浙江省湖州市南湖林场辖区内木材缺陷多维数据源，构建大数据量级共享数据资源池，引入深度强化学习机制建立缺陷图像全景感知、特征匹配、全景重构、智能决策与评价与待检木材真实质量之间的高维度决策映射，实现具有自主感知与决策属性的木材生产质量视觉检测机制[5]。以浙江省湖州市南湖林场辖区内某经济林木为效能评价载体，开发对应的原型系统并对模型综合效能进行实证分析，验证结果表明，所提模型可以较好实现木材多维缺陷感知与重构、全局最优质量评价自主智能决策，在感知自主性、重构复现性、自主决策性、模型泛化能力等方面具有明显优势，较好地解决了典型仿生智能算法处理木材缺陷图像感知及质量决策问题时存在的多维退化因素作用下的缺陷图像失真严重、缺陷图像先验特征提取方差波动频繁、质地不均匀缺陷图像灰度分割失效等先天不足，可以满足中小规模的木材生产质量检测生产线智慧化改造需求[6]，具有较好的推广应用价值。

1 木材缺陷图像重构及质量评价模型体系架构设计

基于深度强化学习的木材缺陷图像重构及质量评价模型系统体系架构具备待检木材缺陷图像实时全景感知、异构缺陷图像数据快速重构与暂存、归一化格式下的多线程传输、质量分级评价与自主智能决策等全方位立体木材生产质量视觉检测全寿命周期体系效能，构建具备待检木材缺陷图像实时全景感知、图像重构、质量评价、缺陷复现、自主决策等全链机制[7]，如图1所示，设计了木材缺陷图像重构及质量评价模型体系专用架构。以木材生产质量视觉检测全寿命周期体系效能全链条运维需求为指引，将基于深度强化学习的木材缺陷图像重构及质量评价模型系统体系架构划分为木材缺陷图像感知子模块、木材缺陷图像重构子模块、质量评价与智能决策子模块、人机交互子模块等，其中，木材缺陷图像感知子模块借助高速线性CCD相机对木材活节、死节、虫眼、裂纹等缺陷图像进行高效采集与精准定位识别;木材缺陷图像重构子模块，引入深度学习机制，通过利用深度残差网络进行迭代训练，实现差异性木材多维缺陷图像实时高效重构，构建面向差异性木材多维缺陷精细分割与特征提取的全景自主感知模型;质量评价与智能决策子模块，引入强化学习机制，利用深度确定性策略梯度算法建立缺陷特征迭代更新、自主决策、全景可视、深度预测与木材质量评价之间的高维度决策映射，实现多维差异性木材缺陷图像重构及质量评价的横向共享集成;人机交互子模块实现跨平台应用系统下的人机友好交互。

以木材缺陷图像重构及质量评价模型体系架构为状态流顶层设计指导，对基于深度强化学习的木材缺陷图像重构及质量评价模型控制流逻辑进行设计，通过线性CCD获取大数据量级的正常木材图像，形成训练样本数据集，将这些正常的样本数据集输入基于卷积自编码器的深度残差网络进行训练，可以学习正常木材的数据分布特征，不学习缺陷的数据分布特征。在推理阶段，将待测图输入到网络进行重构[8]，以滑动区域为重构对象，与原图像做残差，算出残差值与阈值对比得到二值图分类结果，即可显示出缺陷所在区域。将木材图像输入分类器用以区分得到相应的木材质量等级，上述算法检测完成后将得到有缺陷区域的图像输入到基于图像分类器的木材质量分级系统中进行质量分级。硬件部分由图像采集设备（线性CCD）采集正常木材图像和待检测木材图像，将图像输入计算机储存为样本数据集和待检测数据集，将样本数据集通过嵌入式电脑进行训练得到带参数的模型，将待检测图像数据输入到嵌入式电脑的模型中进行推理，得到检测结果，给出分类指令对木材图像进行质量分级，之后交给下一级执行设备进行处理，基于深度强化学习的木材缺陷图像重构及质量评价模型控制流逻辑如图2所示。

2 木材缺陷图像重构及质量评价模型定量化建模

基于木材缺陷图像重构及质量评价模型体系架构，木材缺陷图像感知子模块借助高速线性CCD相机对木材活节、死节、虫眼、裂纹等缺陷图像进行高效采集与精准定位识别，属于标准化工程实现方法，遵循线性CCD相应工程标准即可;木材缺陷图像重构子模块、质量评价与智能决策子模块进行创新设计，着重改善典型仿生智能算法处理木材缺陷图像感知及质量决策问题时存在的多维退化因素作用下的缺陷图像失真严重、缺陷图像先验特征提取方差波动频繁、质地不均匀缺陷图像灰度分割失效、异种木材自身纹理泛化能力与学习能力失衡、最优收敛速度随缺陷维度呈迟滞变化等先天不足，引入深度学习机制，通过利用深度残差网络进行迭代训练[9]，实现差异性木材多维缺陷图像实时高效重构，构建面向差异性木材多维缺陷精细分割与特征提取的全景自主感知模型，构建大数据量级木材缺陷特征共享资源池;引入强化学习机制，利用深度确定性策略梯度算法建立缺陷特征迭代更新、自主决策、全景可视、深度预测与木材质量评价之间的高维度决策映射，实现多维差异性木材缺陷图像重构及质量评价的横向共享集成。基于上述分析，给出木材缺陷图像重构及质量评价模型定量化实现过程，为工程化效能分析提供定量保证。

2.1 引入深度残差网络机制

木材缺陷图像感知对学习效率和实时性具有较高要求，引入深度残差网络机制改善深度学习的决策性能，使用残差学习网络实现堆积层与输入特征的恒等映射，具体为Q（s，a;θi）表示当前残差网络Eval.net的输出，用来评估当前学习感知到的新特征;Q（s，a;θ?i）表示残差单元的输出，代入堆积层与输入特征的恒等映射中得到最优感知特征集。引入Target.net后，一段时间内残差单元是保持不变的[10]，一定程度降低了单位映射和恒等映射之间的相关性，提高了算法稳定性。引入深度残差网络机制后，残差网络中的参数定义为[θQ]，[Qμs， μs]表示使用[μ]策略在s状态选取动作所获取的回报期望值，又因为是在连续空间内所以期望可用积分来求，则可以用式（1）来表示策略[μ]的好坏。

残差单元通过Identity Mapping组件在输入和输出之间建立一条直接的关联通道并通过概率的分布函数确定最优感知策略[11]，在每一步根据该概率分布获取当前状态最佳的动作，产生动作采取的是随机性策略[at～πθstθπ]，则目标梯度函数如式（2）。

2.2 引入深度确定性策略梯度算法机制

利用深度残差网络全景感知正常木材图像特征要素集合，为强化学习提供训练样本集，利用DDPG算法强大的自我感知能力，实现木材缺陷图像的实时感知与重构，利用DDPG算法强大的自我决策能力，实现多维差异性木材缺陷图像参数的特征提取与共享计算并提供正反馈机制修正共享过程中的误差，构建全局协同控制下的质量评价机制。基于式（2），给出确定性策略式（3）[12]，根据行为直接通过函数[μ]确定了一个动作，可以把[μ]理解成一个最优行为策略[at=μstθμ]，則定量化的木材缺陷图像感知与重构系统可以表征如式（3）。

考虑到式（3）在竞争环境下的不稳定性，对式（3）进行一阶求导处理，则确定性策略梯度可以表征为式（4），具有很强的兼容性，可以通过自我学习实现差异性木材多维缺陷图像实时高效重构[13]，构建面向差异性木材多维缺陷精细分割与特征提取的全景自主感知模型。

根据木材种类繁多、木材缺陷图像特征复杂多变的特点，使用策略网络[μ]来充当Actor，使用价值网络来拟合（s，a）函数，充当Critic的角色，实现多维差异性木材缺陷图像重构及质量评价的横向共享集成[14]，所以DDPG的目标函数就可以定义为式（5）。

基于式（3）、式（4）可以实现木材缺陷图像高效有序重构，通过把木材缺陷图像特征库存入记忆回放池，通过子策略参数求解融合质量评价函数进行信息融合与共享，从根本上实现了木材缺陷图像识别、重构及质量分级全景可视[15]，实现多维差异性木材缺陷图像重构及质量评价的横向共享集成。

2.3 模型典型环境下的仿真验证

为了多维度验证基于深度强化学习的木材缺陷图像重构及质量评价模型的实际工作效能，分析待测木材缺陷特征自动实时感知与融合、木材缺陷图像全景自主精确重构、全局最优质量评价与自主智能决策机制的实际协同效能，设定初始化训练木材缺陷特征样本容量为N，初始化网络输入的大小为128×256×16，折扣因子[γ]为0.96，学习率[α]为0.001，决策策略奖励值的绝对值限制在[-1，1]内，因为负回报是稀疏的，因此将标准动作奖励值设定为-1，参数的选取以实际问题为导向，确保在模型训练后期仍然具有较强的进化活力，引导训练进化朝着更优的方向发展。基于谷歌的Tensorflow 1.2.1和OpenAI的Gym 0.9.2环境开发了验证环境并对模型进行了实证分析，设定初始损失函数，从典型环境下全局最优木材质量评价与自主智能决策性能仿真、典型环境下木材缺陷图像感知及重构有效率对比仿真、感知决策系统控制下的模型训练损失性能仿真等多维度对算法进行了仿真验证，在Gym 0.9.2环境下进行图形化示意仿真，采用显著差异标识在仿真图中给出对比曲线，最终仿真结果如图3、图4、图5所示。

从图3、图4、图5可知，基于深度强化学习的木材缺陷图像重构及质量评价模型较好地解决了典型仿生智能算法处理木材缺陷图像感知及质量决策问题时存在的多维退化因素作用下的缺陷图像失真严重、缺陷图像先验特征提取方差波动频繁、质地不均匀缺陷图像灰度分割失效等先天不足，具有较好的感知与重构自主性，可以实现全局最优质量评价决策，具有稳定性高、抗干扰性强、模型泛化能力强等优势。

3 木材缺陷图像重构及质量评价模型工程化应用效能验证

为了验证基于深度强化学习的木材缺陷图像重构及质量评价模型在一线运维环境下的实际工程应用效能，选取浙江省湖州市南湖林场辖区内某经济林木为效能评价载体，忽略异种木材自身纹理泛化能力与学习能力失衡干扰，对模型进行工程应用分析，采用木材正常图像作为训练参数集，木材缺陷图像作为测试训练集。基于经济性考虑，采用微应用扩展模式对浙江省湖州市南湖林场辖区某木材加工生产线现役的木材质量综合分级系统进行适应性改造，增加待检木材缺陷图像实时全景感知、异构缺陷图像数据快速重构与暂存、归一化格式下的多线程传输、质量分级评价与自主智能决策等全方位立体木材生产质量视觉检测全寿命周期软件处理进程，分配单独的内存资源，定期进行业务数据内网交互，实现数据全景共享，模型工程化效能如图6、图7所示。

为了进一步从定性、定量两个层面对比分析木材缺陷图像重构及质量评价模型的工程化应用效能，选取浙江省湖州市南湖林场辖区内某经济林木为效能评价载体，以浙江省湖州市南湖林场现役应用的YGDS-30T-KHJ型智能木材质量分级系统为对照系统，选取浙江省湖州市南湖林场辖区某经济林木为效能对比原始数据来源[16]，选取具有显著异构属性的某经济林木存在的活节、死节、虫眼、裂纹等缺陷图像为效能验证载体，从典型环境下全局最优木材质量评价与自主智能决策性能、典型环境下木材缺陷图像感知及重构有效率对比、感知决策系统控制下的模型训练损失性能等方面进行定量分析，围绕感知决策系统工程化应用人机交互友好性、缺陷图像重构实时有效性、质量评价信息互联推送等方面进行定性分析（表1）。由表1可知，基于深度强化学习的木材缺陷图像重构及质量评价模型可以在较短时间内有效处理木材缺陷图像感知重构问题，在感知自主性、全景重构性、自主评价性、模型泛化能力等方面具有明显优势。

4 结论

着重改善典型仿生智能算法处理木材缺陷图像感知及质量决策问题时存在的多维退化因素作用下的缺陷图像失真严重、缺陷图像先验特征提取方差波动频繁、质地不均匀缺陷图像灰度分割失效、异种木材自身纹理泛化能力与学习能力失衡、最优收敛速度随缺陷维度呈迟滞变化等固有弊端，提出了一种基于深度强化学习的木材缺陷图像重构及质量评价模型。引入深度学习机制，通过利用深度残差网络进行迭代训练，实现差异性木材多维缺陷图像实时高效重构，构建面向差异性木材多维缺陷精细分割与特征提取的全景自主感知模型，构建大数据量级木材缺陷特征共享资源池;引入强化学习机制，利用深度确定性策略梯度算法建立缺陷特征迭代更新、自主决策、全景可视、深度预测与木材质量评价之间的高维度决策映射，实现多维差异性木材缺陷图像重构及质量评价的横向共享集成，基于Tensorflow开源框架，多维度对算法进行了仿真验证。选取浙江省湖州市南湖林场辖区内某经济林木为效能评价载体，对模型进行了工程应用分析，一线运维验证结果表明，原型系统具备待检木材缺陷图像实时全景感知、异构缺陷图像数据快速重构与暂存、归一化格式下的多线程传输、质量分级评价与自主智能决策等全方位立体木材生产质量视觉检测全寿命周期体系效能，具有较好的感知与重构自主性，可以实现全局最优质量评价决策，具有稳定性高、抗干扰性强、模型泛化能力强等优势。

参考文献：

[1] 刘嘉新，吴彤，王克奇. 基于C-V模型的木材缺陷重建图像特征提取[J]. 东北林业大学学报，2015（12）：78-81.

[2] 陈献明，王阿川，王春艳. 基于深度学习的木材表面缺陷图像检测[J]. 液晶与显示， 2019， 34（9）：879-887.

[3] 刘嘉新，高景泉，李超.应用兰德韦伯算法的木材缺陷图像重建[J].东北林业大学学报，2019，47（12）：125-128.

[4] 张浩然，张岱，武登科，等.基于马尔科夫随机场的木材缺陷图像分割算法[J].林业机械与木工设备，2019，47（11）：38-42.

[5] 程玉柱，蔡云飞.基于分数阶CV模型的木材缺陷图像分割算法[J].林业机械与木工设备，2018，46（4）：44-47，51.

[6] 戴天虹，吴以.基于OTSU算法与数学形态学的木材缺陷图像分割[J].森林工程，2014，30（2）：52-55.

[7] 印红群，吴达胜.5种小波阈值去噪法处理木材缺陷图像的仿真比较[J].江苏农业科学，2013，41（5）：288-290.

[8] 牟洪波，高海涛，戚大伟. 基于图像处理的木材缺陷的阈值设定研究[J]. 黑龍江科技信息， 2015（19）：30.

[9] 王威，张彤，王新.用于图像超分辨率重构的深度学习方法综述[J].小型微型计算机系统，2019，40（9）：1891-1896.

[10] 李蒸，张彤，朱国涛. 一种基于深度学习的图像超分辨率重构方法[J]. 湖南城市学院学报：自然科学版，2019（6）：59-63.

[11] 张宪红，张春蕊. 一种自适应的木材表面缺陷图像分割方法[J]. 黑龙江大学自然科学学报， 2015（6）：820-824.

[12] 牛蕾，隋振璋，张春蕊. 基于FitzHugh-Nagumo反应扩散方程组的木材纹理图像处理[J]. 哈尔滨师范大学自然科学学报， 2015， 31（2）：45-49.

[13] 陈方翔，冯海林，杜晓晨. 基于TIDW的木材内部缺陷三维应力波成像方法[J]. 传感技术学报， 2015（11）：1625-1633.

[14] 杨慧敏，王立海. 木材缺陷与超声检测参数相关性及影响因素[J]. 东北林业大学学报， 2015（8）：114-116.

[15] 贺昱曜，李宝奇.一种组合型的深度学习模型学习率策略[J].自动化学报，2016，42（6）：953-958.

[16] 李阳，陈秀万，王媛. 基于深度学习的单目图像深度估计的研究进展[J]. 激光与光电子学进展， 2019（19）：1-17.