数字孪生驱动的掘进机器人决策控制系统研究

2022-09-22 02:59张旭辉吕欣媛黄本鑫郑西利

煤炭科学技术 2022年7期

张旭辉，吕欣媛，王甜，黄本鑫，郑西利

(1.西安科技大学机械工程学院，陕西西安 710054；2.陕西省矿山机电装备智能监测重点实验室，陕西西安 710054)

0 引言

我国“富煤、贫油、少气”的能源现状决定了煤炭仍将长期作为我国的主要支撑能源，国家大力推进“安全、高效、绿色、智能”的智慧矿山建设，并提出了“机械化减人、自动化换人、智能化无人”的发展战略[1]。具有履带式行走机构的悬臂式掘进机是煤矿综掘工作面的核心设备[2]。目前巷道掘进施工仍需要司机坐在驾驶位上对其进行控制，但是井下工矿环境恶劣，粉尘浓度较大，这种操作方式极易造成超挖、欠挖且存在很多安全隐患。因此，掘进装备智能化是推动智慧矿山建设的基础，而掘进装备的智能化控制是实现少人/无人化开采的前提。近年来，数字孪生(Digital Twin,DT)技术在智能制造领域得到了广泛关注[3]，数字孪生技术为跨层级、跨尺度的现实世界与虚拟世界搭建了沟通的桥梁。将物理对象的数字模型映射在虚拟空间，并在虚拟空间中通过实测、仿真和数据分析来实时感知、诊断和预测物理实体对象的状态，通过优化和指令来调控物理实体[4-6]。将数字孪生与虚拟仿真技术进行有机结合并应用于煤矿设备智能化设计中，构建煤矿设备数字孪生体，使其可针对过去、现在的状况进行综合智能分析，对物理世界的变化进行感知、判断与决策[7-8]。吴淼等[9]针对掘进巷道“串行”工艺存在的问题，构建了基于数字孪生的综掘巷道并行工艺技术体系，对实现煤矿工业机器人智能决策与控制的相关技术进行了阐述，但缺少具体实现过程的描述且未设计试验验证系统具体功能。朱斌等[10]针对掘进工作面风口参数的调节问题，研究了基于数字孪生的综掘面风流出风口的自主学习和自主决策技术，该系统通过三维建模与仿真技术刻画物理测试系统的虚拟空间，但未阐述虚实空间中的数据交互过程，两者的同步运动性能难以保证。笔者等[11]针对煤矿采掘装备维修难的问题，融合数字孪生与混合现实技术开发了数字孪生驱动的煤矿机电设备故障远程维修指导系统。但该系统需要提前建立设备维修指导流程库，不能直接根据故障类型与设备机理自动规划维修方案。笔者等[12]针对悬臂式掘进机远程控制问题，基于数字孪生技术实现了掘进工作面虚实空间的深度融合与人机交互，但该系统中掘进设备仍然不具备自主决策能力，需要人工不间断对其进行远程干预，掘进效率有待进一步提升。通过上述分析，数字孪生技术为煤矿装备智能化发展提供了新的思路，但在设备虚实实时交互、自主规划、决策控制等方面仍面临严峻挑战。结合数字孪生技术、虚拟现实技术，深度强化学习技术，针对当前掘进工作面远程控制中存在的设备决策能力低，掘进效率不高等问题，提出了数字孪生驱动的掘进机器人决策控制系统体系框架。首先，在虚拟空间中对机器人进行碰撞检测，研究其在非结构化环境下的局部避障策略；其次，利用深度强化学习技术构建掘进设备虚拟智能体，使其具有自主规划决策能力；最后，结合数字孪生技术搭建了系统决策控制平台，通过路径规划试验与虚实同动试验对系统功能进行验证。实现数字孪生驱动下的“数据驱动、双向映射、碰撞检测、自主决策、人机协作”智能远程控制策略。

1 掘进机器人决策控制系统体系框架

当前煤矿采掘装备正处于从“自动化+可视化人工远程干预”向“智能化+自主化+无人化”的关键过渡时期，为了解决煤矿掘进工作面设备的远程控制问题，需要实现对掘进工作面工况环境的全面状态监测、协作设备之间的碰撞检测以及设备运行轨迹的自主规划。结合数字孪生技术，提出“数据驱动、双向映射、碰撞检测、自主决策、人机协作”技术体系，通过虚拟现实技术将设备本体结构、内在机理、规划结果等信息进行三维可视化呈现，实现复杂工况环境下掘进工作面“数字工作面+自主决策控制”的数字孪生应用模式，系统体系框架如图1所示，主要由物理空间、虚拟空间、孪生数据、规划层、控制层、执行层组成。

图1 系统体系框架Fig.1 System architecture framework

1)物理空间是掘进工作面中生产设备、人员、环境以及各类传感器的集合，是系统控制的对象。利用激光雷达扫描工作面环境信息，通过捷联惯导采集设备的位姿信息。

2)虚拟空间不仅是物理空间的三维镜像化，也是物理空间中各个元素间的内在机理、操作机制和关联规则的数字化分析[13]。利用激光雷达在虚拟空间中重建障碍物，利用捷联惯导采集到的机器人位姿数据并对虚拟样机进行数据驱动，实现虚实空间双向映射。

3)孪生数据是虚实空间数据交互的载体，通过MySQL数据库构建物理对象与虚拟对象的闭环通道，实现虚拟孪生体与物理对象层间的双向映射与同步反馈。通过历史数据、运行数据、预测数据等的相互耦合和演化集成实现煤矿设备的对象孪生、过程孪生和性能孪生。

4)规划层是将决策的结果规划为实际可执行的路径或轨迹，并将其传递给控制层。利用深度强化学习对虚拟样机进行训练，将其作为一个Agent在虚拟空间中进行局部自主避障与全局路径规划。其中规划层与虚拟空间组合为虚拟智能体。

5)控制层是将决策指令经由PLC发送至物理空间的末端执行器，控制其完成相应的动作。捷联惯导与激光雷达再次采集数据更新虚拟空间中的三维信息，决策控制平台根据更新信息持续下发决策指令，以此循环完成掘进机器人的闭环控制。

6)执行层通过人机接口或智能控制终端，对设备进行状态监测、自主规划、碰撞检测等，实现快速捕捉异常状况、准确定位碰撞原因、合理规划行进路径。

2 非结构化环境下局部避障策略

结合虚拟现实技术，研究了非结构化环境下的机器人局部避障策略。建立机器人运动控制模型与传感观测模型，利用激光雷达在虚拟空间中重建障碍物，并设计Ray-Col碰撞检测方法，实现机器人在虚拟空间中的碰撞检测与避障控制。

2.1 机器人运动控制模型

要实现对掘进机器人的避障控制，首先要建立掘进机器人的运动控制模型，掘进机器人是通过左右履带差速提供驱动力的，当掘进机器人处于非调整姿态时，通过对两侧履带差速驱动实现机器人的直行或转弯等基本动作。

假设履带与地面之间无滑动，速度方向平行于地面，基于掘进机的工作环境将受限巷道空间中机器人的运动转化为二维运动学问题[14]。

图2 掘进机器人运动学模型Fig.2 Kinematic model of tunneling robot

(1)

将两式相减得：

(2)

(3)

两轮的差速关系决定了机器人的运动速度和转向速度，其中机器人转向时的瞬时曲率半径R为：

(4)

得到掘进机器人纵向轴线行进线速度表达式：

(5)

在机器人的运动方程中：

vx=0

(6)

(7)

(8)

将其转换至巷道坐标系中，则差速驱动履带式机器人的运动学方程为：

(9)

(10)

(11)

引入速率u作为控制变量，即:

(12)

(13)

使用欧拉积分法得到该非线性系统的离散时间模型，即：

(14)

(15)

(16)

vr[(k+1)T]=vr(kT)+Tu1(kT)

(17)

vl[(k+1)T]=vl(kT)+Tu2(kT)

(18)

式中，T为时间；k为时间T的系数。

通过以上步骤，建立掘进机器人运动控制模型。在虚拟空间中重建障碍物并进行碰撞检测之后，通过掘进机器人运动控制模型，对双履带两侧的液压马达下发不同的控制信号，控制转速与转向实现机器人局部避障。

2.2 虚拟环境障碍物观测模型

利用虚拟现实技术在虚拟空间中训练虚拟样机将其作为智能体，从而产生自主决策行为控制真实机器人运动。为了在虚拟世界中映射物理世界，采用激光雷达将物理环境中的障碍物在虚拟环境中进行三维重建。

采用HOKUYO公司的URG-04LX二维激光扫描仪，安装于掘进机器人机身前侧并与其固连于同一平面内。同时在激光雷达的安装位置添加云台，使其绕轴旋转获得三维数据。

激光雷达的测距原理是通过计算发射调制光与目标反射接收光2个光强之间的相位差，得到目标距离。

(19)

式中，t为光波往返的时间间隔；D为发射处与目标之间的距离；c为激光速度。假设调制频率为f，光波往返的周期为N1，总的相位差为Δφ。时间间隔t表示为：

(20)

由式(19)与式(20)得：

(21)

当掘进机器人在井下行进时，通过机身上的激光雷达扫描获得极坐标点，对巷道环境中障碍物的观测值Z可用距离ρ和角度φ表示：

(22)

设激光雷达在巷道坐标系下的位置坐标为(xl,yl)，激光雷达点云数据点转换至巷道坐标系下表示为(xk,yk)：

(23)

式中，ρ与φ分别为激光雷达的探测距离与角度。

由此得到掘进机器人上安装的激光雷达观测模型可由下式表示：

(24)

式中，ωk为测量噪声。

障碍物重建过程如图3所示：

图3 障碍物重建过程Fig.3 Obstacle reconstruction process

随着掘进机器人的行进过程对障碍物进行扫描，根据传感观测模型对激光雷达采集到的点云数据进行处理后存储进MySQL数据库中，实时读取最新数据并将其显示在数据库中。通过构建虚拟数据库接口，在Unity3D中实时读取最新一行数据，进行坐标匹配后形成新的点云坐标，设置三维栅格基准单元并对其进行实例化，并在每个坐标处根据基准单元进行克隆堆栈，从而完成障碍物的重建，为在虚拟空间中的碰撞检测奠定基础。

2.3 虚拟传感器碰撞检测

掘进机器人与障碍物之间的碰撞检测是避开障碍物的基础，层次包围盒法[15]是利用立体几何图形包裹三维模型，只有当包围盒之间相互接触时，其包围的三维模型才会发生碰撞，此种方法适合掘进巷道中作业区域动态变化的非结构化环境，以快速检测到碰撞行为。

为了给物理空间中的设备间预留安全距离，将虚拟空间中的禁行区域用膨胀1.1倍的盒型碰撞器(Box Collider)包围，在虚拟样机上添加虚拟激光雷达(Ray Perception Sensor)，发出虚拟射线与场景中的包围盒进行碰撞，并返回碰撞信息，其原理如图4所示。

图4 碰撞检测原理Fig.4 Schematic of collision detection

其添加效果如图5所示，射线的颜色随着距障碍物的距离远近由浅及深，发生碰撞的颜色为红色，未发生碰撞的颜色为白色。

图5 Ray-Obj碰撞检测方法Fig.5 Ray-Obj collision detection method

在虚拟空间中，分别定义起点和方向2个矢量单位对虚拟激光雷达发出的射线进行描述：

(25)

将盒型碰撞体的长、宽、高分别设为a,b,c，取空间内任意一点A(x,y,z)为射线原点，盒型碰撞体的重心坐标为O(xo,yo,zo),则Ray-Col碰撞的出发区域为：

(26)

当虚拟射线上的任一点满足式(26)中约束条件时，射线与包围盒相交。射线起点到交点的距离则为虚拟样机与禁行区域之间的距离D。其碰撞检测流程如图6所示。

图6 碰撞检测流程Fig.6 Flow of collision detection

根据井下实际工况，设置掘进机器人的碰撞预警阈值界限Dmax和Dmin，机器人与障碍物之间的相对距离为D：

1)当D≥Dmax时，掘进机器人在安全范围内，其运动轨迹保持不变；

2)当Dmax>D≥Dmin时，系统发出碰撞预警提示，并在决策控制平台的状态监测模块中实时显示碰撞信息，提前规划避障路径。

3)当D

3 基于虚拟智能体的全局路径规划

掘进机器人的路径规划是实现自主决策的重要一步，传统的路径规划方法在障碍物固定的结构化环境中效率较高，但不适用于与掘进巷道类似的未知环境中[16]。将深度强化学习(Deep Reinforcement Learning, DRL)引入机器人的路径规划问题中，提出了基于改进PPO算法的Muti-PPO算法，通过奖惩机制建立掘进机器人虚拟智能体，使其具备自主学习能力，实现设备在环境随机变化的情况下，自主完成路径规划并执行决策指令。

3.1 PPO算法

掘进机器人作为一个智能体(Agent)，它是系统中的决策者和学习者。在每一个时刻，Agent 观测环境当前的状态，根据观测值O，对接下来的动作A进行决策，环境接收到Agent动作之后状态S会发生一定的改变，并给智能体一定的奖励值R，同时Agent根据新的观测值做出新的行动，其过程如图7所示。

图7 深度强化学习过程示意Fig.7 Schematic of deep reinforcement learning process

近端策略优化(Proximal Policy Optimization, PPO)算法[17-18]是一种基于策略的策略梯度算法(Policy Gradient, PG),其核心思想是用含参函数π(a|s;θ)来近似最优策略，并用策略梯度优化策略参数θ，从而最大化期望奖励。PG算法中，参数θ更新的目标函数为：

LPG(θ)=Et[lgπ(at|st;θ)×At]

(27)

其中，π(at|st;θ)为t时刻含参的策略函数，具体意义是指在t时刻的状态st下，Agent动作为at的策略函数，此时策略梯度优化策略参数为θ；A为动作空间，在时刻t，Agent根据观测结果决策动作At∈A，在决策过程中，At=a；其优势在于可以在连续的状态空间中选择相应的决策行为，缺点在于由于难以选择合适的步长而导致效率低下的问题。PPO算法中将新旧策略的比值rt(θ)作为目标函数的一部分，避免更新前的策略π(a|s;θk)与当前策略π(a|s;θ)差距过大。目标函数设计为：

L(θ)=Et[rt(θ)At]

(28)

其中：

(29)

在最大化奖励函数的过程中，可能会引起较大的策略更新而导致策略突变，因此需要通过截断的方式对目标函数式(27)进行约束。即添加截断函数clip优化目标函数：

Lclip(θ)=Et[min(rt(θ)At,clip((rt(θ),1-ε,1+ε)At)]

(30)

其中，ε∈(0,1)为指定参数。在截断函数clip(a,amin,amax)中，a为动作输入，amin为被限定的最小值，amax为被限定的最大值。如图8所示，当A>0时，表明当前动作的积极效果大于平均值，应增大选择该动作的概率，但同时不能过于增大，因此在1-ε处截断。同理，当A<0时，表明当前动作的积极效果低于平均值，应减少选择该动作的概率，但同时不能过于降低，因此在1+ε处截断。

图8 clip函数示意Fig.8 clip function

3.2 Muti-PPO算法

PPO算法可以解决传统PG算法中步长难以确定的问题[19]，为加快Agent的训练速度，将多智能体与PPO算法结合(Muti-PPO)，即设置多个相同且独立的Agent，基于训练环境并行运行多个场景，它们之间可以共享奖励信号，从而加速并稳定训练过程。

如图9所示，每个训练环境中包含多个场景。每个场景中都具有相同数量与类型的Agent，并且都具有一个可以共享状态信息、动作信息、奖励值的接口，在训练的同时相互之间可以进行交互。每种类型的Agent都对应一个策略-价值网络，如果M个场景中共有N种Agent，共有，那么一共有N个策略-价值网络。在一个步长t内，第i种Agent的观测量为:

图9 多智能体训练场景Fig.9 Multi agent training scenario

(j∈1,…,M)

环境状态为:

θ={θ(1),…,θ(N)}

(31)

π={π(1),…,π(N)}

(32)

w={w(1),…,w(N)}

(33)

V={V(1),…,V(N)}

(34)

其中，θ为策略函数π的策略参数；w为价值函数V的价值参数。如式(31)中θ(1)表示为在一个场景中，第一个Agent的策略参数，因此式(31)表示为在一个场景中，N种Agent的策略参数集合。式(32)—式(34)同理。

(35)

(36)

(37)

图10 Muti-PPO算法学习过程Fig.10 Muti-PPO algorithm learning process

在实际中，如果上一策略π(a|s;θk)太小，则式(29)中分母约为0，无法准确进行计算，因此重新设计rt：

(38)

(39)

(40)

在该目标函数中，策略的更新范围限制在[-ε,ε]。在式(40)中，t∈[0,T]，折扣因子γ∈[0,1]。折扣因子γ决定了如何在最近的奖励和未来的奖励间进行折中：未来t步后得到的单位奖励相当于当下得到的γt单位奖励。若指定γ=0，Agent仅考虑眼前奖励值。若γ=1，Agent考虑当下单位奖励与未来单位奖励同样重要。价值网络的损失函数为：

(41)

式中，t为Agent的步长；t′为Agent的未来步长。

该算法的具体过程见表1。

续表

3.3 奖惩函数设计

奖惩函数的目标是使Agent根据奖励函数所提供的条件与奖励值，来获取与环境交互后的反馈信号，通过回合制更新的方法累积奖励，以此来学习正确的策略并规划出一条累积奖励值最大的轨迹[20]。在每个回合中，当Agent避障失败或者在规定步长内未达到目标点时结束该回合的训练。在本文中，惩罚值设置在-1.5～0，奖励值设置在0～1.5。将奖励函数内容划分为3部分：

1)根据巷道全局地图进行路径规划，规划出一条从起点至目标点的路线。通过Agent与目标点之间的距离来判断是否到达目标点，如果成功到达，则获得奖励Rend=1.0。

2)通过Agent上的虚拟激光雷达检测障碍物，来进行局部避障。为考虑安全距离，障碍物上的包围盒相对于原物体膨胀了1.1倍,当激光雷达发出的虚拟射线与包围盒距离D=0，判定为避障失败，结束该回合并获得惩罚RObstical=-1.0；判断出障碍物的类型，并成功避开一个障碍物，则获得奖励Rdistance=1.5。

3)为缩短Agent到达目标点的时间，避免因稀疏奖励带来的效率低下问题，为Agent设置外部奖励函数，即在其行动后的每一步都添加一个负奖励Rtime=-0.005。因此，奖励函数为：

R=Rend+Robstical+Rdis+Rtime

3.4 训练结果分析

使用Socket实现Unity3D与Python间的通讯，将虚拟智能体在Unity3D平台中进行训练，Muti-PPO算法的参数设置如下：

学习率(learning rate)0.000 3截断常数ε0.2折扣因子γ0.99批量大小(batch_size)128经验池大小(buffer_size)2 048泛化优势估计λ0.95每回合最大步数(Max_step)10 000 000

Unity3D与Python通信成功界面如图11所示。

图11 Unity3D与Python通讯成功界面Fig.11 Interface for successful communication between Unity3D and python

最终训练结果图12所示，将Muti-PPO、PPO、SAC三种算法分别在同一环境中训练1×107次进行对比。图12a表示训练过程中，智能体所获奖励走势图，智能体所获奖励越多，说明选择正确行动的概率越大；图12b表示每一轮训练回合长度，回合长度越小，说明智能体避开障碍物到达目标点的效率越高；图12c表示训练过程中的损失值变化曲线，智能体在训练过程中损失值越小，表明实际所获的平均奖励与理论奖励越靠近。

在图12a中，Muti-PPO算法的收敛速度最快，在达到最大奖励值时迭代次数最少。在图12b中，随着训练迭代次数的增加，Muti-PPO算法的回合长度最先达到最短。在图12c中，PPO算法与SAC算法的损失值下降趋势相近，相比之下，Muti-PPO算法损失值收敛速度最快。表2中对比了三种算法的性能，其中根据奖励值的均值与标准差来评估算法鲁棒性的优势。

图12 训练结果Fig.12 Training results

表2 3种算法性能对比分析

通过分析表3可知，SAC算法在获得平均值与鲁棒性方面均优于PPO算法，但在最高奖励值与达到最高奖励值步数方面低于PPO算法。而Muti-PPO在4个方面的性能均达到了最优。其中平均奖励值较PPO与SAC算法分别提升了13.82%与11.31%；标准差分别下降了17.85%与16.81%；最高奖励值分别提升0.14%与0.43%。

4 试验与验证

4.1 决策控制平台介绍

基于Unity3D虚拟现实开发平台，搭建了如图13所示决策控制平台。该平台由机器人三维状态监测模块、机体参数显示模块、人工远程干预模块、机器人导航定位模块与机器人通信连接状态显示模块组成。

图13 掘进机器人决策控制平台Fig.13 Decision control platform of tunneling robot

4.2 路径规划对比试验验证

设置3类复杂程度不同的场景，并分别使用Muti-PPO、A*算法、Nev-Mesh寻路算法进行规划，共设计九组试验对比分析3种方法的规划效率。用履带式机器人模拟掘进机器人，用实验室楼道环境模拟井下巷道，泡沫板模拟井下障碍物。试验平台如图14所示，掘进巷道尺寸为600 cm×210 cm，掘进机器人尺寸为58.5 cm×53 cm，激光雷达型号为URG-04LX，捷联惯导型号为TM352。

图14 基于虚拟智能体的路径规划试验平台Fig.14 Experimental platform of path planning based on virtual agent

3种复杂道路情况分别如图15所示，以巷道左下角为坐标原点建立巷道坐标系，以巷道宽度方向为Y轴，长度方向为X轴，机器人行动目标点坐标为(600,105)，机器人在3种情况下的行进轨迹分别如图16—图18所示。

图15 3种巷道情况Fig.15 Three roadway conditions

图16 第1类复杂情况Fig.16 Type I complex situation

图17 第2类复杂情况Fig.17 Type II complex situation

图18 第3类复杂情况Fig.18 Type III complex situation

第1类复杂环境中，障碍物处于远离巷道中心线的两侧边界位置，障碍物之间距离间隔较大，对掘进机器人规划任务干扰较小；第2类复杂环境相比于第1类障碍物尺寸较大且障碍物之间距离间隔较小，规划难度适中；第3类工况环境中，存在干涉设备、禁行区域等占地面积较大的障碍物，且其处于靠近巷道中心线的位置，对掘进机器人规划任务干扰较大。

图中线框代表巷道形状，3条曲线分别代表3种算法下的轨迹，黑色方块代表禁行区域，曲线上的线框代表与禁行区域距离最近轨迹的机器人轮廓，用于判断行进过程中与障碍物之间的距离，设置安全距离为10 cm，用机器人在巷道中的总行进长度以及与障碍物之间的最短距离判断其行进效率,若机器人与障碍物之间的距离大于10 cm，则表示避障成功，称为有效轨迹，试验对比结果见表3。

表3 试验对比结果

由表4可知，在第2类巷道情况中，Nev-Mesh算法下机器人与障碍物的最短距离为8 cm小于10 cm，因此为无效轨迹，而Muti-PPO(本文算法)与A*算法在3种巷道情况中均为有效轨迹；在3类巷道情况中，Muti-PPO(本文算法)与目标点的误差均为最小，分别为0.9 cm、1.1 cm、1.2 cm；行进轨迹总长度均为最短，分别为(661.7±0.8)、(695.3±0.8)、(689.8±0.8) cm。

4.3 虚实同动试验验证

为验证系统在虚实空间中的“双向映射”性能，在实验室楼道环境下设计了虚实同动试验，在决策控制平台中发出控制指令，远程控制机器人运动，同时通过采集机器人机身上的传感器数据对虚拟样机进行数据驱动，使虚拟样机与物理样机在巷道中的位姿均保持一致，机器人在4个位姿状态时的虚实对比如图19所示，左图为物理样机，右图为虚拟样机。

图19 机器人虚实空间位姿Fig.19 Virtual and real space pose of robot

在每组对比试验中，机器人虚拟样机与物理样机的位姿保持同步，实现了虚实空间的双向映射。因此可以在决策控制平台的三维状态监测模块中，根据虚拟样机的位姿状态，反应掘进机器人在实际环境中的位姿信息，同时虚拟样机下发对掘进机器人的远程控制指令，以此循环最终实现以设备自主决策为主，以人工远程干预为辅的掘进机器人远程控制。

5 结论

1)研发了一种掘进机器人决策控制系统，阐述了数字孪生驱动的系统体系框架，提出了“数据驱动、双向映射、碰撞检测、自主决策、人机协作”技术体系。

2)结合虚拟现实技术，将传感器采集到的物理世界的数据在虚拟空间中三维呈现，提出Ray-Col碰撞检测方法，将虚实数据有机融合，实现非结构化环境下的局部避障。

3)结合深度强化学习算法，利用基于改进PPO的Muti-PPO算法构建虚拟智能体，使其具备自主决策能力，训练结果表明Muti-PPO算法相比于PPO算法、SAC算法，其性能达到最优。

4)通过试验表明，在3种不同复杂程度的工况下，虚拟智能体路径规划结果与目标点的误差在1.2 cm以内，且在掘进机器人运行过程中，虚实空间状态均保持一致。

5)数字孪生驱动的掘进机器人决策控制系统能够有效再现物理空间状态，建立了以设备自主决策为主，人工干预为辅的远程控制模式，对实现智能化掘进工作面奠定了一定基础。