人机协同装配技术的研究现状与发展综述*

2022-09-07 06:05张树忠吴月玉陈旭飞刘梦迪林梓健
世界科技研究与发展 2022年4期
关键词:位姿人机卷积

张树忠 朱 祺, 张 弓 吴月玉 陈旭飞,刘梦迪 林梓健 杨 根

(1.福建工程学院机械与汽车工程学院,福州 350108;2.广州先进技术研究所前瞻科学与技术研究中心,广州 511458;3.中国科学院大学工程科学学院,北京 100049)

随着机器人技术的高速发展,用机器替换人受到广泛关注,人类操作员和机器人协同作业也成为近年来国内外学术界普遍关注的研究主题。人机协同(Human-Robot Collaboration,HRC)是一种通过人类与机器人合作实现共同任务的工作方式,其主要理念是将人类的能力和机器人的优势结合起来,目前的研究主要集中在搬运、检测和装配等领域中。本文重点讨论人机协同装配(Human-Robot Collaborative Assembly,HRCA)的相关研究进展。在HRCA系统中若简单使用机器人代替人类操作员,会因零件精度各异、多工件存在柔性配合、环境多变等问题难以满足装配要求,需要基于视觉、力觉等环境感知技术,再配合先进算法才能顺利实施[1,2]。基于此,本文对人机协同装配系统中所涉及的6D位姿识别、人类意图识别和协同装配控制等三方面内容进行详细分析,综述目前人机协同装配技术的相关进展,指出其中的技术难点,并探讨其未来的发展趋势(图1)。

图1 人机协同装配技术分类Fig.1 HRCA Technology Classification

1 6D位姿识别

在HRCA系统中,对装配目标进行的6D位姿识别与定位,即将相机坐标系下的物体与世界坐标系中的相对应,是最基础的任务,也是完成后续操作的关键,主要包括点对特征(Point Pair Feature,PPF)方法和深度学习方法。

1.1 PPF系列方法

传统的位姿识别方案如LineMod识别、射频识别等,由于其准确率与效率较低、应用局限性较大且位姿计算精度低,很难满足HRCA系统的要求,于是国内外众多学者对PPF方法展开了研究。

最早由Drost等[3]提出构建两点及其法向量之间的几何关系形成的点对特征来识别目标位姿(图2,F1为点间距离,F2和F3为法线和点对向量之间的角度,F4为法线之间的角度)。在匹配阶段,采用全局坐标系简化刚体变换自由度和位姿计算,同时借助广义霍夫变换的投票方法,获得可靠位姿。

图2 PPF算法点对特征[3]Fig.2 PPF Algorithm Point Pair Features[3]

美国佐治亚理工学院Choi等[4]对PPF进行了改进,在传统的四维几何点对特征基础上扩充了RGB颜色信息,得到CPP十维特征描述子。并在彩色数据集上的目标识别实验中获得了比原始PPF方法更好的效果,新点对特征如图3所示(C为新增颜色特征)。接下来Choi等[5]继续对PPF做出改进,用不同种类的点对建立几何关系。如利用边缘点点对(Boundary-to-Boundary)构建特征,减少配对点对的数量,提高了在训练阶段和匹配阶段的运算速度。

图3 CPP算法点对特征[4]Fig.3 CPP Algorithm Point Pair Features[4]

美国三菱电机研究实验室的Tuzel等[6]发现,当对象自身有很多重复特征或表现出简并性时(如大平面)传统PPF方法的识别效率会明显降低。由此提出用最大边缘学习框架来识别三维物体表面特征。该算法根据特征的重要性对其进行选择和排序,从而在提高准确性的同时降低计算成本。

以上PPF方法虽有所改进,但总体框架几乎是一致的。美国斯坦福大学的Birdal等[7]将目标检测与一个由粗到细的分割算法相结合,其中每个分割都需要进行独立的位姿估计。得益于这种增强的位姿检索,新的框架不需要迭代最近点(Index Condition Pushdown,ICP)优化,在速度和精度之间取得了较好的折中。其性能与传统LineMod和Drost方法对比如表1所示,Birdal的方法准确率有小幅度提高且缩短了识别时间。

表1 算法性能对比[7]Tab.1 Algorithm Performance Comparison[7]

1.2 深度学习方法

HRCA系统中理想的位姿识别方案能够处理各种场景中无纹理和有遮挡的物体,并满足实时识别的速度要求,但需要丰富的纹理特征来进行匹配,导致无法处理无纹理对象。得益于深度学习[8]的兴起,相关学者开发了大数据驱动方法,在位姿识别领域取得了突破性进展。

目前领先的方法之一是德国慕尼黑工业大学的Wadim等[9]提出的单次多尺度检测(Single Shot MultiBox Detector,SSD-6D)算法,该方法直接通过平面图像回归得到6D物体位姿,但此方法依赖于用详细的后细化步骤与三维信息来提高姿态估计的准确性,计算过程较为复杂。奥地利格拉茨技术大学的Mahdi[10]提出的八角边界框(8 Corners of the Bounding Box,BB8)算法也是主流方法之一,该方法先预测图像中的2D关键点,再通过点对点(Perspective-n-Point,PnP)算法间接求解目标位姿,识别效果如图4所示。

图4 BB8算法位姿估计[10]Fig.4 BB8 Algorithm Pose Estimation[10]

英国伦敦大学学院的Apurv等[11]提出的全局检测、局部标记的方法很好地解决了遮挡问题。该方法通过预测目标的每个像素在三维坐标系中的位置,建立密集的2D-3D对应关系来求解位姿。国内清华大学的Li等[12]提出基于坐标的解纠缠姿态网络(Coordinates-based Disentangled Pose Network,CDPN),该方法将坐标的旋转和平移矩阵分离开来,使得旋转矩阵通过PnP算法从坐标间接求解,而平移矩阵则直接从图像中估计。实现了HRCA系统高精度、鲁棒性和高效率的姿态估计要求。

2 人类意图识别

在HRCA工作环境中,若机器人可以识别人类的操作意图,可大幅度提高人机协同装配的效率和安全性。下文从视觉识别和力觉识别两个方面综述其研究进展。

2.1 视觉识别

2.1.1 图像捕捉

眼睛是人类最重要的感觉器官,人们从外界接收的各种信息中80%以上是通过视觉获得的,对于机器人来说也是如此,基于摄像头的视觉系统就是机器人的眼睛。

华侨大学的谢一首等[13]将相机固定在工作台远端。该方案虽然视野范围大但容易被人类操作者身体或机械臂阻挡,难以准确定位;燕山大学的李永泉等[14]将相机固定在机械臂上,该方案虽然可以准确识别到待测物体,但视野范围受限较多,无法全局定位。东南大学的徐远等[15]综合了上述方法,设置了远端和近端两个摄像头,其中远端摄像头识别工作空间全景,大致定位并识别待测物体,近端摄像头进行二次精准定位,微调机械臂位置。该方案大幅度提高了机器人轴孔装配的精度和效率,其系统原理图如图5所示。

图5 人机协同装配系统控制原理框图[15]Fig.5 Control Principle Block Diagram of HRCA System[15]

美国凯斯西储大学的Wang等[16,17]提出机器人工作环境感知的研究方案。该方案基于视觉系统检测工作人员的动作,从而建立准确可靠的语境意识。并用深度学习方法作为数据驱动技术,来持续地分析人体运动和预测未来HRCA系统的需求,从而改善机器人在任务中的规划和控制。在此基础上,瑞典斯德哥尔摩皇家理工学院的Liu[18]提出了基于环境感知的无碰撞人机协同系统。该系统利用三个深度视觉摄像头(Kinect)采集点云数据并通过八角图算法[19]来构建虚拟空间。将人体三维图和机器人位置导入虚拟空间,结合机器人运动学和当前关节状态来实时检测人类的操作意图,在保证人体安全的前提下提高装配效率,图6为虚拟点云空间与现实空间的比对。

图6 点云空间与现实空间[18]Fig.6 Point Cloud Space and Real Space[18]

2.1.2 图像处理

机器人需要对视觉传感器传递的信息进行图像处理才能理解人类意图,自AlexNet深度卷积神经网络出现以来,深度学习推动了图像识别领域的发展。部分学者将其运用在HRCA系统中,通过识别人手的姿态判断人类在协作中的意图。

土耳其凯里尼亚大学的Oyebade等[20]基于卷积神经网络(Convolutional Neural Networks,CNN)和堆叠去噪自编码器,提高了复杂手势分类任务的效率,但其无法处理手势识别中存在的背景杂波干扰问题。对此,日本东芝研发中心的Stenger等[21]利用许多技术对图像进行处理。例如运用累积似然映射有效地假设手部位置和比例以及通过归一化模板匹配估计手部姿态等,该方法消除了手势识别中背景噪声的影响,并且独立有效地检测每帧中的手部动作,如图7所示。

图7 手势识别系统框图[21]Fig.7 Block Diagram of Gesture Recognition System[21]

此外,虽然基于图像的2D卷积神经网络(ResNet-152)在识别单个视频帧时表现优异,但是在识别由连续帧构成的动作时正确率达不到期望[22],因为二维CNN无法对视频识别中的时间信息和运动模式进行建模。

美国达特茅斯学院的Tran等[23]引入了两种新的时空卷积形式。第一种为混合卷积(Mixed Convolution,MC),在网络下层中运用3D卷积,然后在顶层使用2D卷积实现对运动特征的空间推理,在提高动作识别的准确率的同时降低了计算量。第二种为(2+1)D卷积,即将3D卷积分解为两个独立的连续运算,一个是2D空间卷积,一个是1D时间卷积。该模型在实际运行中降低了训练损失和测试损失。其与传统网络识别的准确率对比如表2所示(图像1和视频1输入数据为8通道,112×112像素;图像1和视频1输入数据为16通道,112×112像素)。

表2 神经网络识别准确率对比[23]Tab.2 Comparison of Neural Network Recognition Accuracy[23]

国内中国科学院大学的Cao等[24]在长短期记忆网络(Long Short-Term Memory Network,LSTM)中插入一个时空转换模块,从而在时间和空间维度上将特征映射变形为规范的视图。然而,变形模块只能全局变形整个特征映射,缺乏局部几何变换的灵活性。在此基础上,Zhang等[25]用时空可变形卷积来代替时空转换模块,如图8所示。时空可变形卷积通过前面的特征图在空间和时间维度学习额外的偏移量来增强每个卷积步骤的采样,实现时空采样网格的自由变形,并推广到位移、缩放和旋转等各种变换。

图8 可变形3D卷积层[25]Fig.8 Deformable 3D Convolution Layer[25]

2.2 力觉识别

在近距离接触时,视觉系统有时无法起到良好的识别作用,就需要力学传感器来辅助。如通过在协同机器人末端执行器[26]或其他关节[27]上使用力-扭矩传感器(Force-Torque Sensors,FTS),或通过集成触觉机器人皮肤技术[28],实现直接的人机协同方案。

然而,有些研究中的机器人并没有配备FTS,因为使用FTS测量会增加机器人结构的自由度和系统的非线性,并导致性能下降[29]。部分方案使用手腕力-力矩传感器(Wrist Force-Torque Sensors,WFTS)来代替FTS,只需对施加在末端执行器上的力作出响应,就可以实现交互控制[30]。但该传感器无法识别沿着机器人剩余身体部分施加的力。为了缓解这一缺陷,美国斯蒂文斯理工学院的Lu等[31]使用安装在机械手底座下而不是手腕上的六轴力-力矩传感器(Base Force-Torque Sensor,BFTS),并估计作用在机械手连杆上的力-力矩,如图9所示。

图9 配置基座上的力-力矩传感器的六自由度机器人[31]Fig.9 6-DOF Robot Manipulator Placed on a Base Force-Torque Sensor[31]

另一些学者将力学传感器的检测目标转移到人机协同中的人类上,Boris等[32]利用佩戴在身上的惯性测量单元传感器来识别人的动作,但这种方案对人类操作者的动作限制较多,且识别精度不高,实用性欠佳。还有一些学者将接触力传感器应用到人机协同系统中,Roh等[33]将能够识别各种人类坐姿、站立和躺卧姿势的压力传感器加工成压力阵列,并嵌入垫子、地毯和床垫中,以此来判断工作者的动作。但受限于传感器的安装位置,无法准确预测人类的手部动作。在进一步的研究中,美国伊利诺伊大学的Kinugawa等[34]通过智能传感器探测皮肤下力量建立了工人行动轨迹预测模型,提高了HRCA系统的灵活性和安全性,控制框架如图10所示。

图10 控制框架图[34]Fig.10 Control Diagram[34]

3 协同装配控制

在HRCA系统中,除了传统的PID控制以外[35],可变导纳控制和神经网络控制都是目前常用的协同控制方法。

3.1 可变导纳控制

普通的位置控制为刚性控制,无法运用在HRCA系统中,因为人机协同环境中存在各种误差,位置上的偏移在经过刚度的放大后会产生较大的接触力。于是有学者在人机协同系统中采用导纳控制(一种主动柔顺控制)技术,即通过机械臂模型和阻抗特性来设计控制器,使外力和位移之间保持相对稳定。

在根据导纳控制调整运动关系时,阻尼参数是人机协同系统中影响系统稳定性的关键因素[36]。在定参数导纳控制中,由于预先确定了阻尼值,需要在精度和力之间有所取舍。于是学者们提出根据人类意图或任务类型在线调节导纳参数的方法,即可变导纳控制(Variable-Admittance Control,VAC),用来提高HRCA系统的性能。例如,英国剑桥大学的Flash[37]提出利用最小化机器人轨迹与最小加速度导数轨迹模型之间差异的变阻尼方法。

为了使人机协同系统可以完成更多种类的动作,导纳参数需要根据任务中不同的阶段进行调整,以响应运动速度和人为施加力等信息的变化[38]。新加坡南洋理工的Phan[39]以人体手臂刚度作为改变阻尼参数的指标。通过各种方法估计了人体手臂的刚度,并根据估计的刚度调整了阻尼参数。希腊帕特雷大学的Dimeas[40]通过监测高频力的振荡来检测系统的不稳定性,并修改导纳参数直到振荡消失,其控制框图如图11所示。

图11 人机协同导纳控制框图[40]Fig.11 HRC Admittance Control Block Diagram[40]

稳定性问题在人机协同系统中至关重要,另外机器人能够顺利自发地沿着人类操作者的动作运行也很关键[41]。加拿大拉瓦尔大学的Duchaine[42]将交互作用力的时间导数作为人类动作意图的指标,Lecours[43]提出人类的动作意图可以从期望的加速度中推断出来。

在人机协同任务中,精细运动和反向运动尤其常见。于是,韩国高丽大学的Bae等[44]提出新型的VAC,它能够识别人类操作者的动作意图包括方向变化和精细的任务,通过防止阻尼参数的不必要变化,使操作者能够方便地与机器人协作,控制方案如图12所示。

图12 VAC控制方案框图[44]Fig.12 VAC Control Scheme Block Diagram[44]

在该系统中,Bae等[44]同时提出能够调整虚拟弹簧平衡位置的虚拟刚度引导(Virtual Stiffness Guidance,VSG)。其通过引导操作者沿着特定路径进行主动辅助,帮助操作者的路径尽可能接近理想路径,可用于HRCA系统中难以预先定义所需路径的非结构化环境,其原理如图13所示。

图13 VSG法原理图[44]Fig.13 VSG Method Schematic Diagram[44]

3.2 神经网络控制

人机协同系统的性能依赖于机器人系统动力学轨迹控制器的精度,但由于系统的不确定性,很难得到精确的模型。于是,有学者开始将神经网络技术运用在机器人控制领域。瑞士提契诺大学的Loris[45]提出基于模型的强化学习(Model-Based Reinforcement Learning,MBRL)可变阻抗控制器,以辅助操作人员完成协同任务。该研究利用神经网络来学习一个人机协同的动力学模型,并捕捉执行过程中的不确定因素来实现不断更新。在此基础上利用交叉熵法(Cross-Entropy Method,CEM)建立模型预测控制器(Model Predictive Controller,MPC),在线优化刚度和阻尼控制参数,最大限度地减少人在协同中使用的力量。

国内华南理工大学的Chen等[46]提出新的人机协同框架,即基于估计的人体手臂阻抗参数的人机阻抗映射策略和变导纳控制,设计一种基于神经网络的控制器来提高人机协同性能,以补偿动态环境的影响,人体手臂D-H(Denavit-Hartenberg)模型如图14所示。

图14 人体手臂D-H模型[46]Fig.14 D-H Model of Human Arm[46]

4 研究展望

在工业4.0背景下,人机协同装配将逐渐成为工业领域自动化的主流。在人机协同装配中,人类和机器人同时作为装配作业的主体存在,任何一方出现失误或故障都会导致装配任务失败。为了完善人机协同装配系统,充分结合人类与机器人的优势,还有以下问题亟待解决:

1)应用于图像识别和协同控制的神经网络训练缺乏数据支持,神经网络在训练时需要大量的数据支持,但在人机协同领域的实际应用较少,可用数据不多。

2)在人类运动意图识别方面,目前的相关研究局限于人体运动路径分析和手势/工具识别,其结果缺乏预测性。未来可对人机协同系统中人的运动策略进行深入研究,增加系统的协调性和安全性。

3)在机器人控制领域中,传统控制方案稳定可靠但适用范围较窄,无法应对人机协同中开放的使用场景。未来可继续对神经网络控制等新型控制方案进行探索,在大数据支持下进一步增强其稳定性和鲁棒性。

4)为了拓展人机协同系统应用范围,人机协同的未来应该是全方位、多类型、高度智能的,可以根据现有的成果拓宽人机协同的深度和广度,让人机协同不仅在工业领域大放异彩,也可以拓展到服务机器人、特种机器人等。

猜你喜欢
位姿人机卷积
人机“翻译员”
基于3D-Winograd的快速卷积算法设计及FPGA实现
从内到外,看懂无人机
基于位置依赖的密集融合的6D位姿估计方法
船舶清理机器人定位基准位姿测量技术研究
卷积神经网络的分析与设计
从滤波器理解卷积
优化ORB 特征的视觉SLAM
基于单目视觉的工件位姿六自由度测量方法研究
基于傅里叶域卷积表示的目标跟踪算法