论文阅读：用于机器人独立装配编程的接触技能模仿学习

Contact Skill Imitation Learning for Robot-Independent Assembly Programming

用于机器人独立装配编程的接触技能模仿学习

摘要—机器人自动化是技术进步的关键驱动力。但是，人类工人的技能难以编程，并且目前看来是技术系统无法比拟的。在这项工作中，我们提出了一种数据驱动的方法，该方法使用长短期内存（LSTM）网络从仿真环境中的人类演示中提取和学习与机器人无关的接触技巧。我们的模型学习从对象相对运动中生成任务空间中力和转矩的纠错序列，工业机器人通过实际设置上的笛卡尔力控制方案来执行该序列。该方案使用操纵器的虚拟条件孪生的前向动力学计算来解决运动学逆问题。我们通过组装实验来评估我们的方法，在该实验中，我们的算法处理零件倾斜和卡纸以使其成功。结果表明，该技术对于任务空间中以及机器人的不同关节配置中的定位不确定性具有鲁棒性。通过我们的方法，非专家可以轻松地以独立于机器人的方式对力敏感的装配任务进行编程。

1.介绍

组装任务的机器人自动化是机器人应用领域中最古老的领域之一，自那时以来一直对工程师和科学家构成挑战。在机器人组装领域，采用通用策略是一种强烈的动力，因为它可以通过有效地重用解决方案在短时间内对许多机器人进行编程。但是，高度变化的系统动力学通常需要特定的策略来处理执行期间的零件倾斜和卡塞，并且很难推广到其他机器人和工作姿势。在这项工作中，我们提出了一种数据驱动的方法来获取联系技能，该联系技能封装了我们从仿真演示中提取的人类操作策略。然后，机器人可以通过通用的力控制界面执行这些技能。

几十年来，工业界中的柔性自动化和智能机器人已被认为对工业化国家具有重要意义[1]，[2]。为了实现这一目标，工作人员研究了组装的机理，以得出一般的分析解决方案和原理，例如以处理摩擦[3]，因传感器不精确而产生的零件卡塞[4]或具有顺应性参数优化的目标平面零件[5]。已经研究了操纵对象之间的接触和接触转换[6]，[7]，其语义信息可以加快机器人末端执行器与其环境接触的顺应性运动的设计[8]。遵循任务级方法，作品使用原语来编写技能，例如通过拟定位置力命令，例如“旋转至水平”，“旋转至插入” [9]或连接敏感运动原语[10]，[11]，使用人类启发的配方[12]或在任务框架[13]。基本技能的概念在最近的工作中仍然引起了人们的兴趣[14]，[15]。但是，发现在某些情况下最适用的原语并对其进行参数化的独创性通常意味着需要付出巨大的工程努力，这将认知性能留给了程序员而不是系统。人类是非常熟练的工人，可以轻松地加入装配零件，尽管不一定要使用分析表示法，例如接触状态[16]。但是，对我们而言，描述如何处理倾斜和卡纸或在卡住时采用何种策略是不直观的。根据这一见解，可以直接通过模仿学习来利用人类的表现来获得技能，例如在演示编程（PbD）1 [17]，[18]，[19]中应用一般对象操纵[20]，[ 21]，[22]和工业装配过程[23]，[24]。相反，在没有人工输入的情况下，对于接触丰富的操纵任务，方法已显示出令人鼓舞的结果[25]，[26]，并且间隙也很紧[27]。然而，将解决方案转移到工作空间中的任意姿势甚至其他系统上，都需要训练新的控制器，即使提供了初始轨迹[28]。

在这项工作中，我们旨在开发基于力的接触技能，以处理可移植到不同机器人操纵器上的卡塞和倾斜效应，并且一旦学会，就可以充当独立于特定装配任务的机器人技能。为此，我们训练了一个递归神经网络，以从仿真中的人类表现中学习类似人类的操纵策略，并将其与任务空间中相对对象的几何相关联。与相关的工作相反，我们的模型预测了力和扭矩的序列，它们是位置控制机器人的笛卡尔力控制的参考设定点，这是我们根据较早工作[29]提出的思想。

本文的其余部分如下：在第二节中，我们讨论了相关的工作并激励了我们的方法，在第三节中，我们详细介绍了我们的接触技能模型，在第四节中，我们详细介绍了机器人的吸引力控制方法。 V显示了我们的实验和结果。在VI中，我们讨论最终方面，并在VII中得出结论。

2.相关工作

模仿人类组装技能的方法已通过多种方式解决，例如使用遥控[30]，[23]，[24]，使用触觉设备进行教学[31]，直接动觉操纵器指导[32]或显式使用记录人类绩效的模拟[33]，[34]，[35]，[36]。我们的工作结合了远程操作以提取人类技能的思想，并结合了使用长短期记忆（LSTM）[37]作为对装配序列进行建模的方法，能够在短时间内获取大量样本的仿真优势。 Rahmatizadeh等人[38]使用了类似的方法来学习游戏手柄的基本操作技能，尽管并未明确针对接触技能主导的场景或机器人转移。

早期使用模拟的建议来自Ogata和Takahashi [33]以及Onda等人[35]，[34]，他们使用机器人操纵器作为示教设备来操纵模拟对象，以提取对象的访问。组装过程中的接触状态。他们后来利用长谷川等人的工作[9]得出了混合位置/力指令。 Skubic等人[31]学习了从传感器力直接映射到接触层的映射，并通过触觉设备获得了样本。在对这些编队的序列进行分类之后，他们使用有限状态机命令机器人进行速度控制。在类似的方法中，Dong等人[36]依靠虚拟环境中的性能通过隐马尔可夫模型（HMM）识别接触状态。他们使用局部加权回归（LWR）来学习3 DOF（自由度）任务的旋转角度校正轨迹。

Krueger等人[23]和后来的Savarimuthu等人[24]在组装Cranfield基准集的过程中，在组装对象中使用了磁跟踪器来记录笛卡尔轨迹。该机器人在装配的两个过程中模仿了遥操作模式下的人类行为，同时使用机器人的末端执行器传感器记录了作用力。 Kramberger等人[32]不需要在任务提取中进行特殊设置，而是在任务期间直接引导轻型机器人，记录笛卡尔轨迹和力分布，然后使用局部加权回归（LWR）将其概括化。

与这些工作相比，无论是在获取训练数据期间还是在机器人系统上执行过程中，我们都直接用力和扭矩操纵装配对象。做出此选择的主要原因有两个：首先，通过从多个入口点继续我们的工作，学习从对象的几何形状到扳手空间中的序列的映射，使我们能够应对各种干扰（自发或外部的）。理想情况下，我们计划从任意相对的对象姿势中恢复。第二：在扳手空间中进行命令使我们能够轻松缩放模型的输出，而无需更改其语义。两者都需要对机器人上的重力补偿力进行控制，如第四节所述。