论文阅读：Learning Motion Parameterizations of Mobile Pick and Place Actions from Observing Humans in Virtual Environments

Learning Motion Parameterizations of Mobile Pick and Place Actions from Observing Humans in Virtual Environments

通过在虚拟环境中观察人类来学习移动拾取和放置动作的运动参数化

在本文中，我们提出了一种方法和一种实现的管道，用于将从虚拟环境中的观察者获取的数据传输到在现实世界中起作用的机器人上，并相应地调整数据以成功完成任务执行。我们通过推断移动拾取和放置动作的七个不同的符号和符号下运动参数来演示我们的管道，这使机器人可以设置一个简单的早餐桌面。我们提出了一种学习通用运动参数模型的方法，并进行了讨论，可以在哪个抽象级别上学习哪些参数。

1.简介

在现实环境（例如人类家庭）中运行的机器人需要大量的各种知识才能执行任务。例如，考虑为早餐设置桌子的任务。机器人需要知道任务中涉及哪些对象，在给定环境中在哪里找到它们，如何站立以在视野中放置对象，如何抓住对象，在哪里站立才能到达它们，在特定上下文中什么是适当的桌面设置配置，等等。

这种知识很难获得：要么必须为每个任务编写专门的推理机，要么要从自己的经验中学习问题领域所有可能解决方案的尝试和错误方法。另外，机器人可以通过模仿向人类学习。后者的优点是人类利用直观的物理学和常识推理来正确地设置其运动参数，因此可以高度优化其参数。缺点是人类在机械设计上远远优于机器人，因此很难在机器人身上执行人类的运动参数。

如今，虚拟现实（VR）技术正变得非常流行并且易于访问。 VR系统允许人类以自然和直观的方式与虚拟环境进行交互。在VR中执行任务的人员的记录数据是日常活动知识的强大来源，可用于教机器人。与更传统的现实世界人类运动跟踪相反，VR系统允许轻松地改变环境和任务场景，提供高度准确的地面真实数据并提供对底层世界物理学的访问。后者意味着支撑关系（杯子随托盘移动），可见性（锅挡住了视野），家具状态（抽屉打开）和力接触事件（手触摸杯子，杯子与托盘失去接触）可以直接从物理引擎中读出。

如果可以从VR数据中自动提取知识，则机器人可以通过模仿人类来学习参数化其运动。在本文中，我们提出了一种方法和一种实现的管道，用于将从VR人类数据中获取的符号和子符号数据传输到机器人上，并进行相应的调整以实现成功的任务执行（见图1）。这需要解决观察到的动作和机器人动作之间的对应问题，并将观察到的数据转换成可执行的数据。由于虚拟和现实环境之间的差异，其中的对象，机器人和人类的物理身体以及功能以及在VR和现实世界中执行的任务的上下文之间的差异，因此无法按原样传输数据。我们提出了将数据归纳的方法，使其适用于机器人自身的环境和任务环境。此外，我们对可以传输哪些数据进行了实验分析，并讨论了使用最新技术从VR演示中学到的东西。

我们方法的一个重要特性是，我们以白盒方式从人类那里获取知识。与端到端方法相反，在端到端方法中，学习的模型具有很高的维数并且是一个黑匣子，我们将问题分解为较小的子问题。因此，我们学习的模型直接与相应的运动参数相关联，并且容易跟踪好或坏参数选择的因果关系。当我们将系统扩展到其他环境时，因式分解白盒模型也是有利的，因为我们学习了可以重用的小组件。

本文对最新技术的贡献是：

用于将虚拟现实中人类的运动参数化传递到机器人的管道，该管道可以概括不同的环境设置；

分析了在获取和放置任务的情况下在VR中获取的数据在机器人上的可传输性。

我们通过推断一般移动取放动作的七个参数来演示我们的管道，包括语义信息（例如应该从顶部抓起碗）以及子符号数据（例如桌子上物体的几何排列）以设置餐点。我们证明了传输的数据是高质量的，并使机器人能够在现实世界的厨房环境中设置简单的早餐桌。

2.相关工作

教导机器人执行基于观察人类的模仿学习并使用模仿来引导强化学习问题的任务是机器人技术中的一种广泛使用的方法[1]，[2]。在本节中，我们回顾了有关移动操作和从虚拟环境中学习的相关工作。

Welschehold等人[3]使用现实世界中的人体运动跟踪来学习诸如打开和关闭抽屉之类的任务的操纵动作轨迹。他们通过超图优化算法使数据适应机器人的能力。数据针对机器人主体，但未针对不同环境，因为针对特定家具学习了轨迹。另外，Welschehold等学习非常具体的运动参数，而在本文中，我们提出了一个通用管道，该管道可以基于人类在VR中所做的所有操作的大量日志来学习任何运动参数化。此外，我们学习了一整套参数，因为某项任务的许多运动参数设置是相互依赖的（请参见第IV节）。

Zhang等人[4]使用VR装置对PR2机器人进行遥控操作，以执行操纵任务，例如将轮子安装到玩具飞机上，以便将获取的数据用于深度模仿学习。通过远程操作进行教学可能会很昂贵，因为它需要访问机器人硬件。另一方面，从人类与虚拟现实中与环境交互的数据中收集数据是机器人众包数据收集的一种有前途的方法。在我们的论文中，VR用于为人类提供自然执行任务的环境。但是，这产生了人体与机器人身体之间的映射问题，我们将在本文中进行研究。

在VirtualHome [5]和RoboTHOR [6]项目中，在虚拟环境中控制人的化身以执行日常任务。这些项目中的用户交互是使用传统的键盘和鼠标完成的，操作动作不太现实，并且尚未证明所收集的数据对在现实世界中执行操作任务的机器人的适用性。

Bates等人[7]举例说明了从人类在VR实验中学习的机器人。他们的设置和基本构想与我们的相似，但是，他们没有从人类演示中学习低级运动参数化，而是应用自动运动分割算法来推断人类所执行动作的顺序，从而产生高水平计划机器人。在本文中，我们一直走到低级运动参数，直到可以从模拟环境中实际学习的限制为止。

Dyrstad等人[8]利用VR来指导机器人通过观察人类在VR中执行抓鱼动作来抓取真鱼。然后，将获取的数据用于生成大量用于训练DNN的合成数据。在[8]中，人类控制着VR中的机器人抓取器，这样就不会出现两个物体之间映射的复杂性。

在我们的论文中，我们对学习算法本身的关注程度不如可以学习任何运动参数，支持符号和亚符号学习模型的通用管道那么多。我们演示了许多可用于学习通用模型的简单算法，我们发现它们最适合于我们的数据。但是管道不限于这些算法，并且可以与任何其他现有技术的学习框架组合。

3. 通过在VR中观察人类来获取数据

在本节中，我们概述了知识获取管道，该管道用于从虚拟现实中观察人类收集机器人可理解的数据。我们简要概述了如何生成，存储和访问数据。数据采集管道已经在我们之前的工作中介绍过[9]，因此，本节仅提供一般概述。

为了与虚拟世界互动，我们使用了带有手部跟踪控制器的现成的VR头戴式耳机。图2可视化了数据收集的过程：我们要求人类用户在虚拟环境中执行未确定的任务，并且在执行过程中，我们自动记录子符号（轨迹，姿势）和符号（动作，事件）数据。虚拟环境与机器人的知识库相关联：虚拟世界中的每个实体都包含到机器人本体中对应类的映射[10]。因此，每次记录一个动作（例如抓握）或一个物理事件（例如对象之间的接触），参与记录事件的对象的本体类型（例如，本体类型为cup的对象）也是已知的刚刚被掌握）。

在任务执行过程中，数据保存在两个位置：（1）低级高频子符号数据存储在MongoDB数据库中，这使我们可以在任何给定的时间戳下重新创建世界的完整状态；（2）高级符号数据以及环境的语义表示以OWL本体格式存储。

为了访问数据，机器人使用Prolog编程语言查询知识库。人们可以通过openEASE1 [11]检查收集到的数据，openEASE1是一个Web界面，用于以图形化可视化方式回答查询。图3显示了来自表设置方案的示例查询的可视化。

4.移动拾取和放置的运动参数

在本节中，我们将说明机器人控制程序（我们称为计划），该程序在动作执行期间命令机器人。在我们的系统中，这些计划是用所谓的动作描述[12]编写的，这些动作描述是机器人需要执行的动作的未指定的抽象描述。例如，该计划可以包含以下命令：

其中描述了取回已在环境中找到的本体型杯子对象的操作。当执行到达执行未指定动作描述的命令时，将向理性系统发出推理查询，以推断该动作的缺失参数，从而得到完全指定且可执行的动作描述。在我们的示例中，缺少的参数将是：（1）如果机器人有多个手臂，则要抓住的手臂；（2）站立的基本位置，以便机器人可以使用给定的手臂成功到达物体（3）特定物体的抓握姿势，包括抓握点和抓手的方向，以便机器人可以从给定的基本位置到达物体。

如何抓取物体的问题要求机器人具备其身体的运动学知识，物体的特性（例如，重，易碎，高温）和环境（例如，不要触摸杯子的内部如果将用于饮用）。这样的知识很难编程。本文中的方法是利用人类的任务，常识和天真的物理知识，而不是直接将其编程到机器人中。

我们的通用移动取放计划被设计为分层结构。因此，最高级别的动作是运输动作。执行它的计划包含执行三个子动作的调用：搜索，获取和交付。表一列出了它们的运动参数。我们推断出本文中的所有七个参数。

搜索操作在环境中寻找适合抽象对象描述的对象。例如，执行（一个动作（类型搜索）（一个对象（一个对象（杯子））））将导致机器人在其环境中搜索杯子对象。搜索的主要参数是：（1）可能对象的位置，这是对象可能位于的位置，包括有关可以在哪种表面或容器中使用的语义信息以及确切的位置在要看的表面或容器上；（2）感知基地位置，即机器人基地的定位姿势，以便机器人可以在足够近的距离内无遮挡地感知物体的位置。可以看到，感知的基本位置取决于对象可能的位置的选择。

提取操作假定已经找到要提取的对象，并且知道其确切姿势。抓握的基本位置是机器人站立的姿势，这样机器人就可以到达对象并且轨迹不会导致碰撞。抓握是top，左侧，front，handle等符号值之一，对应于机器人要抓取的对象的侧面。实际的符号下的抓握姿势在我们的系统中的知识库中已预定义，因此在运行时，机器人仅需要从给定对象的可用抓握列表中选择合适的抓握即可。提取动作的手臂参数定义机器人是用左臂还是右臂抓握。

对于传递动作，必须推断出两个参数。第一个是对象放置位置，定义必须将对象放置在哪种符号类型的表面或容器上，以及该特定表面/容器上的确切姿势，例如，勺子的位置应在餐桌上表面，特别是在碗的右侧，并与桌子对齐。放置基地的位置是机器人基地的姿态，从中可以到达对象的放置位置。这两个参数是相互依赖的。

我们计划的一个重要属性是它们包含故障处理策略。这意味着计划的推断运动参数不一定总是正确的。相反，当参数导致失败时，从（基于VR的）知识库中选择建议列表中的另一个参数，然后使用该新解决方案重试计划。只要在重试计数器用完之前最终对合适的参数值进行采样，机器人就可以成功执行该动作。下面的代码段显示了一个简单的故障恢复策略，用于在拾取对象失败时选择不同的抓取方式：

我们将执行操作的命令（第2-4行）包装在故障处理保护程序（第1行）中，当发生类型操纵失败的故障（第5行）时，将变量q handle的值设置为下一个该值来自基于VR的抓取生成器（第6行），如果有下一个值，请重试以执行该操作（第7行）。 with-failure-handling和retry是来自我们特定领域的机器人编程语言CPL [13]的语言构造。

5.将人类数据传输到机器人及其环境中

在本节中，我们说明如何利用日志中的语义注释从VR中获取的数据中推断出表I中的七个参数。

搜索对象时，为了推断对象可能的位置，我们使用对象在虚拟环境中相对于其支撑表面的位置。这是人类在最后一次拾取和放置动作的末尾放置对象的地方。机器人计划中的对象由其本体分类来描述，例如，在（动作（类型搜索）（对象（对象（类型碗）））中，我们正在搜索本体分类碗中的任何对象。因此，我们的第一个约束条件是来自VR数据的对象属于类Bowl或其任何子类。相应的数据查询是：

接下来，我们从所有实验情节中找到所有事件，其中人类抓住了给定类型的对象，并记录了该事件开始的时间戳：

为了找到支撑表面，我们查找一个涉及对象的TouchingSituation事件。

接触事件处于活动状态时，即物体站在支撑表面上时必须发生抓紧事件：

请注意，我们如何使用存储在数据库中的力接触事件将连续的观测数据流分割成离散的人类动作序列。通过这样做，我们在机器人计划中的人类动作与其对应的对应对象之间建立了匹配。

为了确保我们的抓取事件对应于要传输到正确目的地的对象，我们需要考虑任务上下文。在我们的场景中，上下文是设置表，因此所有其他操作（例如，事后清理它）都无需考虑。我们通过查看事件的目标表面来过滤抓取事件：如果目标的类型为DiningTable，则假定该操作是要设置一个表：

既然我们已经将抓取事件限制在场景的上下文中，并且在对象传输开始时就推断出对象的支撑表面，我们就可以推断出对象相对于表面的位置。为此，我们需要全局坐标系中的对象位置和表面位置：

然后，通过简单的坐标框架转换来计算机器人环境中对象的姿态：

其他参数的推论与此类似。从抓握事件开始时的时间点，根据人相对于对象的姿态推断出感知的基本位置。由于我们只能在VR中跟踪人类的头部而不是他的脚，因此，我们首先将姿势投射到地板上，然后拉直方向以摆脱人类的头部姿势，将其映射到机器人的基本位置。头部倾斜，使机器人基座平行于地板。此外，由于机器人的底脚比人的脚宽，因此我们在姿势的-x方向（即向后）增加了恒定的偏移量。这是我们用来将人类数据调整到机器人身体的唯一显式偏移量。当将数据传输到另一个机器人主体时，仅此值就必须针对新机器人进行调整。

类似地推断出用于抓握的基本位置和用于放置的基本位置。从人的手腕相对于物体的相对位置可以推断出象征性的抓地力，例如，如果手腕位于物体上方，则表示是最抓地力。手臂是基于手握住对象的左手或右手的值。

对象放置位置是一个参数，在很大程度上取决于任务上下文。例如，在清洁桌子的背景下，勺子在水槽附近的表面上的位置并不意味着对其方向或位置的严格限制。另一方面，在餐桌设置的情况下，勺子的方向必须与支撑表面对齐。另外，如果桌子上还有其他物体，例如盘子或碗，则勺子的位置应限制在另一个物体的右边。这取决于使用器具的人的观点，因此，在这种情况下，人的位置也影响物体放置的位置。因此，根据支撑表面的边界框，所涉及对象的相对姿势以及放置对象时的人体姿势来计算对象在桌子上的相对位置。

6.学习通用的移动拣选和放置任务模型

在本节中，我们概述了如何通过基于VR的推理在机器人上执行计划而生成的数据可用于学习运动参数的一般模型。我们展示了如何从学习到的模型中推断出表I的七个参数中的三个。其他四个参数直接从VR数据作为一对一映射进行计算，而无需在两者之间使用通用模型。

在之前的工作中[14]，我们使用了机器人自身的经验数据来学习移动式取放的运动参数。训练数据是使用启发式方法生成的，以最大程度地减少搜索空间。但是，必须为每个参数手工制作试探法。在本文中，启发式方法已被基于VR的推理所取代，因此我们将人类数据用作学习的种子。我们基于在基于VR推理的模拟机器人中获得的数据，对[14]中的统计模型进行了重新训练。

为了推断有望成功完成抓取动作的抓握姿势和相应的机器人基础位置，我们利用以下概率分布：

在此，我们确定成功的最大概率S，给定机器人相对于对象的基本姿势RP，表示为离散变量的抓取姿势GP，表示为OT型的手臂类型，手臂ARM以及表示为两个离散随机变量的对象方位–支撑面（SF）和机器人正面（RFF）–与GP具有相同的值。我们假设对象的方向始终受其支撑表面的约束，因此，我们使用与支撑表面（SF）接触的对象的表面以及围绕垂直于该表面的轴的角度来表示对象。我们将角度的连续空间离散为四个符号对象面，该面的法线指向机器人，我们将其称为机器人面对面RFF。为了推断机器人面对的脸，我们应用线性代数，这使我们能够以1.0的概率来确定它。

我们使用模糊马尔可夫逻辑网络（FUZZY-MLN）[15]作为统计模型，以推断离散的抓握姿势GP，其以最高的概率导致机器人抓握物体。 MLN的优势在于它们可以表示复杂的关系，并且它们是白盒模型，易于解释并易于理解学习特征之间的因果关系。

通过推断RFF和GP，我们能够创建一个分布，该分布表示基于机器人位置来抓取对象的成功概率。为了计算成功概率，我们创建了一个二进制分类器，该分类器在获取动作（例如抓取姿势，物体类型和机器人基础姿势）的证据的基础上，对获取动作是否成功进行标记。由于目前没有足够的数据来自虚拟现实，无法用于深度学习，因此我们决定使用生成模型（高斯朴素贝叶斯模型）来表示成功概率。对于（OT×GP×RFF×SF×ARM）的每种组合，我们都有一个贝叶斯分类器，以便能够执行快速推理。

提取动作的概率分布的优势在于，可以将其重新用于将对象传递到给定位置。我们将传递动作解释为与获取相反，因此，表示传递动作成功的概率类似于获取概率：

在传递动作中，主体已经手中有物体，因此我们考虑给出的抓握姿势。

图4显示了学习的模型，这些模型用于在拿起碗和放置杯子时定位机器人的基座。

7. EXPERIMENTAL ANALYSIS

在本节中，我们将实地研究使用人类在VR中执行任务的数据在真实机器人上执行移动拾取和放置任务的有效性。具体来说，我们调查下面列出的问题。

1) 通过基于来自在VR中行动的人类的数据推断运动参数，是否有可能在机器人上成功执行简单的桌面设置任务？

2) 基于VR的运动参数推断与手工制作的启发式基准相比如何？

3) VR数据的质量和数量如何影响机器人性能？

4) 系统可扩展以适应环境变化吗？

5) 该系统可以应用于不同的机器人吗？

6) 机器人的行为是否反映了人类的喜好？

所有实验的任务是通过将它们从水槽柜台带到餐桌上，设置一个简单的早餐桌，其中包含三个对象（碗，勺子和杯子）。

A. VR中的数据获取

我们已经在VR中分批记录了数据，这些数据在许多属性上都不同，如表II所示。

LikeReal批次记录在虚拟环境中，该环境与现实世界中的机器人厨房极为相似。在每个情节中，源和目标表面上对象的位置和方向都不同。

对于其他批次，我们对三种不同的厨房环境进行了建模，在这些环境中，家具的尺寸，位置和方向都发生了很大变化，从而创造了与实际环境尽可能不同的环境，同时确保了由此产生的安排并不是一个不切实际的人类家庭（见图5）。

3VarThird收集的数据批次只是3Var批次的子集，用于评估数据对机器人性能的定量影响。在LeftSide批次中，人类用户仅将勺子放在碗的左侧，以调查人类的喜好是否反映在机器人行为中。

在VR中收集数据时，考虑尽可能多的变化非常重要。这包括改变物体在表面上的位置和方向，以及人体与对象的相对姿势。在不同的抓握姿势和手臂等之间交替。

B. 实验

为了回答上述问题，我们执行了表III中列出的各种变化形式的表设置任务。

实验是在真实的机器人以及快速仿真环境中进行的[16]，它们随机改变对象在水槽柜台上初始位置的位置和方向。为了表明该系统可以应用于不同的机器人主体，我们使用了两个机器人PR2和Boxy，它们是带有两个臂的移动操纵平台。 Boxy由与PR2完全不同的硬件组件制成，具有其他尺寸和较小的手臂可及区域（请参见图6（左））。为了显示系统可以随着机器人环境的变化而扩展，我们为模拟器设计了一个改良的厨房，它不同于真实的厨房或任何VR厨房（请参见图6（右））。为了显示机器人不仅能够针对给定的任务上下文学习合适的桌面设置安排，而且还考虑了收集数据的人类的偏好，已经在加载LeftSide VR数据批次的情况下进行了一些实验。 VR中的数据（参见图7）。

作为比较的基准，我们使用了手工启发法来推断缺少的运动参数[16]：为了计算对象可能的位置和目标姿势，我们使用了支撑面的边界框；对于可见性计算，使用屏幕外渲染；为了达到可到达性，将生成一个简单的机器人特定的圆形区域；手臂和抓地力的选择是通过随机抽样完成的。表III中所有具有Heur的实验。作为推理引擎，是我们的基准。

表IV显示了实验结果，这些结果是每个实验执行表设置次数的平均值。执行时间是一次桌面设置运行的平均持续时间，仅考虑成功的一次。故障次数是执行次数的平均值（将自然数转换为实数）。可恢复的故障是可以通过使用另一个参数重试计划来纠正的故障。在可恢复故障数量很高的实验中，VR数据中的合适运动参数较少（例如，在Pr2VrSimThird中仅使用了三分之一的数据），因此机器人必须尝试非常大量的参数，直到找到一个好的参数为止。当机器人放弃运输给定的对象时，将引发不可恢复的故障。

通过查看执行成功率，我们可以得出结论，我们的系统可以从表I中成功学习运输动作的七个运动参数。我们可以看到，我们的系统通常在执行成功率上接近手工制作的启发式基准。遇到更多的中间可恢复故障。

基于启发式的实验在厨房中的成功率与真实厨房相近，比改良厨房要高得多：PR2为89％对75％，Boxy为87％对48％。改造后的厨房比原始厨房更具挑战性，因为这些物品通常是在房间的一角产生的，而在这里，机器人底座的姿势受到很大限制。

在类似于现实世界的厨房中，基于VR的方法的成功率为71％，而启发式方法的成功率为89％。考虑到启发式方法需要大量的手工工作，我们认为71％的成功率是令人满意的，而VR中的数据收集可以由非专家收集并可以众包。

我们认为，最重要的实验是在改造后的机器人厨房中进行的实验。启发式方法的成功率达到了74％，比原始厨房要差15％。基于VR的方法成功率达71％，仅比原始厨房差1％。因此，我们得出结论，基于VR的方法可以很好地推广到不同的环境，甚至是具有挑战性的环境。

现实世界中的实验仅包含10次执行运行，我们认为这不足以做出具有统计意义的声明，但作为概念证明很重要。

8. 总结讨论以及未来的工作

在本文中，我们提出了一个从虚拟现实中观察人类来学习机器人获取和放置任务的运动参数化的管道。我们解释了如何使用数据传输规则将来自VR的数据传输到机器人及其环境中，以及如何基于数据学习通用运动参数模型。我们证明了数据可以针对不同的环境和机器人平台进行扩展，并且可以在仿真和现实世界中的不同机器人上成功执行简单的表格设置任务。由于使用了本体，该系统还可以扩展到新颖对象，只要它们属于虚拟环境中已知对象的本体子类即可。

我们的数据传输规则是经过精心设计的。使用机器学习方法，尤其是数据驱动的深度学习模型，我们可以简化这些规则。例如，目前在餐桌设置环境中，勺子的姿势是根据大量参数（例如支撑面的姿势和尺寸，人体相对姿势，参考碗对象的姿势以及物体的姿势）和线性代数公式来计算的。机器人姿势。在以后的工作中，可以通过对CNN进行来自不同桌子设置结构图像的视觉特征训练来简化此过程。

任何模仿学习框架的重要考虑因素是在具有不同主体的主体之间传递知识的问题。通过在仿真环境中执行计划以验证推断出的运动参数设置，然后在失败时使用下一个推断出的运动参数值重试计划，我们可以解决此问题。自然，机器人硬件离人类越近，假定的成功率就越高。我们的系统是否可以在非拟人化的机器人设计（例如四足机器人）上运行尚不清楚。但是，我们已经表明，该系统通过在两个不同的机器人上进行实验，可以朝着新颖的机器人平台扩展。通过学习人与机器人身体之间的黑匣子映射模型，可以进一步改善我们的方法。

从我们考虑过的七个运动参数化中，我们只能在其中一个中抽象出一个符号级别：由于在我们系统中的抓取是作为简单的刚性附件实现的，而不是使用动力学和摩擦模拟，因此现实程度并不高。足以从VR数据中学习精确的抓握姿势。物理稳定的基于力的抓取很难在物理引擎中实现，因为与之交互的手和对象通常表示为刚体，这会使接触变得非常不稳定。另外，人的手的灵巧性远胜于机器人的灵巧性，并且允许令人印象深刻的抓握，例如一只手握持多个物体。在机器人上复制它非常困难，尤其是当它只有两个手指时。因此，尚不清楚关于人类如何用手握住物体的详细知识是否对机器人有用。

我们的产品线为学习取放区域之外的更多运动参数提供了广阔的可能性，例如浇注，切割，环境操作等参数，我们将在以后考虑。

据作者所知，在现有技术中，没有其他系统可以通过通用管道将VR的符号和子符号数据传输到机器人。存在针对特定任务的专门解决方案。在我们的论文中，我们提出了一个通用管道，可用于学习在虚拟环境中足够逼真的运动参数化。