人类毫不费力地解决了在日常生活中推动任务,但解锁这些能力在机器人中仍然是一个挑战,因为这些任务的物理模型通常不准确或无法实现。最先进的数据驱动方法学会弥补这些不准确性或更换近似物理模型。尽管如此,深度Q-Networks(DQN)等方法遭受了大状态行动空间中的本地Optima。此外,他们依靠精心挑选的深度学习架构和学习范式。在本文中,我们建议框架将DQN推向策略(其中推送和如何)作为图像到图像到图像转换问题,并利用基于沙漏的架构。我们介绍了一种架构,该架构组合的预测器,其推动导致环境的变化具有专用于推动任务的状态 - 动作值预测器。此外,我们调查了职位信息编码以学习依赖于依赖的策略行为。我们在仿真实验中展示了UR5机器人手臂,即我们的整体架构帮助DQN在推动任务中达到更快,实现更高的性能,涉及具有未知动态的对象。
translated by 谷歌翻译
Both goal-agnostic and goal-oriented tasks have practical value for robotic grasping: goal-agnostic tasks target all objects in the workspace, while goal-oriented tasks aim at grasping pre-assigned goal objects. However, most current grasping methods are only better at coping with one task. In this work, we propose a bifunctional push-grasping synergistic strategy for goal-agnostic and goal-oriented grasping tasks. Our method integrates pushing along with grasping to pick up all objects or pre-assigned goal objects with high action efficiency depending on the task requirement. We introduce a bifunctional network, which takes in visual observations and outputs dense pixel-wise maps of Q values for pushing and grasping primitive actions, to increase the available samples in the action space. Then we propose a hierarchical reinforcement learning framework to coordinate the two tasks by considering the goal-agnostic task as a combination of multiple goal-oriented tasks. To reduce the training difficulty of the hierarchical framework, we design a two-stage training method to train the two types of tasks separately. We perform pre-training of the model in simulation, and then transfer the learned model to the real world without any additional real-world fine-tuning. Experimental results show that the proposed approach outperforms existing methods in task completion rate and grasp success rate with less motion number. Supplementary material is available at https: //github.com/DafaRen/Learning_Bifunctional_Push-grasping_Synergistic_Strategy_for_Goal-agnostic_and_Goal-oriented_Tasks
translated by 谷歌翻译
机器人经常面临抓住目标对象的情况,但由于其他当前物体阻止了掌握动作。我们提出了一种深入的强化学习方法,以学习掌握和推动政策,以在高度混乱的环境中操纵目标对象以解决这个问题。特别是,提出了双重强化学习模型方法,该方法在处理复杂场景时具有很高的弹性,在模拟环境中使用原始对象平均达到98%的任务完成。为了评估所提出方法的性能,我们在包装对象和一堆对象方案中进行了两组实验集,在模拟中总共进行了1000个测试。实验结果表明,该提出的方法在各种情况下都效果很好,并且表现出了最新的最新方法。演示视频,训练有素的模型和源代码可重复可重复性目的。 https://github.com/kamalnl92/self-superist-learning-for-pushing-and-grasping。
translated by 谷歌翻译
非结构化环境中的多步操纵任务对于学习的机器人来说非常具有挑战性。这些任务相互作用,包括可以获得的预期状态,可以实现整体任务和低级推理,以确定哪些行动将产生这些国家。我们提出了一种无模型的深度加强学习方法来学习多步理操作任务。我们介绍了一个基于视觉的模型架构的机器人操纵网络(ROMANNET),以了解动作值函数并预测操纵操作候选。我们定义基于Gaussian(TPG)奖励函数的任务进度,基于导致成功的动作原语的行动和实现整体任务目标的进展来计算奖励。为了平衡探索/剥削的比率,我们介绍了一个损失调整后的探索(LAE)政策,根据亏损估计的Boltzmann分配来确定来自行动候选人的行动。我们通过培训ROMANNET来展示我们方法的有效性,以了解模拟和现实世界中的几个挑战的多步机械管理任务。实验结果表明,我们的方法优于现有的方法,并在成功率和行动效率方面实现了最先进的性能。消融研究表明,TPG和LAE对多个块堆叠的任务特别有益。代码可用:https://github.com/skumra/romannet
translated by 谷歌翻译
Grasp learning has become an exciting and important topic in robotics. Just a few years ago, the problem of grasping novel objects from unstructured piles of clutter was considered a serious research challenge. Now, it is a capability that is quickly becoming incorporated into industrial supply chain automation. How did that happen? What is the current state of the art in robotic grasp learning, what are the different methodological approaches, and what machine learning models are used? This review attempts to give an overview of the current state of the art of grasp learning research.
translated by 谷歌翻译
越来越多的人期望在对象属性具有高感知不确定性的越来越多的非结构化环境中操纵对象。这直接影响成功的对象操纵。在这项工作中,我们提出了一个基于增强的学习动作计划框架,用于对象操纵,该框架既利用了在现有的多感觉反馈,也可以使用学习的注意力引导的深层负担能力模型作为感知状态。可承受的模型是从多种感官方式中学到的,包括视觉和触摸(触觉和力/扭矩),旨在预测和指示具有相似外观的物体的多个负担能力(即抓地力和推动力)的可操作区域属性(例如,质量分布)。然后,对基于DQN的深钢筋学习算法进行培训,以选择成功对象操纵的最佳动作。为了验证提出的框架的性能,使用开放数据集和收集的数据集对我们的方法进行评估和基准测试。结果表明,所提出的方法和整体框架的表现优于现有方法,并实现更好的准确性和更高的效率。
translated by 谷歌翻译
人类和许多动物都表现出稳健的能力来操纵不同的物体,通常与他们的身体直接和有时与工具间接地进行操作。这种灵活性可能是由物理处理的基本一致性,例如接触和力闭合。通过将工具视为我们的机构的扩展来启发,我们提出了工具 - 作为实施例(TAE),用于处理同一表示空间中的手动对象和工具对象交互的基于工具的操作策略的参数化。结果是单一策略,可以在机器人上递归地应用于使用结束效果来操纵对象,并使用对象作为工具,即新的最终效果,以操纵其他对象。通过对不同实施例的共享经验进行掌握或推动,我们的政策表现出比训练单独的政策更高的性能。我们的框架可以利用将对启用工具的实施例的不同分辨率的所有经验用于每个操纵技能的单个通用策略。 https://sites.google.com/view/recursivemanipulation的视频
translated by 谷歌翻译
在非结构化环境中,使用看不见的对象进行实例分割是一个具有挑战性的问题。为了解决这个问题,我们提出了一种机器人学习方法,以积极与新对象进行互动,并收集每个对象的训练标签,以进一步进行微调以提高细分模型的性能,同时避免手动标记数据集的耗时过程。通过端到端的强化学习对奇异和抓斗(SAG)政策进行培训。考虑到一堆混乱的对象,我们的方法选择推动和抓住动作来打破混乱并进行对象不合时宜的抓握,而SAG策略则将其作为输入视觉观察和不完善的分割。我们将问题分解为三个子任务:(1)对象singulation子任务旨在将对象彼此分开,从而产生更多的空间,从而减轻了(2)无碰撞抓握子任务的难度; (3)通过使用基于光流的二进制分类器和运动提示后处理进行传输学习,掩盖生成子任务以获得自标记的地面真相蒙版。我们的系统在模拟的混乱场景中达到了70%的单次成功率。我们系统的交互式分割可实现87.8%,73.9%和69.3%的玩具块,模拟中的YCB对象和现实世界中的新颖对象的平均精度,这表现优于几个基准。
translated by 谷歌翻译
非预先预先推动动作有可能从其周围杂波中分割目标物体,以便于靶的机器人抓握。为了解决这个问题,我们利用了一个启发式规则,使目标对象将目标对象移动到工作空间的空白区域,并证明这种简单的启发式规则能够达到分割。此外,我们将这种启发式规则纳入奖励,以便培训更有效的加强学习(RL)代理进行分割。仿真实验表明,这种洞察力会提高性能。最后,我们的结果表明,基于RL的政策隐含地了解与决策方面的类似启发式类似的东西。
translated by 谷歌翻译
我们研究了复杂几何物体的机器人堆叠问题。我们提出了一个挑战和多样化的这些物体,这些物体被精心设计,以便要求超出简单的“拾取”解决方案之外的策略。我们的方法是加强学习(RL)方法与基于视觉的互动政策蒸馏和模拟到现实转移相结合。我们的学习政策可以有效地处理现实世界中的多个对象组合,并展示各种各样的堆叠技能。在一个大型的实验研究中,我们调查在模拟中学习这种基于视觉的基于视觉的代理的选择,以及对真实机器人的最佳转移产生了什么影响。然后,我们利用这些策略收集的数据并通过离线RL改善它们。我们工作的视频和博客文章作为补充材料提供。
translated by 谷歌翻译
在现实世界中的机器人在现实环境中的许多可能的应用领域都铰接机器人掌握物体的能力。因此,机器人Grasping多年来一直是有效的研究领域。通过我们的出版物,我们有助于使机器人能够掌握,特别关注垃圾桶采摘应用。垃圾拣选尤其挑战,由于经常杂乱和非结构化的物体排列以及通过简单的顶部掌握的物体的频繁避免的避神。为了解决这些挑战,我们提出了一种基于软演员 - 评论家(SAC)的混合离散调整的完全自我监督的强化学习方法。我们使用参数化运动原语来推动和抓握运动,以便为我们考虑的困难设置启用灵活的适应行为。此外,我们使用数据增强来提高样本效率。我们证明了我们提出的关于具有挑战性的采摘情景的方法,其中平面掌握学习或行动离散化方法会面临很大困难
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
在密集的混乱中抓住是自动机器人的一项基本技能。但是,在混乱的情况下,拥挤性和遮挡造成了很大的困难,无法在没有碰撞的情况下产生有效的掌握姿势,这会导致低效率和高失败率。为了解决这些问题,我们提出了一个名为GE-GRASP的通用框架,用于在密集的混乱中用于机器人运动计划,在此,我们利用各种动作原始素来遮挡对象去除,并呈现发电机 - 评估器架构以避免空间碰撞。因此,我们的ge-grasp能够有效地抓住密集的杂物中的物体,并有希望的成功率。具体而言,我们定义了三个动作基础:面向目标的抓握,用于捕获,推动和非目标的抓握,以减少拥挤和遮挡。发电机有效地提供了参考空间信息的各种动作候选者。同时,评估人员评估了所选行动原始候选者,其中最佳动作由机器人实施。在模拟和现实世界中进行的广泛实验表明,我们的方法在运动效率和成功率方面优于杂乱无章的最新方法。此外,我们在现实世界中实现了可比的性能,因为在模拟环境中,这表明我们的GE-Grasp具有强大的概括能力。补充材料可在以下网址获得:https://github.com/captainwudaokou/ge-grasp。
translated by 谷歌翻译
已证明无模型的策略学习能够学习操纵政策,可以使用单步操作原始人来解决长期的视野任务。但是,培训这些政策是一个耗时的过程,需要大量数据。我们提出了局部动力学模型(LDM),该模型有效地学习了这些操纵原始基底的状态转换函数。通过将LDM与无模型的政策学习相结合,我们可以学习可以使用一步lookahead计划来解决复杂的操纵任务的政策。我们表明,LDM既是样本效率更高又胜过其他模型体系结构。与计划结合使用时,我们可以在模拟中的几项具有挑战性的操纵任务上胜过其他基于模型和模型的政策。
translated by 谷歌翻译
强化学习是机器人抓握的一种有前途的方法,因为它可以在困难的情况下学习有效的掌握和掌握政策。但是,由于问题的高维度,用精致的机器人手来实现类似人类的操纵能力是具有挑战性的。尽管可以采用奖励成型或专家示范等补救措施来克服这个问题,但它们通常导致过分简化和有偏见的政策。我们介绍了Dext-Gen,这是一种在稀疏奖励环境中灵巧抓握的强化学习框架,适用于各种抓手,并学习无偏见和复杂的政策。通过平滑方向表示实现了抓地力和物体的完全方向控制。我们的方法具有合理的培训时间,并提供了包括所需先验知识的选项。模拟实验证明了框架对不同方案的有效性和适应性。
translated by 谷歌翻译
Cloth in the real world is often crumpled, self-occluded, or folded in on itself such that key regions, such as corners, are not directly graspable, making manipulation difficult. We propose a system that leverages visual and tactile perception to unfold the cloth via grasping and sliding on edges. By doing so, the robot is able to grasp two adjacent corners, enabling subsequent manipulation tasks like folding or hanging. As components of this system, we develop tactile perception networks that classify whether an edge is grasped and estimate the pose of the edge. We use the edge classification network to supervise a visuotactile edge grasp affordance network that can grasp edges with a 90% success rate. Once an edge is grasped, we demonstrate that the robot can slide along the cloth to the adjacent corner using tactile pose estimation/control in real time. See http://nehasunil.com/visuotactile/visuotactile.html for videos.
translated by 谷歌翻译
3D视觉输入的对象操纵对构建可宽大的感知和政策模型构成了许多挑战。然而,现有基准中的3D资产主要缺乏与拓扑和几何中的现实世界内复杂的3D形状的多样性。在这里,我们提出了Sapien操纵技能基准(Manishill)以在全物理模拟器中的各种物体上基准操纵技巧。 Manishill中的3D资产包括大型课堂内拓扑和几何变化。仔细选择任务以涵盖不同类型的操纵挑战。 3D Vision的最新进展也使我们认为我们应该定制基准,以便挑战旨在邀请研究3D深入学习的研究人员。为此,我们模拟了一个移动的全景摄像头,返回以自我为中心的点云或RGB-D图像。此外,我们希望Manishill是为一个对操纵研究感兴趣的广泛研究人员提供服务。除了支持从互动的政策学习,我们还支持学习 - 从演示(LFD)方法,通过提供大量的高质量演示(〜36,000个成功的轨迹,总共〜1.5米点云/ RGB-D帧)。我们提供使用3D深度学习和LFD算法的基线。我们的基准(模拟器,环境,SDK和基线)的所有代码都是开放的,并且将基于基准举办跨学科研究人员面临的挑战。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
高分辨率表示对于基于视觉的机器人抓问题很重要。现有作品通常通过子网络将输入图像编码为低分辨率表示形式,然后恢复高分辨率表示。这将丢失空间信息,当考虑多种类型的对象或远离摄像机时,解码器引入的错误将更加严重。为了解决这些问题,我们重新审视了CNN的设计范式,以实现机器人感知任务。我们证明,与串行堆叠的卷积层相反,使用平行分支将是机器人视觉抓握任务的更强大设计。特别是,为机器人感知任务(例如,高分辨率代表和轻量级设计)提供了神经网络设计的准则,这些指南应对不同操纵场景中的挑战做出回应。然后,我们开发了一种新颖的抓地视觉体系结构,称为HRG-NET,这是一种平行分支结构,始终保持高分辨率表示形式,并反复在分辨率上交换信息。广泛的实验验证了这两种设计可以有效地提高基于视觉的握把和加速网络训练的准确性。我们在YouTube上的真实物理环境中显示了一系列比较实验:https://youtu.be/jhlsp-xzhfy。
translated by 谷歌翻译