充分感知环境是机器人运动产生的关键因素。尽管引入深层视觉处理模型有助于扩展这种能力,但现有的方法缺乏积极修改感知内容的能力。人类在视觉认知过程中进行内部性能。本文通过提出一种新的机器人运动生成模型来解决问题,灵感来自人类的认知结构。该模型结合了一个由州驱动的主动自上而下的视觉注意模块,该模块获得了可以根据任务状态积极改变目标的注意事项。我们将这种注意力称为基于角色的注意力,因为获得的注意力集中在整个运动中共有连贯作用的目标。该模型经过了机器人工具使用任务的训练,在该任务中,基于角色的专注分别在对象拾取和对象拖动运动过程中将机器人抓手和工具视为相同的最终效果。这类似于一种称为工具体同化的生物学现象,其中一个人将处理工具视为身体的扩展。结果表明,模型的视觉感知的灵活性有所提高,即使为其提供了未经训练的工具或暴露于实验者的分心,也可以持续稳定的注意力和运动。
translated by 谷歌翻译
我们实现了接触的灵活物体操作,这很难单独使用视力控制。在解压缩任务中,我们选择作为验证任务,夹具抓住拉动器,它隐藏袋子状态,例如其背后的变形的方向和量,使得仅通过视觉获取信息来执行任务。此外,柔性织物袋状态在操作期间不断变化,因此机器人需要动态地响应变化。然而,所有袋子状态的适当机器人行为难以提前准备。为了解决这个问题,我们开发了一种模型,可以通过具有触觉的视觉的实时预测来执行接触的灵活性对象操纵。我们介绍了一种基于点的注意机制,用于提取图像特征,Softmax转换来提取预测运动,以及用于提取触觉特征的卷积神经网络。使用真正的机器人手臂的实验结果表明,我们的方法可以实现响应袋子变形的运动,同时减少拉链上的负荷。此外,与单独的视觉相比,使用触觉从56.7%提高到93.3%,展示了我们方法的有效性和高性能。
translated by 谷歌翻译
Language-conditioned policies allow robots to interpret and execute human instructions. Learning such policies requires a substantial investment with regards to time and compute resources. Still, the resulting controllers are highly device-specific and cannot easily be transferred to a robot with different morphology, capability, appearance or dynamics. In this paper, we propose a sample-efficient approach for training language-conditioned manipulation policies that allows for rapid transfer across different types of robots. By introducing a novel method, namely Hierarchical Modularity, and adopting supervised attention across multiple sub-modules, we bridge the divide between modular and end-to-end learning and enable the reuse of functional building blocks. In both simulated and real world robot manipulation experiments, we demonstrate that our method outperforms the current state-of-the-art methods and can transfer policies across 4 different robots in a sample-efficient manner. Finally, we show that the functionality of learned sub-modules is maintained beyond the training process and can be used to introspect the robot decision-making process. Code is available at https://github.com/ir-lab/ModAttn.
translated by 谷歌翻译
We describe a learning-based approach to handeye coordination for robotic grasping from monocular images. To learn hand-eye coordination for grasping, we trained a large convolutional neural network to predict the probability that task-space motion of the gripper will result in successful grasps, using only monocular camera images and independently of camera calibration or the current robot pose. This requires the network to observe the spatial relationship between the gripper and objects in the scene, thus learning hand-eye coordination. We then use this network to servo the gripper in real time to achieve successful grasps. To train our network, we collected over 800,000 grasp attempts over the course of two months, using between 6 and 14 robotic manipulators at any given time, with differences in camera placement and hardware. Our experimental evaluation demonstrates that our method achieves effective real-time control, can successfully grasp novel objects, and corrects mistakes by continuous servoing.
translated by 谷歌翻译
我们研究了实时的协作机器人(Cobot)处理,Cobot在人类命令下操纵工件。当人类直接处理工件时,这是有用的。但是,在可能的操作中难以使COBOT易于命令和灵活。在这项工作中,我们提出了一个实时协作机器人处理(RTCOHand)框架,其允许通过用户定制的动态手势控制COBOT。由于用户,人类运动不确定性和嘈杂的人类投入的变化,这很难。我们将任务塑造为概率的生成过程,称为条件协作处理过程(CCHP),并从人类的合作中学习。我们彻底评估了CCHP的适应性和稳健性,并将我们的方法应用于Kinova Gen3机器人手臂的实时Cobot处理任务。我们实现了与经验丰富和新用户的无缝人员合作。与古典控制器相比,RTCEHAND允许更复杂的操作和更低的用户认知负担。它还消除了对试验和错误的需求,在安全关键任务中呈现。
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
本文对人机对象切换的文献进行了调查。切换是一种协作的关节动作,其中代理人,给予者,给予对象给另一代理,接收器。当接收器首先与给予者持有的对象并结束时,当给予者完全将物体释放到接收器时,物理交换开始。然而,重要的认知和物理过程在物理交换之前开始,包括在交换的位置和时间内启动隐含协议。从这个角度来看,我们将审核构成了上述事件界定的两个主要阶段:1)预切换阶段和2)物理交流。我们专注于两位演员(Giver和Receiver)的分析,并报告机器人推动者(机器人到人类切换)和机器人接收器(人到机器人切换)的状态。我们举报了常用于评估互动的全面的定性和定量度量列表。虽然将我们的认知水平(例如,预测,感知,运动规划,学习)和物理水平(例如,运动,抓握,抓取释放)的审查重点,但我们简要讨论了安全的概念,社会背景,和人体工程学。我们将在人对人物助手中显示的行为与机器人助手的最新进行比较,并确定机器人助剂的主要改善领域,以达到与人类相互作用相当的性能。最后,我们提出了一种应使用的最小度量标准,以便在方法之间进行公平比较。
translated by 谷歌翻译
内部计算模型的物理体是机器人和动物的能力来规划和控制行动的基础。这些“自我模型”允许机器人考虑多种可能的未来行动的结果,而不会在物理现实中尝试。最近的完全数据驱动自建模中的进展使机器能够直接从任务 - 不可行的交互数据学习自己的前瞻性运动学。然而,前进kinema \ -tics模型只能预测形态的有限方面,例如关节和肿块的最终效果或速度的位置。一个关键的挑战是模拟整个形态和运动学,而无需先验知识的形态的哪些方面与未来的任务相关。在这里,我们建议,而不是直接建模前瞻性,更有用的自我建模形式是一个可以回答空间占用查询的形式,而是在机器人的状态下调节空间占用疑问。这种查询驱动的自模型在空间域中是连续的,内存高效,完全可分辨:运动感知。在物理实验中,我们展示了视觉自我模型是如何准确到工作空间的百分比,使机器人能够执行各种运动规划和控制任务。视觉自我建模还可以让机器人从真实世界损坏中检测,本地化和恢复,从而提高机器弹性。我们的项目网站是:https://robot-morphology.cs.columbia.edu/
translated by 谷歌翻译
人类和许多动物都表现出稳健的能力来操纵不同的物体,通常与他们的身体直接和有时与工具间接地进行操作。这种灵活性可能是由物理处理的基本一致性,例如接触和力闭合。通过将工具视为我们的机构的扩展来启发,我们提出了工具 - 作为实施例(TAE),用于处理同一表示空间中的手动对象和工具对象交互的基于工具的操作策略的参数化。结果是单一策略,可以在机器人上递归地应用于使用结束效果来操纵对象,并使用对象作为工具,即新的最终效果,以操纵其他对象。通过对不同实施例的共享经验进行掌握或推动,我们的政策表现出比训练单独的政策更高的性能。我们的框架可以利用将对启用工具的实施例的不同分辨率的所有经验用于每个操纵技能的单个通用策略。 https://sites.google.com/view/recursivemanipulation的视频
translated by 谷歌翻译
As the basis for prehensile manipulation, it is vital to enable robots to grasp as robustly as humans. In daily manipulation, our grasping system is prompt, accurate, flexible and continuous across spatial and temporal domains. Few existing methods cover all these properties for robot grasping. In this paper, we propose a new methodology for grasp perception to enable robots these abilities. Specifically, we develop a dense supervision strategy with real perception and analytic labels in the spatial-temporal domain. Additional awareness of objects' center-of-mass is incorporated into the learning process to help improve grasping stability. Utilization of grasp correspondence across observations enables dynamic grasp tracking. Our model, AnyGrasp, can generate accurate, full-DoF, dense and temporally-smooth grasp poses efficiently, and works robustly against large depth sensing noise. Embedded with AnyGrasp, we achieve a 93.3% success rate when clearing bins with over 300 unseen objects, which is comparable with human subjects under controlled conditions. Over 900 MPPH is reported on a single-arm system. For dynamic grasping, we demonstrate catching swimming robot fish in the water.
translated by 谷歌翻译
预计机器人将取代诸如家务之类的琐碎任务。其中一些任务包括执行的无毛线操作,而无需抓住对象。非忧虑的操作非常困难,因为它需要考虑环境和对象的动态。因此,模仿复杂行为需要大量的人类示范。在这项研究中,提出了一种自我监督的学习,该学习认为动态以实现可变速度进行非骚扰操作。所提出的方法仅收集自主操作期间获得的成功动作数据。通过微调成功的数据,机器人可以学习自身,环境和对象之间的动态。我们尝试使用对24个人类收集的培训数据训练的神经网络模型来挖掘和运输煎饼的任务。所提出的方法将成功率从40.2%提高到85.7%,并成功完成了其他物体的任务超过75%。
translated by 谷歌翻译
Humans and animals excel in combining information from multiple sensory modalities, controlling their complex bodies, adapting to growth, failures, or using tools. These capabilities are also highly desirable in robots. They are displayed by machines to some extent - yet, as is so often the case, the artificial creatures are lagging behind. The key foundation is an internal representation of the body that the agent - human, animal, or robot - has developed. In the biological realm, evidence has been accumulated by diverse disciplines giving rise to the concepts of body image, body schema, and others. In robotics, a model of the robot is an indispensable component that enables to control the machine. In this article I compare the character of body representations in biology with their robotic counterparts and relate that to the differences in performance that we observe. I put forth a number of axes regarding the nature of such body models: fixed vs. plastic, amodal vs. modal, explicit vs. implicit, serial vs. parallel, modular vs. holistic, and centralized vs. distributed. An interesting trend emerges: on many of the axes, there is a sequence from robot body models, over body image, body schema, to the body representation in lower animals like the octopus. In some sense, robots have a lot in common with Ian Waterman - "the man who lost his body" - in that they rely on an explicit, veridical body model (body image taken to the extreme) and lack any implicit, multimodal representation (like the body schema) of their bodies. I will then detail how robots can inform the biological sciences dealing with body representations and finally, I will study which of the features of the "body in the brain" should be transferred to robots, giving rise to more adaptive and resilient, self-calibrating machines.
translated by 谷歌翻译
机器人的培训数据传输是一种在学习和基于视觉的机器人控制中的一点探索主题。因此,我们提出了一种具有较低自由度(DOF)动作的机器人的转移方法,其与利用全向相机的更高的DOF。机器人相机的虚拟旋转使得在该传输学习过程中能够进行数据增强。在这项研究中,使用由仅具有三个DOF的差分轮式地机器人收集的数据集进行6-DOF机器人的基于视觉控制策略。在机器人操纵中的应用,我们还使用具有不同视图的多个策略来展示6-DOF ARM机器人的控制系统,以实现对象达到任务。
translated by 谷歌翻译
We present a generalised architecture for reactive mobile manipulation while a robot's base is in motion toward the next objective in a high-level task. By performing tasks on-the-move, overall cycle time is reduced compared to methods where the base pauses during manipulation. Reactive control of the manipulator enables grasping objects with unpredictable motion while improving robustness against perception errors, environmental disturbances, and inaccurate robot control compared to open-loop, trajectory-based planning approaches. We present an example implementation of the architecture and investigate the performance on a series of pick and place tasks with both static and dynamic objects and compare the performance to baseline methods. Our method demonstrated a real-world success rate of over 99%, failing in only a single trial from 120 attempts with a physical robot system. The architecture is further demonstrated on other mobile manipulator platforms in simulation. Our approach reduces task time by up to 48%, while also improving reliability, gracefulness, and predictability compared to existing architectures for mobile manipulation. See https://benburgesslimerick.github.io/ManipulationOnTheMove for supplementary materials.
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
在密集的混乱中抓住是自动机器人的一项基本技能。但是,在混乱的情况下,拥挤性和遮挡造成了很大的困难,无法在没有碰撞的情况下产生有效的掌握姿势,这会导致低效率和高失败率。为了解决这些问题,我们提出了一个名为GE-GRASP的通用框架,用于在密集的混乱中用于机器人运动计划,在此,我们利用各种动作原始素来遮挡对象去除,并呈现发电机 - 评估器架构以避免空间碰撞。因此,我们的ge-grasp能够有效地抓住密集的杂物中的物体,并有希望的成功率。具体而言,我们定义了三个动作基础:面向目标的抓握,用于捕获,推动和非目标的抓握,以减少拥挤和遮挡。发电机有效地提供了参考空间信息的各种动作候选者。同时,评估人员评估了所选行动原始候选者,其中最佳动作由机器人实施。在模拟和现实世界中进行的广泛实验表明,我们的方法在运动效率和成功率方面优于杂乱无章的最新方法。此外,我们在现实世界中实现了可比的性能,因为在模拟环境中,这表明我们的GE-Grasp具有强大的概括能力。补充材料可在以下网址获得:https://github.com/captainwudaokou/ge-grasp。
translated by 谷歌翻译
人类的物体感知能力令人印象深刻,当试图开发具有类似机器人的解决方案时,这变得更加明显。从人类如何将视觉和触觉用于对象感知和相关任务的灵感中,本文总结了机器人应用的多模式对象感知的当前状态。它涵盖了生物学灵感,传感器技术,数据集以及用于对象识别和掌握的感觉数据处理的各个方面。首先,概述了多模式对象感知的生物学基础。然后讨论了传感技术和数据收集策略。接下来,介绍了主要计算方面的介绍,突出显示了每个主要应用领域的一些代表性文章,包括对象识别,传输学习以及对象操纵和掌握。最后,在每个领域的当前进步中,本文概述了有希望的新研究指示。
translated by 谷歌翻译
在机器人操作中,以前未见的新物体的自主抓住是一个持续的挑战。在过去的几十年中,已经提出了许多方法来解决特定机器人手的问题。最近引入的Unigrasp框架具有推广到不同类型的机器人抓手的能力。但是,此方法不适用于具有闭环约束的抓手,并且当应用于具有MultiGRASP配置的机器人手时,具有数据范围。在本文中,我们提出了有效绘制的,这是一种独立于抓手模型规范的广义掌握合成和抓地力控制方法。有效绘制利用抓地力工作空间功能,而不是Unigrasp的抓属属性输入。这在训练过程中将记忆使用量减少了81.7%,并可以推广到更多类型的抓地力,例如具有闭环约束的抓手。通过在仿真和现实世界中进行对象抓住实验来评估有效绘制的有效性;结果表明,所提出的方法在仅考虑没有闭环约束的抓手时也胜过Unigrasp。在这些情况下,有效抓取在产生接触点的精度高9.85%,模拟中的握把成功率提高了3.10%。现实世界实验是用带有闭环约束的抓地力进行的,而Unigrasp无法处理,而有效绘制的成功率达到了83.3%。分析了该方法的抓地力故障的主要原因,突出了增强掌握性能的方法。
translated by 谷歌翻译
我们将存储系统视为任何技术认知系统的关键组成部分,这些系统可以在弥合用于推理,计划和语义场景的高级符号离散表示之间弥合差距,以了解用于控制,用于控制。在这项工作中,我们描述了概念和技术特征,其中的内存系统必须与基础数据表示一起实现。我们根据我们在开发ARMAR类人体机器人系统中获得的经验来确定这些特征,并讨论实践示例,这些例子证明了在以人为中心的环境中执行任务的类人生物机器人的记忆系统应支持,例如多模式,内态性,异性恋,Hetero关联性,可预测性或固有的发作结构。基于这些特征,我们将机器人软件框架ARMARX扩展到了统一的认知架构,该架构用于Armar Humanoid Robot家族的机器人。此外,我们描述了机器人软件的开发如何导致我们采用这种新颖的启用内存的认知体系结构,并展示了机器人如何使用内存来实现内存驱动的行为。
translated by 谷歌翻译