While large-scale sequence modeling from offline data has led to impressive performance gains in natural language and image generation, directly translating such ideas to robotics has been challenging. One critical reason for this is that uncurated robot demonstration data, i.e. play data, collected from non-expert human demonstrators are often noisy, diverse, and distributionally multi-modal. This makes extracting useful, task-centric behaviors from such data a difficult generative modeling problem. In this work, we present Conditional Behavior Transformers (C-BeT), a method that combines the multi-modal generation ability of Behavior Transformer with future-conditioned goal specification. On a suite of simulated benchmark tasks, we find that C-BeT improves upon prior state-of-the-art work in learning from play data by an average of 45.7%. Further, we demonstrate for the first time that useful task-centric behaviors can be learned on a real-world robot purely from play data without any task labels or reward information. Robot videos are best viewed on our project website: https://play-to-policy.github.io
translated by 谷歌翻译
尽管行为学习近期取得了令人印象深刻的进步,但由于无法利用大型,人类生成的数据集,它落后于计算机视觉和自然语言处理。人类的行为具有较大的差异,多种模式和人类的示范通常不带有奖励标签。这些属性限制了当前方法在离线RL和行为克隆中的适用性,以从大型预收取的数据集中学习。在这项工作中,我们提出了行为变压器(BET),这是一种用多种模式建模未标记的演示数据的新技术。 BET翻新带有动作离散化的标准变压器体系结构,再加上受对象检测中偏移预测启发的多任务动作校正。这使我们能够利用现代变压器的多模式建模能力来预测多模式的连续动作。我们通过实验评估了各种机器人操作和自动驾驶行为数据集的赌注。我们表明,BET可以显着改善以前的最新工作解决方案,同时捕获预采用的数据集中存在的主要模式。最后,通过一项广泛的消融研究,我们分析了BET中每个关键成分的重要性。 BET生成的行为视频可在https://notmahi.github.io/bet上获得
translated by 谷歌翻译
虽然视觉模仿学习提供了从视觉演示中学习最有效的方法之一,但从它们中概括需要数百个不同的演示,任务特定的前瞻或大型难以列车的参数模型。此类复杂性出现的一个原因是因为标准的视觉模仿框架尝试一次解决两个耦合问题:从不同的视觉数据中学习简洁但良好的表示,同时学习将显示的动作与这样的表示相关联。这种联合学习导致这两个问题之间的相互依存,这通常会导致需要大量的学习演示。为了解决这一挑战,我们建议与对视觉模仿的行为学习的表现脱钩。首先,我们使用标准监督和自我监督的学习方法从离线数据中学习视觉表示编码器。培训表示,我们使用非参数局部加权回归来预测动作。我们通过实验表明,与目视模仿的先前工作相比,这种简单的去耦可提高离线演示数据集和实际机器人门开口的视觉模仿模型的性能。我们所有生成的数据,代码和机器人视频都在https://jyopari.github.io/vinn/处公开提供。
translated by 谷歌翻译