Humans are excellent at understanding language and vision to accomplish a wide range of tasks. In contrast, creating general instruction-following embodied agents remains a difficult challenge. Prior work that uses pure language-only models lack visual grounding, making it difficult to connect language instructions with visual observations. On the other hand, methods that use pre-trained vision-language models typically come with divided language and visual representations, requiring designing specialized network architecture to fuse them together. We propose a simple yet effective model for robots to solve instruction-following tasks in vision-based environments. Our \ours method consists of a multimodal transformer that encodes visual observations and language instructions, and a policy transformer that predicts actions based on encoded representations. The multimodal transformer is pre-trained on millions of image-text pairs and natural language text, thereby producing generic cross-modal representations of observations and instructions. The policy transformer keeps track of the full history of observations and actions, and predicts actions autoregressively. We show that this unified transformer model outperforms all state-of-the-art pre-trained or trained-from-scratch methods in both single-task and multi-task settings. Our model also shows better model scalability and generalization ability than prior work.
translated by 谷歌翻译
视频预测是一个重要但充满挑战的问题。负担着生成未来框架和学习环境动态的任务。最近,通过将视频预测分为两个子问题:预训练图像生成器模型,随后学习图像生成器的潜在空间中的自动回归预测模型,可以将视频预测分为两个子问题,从而成为强大的视频预测工具。 。但是,成功产生高保真性和高分辨率视频尚待观察。在这项工作中,我们研究了如何培训自回归潜在的潜在视频预测模型,能够预测高保真的未来帧,并对现有模型进行最小的修改,并产生高分辨率(256x256)视频。具体而言,我们通过使用因果变压器模型采用高保真图像发生器(VQ-GAN)来扩展先前的模型,并引入TOP-K采样和数据增强的其他技术,以进一步提高视频预测质量。尽管简单起见,但提出的方法仍可以在标准视频预测基准的最新方法中实现竞争性能,而参数较少,并在复杂和大规模数据集上实现了高分辨率的视频预测。视频可从https://sites.google.com/view/harp-videos/home获得。
translated by 谷歌翻译
基于视觉模型的增强学习(RL)有可能从视觉观察中实现样品有效的机器人学习。然而,当前的方法通常会训练单个模型端到端,以学习视觉表示和动态,因此难以准确地对机器人和小物体之间的相互作用进行建模。在这项工作中,我们介绍了一个基于视觉模型的RL框架,该框架将视觉表示学习和动态学习取消。具体而言,我们训练具有卷积层和视觉变压器(VIT)的自动编码器,以重建具有掩盖卷积特征的像素,并学习一个潜在的动力学模型,该模型在自动编码器的表示形式上运行。此外,为了编码与任务相关的信息,我们为自动编码器引入了辅助奖励预测目标。我们使用环境互动收集的在线样本不断更新自动编码器和动态模型。我们证明,我们的去耦方法在Meta-World和rlbench的各种视觉机器人任务上实现了最先进的表现,例如,我们在Meta-World的50个视觉机器人操作任务上实现了81.7%的成功率,而元世界则达到了81.7%基线达到67.9%。代码可在项目网站上找到:https://sites.google.com/view/mwm-rl。
translated by 谷歌翻译
最近无监督的预训练方法已证明通过学习多个下游任务的有用表示,对语言和视觉域有效。在本文中,我们研究了这种无监督的预训练方法是否也可以有效地基于视觉的增强学习(RL)。为此,我们介绍了一个框架,该框架学习了通过视频的生成预训练来理解动态的表示形式。我们的框架由两个阶段组成:我们预先培训无动作的潜在视频预测模型,然后利用预训练的表示形式在看不见的环境上有效地学习动作条件的世界模型。为了在微调过程中纳入其他动作输入,我们引入了一种新的体系结构,该结构将动作条件潜在预测模型堆叠在预先训练的无动作预测模型之上。此外,为了更好地探索,我们提出了一种基于视频的内在奖励,以利用预培训的表示。我们证明,在各种操纵和运动任务中,我们的框架显着改善了基于视力的RL的最终性能和样本效率。代码可在https://github.com/younggyoseo/apv上找到。
translated by 谷歌翻译
最近无监督的表示学习方法已经通过学习表示不变的数据增强,例如随机裁剪和彩色抖动等数据增强来生效。然而,如果依赖于数据增强的特征,例如,位置或色敏,则这种不变性可能对下游任务有害。这不是一个不监督学习的问题;我们发现即使在监督学习中也会发生这种情况,因为它还学会预测实例所有增强样本的相同标签。为避免此类失败并获得更广泛的表示,我们建议优化辅助自我监督损失,创建的AGESELF,了解两个随机增强样本之间的增强参数(例如,裁剪位置,颜色调整强度)的差异。我们的直觉是,Augelf鼓励在学习的陈述中保留增强信息,这可能有利于其可转让性。此外,Augself可以很容易地纳入最近的最先进的表示学习方法,其额外的培训成本可忽略不计。广泛的实验表明,我们的简单想法一直在各种转移学习情景中始终如一地提高了由监督和无监督方法所学到的表示的可转移性。代码可在https://github.com/hankook/augsfir。
translated by 谷歌翻译
强化学习(RL)需要访问刺激行为正确的行为的奖励功能,但这些都是非常难以指定复杂的任务。基于偏好RL提供了一种替代方案:用学习老师的偏好,而不用预先定义的奖励,从而克服与奖赏有关的工程关注的政策。然而,这是很难量化基于偏好-RL的进展,由于缺乏一个普遍采用的基准。在本文中,我们介绍了B-县:基准专为基于偏好-RL设计。这样的标杆的一个关键挑战是提供快速评估候选算法的能力,这使得依靠真正的人类输入的评价望而却步。与此同时,人类模拟输入作为给完美的喜好地面实况奖励功能是不现实的。 B-县通过一系列广泛的非理性的模拟教师缓解这一,并提出不仅仅是性能也为稳健性这些潜在的不合理性指标。我们用它来分析算法的设计选择,如选择信息查询,为国家的最先进的基于偏好的RL算法展示B-县的效用。我们希望B-县可以作为起点,以诚为本偏好研究RL更系统常见的。源代码可以在https://github.com/rll-research/B-Pref。
translated by 谷歌翻译
遮挡处理是行人属性识别(PAR)的关键问题。然而,几种现有的基于视频的PAR方法尚未考虑深度的遮挡处理。在本文中,我们制定了寻找非闭塞框架作为一个拥挤的视频的基于稀疏的时间关注。以这种方式,指导模型不关注遮挡帧。然而,时间稀疏性不能包括闭塞发生时属性之间的相关性。例如,当脚看不见时,不能识别出“靴子”和“鞋子”。为解决不相关的关注问题,我们还提出了一种新的基于小组稀疏的临时注意模块。组稀疏性在相关属性中跨注意力施加。因此,群体中的注意力被迫注意相同的框架。实验结果表明,所提出的方法达到了比基于视频的PAR数据集和五种遮挡场景的最先进方法更高的F1分数。
translated by 谷歌翻译
由于许多安全性系统(例如手术机器人和自动驾驶汽车)在不稳定的环境中运行,具有传感器噪声和不完整的数据,因此希望对象探测器将本地化不确定性考虑在内。但是,基于锚的对象检测的现有不确定性估计方法存在几个局限性。 1)它们对具有不同特征和尺度的异质对象性质的不确定性进行建模,例如位置(中心点)和尺度(宽度,高度),这可能很难估算。 2)它们将框偏移型为高斯分布,这与遵循Dirac Delta分布的地面真相边界框不兼容。 3)由于基于锚的方法对锚定超参数敏感,因此它们的定位不确定性也可能对选择超参数的选择高度敏感。为了应对这些局限性,我们提出了一种称为UAD的新定位不确定性估计方法,用于无锚对象检测。我们的方法捕获了均匀的四个方向(左,右,顶部,底部)的四个方向的不确定性,因此它可以判断哪个方向不确定,并在[0,1]中提供不确定性的定量值。为了实现这种不确定性估计,我们设计了一种新的不确定性损失,负功率对数可能性损失,以通过加权其IOU加权可能性损失来衡量本地化不确定性,从而减轻了模型错误指定问题。此外,我们提出了反映分类评分的估计不确定性的不确定性感知局灶性损失。可可数据集的实验结果表明,我们的方法在不牺牲计算效率的情况下显着提高了最高1.8点的FCO。
translated by 谷歌翻译
Learning from visual observations is a fundamental yet challenging problem in Reinforcement Learning (RL). Although algorithmic advances combined with convolutional neural networks have proved to be a recipe for success, current methods are still lacking on two fronts: (a) data-efficiency of learning and (b) generalization to new environments. To this end, we present Reinforcement Learning with Augmented Data (RAD), a simple plug-and-play module that can enhance most RL algorithms. We perform the first extensive study of general data augmentations for RL on both pixel-based and state-based inputs, and introduce two new data augmentations -random translate and random amplitude scale. We show that augmentations such as random translate, crop, color jitter, patch cutout, random convolutions, and amplitude scale can enable simple RL algorithms to outperform complex state-of-the-art methods across common benchmarks. RAD sets a new state-of-the-art in terms of data-efficiency and final performance on the DeepMind Control Suite benchmark for pixel-based control as well as Ope-nAI Gym benchmark for state-based control. We further demonstrate that RAD significantly improves test-time generalization over existing methods on several OpenAI ProcGen benchmarks. Our RAD module and training code are available at https://www.github.com/MishaLaskin/rad.
translated by 谷歌翻译
He et al. (2018) have called into question the utility of pre-training by showing that training from scratch can often yield similar performance to pre-training. We show that although pre-training may not improve performance on traditional classification metrics, it improves model robustness and uncertainty estimates. Through extensive experiments on adversarial examples, label corruption, class imbalance, out-of-distribution detection, and confidence calibration, we demonstrate large gains from pre-training and complementary effects with task-specific methods. We introduce adversarial pre-training and show approximately a 10% absolute improvement over the previous state-of-the-art in adversarial robustness. In some cases, using pre-training without task-specific methods also surpasses the state-of-the-art, highlighting the need for pretraining when evaluating future methods on robustness and uncertainty tasks.
translated by 谷歌翻译