While object reconstruction has made great strides in recent years, current methods typically require densely captured images and/or known camera poses, and generalize poorly to novel object categories. To step toward object reconstruction in the wild, this work explores reconstructing general real-world objects from a few images without known camera poses or object categories. The crux of our work is solving two fundamental 3D vision problems -- shape reconstruction and pose estimation -- in a unified approach. Our approach captures the synergies of these two problems: reliable camera pose estimation gives rise to accurate shape reconstruction, and the accurate reconstruction, in turn, induces robust correspondence between different views and facilitates pose estimation. Our method FORGE predicts 3D features from each view and leverages them in conjunction with the input images to establish cross-view correspondence for estimating relative camera poses. The 3D features are then transformed by the estimated poses into a shared space and are fused into a neural radiance field. The reconstruction results are rendered by volume rendering techniques, enabling us to train the model without 3D shape ground-truth. Our experiments show that FORGE reliably reconstructs objects from five views. Our pose estimation method outperforms existing ones by a large margin. The reconstruction results under predicted poses are comparable to the ones using ground-truth poses. The performance on novel testing categories matches the results on categories seen during training. Project page: https://ut-austin-rpl.github.io/FORGE/
translated by 谷歌翻译
我们解决了动态环境中感知力的问题。在这个问题中,四足动物的机器人必须对环境混乱和移动的障碍物表现出强大而敏捷的步行行为。我们提出了一个名为Prelude的分层学习框架,该框架将感知力的问题分解为高级决策,以预测导航命令和低级步态生成以实现目标命令。在此框架中,我们通过在可进入手推车上收集的人类示范和使用加固学习(RL)的低级步态控制器(RL)上收集的人类示范中的模仿学习来训练高级导航控制器。因此,我们的方法可以从人类监督中获取复杂的导航行为,并从反复试验中发现多功能步态。我们证明了方法在模拟和硬件实验中的有效性。可以在https://ut-aut-autin-rpl.github.io/prelude上找到视频和代码。
translated by 谷歌翻译
精确学习动力学模型是基于模型的增强学习(MBRL)的重要目标,但是大多数MBRL方法都学习了一个易于虚假相关性的密集动力学模型,因此对看不见的状态的推广不佳。在本文中,我们引入了与任务无关的状态抽象(CDL)的因果动力学学习,该学习首先学习了理论上证明的因果动力学模型,该模型消除了状态变量和动作之间不必要的依赖性,从而很好地推广到了看不见的状态。然后可以从学习的动力学中得出状态抽象,这不仅提高了样本效率,而且还适用于与现有状态抽象方法更广泛的任务范围。在两个模拟环境和下游任务上进行了评估,所提出的方法学到的动力学模型和政策都可以很好地推广到看不见的状态,而派生的态度抽象则提高了样本效率,而没有它。
translated by 谷歌翻译
自主代理在Atari Games等专业领域取得了长足的进步。但是,他们通常在具有有限和手动构想的目标的孤立环境中学习Tabula Rasa,因此未能跨越各种任务和能力。受到人类如何不断学习和适应开放世界的启发,我们主张建立通才代理的三位一体:1)一个支持多种任务和目标的环境,2)多模式知识的大规模数据库和3个数据库)灵活且可扩展的代理体系结构。我们介绍了MinedoJo,这是一个建立在流行的Minecraft游戏上的新框架,该游戏具有模拟套件,其中包含数千种不同的开放式任务,以及带有Minecraft视频,教程,Wiki页面和论坛讨论的Internet规模知识库。使用Minedojo的数据,我们提出了一种新型的代理学习算法,该算法利用大型预训练的视频语言模型作为学习的奖励功能。我们的代理商能够解决以自由形式的语言指定的各种开放式任务,而无需任何手动设计的密集塑造奖励。我们开源的仿真套件和知识库(https://minedojo.org),以促进研究的研究,以通常具有能力的体现药物的目标。
translated by 谷歌翻译
关于视觉关系的推理对于人类如何解释视觉世界至关重要。对于当前的深度学习算法,这项任务仍然具有挑战性,因为它需要共同解决三个关键技术问题:1)识别对象实体及其属性,2)推断实体对之间的语义关系,以及3)将新颖的对象关系组合推广到新颖的对象组合,即。 ,系统的概括。在这项工作中,我们使用视觉变压器(VIT)作为视觉推理的基础模型,并更好地利用定义为对象实体及其关系的概念来提高VIT的推理能力。具体来说,我们介绍了一种新颖的概念词典,以允许使用概念键在训练时间进行灵活的图像检索。该词典实现了两个新的概念引导辅助任务:1)促进关系推理的全局任务,以及2)促进语义中心对象对应学习的本地任务。为了检查视觉推理模型的系统概括,我们引入了标准HICO和GQA基准测试的系统分裂。我们显示了最终的模型,概念引导的视觉变压器(或简称为简短)在原始拆分中显着优于HICO和GQA的先验方法,在系统拆分中的方法为16%和13%。我们的消融分析还揭示了我们的模型与多个VIT变体和与参数的鲁棒性的兼容性。
translated by 谷歌翻译
在现实世界中操纵体积变形物体,例如毛绒玩具和披萨面团,由于无限形状的变化,非刚性运动和部分可观察性带来了重大挑战。我们引入酸,这是一种基于结构性隐式神经表示的容量变形物体的动作条件视觉动力学模型。酸整合了两种新技术:动作条件动力学和基于大地测量的对比度学习的隐式表示。为了代表部分RGB-D观测值的变形动力学,我们学习了占用和基于流动的正向动态的隐式表示。为了准确识别在大型非刚性变形下的状态变化,我们通过新的基于大地测量的对比损失来学习一个对应嵌入场。为了评估我们的方法,我们开发了一个模拟框架,用于在逼真的场景中操纵复杂的可变形形状和一个基准测试,其中包含17,000多种动作轨迹,这些轨迹具有六种类型的毛绒玩具和78种变体。我们的模型在现有方法上实现了几何,对应和动态预测的最佳性能。酸动力学模型已成功地用于目标条件可变形的操纵任务,从而使任务成功率比最强的基线提高了30%。此外,我们将模拟训练的酸模型直接应用于现实世界对象,并在将它们操纵为目标配置中显示成功。有关更多结果和信息,请访问https://b0ku1.github.io/acid/。
translated by 谷歌翻译
技能链是一种希望通过顺序结合以前学习的技能来合成复杂行为的有希望的方法。然而,当政策遭遇在培训期间从未见过的起始状态时,幼稚的技能组成失败。对于成功的技能链接,先前的方法试图扩大策略的起始状态分布。然而,这些方法需要覆盖更大的状态分布,因为更多的策略进行测序,因此仅限于短的技能序列。在本文中,我们通过在对抗学习框架中规范终端状态分布来提出连锁多个初始状态分布的多重政策。我们评估了我们对家具组件的两个复杂的长地平衡任务的方法。我们的结果表明,我们的方法建立了第一种无模型加强学习算法来解决这些任务;而先前的技能链接方法失败。代码和视频可在https://clvrai.com/skill-chaining上获得
translated by 谷歌翻译
现实的操纵任务要求机器人与具有长时间运动动作序列的环境相互作用。尽管最近出现了深厚的强化学习方法,这是自动化操作行为的有希望的范式,但由于勘探负担,它们通常在长途任务中缺乏。这项工作介绍了操纵原始增强的强化学习(Maple),这是一个学习框架,可通过预定的行为原始库来增强标准强化学习算法。这些行为原始素是专门实现操纵目标(例如抓住和推动)的强大功能模块。为了使用这些异质原始素,我们制定了涉及原语的层次结构策略,并使用输入参数实例化执行。我们证明,枫树的表现优于基线方法,通过一系列模拟的操纵任务的大幅度。我们还量化了学习行为的组成结构,并突出了我们方法将策略转移到新任务变体和物理硬件的能力。视频和代码可从https://ut-aut-autin-rpl.github.io/maple获得
translated by 谷歌翻译
学习多模式表示涉及从多个异构数据来源集成信息。这是一个充满挑战的重要领域,具有多媒体,情感计算,机器人,金融,人机互动和医疗保健的众多现实世界应用。不幸的是,多式化研究已经有限的资源研究(1)跨领域的概括和方式,(2)在训练和推理期间的复杂性,(3)嘈杂和缺少方式的鲁棒性。为了加速进展到深入的方式和任务,同时确保实现现实世界的稳健性,我们释放多麂,系统和统一的大规模基准,跨越15个数据集,10个模态,20个预测任务和6个研究领域。 Multibench提供自动端到端的机器学习管道,简化和标准化数据加载,实验设置和模型评估。为了使整体评价能够进行全博,提供综合方法,以评估(1)泛化,(2)时间和空间复杂度,以及(3)模型鲁棒性。 Multibench对未来的研究引入了积极的挑战,包括对大规模多模式数据集的可扩展性以及对现实缺陷的鲁棒性。要伴随该基准,我们还提供了多式化学习中的20个核心方法的标准化实现。简单地应用于不同研究领域提出的方法可以提高9/15数据集的最先进的性能。因此,Multibench介绍了一个里程碑,以统一多模式研究中的抗议努力,并铺平了更好地了解多式式模型的能力和限制,所有的易于使用,可访问性和再现性。将公开可用的多班,我们的标准化代码和排行榜将经常更新,并欢迎来自社区的投入。
translated by 谷歌翻译
A key technical challenge in performing 6D object pose estimation from RGB-D image is to fully leverage the two complementary data sources. Prior works either extract information from the RGB image and depth separately or use costly post-processing steps, limiting their performances in highly cluttered scenes and real-time applications. In this work, we present DenseFusion, a generic framework for estimating 6D pose of a set of known objects from RGB-D images. DenseFusion is a heterogeneous architecture that processes the two data sources individually and uses a novel dense fusion network to extract pixel-wise dense feature embedding, from which the pose is estimated. Furthermore, we integrate an end-to-end iterative pose refinement procedure that further improves the pose estimation while achieving near real-time inference. Our experiments show that our method outperforms state-of-the-art approaches in two datasets, YCB-Video and LineMOD. We also deploy our proposed method to a real robot to grasp and manipulate objects based on the estimated pose. Our code and video are available at https://sites.google.com/view/densefusion/.
translated by 谷歌翻译