大型语言模型(LLM)从人类的指示中解开了任务计划的新功能。但是,事先尝试将LLMS应用于现实世界的机器人任务受到周围场景中缺乏接地的限制。在本文中,我们开发了NLMAP,这是一个开放式摄影和可查询场景表示,以解决此问题。 NLMAP是一个框架,可以将上下文信息收集到LLM计划者中,从而在生成上下文条件条件计划之前,可以在场景中查看和查询可用的对象。 NLMAP首先使用视觉语言模型(VLM)建立自然语言可查询场景表示。基于LLM的对象建议模块解析指令并提出涉及的对象,以查询场景表示以获取对象可用性和位置。然后,LLM规划师计划提供有关场景的此类信息。 NLMAP允许机器人在没有固定的对象列表或可执行选项的情况下操作,从而使真实的机器人操作无法通过以前的方法实现。项目网站:https://nlmap-saycan.github.io
translated by 谷歌翻译
视频问题回答是一项具有挑战性的任务,需要共同理解语言输入,单个视频帧中的视觉信息以及视频中发生的事件的时间信息。在本文中,我们提出了一种新颖的多流视频编码器,用于视频问题回答,它使用多个视频输入和一种新的视频文本迭代迭代式共同指定方法来回答与视频相关的各种问题。我们在几个数据集上进行了实验评估该模型,例如MSRVTT-QA,MSVD-QA,IVQA,超过了大幅度的先前最新时间。同时,我们的模型将所需的Gflops从150-360减少到只有67,从而产生了高效的视频答案模型。
translated by 谷歌翻译
在本报告中,我们介绍了图像文本模型的适应性,以进行长期行动预期。我们的视频 +剪辑框架利用了大规模训练的配对图像文本模型:剪辑和视频编码器慢速网络。剪辑嵌入提供了对与操作相关的对象的细粒度理解,而慢速网络负责在几帧的视频片段中对时间信息进行建模。我们表明,从两个编码器获得的功能相互互补,因此在长期行动预期的任务上,在EGO4D上的基线表现优于基线。我们的代码可在github.com/srijandas07/clip_baseline_lta_ego4d上找到。
translated by 谷歌翻译
人类在理解视觉皮层引起的观点变化方面非常灵活,从而支持3D结构的感知。相反,大多数从2D图像池学习视觉表示的计算机视觉模型通常无法概括新颖的相机观点。最近,视觉体系结构已转向无卷积的架构,视觉变压器,该构造在从图像贴片中得出的令牌上运行。但是,这些变压器和2D卷积网络都没有执行明确的操作来学习视图 - 不合稳定表示以进行视觉理解。为此,我们提出了一个3D令牌表示层(3DTRL),该层估计了视觉令牌的3D位置信息,并利用它来学习视图点 - 不可能的表示。 3DTRL的关键元素包括伪深度估计器和学习的相机矩阵,以对令牌施加几何变换。这些使3DTRL能够从2D贴片中恢复令牌的3D位置信息。实际上,3DTRL很容易插入变压器。我们的实验证明了3DTRL在许多视觉任务中的有效性,包括图像分类,多视频视频对准和动作识别。带有3DTRL的模型在所有任务中都超过了骨干变压器,并以最小的添加计算。我们的项目页面位于https://www3.cs.stonybrook.edu/~jishang/3dtrl/3dtrl.html
translated by 谷歌翻译
我们研究自我监督学习(SSL)是否可以从像素中改善在线增强学习(RL)。我们扩展了对比度增强学习框架(例如卷曲),该框架共同优化了SSL和RL损失,并进行了大量的实验,并具有各种自我监督的损失。我们的观察结果表明,现有的RL的SSL框架未能在使用相同数量的数据和增强时利用图像增强来实现对基准的有意义的改进。我们进一步执行进化搜索,以找到RL的多个自我监督损失的最佳组合,但是发现即使是这种损失组合也无法有意义地超越仅利用精心设计的图像增强的方法。通常,在现有框架下使用自制损失降低了RL性能。我们在多个不同环境中评估了该方法,包括现实世界的机器人环境,并确认没有任何单一的自我监督损失或图像增强方法可以主导所有环境,并且当前的SSL和RL联合优化框架是有限的。最后,我们从经验上研究了SSL + RL的预训练框架以及使用不同方法学到的表示的特性。
translated by 谷歌翻译
视频的对比表示高度依赖于数百万未老化视频的可用性。这对于网络上可用的视频来说是实用的,但获取真实应用的大规模视频非常昂贵和费力。因此,在本文中,我们专注于为自我监督学习设计视频增强,首先分析最佳策略来混合视频以创建新的增强视频样本。然后,问题仍然存在,我们可以利用数据混合视频中的其他方式吗?为此,我们提出了跨模块歧管Cutmix(CMMC),其将视频TESSERACT插入到两个不同模式中的特征空间中的另一个视频TESERACT中。我们发现我们的视频混合策略STC-MIX,即视频的初步混合,然后在视频中跨越不同方式的CMMC,提高了学习视频表示的质量。我们对两个下游任务进行了彻底的实验:在两个小型视频数据集UCF101和HMDB51上进行动作识别和视频检索。我们还展示了我们STC-Mix在NTU数据集上的有效性,其中域名知识有限。我们表明,我们对下游任务的STC混合的表现与其他自我监督的方法有关,同时需要较少的培训数据。
translated by 谷歌翻译
学习自我监督的视频表示主要集中在简单数据增强方案中产生的判别实例。然而,学习的表示通常无法通过看不见的相机观点来概括。为此,我们提出了ViewClr,它将自我监督的视频表示不变到相机视点变化。我们介绍了一个视图生成器,可以被视为任何自我监督的预先文本任务的学习增强,以生成视频的潜在视点表示。ViewClr最大化潜像观点表示与原始视点表示的相似性,使学习的视频编码器能够概括未见的相机视点。在跨视图基准数据集的实验,包括NTU RGB + D数据集,显示ViewClr代表了一种最先进的ViewPoint不变自我监控方法。
translated by 谷歌翻译
动作检测是一个必不可少的和具有挑战性的任务,特别是对于未经监测视频的密集标记数据集。在这些数据集中,时间关系是复杂的,包括综合动作等挑战和共同发生的动作。为了检测这些复杂视频中的动作,有效地捕获视频中的短期和长期时间信息是至关重要的。为此,我们提出了一种用于动作检测的新型Converransformer网络。该网络包括三个主要组件:(1)时间编码器模块广泛探讨多个时间分辨率的全局和局部时间关系。 (2)时间尺度混频器模块有效地熔化多尺度特征以具有统一的特征表示。 (3)分类模块用于学习实例中心相对位置并预测帧级分类分数。多个数据集的大量实验,包括Charades,TSU和Multithumos,确认了我们所提出的方法的有效性。我们的网络在所有三个数据集上占据了最先进的方法。
translated by 谷歌翻译
将视觉数据建模为令牌(即图像补丁),并在其顶部应用注意机制或前馈网络已显示近年来非常有效。这种方法中的公共管道包括令牌化方法,其次是一组层/块用于信息混合,包括在令牌和令牌中。在常见的做法中,在转换成令牌时,图像修补程序被扁平化,丢弃每个贴片内的空间结构。接下来,诸如多头自我关注的模块捕获令牌之间的成对关系并混合它们。在本文中,我们认为,当空间结构被保存在令牌化时,模型可能具有显着的增益,并且在混合阶段明确地使用。我们提出了两个关键贡献:(1)结构感知标记化,(2)结构感知混合,两者都可以与现有模型相结合,以最小的努力。我们介绍了一系列模型(SWAT),显示了在包括ImageNet分类和ADE20K分割的多个基准中的Deit,MLP-MILER和SWIN变压器上的改进。我们的代码和型号将在线发布。
translated by 谷歌翻译
时间活动检测旨在预测每帧的活动类,与活动分类中所做的视频级预测相比,如活动分类(即,活动识别)对比。由于检测所需的昂贵的帧级注释,检测数据集的比例是有限的。因此,通常,以前的工作对时间活动检测度假难进行微调,在大规模分类数据集(例如动力学-400)上进行微调的分类模型。然而,由于预先预测和下游微调任务之间的视差,这种预磨损的模型并不理想的是下游检测性能。这项工作提出了一种用于检测利用分类标签的新型自我监督预测方法,通过引入帧级伪标签,多动作帧和动作段来减轻这种差异。我们表明,使用拟议的自我监督检测任务预先磨削的模型始终是在多个具有挑战性的活动检测基准上的现有工作,包括Charades和Multithumos。我们广泛的消融进一步提供了关于何时以及如何使用所提出的活动检测模型的见解。代码和模型将在线发布。
translated by 谷歌翻译