智能论文笔记

NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory

Santhosh Kumar Ramakrishnan , Ziad Al-Halah , Kristen Grauman

分类：计算机视觉

2023-01-02

Searching long egocentric videos with natural language queries (NLQ) has compelling applications in augmented reality and robotics, where a fluid index into everything that a person (agent) has seen before could augment human memory and surface relevant information on demand. However, the structured nature of the learning problem (free-form text query inputs, localized video temporal window outputs) and its needle-in-a-haystack nature makes it both technically challenging and expensive to supervise. We introduce Narrations-as-Queries (NaQ), a data augmentation strategy that transforms standard video-text narrations into training data for a video query localization model. Validating our idea on the Ego4D benchmark, we find it has tremendous impact in practice. NaQ improves multiple top models by substantial margins (even doubling their accuracy), and yields the very best results to date on the Ego4D NLQ challenge, soundly outperforming all challenge winners in the CVPR and ECCV 2022 competitions and topping the current public leaderboard. Beyond achieving the state-of-the-art for NLQ, we also demonstrate unique properties of our approach such as gains on long-tail object queries, and the ability to perform zero-shot and few-shot NLQ.

translated by 谷歌翻译

房间冲动响应（RIR）函数捕获周围的物理环境如何改变听众听到的声音，对AR，VR和机器人技术中的各种应用产生影响。估计RIR的传统方法在整个环境中采用密集的几何形状和/或声音测量值，但我们探讨了如何根据空间中观察到的一组稀疏图像和回声来推断RIR。为了实现这一目标，我们介绍了一种基于变压器的方法，该方法使用自我注意力来构建丰富的声学环境，然后通过跨注意来预测任意查询源接收器位置的河流。此外，我们设计了一个新颖的训练目标，该目标改善了RIR预测与目标之间的声学特征中的匹配。在使用3D环境的最先进的视听模拟器的实验中，我们证明了我们的方法成功地生成了任意RIR，优于最先进的方法，并且在与传统方法的主要背离中 - 以几种方式概括新的环境。项目：http：//vision.cs.utexas.edu/projects/fs_rir。

translated by 谷歌翻译

对象目标导航的最新方法依赖于增强学习，通常需要大量的计算资源和学习时间。我们提出了使用无互动学习（PONI）的对象导航的潜在功能，这是一种模块化方法，可以散布“在哪里看？”的技能？对于对象和“如何导航到（x，y）？”。我们的主要见解是“在哪里看？”可以纯粹将其视为感知问题，而没有环境相互作用就可以学习。为了解决这个问题，我们提出了一个网络，该网络可以预测两个在语义图上的互补电位功能，并使用它们来决定在哪里寻找看不见的对象。我们使用在自上而下的语义图的被动数据集上使用受监督的学习来训练潜在的功能网络，并将其集成到模块化框架中以执行对象目标导航。 Gibson和MatterPort3D的实验表明，我们的方法可实现对象目标导航的最新方法，同时减少培训计算成本高达1,600倍。可以使用代码和预训练的模型：https：//vision.cs.utexas.edu/projects/poni/

translated by 谷歌翻译

我们考虑使用时间差异学习算法进行连续时间过程的政策评估问题。更确切地说，从随机微分方程的时间离散化，我们打算使用TD（0）学习连续的值函数。首先，我们证明标准TD（0）算法注定要失败，因为动力学的随机部分由于时间步骤趋于零。然后，我们提出对时间差的添加零均值校正，使其相对于消失的时间步骤进行稳健。我们提出了两种算法：第一种算法是基于模型的，因为它需要了解动力学的漂移函数。第二个是无模型的。我们证明了基于模型的算法在两个不同的方案中的线性参数化假设下与连续时间解的收敛性：一个具有问题的凸正则化；第二次使用具有恒定步长且无正则化的Polyak-juditsy平均方法。在后一种方案中获得的收敛速率与最简单的使用随机梯度下降方法的线性回归问题相媲美。从完全不同的角度来看，我们的方法可以应用于使用机器学习以非发散形式求解二阶椭圆方程。

translated by 谷歌翻译