从旋转天花板粉丝到滴答时钟,我们听到巧妙地变化的声音随着我们通过场景。我们询问这些环境声音是否传达有关3D场景结构的信息,如果是,它们是否提供了用于多模式模型的有用的学习信号。为学习这一点,我们从各种安静的室内场景中收集配对音频和RGB-D录音的数据集。然后,我们培训估计到附近墙壁的距离的模型,只有一个音频作为输入。我们还使用这些录音来通过自我监督来学习多式式表现,通过培训网络以将图像与其相应的声音相关联。这些结果表明环境声音传达了关于场景结构的令人惊讶的信息,并且它是学习多模峰特征的有用信号。
translated by 谷歌翻译
The thud of a bouncing ball, the onset of speech as lips open -when visual and audio events occur together, it suggests that there might be a common, underlying event that produced both signals. In this paper, we argue that the visual and audio components of a video signal should be modeled jointly using a fused multisensory representation. We propose to learn such a representation in a self-supervised way, by training a neural network to predict whether video frames and audio are temporally aligned. We use this learned representation for three applications: (a) sound source localization, i.e. visualizing the source of sound in a video; (b) audio-visual action recognition; and (c) on/offscreen audio source separation, e.g. removing the off-screen translator's voice from a foreign official's speech. Code, models, and video results are available on our webpage: http://andrewowens.com/multisensory.
translated by 谷歌翻译
The ability to associate touch with sight is essential for tasks that require physically interacting with objects in the world. We propose a dataset with paired visual and tactile data called Touch and Go, in which human data collectors probe objects in natural environments using tactile sensors, while simultaneously recording egocentric video. In contrast to previous efforts, which have largely been confined to lab settings or simulated environments, our dataset spans a large number of "in the wild" objects and scenes. To demonstrate our dataset's effectiveness, we successfully apply it to a variety of tasks: 1) self-supervised visuo-tactile feature learning, 2) tactile-driven image stylization, i.e., making the visual appearance of an object more consistent with a given tactile signal, and 3) predicting future frames of a tactile signal from visuo-tactile inputs.
translated by 谷歌翻译
房间冲动响应(RIR)函数捕获周围的物理环境如何改变听众听到的声音,对AR,VR和机器人技术中的各种应用产生影响。估计RIR的传统方法在整个环境中采用密集的几何形状和/或声音测量值,但我们探讨了如何根据空间中观察到的一组稀疏图像和回声来推断RIR。为了实现这一目标,我们介绍了一种基于变压器的方法,该方法使用自我注意力来构建丰富的声学环境,然后通过跨注意来预测任意查询源接收器位置的河流。此外,我们设计了一个新颖的训练目标,该目标改善了RIR预测与目标之间的声学​​特征中的匹配。在使用3D环境的最先进的视听模拟器的实验中,我们证明了我们的方法成功地生成了任意RIR,优于最先进的方法,并且在与传统方法的主要背离中 - 以几种方式概括新的环境。项目:http://vision.cs.utexas.edu/projects/fs_rir。
translated by 谷歌翻译
我们介绍了视觉匹配任务,其中音频剪辑被转换为听起来像是在目标环境中记录的。鉴于目标环境的图像和源音频的波形,目标是重新合成音频,以匹配目标室声音的可见几何形状和材料所建议的。为了解决这一新颖的任务,我们提出了一个跨模式变压器模型,该模型使用视听注意力将视觉属性注入音频并生成真实的音频输出。此外,我们设计了一个自我监督的训练目标,尽管他们缺乏声学上不匹配的音频,但可以从野外网络视频中学习声学匹配。我们证明,我们的方法成功地将人类的言语转化为图像中描绘的各种现实环境,表现优于传统的声学匹配和更严格的监督基线。
translated by 谷歌翻译
双耳音频提供具有沉浸式空间声音体验的人类听众,但大多数现有视频缺乏双耳录音。我们提出了一种音频空间化方法,它借鉴视频中的视觉信息,以将其单声道(单通道)音频转换为双耳音频。现有方法利用直接从视频帧提取的可视化功能,我们的方法明确地解除了视觉流中存在的几何线索以指导学习过程。特别是,我们开发了一种多任务框架,通过考虑底层室脉冲响应,从而为底层室的脉冲响应而学习几何感知功能,从声音源的位置,以及声音几何形状的一致性随着时间的推移。此外,我们介绍了一个新的大型视频数据集,具有逼真的双链条音频,用于真实世界扫描环境。在两个数据集上,我们展示了我们方法的功效,这实现了最先进的结果。
translated by 谷歌翻译
本文着重于使用回声和RGB图像来感知和导航3D环境。特别是,我们通过将RGB图像与回声融合来执行深度估计,并从多个方向收到。与以前的作品不同,我们超越了RGB的视野,并估算了大量较大环境的密集深度图。我们表明,回声提供了有关补充RGB图像的3D结构的整体且廉价的信息。此外,我们研究了如何在机器人导航中使用回声和广泛的视野深度图。我们使用两组具有挑战性的现实3D环境(副本和Matterport3D)将提出的方法与最近的基线进行比较。将公开提供实施和预培训模型。
translated by 谷歌翻译
视听导航将视觉和听觉结合在未映射的环境中导航到声音源。虽然最近的方法已经证明了音频输入的好处,以检测和找到目标,他们专注于干净和静态的声源,并努力推广到闻名声音。在这项工作中,我们提出了新的动态视听导航基准,该基准测试基准测试,该基准要求在具有嘈杂和分散注意力的环境中捕捉环境中的移动声源。我们介绍了一种钢筋学习方法,用于为这些复杂设置学习强大的导航策略。为此,我们提出了一种架构,其融合空间特征空间中的视听信息,以学习本地地图和音频信号中固有的几何信息的相关性。我们展示了我们的方法在两个挑战的3D扫描的真实世界环境中,我们的方法始终如一地占据了所有权力,闻名声音和嘈杂环境的所有任务的大型余量。该基准测试是在http://dav-nav.cs.uni-freiburg.de上获得的。
translated by 谷歌翻译
我们探索动态声源的主动音频分离,其中体现的代理在3D环境中智能移动,以连续隔离感兴趣的对象发出的随时间变化的音频流。该经纪人听到了多种音频来源的混杂流(例如,在嘈杂的派对上演奏音乐和乐队的乐队)。考虑到有限的时间预算,它需要使用以自我为中心的视听观察来准确地提取目标声音。我们提出了一种配备新型变压器记忆的增强式学习代理,该学习者学习运动策略,以控制其相机和麦克风以恢复动态目标音频,并使用自我意见来对当前时间段进行高质量的估计,并同时改善其过去的估计。使用在现实世界扫描的Matterport3D环境中使用高度现实的声音空间模拟,我们表明我们的模型能够学习有效的行为,以进行动态音频目标的连续分离。项目:https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/。
translated by 谷歌翻译
双耳音频为听众提供了沉浸式体验,可以增强增强和虚拟现实。然而,录制双耳音频需要专门设置,具有左耳和右耳的麦克风的假人头部。这种录制设置难以构建和设置,因此单声道音频已成为公共设备中的首选选择。为了获得与双耳音频相同的影响,最近的努力已经针对从场景的视觉输入上升降单声道音频到双耳音频。这种方法没有使用一个重要的提示来任务:不同声音产生对象来自麦克风的距离。在这项工作中,我们认为场景的深度映射可以作为诱导场景中不同对象的距离信息的代理,用于音频双耳的任务。我们提出了一种新颖的编码器解码器架构,具有分层关注机制来共同编码图像,深度和音频特征。我们在最先进的变压器网络上设计网络,用于图像和深度表示。我们凭经验展示了所提出的方法对于两个具有挑战性的公共数据集公平游戏和音乐 - 立体声舒适地表现出最先进的方法。我们还展示了定性结果,该方法能够专注于任务所需的正确信息。项目详细信息可用于\ url {https://krantiparida.github.io/projects/bomobinaural.html}
translated by 谷歌翻译
对于沉浸式应用,匹配视觉同行的双耳发电是对虚拟环境中的人们带来有意义的体验至关重要。最近的作品已经显示了使用神经网络来使用2D视觉信息作为指导来使用Mono音频来合成双耳音频。通过使用3D视觉信息引导音频并在波形域中操作来扩展该方法可以允许虚拟音频场景的更准确的Auratization。在本文中,我们提供了一个多模态深入学习模型的点,它使用3D点云场景从单声道音频生成双耳版本。具体地,Point2Sound由具有3D稀疏卷积的视觉网络组成,其从点云场景中提取视觉特征来调节操作在波形域中的音频网络,以合成双耳网络。实验结果表明,3D视觉信息可以成功引导双模深度学习模型的双耳合成任务。此外,我们还调查了不同的丢失函数和3D点云属性,显示直接预测完整的双耳信号并使用RGB深度特征增加了我们所提出的模型的性能。
translated by 谷歌翻译
We present a method for simultaneously localizing multiple sound sources within a visual scene. This task requires a model to both group a sound mixture into individual sources, and to associate them with a visual signal. Our method jointly solves both tasks at once, using a formulation inspired by the contrastive random walk of Jabri et al. We create a graph in which images and separated sounds correspond to nodes, and train a random walker to transition between nodes from different modalities with high return probability. The transition probabilities for this walk are determined by an audio-visual similarity metric that is learned by our model. We show through experiments with musical instruments and human speech that our model can successfully localize multiple sounds, outperforming other self-supervised methods. Project site: https://hxixixh.github.io/mix-and-localize
translated by 谷歌翻译
增强现实设备具有增强人类感知的潜力,并使复杂的会话环境中的其他辅助功能能够实现。有效地捕获理解这些社交交互所必需的视听上下文首先需要检测和定位设备佩戴者和周围人的语音活动。这些任务由于它们的高电平性质而挑战:佩戴者的头部运动可能导致运动模糊,周围的人可能出现在困难的观察中,并且可能有遮挡,视觉杂乱,音频噪声和畸形。在这些条件下,以前的最先进的主动扬声器检测方法不会给出令人满意的结果。相反,我们使用视频和多通道麦克风阵列音频从新设置中解决问题。我们提出了一种新的端到端深度学习方法,可以提供强大的语音活动检测和本地化结果。与以前的方法相比,我们的方法将主动扬声器从球体上的所有可能方向定位,即使在相机的视野之外,同时检测设备佩戴者自己的语音活动。我们的实验表明,该方法提供了卓越的结果,可以实时运行,并且对抗噪音和杂乱是强大的。
translated by 谷歌翻译
对于任何自主操作的户外机器人或自动驾驶车辆,对移动车辆的强大检测是一项至关重要的任务。解决此任务的大多数现代方法都依赖于使用大型车辆检测数据集(如Nuscenes或Waymo Open Dataset)训练基于图像的检测器。提供手动注释是一种昂贵且费力的锻炼,在实践中不能很好地扩展。为了解决这个问题,我们提出了一种自我监督的方法,该方法利用音频线索来检测视频中的移动车辆。我们的方法采用对比度学习,用于从相应的图像和录制音频对的图像中定位车辆。在使用现实世界数据集进行的广泛实验中,我们证明了我们的方法提供了对移动车辆的准确检测,并且不需要手动注释。我们此外表明,我们的模型可以用作老师来监督仅音频检测模型。该学生模型是在照明变化中不变的,因此有效地弥合了将视力仅作为主要模态的模型固有的域间隙。
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
对象看起来和声音的方式提供了对其物理特性的互补反射。在许多设置中,视觉和试听的线索都异步到达,但必须集成,就像我们听到一个物体掉落在地板上,然后必须找到它时。在本文中,我们介绍了一个设置,用于研究3D虚拟环境中的多模式对象定位。一个物体在房间的某个地方掉落。配备了摄像头和麦克风的具体机器人剂必须通过将音频和视觉信号与知识的基础物理学结合来确定已删除的对象以及位置。为了研究此问题,我们生成了一个大规模数据集 - 倒下的对象数据集 - 其中包括64个房间中30个物理对象类别的8000个实例。该数据集使用Threedworld平台,该平台可以模拟基于物理的影响声音和在影片设置中对象之间的复杂物理交互。作为解决这一挑战的第一步,我们基于模仿学习,强化学习和模块化计划,开发了一组具体的代理基线,并对这项新任务的挑战进行了深入的分析。
translated by 谷歌翻译
最近的视听导航工作是无噪音音频环境中的单一静态声音,并努力推广到闻名声音。我们介绍了一种新型动态视听导航基准测试,其中一个体现的AI代理必须在存在分散的人和嘈杂的声音存在下在未映射的环境中捕获移动声源。我们提出了一种依赖于多模态架构的端到端增强学习方法,该方法依赖于融合来自双耳音频信号和空间占用映射的空间视听信息,以编码为我们的新的稳健导航策略进行编码所需的功能复杂的任务设置。我们展示了我们的方法优于当前的最先进状态,以更好地推广到闻名声音以及对嘈杂的3D扫描现实世界数据集副本和TASTPORT3D上的嘈杂情景更好地对嘈杂的情景进行了更好的稳健性,以实现静态和动态的视听导航基准。我们的小型基准将在http://dav-nav.cs.uni-freiburg.de提供。
translated by 谷歌翻译
第一人称视频在其持续环境的背景下突出了摄影师的活动。但是,当前的视频理解方法是从短视频剪辑中的视觉特征的原因,这些视频片段与基础物理空间分离,只捕获直接看到的东西。我们提出了一种方法,该方法通过学习摄影师(潜在看不见的)本地环境来促进以人为中心的环境的了解来链接以自我为中心的视频和摄像机随着时间的推移而张开。我们使用来自模拟的3D环境中的代理商的视频进行训练,在该环境中,环境完全可以观察到,并在看不见的环境的房屋旅行的真实视频中对其进行测试。我们表明,通过将视频接地在其物理环境中,我们的模型超过了传统的场景分类模型,可以预测摄影师所处的哪个房间(其中帧级信息不足),并且可以利用这种基础来定位与环境相对应的视频瞬间 - 中心查询,优于先验方法。项目页面:http://vision.cs.utexas.edu/projects/ego-scene-context/
translated by 谷歌翻译
我们提出了一个新框架,用于仅使用音频信号来提取有关场景的视觉信息。基于音频的方法可以克服基于视觉的方法的某些局限失败。因此,即使对于只有视觉信息感兴趣的应用程序,我们的框架基于多种学习,并且由两个步骤组成,因此基于音频的方法也可以很有用。首先,我们训练一个矢量定量的变异自动编码器,以了解我们感兴趣的特定视觉模态的数据歧管。其次,我们训练音频转换网络以将多通道音频信号映射到相应的视觉效果的潜在表示样本。我们证明我们的方法能够使用公开可用的音频/视觉数据集从音频中产生有意义的图像。特别是,我们考虑了来自音频的以下视觉方式的预测:深度和语义分割。我们希望我们的工作发现可以促进从音频中进行视觉信息提取的进一步研究。代码可在以下网址获得:https://github.com/ubc-vision/audio_manifold。
translated by 谷歌翻译
There is a natural correlation between the visual and auditive elements of a video. In this work we leverage this connection to learn general and effective models for both audio and video analysis from self-supervised temporal synchronization. We demonstrate that a calibrated curriculum learning scheme, a careful choice of negative examples, and the use of a contrastive loss are critical ingredients to obtain powerful multi-sensory representations from models optimized to discern temporal synchronization of audio-video pairs. Without further finetuning, the resulting audio features achieve performance superior or comparable to the state-of-the-art on established audio classification benchmarks (DCASE2014 and ESC-50). At the same time, our visual subnet provides a very effective initialization to improve the accuracy of video-based action recognition models: compared to learning from scratch, our self-supervised pretraining yields a remarkable gain of +19.9% in action recognition accuracy on UCF101 and a boost of +17.7% on HMDB51.
translated by 谷歌翻译