对于沉浸式应用,匹配视觉同行的双耳发电是对虚拟环境中的人们带来有意义的体验至关重要。最近的作品已经显示了使用神经网络来使用2D视觉信息作为指导来使用Mono音频来合成双耳音频。通过使用3D视觉信息引导音频并在波形域中操作来扩展该方法可以允许虚拟音频场景的更准确的Auratization。在本文中,我们提供了一个多模态深入学习模型的点,它使用3D点云场景从单声道音频生成双耳版本。具体地,Point2Sound由具有3D稀疏卷积的视觉网络组成,其从点云场景中提取视觉特征来调节操作在波形域中的音频网络,以合成双耳网络。实验结果表明,3D视觉信息可以成功引导双模深度学习模型的双耳合成任务。此外,我们还调查了不同的丢失函数和3D点云属性,显示直接预测完整的双耳信号并使用RGB深度特征增加了我们所提出的模型的性能。
translated by 谷歌翻译
我们介绍了视觉匹配任务,其中音频剪辑被转换为听起来像是在目标环境中记录的。鉴于目标环境的图像和源音频的波形,目标是重新合成音频,以匹配目标室声音的可见几何形状和材料所建议的。为了解决这一新颖的任务,我们提出了一个跨模式变压器模型,该模型使用视听注意力将视觉属性注入音频并生成真实的音频输出。此外,我们设计了一个自我监督的训练目标,尽管他们缺乏声学上不匹配的音频,但可以从野外网络视频中学习声学匹配。我们证明,我们的方法成功地将人类的言语转化为图像中描绘的各种现实环境,表现优于传统的声学匹配和更严格的监督基线。
translated by 谷歌翻译
双耳音频提供具有沉浸式空间声音体验的人类听众,但大多数现有视频缺乏双耳录音。我们提出了一种音频空间化方法,它借鉴视频中的视觉信息,以将其单声道(单通道)音频转换为双耳音频。现有方法利用直接从视频帧提取的可视化功能,我们的方法明确地解除了视觉流中存在的几何线索以指导学习过程。特别是,我们开发了一种多任务框架,通过考虑底层室脉冲响应,从而为底层室的脉冲响应而学习几何感知功能,从声音源的位置,以及声音几何形状的一致性随着时间的推移。此外,我们介绍了一个新的大型视频数据集,具有逼真的双链条音频,用于真实世界扫描环境。在两个数据集上,我们展示了我们方法的功效,这实现了最先进的结果。
translated by 谷歌翻译
房间冲动响应(RIR)函数捕获周围的物理环境如何改变听众听到的声音,对AR,VR和机器人技术中的各种应用产生影响。估计RIR的传统方法在整个环境中采用密集的几何形状和/或声音测量值,但我们探讨了如何根据空间中观察到的一组稀疏图像和回声来推断RIR。为了实现这一目标,我们介绍了一种基于变压器的方法,该方法使用自我注意力来构建丰富的声学环境,然后通过跨注意来预测任意查询源接收器位置的河流。此外,我们设计了一个新颖的训练目标,该目标改善了RIR预测与目标之间的声学​​特征中的匹配。在使用3D环境的最先进的视听模拟器的实验中,我们证明了我们的方法成功地生成了任意RIR,优于最先进的方法,并且在与传统方法的主要背离中 - 以几种方式概括新的环境。项目:http://vision.cs.utexas.edu/projects/fs_rir。
translated by 谷歌翻译
双耳音频为听众提供了沉浸式体验,可以增强增强和虚拟现实。然而,录制双耳音频需要专门设置,具有左耳和右耳的麦克风的假人头部。这种录制设置难以构建和设置,因此单声道音频已成为公共设备中的首选选择。为了获得与双耳音频相同的影响,最近的努力已经针对从场景的视觉输入上升降单声道音频到双耳音频。这种方法没有使用一个重要的提示来任务:不同声音产生对象来自麦克风的距离。在这项工作中,我们认为场景的深度映射可以作为诱导场景中不同对象的距离信息的代理,用于音频双耳的任务。我们提出了一种新颖的编码器解码器架构,具有分层关注机制来共同编码图像,深度和音频特征。我们在最先进的变压器网络上设计网络,用于图像和深度表示。我们凭经验展示了所提出的方法对于两个具有挑战性的公共数据集公平游戏和音乐 - 立体声舒适地表现出最先进的方法。我们还展示了定性结果,该方法能够专注于任务所需的正确信息。项目详细信息可用于\ url {https://krantiparida.github.io/projects/bomobinaural.html}
translated by 谷歌翻译
从旋转天花板粉丝到滴答时钟,我们听到巧妙地变化的声音随着我们通过场景。我们询问这些环境声音是否传达有关3D场景结构的信息,如果是,它们是否提供了用于多模式模型的有用的学习信号。为学习这一点,我们从各种安静的室内场景中收集配对音频和RGB-D录音的数据集。然后,我们培训估计到附近墙壁的距离的模型,只有一个音频作为输入。我们还使用这些录音来通过自我监督来学习多式式表现,通过培训网络以将图像与其相应的声音相关联。这些结果表明环境声音传达了关于场景结构的令人惊讶的信息,并且它是学习多模峰特征的有用信号。
translated by 谷歌翻译
我们探索动态声源的主动音频分离,其中体现的代理在3D环境中智能移动,以连续隔离感兴趣的对象发出的随时间变化的音频流。该经纪人听到了多种音频来源的混杂流(例如,在嘈杂的派对上演奏音乐和乐队的乐队)。考虑到有限的时间预算,它需要使用以自我为中心的视听观察来准确地提取目标声音。我们提出了一种配备新型变压器记忆的增强式学习代理,该学习者学习运动策略,以控制其相机和麦克风以恢复动态目标音频,并使用自我意见来对当前时间段进行高质量的估计,并同时改善其过去的估计。使用在现实世界扫描的Matterport3D环境中使用高度现实的声音空间模拟,我们表明我们的模型能够学习有效的行为,以进行动态音频目标的连续分离。项目:https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/。
translated by 谷歌翻译
我们提出了一个新框架,用于仅使用音频信号来提取有关场景的视觉信息。基于音频的方法可以克服基于视觉的方法的某些局限失败。因此,即使对于只有视觉信息感兴趣的应用程序,我们的框架基于多种学习,并且由两个步骤组成,因此基于音频的方法也可以很有用。首先,我们训练一个矢量定量的变异自动编码器,以了解我们感兴趣的特定视觉模态的数据歧管。其次,我们训练音频转换网络以将多通道音频信号映射到相应的视觉效果的潜在表示样本。我们证明我们的方法能够使用公开可用的音频/视觉数据集从音频中产生有意义的图像。特别是,我们考虑了来自音频的以下视觉方式的预测:深度和语义分割。我们希望我们的工作发现可以促进从音频中进行视觉信息提取的进一步研究。代码可在以下网址获得:https://github.com/ubc-vision/audio_manifold。
translated by 谷歌翻译
The thud of a bouncing ball, the onset of speech as lips open -when visual and audio events occur together, it suggests that there might be a common, underlying event that produced both signals. In this paper, we argue that the visual and audio components of a video signal should be modeled jointly using a fused multisensory representation. We propose to learn such a representation in a self-supervised way, by training a neural network to predict whether video frames and audio are temporally aligned. We use this learned representation for three applications: (a) sound source localization, i.e. visualizing the source of sound in a video; (b) audio-visual action recognition; and (c) on/offscreen audio source separation, e.g. removing the off-screen translator's voice from a foreign official's speech. Code, models, and video results are available on our webpage: http://andrewowens.com/multisensory.
translated by 谷歌翻译
Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
translated by 谷歌翻译
增强现实设备具有增强人类感知的潜力,并使复杂的会话环境中的其他辅助功能能够实现。有效地捕获理解这些社交交互所必需的视听上下文首先需要检测和定位设备佩戴者和周围人的语音活动。这些任务由于它们的高电平性质而挑战:佩戴者的头部运动可能导致运动模糊,周围的人可能出现在困难的观察中,并且可能有遮挡,视觉杂乱,音频噪声和畸形。在这些条件下,以前的最先进的主动扬声器检测方法不会给出令人满意的结果。相反,我们使用视频和多通道麦克风阵列音频从新设置中解决问题。我们提出了一种新的端到端深度学习方法,可以提供强大的语音活动检测和本地化结果。与以前的方法相比,我们的方法将主动扬声器从球体上的所有可能方向定位,即使在相机的视野之外,同时检测设备佩戴者自己的语音活动。我们的实验表明,该方法提供了卓越的结果,可以实时运行,并且对抗噪音和杂乱是强大的。
translated by 谷歌翻译
本文提出了一种语音分离的视听方法,在两种情况下以低潜伏期产生最先进的结果:语音和唱歌声音。该模型基于两个阶段网络。运动提示是通过轻巧的图形卷积网络获得的,该网络处理面对地标。然后,将音频和运动功能馈送到视听变压器中,该变压器对隔离目标源产生相当好的估计。在第二阶段,仅使用音频网络增强了主导语音。我们提出了不同的消融研究和与最新方法的比较。最后,我们探讨了在演唱语音分离的任务中训练训练语音分离的模型的可传递性。https://ipcv.github.io/vovit/可用演示,代码和权重
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
我们介绍了Audioscopev2,这是一种最先进的通用音频视频在屏幕上的声音分离系统,该系统能够通过观看野外视频来学习将声音与屏幕上的对象相关联。我们确定了先前关于视听屏幕上的声音分离的几个局限性,包括对时空注意力的粗略分辨率,音频分离模型的收敛性不佳,培训和评估数据的差异有限,以及未能说明贸易。在保存屏幕声音和抑制屏幕外声音之间的关闭。我们为所有这些问题提供解决方案。我们提出的跨模式和自我发场网络体系结构随着时间的推移以精细的分辨率捕获了视听依赖性,我们还提出了有效的可分离变体,这些变体能够扩展到更长的视频而不牺牲太多性能。我们还发现,仅在音频上进行预训练模型可大大改善结果。为了进行培训和评估,我们从大型野外视频数据库(YFCC100M)中收集了新的屏幕上的人类注释。这个新数据集更加多样化和具有挑战性。最后,我们提出了一个校准过程,该过程允许对屏幕重建与屏幕外抑制进行精确调整,从而大大简化了具有不同操作点的模型之间的性能。总体而言,我们的实验结果表明,在屏幕上的分离性能在更一般条件下的屏幕分离性能的改善要比以前具有最小的额外计算复杂性的方法更为普遍。
translated by 谷歌翻译
我们提出了一个单阶段的休闲波形到波形多通道模型,该模型可以根据动态的声学场景中的广泛空间位置分离移动的声音源。我们将场景分为两个空间区域,分别包含目标和干扰声源。该模型经过训练有素的端到端,并隐含地进行空间处理,而没有基于传统处理或使用手工制作的空间特征的任何组件。我们在现实世界数据集上评估了所提出的模型,并表明该模型与Oracle Beamformer的性能匹配,然后是最先进的单渠道增强网络。
translated by 谷歌翻译
在本文中,我们考虑了视听同步的问题应用于视频`in-wild'(即,超越语音的一般类)。作为一项新任务,我们识别并策划具有高视听相关性的测试集,即VGG-SOCK SYNC。我们比较了一些专门设计的基于变压器的架构变体,用于模拟任意长度的音频和视觉信号,同时显着降低训练期间的内存要求。我们进一步对策划数据集进行了深入的分析,并定义了开放域视听同步的评估度量。我们在标准唇读语音基准测试中应用我们的方法,LRS2和LRS3,在各个方面的消融。最后,我们在新的VGG-SOCKC SYNC视频数据集中设置了与超过160个不同类别的通用视听同步的第一个基准。在所有情况下,我们所提出的模型通过显着的保证金优于以前的最先进。
translated by 谷歌翻译
我们建议探索一个称为视听分割(AVS)的新问题,其中的目标是输出在图像帧时产生声音的对象的像素级映射。为了促进这项研究,我们构建了第一个视频分割基准(AVSBENCH),为声音视频中的声音对象提供像素的注释。使用此基准测试了两个设置:1)具有单个声源的半监督音频分割和2)完全监督的音频段段,并带有多个声源。为了解决AVS问题,我们提出了一种新颖的方法,该方法使用时间像素的视听相互作用模块注入音频语义作为视觉分割过程的指导。我们还设计正规化损失,以鼓励训练期间的视听映射。 AVSBench上的定量和定性实验将我们的方法与相关任务中的几种现有方法进行了比较,这表明所提出的方法有望在音频和像素视觉语义之间建立桥梁。代码可从https://github.com/opennlplab/avsbench获得。
translated by 谷歌翻译
The marine ecosystem is changing at an alarming rate, exhibiting biodiversity loss and the migration of tropical species to temperate basins. Monitoring the underwater environments and their inhabitants is of fundamental importance to understand the evolution of these systems and implement safeguard policies. However, assessing and tracking biodiversity is often a complex task, especially in large and uncontrolled environments, such as the oceans. One of the most popular and effective methods for monitoring marine biodiversity is passive acoustics monitoring (PAM), which employs hydrophones to capture underwater sound. Many aquatic animals produce sounds characteristic of their own species; these signals travel efficiently underwater and can be detected even at great distances. Furthermore, modern technologies are becoming more and more convenient and precise, allowing for very accurate and careful data acquisition. To date, audio captured with PAM devices is frequently manually processed by marine biologists and interpreted with traditional signal processing techniques for the detection of animal vocalizations. This is a challenging task, as PAM recordings are often over long periods of time. Moreover, one of the causes of biodiversity loss is sound pollution; in data obtained from regions with loud anthropic noise, it is hard to separate the artificial from the fish sound manually. Nowadays, machine learning and, in particular, deep learning represents the state of the art for processing audio signals. Specifically, sound separation networks are able to identify and separate human voices and musical instruments. In this work, we show that the same techniques can be successfully used to automatically extract fish vocalizations in PAM recordings, opening up the possibility for biodiversity monitoring at a large scale.
translated by 谷歌翻译
视觉和听力是两种在人类交流和场景理解中起着至关重要的作用的感觉。为了模仿人类的感知能力,旨在开发从音频和视觉方式学习的计算方法的视听学习一直是一个蓬勃发展的领域。预计可以系统地组织和分析视听领域的研究的全面调查。从对视听认知基础的分析开始,我们介绍了几个关键发现,这些发现激发了我们的计算研究。然后,我们系统地回顾了最近的视听学习研究,并将其分为三类:视听,跨模式感知和视听合作。通过我们的分析,我们发现,跨语义,空间和时间支持上述研究的视听数据的一致性。为了重新审视视听学习领域的当前发展,我们进一步提出了关于视听场景理解的新观点,然后讨论和分析视听学习领域的可行未来方向。总体而言,这项调查从不同方面审查并展示了当前视听学习领域。我们希望它可以为研究人员提供对这一领域的更好理解。发布了包括不断更新的调查在内的网站:\ url {https://gewu-lab.github.io/audio-visual-learning/}。
translated by 谷歌翻译
We present a method for simultaneously localizing multiple sound sources within a visual scene. This task requires a model to both group a sound mixture into individual sources, and to associate them with a visual signal. Our method jointly solves both tasks at once, using a formulation inspired by the contrastive random walk of Jabri et al. We create a graph in which images and separated sounds correspond to nodes, and train a random walker to transition between nodes from different modalities with high return probability. The transition probabilities for this walk are determined by an audio-visual similarity metric that is learned by our model. We show through experiments with musical instruments and human speech that our model can successfully localize multiple sounds, outperforming other self-supervised methods. Project site: https://hxixixh.github.io/mix-and-localize
translated by 谷歌翻译