对媒体描绘的客观理解,例如在电影和电视中被听到并在屏幕上听到并在屏幕上看到和看过的包容性描写,要求机器自动辨别谁,何时,如何以及某人正在谈论的人,而不是。可以从媒体内容中存在的丰富的多模式信息自动侦听扬声器活动。然而,由于媒体内容中的众多种类和上下文可变性以及缺乏标记数据,这是一个具有挑战性的问题。在这项工作中,我们提出了一种用于学习视觉表示的跨模型神经网络,其具有与视觉帧中扬声器的空间位置有关的隐式信息。避免对视觉帧中的活动扬声器进行手动注释,获取非常昂贵的是,我们为在电影内容中定位有源扬声器的任务提供弱监督系统。我们使用学习的跨模型视觉表示,并从充当语音活动的电影字幕提供弱监督,从而需要没有手动注释。我们评估所提出的系统在AVA主动扬声器数据集上的性能,并展示与完全监督系统相比,跨模型嵌入式的跨模型嵌入式的有效性。我们还展示了语音活动检测任务在视听框架中的最先进的性能,尤其是当语音伴随着噪声和音乐时。
translated by 谷歌翻译
我们为电视节目和电影等媒体内容中的主动扬声器检测提供了一个跨模式的无监督框架。机器学习的进步使能够从语音和面部图像中识别个人方面令人印象深刻的表现。我们利用言语和面部的说话者身份信息,并将主动的说话者检测作为语音面条分配任务,从而使主动的说话者的脸和基本语音识别同一个人(角色)。我们以相关的说话者身份距离(来自所有其他语音段)来表达语音段,以捕获视频的相对身份结构。然后,我们从同时出现的面上的每个语音段分配一个主动扬声器的面孔,以使所获得的一组活跃的扬声器面显示相似的相对身份结构。此外,我们提出了一种简单有效的方法来解决言语在屏幕外出现的语音细分。我们在三个基准数据集上评估了拟议的系统 - 视觉人群聚类数据集,AVA Active Speaker数据集和哥伦比亚数据集 - 由娱乐和广播媒体的视频组成,并显示出对最先进的竞争性能,充分监督方法。
translated by 谷歌翻译
Active speaker detection in videos addresses associating a source face, visible in the video frames, with the underlying speech in the audio modality. The two primary sources of information to derive such a speech-face relationship are i) visual activity and its interaction with the speech signal and ii) co-occurrences of speakers' identities across modalities in the form of face and speech. The two approaches have their limitations: the audio-visual activity models get confused with other frequently occurring vocal activities, such as laughing and chewing, while the speakers' identity-based methods are limited to videos having enough disambiguating information to establish a speech-face association. Since the two approaches are independent, we investigate their complementary nature in this work. We propose a novel unsupervised framework to guide the speakers' cross-modal identity association with the audio-visual activity for active speaker detection. Through experiments on entertainment media videos from two benchmark datasets, the AVA active speaker (movies) and Visual Person Clustering Dataset (TV shows), we show that a simple late fusion of the two approaches enhances the active speaker detection performance.
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
在视觉和声音内利用时间同步和关联是朝向探测物体的强大定位的重要一步。为此,我们提出了一个节省空间内存网络,用于探测视频中的对象本地化。它可以同时通过音频和视觉方式的单模和跨模型表示来同时学习时空关注。我们在定量和定性地展示和分析了在本地化视听物体中结合时空学习的有效性。我们展示了我们的方法通过各种复杂的视听场景概括,最近最先进的方法概括。
translated by 谷歌翻译
视听扬声器日复速度旨在检测使用听觉和视觉信号时的``谁说话。现有的视听深度数据集主要专注于会议室或新闻工作室等室内环境,这些工作室与电影,纪录片和观众情景喜剧等许多情景中的野外视频完全不同。要创建一个能够有效地比较野外视频的日复速度方法的测试平台,我们向AVA电影数据集注释说话者深度标签,并创建一个名为AVA-AVD的新基准。由于不同的场景,复杂的声学条件和完全偏离屏幕扬声器,该基准是挑战。然而,如何处理偏离屏幕和屏幕上的扬声器仍然是一个关键挑战。为了克服它,我们提出了一种新的视听关系网络(AVR-Net),它引入了有效的模态掩模,以基于可见性捕获辨别信息。实验表明,我们的方法不仅可以优于最先进的方法,而且可以更加强大,因为改变屏幕扬声器的比率。消融研究证明了拟议的AVR-NET和尤其是日复一化的模态掩模的优点。我们的数据和代码将公开可用。
translated by 谷歌翻译
主动扬声器检测(ASD)问题的最新进展基于两个阶段的过程:特征提取和时空上下文集合。在本文中,我们提出了一个端到端的ASD工作流程,在其中共同学习特征学习和上下文预测。我们的端到端可训练网络同时学习了多模式的嵌入和汇总时空上下文。这会导致更合适的功能表示,并改善了ASD任务的性能。我们还介绍了交织的图神经网络(IGNN)块,该块根据ASD问题中的上下文主要来源分割消息。实验表明,IGNN块的汇总特征更适合ASD,从而导致最先进的性能。最后,我们设计了一种弱监督的策略,该策略表明也可以通过使用视听数据来解决ASD问题,但仅依赖于音频注释。我们通过对音频信号与可能的声源(扬声器)之间的直接关系进行建模以及引入对比度损失来实现这一目标。该项目的所有资源将在以下网址提供:https://github.com/fuankarion/end-to-end-end-asd。
translated by 谷歌翻译
The thud of a bouncing ball, the onset of speech as lips open -when visual and audio events occur together, it suggests that there might be a common, underlying event that produced both signals. In this paper, we argue that the visual and audio components of a video signal should be modeled jointly using a fused multisensory representation. We propose to learn such a representation in a self-supervised way, by training a neural network to predict whether video frames and audio are temporally aligned. We use this learned representation for three applications: (a) sound source localization, i.e. visualizing the source of sound in a video; (b) audio-visual action recognition; and (c) on/offscreen audio source separation, e.g. removing the off-screen translator's voice from a foreign official's speech. Code, models, and video results are available on our webpage: http://andrewowens.com/multisensory.
translated by 谷歌翻译
在我们的日常生活中,视听场景是普遍存在的。对于人类来说是常见的常见地定位不同的探测物体,但是对于在没有类别注释的情况下实现类感知的声音对象本地化的机器非常具有挑战性,即,本地化声音对象并识别其类别。为了解决这个问题,我们提出了一个两阶段的逐步学习框架,以仅使用音频和视觉之间的对应方式本地化和识别复杂的视听方案中的探测对象。首先,我们建议通过单一源案例中通过粗粒化的视听对应来确定声音区域。然后,声音区域中的视觉功能被利用为候选对象表示,以建立类别表示对象字典,用于表达视觉字符提取。我们在鸡尾酒会方案中生成类感知对象本地化映射,并使用视听对应来抑制静音区域来引用此字典。最后,我们使用类别级视听一致性作为达到细粒度音频和探测物体分布对齐的监督。关于现实和综合视频的实验表明,我们的模型在本地化和识别物体方面是优越的,以及滤除静音。我们还将学习的视听网络转移到无监督的对象检测任务中,获得合理的性能。
translated by 谷歌翻译
视觉和听力是两种在人类交流和场景理解中起着至关重要的作用的感觉。为了模仿人类的感知能力,旨在开发从音频和视觉方式学习的计算方法的视听学习一直是一个蓬勃发展的领域。预计可以系统地组织和分析视听领域的研究的全面调查。从对视听认知基础的分析开始,我们介绍了几个关键发现,这些发现激发了我们的计算研究。然后,我们系统地回顾了最近的视听学习研究,并将其分为三类:视听,跨模式感知和视听合作。通过我们的分析,我们发现,跨语义,空间和时间支持上述研究的视听数据的一致性。为了重新审视视听学习领域的当前发展,我们进一步提出了关于视听场景理解的新观点,然后讨论和分析视听学习领域的可行未来方向。总体而言,这项调查从不同方面审查并展示了当前视听学习领域。我们希望它可以为研究人员提供对这一领域的更好理解。发布了包括不断更新的调查在内的网站:\ url {https://gewu-lab.github.io/audio-visual-learning/}。
translated by 谷歌翻译
增强现实设备具有增强人类感知的潜力,并使复杂的会话环境中的其他辅助功能能够实现。有效地捕获理解这些社交交互所必需的视听上下文首先需要检测和定位设备佩戴者和周围人的语音活动。这些任务由于它们的高电平性质而挑战:佩戴者的头部运动可能导致运动模糊,周围的人可能出现在困难的观察中,并且可能有遮挡,视觉杂乱,音频噪声和畸形。在这些条件下,以前的最先进的主动扬声器检测方法不会给出令人满意的结果。相反,我们使用视频和多通道麦克风阵列音频从新设置中解决问题。我们提出了一种新的端到端深度学习方法,可以提供强大的语音活动检测和本地化结果。与以前的方法相比,我们的方法将主动扬声器从球体上的所有可能方向定位,即使在相机的视野之外,同时检测设备佩戴者自己的语音活动。我们的实验表明,该方法提供了卓越的结果,可以实时运行,并且对抗噪音和杂乱是强大的。
translated by 谷歌翻译
主动扬声器检测(ASD)系统是用于分析多对话对话的重要模块。他们的目的是在任何给定时间都在视觉场景中检测哪些扬声器或没有说话。关于ASD的现有研究不同意主动演讲者的定义。我们阐明了这项工作的定义,需要在音频和视觉演讲活动之间进行同步。这种定义的澄清是由我们的广泛实验激发的,我们发现现有的ASD方法无法在模拟视听同步建模时无法将非同步视频分类为主动语言。为了解决这个问题,我们提出了一种跨模式对比度学习策略,并在注意模块中应用位置编码,以使受监督的ASD模型利用同步提示。实验结果表明,我们的模型可以成功地检测出不同步的口语,因为它不说话,以解决当前模型的局限性。
translated by 谷歌翻译
我们在没有监督的情况下解决了学习对象探测器的问题。与弱监督的对象检测不同,我们不假设图像级类标签。取而代之的是,我们使用音频组件来“教”对象检测器,从视听数据中提取监督信号。尽管此问题与声音源本地化有关,但它更难,因为检测器必须按类型对对象进行分类,列举对象的每个实例,并且即使对象保持沉默,也可以这样做。我们通过首先设计一个自制的框架来解决这个问题,该框架具有一个对比目标,该目标共同学会了分类和本地化对象。然后,在不使用任何监督的情况下,我们只需使用这些自我监督的标签和盒子来训练基于图像的对象检测器。因此,对于对象检测和声音源定位的任务,我们优于先前的无监督和弱监督的检测器。我们还表明,我们可以将该探测器与每个伪级标签的标签保持一致,并展示我们的方法如何学习检测超出仪器(例如飞机和猫)的通用对象。
translated by 谷歌翻译
识别和本地化视频中的事件是视频理解的基本任务。由于事件可能发生在听觉和视觉方式中,因此多式联合的详细感知对于完全的场景理解至关重要。最先前的作品试图从整体角度分析视频。但是,它们不考虑多个尺度的语义信息,这使得模型难以定位各种长度的事件。在本文中,我们提供了一个多模式金字塔注意网络(MM-PYRAMID),用于捕获和集成多级时间特征,用于视听事件定位和视听视频解析。具体而言,我们首先提出了专注特征金字塔模块。该模块通过多个堆叠金字塔单元捕获时间金字塔特征,每个单元都由固定尺寸的注意力块和扩张的卷积块组成。我们还设计了一种自适应语义融合模块,它利用单位级注意块和选择性融合块以交互地集成金字塔特征。对视听事件定位的广泛实验和虚线监督的视听视频解析任务验证了我们方法的有效性。
translated by 谷歌翻译
本文重点介绍了弱监督的视频视频解析任务,该任务旨在识别属于每种模式的所有事件并定位其时间界。此任务是具有挑战性的,因为只有表示视频事件的整体标签用于培训。但是,事件可能被标记,但不会出现在其中一种方式中,这导致了特定于模态的嘈杂标签问题。在这项工作中,我们提出了一种培训策略,以动态识别和删除特定于模式的嘈杂标签。它是由两个关键观察的动机:1)网络倾向于首先学习干净的样本; 2)标记的事件至少以一种方式出现。具体而言,我们将每个实例在每种模式中单独分别对所有实例的损失进行排序,然后根据模式内和模式间损耗之间的关系选择嘈杂的样本。此外,我们还通过计算置信度低于预设阈值的实例的比例来提出一种简单但有效的噪声比率估计方法。我们的方法对先前的艺术状态进行了大量改进(\ eg,从60.0 \%到63.8 \%\%在细分级视觉度量中),这证明了我们方法的有效性。代码和训练有素的模型可在\ url {https://github.com/mcg-nju/jomold}上公开获得。
translated by 谷歌翻译
这项工作的目的是通过利用视频中的音频和视觉流的自然共同发生来研究语音重建(视频到音频)对语音重建(视频到音频)的影响。我们提出了Lipsound2,其包括编码器 - 解码器架构和位置感知注意机制,可直接将面部图像序列映射到熔化谱图,而无需任何人类注释。提出的Lipsound2模型首先在$ 2400H的$ 2400h多语言(例如英语和德语)视听数据(VoxceleB2)上进行预先培训。为了验证所提出的方法的概括性,我们将在与以前的方法相比,微调在域特定数据集(网格,TCD-Timit)上进行预先训练的模型,以实现对语音质量和可懂度的显着提高扬声器依赖和依赖的设置。除了英语外,我们还在CMLR数据集上进行中文语音重建,以验证对转移性的影响。最后,我们通过微调在预先训练的语音识别系统上产生生成的音频并在英语和中文基准数据集中实现最先进的性能来培训级联唇读(视频到文本)系统。
translated by 谷歌翻译
In this paper our objectives are, first, networks that can embed audio and visual inputs into a common space that is suitable for cross-modal retrieval; and second, a network that can localize the object that sounds in an image, given the audio signal. We achieve both these objectives by training from unlabelled video using only audio-visual correspondence (AVC) as the objective function. This is a form of crossmodal self-supervision from video. To this end, we design new network architectures that can be trained for cross-modal retrieval and localizing the sound source in an image, by using the AVC task. We make the following contributions: (i) show that audio and visual embeddings can be learnt that enable both within-mode (e.g. audio-to-audio) and between-mode retrieval; (ii) explore various architectures for the AVC task, including those for the visual stream that ingest a single image, or multiple images, or a single image and multi-frame optical flow; (iii) show that the semantic object that sounds within an image can be localized (using only the sound, no motion or flow information); and (iv) give a cautionary tale on how to avoid undesirable shortcuts in the data preparation.
translated by 谷歌翻译
在本文中,我们考虑了视听同步的问题应用于视频`in-wild'(即,超越语音的一般类)。作为一项新任务,我们识别并策划具有高视听相关性的测试集,即VGG-SOCK SYNC。我们比较了一些专门设计的基于变压器的架构变体,用于模拟任意长度的音频和视觉信号,同时显着降低训练期间的内存要求。我们进一步对策划数据集进行了深入的分析,并定义了开放域视听同步的评估度量。我们在标准唇读语音基准测试中应用我们的方法,LRS2和LRS3,在各个方面的消融。最后,我们在新的VGG-SOCKC SYNC视频数据集中设置了与超过160个不同类别的通用视听同步的第一个基准。在所有情况下,我们所提出的模型通过显着的保证金优于以前的最先进。
translated by 谷歌翻译
多模式意图识别是理解现实世界中人类语言的重要任务。大多数现有意图识别方法在利用基准数据集的限制中利用多模式信息的局限性,仅使用文本信息。本文介绍了一个用于多模式意图识别(MinTreec)的新型数据集,以解决此问题。它根据电视系列超市收集的数据制定了粗粒和细粒度的分类法。该数据集由2,224个具有文本,视频和音频模式的高质量样本组成,并在二十个意图类别中具有多模式注释。此外,我们在每个视频段中提供带注释的扬声器框架框,并实现扬声器注释的自动过程。 MinTrec对研究人员有助于挖掘不同方式之间的关系,以增强意图识别的能力。我们通过适应三种强大的多模式融合方法来构建基准,从每种模式和模型跨模式相互作用中提取特征。广泛的实验表明,采用非语言方式与仅文本模式相比,实现了实质性改进,这表明使用多模式信息进行意图识别的有效性。表现最佳的方法与人类之间的差距表明了这项任务对社区的挑战和重要性。完整的数据集和代码可在https://github.com/thuiar/mintrec上使用。
translated by 谷歌翻译
There is a natural correlation between the visual and auditive elements of a video. In this work we leverage this connection to learn general and effective models for both audio and video analysis from self-supervised temporal synchronization. We demonstrate that a calibrated curriculum learning scheme, a careful choice of negative examples, and the use of a contrastive loss are critical ingredients to obtain powerful multi-sensory representations from models optimized to discern temporal synchronization of audio-video pairs. Without further finetuning, the resulting audio features achieve performance superior or comparable to the state-of-the-art on established audio classification benchmarks (DCASE2014 and ESC-50). At the same time, our visual subnet provides a very effective initialization to improve the accuracy of video-based action recognition models: compared to learning from scratch, our self-supervised pretraining yields a remarkable gain of +19.9% in action recognition accuracy on UCF101 and a boost of +17.7% on HMDB51.
translated by 谷歌翻译