在带有多个扬声器的视频中,主动扬声器检测(ASD)是一项具有挑战性的任务,因为它需要在长时间的暂时窗口上学习有效的视听功能和时空相关性。在本文中,我们提出了一种新颖的时空图形学习框架,可以解决复杂的任务,例如ASD。为此,视频框架中的每个人首先在该框架的唯一节点中编码。对应于跨帧的单个人的节点已连接以编码其时间动力学。帧中的节点也连接到编码人际关系。因此,咒语将ASD减少到节点分类任务。重要的是,咒语能够在所有节点上为所有节点上的长时间环境推理,而无需依赖计算昂贵的完全连接的图形神经网络。通过对Ava-Activespeaker数据集进行的广泛实验,我们证明了基于图形的表示形式可以显着改善主动扬声器检测性能,因为其明确的空间和时间结构。拼写优于所有先前的最新方法,同时需要大大降低内存和计算资源。我们的代码可在https://github.com/sra2/spell上公开获取
translated by 谷歌翻译
我们通过新的框架解决了主动扬声器检测问题,称为法术,从而了解远程多模式图来编码音频和视觉数据之间的模态关系。我们将主动扬声器检测作为了解长期依赖项的节点分类任务。我们首先从视频构造图形,以便每个节点对应一个人。表示在定义的时间窗口中它们之间相同身份的共享边缘的节点。同一视频帧中的节点也连接以编码人际交互。通过对AVA-ActiveSpeaker数据集的广泛实验,我们证明了基于学习的基于图形的表示,由于其明确的空间和时间结构,显着提高了整体性能。法术优于若干相关基线,并在现有技术的比例下执行,同时需要较小的计算成本阶数。
translated by 谷歌翻译
主动扬声器检测(ASD)问题的最新进展基于两个阶段的过程:特征提取和时空上下文集合。在本文中,我们提出了一个端到端的ASD工作流程,在其中共同学习特征学习和上下文预测。我们的端到端可训练网络同时学习了多模式的嵌入和汇总时空上下文。这会导致更合适的功能表示,并改善了ASD任务的性能。我们还介绍了交织的图神经网络(IGNN)块,该块根据ASD问题中的上下文主要来源分割消息。实验表明,IGNN块的汇总特征更适合ASD,从而导致最先进的性能。最后,我们设计了一种弱监督的策略,该策略表明也可以通过使用视听数据来解决ASD问题,但仅依赖于音频注释。我们通过对音频信号与可能的声源(扬声器)之间的直接关系进行建模以及引入对比度损失来实现这一目标。该项目的所有资源将在以下网址提供:https://github.com/fuankarion/end-to-end-end-asd。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
我们提出了一个简明的视频表示,该视频将感知有意义的功能编码为图。通过这种表示,我们旨在利用视频中的大量冗余并节省计算。首先,我们通过将Superpixel视为图形节点并在相邻的Superpixels之间创建空间和时间连接来构建视频的超级像素图表示。然后,我们利用图形卷积网络来处理此表示形式并预测所需的输出。结果,我们能够使用更少的参数训练模型,这转化为简短的培训期和计算资源要求的减少。一项关于公开可用数据集动力学-400和Charades的全面实验研究表明,该提出的方法具有很高的成本效益,并且在培训和推理过程中使用有限的商品硬件。它减少了计算要求10倍,同时获得与最先进方法相当的结果。我们认为,提出的方法是一个有希望的方向,可以为更有效地解决视频理解打开大门,并使更多的资源用户能够在该研究领域蓬勃发展。
translated by 谷歌翻译
视频动作细分和识别任务已广泛应用于许多领域。大多数先前的研究都采用了大规模的高计算视觉模型来全面了解视频。但是,很少有研究直接采用图形模型来推理视频。该图模型提供了更少的参数,低计算成本,大型接受场和灵活的邻域消息聚合的好处。在本文中,我们提出了一个名为Smatantic2Graph的基于图的方法,以将视频动作分割和识别问题转变为图的节点分类。为了保留视频中的细粒关系,我们在框架级别上构建视频的图形结构,并设计了三种类型的边缘:时间,语义和自循环。我们将视觉,结构和语义特征与节点属性相结合。语义边缘用于建模长期时空关系,而语义特征是基于文本提示的标签文本的嵌入。图形神经网络(GNN)模型用于学习多模式特征融合。实验结果表明,与最先进的结果相比,语义2Graph在GTEA和50萨拉德方面取得了改善。多次消融实验进一步证实了语义特征在改善模型性能方面的有效性,语义边缘使Smantic2Grapl可以以低成本捕获长期依赖性。
translated by 谷歌翻译
听觉事件的感知固有地依赖于音频和视觉提示。许多现有的多模式方法使用模式特异性模型处理每种模式,然后融合嵌入以编码关节信息。相反,我们采用异质图来明确捕获模态之间的空间和时间关系,并表示有关基础信号的详细信息。使用异质图方法来解决视觉感知的声学事件分类的任务,该任务是一种紧凑,有效且可扩展的方式,以图形形式表示数据。通过异质图,我们显示了在空间和时间尺度上有效地建模模式和模式间关系。我们的模型可以通过相关的超参数轻松适应不同的事件规模。在Audioset上进行的实验(一个大型基准)表明,我们的模型实现了最先进的性能。
translated by 谷歌翻译
translated by 谷歌翻译
本文提出了一种新型的多式模式自学架构,用于节能音频 - 视听(AV)语音增强,将图形神经网络与规范相关性分析(CCA-GNN)集成在一起。所提出的方法将其基础放在最先进的CCA-GNN上,该方法通过最大化相同输入的增强视图对之间的相关性来学习代表性的嵌入,同时脱离了断开连接的特征。常规CCA-GNN的关键思想涉及丢弃增强变化的信息并保留增强不变的信息,同时阻止捕获冗余信息。我们提出的AV CCA-GNN模型涉及多模式表示学习环境。具体而言,我们的模型通过从音频和视觉嵌入的同一信道和规范相关性的增强视图中最大化的规范相关性来改善上下文AV语音处理。此外,它提出了一个位置节点编码,该位置节点在计算节点最近的邻居时考虑了先前的框架序列距离,而不是特征空间表示,并通过邻域的连接在嵌入式中引入时间信息。在基准Chime3数据集上进行的实验表明,我们提出的基于框架的AV CCA-GNN确保在时间上下文中获得更好的特征学习,从而导致比最先进的CCA-GNN更节能的语音重建感知器(MLP)和长期记忆(LSTM)模型。
translated by 谷歌翻译
The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as offered, for example, in the video-based MELD dataset. However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the detection of the person speaking the utterance. In this paper we demonstrate that by using recent automatic speech recognition and active speaker detection models, we are able to realign the videos of MELD, and capture the facial expressions from uttering speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD videos more closely match the corresponding utterances offered in the dataset. Finally, we devise a model for emotion recognition in conversations trained on the face and audio information of the MELD realigned videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that active speaker detection is indeed effective for extracting facial expressions from the uttering speakers, and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far.
translated by 谷歌翻译
基于视频的人重新识别(RE-ID)是视觉监控系统中的重要技术,旨在匹配由不同摄像机捕获的人们的视频片段。现有方法主要基于卷积神经网络(CNN),其构建块一次处理局部邻居像素,或者当3D卷绕用于建模时间信息时,遭受由人移动引起的未对准问题。在本文中,我们建议克服具有以人为本的图表方法的正常卷曲的局限性。具体地,提取位于人关节键点的特征并将其作为空间时间图连接。然后通过使用图形卷积网络(GCN)从连接节点传递的消息更新这些关键点特征。在培训期间,GCN可以附加到任何基于CNN的人RE-ID模型,以协助在特征映射上进行表示学习,同时可以在培训后丢弃以获得更好的推广速度。我们的方法通过生成的人关键点和新注释的数据集:posetrackreid,对火星数据集的基于CNN的基线模型进行了重大改进。它还在与现有作品相比,在前1个精度和平均平均精度方面定义了新的最先进的方法。
translated by 谷歌翻译
本文的目标是学习强烈的唇读模型,可以在静音视频中识别语音。大多数事先有效地处理开放式视觉语音识别问题,通过调整在漫步的可视化功能之上的现有自动语音识别技术。相反,在本文中,我们专注于唇读中遇到的独特挑战,并提出量身定制的解决方案。为此,我们提出以下贡献:(1)我们提出了一种基于关注的汇集机制来聚合视觉语音表示; (2)我们首次使用Sub-Word单元进行唇读,并显示这使我们能够更好地模拟任务的含糊不限; (3)我们提出了一种用于视觉语音检测(VSD)的模型,在唇读网络顶部培训。在上文之后,我们在公共数据集训练时获得最先进的LRS2和LRS3基准,甚至通过使用更少的数据量级验证的大规模工业数据集培训的型号。我们最好的模型在LRS2数据集中实现了22.6%的字错误率,这是唇读模型前所未有的性能,显着降低了唇读和自动语音识别之间的性能差距。此外,在AVA-ActiveSpeaker基准测试中,我们的VSD模型超越了所有可视基线,甚至优于最近的几种视听方法。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译
对媒体描绘的客观理解,例如在电影和电视中被听到并在屏幕上听到并在屏幕上看到和看过的包容性描写,要求机器自动辨别谁,何时,如何以及某人正在谈论的人,而不是。可以从媒体内容中存在的丰富的多模式信息自动侦听扬声器活动。然而,由于媒体内容中的众多种类和上下文可变性以及缺乏标记数据,这是一个具有挑战性的问题。在这项工作中,我们提出了一种用于学习视觉表示的跨模型神经网络,其具有与视觉帧中扬声器的空间位置有关的隐式信息。避免对视觉帧中的活动扬声器进行手动注释,获取非常昂贵的是,我们为在电影内容中定位有源扬声器的任务提供弱监督系统。我们使用学习的跨模型视觉表示,并从充当语音活动的电影字幕提供弱监督,从而需要没有手动注释。我们评估所提出的系统在AVA主动扬声器数据集上的性能,并展示与完全监督系统相比,跨模型嵌入式的跨模型嵌入式的有效性。我们还展示了语音活动检测任务在视听框架中的最先进的性能,尤其是当语音伴随着噪声和音乐时。
translated by 谷歌翻译
Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multiscale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model 1 outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.
translated by 谷歌翻译
本文提出了一种语音分离的视听方法,在两种情况下以低潜伏期产生最先进的结果:语音和唱歌声音。该模型基于两个阶段网络。运动提示是通过轻巧的图形卷积网络获得的,该网络处理面对地标。然后,将音频和运动功能馈送到视听变压器中,该变压器对隔离目标源产生相当好的估计。在第二阶段,仅使用音频网络增强了主导语音。我们提出了不同的消融研究和与最新方法的比较。最后,我们探讨了在演唱语音分离的任务中训练训练语音分离的模型的可传递性。https://ipcv.github.io/vovit/可用演示,代码和权重
translated by 谷歌翻译
增强现实设备具有增强人类感知的潜力,并使复杂的会话环境中的其他辅助功能能够实现。有效地捕获理解这些社交交互所必需的视听上下文首先需要检测和定位设备佩戴者和周围人的语音活动。这些任务由于它们的高电平性质而挑战:佩戴者的头部运动可能导致运动模糊,周围的人可能出现在困难的观察中,并且可能有遮挡,视觉杂乱,音频噪声和畸形。在这些条件下,以前的最先进的主动扬声器检测方法不会给出令人满意的结果。相反,我们使用视频和多通道麦克风阵列音频从新设置中解决问题。我们提出了一种新的端到端深度学习方法,可以提供强大的语音活动检测和本地化结果。与以前的方法相比,我们的方法将主动扬声器从球体上的所有可能方向定位,即使在相机的视野之外,同时检测设备佩戴者自己的语音活动。我们的实验表明,该方法提供了卓越的结果,可以实时运行,并且对抗噪音和杂乱是强大的。
translated by 谷歌翻译
主动扬声器检测在人机相互作用中起着至关重要的作用。最近,出现了一些端到端的视听框架。但是,这些模型的推理时间没有被探索,并且由于其复杂性和较大的输入大小而不适用于实时应用。此外,他们探索了类似的功能提取策略,该策略在音频和视觉输入中采用了Convnet。这项工作提出了一种新型的两流端到端框架融合,通过VGG-M从图像中提取的特征与原始MEL频率Cepstrum系数从音频波形提取。该网络在每个流上附有两个BigRu层,以处理融合之前每个流的时间动态。融合后,将一个BigRU层附着在建模联合时间动力学上。 AVA-ACTIVESPEAKER数据集的实验结果表明,我们的新功能提取策略对嘈杂信号的鲁棒性和推理时间比在这两种模式上使用Convnet的模型更好。提出的模型预测44.41 ms之内,足够快地用于实时应用程序。我们表现​​最佳的模型获得了88.929%的精度,与最先进的工作相同。
translated by 谷歌翻译
对于基于骨架的动作识别中的当前方法通常是将长期时间依赖性作为骨骼序列捕获通常长的(> 128帧),这很常见,这对于先前的方法构成了一个具有挑战性的问题。在这种情况下,短期依赖性很少被正式考虑,这对于对类似动作进行分类至关重要。大多数当前的方法包括相互交织的仅空间模块和仅时间的模块,在这些模块中,在相邻框架中的关节之间的直接信息流受到阻碍,因此不如捕获短期运动并区分相似的动作对。为了应对这一限制,我们提出了一个作为stgat创造的一般框架,以建模跨天空信息流。它使仅空间模块与区域感知的时空建模相称。尽管STGAT在理论上对时空建模具有有效性,但我们提出了三个简单的模块,以减少局部时空特征冗余,并进一步释放STGAT的潜力,(1)(1)自我关注机制的范围,(2)动态重量的范围(2)沿时间尺寸的关节和(3)分别与静态特征分开的微妙运动。作为一个可靠的特征提取器,STGAT在对以前的方法进行分类时,在定性和定量结果中都证明了相似的动作。 STGAT在三个大规模数据集上实现了最先进的性能:NTU RGB+D 60,NTU RGB+D 120和动力学骨架400。释放了代码。
translated by 谷歌翻译
视频自我监督的学习是一项挑战的任务,这需要模型的显着表达力量来利用丰富的空间时间知识,并从大量未标记的视频产生有效的监督信号。但是,现有方法未能提高未标记视频的时间多样性,并以明确的方式忽略精心建模的多尺度时间依赖性。为了克服这些限制,我们利用视频中的多尺度时间依赖性,并提出了一个名为时间对比图学习(TCGL)的新型视频自我监督学习框架,该框架共同模拟了片段间和片段间的时间依赖性用混合图对比学习策略学习的时间表示学习。具体地,首先引入空间 - 时间知识发现(STKD)模块以基于离散余弦变换的频域分析从视频中提取运动增强的空间时间表。为了显式模拟未标记视频的多尺度时间依赖性,我们的TCGL将关于帧和片段命令的先前知识集成到图形结构中,即片段/间隙间时间对比图(TCG)。然后,特定的对比学习模块旨在最大化不同图形视图中节点之间的协议。为了为未标记的视频生成监控信号,我们介绍了一种自适应片段订购预测(ASOP)模块,它利用视频片段之间的关系知识来学习全局上下文表示并自适应地重新校准通道明智的功能。实验结果表明我们的TCGL在大规模行动识别和视频检索基准上的最先进方法中的优势。
translated by 谷歌翻译