智能论文笔记

VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer

Juan F. Montesinos , Venkatesh S. Kadandale , Gloria Haro

分类：计算机视觉 | 机器学习

2022-03-08

本文提出了一种语音分离的视听方法，在两种情况下以低潜伏期产生最先进的结果：语音和唱歌声音。该模型基于两个阶段网络。运动提示是通过轻巧的图形卷积网络获得的，该网络处理面对地标。然后，将音频和运动功能馈送到视听变压器中，该变压器对隔离目标源产生相当好的估计。在第二阶段，仅使用音频网络增强了主导语音。我们提出了不同的消融研究和与最新方法的比较。最后，我们探讨了在演唱语音分离的任务中训练训练语音分离的模型的可传递性。https://ipcv.github.io/vovit/可用演示，代码和权重

translated by 谷歌翻译

Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement

Junwen Xiong , Yu Zhou , Peng Zhang , Lei Xie , Wei Huang , Yufei Zha

分类：人工智能

2022-03-04

主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征，独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式，并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明，建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此，作为弥合视听任务中多模式关联的动机，提出了一个统一的框架，以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。

translated by 谷歌翻译

VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices

Venkatesh S. Kadandale , Juan F. Montesinos , Gloria Haro

分类：计算机视觉

2022-04-05

在本文中，我们解决了包含人脸和声音的视频中的唇彩同步问题。我们的方法是基于确定视频中的嘴唇运动和声音是否同步，具体取决于其视听对应得分。我们提出了一个基于视听的跨模式变压器模型，该模型在标准的唇读语音基准数据集LRS2上胜过音频视频同步任务中的几个基线模型。尽管现有的方法主要集中在语音视频中的唇部同步上，但我们也考虑了歌声的特殊情况。由于持续的元音声音，唱歌声音是同步的更具挑战性的用例。我们还研究了在唱歌语音的背景下在语音数据集中训练的LIP同步模型的相关性。最后，我们使用在唱歌语音分离任务中通过唇部同步模型学到的冷冻视觉特征，以优于训练有素的端到端的基线音频视觉模型。演示，源代码和预训练的模型可在https://ipcv.github.io/vocalist/上找到。

translated by 谷歌翻译

Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization

Hao Jiang , Calvin Murdock , Vamsi Krishna Ithapu

分类：计算机视觉

2022-01-06

增强现实设备具有增强人类感知的潜力，并使复杂的会话环境中的其他辅助功能能够实现。有效地捕获理解这些社交交互所必需的视听上下文首先需要检测和定位设备佩戴者和周围人的语音活动。这些任务由于它们的高电平性质而挑战：佩戴者的头部运动可能导致运动模糊，周围的人可能出现在困难的观察中，并且可能有遮挡，视觉杂乱，音频噪声和畸形。在这些条件下，以前的最先进的主动扬声器检测方法不会给出令人满意的结果。相反，我们使用视频和多通道麦克风阵列音频从新设置中解决问题。我们提出了一种新的端到端深度学习方法，可以提供强大的语音活动检测和本地化结果。与以前的方法相比，我们的方法将主动扬声器从球体上的所有可能方向定位，即使在相机的视野之外，同时检测设备佩戴者自己的语音活动。我们的实验表明，该方法提供了卓越的结果，可以实时运行，并且对抗噪音和杂乱是强大的。

translated by 谷歌翻译

Towards Robust Real-time Audio-Visual Speech Enhancement

Mandar Gogate , Kia Dashtipour , Amir Hussain

分类：计算机视觉 | 机器学习

2021-12-16

人类脑中脑中的背景利用异质感官信息，以有效地执行包括视觉和听力的认知任务。例如，在鸡尾酒会党的情况下，人类听觉Cortex上下文中的视听（AV）提示才能更好地感知言论。最近的研究表明，与音频SE模型相比，AV语音增强（SE）模型可以显着提高信噪比（SNR）环境的极低信号的语音质量和可懂度。然而，尽管在AV SE的领域进行了显着的研究，但具有低延迟的实时处理模型的开发仍然是一个强大的技术挑战。在本文中，我们为低延迟扬声器的独立AV SE提供了一种新颖的框架，可以概括一系列视觉和声学噪声。特别地，提出了一种生成的对抗性网络（GaN）来解决AV SE的视觉缺陷的实际问题。此外，我们提出了一种基于神经网络的深度神经网络的实时AV SE模型，考虑到从GaN的清洁的视觉语音输出来提供更强大的SE。拟议的框架使用客观语音质量和可懂度指标和主观上市测试对合成和真实嘈杂的AV语料库进行评估。比较仿真结果表明，我们的实时AV SE框架优于最先进的SE方法，包括最近的基于DNN的SE模型。

translated by 谷歌翻译

Sub-word Level Lip Reading With Visual Attention

K R Prajwal , Triantafyllos Afouras , Andrew Zisserman

分类：计算机视觉 | 自然语言处理

2021-10-14

本文的目标是学习强烈的唇读模型，可以在静音视频中识别语音。大多数事先有效地处理开放式视觉语音识别问题，通过调整在漫步的可视化功能之上的现有自动语音识别技术。相反，在本文中，我们专注于唇读中遇到的独特挑战，并提出量身定制的解决方案。为此，我们提出以下贡献：（1）我们提出了一种基于关注的汇集机制来聚合视觉语音表示; （2）我们首次使用Sub-Word单元进行唇读，并显示这使我们能够更好地模拟任务的含糊不限; （3）我们提出了一种用于视觉语音检测（VSD）的模型，在唇读网络顶部培训。在上文之后，我们在公共数据集训练时获得最先进的LRS2和LRS3基准，甚至通过使用更少的数据量级验证的大规模工业数据集培训的型号。我们最好的模型在LRS2数据集中实现了22.6％的字错误率，这是唇读模型前所未有的性能，显着降低了唇读和自动语音识别之间的性能差距。此外，在AVA-ActiveSpeaker基准测试中，我们的VSD模型超越了所有可视基线，甚至优于最近的几种视听方法。

translated by 谷歌翻译

An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits

Kai Li , Fenghua Xie , Hang Chen , Kexin Yuan , Xiaolin Hu

分类：计算机视觉

2022-12-21

Audio-visual approaches involving visual inputs have laid the foundation for recent progress in speech separation. However, the optimization of the concurrent usage of auditory and visual inputs is still an active research area. Inspired by the cortico-thalamo-cortical circuit, in which the sensory processing mechanisms of different modalities modulate one another via the non-lemniscal sensory thalamus, we propose a novel cortico-thalamo-cortical neural network (CTCNet) for audio-visual speech separation (AVSS). First, the CTCNet learns hierarchical auditory and visual representations in a bottom-up manner in separate auditory and visual subnetworks, mimicking the functions of the auditory and visual cortical areas. Then, inspired by the large number of connections between cortical regions and the thalamus, the model fuses the auditory and visual information in a thalamic subnetwork through top-down connections. Finally, the model transmits this fused information back to the auditory and visual subnetworks, and the above process is repeated several times. The results of experiments on three speech separation benchmark datasets show that CTCNet remarkably outperforms existing AVSS methods with considerablely fewer parameters. These results suggest that mimicking the anatomical connectome of the mammalian brain has great potential for advancing the development of deep neural networks. Project repo is https://github.com/JusperLee/CTCNet.

translated by 谷歌翻译

Audio-Visual Synchronisation in the wild

Honglie Chen , Weidi Xie , Triantafyllos Afouras , Arsha Nagrani , Andrea Vedaldi , Andrew Zisserman

分类：计算机视觉

2021-12-08

在本文中，我们考虑了视听同步的问题应用于视频`in-wild'（即，超越语音的一般类）。作为一项新任务，我们识别并策划具有高视听相关性的测试集，即VGG-SOCK SYNC。我们比较了一些专门设计的基于变压器的架构变体，用于模拟任意长度的音频和视觉信号，同时显着降低训练期间的内存要求。我们进一步对策划数据集进行了深入的分析，并定义了开放域视听同步的评估度量。我们在标准唇读语音基准测试中应用我们的方法，LRS2和LRS3，在各个方面的消融。最后，我们在新的VGG-SOCKC SYNC视频数据集中设置了与超过160个不同类别的通用视听同步的第一个基准。在所有情况下，我们所提出的模型通过显着的保证金优于以前的最先进。

translated by 谷歌翻译

Audio-visual scene analysis with self-supervised multisensory features

分类：

The thud of a bouncing ball, the onset of speech as lips open -when visual and audio events occur together, it suggests that there might be a common, underlying event that produced both signals. In this paper, we argue that the visual and audio components of a video signal should be modeled jointly using a fused multisensory representation. We propose to learn such a representation in a self-supervised way, by training a neural network to predict whether video frames and audio are temporally aligned. We use this learned representation for three applications: (a) sound source localization, i.e. visualizing the source of sound in a video; (b) audio-visual action recognition; and (c) on/offscreen audio source separation, e.g. removing the off-screen translator's voice from a foreign official's speech. Code, models, and video results are available on our webpage: http://andrewowens.com/multisensory.

translated by 谷歌翻译

AVA-AVD: Audio-visual Speaker Diarization in the Wild

Eric Zhongcong Xu , Zeyang Song , Chao Feng , Mang Ye , Mike Zheng Shou

分类：计算机视觉

2021-11-29

视听扬声器日复速度旨在检测使用听觉和视觉信号时的``谁说话。现有的视听深度数据集主要专注于会议室或新闻工作室等室内环境，这些工作室与电影，纪录片和观众情景喜剧等许多情景中的野外视频完全不同。要创建一个能够有效地比较野外视频的日复速度方法的测试平台，我们向AVA电影数据集注释说话者深度标签，并创建一个名为AVA-AVD的新基准。由于不同的场景，复杂的声学条件和完全偏离屏幕扬声器，该基准是挑战。然而，如何处理偏离屏幕和屏幕上的扬声器仍然是一个关键挑战。为了克服它，我们提出了一种新的视听关系网络（AVR-Net），它引入了有效的模态掩模，以基于可见性捕获辨别信息。实验表明，我们的方法不仅可以优于最先进的方法，而且可以更加强大，因为改变屏幕扬声器的比率。消融研究证明了拟议的AVR-NET和尤其是日复一化的模态掩模的优点。我们的数据和代码将公开可用。

translated by 谷歌翻译

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement

Wei-Ning Hsu , Tal Remez , Bowen Shi , Jacob Donley , Yossi Adi

分类：计算机视觉 | 机器学习

2022-12-21

Prior works on improving speech quality with visual input typically study each type of auditory distortion separately (e.g., separation, inpainting, video-to-speech) and present tailored algorithms. This paper proposes to unify these subjects and study Generalized Speech Enhancement, where the goal is not to reconstruct the exact reference clean signal, but to focus on improving certain aspects of speech. In particular, this paper concerns intelligibility, quality, and video synchronization. We cast the problem as audio-visual speech resynthesis, which is composed of two steps: pseudo audio-visual speech recognition (P-AVSR) and pseudo text-to-speech synthesis (P-TTS). P-AVSR and P-TTS are connected by discrete units derived from a self-supervised speech model. Moreover, we utilize self-supervised audio-visual speech model to initialize P-AVSR. The proposed model is coined ReVISE. ReVISE is the first high-quality model for in-the-wild video-to-speech synthesis and achieves superior performance on all LRS3 audio-visual enhancement tasks with a single model. To demonstrates its applicability in the real world, ReVISE is also evaluated on EasyCom, an audio-visual benchmark collected under challenging acoustic conditions with only 1.6 hours of training data. Similarly, ReVISE greatly suppresses noise and improves quality. Project page: https://wnhsu.github.io/ReVISE.

translated by 谷歌翻译

AudioScopeV2: Audio-Visual Attention Architectures for Calibrated Open-Domain On-Screen Sound Separation

Efthymios Tzinis , Scott Wisdom , Tal Remez , John R. Hershey

分类：计算机视觉

2022-07-20

我们介绍了Audioscopev2，这是一种最先进的通用音频视频在屏幕上的声音分离系统，该系统能够通过观看野外视频来学习将声音与屏幕上的对象相关联。我们确定了先前关于视听屏幕上的声音分离的几个局限性，包括对时空注意力的粗略分辨率，音频分离模型的收敛性不佳，培训和评估数据的差异有限，以及未能说明贸易。在保存屏幕声音和抑制屏幕外声音之间的关闭。我们为所有这些问题提供解决方案。我们提出的跨模式和自我发场网络体系结构随着时间的推移以精细的分辨率捕获了视听依赖性，我们还提出了有效的可分离变体，这些变体能够扩展到更长的视频而不牺牲太多性能。我们还发现，仅在音频上进行预训练模型可大大改善结果。为了进行培训和评估，我们从大型野外视频数据库（YFCC100M）中收集了新的屏幕上的人类注释。这个新数据集更加多样化和具有挑战性。最后，我们提出了一个校准过程，该过程允许对屏幕重建与屏幕外抑制进行精确调整，从而大大简化了具有不同操作点的模型之间的性能。总体而言，我们的实验结果表明，在屏幕上的分离性能在更一般条件下的屏幕分离性能的改善要比以前具有最小的额外计算复杂性的方法更为普遍。

translated by 谷歌翻译

LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading

Leyuan Qu , Cornelius Weber , Stefan Wermter

分类：人工智能

2021-12-09

这项工作的目的是通过利用视频中的音频和视觉流的自然共同发生来研究语音重建（视频到音频）对语音重建（视频到音频）的影响。我们提出了Lipsound2，其包括编码器 - 解码器架构和位置感知注意机制，可直接将面部图像序列映射到熔化谱图，而无需任何人类注释。提出的Lipsound2模型首先在$ 2400H的$ 2400h多语言（例如英语和德语）视听数据（VoxceleB2）上进行预先培训。为了验证所提出的方法的概括性，我们将在与以前的方法相比，微调在域特定数据集（网格，TCD-Timit）上进行预先训练的模型，以实现对语音质量和可懂度的显着提高扬声器依赖和依赖的设置。除了英语外，我们还在CMLR数据集上进行中文语音重建，以验证对转移性的影响。最后，我们通过微调在预先训练的语音识别系统上产生生成的音频并在英语和中文基准数据集中实现最先进的性能来培训级联唇读（视频到文本）系统。

translated by 谷歌翻译

Neural Dubber: Dubbing for Videos According to Scripts

Chenxu Hu , Qiao Tian , Tingle Li , Yuping Wang , Yuxuan Wang , Hang Zhao

分类：自然语言处理 | 计算机视觉 | 机器学习

2021-10-15

配音是重新录制演员对话的后期生产过程，广泛用于电影制作和视频制作。它通常由专业的语音演员手动进行，他用适当的韵律读取行，以及与预先录制的视频同步。在这项工作中，我们提出了神经翻译，第一个神经网络模型来解决新型自动视频配音（AVD）任务：合成与来自文本给定视频同步的人类语音。神经杜布斯是一种多模态文本到语音（TTS）模型，它利用视频中的唇部运动来控制所生成的语音的韵律。此外，为多扬声器设置开发了一种基于图像的扬声器嵌入（ISE）模块，这使得神经Dubber能够根据扬声器的脸部产生具有合理的Timbre的语音。化学讲座的实验单扬声器数据集和LRS2多扬声器数据集显示，神经杜布斯可以在语音质量方面产生与最先进的TTS模型的语音声音。最重要的是，定性和定量评估都表明，神经杜布斯可以通过视频控制综合演讲的韵律，并产生与视频同步的高保真语音。

translated by 谷歌翻译

Show Me Your Face, And I'll Tell You How You Speak

Christen Millerdurai , Lotfy Abdel Khaliq , Timon Ulrich

分类：计算机视觉

2022-06-28

当我们讲话时，可以从嘴唇的运动中推断出演讲的韵律和内容。在这项工作中，我们探讨了唇部综合的唇部任务，即，仅考虑说话者的唇部运动，我们将学习言语的唇部运动，我们专注于学习准确的唇部，以在不受限制的大型词汇环境中为多个说话者提供语音映射。我们通过其面部特征，即年龄，性别，种族和嘴唇动作来捕捉说话者的声音身份，即产生说话者身份的言语。为此，我们提出了一种新颖的方法“ lip2speech”，并采用关键设计选择，以实现无约束场景中语音合成的准确唇部。我们还使用定量，定性指标和人类评估进行了各种实验和广泛的评估。

translated by 谷歌翻译

Dual-path Attention is All You Need for Audio-Visual Speech Extraction

Zhongweiyang Xu , Xulin Fan , Mark Hasegawa-Johnson

分类：计算机视觉 | 机器学习

2022-07-09

视听目标语音提取旨在通过查看唇部运动来从嘈杂的混合物中提取某个说话者的语音，这取得了重大进展，结合了时间域的语音分离模型和视觉特征提取器（CNN）。融合音频和视频信息的一个问题是它们具有不同的时间分辨率。当前的大多数研究都会沿时间维度进行视觉特征，以便音频和视频功能能够随时间对齐。但是，我们认为唇部运动主要包含长期或电话级信息。基于这个假设，我们提出了一种融合视听功能的新方法。我们观察到，对于dprnn \ cite {dprnn}，互联维度的时间分辨率可能非常接近视频帧的时间分辨率。像\ cite {sepformer}一样，dprnn中的LSTM被内部内部和牙间的自我注意力所取代，但是在提出的算法中，界界的注意力将视觉特征作为附加特征流。这样可以防止视觉提示的提高采样，从而导致更有效的视听融合。结果表明，与其他基于时间域的视听融合模型相比，我们获得了优越的结果。

translated by 谷歌翻译

Visual Acoustic Matching

Changan Chen , Ruohan Gao , Paul Calamia , Kristen Grauman

分类：计算机视觉

2022-02-14

我们介绍了视觉匹配任务，其中音频剪辑被转换为听起来像是在目标环境中记录的。鉴于目标环境的图像和源音频的波形，目标是重新合成音频，以匹配目标室声音的可见几何形状和材料所建议的。为了解决这一新颖的任务，我们提出了一个跨模式变压器模型，该模型使用视听注意力将视觉属性注入音频并生成真实的音频输出。此外，我们设计了一个自我监督的训练目标，尽管他们缺乏声学上不匹配的音频，但可以从野外网络视频中学习声学匹配。我们证明，我们的方法成功地将人类的言语转化为图像中描绘的各种现实环境，表现优于传统的声学匹配和更严格的监督基线。

translated by 谷歌翻译

Active Audio-Visual Separation of Dynamic Sound Sources

Sagnik Majumder , Kristen Grauman

分类：计算机视觉 | 机器学习

2022-02-02

我们探索动态声源的主动音频分离，其中体现的代理在3D环境中智能移动，以连续隔离感兴趣的对象发出的随时间变化的音频流。该经纪人听到了多种音频来源的混杂流（例如，在嘈杂的派对上演奏音乐和乐队的乐队）。考虑到有限的时间预算，它需要使用以自我为中心的视听观察来准确地提取目标声音。我们提出了一种配备新型变压器记忆的增强式学习代理，该学习者学习运动策略，以控制其相机和麦克风以恢复动态目标音频，并使用自我意见来对当前时间段进行高质量的估计，并同时改善其过去的估计。使用在现实世界扫描的Matterport3D环境中使用高度现实的声音空间模拟，我们表明我们的模型能够学习有效的行为，以进行动态音频目标的连续分离。项目：https：//vision.cs.utexas.edu/projects/active-av-dynamic-separation/。

translated by 谷歌翻译

SVTS: Scalable Video-to-Speech Synthesis

Rodrigo Mira , Alexandros Haliassos , Stavros Petridis , Björn W. Schuller , Maja Pantic

分类：计算机视觉 | 机器学习

2022-05-04

视频到语音的合成（也称为Lip-speech）是指沉默的唇部动作转换为相应的音频。由于其自我监督的性质（即可以在无需手动标记的情况下训练）以及在线可用的视听数据的收集量不断增长，因此该任务受到了越来越多的关注。尽管有这些强烈的动机，现代视频到语音的作品主要集中在词汇和环境中具有很大限制的中小型语料库。在这项工作中，我们引入了一个可扩展的视频到语音框架，该框架由两个组件组成：视频到光谱图预测器和一个预训练的神经声码器，该框架将MEL频谱图转换为波形音频。我们在LRW上取得了最先进的效果，并且在LRW上的表现要优于以前的方法。更重要的是，通过使用简单的FeedForward模型专注于频谱图预测，我们可以有效地将方法扩展到非常不受约束的数据集：据我们所知，我们是第一个在具有挑战性的LRS3数据集上显示出可理解的结果。

translated by 谷歌翻译

Online Video Instance Segmentation via Robust Context Fusion

Xiang Li , Jinglu Wang , Xiaohao Xu , Bhiksha Raj , Yan Lu

分类：计算机视觉

2022-07-12

视频实例细分（VIS）旨在在视频序列中对对象实例进行分类，分割和跟踪。最近基于变压器的神经网络证明了它们为VIS任务建模时空相关性的强大能力。依靠视频或剪辑级输入，它们的潜伏期和计算成本很高。我们提出了一个强大的上下文融合网络来以在线方式解决VIS，该网络可以预测实例通过前几个框架进行逐帧的细分框架。为了有效地获取每个帧的精确和时间一致的预测，关键思想是将有效和紧凑的上下文从参考框架融合到目标框架中。考虑到参考和目标框架对目标预测的不同影响，我们首先通过重要性感知的压缩总结上下文特征。采用变压器编码器来融合压缩上下文。然后，我们利用嵌入订单的实例来传达身份感知信息，并将身份与预测的实例掩码相对应。我们证明，我们强大的融合网络在现有的在线VIS方法中取得了最佳性能，并且比以前在YouTube-VIS 2019和2021基准上发布的剪辑级方法更好。此外，视觉对象通常具有声学签名，这些签名自然与它们在录音录像中自然同步。通过利用我们的上下文融合网络在多模式数据上的灵活性，我们进一步研究了音频对视频密集预测任务的影响，这在现有作品中从未讨论过。我们建立了一个视听实例分割数据集，并证明野外场景中的声学信号可以使VIS任务受益。

translated by 谷歌翻译