了解舌头和口咽肌肉变形之间的潜在关系在标记的MRI和可理解的语音中起着重要的作用,在推进语音运动控制理论和对语音相关疾病的处理方面起着重要作用。然而,由于它们的异质表示形式,这两种模式之间的直接映射(即二维(中间式切片)加上时间标记的MRI序列及其相应的一维波形)并不简单。取而代之的是,我们诉诸二维频谱图作为中间表示,其中包含音高和共振,从中可以开发一个端到端的深度学习框架,以将标记的MRI序列转换为其相应的音频波形,并具有有限的音频波形数据集大小。〜我们的框架基于一种新颖的完全卷积不对称翻译器,并具有自我残留注意策略的指导,以专门利用语音期间的移动肌肉结构。潜在的空间表示解散策略。〜此外,我们将一种对抗性训练方法与生成的对抗网络结合在一起,以在我们生成的频谱图上提供改进的现实主义。我们的框架使一系列标记的序列可以生成清晰的音频波形。 MRI,超过竞争方法。因此,我们的框架为帮助更好地了解两种方式之间的关系提供了巨大的潜力。
translated by 谷歌翻译
神经音频/语音编码表明其能力比最近的传统方法低得多的比特率。但是,现有的神经音频/语音编解码器采用声学特征或具有卷积神经网络的学术盲功能来编码,通过该特征,编码功能中仍有时间冗余。本文将潜在域预测性编码引入VQ-VAE框架中,以完全删除此类冗余,并以端到端的方式提出了低延迟神经语音编码的TF-CODEC。具体而言,提取的特征是根据过去量化潜在框架的预测进行编码的,以便进一步删除时间相关性。更重要的是,我们在时间频输入上引入了可学习的压缩,以适应对不同比特率的主要频率和细节的关注。提出了一种基于距离映射和Gumbel-softmax的可区分矢量量化方案,以更好地模拟具有速率约束的潜在分布。多语言语音数据集的主观结果表明,在40ms的潜伏期中,提议的1kbps的TF-Codec可以比Opus 9Kbps和3Kbps的TF-Codec取得更好的质量,而3Kbps的表现都优于EVS 9.6kbps和Opus 12kbps。进行了许多研究以显示这些技术的有效性。
translated by 谷歌翻译
在这项工作中,我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是,我们的方法(i)不仅限于固定数量的扬声器,(ii)并未明确对域或词汇构成约束,并且(iii)涉及在野外记录的视频,反对实验室环境。该任务提出了许多挑战,关键是,所需的目标语音的许多功能(例如语音,音调和语言内容)不能完全从无声的面部视频中推断出来。为了处理这些随机变化,我们提出了一种新的VAE-GAN结构,该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下,我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明,我们的优于所有基线的差距很大。此外,我们的网络可以在特定身份的视频上进行微调,以实现与单扬声器模型相当的性能,该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究,以分析我们体系结构不同模块的效果。我们还提供了一个演示视频,该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果: -合成}}
translated by 谷歌翻译
Segmenting the fine structure of the mouse brain on magnetic resonance (MR) images is critical for delineating morphological regions, analyzing brain function, and understanding their relationships. Compared to a single MRI modality, multimodal MRI data provide complementary tissue features that can be exploited by deep learning models, resulting in better segmentation results. However, multimodal mouse brain MRI data is often lacking, making automatic segmentation of mouse brain fine structure a very challenging task. To address this issue, it is necessary to fuse multimodal MRI data to produce distinguished contrasts in different brain structures. Hence, we propose a novel disentangled and contrastive GAN-based framework, named MouseGAN++, to synthesize multiple MR modalities from single ones in a structure-preserving manner, thus improving the segmentation performance by imputing missing modalities and multi-modality fusion. Our results demonstrate that the translation performance of our method outperforms the state-of-the-art methods. Using the subsequently learned modality-invariant information as well as the modality-translated images, MouseGAN++ can segment fine brain structures with averaged dice coefficients of 90.0% (T2w) and 87.9% (T1w), respectively, achieving around +10% performance improvement compared to the state-of-the-art algorithms. Our results demonstrate that MouseGAN++, as a simultaneous image synthesis and segmentation method, can be used to fuse cross-modality information in an unpaired manner and yield more robust performance in the absence of multimodal data. We release our method as a mouse brain structural segmentation tool for free academic usage at https://github.com/yu02019.
translated by 谷歌翻译
诸如FastSpeech之类的非自动回归文本(TTS)模型可以比以前具有可比性的自回归模型合成语音的速度要快得多。 FastSpeech模型的培训依赖于持续时间预测的自回归教师模型(提供更多信息作为输入)和知识蒸馏(以简化输出中的数据分布),这可以缓解一对多的映射问题(即多个多个映射问题语音变化对应于TTS中的同一文本)。但是,FastSpeech有几个缺点:1)教师学生的蒸馏管线很复杂且耗时,2)从教师模型中提取的持续时间不够准确,并且从教师模型中提取的目标MEL光谱图会遭受信息损失的影响。由于数据的简化,两者都限制了语音质量。在本文中,我们提出了FastSpeech 2,它解决了FastSpeech中的问题,并更好地解决了TTS中的一对一映射问题1)直接用地面实现目标直接训练该模型,而不是教师的简化输出,以及2 )作为条件输入,引入更多语音信息(例如,音高,能量和更准确的持续时间)。具体而言,我们从语音波形中提取持续时间,音高和能量,并将其直接作为训练中的条件输入,并在推理中使用预测的值。我们进一步设计了FastSpeech 2s,这是首次尝试从文本中直接生成语音波形的尝试,从而享受完全端到端推断的好处。实验结果表明,1)FastSpeech 2在FastSpeech上实现了3倍的训练,而FastSpeech 2s的推理速度甚至更快; 2)FastSpeech 2和2S的语音质量优于FastSpeech,而FastSpeech 2甚至可以超越自回归型号。音频样本可在https://speechresearch.github.io/fastspeech2/上找到。
translated by 谷歌翻译
视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程,该过程从视频中推断出中间表示,然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中,我们提出了一个基于生成对抗网络(GAN)的新的端到端视频到语音模型,该模型将口语视频转换为波形端到端,而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成,该体系结构接收原始视频作为输入并生成语音,然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外,我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明,该模型能够用诸如网格之类的受约束数据集重建语音,并且是第一个为LRW(野外唇读)生成可理解的语音的端到端模型,以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本,这些客观指标衡量了人工语音的质量和清晰度。我们证明,所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
在本文中,我们提出了一个神经端到端系统,用于保存视频的语音,唇部同步翻译。该系统旨在将多个组件模型结合在一起,并以目标语言的目标语言与目标语言的原始扬声器演讲的视频与目标语音相结合,但在语音,语音特征,面对原始扬声器的视频中保持着重点。管道从自动语音识别开始,包括重点检测,然后是翻译模型。然后,翻译后的文本由文本到语音模型合成,该模型重新创建了原始句子映射的原始重点。然后,使用语音转换模型将结果的合成语音映射到原始扬声器的声音。最后,为了将扬声器的嘴唇与翻译的音频同步,有条件的基于对抗网络的模型生成了相对于输入面图像以及语音转换模型的输出的适应性唇部运动的帧。最后,系统将生成的视频与转换后的音频结合在一起,以产生最终输出。结果是一个扬声器用另一种语言说话的视频而不真正知道。为了评估我们的设计,我们介绍了完整系统的用户研究以及对单个组件的单独评估。由于没有可用的数据集来评估我们的整个系统,因此我们收集了一个测试集并在此测试集上评估我们的系统。结果表明,我们的系统能够生成令人信服的原始演讲者的视频,同时保留原始说话者的特征。收集的数据集将共享。
translated by 谷歌翻译
对于普通人来说,了解唇部运动并从中推断出讲话是很困难的。准确的唇部阅读的任务从说话者的各种线索及其上下文或环境环境中获得帮助。每个演讲者都有不同的口音和说话风格,可以从他们的视觉和语音功能中推断出来。这项工作旨在了解语音和单个说话者在不受约束和大型词汇中的嘴唇运动顺序之间的相关性/映射。我们将帧序列建模为在自动编码器设置中的变压器之前,并学会了利用音频和视频的时间属性的关节嵌入。我们使用深度度量学习学习时间同步,这指导解码器与输入唇部运动同步生成语音。因此,预测性后部为我们提供了以说话者的说话风格产生的演讲。我们已经在网格和LIP2WAV化学讲座数据集上训练了模型,以评估在不受限制的自然环境中唇部运动的单个扬声器自然语音生成任务。使用人类评估的各种定性和定量指标进行了广泛的评估还表明,我们的方法在几乎所有评估指标上都优于lip2wav化学数据集(在不受约束的环境中的大词汇)(在不受约束的环境中的大词汇),并且在边缘上胜过了较大的范围。网格数据集。
translated by 谷歌翻译
虽然先前以语音为导向的说话面部生成方法在改善合成视频的视觉质量和唇部同步质量方面取得了重大进展,但它们对唇部运动的关注较少,从而极大地破坏了说话面部视频的真实性。是什么导致运动烦恼,以及如何减轻问题?在本文中,我们基于最先进的管道对运动抖动问题进行系统分析,该管道使用3D面表示桥接输入音频和输出视频,并通过一系列有效的设计来改善运动稳定性。我们发现,几个问题可能会导致综合说话的面部视频中的烦恼:1)输入3D脸部表示的烦恼; 2)训练推导不匹配; 3)视频帧之间缺乏依赖建模。因此,我们提出了三种有效的解决方案来解决此问题:1)我们提出了一个基于高斯的自适应平滑模块,以使3D面部表征平滑以消除输入中的抖动; 2)我们在训练中对神经渲染器的输入数据增加了增强的侵蚀,以模拟推理中的变形以减少不匹配; 3)我们开发了一个音频融合的变压器生成器,以模拟视频帧之间的依赖性。此外,考虑到没有现成的指标来测量说话面部视频中的运动抖动,我们设计了一个客观的度量标准(运动稳定性指数,MSI),可以通过计算方差加速度的倒数来量化运动抖动。广泛的实验结果表明,我们方法对运动稳定的面部视频生成的优越性,其质量比以前的系统更好。
translated by 谷歌翻译
甚至在没有受限,监督的情况下,也提出了甚至在没有受限或有限的情况下学习普遍陈述的方法。使用适度数量的数据可以微调新的目标任务,或者直接在相应任务中实现显着性能的无奈域中使用的良好普遍表示。这种缓解数据和注释要求为计算机愿景和医疗保健的应用提供了诱人的前景。在本辅导纸上,我们激励了对解散的陈述,目前关键理论和详细的实际构建块和学习此类表示的标准的需求。我们讨论医学成像和计算机视觉中的应用,强调了在示例钥匙作品中进行的选择。我们通过呈现剩下的挑战和机会来结束。
translated by 谷歌翻译
语音神经调节物有可能为患有扰动或休闲症的人提供沟通。最近的进展已经证明了从放置在皮质表面上的电加电网的高质量文本解码和语音合成。在这里,我们研究了较少的侵入性测量模态,即立体定向脑电图(SEEG),其提供来自多个脑区的稀疏抽样,包括皮质区域。为了评估Seeg是否也可用于综合神经录音的高质量音频,我们采用了一种基于现代深度学习方法的经常性编码器 - 解码器框架。我们证明,尽管有限的训练数据,但是可以从这些微创录音来重建高质量的言论。最后,我们利用变分特征丢失来成功识别最具信息丰富的电极触点。
translated by 谷歌翻译
配音是重新录制演员对话的后期生产过程,广泛用于电影制作和视频制作。它通常由专业的语音演员手动进行,他用适当的韵律读取行,以及与预先录制的视频同步。在这项工作中,我们提出了神经翻译,第一个神经网络模型来解决新型自动视频配音(AVD)任务:合成与来自文本给定视频同步的人类语音。神经杜布斯是一种多模态文本到语音(TTS)模型,它利用视频中的唇部运动来控制所生成的语音的韵律。此外,为多扬声器设置开发了一种基于图像的扬声器嵌入(ISE)模块,这使得神经Dubber能够根据扬声器的脸部产生具有合理的Timbre的语音。化学讲座的实验单扬声器数据集和LRS2多扬声器数据集显示,神经杜布斯可以在语音质量方面产生与最先进的TTS模型的语音声音。最重要的是,定性和定量评估都表明,神经杜布斯可以通过视频控制综合演讲的韵律,并产生与视频同步的高保真语音。
translated by 谷歌翻译
在本文中,我们基于条件AutoEncoder提出了一种新型音频合成器CaeSynth。 Caesynth通过在其共享潜在特征空间中插入参考声音来实时合成Timbre,同时独立控制俯仰。我们展示了基于Timbre分类的精度培训条件AutoEncoder与俯仰内容的对抗正规化允许潜伏空间中的Timbre分布对Timbre插值和音调调节更有效和稳定。该方法不仅适用于创造音乐线索,还适用于基于具有环境声音的小说模型的混合现实中的音频承担。我们通过实验证明了CAESynth通过Timbre插值实时实现了光滑和高保真音频合成,并为音乐线索的独立且准确的音高控制以及与环境声音的音频提供。在线共享Python实现以及一些生成的样本。
translated by 谷歌翻译
情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
Giving machines the ability to imagine possible new objects or scenes from linguistic descriptions and produce their realistic renderings is arguably one of the most challenging problems in computer vision. Recent advances in deep generative models have led to new approaches that give promising results towards this goal. In this paper, we introduce a new method called DiCoMoGAN for manipulating videos with natural language, aiming to perform local and semantic edits on a video clip to alter the appearances of an object of interest. Our GAN architecture allows for better utilization of multiple observations by disentangling content and motion to enable controllable semantic edits. To this end, we introduce two tightly coupled networks: (i) a representation network for constructing a concise understanding of motion dynamics and temporally invariant content, and (ii) a translation network that exploits the extracted latent content representation to actuate the manipulation according to the target description. Our qualitative and quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms existing frame-based methods, producing temporally coherent and semantically more meaningful results.
translated by 谷歌翻译
Stylegan最近的成功表明,预训练的Stylegan潜在空间对现实的视频生成很有用。但是,由于难以确定stylegan潜在空间的方向和幅度,因此视频中产生的运动通常在语义上没有意义。在本文中,我们提出了一个框架来通过利用多模式(声音图像文本)嵌入空间来生成现实视频。由于声音提供了场景的时间上下文,因此我们的框架学会了生成与声音一致的视频。首先,我们的声音反演模块将音频直接映射到Stylegan潜在空间中。然后,我们结合了基于夹子的多模式嵌入空间,以进一步提供视听关系。最后,提出的帧发电机学会在潜在空间中找到轨迹,该空间与相应的声音相干,并以层次结构方式生成视频。我们为声音引导的视频生成任务提供新的高分辨率景观视频数据集(视听对)。实验表明,我们的模型在视频质量方面优于最新方法。我们进一步显示了几种应用程序,包括图像和视频编辑,以验证我们方法的有效性。
translated by 谷歌翻译
未经监督的域适应(UDA)在两个明显不同的域之间学习高级语义对齐是一个至关重要的又具有挑战性的任务。〜在此目的,在这项工作中,我们建议利用低级边缘信息来促进适应作为前体任务具有小的跨域间隙,与语义分割相比具有小的跨域间隙。〜精确的轮廓然后提供用于引导语义适应的空间信息。更具体地,我们提出了一种多任务框架来学习轮廓调整网络以及语义分割适应网络,其将磁共振成像(MRI)切片及其初始边缘图作为输入。〜这两个网络是共同训练的源域标签,以及特征和边缘地图级对冲学习进行跨域对齐。此外,还包含自熵最小化,以进一步提高分割性能。我们在Brats2018数据库中评估了脑肿瘤的跨态分割的框架,呈现了与竞争方法相比我们方法的有效性和优越性。
translated by 谷歌翻译
生成的对抗网络最近在神经声音中表现出了出色的表现,表现优于最佳自动回归和基于流动的模型。在本文中,我们表明这种成功可以扩展到有条件音频的其他任务。特别是,在HIFI Vocoders的基础上,我们为带宽扩展和语音增强的新型HIFI ++一般框架提出了新颖的一般框架。我们表明,通过改进的生成器体系结构和简化的多歧视培训,HIFI ++在这些任务中的最先进的情况下表现更好或与之相提并论,同时花费大量的计算资源。通过一系列广泛的实验,我们的方法的有效性得到了验证。
translated by 谷歌翻译