We propose the first joint audio-video generation framework that brings engaging watching and listening experiences simultaneously, towards high-quality realistic videos. To generate joint audio-video pairs, we propose a novel Multi-Modal Diffusion model (i.e., MM-Diffusion), with two-coupled denoising autoencoders. In contrast to existing single-modal diffusion models, MM-Diffusion consists of a sequential multi-modal U-Net for a joint denoising process by design. Two subnets for audio and video learn to gradually generate aligned audio-video pairs from Gaussian noises. To ensure semantic consistency across modalities, we propose a novel random-shift based attention block bridging over the two subnets, which enables efficient cross-modal alignment, and thus reinforces the audio-video fidelity for each other. Extensive experiments show superior results in unconditional audio-video generation, and zero-shot conditional tasks (e.g., video-to-audio). In particular, we achieve the best FVD and FAD on Landscape and AIST++ dancing datasets. Turing tests of 10k votes further demonstrate dominant preferences for our model. The code and pre-trained models can be downloaded at https://github.com/researchmm/MM-Diffusion.
translated by 谷歌翻译
This paper presents a 3D generative model that uses diffusion models to automatically generate 3D digital avatars represented as neural radiance fields. A significant challenge in generating such avatars is that the memory and processing costs in 3D are prohibitive for producing the rich details required for high-quality avatars. To tackle this problem we propose the roll-out diffusion network (Rodin), which represents a neural radiance field as multiple 2D feature maps and rolls out these maps into a single 2D feature plane within which we perform 3D-aware diffusion. The Rodin model brings the much-needed computational efficiency while preserving the integrity of diffusion in 3D by using 3D-aware convolution that attends to projected features in the 2D feature plane according to their original relationship in 3D. We also use latent conditioning to orchestrate the feature generation for global coherence, leading to high-fidelity avatars and enabling their semantic editing based on text prompts. Finally, we use hierarchical synthesis to further enhance details. The 3D avatars generated by our model compare favorably with those produced by existing generative techniques. We can generate highly detailed avatars with realistic hairstyles and facial hair like beards. We also demonstrate 3D avatar generation from image or text as well as text-guided editability.
translated by 谷歌翻译
我们提出了一种新颖的隐式表示 - 神经半空间表示(NH-REP),以将歧管B-REP固体转换为隐式表示。 NH-REP是一棵布尔树木,建立在由神经网络代表的一组隐式函数上,复合布尔函数能够代表实体几何形状,同时保留锐利的特征。我们提出了一种有效的算法,以从歧管B-Rep固体中提取布尔树,并设计一种基于神经网络的优化方法来计算隐式函数。我们证明了我们的转换算法在一千个流形B-REP CAD模型上提供的高质量,这些模型包含包括NURB在内的各种弯曲斑块,以及我们学习方法优于其他代表性的隐性转换算法,在表面重建,尖锐的特征保存,尖锐的特征保存,尖锐的特征,,符号距离场的近似和对各种表面几何形状的鲁棒性以及由NH-REP支持的一组应用。
translated by 谷歌翻译
关于语言引导的图像操纵的最新作品在提供丰富的语义方面表现出了极大的语言力量,尤其是对于面部图像。但是,语言中的其他自然信息,动作的探索较少。在本文中,我们利用运动信息并研究一项新颖的任务,语言引导的面部动画,旨在在语言的帮助下对静态面部图像进行动画。为了更好地利用语言的语义和动作,我们提出了一个简单而有效的框架。具体而言,我们提出了一个经常性运动生成器,以从语言中提取一系列语义和运动信息,并将其与视觉信息一起提供给预训练的样式,以生成高质量的帧。为了优化所提出的框架,提出了三个精心设计的损失功能,包括保持面部身份的正规化损失,路径长度正规化损失以确保运动平滑度和对比度损失,以在一个模型中使用各种语言指导启用视频综合。对不同领域的定性和定量评估进行了广泛的实验(\ textit {ef。语。代码将在https://github.com/tiankaihang/language-guided-animation.git上找到。
translated by 谷歌翻译
蒙版的图像建模(MIM)学习具有非常好的微调性能的表示形式,掩盖了先前普遍的预训练方法,例如图像分类,实例对比度学习和图像文本对齐。在本文中,我们表明,通过以功能蒸馏(FD)形式进行简单的后处理,可以显着改善这些预训练方法的下部微调性能。功能蒸馏将旧表示形式转换为具有一些理想属性的新表示形式,就像MIM产生的表示一样。这些属性总共称为优化友好性,通过一组与注意力和优化相关的诊断工具来识别和分析。借助这些属性,新表示表现出强烈的微调性能。具体而言,对比度的自我监督学习方法在微调方面具有竞争力,就像最先进的蒙版图像建模(MIM)算法一样。剪辑模型的微调性能也得到了显着改善,夹子VIT-L模型达到\ TextBf {89.0%} TOP-1的ImagEnet-1K分类精度。在30亿参数SWINV2-G模型上,ADE20K语义分割的微调精度通过+1.5 miou提高到\ textbf {61.4 miou},创建了新记录。更重要的是,我们的工作为未来的研究提供了一种方法,可以将更多的精力集中在学习表现的通用性和可扩展性上,而不会与优化友好性相处,因为它可以很容易地增强。该代码将在https://github.com/swintransformer/feature-distillation上找到。
translated by 谷歌翻译
尽管在广泛的愿景任务中取得了诱人的成功,但变形金刚尚未在高分辨率图像生成建模中作为Convnets的讨论能力。在本文中,我们寻求探索使用纯变压器来构建用于高分辨率图像合成的生成对抗网络。为此,我们认为,当地的关注是在计算效率和建模能力之间取得平衡至关重要。因此,所提出的发电机采用基于风格的架构中的Swin变压器。为了实现更大的接收领域,我们提出了双重关注,同时利用本地和移位窗的上下文,从而提高了发电质量。此外,我们表明提供了在基于窗口的变压器中丢失的绝对位置的知识极大地利益了代理。所提出的STYLESWIN可扩展到高分辨率,粗糙几何和细结构都受益于变压器的强效力。然而,在高分辨率合成期间发生阻塞伪像,因为以块明智的方式执行局部注意力可能会破坏空间一致性。为了解决这一点,我们经验研究了各种解决方案,其中我们发现采用小波鉴别器来检查光谱差异的措施有效地抑制伪影。广泛的实验表明了对现有的基于变压器的GAN的优越性,特别是在高分辨率上,例如高分辨率,例如1024x1024。如果没有复杂的培训策略,则在Celeba-HQ 1024上赢得了STYLEGAN,并且在FFHQ-1024上实现了对PAR的表现,证明了使用变压器进行高分辨率图像生成的承诺。代码和模型将在https://github.com/microsoft/styleswin上使用。
translated by 谷歌翻译
VirtualCube系统是一个尝试克服传统技术的一些限制的3D视频会议系统。关键的成分是VirtualCube,一种用RGBD摄像机录制的现实世界隔间的抽象表示,用于捕获用户的3D几何和纹理。我们设计VirtualCube,以便数据捕获的任务是标准化和显着简化的,并且所有内容都可以使用现成的硬件构建。我们将VirtualCubes用作虚拟会议环境的基本构建块,我们为每个VirtualCube用户提供一个周围的显示,显示远程参与者的寿命型视频。为了实现远程参与者的实时渲染,我们开发了V-Cube视图算法,它使用多视图立体声进行更精确的深度估计和Lumi-Net渲染,以便更好地渲染质量。 VirtualCube系统正确保留了参与者之间的相互眼睛凝视,使他们能够建立目光接触并意识到谁在视觉上关注它们。该系统还允许参与者与远程参与者具有侧面讨论,就像他们在同一个房间一样。最后,系统揭示了如何支持如何支持工作项的共享空间(例如,文档和应用程序),并跟踪参与者的视觉注意工作项目。
translated by 谷歌翻译
我们介绍了文本到图像生成的矢量量化扩散(VQ-扩散)模型。该方法基于矢量量化变分性AutoEncoder(VQ-VAE),其潜像通过最近开发的去噪扩散概率(DDPM)的条件变体为基础。我们发现这种潜在空间方法非常适合于图像到图像生成任务,因为它不仅消除了具有现有方法的单向偏差,还允许我们结合掩模和更换的扩散策略,以避免积累错误,这是现有方法的严重问题。我们的实验表明,与具有类似数量的参数数量的传统自回归(AR)模型相比,VQ扩散产生明显更好的文本到图像生成结果。与以前的基于GAN的文本到图像方法相比,我们的VQ扩散可以通过大边缘处理更复杂的场景并提高合成的图像质量。最后,我们表明我们的方法中的图像生成计算可以通过Reparameter化进行高效。利用传统的AR方法,文本到图像生成时间随输出图像分辨率线性增加,因此即使对于正常尺寸图像也是相当耗时的。 VQ-扩散使我们能够在质量和速度之间实现更好的权衡。我们的实验表明,具有Reparameterization的VQ扩散模型比传统的AR方法快15倍,同时实现更好的图像质量。
translated by 谷歌翻译
我们研究了联合视频和语言(VL)预培训,以实现跨模型学习和益处丰富的下游VL任务。现有的作品要么提取低质量的视频特征或学习有限的文本嵌入,但忽略了高分辨率视频和多样化的语义可以显着提高跨模型学习。在本文中,我们提出了一种新的高分辨率和多样化的视频 - 语言预训练模型(HD-VILA),用于许多可视任务。特别是,我们收集具有两个不同属性的大型数据集:1)第一个高分辨率数据集包括371.5k小时的720p视频,2)最多样化的数据集涵盖15个流行的YouTube类别。为了启用VL预培训,我们通过学习丰富的时空特征的混合变压器联合优化HD-VILA模型,以及多峰变压器,用于强制学习视频功能与多样化文本的交互。我们的预训练模式实现了新的最先进的导致10 VL了解任务和2个新颖的文本到视觉生成任务。例如,我们以零拍摄MSR-VTT文本到视频检索任务的相对增加38.5%R @ 1的相对增长,高分辨率数据集LSMDC为53.6%。学习的VL嵌入也有效地在文本到视觉操纵和超分辨率任务中产生视觉上令人愉悦和语义相关结果。
translated by 谷歌翻译
我们提出了用于将Swin变压器缩放到3亿参数的技术,并使其能够使用高达1,536美元的图像培训1,536美元。通过缩放容量和分辨率,Swin变压器在四个代表视觉基准上设置新记录:84.0%的Top-1在Imagenet-V2图像分类准确度,63.1 / 54.4盒/掩模地图上的Coco对象检测,59.9 Miou在Ade20K语义细分中,在动力学-400视频动作分类上的86.8%的前1个精度。我们的技术通常适用于缩放视觉模型,这尚未广泛探索为NLP语言模型,部分原因是培训和应用中的困难:1)视觉模型经常面临规模的不稳定问题,2)许多下游愿景任务需要高分辨率图像或窗口,并且目前尚不清楚如何有效地将模型在低分辨率上预先培训到更高分辨率。当图像分辨率高时,GPU存储器消耗也是一个问题。为了解决这些问题,我们提出了几种技术,通过使用Swin Transformer作为案例研究来说明:1)归一化技术和缩放的余弦注意力,提高大视觉模型的稳定性; 2)一种日志间隔的连续位置偏置技术,以有效地将在低分辨率图像和窗口预先训练的模型转移到其更高分辨率的对应物。此外,我们分享了我们的关键实施细节,导致GPU内存消耗的大量节省,从而使得用常规GPU培训大型视觉模型可行。使用这些技术和自我监督的预训练,我们成功培训了强大的3B往返变压器模型,并有效地将其转移到涉及高分辨率图像或窗口的各种视觉任务,实现了各种最先进的准确性基准。
translated by 谷歌翻译