The recently developed discrete diffusion models perform extraordinarily well in the text-to-image task, showing significant promise for handling the multi-modality signals. In this work, we harness these traits and present a unified multimodal generation model that can conduct both the "modality translation" and "multi-modality generation" tasks using a single model, performing text-based, image-based, and even vision-language simultaneous generation. Specifically, we unify the discrete diffusion process for multimodal signals by proposing a unified transition matrix. Moreover, we design a mutual attention module with fused embedding layer and a unified objective function to emphasise the inter-modal linkages, which are vital for multi-modality generation. Extensive experiments indicate that our proposed method can perform comparably to the state-of-the-art solutions in various generation tasks.
translated by 谷歌翻译
一些小组活动,例如团队运动和编排的舞蹈,涉及参与者之间的互动。在这里,我们研究了在这种情况下,根据运动路径和行动来推断和预测参与者行为的任务。我们将问题范围缩小到估计集合目标参与者对其他观察到的参与者的行为的反应。我们的关键思想是以一种在框架推断和预测期间对误差积累的稳健积累的方式建模参与者之间的时空关系。我们提出了一种新型的入门变压器(EF-Transformer),该变压器通过在空间和时间域上的注意机制来对参与者的关系进行建模。与典型的变压器不同,我们通过翻转查询,钥匙和价值条目的顺序来解决错误积累的问题,以提高当前框架中观察到的特征的重要性和保真度。比较实验表明,我们的EF转换器在新收集的网球双打数据集,一个CEILIDH舞蹈数据集和两个行人数据集上实现了最佳性能。此外,还证明我们的EF转换器更好地限制了累积错误并从错误的估计中恢复。
translated by 谷歌翻译
图像翻译和操纵随着深层生成模型的快速发展而引起了越来越多的关注。尽管现有的方法带来了令人印象深刻的结果,但它们主要在2D空间中运行。鉴于基于NERF的3D感知生成模型的最新进展,我们介绍了一项新的任务,语义到网络翻译,旨在重建由NERF模型的3D场景,该场景以一个单视语义掩码作为输入为条件。为了启动这项新颖的任务,我们提出了SEM2NERF框架。特别是,SEM2NERF通过将语义面膜编码到控制预训练的解码器的3D场景表示形式中来解决高度挑战的任务。为了进一步提高映射的准确性,我们将新的区域感知学习策略集成到编码器和解码器的设计中。我们验证了提出的SEM2NERF的功效,并证明它在两个基准数据集上的表现优于几个强基础。代码和视频可从https://donydchen.github.io/sem2nerf/获得
translated by 谷歌翻译
作为生成部件作为自回归模型的向量量化变形式自动化器(VQ-VAE)的集成在图像生成上产生了高质量的结果。但是,自回归模型将严格遵循采样阶段的逐步扫描顺序。这导致现有的VQ系列模型几乎不会逃避缺乏全球信息的陷阱。连续域中的去噪扩散概率模型(DDPM)显示了捕获全局背景的能力,同时产生高质量图像。在离散状态空间中,一些作品已经证明了执行文本生成和低分辨率图像生成的可能性。我们认为,在VQ-VAE的富含内容的离散视觉码本的帮助下,离散扩散模型还可以利用全局上下文产生高保真图像,这补偿了沿像素空间的经典自回归模型的缺陷。同时,离散VAE与扩散模型的集成解决了传统的自回归模型的缺点是超大的,以及在生成图像时需要在采样过程中的过度时间的扩散模型。结果发现所生成的图像的质量严重依赖于离散的视觉码本。广泛的实验表明,所提出的矢量量化离散扩散模型(VQ-DDM)能够实现与低复杂性的顶层方法的相当性能。它还展示了在没有额外培训的图像修复任务方面与自回归模型量化的其他矢量突出的优势。
translated by 谷歌翻译
尽管在视觉情感识别方面取得了很多进展,但研究人员已经意识到,现代深层网络倾向于利用数据集特征来学习输入和目标之间的虚假统计关联。这种数据集特性通常被视为数据集偏差,这会损害这些识别系统的稳健性和泛化性能。在这项工作中,我们从因果推理的角度审查了这个问题,在该因果推理的角度将这种数据集特征称为混杂因素,它误导了系统以学习虚假相关性。为了减轻数据集偏见带来的负面影响,我们提出了一种新颖的介入情绪识别网络(IERN)来实现后门调整,这是因果推断中一种基本的解污染技术。具体而言,IERN首先将与数据集相关的上下文功能从实际的情感功能中解散,前者形成混杂因素。然后,情感功能将被迫在被送入分类器之前平均看到每个混杂层。一系列设计的测试验证了IERN的功效,并且对三个情感基准的实验表明,IERN的表现优于最先进的方法,以实现无偏见的视觉情感识别。代码可从https://github.com/donydchen/causal_emotion获得
translated by 谷歌翻译
桥接全球上下文交互正确对大面具的高保真图像完成非常重要。先前的方法通过深或大的接收领域(RF)卷积无法逃离附近互动的主导地位,这可能是劣等的。在本文中,我们建议将图像完成视为无缝的序列到序列预测任务,并部署变压器以直接捕获编码器中的远程依赖性。至关重要,我们使用具有小而非重叠的RF的限制性CNN,用于加权令牌表示,这允许变压器明确地模拟所有层中的相同重要性,而在使用较大的RF时,没有隐含地混淆邻居令牌。为了改善可见区域之间的外观一致性,引入了一种新的注意力层(aal)以更好地利用远方相关的高频功能。总体而言,与若干数据集上的最先进方法相比,大量实验表现出卓越的性能。
translated by 谷歌翻译