This paper presents a 3D generative model that uses diffusion models to automatically generate 3D digital avatars represented as neural radiance fields. A significant challenge in generating such avatars is that the memory and processing costs in 3D are prohibitive for producing the rich details required for high-quality avatars. To tackle this problem we propose the roll-out diffusion network (Rodin), which represents a neural radiance field as multiple 2D feature maps and rolls out these maps into a single 2D feature plane within which we perform 3D-aware diffusion. The Rodin model brings the much-needed computational efficiency while preserving the integrity of diffusion in 3D by using 3D-aware convolution that attends to projected features in the 2D feature plane according to their original relationship in 3D. We also use latent conditioning to orchestrate the feature generation for global coherence, leading to high-fidelity avatars and enabling their semantic editing based on text prompts. Finally, we use hierarchical synthesis to further enhance details. The 3D avatars generated by our model compare favorably with those produced by existing generative techniques. We can generate highly detailed avatars with realistic hairstyles and facial hair like beards. We also demonstrate 3D avatar generation from image or text as well as text-guided editability.
translated by 谷歌翻译
In this work, we are dedicated to text-guided image generation and propose a novel framework, i.e., CLIP2GAN, by leveraging CLIP model and StyleGAN. The key idea of our CLIP2GAN is to bridge the output feature embedding space of CLIP and the input latent space of StyleGAN, which is realized by introducing a mapping network. In the training stage, we encode an image with CLIP and map the output feature to a latent code, which is further used to reconstruct the image. In this way, the mapping network is optimized in a self-supervised learning way. In the inference stage, since CLIP can embed both image and text into a shared feature embedding space, we replace CLIP image encoder in the training architecture with CLIP text encoder, while keeping the following mapping network as well as StyleGAN model. As a result, we can flexibly input a text description to generate an image. Moreover, by simply adding mapped text features of an attribute to a mapped CLIP image feature, we can effectively edit the attribute to the image. Extensive experiments demonstrate the superior performance of our proposed CLIP2GAN compared to previous methods.
translated by 谷歌翻译
与生成的对抗网(GAN)相比,降级扩散概率模型(DDPM)在各种图像生成任务中取得了显着成功。关于语义图像综合的最新工作主要遵循\ emph {de exto}基于gan的方法,这可能导致生成图像的质量或多样性不令人满意。在本文中,我们提出了一个基于DDPM的新型框架,用于语义图像合成。与先前的条件扩散模型不同,将语义布局和嘈杂的图像作为输入为U-NET结构,该结构可能无法完全利用输入语义掩码中的信息,我们的框架处理语义布局和嘈杂的图像不同。它将噪声图像馈送到U-NET结构的编码器时,而语义布局通过多层空间自适应归一化操作符将语义布局馈送到解码器。为了进一步提高语义图像合成中的发电质量和语义解释性,我们介绍了无分类器的指导采样策略,该策略承认采样过程的无条件模型的得分。在三个基准数据集上进行的广泛实验证明了我们提出的方法的有效性,从而在忠诚度(FID)和多样性〜(LPIPS)方面实现了最先进的性能。
translated by 谷歌翻译
在本文中,我们介绍了人际内和人际关系网络(I^2R-NET),以进行多人姿势估计。它涉及两个基本模块。首先,人类内部关系模块在一个人身上运行,旨在捕获人类内部依赖性。其次,人际关系模块考虑了多个实例之间的关系,并着重于捕获人间的相互作用。人际关系间的关系模块可以通过减少特征图的分辨率来设计非常轻巧,但学习有用的关系信息以显着提高人类内部关系模块的性能。即使没有铃铛和哨子,我们的方法也可以竞争或胜过当前的比赛获胜者。我们对可可,人群和ochuman数据集进行了广泛的实验。结果表明,所提出的模型超过了所有最新方法。具体而言,所提出的方法在众群数据集上达到了77.4%的AP和Ochuman数据集上的67.8%AP,从而超过了现有方法的大幅度优于较大的利润率。此外,消融研究和可视化分析还证明了我们的模型的有效性。
translated by 谷歌翻译
分析电子健康记录(EHR)数据通常会遇到具有大量稀有二进制特征的统计学习,尤其是在使用先前的医学诊断和程序的疾病开始建模时。众所周知,处理最终的高度稀疏和大规模的二进制功能矩阵是具有挑战性的,因为传统方法可能缺乏测试和模型拟合中的不一致性,而机器学习方法可能会遭受产生可解释的结果或临床上无能为力的障碍风险因素。为了改善基于EHR的建模并利用疾病分类的自然层次结构,我们提出了树木制定的特征选择和逻辑聚合方法,用于具有稀有二进制特征的大规模回归,在这种情况下,不仅可以通过稀疏追求实现尺寸降低。还有``或''的逻辑运算符的聚合启动子。我们将组合问题转换为线性约束的正规化估计,该估计可以通过理论保证实现可扩展的计算。在使用EHR数据的自杀风险研究中,我们的方法能够在国际疾病的诊断层次结构指导下选择和汇总先前的心理健康诊断。通过平衡EHR诊断记录的稀有性和特异性,我们的策略改善了预测和模型解释。我们确定了重要的高级类别和心理健康状况的子类别,并同时确定每个人在预测自杀风险时所需的特异性水平。
translated by 谷歌翻译
转移学习旨在利用预先培训模型的知识来受益。先前的转移学习工作主要是从单个模型转移。但是,随着从不同资源预先训练的深层模型的出现,由具有各种体系结构的各种模型组成的模型中心,预先训练的数据集和学习范式可用。直接将单模传输学习方法应用于每种模型,都会浪费对模型中心的丰富知识,并遭受高计算成本。在本文中,我们提出了一个枢纽 - 校园框架,以实现从模型中心的知识转移。该框架生成数据依赖性途径权重,基于我们在输入级别分配路径路由以确定激活哪些预训练模型并通过了哪些预训练的模型,然后在输出级别设置了途径聚集,以从不同做出预测的模型。可以通过针对特定于任务的损失端对端训练所提出的框架,在该损失中,它将学会探索更好的途径配置并利用每个目标基准的预训练模型中的知识。我们利用嘈杂的途径生成器并设计勘探损失,以进一步探索整个模型中心的不同途径。为了充分利用预训练模型中的知识,每个模型都会通过激活它的特定数据进一步培训,从而确保其性能并增强知识传递。计算机视觉和强化学习任务的实验结果表明,所提出的枢纽式框架实现了模型中心传输学习的最新性能。
translated by 谷歌翻译
深度神经网络在大规模标记的数据集的帮助下,在各种任务上取得了出色的表现。然而,这些数据集既耗时又竭尽全力来获得现实的任务。为了减轻对标记数据的需求,通过迭代分配伪标签将伪标签分配给未标记的样本,自我训练被广泛用于半监督学习中。尽管它很受欢迎,但自我训练还是不可靠的,通常会导致训练不稳定。我们的实验研究进一步表明,半监督学习的偏见既来自问题本身,也来自不适当的训练,并具有可能不正确的伪标签,这会在迭代自我训练过程中累积错误。为了减少上述偏见,我们提出了自我训练(DST)。首先,伪标签的生成和利用是由两个独立于参数的分类器头解耦,以避免直接误差积累。其次,我们估计自我训练偏差的最坏情况,其中伪标记函数在标记的样品上是准确的,但在未标记的样本上却尽可能多地犯错。然后,我们通过避免最坏的情况来优化表示形式,以提高伪标签的质量。广泛的实验证明,DST在标准的半监督学习基准数据集上的最先进方法中,平均提高了6.3%,而在13个不同任务上,FIXMATCH的平均水平为18.9%。此外,DST可以无缝地适应其他自我训练方法,并有助于稳定他们在从头开始的培训和预先训练模型的训练的情况下,在培训的情况下进行培训和平衡表现。
translated by 谷歌翻译
基于注意力机制的变压器在各个领域取得了令人印象深刻的成功。但是,注意机制具有二次复杂性,严重阻碍了变形金刚处理众多令牌并扩展到更大的模型。先前的方法主要利用矩阵乘法的相似性分解和关联性来设计线性时间注意机制。它们通过重新引入归纳偏见(例如位置)来避免关注对微不足道的分布,从而以模型的一般性和表达性为代价。在本文中,我们将基于流网络理论的特定电感偏差线性化。我们引起人们的注意,因为信息流从源(值)汇总到水槽(结果)通过学习的流动能力(结果)(注意)。在此框架内,我们将流量保护的特性应用于注意力,并提出线性复杂性的流意见机制。通过分别保留用于源竞争的水槽的传入流以及水槽分配的传出流,流动意见固有地产生了信息的关注,而无需使用特定的电感偏见。流动性授权,流动形式在线性时间内的范围内表现出色,包括长序列,时间序列,视觉,自然语言和强化学习。代码和设置可在此存储库中获得:https://github.com/thuml/flowformer。
translated by 谷歌翻译
对事件序列的预测对于信息检索和自然语言处理中的许多现实世界应用至关重要。在事件序列预测中,未来的活动生成(FEG)是一项具有挑战性的任务,因为它不仅需要流利的文本生成,而且需要常识性推理才能保持整个事件故事的逻辑连贯性。在本文中,我们提出了一个新颖的可解释的FEG框架COEP。它突出并整合了两种类型的事件知识,对直接事件事件关系的顺序知识以及推论知识,这些知识反映了事件之间的中间角色心理学(例如意图,原因,反应),这些心理本质地将故事推向了故事。为了减轻知识遗忘问题,我们为每种类型的知识设计了两个模块,即IM和GM,它们是通过及时调整组合的。首先,IM专注于理解推论知识,以产生常识性解释并为通用汽车提供软提示向量。我们还设计了一种对比歧视器,以提高概括能力。其次,GM通过用IM的指导对直接顺序知识进行建模来生成未来事件。自动和人类评估表明,我们的方法可以产生更连贯,具体和逻辑的未来事件。
translated by 谷歌翻译
尽管在广泛的愿景任务中取得了诱人的成功,但变形金刚尚未在高分辨率图像生成建模中作为Convnets的讨论能力。在本文中,我们寻求探索使用纯变压器来构建用于高分辨率图像合成的生成对抗网络。为此,我们认为,当地的关注是在计算效率和建模能力之间取得平衡至关重要。因此,所提出的发电机采用基于风格的架构中的Swin变压器。为了实现更大的接收领域,我们提出了双重关注,同时利用本地和移位窗的上下文,从而提高了发电质量。此外,我们表明提供了在基于窗口的变压器中丢失的绝对位置的知识极大地利益了代理。所提出的STYLESWIN可扩展到高分辨率,粗糙几何和细结构都受益于变压器的强效力。然而,在高分辨率合成期间发生阻塞伪像,因为以块明智的方式执行局部注意力可能会破坏空间一致性。为了解决这一点,我们经验研究了各种解决方案,其中我们发现采用小波鉴别器来检查光谱差异的措施有效地抑制伪影。广泛的实验表明了对现有的基于变压器的GAN的优越性,特别是在高分辨率上,例如高分辨率,例如1024x1024。如果没有复杂的培训策略,则在Celeba-HQ 1024上赢得了STYLEGAN,并且在FFHQ-1024上实现了对PAR的表现,证明了使用变压器进行高分辨率图像生成的承诺。代码和模型将在https://github.com/microsoft/styleswin上使用。
translated by 谷歌翻译