生成的对抗网络(GaN)中的发电机以粗到精细的方式学习图像生成,其中早期层学习图像的整体结构和后者细化细节。要播放粗略信息,最近的作品通常通过堆叠多个残差块来构建其发电机。虽然残余块可以产生高质量的图像以及稳定地训练,但它经常阻碍网络中的信息流。为了减轻这个问题,本简要介绍了一种新的发电机架构,通过组合通过两个不同的分支获得的特征来产生图像:主和辅助分支。主分支的目标是通过通过多个剩余块来产生图像,而辅助分支是将早期层中的粗略信息传送到稍后的块。要成功结合主和辅助分支机构中的功能,我们还提出了一个门控功能融合模块,用于控制这些分支机构中的信息流。为了证明所提出的方法的优越性,本简要提供了使用Cifar-10,CiFar-100,Lsun,Celeba-HQ,AFHQ和Tiny-ImageNet的各种标准数据集提供了广泛的实验。此外,我们进行了各种消融研究,以证明所提出的方法的泛化能力。定量评估证明,该方法在成立得分(IS)和FRECHET成立距离(FID)方面表现出令人印象深刻的GAN性能。例如,该方法可以分别提高FID,并分别在35.13至25.00和20.23至25.57之间的微小图像数据集上的分数。
translated by 谷歌翻译
本文介绍了一种新颖的卷积方法,称为生成卷积(GCONV),这对于改善生成的对抗网络(GaN)性能来说是简单而有效的。与标准卷积不同,GCONV首先选择与给定的潜像兼容的有用内核,然后线性地将所选内核结合起来制作潜在特定的内核。使用潜在特定的内核,所提出的方法产生潜在特定的特征,鼓励发电机产生高质量的图像。这种方法很简单,但令人惊讶地有效。首先,GaN性能随着额外的硬件成本而显着提高。其次,GCONV可以用于现有的最先进的发电机而不修改网络架构。为了揭示GCONV的优越性,本文使用各种标准数据集提供了广泛的实验,包括CiFar-10,CiFar-100,Lsun-Church,Celeba和微小想象成。定量评估证明,GCONV在成立得分(IS)和FRECHET成立距离(FID)方面大大提高了无条件和条件GAN的性能。例如,所提出的方法改善了FID,分别从35.13到29.76和20.23到22.64的微小想象网数据集上的分数。
translated by 谷歌翻译
本文提出了一种新颖的卷积层,称为扰动卷积(PCONV),该层侧重于同时实现两个目标:改善生成的对抗网络(GaN)性能并减轻判断者将所有图像从给定数据集记住的记忆问题,因为培训进步。在PCONV中,通过在执行卷积操作之前随机扰乱输入张量来产生扰动特征。这种方法很简单,但令人惊讶地有效。首先,为了产生类似的输出,即使使用扰动的张量,鉴别器中的每层也应该学习具有小本地嘴唇尖端值的鲁棒特征。其次,由于输入张量在培训过程中随机扰乱了神经网络中的辍学时,可以减轻记忆问题。为了展示所提出的方法的泛化能力,我们对各种丢失函数和数据集进行了广泛的实验,包括CIFAR-10,Celeba,Celeba-HQ,LSUN和微型想象成。定量评估表明,在FRECHET成立距离(FID)方面,PCONV有效地提高了GaN和条件GaN的性能。
translated by 谷歌翻译
We propose a novel, projection based way to incorporate the conditional information into the discriminator of GANs that respects the role of the conditional information in the underlining probabilistic model. This approach is in contrast with most frameworks of conditional GANs used in application today, which use the conditional information by concatenating the (embedded) conditional vector to the feature vectors. With this modification, we were able to significantly improve the quality of the class conditional image generation on ILSVRC2012 (Im-ageNet) 1000-class image dataset from the current state-of-the-art result, and we achieved this with a single pair of a discriminator and a generator. We were also able to extend the application to super-resolution and succeeded in producing highly discriminative super-resolution images. This new structure also enabled high quality category transformation based on parametric functional transformation of conditional batch normalization layers in the generator. The code with Chainer (Tokui et al., 2015), generated images and pretrained models are available at https://github.com/pfnet-research/sngan_projection.
translated by 谷歌翻译
In this paper, we propose the Self-Attention Generative Adversarial Network (SAGAN) which allows attention-driven, long-range dependency modeling for image generation tasks. Traditional convolutional GANs generate high-resolution details as a function of only spatially local points in lower-resolution feature maps. In SAGAN, details can be generated using cues from all feature locations. Moreover, the discriminator can check that highly detailed features in distant portions of the image are consistent with each other. Furthermore, recent work has shown that generator conditioning affects GAN performance. Leveraging this insight, we apply spectral normalization to the GAN generator and find that this improves training dynamics. The proposed SAGAN performs better than prior work 1 , boosting the best published Inception score from 36.8 to 52.52 and reducing Fréchet Inception distance from 27.62 to 18.65 on the challenging ImageNet dataset. Visualization of the attention layers shows that the generator leverages neighborhoods that correspond to object shapes rather than local regions of fixed shape.
translated by 谷歌翻译
在本文中,我们提出了一种有效且有效的单级框架(Divergan),根据自然语言描述产生多样化,可粘性和语义一致的图像。 Divergan采用两种新颖的单词级注意模块,即通道关注模块(CAM)和像素 - 注意模块(PAM),这在允许网络允许将较大的权重分配给定句子中的每个单词的重要性与突出字,语义对齐的重要通道和像素。之后,引入了条件自适应实例层归一化(CADailn)以使语言提示嵌入的句子中的语言线索灵活地操纵形状和纹理的变化量,进一步改善视觉语义表示和帮助稳定训练。此外,开发了双剩余结构以保持更多原始的视觉功能,同时允许更深的网络,从而产生更快的收敛速度和更生动的细节。此外,我们建议将完全连接的层插入管道以解决缺乏多样性问题,因为我们观察到致密层会显着提高网络的生成能力,平衡低于之间的权衡尺寸随机潜代码有助于使用高维和文本上下文来强度特征映射的变体和调制模块。在第二个残差块之后插入线性层,实现最佳品种和质量。基准数据集的定性和定量结果都展示了我们的潜水员实现多样性的优越性,而不会损害质量和语义一致性。
translated by 谷歌翻译
One of the challenges in the study of generative adversarial networks is the instability of its training. In this paper, we propose a novel weight normalization technique called spectral normalization to stabilize the training of the discriminator. Our new normalization technique is computationally light and easy to incorporate into existing implementations. We tested the efficacy of spectral normalization on CIFAR10, STL-10, and ILSVRC2012 dataset, and we experimentally confirmed that spectrally normalized GANs (SN-GANs) is capable of generating images of better or equal quality relative to the previous training stabilization techniques. The code with Chainer (Tokui et al., 2015), generated images and pretrained models are available at https://github.com/pfnet-research/sngan_ projection.
translated by 谷歌翻译
生成的对抗网络(GANS)能够生成从真实图像视觉无法区分的图像。然而,最近的研究表明,生成和实际图像在频域中共享显着差异。在本文中,我们探讨了高频分量在GAN训练中的影响。根据我们的观察,在大多数GAN的培训期间,严重的高频差异使鉴别器聚焦在过度高频成分上,阻碍了发电机拟合了对学习图像内容很重要的低频分量。然后,我们提出了两个简单但有效的频率操作,以消除由GAN训练的高频差异引起的副作用:高频混淆(HFC)和高频滤波器(HFF)。拟议的操作是一般的,可以应用于大多数现有的GAN,一小部分成本。在多丢失函数,网络架构和数据集中验证了所提出的操作的高级性能。具体而言,拟议的HFF在Celeba(128 * 128)基于SSNGAN的Celeba无条件生成的Celeba(128 * 128)无条件一代,在Celeba无条件一代基于SSGAN的13.2 \%$ 30.2 \%$ 69.3 \%$ 69.3 \%$ FID在Celeba无条件一代基于Infomaxgan。
translated by 谷歌翻译
生成对抗网络(GAN)是最受欢迎的图像生成模型,在各种计算机视觉任务上取得了显着进度。但是,训练不稳定仍然是所有基于GAN的算法的开放问题之一。已经提出了许多方法来稳定gan的训练,其重点分别放在损失功能,正则化和归一化技术,训练算法和模型体系结构上。与上述方法不同,在本文中,提出了有关稳定gan训练的新观点。发现有时发电机产生的图像在训练过程中像歧视者的对抗示例一样,这可能是导致gan不稳定训练的原因的一部分。有了这一发现,我们提出了直接的对抗训练(DAT)方法来稳定gan的训练过程。此外,我们证明DAT方法能够适应歧视器的Lipschitz常数。 DAT的高级性能在多个损失功能,网络体系结构,超参数和数据集上进行了验证。具体而言,基于SSGAN的CIFAR-100无条件生成,DAT在CIFAR-100的无条件生成上实现了11.5%的FID,基于SSGAN的STL-10无条件生成的FID和基于SSGAN的LSUN卧室无条件生成的13.2%FID。代码将在https://github.com/iceli1007/dat-gan上找到
translated by 谷歌翻译
We describe a new training methodology for generative adversarial networks. The key idea is to grow both the generator and discriminator progressively: starting from a low resolution, we add new layers that model increasingly fine details as training progresses. This both speeds the training up and greatly stabilizes it, allowing us to produce images of unprecedented quality, e.g., CELEBA images at 1024 2 . We also propose a simple way to increase the variation in generated images, and achieve a record inception score of 8.80 in unsupervised CIFAR10. Additionally, we describe several implementation details that are important for discouraging unhealthy competition between the generator and discriminator. Finally, we suggest a new metric for evaluating GAN results, both in terms of image quality and variation. As an additional contribution, we construct a higher-quality version of the CELEBA dataset.
translated by 谷歌翻译
现代生成的对抗网络(GANS)主要使用判别者(或批评者)中的分段线性激活功能,包括Relu和Leaceryru。这些模型学习分段线性映射,其中每个部分处理输入空间的子集,每个子​​集的梯度​​是分段常数。在这样一类鉴别者(或批评者)函数下,我们呈现梯度标准化(Gran),一种新的输入相关标准化方法,可确保输入空间中的分段k-lipschitz约束。与光谱归一化相比,Gran不约束各个网络层的处理,并且与梯度惩罚不同,严格执行几乎无处不在的分段Lipschitz约束。凭经验,我们展示了多个数据集的改进了图像生成性能(包括Cifar-10/100,STL-10,LSUN卧室和Celeba),GaN丢失功能和指标。此外,我们分析了在几个标准GAN中改变了经常无核的Lipschitz常数K,而不仅仅是实现显着的性能增益,还可以在普通的ADAM优化器中找到K和培训动态之间的连接,特别是在低梯度损失平台之间。
translated by 谷歌翻译
现实的高光谱图像(HSI)超分辨率(SR)技术旨在从其低分辨率(LR)对应物中产生具有更高光谱和空间忠诚的高分辨率(HR)HSI。生成的对抗网络(GAN)已被证明是图像超分辨率的有效深入学习框架。然而,现有GaN的模型的优化过程经常存在模式崩溃问题,导致光谱间不变重建容量有限。这可能导致所生成的HSI上的光谱空间失真,尤其是具有大的升级因子。为了缓解模式崩溃的问题,这项工作提出了一种与潜在编码器(Le-GaN)耦合的新型GaN模型,其可以将产生的光谱空间特征从图像空间映射到潜在空间并产生耦合组件正规化生成的样本。基本上,我们将HSI视为嵌入在潜在空间中的高维歧管。因此,GaN模型的优化被转换为学习潜在空间中的高分辨率HSI样本的分布的问题,使得产生的超分辨率HSI的分布更接近其原始高分辨率对应物的那些。我们对超级分辨率的模型性能进行了实验评估及其在缓解模式崩溃中的能力。基于具有不同传感器(即Aviris和UHD-185)的两种实际HSI数据集进行了测试和验证,用于各种升高因素并增加噪声水平,并与最先进的超分辨率模型相比(即Hyconet,LTTR,Bagan,SR-GaN,Wgan)。
translated by 谷歌翻译
Mode collapse is still a major unsolved problem in generative adversarial networks. In this work, we analyze the causes of mode collapse from a new perspective. Due to the nonuniform sampling in the training process, some sub-distributions can be missed while sampling data. Therefore, the GAN objective can reach the minimum when the generated distribution is not the same as the real one. To alleviate the problem, we propose a global distribution fitting (GDF) method by a penalty term to constrain generated data distribution. On the basis of not changing the global minimum of the GAN objective, GDF will make it harder to reach the minimum value when the generated distribution is not the same as the real one. Furthermore, we also propose a local distribution fitting (LDF) method to cope with the situation that the real distribution is unknown. Experiments on several benchmarks demonstrate the effectiveness and competitive performance of GDF and LDF.
translated by 谷歌翻译
条件生成的对抗性网络(CGAN)通过将类信息纳入GaN来生成现实图像。虽然最受欢迎的CGANS是一种辅助分类器GAN,但众所周知,随着数据集中的类别的数量增加,培训acgan正在挑战。偶数还倾向于产生缺乏多样性的容易甲型样本。在本文中,我们介绍了两种治疗方法。首先,我们识别分类器中的梯度爆炸可能会导致早期训练中的不良崩溃,并将输入向量投影到单元间隔子上可以解决问题。其次,我们提出了数据到数据跨熵丢失(D2D-CE)来利用类标记的数据集中的关系信息。在这个基础上,我们提出了重新启动的辅助分类器生成对抗网络(Reacgan)。实验结果表明,Reacgan在CIFAR10,微小想象成,CUB200和Imagenet数据集上实现了最先进的生成结果。我们还验证了来自可分辨率的增强的ReacanggaN的利益,以及D2D-CE与Stylegan2架构协调。模型权重和提供代表性CGANS实现的软件包和我们纸上的所有实验都可以在https://github.com/postech-cvlab/pytorch-studiogan获得。
translated by 谷歌翻译
有条件图像生成的最新方法受益于密集的监督,例如分割标签图,以实现高保真性。但是,很少探索使用密集的监督进行无条件的图像生成。在这里,我们探讨了密集监督在无条件生成中的功效,找到生成器特征图可以替代成本昂贵的语义标签图。从我们的经验证据来看,我们提出了一种新的生成器引导的鉴别剂正则化(GGDR),其中生成器的特征地图监督了歧视者在无条件生成中具有丰富的语义表示。具体而言,我们采用了一个U-NET架构进行鉴别器,该体系结构经过训练,可以预测发电机特征图作为输入的伪造图像。关于Mulitple数据集的广泛实验表明,我们的GGDR始终在定量和定性方面提高基线方法的性能。代码可从https://github.com/naver-ai/ggdr获得
translated by 谷歌翻译
Despite recent progress in generative image modeling, successfully generating high-resolution, diverse samples from complex datasets such as ImageNet remains an elusive goal. To this end, we train Generative Adversarial Networks at the largest scale yet attempted, and study the instabilities specific to such scale. We find that applying orthogonal regularization to the generator renders it amenable to a simple "truncation trick," allowing fine control over the trade-off between sample fidelity and variety by reducing the variance of the Generator's input. Our modifications lead to models which set the new state of the art in class-conditional image synthesis. When trained on ImageNet at 128×128 resolution, our models (BigGANs) achieve an Inception Score (IS) of 166.5 and Fréchet Inception Distance (FID) of 7.4, improving over the previous best IS of 52.52 and FID of 18.65.
translated by 谷歌翻译
生成对抗性网络(甘斯)已经成为对解决图像生成的问题,最常用的网络。自我监督甘斯将在后面提出,以避免鉴相器的灾难性的遗忘,提高图像质量产生不需要的类标签。然而,在不同的GAN架构自检任务概不前研究。为此,我们深入地分析以前提出的自我监督任务的贡献,概背景下DeshuffleGANs的混洗。我们分配混洗的任务,以两种不同的GAN鉴别和研究了这两种体系结构的任务的影响。我们比较各种数据集先前提出的DeshuffleGANs延长评估。我们表明,DeshuffleGAN获得最佳FID结果几个数据集相对于其他自主监督甘斯。此外,我们比较的是首先部署到GAN培训和证明其贡献超过了预测旋转的旋转预测混洗。我们设计的名为cDeshuffleGAN评估了解到表示质量的条件DeshuffleGAN。最后,我们表现出的自我监管任务的损失景观和目前认为这些任务的影响可能不会合作,以在某些环境对抗训练GAN培训的贡献。我们的代码可以在https://github.com/gulcinbaykal/DeshuffleGAN找到。
translated by 谷歌翻译
提供和渲染室内场景一直是室内设计的一项长期任务,艺术家为空间创建概念设计,建立3D模型的空间,装饰,然后执行渲染。尽管任务很重要,但它很乏味,需要巨大的努力。在本文中,我们引入了一个特定领域的室内场景图像合成的新问题,即神经场景装饰。鉴于一张空的室内空间的照片以及用户确定的布局列表,我们旨在合成具有所需的家具和装饰的相同空间的新图像。神经场景装饰可用于以简单而有效的方式创建概念室内设计。我们解决这个研究问题的尝试是一种新颖的场景生成体系结构,它将空的场景和对象布局转化为现实的场景照片。我们通过将其与有条件图像合成基线进行比较,以定性和定量的方式将其进行比较,证明了我们提出的方法的性能。我们进行广泛的实验,以进一步验证我们生成的场景的合理性和美学。我们的实现可在\ url {https://github.com/hkust-vgd/neural_scene_decoration}获得。
translated by 谷歌翻译
生成的对抗网络(GANS)产生高质量的图像,但致力于训练。它们需要仔细正常化,大量计算和昂贵的超参数扫描。我们通过将生成和真实样本投影到固定的预级特征空间中,在这些问题上进行了重要的头路。发现鉴别者无法充分利用来自预押模型的更深层次的特征,我们提出了更有效的策略,可以在渠道和分辨率中混合特征。我们预计的GaN提高了图像质量,样品效率和收敛速度。它与最多一个百万像素的分辨率进一步兼容,并在二十二个基准数据集上推进最先进的FR \'Echet Inception距离(FID)。重要的是,预计的GAN符合先前最低的FID速度快40倍,鉴于相同的计算资源,将壁钟时间从5天切割到不到3小时。
translated by 谷歌翻译
从文本描述中综合现实图像是计算机视觉中的主要挑战。当前对图像合成方法的文本缺乏产生代表文本描述符的高分辨率图像。大多数现有的研究都依赖于生成的对抗网络(GAN)或变异自动编码器(VAE)。甘斯具有产生更清晰的图像的能力,但缺乏输出的多样性,而VAE擅长生产各种输出,但是产生的图像通常是模糊的。考虑到gan和vaes的相对优势,我们提出了一个新的有条件VAE(CVAE)和条件gan(CGAN)网络架构,用于合成以文本描述为条件的图像。这项研究使用条件VAE作为初始发电机来生成文本描述符的高级草图。这款来自第一阶段的高级草图输出和文本描述符被用作条件GAN网络的输入。第二阶段GAN产生256x256高分辨率图像。所提出的体系结构受益于条件加强和有条件的GAN网络的残留块,以实现结果。使用CUB和Oxford-102数据集进行了多个实验,并将所提出方法的结果与Stackgan等最新技术进行了比较。实验表明,所提出的方法生成了以文本描述为条件的高分辨率图像,并使用两个数据集基于Inception和Frechet Inception评分产生竞争结果
translated by 谷歌翻译