艺术是一种使用数字技术作为生成或创造过程的一部分的艺术方法。随着数字货币和NFT(不可杀死的代币)的出现,对数字艺术的需求正在积极增长。在本手稿中,我们主张将深层生成网络和对抗性训练进行稳定和变体的艺术生成的概念。这项工作主要集中于使用深卷积生成对抗网络(DC-GAN),并探讨了解决GAN训练中常见陷阱的技术。我们比较DC-GAN的各种架构和设计,以为稳定而逼真的一代提供推荐的设计选择。这项工作的主要重点是生成现实中不存在但由提议的模型从随机噪声中合成的逼真图像。我们提供了生成的动物面部图像(一些显示物种混合物的证据)的视觉结果以及训练,建筑和设计选择的建议。我们还展示了训练图像预处理如何在GAN培训中起着重要作用。
translated by 谷歌翻译
从文本描述中综合现实图像是计算机视觉中的主要挑战。当前对图像合成方法的文本缺乏产生代表文本描述符的高分辨率图像。大多数现有的研究都依赖于生成的对抗网络(GAN)或变异自动编码器(VAE)。甘斯具有产生更清晰的图像的能力,但缺乏输出的多样性,而VAE擅长生产各种输出,但是产生的图像通常是模糊的。考虑到gan和vaes的相对优势,我们提出了一个新的有条件VAE(CVAE)和条件gan(CGAN)网络架构,用于合成以文本描述为条件的图像。这项研究使用条件VAE作为初始发电机来生成文本描述符的高级草图。这款来自第一阶段的高级草图输出和文本描述符被用作条件GAN网络的输入。第二阶段GAN产生256x256高分辨率图像。所提出的体系结构受益于条件加强和有条件的GAN网络的残留块,以实现结果。使用CUB和Oxford-102数据集进行了多个实验,并将所提出方法的结果与Stackgan等最新技术进行了比较。实验表明,所提出的方法生成了以文本描述为条件的高分辨率图像,并使用两个数据集基于Inception和Frechet Inception评分产生竞争结果
translated by 谷歌翻译
在智能制造中,机器翻译工程图的质量将直接影响其制造精度。目前,大多数工作都是手动翻译的,大大降低了生产效率。本文提出了一种基于环状生成对抗网络(Cyclegan)的焊接结构工程图的自动翻译方法。不成对转移学习的Cyclegan网络模型用于学习真实焊接工程图的功能映射,以实现工程图的自动翻译。 U-NET和PatchGAN分别是生成器和鉴别器的主要网络。基于删除身份映射函数,提出了一个高维稀疏网络,以取代传统的密集网络以改善噪声稳健性。增加残留块隐藏层以增加生成图的分辨率。改进和微调的网络模型经过实验验证,计算实际数据和生成数据之间的差距。它符合焊接工程精度标准,并解决了焊接制造过程中低绘图识别效率的主要问题。结果显示。在我们的模型训练之后,焊接工程图的PSNR,SSIM和MSE分别达到44.89%,99.58%和2.11,它们在训练速度和准确性方面都优于传统网络。
translated by 谷歌翻译
这项研究建议使用生成模型(GAN)来增强欧洲裔欧洲裔数据集用于土地使用和土地覆盖(LULC)分类任务。我们使用DCGAN和WGAN-GP为数据集中的每个类生成图像。然后,我们探讨了在每种情况下将原始数据集增加约10%的效果对模型性能。GAN体系结构的选择似乎对模型性能没有明显的影响。然而,几何增强和GAN生成图像的结合改善了基线结果。我们的研究表明,GANS的增强可以改善卫星图像上深层分类模型的普遍性。
translated by 谷歌翻译
We present a variety of new architectural features and training procedures that we apply to the generative adversarial networks (GANs) framework. We focus on two applications of GANs: semi-supervised learning, and the generation of images that humans find visually realistic. Unlike most work on generative models, our primary goal is not to train a model that assigns high likelihood to test data, nor do we require the model to be able to learn well without using any labels. Using our new techniques, we achieve state-of-the-art results in semi-supervised classification on MNIST, CIFAR-10 and SVHN. The generated images are of high quality as confirmed by a visual Turing test: our model generates MNIST samples that humans cannot distinguish from real data, and CIFAR-10 samples that yield a human error rate of 21.3%. We also present ImageNet samples with unprecedented resolution and show that our methods enable the model to learn recognizable features of ImageNet classes.
translated by 谷歌翻译
本文提出了有条件生成对抗性网络(CGANS)的两个重要贡献,以改善利用此架构的各种应用。第一个主要贡献是对CGANS的分析表明它们没有明确条件。特别地,将显示鉴别者和随后的Cgan不会自动学习输入之间的条件。第二种贡献是一种新方法,称为逆时针,该方法通过新颖的逆损失明确地模拟了对抗架构的两部分的条件,涉及培训鉴别者学习无条件(不利)示例。这导致了用于GANS(逆学习)的新型数据增强方法,其允许使用不利示例将发电机的搜索空间限制为条件输出。通过提出概率分布分析,进行广泛的实验以评估判别符的条件。与不同应用的CGAN架构的比较显示了众所周知的数据集的性能的显着改进,包括使用不同度量的不同度量的语义图像合成,图像分割,单眼深度预测和“单个标签” - 图像(FID) ),平均联盟(Miou)交叉口,根均线误差日志(RMSE日志)和统计上不同的箱数(NDB)。
translated by 谷歌翻译
近年来有条件的GAN已经成熟,并且能够产生高质量的现实形象。但是,计算资源和培训高质量的GAN所需的培训数据是巨大的,因此对这些模型的转移学习的研究是一个紧急话题。在本文中,我们探讨了从高质量预训练的无条件GAN到有条件的GAN的转移。为此,我们提出了基于HyperNetwork的自适应权重调制。此外,我们介绍了一个自我初始化过程,不需要任何真实数据才能初始化HyperNetwork参数。为了进一步提高知识转移的样本效率,我们建议使用自我监督(对比)损失来改善GaN判别者。在广泛的实验中,我们验证了多个标准基准上的Hypernetworks,自我初始化和对比损失的效率。
translated by 谷歌翻译
原始出版物使用周期一致的对抗网络不成对图像到图像的翻译,这是该实施项目的灵感。研究人员开发了一种新的方法,用于使用原始研究中的未配对数据集进行图像到图像翻译。尽管PIX2PIX模型发现很好,但匹配的数据集经常不可用。因此,在没有配对数据的情况下,Cyclegan可以通过将图像转换为图像来解决此问题。为了减少图像之间的差异,他们实施了周期一致性损失。我用三个不同的数据集评估了Cyclegan,本文简要讨论了发现和结论。
translated by 谷歌翻译
Generative adversarial networks (GANs) provide a way to learn deep representations without extensively annotated training data. They achieve this through deriving backpropagation signals through a competitive process involving a pair of networks. The representations that can be learned by GANs may be used in a variety of applications, including image synthesis, semantic image editing, style transfer, image super-resolution and classification. The aim of this review paper is to provide an overview of GANs for the signal processing community, drawing on familiar analogies and concepts where possible. In addition to identifying different methods for training and constructing GANs, we also point to remaining challenges in their theory and application.
translated by 谷歌翻译
这是关于生成对抗性网络(GaN),对抗性自身额外的教程和调查纸张及其变体。我们开始解释对抗性学习和香草甘。然后,我们解释了条件GaN和DCGAN。介绍了模式崩溃问题,介绍了各种方法,包括小纤维GaN,展开GaN,Bourgan,混合GaN,D2Gan和Wasserstein GaN,用于解决这个问题。然后,GaN中的最大似然估计与F-GaN,对抗性变分贝叶斯和贝叶斯甘甘相同。然后,我们涵盖了GaN,Infogan,Gran,Lsgan,Enfogan,Gran,Lsgan,Catgan,MMD Gan,Lapgan,Progressive Gan,Triple Gan,Lag,Gman,Adagan,Cogan,逆甘,Bigan,Ali,Sagan,Sagan,Sagan,Sagan,甘肃,甘肃,甘河的插值和评估。然后,我们介绍了GaN的一些应用,例如图像到图像转换(包括Pacchgan,Cyclegan,Deepfacedrawing,模拟GaN,Interactive GaN),文本到图像转换(包括Stackgan)和混合图像特征(包括罚球和mixnmatch)。最后,我们解释了基于对冲学习的AutoEncoders,包括对手AutoEncoder,Pixelgan和隐式AutoEncoder。
translated by 谷歌翻译
In biomedical image analysis, the applicability of deep learning methods is directly impacted by the quantity of image data available. This is due to deep learning models requiring large image datasets to provide high-level performance. Generative Adversarial Networks (GANs) have been widely utilized to address data limitations through the generation of synthetic biomedical images. GANs consist of two models. The generator, a model that learns how to produce synthetic images based on the feedback it receives. The discriminator, a model that classifies an image as synthetic or real and provides feedback to the generator. Throughout the training process, a GAN can experience several technical challenges that impede the generation of suitable synthetic imagery. First, the mode collapse problem whereby the generator either produces an identical image or produces a uniform image from distinct input features. Second, the non-convergence problem whereby the gradient descent optimizer fails to reach a Nash equilibrium. Thirdly, the vanishing gradient problem whereby unstable training behavior occurs due to the discriminator achieving optimal classification performance resulting in no meaningful feedback being provided to the generator. These problems result in the production of synthetic imagery that is blurry, unrealistic, and less diverse. To date, there has been no survey article outlining the impact of these technical challenges in the context of the biomedical imagery domain. This work presents a review and taxonomy based on solutions to the training problems of GANs in the biomedical imaging domain. This survey highlights important challenges and outlines future research directions about the training of GANs in the domain of biomedical imagery.
translated by 谷歌翻译
Unsupervised learning with generative adversarial networks (GANs) has proven hugely successful. Regular GANs hypothesize the discriminator as a classifier with the sigmoid cross entropy loss function. However, we found that this loss function may lead to the vanishing gradients problem during the learning process. To overcome such a problem, we propose in this paper the Least Squares Generative Adversarial Networks (LS-GANs) which adopt the least squares loss function for the discriminator. We show that minimizing the objective function of LSGAN yields minimizing the Pearson χ 2 divergence. There are two benefits of LSGANs over regular GANs. First, LSGANs are able to generate higher quality images than regular GANs. Second, LSGANs perform more stable during the learning process. We evaluate LSGANs on five scene datasets and the experimental results show that the images generated by LSGANs are of better quality than the ones generated by regular GANs. We also conduct two comparison experiments between LSGANs and regular GANs to illustrate the stability of LSGANs.
translated by 谷歌翻译
在本文中,我们介绍了一种快速运动脱棕色条件的生成对抗网络(FMD-CGAN),其有助于单个图像的盲运动去纹理。 FMD-CGAN在去修改图像后提供令人印象深刻的结构相似性和视觉外观。与其他深度神经网络架构一样,GAN也遭受大型模型大小(参数)和计算。在诸如移动设备和机器人等资源约束设备上部署模型并不容易。借助MobileNet基于MobileNet的架构,包括深度可分离卷积,我们降低了模型大小和推理时间,而不会丢失图像的质量。更具体地说,我们将模型大小与最近的竞争对手相比将3-60倍。由此产生的压缩去掩盖CGAN比其最接近的竞争对手更快,甚至定性和定量结果优于各种最近提出的最先进的盲运动去误紧模型。我们还可以使用我们的模型进行实时映像解擦干任务。标准数据集的当前实验显示了该方法的有效性。
translated by 谷歌翻译
最近,已探索了一系列算法,用于GaN压缩,旨在在部署资源受限的边缘设备上的GAN时减少巨大的计算开销和内存使用。然而,大多数现有的GaN压缩工作仅重点介绍如何压缩发电机,而未能考虑鉴别者。在这项工作中,我们重新审视鉴别者在GaN压缩中的作用和设计一种用于GAN压缩的新型发电机 - 鉴别器协作压缩方案,称为GCC。在GCC中,选择性激活鉴别器根据局部容量约束和全局协调约束自动选择和激活卷积通道,这有助于在对策训练期间与轻质发电机保持纳什平衡,避免模式塌陷。原始发电机和鉴别器也从头开始优化,作为教师模型,逐步优化修剪的发生器和选择性激活鉴别器。一种新的在线协同蒸馏方案旨在充分利用教师发生器和鉴别器的中间特征,以进一步提高轻质发电机的性能。对各种GAN的一代任务的广泛实验证明了GCC的有效性和泛化。其中,GCC有助于降低80%的计算成本,同时在图像转换任务中保持相当的性能。我们的代码和模型可在https://github.com/sjleo/gcc上使用。
translated by 谷歌翻译
由于能够产生与实际数据的显着统计相似性的高质量数据,生成的对抗性网络(GANS)最近在AI社区中引起了相当大的关注。从根本上,GaN是在训练中以越野方式训练的两个神经网络之间的游戏,以达到零和纳什均衡轮廓。尽管在过去几年中在GAN完成了改进,但仍有几个问题仍有待解决。本文评论了GANS游戏理论方面的文献,并解决了游戏理论模型如何应对生成模型的特殊挑战,提高GAN的表现。我们首先提出一些预备,包括基本GaN模型和一些博弈论背景。然后,我们将分类系统将最先进的解决方案分为三个主要类别:修改的游戏模型,修改的架构和修改的学习方法。分类基于通过文献中提出的游戏理论方法对基本GaN模型进行的修改。然后,我们探讨每个类别的目标,并讨论每个类别的最新作品。最后,我们讨论了这一领域的剩余挑战,并提出了未来的研究方向。
translated by 谷歌翻译
Despite excellent performance in image generation, Generative Adversarial Networks (GANs) are notorious for its requirements of enormous storage and intensive computation. As an awesome ''performance maker'', knowledge distillation is demonstrated to be particularly efficacious in exploring low-priced GANs. In this paper, we investigate the irreplaceability of teacher discriminator and present an inventive discriminator-cooperated distillation, abbreviated as DCD, towards refining better feature maps from the generator. In contrast to conventional pixel-to-pixel match methods in feature map distillation, our DCD utilizes teacher discriminator as a transformation to drive intermediate results of the student generator to be perceptually close to corresponding outputs of the teacher generator. Furthermore, in order to mitigate mode collapse in GAN compression, we construct a collaborative adversarial training paradigm where the teacher discriminator is from scratch established to co-train with student generator in company with our DCD. Our DCD shows superior results compared with existing GAN compression methods. For instance, after reducing over 40x MACs and 80x parameters of CycleGAN, we well decrease FID metric from 61.53 to 48.24 while the current SoTA method merely has 51.92. This work's source code has been made accessible at https://github.com/poopit/DCD-official.
translated by 谷歌翻译
图像生成在学术界和工业领域提出了巨大的关注,特别是对于有条件和目标导向的图像生成,例如犯罪肖像和时装设计。虽然目前的研究已经沿着这个方向实现了初步结果,但它们总是将课堂标签集中在阶级标签中作为空间内容从潜伏向量随机产生的条件。边缘细节通常模糊,因为空间信息难以保持。鉴于此,我们提出了一种新型的空间受限的生成对抗网络(SCAGAN),其从潜伏向量中分离出空间约束,并使这些约束可行作为额外的可控信号。为了增强空间可控性,发电机网络专门设计用于逐步采用语义分割,潜在的传染媒介和属性级标签作为输入。此外,构造分段网络以对发电机施加空间约束。在实验上,我们在Celeba和Deepfashion数据集中提供视觉和定量结果,并证明所提出的Scang在控制空间内容以及产生高质量图像方面非常有效。
translated by 谷歌翻译
Many image-to-image translation problems are ambiguous, as a single input image may correspond to multiple possible outputs. In this work, we aim to model a distribution of possible outputs in a conditional generative modeling setting. The ambiguity of the mapping is distilled in a low-dimensional latent vector, which can be randomly sampled at test time. A generator learns to map the given input, combined with this latent code, to the output. We explicitly encourage the connection between output and the latent code to be invertible. This helps prevent a many-to-one mapping from the latent code to the output during training, also known as the problem of mode collapse, and produces more diverse results. We explore several variants of this approach by employing different training objectives, network architectures, and methods of injecting the latent code. Our proposed method encourages bijective consistency between the latent encoding and output modes. We present a systematic comparison of our method and other variants on both perceptual realism and diversity.
translated by 谷歌翻译
强大的模拟器高度降低了在培训和评估自动车辆时对真实测试的需求。数据驱动的模拟器蓬勃发展,最近有条件生成对冲网络(CGANS)的进步,提供高保真图像。主要挑战是在施加约束之后的同时合成光量造型图像。在这项工作中,我们建议通过重新思考鉴别者架构来提高所生成的图像的质量。重点是在给定对语义输入生成图像的问题类上,例如场景分段图或人体姿势。我们建立成功的CGAN模型,提出了一种新的语义感知鉴别器,更好地指导发电机。我们的目标是学习一个共享的潜在表示,编码足够的信息,共同进行语义分割,内容重建以及粗糙的粒度的对抗性推理。实现的改进是通用的,并且可以应用于任何条件图像合成的任何架构。我们展示了我们在场景,建筑和人类综合任务上的方法,跨越三个不同的数据集。代码可在https://github.com/vita-epfl/semdisc上获得。
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译