图像生成模型可以学习训练数据的分布,因此可以通过从这些分布中取样来生成示例。但是,当培训数据集被离群值损坏时,生成模型可能会产生与异常值相似的示例。实际上,一小部分离群值可能会诱导最新的生成模型,例如量化量化量化自动编码器(VQ-VAE),以从异常值中学习重要的模式。为了减轻此问题,我们提出了一个基于VQ-VAE的强大生成模型,我们将其命名为强大的VQ-VAE(RVQ-VAE)。为了实现鲁棒性,RVQ-VAE使用两个单独的代码簿对嵌入式和离群值。为了确保代码簿嵌入正确的组件,我们在每个培训时期内迭代更新嵌入式和异常值的集合。为了确保编码的数据点与正确的代码簿匹配,我们使用加权欧几里得距离进行量化,其权重由代码簿的定向差异确定。这两个代码手册均与编码器和解码器一起根据重建损失和量化损失共同训练。我们在实验上证明,即使大部分训练数据点损坏了RVQ-VAE,即使大部分培训数据都可以从嵌入式中产生示例。
translated by 谷歌翻译
We present an autoencoder that leverages learned representations to better measure similarities in data space. By combining a variational autoencoder with a generative adversarial network we can use learned feature representations in the GAN discriminator as basis for the VAE reconstruction objective. Thereby, we replace element-wise errors with feature-wise errors to better capture the data distribution while offering invariance towards e.g. translation. We apply our method to images of faces and show that it outperforms VAEs with element-wise similarity measures in terms of visual fidelity. Moreover, we show that the method learns an embedding in which high-level abstract visual features (e.g. wearing glasses) can be modified using simple arithmetic.
translated by 谷歌翻译
Anomaly detection is a classical problem in computer vision, namely the determination of the normal from the abnormal when datasets are highly biased towards one class (normal) due to the insufficient sample size of the other class (abnormal). While this can be addressed as a supervised learning problem, a significantly more challenging problem is that of detecting the unknown/unseen anomaly case that takes us instead into the space of a one-class, semi-supervised learning paradigm. We introduce such a novel anomaly detection model, by using a conditional generative adversarial network that jointly learns the generation of high-dimensional image space and the inference of latent space. Employing encoder-decoder-encoder sub-networks in the generator network enables the model to map the input image to a lower dimension vector, which is then used to reconstruct the generated output image. The use of the additional encoder network maps this generated image to its latent representation. Minimizing the distance between these images and the latent vectors during training aids in learning the data distribution for the normal samples. As a result, a larger distance metric from this learned data distribution at inference time is indicative of an outlier from that distribution -an anomaly. Experimentation over several benchmark datasets, from varying domains, shows the model efficacy and superiority over previous state-of-the-art approaches.
translated by 谷歌翻译
We explore the use of Vector Quantized Variational AutoEncoder (VQ-VAE) models for large scale image generation. To this end, we scale and enhance the autoregressive priors used in VQ-VAE to generate synthetic samples of much higher coherence and fidelity than possible before. We use simple feed-forward encoder and decoder networks, making our model an attractive candidate for applications where the encoding and/or decoding speed is critical. Additionally, VQ-VAE requires sampling an autoregressive model only in the compressed latent space, which is an order of magnitude faster than sampling in the pixel space, especially for large images. We demonstrate that a multi-scale hierarchical organization of VQ-VAE, augmented with powerful priors over the latent codes, is able to generate samples with quality that rivals that of state of the art Generative Adversarial Networks on multifaceted datasets such as ImageNet, while not suffering from GAN's known shortcomings such as mode collapse and lack of diversity.
translated by 谷歌翻译
生成建模研究的持续趋势是将样本分辨率推高更高,同时减少培训和采样的计算要求。我们的目标是通过技术的组合进一步推动这一趋势 - 每个组件代表当前效率在各自领域的顶峰。其中包括载体定量的GAN(VQ-GAN),该模型具有高水平的损耗 - 但感知上微不足道的压缩模型;沙漏变形金刚,一个高度可扩展的自我注意力模型;和逐步未胶片的denoising自动编码器(Sundae),一种非自动化(NAR)文本生成模型。出乎意料的是,当应用于多维数据时,我们的方法突出了沙漏变压器的原始公式中的弱点。鉴于此,我们建议对重采样机制进行修改,该机制适用于将分层变压器应用于多维数据的任何任务。此外,我们证明了圣代表到长序列长度的可伸缩性 - 比先前的工作长四倍。我们提出的框架秤达到高分辨率($ 1024 \ times 1024 $),并迅速火车(2-4天)。至关重要的是,训练有素的模型在消费级GPU(GTX 1080TI)上大约2秒内生产多样化和现实的百像样品。通常,该框架是灵活的:支持任意数量的采样步骤,示例自动插入,自我纠正功能,有条件的生成和NAR公式,以允许任意介绍掩护。我们在FFHQ256上获得10.56的FID得分 - 仅在100个采样步骤中以不到一半的采样步骤接近原始VQ -GAN,而FFHQ1024的FFHQ1024和21.85。
translated by 谷歌翻译
尽管两阶段矢量量化(VQ)生成模型允许合成高保真性和高分辨率图像,但其量化操作员将图像中的相似贴片编码为相同的索引,从而为相似的相邻区域重复使用现有的解码器体系结构的相似相似区域的重复伪像。为了解决这个问题,我们建议将空间条件的归一化结合起来,以调节量化的向量,以便将空间变体信息插入嵌入式索引图中,从而鼓励解码器生成更真实的图像。此外,我们使用多通道量化来增加离散代码的重组能力,而无需增加模型和代码簿的成本。此外,为了在第二阶段生成离散令牌,我们采用掩盖的生成图像变压器(MaskGit)来学习压缩潜在空间中的基础先验分布,该分布比常规自动回归模型快得多。两个基准数据集的实验表明,我们提出的调制VQGAN能够大大提高重建的图像质量,并提供高保真图像的产生。
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
由于其边缘约束,最佳运输(OT)对异常值很敏感。基于以下定义,已经提出了较强的OT变体,即离群值是移动昂贵的样本。在本文中,我们表明,通过考虑离群值更接近目标度量的情况,该定义受到限制。我们表明,较强的OT OT完全运输这些异常值,导致实践中的表现不佳。为了解决这些异常值,我们建议通过依靠接受对抗性培训的分类器来对其进行分类和目标样本进行分类,以检测它们。如果分类器的预测与其分配的标签不同,则将样本视为异常值。为了减少这些异常值在运输问题中的影响,我们建议将它们从问题中删除,或者通过使用分类器预测来增加移动它们的成本。我们表明,我们成功地检测到这些异常值,并且它们不影响多个实验的运输问题,例如梯度流,生成模型和标签传播。
translated by 谷歌翻译
从文本描述中综合现实图像是计算机视觉中的主要挑战。当前对图像合成方法的文本缺乏产生代表文本描述符的高分辨率图像。大多数现有的研究都依赖于生成的对抗网络(GAN)或变异自动编码器(VAE)。甘斯具有产生更清晰的图像的能力,但缺乏输出的多样性,而VAE擅长生产各种输出,但是产生的图像通常是模糊的。考虑到gan和vaes的相对优势,我们提出了一个新的有条件VAE(CVAE)和条件gan(CGAN)网络架构,用于合成以文本描述为条件的图像。这项研究使用条件VAE作为初始发电机来生成文本描述符的高级草图。这款来自第一阶段的高级草图输出和文本描述符被用作条件GAN网络的输入。第二阶段GAN产生256x256高分辨率图像。所提出的体系结构受益于条件加强和有条件的GAN网络的残留块,以实现结果。使用CUB和Oxford-102数据集进行了多个实验,并将所提出方法的结果与Stackgan等最新技术进行了比较。实验表明,所提出的方法生成了以文本描述为条件的高分辨率图像,并使用两个数据集基于Inception和Frechet Inception评分产生竞争结果
translated by 谷歌翻译
在异常检测(AD)中,给出了识别测试样本是否异常,给出了正常样本的数据集。近期和有希望的广告方法依赖于深度生成模型,例如变形自动化器(VAES),用于对正常数据分布的无监督学习。在半监督广告(SSAD)中,数据还包括标记异常的小样本。在这项工作中,我们提出了两个用于SSAD培训VAES的两个变分方法。两种方法中的直观思路是将编码器训练到潜在向量之间的“分开”以进行正常和异常数据。我们表明,这个想法可以源于问题的原则概率制剂,并提出了简单有效的算法。我们的方法可以应用于各种数据类型,因为我们在从自然图像到天文学和医学的SSAD数据集上展示,可以与任何VAE模型架构相结合,并且自然与合奏相兼容。与未特定于特定数据类型的最先进的SSAD方法比较时,我们获得了异常值检测的显着改进。
translated by 谷歌翻译
数据清洁通常包括离群检测和数据修复。系统错误是由于数据反复发生的几乎确定性转换而导致的,例如特定的图像像素设置为默认值或水印。因此,容量足够的模型很容易地超出这些错误,从而使检测和修复变得困难。作为系统的离群值是干净实例和系统误差模式的模式的组合,我们的主要见解是,嵌入者可以通过模型中的较小的表示形式(子空间)来建模,而不是离群值。通过利用这一点,我们提出了清洁子空间变量自动编码器(CLSVAE),这是一种新型的半监督模型,用于检测和自动修复系统误差。主要思想是分别分别分区潜在的空间和模型模型。与以前的相关模型相比,CLSVAE的有效数据少得多,通常不到2%的数据。我们在具有不同级别的损坏和标记的集合大小的方案中使用三个图像数据集提供实验,与相关基线相比。 CLSVAE提供了无人干预的优质维修,例如与最接近的基线相比,只有标记数据的0.25%的相对误差下降了58%。
translated by 谷歌翻译
最近,诸如Interovae和S-Introvae之类的内省模型在图像生成和重建任务方面表现出色。内省模型的主要特征是对VAE的对抗性学习,编码器试图区分真实和假(即合成)图像。但是,由于有效度量标准无法评估真实图像和假图像之间的差异,因此后塌陷和消失的梯度问题仍然存在,从而降低了合成图像的保真度。在本文中,我们提出了一种称为对抗性相似性距离内省变化自动编码器(AS-Introvae)的新变体。我们理论上分析了消失的梯度问题,并使用2-Wasserstein距离和内核技巧构建了新的对抗相似性距离(AS-cantance)。随着重量退火,AS-Introvae能够产生稳定和高质量的图像。通过每批次尝试转换图像,以使其更好地适合潜在空间中的先前分布,从而解决了后塌陷问题。与每个图像方法相比,该策略促进了潜在空间中更多样化的分布,从而使我们的模型能够产生巨大的多样性图像。基准数据集的全面实验证明了AS-Introvae对图像生成和重建任务的有效性。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
Image-generating machine learning models are typically trained with loss functions based on distance in the image space. This often leads to over-smoothed results. We propose a class of loss functions, which we call deep perceptual similarity metrics (DeePSiM), that mitigate this problem. Instead of computing distances in the image space, we compute distances between image features extracted by deep neural networks. This metric better reflects perceptually similarity of images and thus leads to better results. We show three applications: autoencoder training, a modification of a variational autoencoder, and inversion of deep convolutional networks. In all cases, the generated images look sharp and resemble natural images.
translated by 谷歌翻译
在过去的几年中,深层神经网络方法的反向成像问题产生了令人印象深刻的结果。在本文中,我们考虑在跨问题方法中使用生成模型。所考虑的正规派对图像进行了惩罚,这些图像远非生成模型的范围,该模型学会了产生类似于训练数据集的图像。我们命名这个家庭\ textit {生成正规派}。生成常规人的成功取决于生成模型的质量,因此我们提出了一组所需的标准来评估生成模型并指导未来的研究。在我们的数值实验中,我们根据我们所需的标准评估了三种常见的生成模型,自动编码器,变异自动编码器和生成对抗网络。我们还测试了三个不同的生成正规疗法仪,关于脱毛,反卷积和断层扫描的逆问题。我们表明,逆问题的限制解决方案完全位于生成模型的范围内可以给出良好的结果,但是允许与发电机范围的小偏差产生更一致的结果。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
Vector-Quantized (VQ-based) generative models usually consist of two basic components, i.e., VQ tokenizers and generative transformers. Prior research focuses on improving the reconstruction fidelity of VQ tokenizers but rarely examines how the improvement in reconstruction affects the generation ability of generative transformers. In this paper, we surprisingly find that improving the reconstruction fidelity of VQ tokenizers does not necessarily improve the generation. Instead, learning to compress semantic features within VQ tokenizers significantly improves generative transformers' ability to capture textures and structures. We thus highlight two competing objectives of VQ tokenizers for image synthesis: semantic compression and details preservation. Different from previous work that only pursues better details preservation, we propose Semantic-Quantized GAN (SeQ-GAN) with two learning phases to balance the two objectives. In the first phase, we propose a semantic-enhanced perceptual loss for better semantic compression. In the second phase, we fix the encoder and codebook, but enhance and finetune the decoder to achieve better details preservation. The proposed SeQ-GAN greatly improves VQ-based generative models and surpasses the GAN and Diffusion Models on both unconditional and conditional image generation. Our SeQ-GAN (364M) achieves Frechet Inception Distance (FID) of 6.25 and Inception Score (IS) of 140.9 on 256x256 ImageNet generation, a remarkable improvement over VIT-VQGAN (714M), which obtains 11.2 FID and 97.2 IS.
translated by 谷歌翻译
用于下游重建和生成的分类潜空间信息的利用是一种有趣和相对未开发的区域。一般而言,歧视性表现在类特定的特征中,但重建太稀疏,而在AutoEncoders中,表示致密,但具有有限的无法区分的类特征,使它们不太适合分类。在这项工作中,我们提出了一种歧视的建模框架,该框架采用被操纵的监督潜在表示来重建和生成属于给定班级的新样本。与旨在模拟数据歧管分布的GAN和VAE的生成建模方法不同,基于代理(Regene)(Regene)直接表示分类空间中的给定数据歧管。在某些限制下,这种监督表示允许使用适当的解码器进行重建和受控几代,而无需执行任何先前分布。理论上,给定类,我们表明使用凸组合巧妙地操纵这些表示保留相同的类标签。此外,他们还导致了新颖的直接现实图像。关于不同分辨率的数据集的广泛实验表明,Regene在FID方面具有比现有的条件生成模型更高的分类精度。
translated by 谷歌翻译
机器学习在图像处理方面取得了很大的成功。但是,这项工作的重点很大程度上是在逼真的图像上,忽略了更多的小众艺术风格,例如像素艺术。此外,许多专注于像素组的传统机器学习模型与单个像素很重要的像素艺术无法很好地工作。我们提出了一个专门的VQ-VAE模型Pixel VQ-VAE,该模型学习了Pixel Art的表示。我们表明,它在嵌入质量以及下游任务的性能中都优于其他模型。
translated by 谷歌翻译