三维几何数据为研究代表性学习和生成建模提供了一个很好的领域。在本文中,我们将看到表示为点云的几何数据。我们引入了深度自动编码器(AE)网络,具有最先进的重建质量和可扩展性。学习的表示优于现有的3D识别任务方法,并通过简单的代数操作实现形状编辑,例如语义部分编辑,形状类比和形状插值,以及形状完成。我们对不同的生成模型进行了彻底的研究,包括在原始点云上运行的GAN,在我们的AE的固定潜在空间中显着改进的GAN应变,以及高斯混合模型(GMM)。为了定量评估生成模型,我们引入了基于点云集之间匹配的样本保真度和多样性的度量。有趣的是,我们对泛化,保真度和多样性的评估表明,在我们的AE的潜在空间中训练的GMM产生最好的结果。
translated by 谷歌翻译
深度生成架构提供了一种不仅可以对图像进行建模,还可以对复杂的三维对象(如点云)进行建模的方法。在这项工作中,我们提出了一种新方法来获得可用于聚类和重建的3D形状的有意义的表示。与用于表示学习和生成的单独解耦模型的三维点云生成的现有方法相反,我们的方法是第一个端到端解决方案,其允许同时学习表示的潜在空间并从中生成3D形状。为了实现这一目标,我们扩展了一个深度对抗自动编码器模型(AAE)以接受3D输入并创建3D输出。感谢我们的端到端训练机制,称为3DAdversarial Autoencoder(3dAAE)的结果方法获得二进制或连续的潜在空间,覆盖了更广泛的训练数据分布部分,从而实现了形状之间的平滑插值。最后,我们广泛的定量评估表明,3dAAE在一组基准任务中提供了最先进的结果。
translated by 谷歌翻译
生成性对抗网络(GAN)在机器学习领域受到广泛关注,因为它们有可能学习高维,复杂的数据分布。具体而言,它们不依赖于关于分布的任何假设,并且可以以简单的方式从潜在空间生成真实样本。这种强大的属性使GAN可以应用于各种应用,如图像合成,图像属性编辑,图像翻译,领域适应和其他学术领域。在本文中,我们的目的是为那些熟悉的读者讨论GAN的细节,但不要深入理解GAN或者希望从各个角度看待GAN。另外,我们解释了GAN如何运作以及最近提出的各种目标函数的基本含义。然后,我们将重点放在如何将GAN与自动编码器框架相结合。最后,我们列举了适用于各种任务和其他领域的GAN变体,适用于那些有兴趣利用GAN进行研究的人。
translated by 谷歌翻译
语义形状完成是3D计算机视觉中的挑战性问题,其任务是使用部分3D形状作为输入生成完整的3D形状。我们提出了一种基于学习的方法,通过生成建模和潜在流形优化来完成不完整的3D形状。我们的算法直接在点云上工作。我们使用自动编码器和GAN来学习对象类点云的嵌入分布。具有缺失区域的输入点云首先被编码为特征向量。然后,使用GAN学习的表示使用组合优化来找到歧管中的最佳潜在向量,该组合优化在接近原始输入的合理向量的流形中找到向量(在解码器的特征空间和输出空间中)。实验表明,该算法能够成功地重建具有高保真度的大丢失区域的点云,而不必依赖基于样本的数据库检索。
translated by 谷歌翻译
我们提倡使用隐式字段来学习形状的生成模型,并引入用于形状生成的隐式场解码器,旨在改善生成的形状的视觉质量。隐式字段为3D空间中的每个点分配一个值,以便可以将形状提取为aniso-surface。我们的隐式场解码器被训练以通过二元分类器执行该分配。具体地,它采用点坐标以及编码形状的特征向量,并输出指示该点是否在形状之外的值。通过我们的解码器替换常规解码器用于表示学习和形状的生成建模,我们展示了诸如shapeautoencoding,生成,插值和单视图3D重建等任务的卓越结果,特别是在视觉质量方面。
translated by 谷歌翻译
计算机图形学,3D计算机视觉和机器人社区已经产生了多种方法来表示用于渲染和重建的3D几何。这些提供了保真度,效率和压缩功能之间的权衡。在这项工作中,我们介绍了DeepSDF,一种学习的连续符号距离函数(SDF)表示的一类形状,可以实现高质量的形状表示,插值和完成部分和有噪声的3D输入数据。与经典对应物一样,DeepSDF通过连续的体积场表示形状的表面:场中点的大小表示到表面边界的距离,而标志表示该区域是否在形状的内部( - )或外部(+)因此,我们的表示隐式地将形状的边界编码为学习函数的零级集合,同时明确地将空间的分类表示为内部形状的一部分。虽然经典SDF在分析或离散体素形式中通常表示单个形状的表面,但DeepSDF可以表示整个形状类别。此外,我们展示了学习3D形状表示和完成的最先进性能,同时与之前的工作相比将模型尺寸减小了一个数量级。
translated by 谷歌翻译
构建能够生成结构化输出的模型是AI和机器人技术的关键挑战。虽然已经在许多类型的数据上探索了生成模型,但是在合成激光雷达扫描方面做的工作很少,这在机器人绘图和定位中起着关键作用。在这项工作中,我们展示了通过将激光雷达扫描解开为多通道2D信号,可以为这项任务进行深入的生成模型。我们的方法可以生成高质量的样本,同时学习有意义的潜在数据表示。此外,我们证明了我们的方法对噪声输入是鲁棒的 - 经过学习的模型可以从看似有效的数据中恢复潜在的激光雷达扫描。
translated by 谷歌翻译
生成对抗网络(GAN)是用于学习来自样本的复杂数据分布的生成模型的创新技术。尽管最近在生成逼真图像方面取得了显着的进步,但是它们的主要缺点之一是,在实践中,即使在对不同数据集进行训练时,它们也倾向于生成具有很小多样性的样本。这种被称为模式崩溃的现象一直是GAN最近几项进展的主要焦点。然而,很少有人理解为什么模式崩溃发生,而且即将出现的方法能够缓解模式崩溃。我们提出了处理模式崩溃的原则方法,我们称之为打包。主要思想是使鉴别器基于来自同一类的多个样本做出决策,无论是真实的还是人工生成的。我们借用二元假设检验的分析工具 - 特别是Blackwell [Bla53]的开创性结果---来证明包装和模式崩溃之间的基本联系。我们证明了包装自然会对模式崩溃的发电机进行处罚,从而减少了发电机的分布。模式在训练过程中崩溃。基准数据集的数值实验表明,包装在实践中也提供了显着的改进。
translated by 谷歌翻译
生成矩匹配网络(GMMN)是一种深度生成模型,它通过用基于内核最大度差异(MMD)的双样本测试替换GAN中的识别符来改变生成对抗网络(GAN)。尽管已经研究了MMD的一些理论保证,但GMMN的经验性能仍然不如GAN在具有挑战性的大型基准数据集上具有竞争力。与GAN相比,GMMN的计算效率也不太理想,部分地在训练期间需要相当大的批量大小。在本文中,我们提出通过引入对抗核学习技术来改进GMMN的模型表达性及其计算效率,作为原始GMMN中固定高斯核的替代。新方法结合了GMMN和GAN中的关键思想,因此我们将其命名为MMD GAN .MMD GAN中的新距离测量是一种有意义的损失,具有弱拓扑的优点,并且可以通过梯度下降和相对较小的批量大小进行优化。在我们对多个基准数据集(包括MNIST,CIFAR-10,CelebA和LSUN)的评估中,MMD-GAN的性能明显优于GMMN,并且与其他代表性的GAN工作相比具有竞争力。
translated by 谷歌翻译
数据驱动的生成建模通过利用深度神经网络的力量取得了显着进步。一个重复出现的挑战是如何从整个目标分布中抽取各种数据,而不仅仅是从训练数据的分布中抽样。换句话说,我们希望生成模型超越观察到的训练样本,并学会生成“看不见的”数据。在我们的工作中,我们提出了一个基于部件的先验的生成神经网络forshapes,其中关键的想法是通过改变形状部分及其组合来合成形状的网络。处理不是非结构化整体的形状,而是作为(可重新)可组合的可变形部件组,为生成过程增加了组合维度,以丰富输出的多样性,鼓励发电机更多地投入到“看不见的”中。我们表明,与基线生成模型相比,我们基于部分的模型生成了更丰富多样的可行形状。为此,我们引入两个定量指标来评估生成模型的相关性,并评估生成的数据如何涵盖培训数据和来自同一目标分布的看不见的数据。
translated by 谷歌翻译
点云提供灵活自然的表示,可用于机器人或自动驾驶汽车等无数应用。最近,在原始点云数据上运行的深度网络已经在监督学习任务(例如对象分类和语义分割)方面显示出有希望的结果。虽然可以使用现代扫描技术捕获大量点云数据集,但是手动标记这种大型3D点云的监督学习任务是一个繁琐的过程。这需要有效的无监督学习方法,其可以产生表示,使得下游任务需要显着更少的注释样本。我们提出了对原始点云数据进行无监督学习的新方法,其中训练神经网络以预测两个点云段之间的空间关系。在解决此任务时,将学习捕获点云的语义属性的表示。我们的方法在下游对象分类和分段任务中优于先前的监督学习方法,并且与完全监督的方法相当。
translated by 谷歌翻译
We propose the Wasserstein Auto-Encoder (WAE)-a new algorithm for building a gen-erative model of the data distribution. WAE minimizes a penalized form of the Wasserstein distance between the model distribution and the target distribution, which leads to a different regularizer than the one used by the Variational Auto-Encoder (VAE) [1]. This regularizer encourages the encoded training distribution to match the prior. We compare our algorithm with several other techniques and show that it is a generalization of adversarial auto-encoders (AAE) [2]. Our experiments show that WAE shares many of the properties of VAEs (sta-ble training, encoder-decoder architecture, nice latent manifold structure) while generating samples of better quality, as measured by the FID score.
translated by 谷歌翻译
点云是一种灵活的3D表示,可有效地对对象的表面几何进行建模。然而,这些以表面为中心的特性也对设计识别和合成点云的工具提出了挑战。这项工作提出了一种新颖的自回归模型PointGrow,它可以从头开始生成逼真的点云样本,或者以给定的语义对象为条件。我们的模型反复运行,每个点根据其先前生成的点的条件分布进行采样。由于pointcloud对象形状通常由远程interpointdependencies编码,我们使用专用的自我关注模块来增强我们的模型以捕获这些关系。广泛的评估表明,PointGrowachieves在保真度,多样性和语义保存方面满足无条件和条件点云生成任务的性能。此外,条件PointGrow学习给定图像条件的平滑流形,其中可以在内部执行3D形状插值和算术计算。代码和型号可从以下网址获得:https://github.com/syb7573330/PointGrow。
translated by 谷歌翻译
大多数依赖基于深度学习的方法来生成3D点集的算法只能生成包含固定数量点的云。此外,它们通常需要通过多个权重参数化的大型网络,这使得它们难以训练。在本文中,我们提出了一种自动编码器体系结构,它既可以编码和解码任意化的云,也可以在稀疏点云的上采样中证明其有效性。有趣的是,我们可以使用不到一半的参数作为最先进的体系结构。同时仍然提供更好的性能。我们将使我们的代码库完全可用。
translated by 谷歌翻译
像图像这样的高维数据的生成建模是一个众所周知的困难和不明确的问题。特别是,如何评估学习的生成模型尚不清楚。在这篇立场文件中,我们认为,以生成对抗网络(GAN)为先驱的对抗性学习提供了一个有趣的框架,可以隐式地为生成建模任务定义更有意义的任务损失,例如生成“视觉上逼真”的图像。我们将这些任务损失称为参数对抗性分歧我们给出了两个主要原因,我们认为参数分歧是生成建模的良好学习目标。此外,我们统一了使用统计决策理论选择良好的结构性损失(在结构化预测中)和选择adiscriminator架构(在生成建模中)的过程;然后,我们能够在特定环境中正式化和量化“弱”损失更容易学习的直觉。最后,我们提出了两项​​具有挑战性的任务来评估参数和非参数分歧:生成非常高分辨率数字的水生任务,以及满足高级代数约束的学习数据的定量任务。我们使用两个常见的差异来训练一个发生器,并表明参数发散在定性和定量任务上都优于非参数发散。
translated by 谷歌翻译
Generative adversarial networks (GANs) provide a way to learn deeprepresentations without extensively annotated training data. They achieve thisthrough deriving backpropagation signals through a competitive processinvolving a pair of networks. The representations that can be learned by GANsmay be used in a variety of applications, including image synthesis, semanticimage editing, style transfer, image super-resolution and classification. Theaim of this review paper is to provide an overview of GANs for the signalprocessing community, drawing on familiar analogies and concepts wherepossible. In addition to identifying different methods for training andconstructing GANs, we also point to remaining challenges in their theory andapplication.
translated by 谷歌翻译
无监督学习中的两个基本问题是基于大量未标记数据的有效变量模型和稳健密度估计的有效推断。两个任务的算法,例如归一化流和生成对抗网络(GAN),通常是独立开发的。在本文中,我们提出了{\ em连续时间流}(CTF)的概念,基于扩散的方法,它们能够渐近地接近目标分布。与标准化流量和GAN不同,CTF可以在一个框架中实现上述两个目标,具有理论保证。我们的框架包括从CTF预算推理中提取知识,并利用CTF学习明确的基于能量的分布以进行密度估计。这两项任务都依赖于一项新技术,用于分摊学习中的分配匹配。与相关技术相比,各种任务的实验证明了所提出的CTF框架的有希望的性能。
translated by 谷歌翻译
我们证明了变分自动编码器始终无法在潜在和可见空间中学习边缘分布。我们问这是否是匹配条件分布的结果,或者是显式模型和后验分布的限制。我们通过在变分推理中使用GenerativeAdversarial Networks来探索由边际分布匹配和隐式分布提供的替代方案。我们对几种VAE-GAN杂种进行了大规模的评估,并探索了类概率估计对学习分布的影响。我们得出结论,目前VAE-GAN杂交种的适用性有限:与VAE相比,它们难以扩展,评估和用于推理;并且他们没有改善GAN的发电质量。
translated by 谷歌翻译
我们提出并研究了保持分布的有损压缩问题。受极端图像压缩的最新进展的影响,即使在非常低的比特率下也能维持无伪像的重建,我们建议在构造遵循训练数据分布的约束条件下优化速率 - 失真权衡。由此产生的压缩系统恢复了光谱的两端:一方面,在零比特率下,它学习了数据的生成模型,并且在足够高的比特率下实现了完美的重建。此外,对于中间比特,它在学习训练数据的生成模型和完美重建训练样本之间平滑地插入。我们研究了几种近似解决所提出的优化问题的方法,包括Wasserstein GAN和Wasserstein Autoencoder的新组合,并对所提出的压缩系统进行了广泛的理论和经验表征。
translated by 谷歌翻译
我们介绍了自回归隐式分位数网络(AIQN),这是一种与普遍使用的生成不同的生成建模方法,它们使用分位数回归隐式捕获分布。 AIQN能够实现卓越的感知质量和评估度量的改进,而不会导致样本多样性的损失。该方法可以应用于许多现有模型和体系结构。在这项工作中,我们使用AIQN扩展了PixelCNN模型,并使用感知分数,FID,非樱桃采样样本和修复结果展示了CIFAR-10和ImageNet上的结果。我们一致地观察到AIQN产生了一种高度稳定的算法,可以提高感知质量,同时保持高度多样化的分布。
translated by 谷歌翻译