三维几何数据为研究代表性学习和生成建模提供了一个很好的领域。在本文中,我们将看到表示为点云的几何数据。我们引入了深度自动编码器(AE)网络,具有最先进的重建质量和可扩展性。学习的表示优于现有的3D识别任务方法,并通过简单的代数操作实现形状编辑,例如语义部分编辑,形状类比和形状插值,以及形状完成。我们对不同的生成模型进行了彻底的研究,包括在原始点云上运行的GAN,在我们的AE的固定潜在空间中显着改进的GAN应变,以及高斯混合模型(GMM)。为了定量评估生成模型,我们引入了基于点云集之间匹配的样本保真度和多样性的度量。有趣的是,我们对泛化,保真度和多样性的评估表明,在我们的AE的潜在空间中训练的GMM产生最好的结果。
translated by 谷歌翻译
构建能够生成结构化输出的模型是AI和机器人技术的关键挑战。虽然已经在许多类型的数据上探索了生成模型,但是在合成激光雷达扫描方面做的工作很少,这在机器人绘图和定位中起着关键作用。在这项工作中,我们展示了通过将激光雷达扫描解开为多通道2D信号,可以为这项任务进行深入的生成模型。我们的方法可以生成高质量的样本,同时学习有意义的潜在数据表示。此外,我们证明了我们的方法对噪声输入是鲁棒的 - 经过学习的模型可以从看似有效的数据中恢复潜在的激光雷达扫描。
translated by 谷歌翻译
语义形状完成是3D计算机视觉中的挑战性问题,其任务是使用部分3D形状作为输入生成完整的3D形状。我们提出了一种基于学习的方法,通过生成建模和潜在流形优化来完成不完整的3D形状。我们的算法直接在点云上工作。我们使用自动编码器和GAN来学习对象类点云的嵌入分布。具有缺失区域的输入点云首先被编码为特征向量。然后,使用GAN学习的表示使用组合优化来找到歧管中的最佳潜在向量,该组合优化在接近原始输入的合理向量的流形中找到向量(在解码器的特征空间和输出空间中)。实验表明,该算法能够成功地重建具有高保真度的大丢失区域的点云,而不必依赖基于样本的数据库检索。
translated by 谷歌翻译
计算机图形学,3D计算机视觉和机器人社区已经产生了多种方法来表示用于渲染和重建的3D几何。这些提供了保真度,效率和压缩功能之间的权衡。在这项工作中,我们介绍了DeepSDF,一种学习的连续符号距离函数(SDF)表示的一类形状,可以实现高质量的形状表示,插值和完成部分和有噪声的3D输入数据。与经典对应物一样,DeepSDF通过连续的体积场表示形状的表面:场中点的大小表示到表面边界的距离,而标志表示该区域是否在形状的内部( - )或外部(+)因此,我们的表示隐式地将形状的边界编码为学习函数的零级集合,同时明确地将空间的分类表示为内部形状的一部分。虽然经典SDF在分析或离散体素形式中通常表示单个形状的表面,但DeepSDF可以表示整个形状类别。此外,我们展示了学习3D形状表示和完成的最先进性能,同时与之前的工作相比将模型尺寸减小了一个数量级。
translated by 谷歌翻译
生成性对抗网络(GAN)在机器学习领域受到广泛关注,因为它们有可能学习高维,复杂的数据分布。具体而言,它们不依赖于关于分布的任何假设,并且可以以简单的方式从潜在空间生成真实样本。这种强大的属性使GAN可以应用于各种应用,如图像合成,图像属性编辑,图像翻译,领域适应和其他学术领域。在本文中,我们的目的是为那些熟悉的读者讨论GAN的细节,但不要深入理解GAN或者希望从各个角度看待GAN。另外,我们解释了GAN如何运作以及最近提出的各种目标函数的基本含义。然后,我们将重点放在如何将GAN与自动编码器框架相结合。最后,我们列举了适用于各种任务和其他领域的GAN变体,适用于那些有兴趣利用GAN进行研究的人。
translated by 谷歌翻译
深度生成架构提供了一种不仅可以对图像进行建模,还可以对复杂的三维对象(如点云)进行建模的方法。在这项工作中,我们提出了一种新方法来获得可用于聚类和重建的3D形状的有意义的表示。与用于表示学习和生成的单独解耦模型的三维点云生成的现有方法相反,我们的方法是第一个端到端解决方案,其允许同时学习表示的潜在空间并从中生成3D形状。为了实现这一目标,我们扩展了一个深度对抗自动编码器模型(AAE)以接受3D输入并创建3D输出。感谢我们的端到端训练机制,称为3DAdversarial Autoencoder(3dAAE)的结果方法获得二进制或连续的潜在空间,覆盖了更广泛的训练数据分布部分,从而实现了形状之间的平滑插值。最后,我们广泛的定量评估表明,3dAAE在一组基准任务中提供了最先进的结果。
translated by 谷歌翻译
数据驱动的生成建模通过利用深度神经网络的力量取得了显着进步。一个重复出现的挑战是如何从整个目标分布中抽取各种数据,而不仅仅是从训练数据的分布中抽样。换句话说,我们希望生成模型超越观察到的训练样本,并学会生成“看不见的”数据。在我们的工作中,我们提出了一个基于部件的先验的生成神经网络forshapes,其中关键的想法是通过改变形状部分及其组合来合成形状的网络。处理不是非结构化整体的形状,而是作为(可重新)可组合的可变形部件组,为生成过程增加了组合维度,以丰富输出的多样性,鼓励发电机更多地投入到“看不见的”中。我们表明,与基线生成模型相比,我们基于部分的模型生成了更丰富多样的可行形状。为此,我们引入两个定量指标来评估生成模型的相关性,并评估生成的数据如何涵盖培训数据和来自同一目标分布的看不见的数据。
translated by 谷歌翻译
我们提倡使用隐式字段来学习形状的生成模型,并引入用于形状生成的隐式场解码器,旨在改善生成的形状的视觉质量。隐式字段为3D空间中的每个点分配一个值,以便可以将形状提取为aniso-surface。我们的隐式场解码器被训练以通过二元分类器执行该分配。具体地,它采用点坐标以及编码形状的特征向量,并输出指示该点是否在形状之外的值。通过我们的解码器替换常规解码器用于表示学习和形状的生成建模,我们展示了诸如shapeautoencoding,生成,插值和单视图3D重建等任务的卓越结果,特别是在视觉质量方面。
translated by 谷歌翻译
生成对抗网络(GAN)是用于学习来自样本的复杂数据分布的生成模型的创新技术。尽管最近在生成逼真图像方面取得了显着的进步,但是它们的主要缺点之一是,在实践中,即使在对不同数据集进行训练时,它们也倾向于生成具有很小多样性的样本。这种被称为模式崩溃的现象一直是GAN最近几项进展的主要焦点。然而,很少有人理解为什么模式崩溃发生,而且即将出现的方法能够缓解模式崩溃。我们提出了处理模式崩溃的原则方法,我们称之为打包。主要思想是使鉴别器基于来自同一类的多个样本做出决策,无论是真实的还是人工生成的。我们借用二元假设检验的分析工具 - 特别是Blackwell [Bla53]的开创性结果---来证明包装和模式崩溃之间的基本联系。我们证明了包装自然会对模式崩溃的发电机进行处罚,从而减少了发电机的分布。模式在训练过程中崩溃。基准数据集的数值实验表明,包装在实践中也提供了显着的改进。
translated by 谷歌翻译
点云是一种灵活的3D表示,可有效地对对象的表面几何进行建模。然而,这些以表面为中心的特性也对设计识别和合成点云的工具提出了挑战。这项工作提出了一种新颖的自回归模型PointGrow,它可以从头开始生成逼真的点云样本,或者以给定的语义对象为条件。我们的模型反复运行,每个点根据其先前生成的点的条件分布进行采样。由于pointcloud对象形状通常由远程interpointdependencies编码,我们使用专用的自我关注模块来增强我们的模型以捕获这些关系。广泛的评估表明,PointGrowachieves在保真度,多样性和语义保存方面满足无条件和条件点云生成任务的性能。此外,条件PointGrow学习给定图像条件的平滑流形,其中可以在内部执行3D形状插值和算术计算。代码和型号可从以下网址获得:https://github.com/syb7573330/PointGrow。
translated by 谷歌翻译
点云提供灵活自然的表示,可用于机器人或自动驾驶汽车等无数应用。最近,在原始点云数据上运行的深度网络已经在监督学习任务(例如对象分类和语义分割)方面显示出有希望的结果。虽然可以使用现代扫描技术捕获大量点云数据集,但是手动标记这种大型3D点云的监督学习任务是一个繁琐的过程。这需要有效的无监督学习方法,其可以产生表示,使得下游任务需要显着更少的注释样本。我们提出了对原始点云数据进行无监督学习的新方法,其中训练神经网络以预测两个点云段之间的空间关系。在解决此任务时,将学习捕获点云的语义属性的表示。我们的方法在下游对象分类和分段任务中优于先前的监督学习方法,并且与完全监督的方法相当。
translated by 谷歌翻译
大多数依赖基于深度学习的方法来生成3D点集的算法只能生成包含固定数量点的云。此外,它们通常需要通过多个权重参数化的大型网络,这使得它们难以训练。在本文中,我们提出了一种自动编码器体系结构,它既可以编码和解码任意化的云,也可以在稀疏点云的上采样中证明其有效性。有趣的是,我们可以使用不到一半的参数作为最先进的体系结构。同时仍然提供更好的性能。我们将使我们的代码库完全可用。
translated by 谷歌翻译
Generative adversarial networks (GANs) provide a way to learn deeprepresentations without extensively annotated training data. They achieve thisthrough deriving backpropagation signals through a competitive processinvolving a pair of networks. The representations that can be learned by GANsmay be used in a variety of applications, including image synthesis, semanticimage editing, style transfer, image super-resolution and classification. Theaim of this review paper is to provide an overview of GANs for the signalprocessing community, drawing on familiar analogies and concepts wherepossible. In addition to identifying different methods for training andconstructing GANs, we also point to remaining challenges in their theory andapplication.
translated by 谷歌翻译
生成矩匹配网络(GMMN)是一种深度生成模型,它通过用基于内核最大度差异(MMD)的双样本测试替换GAN中的识别符来改变生成对抗网络(GAN)。尽管已经研究了MMD的一些理论保证,但GMMN的经验性能仍然不如GAN在具有挑战性的大型基准数据集上具有竞争力。与GAN相比,GMMN的计算效率也不太理想,部分地在训练期间需要相当大的批量大小。在本文中,我们提出通过引入对抗核学习技术来改进GMMN的模型表达性及其计算效率,作为原始GMMN中固定高斯核的替代。新方法结合了GMMN和GAN中的关键思想,因此我们将其命名为MMD GAN .MMD GAN中的新距离测量是一种有意义的损失,具有弱拓扑的优点,并且可以通过梯度下降和相对较小的批量大小进行优化。在我们对多个基准数据集(包括MNIST,CIFAR-10,CelebA和LSUN)的评估中,MMD-GAN的性能明显优于GMMN,并且与其他代表性的GAN工作相比具有竞争力。
translated by 谷歌翻译
We propose the Wasserstein Auto-Encoder (WAE)-a new algorithm for building a gen-erative model of the data distribution. WAE minimizes a penalized form of the Wasserstein distance between the model distribution and the target distribution, which leads to a different regularizer than the one used by the Variational Auto-Encoder (VAE) [1]. This regularizer encourages the encoded training distribution to match the prior. We compare our algorithm with several other techniques and show that it is a generalization of adversarial auto-encoders (AAE) [2]. Our experiments show that WAE shares many of the properties of VAEs (sta-ble training, encoder-decoder architecture, nice latent manifold structure) while generating samples of better quality, as measured by the FID score.
translated by 谷歌翻译
随着深度神经网络的出现,基于学习的3D重建方法越来越受欢迎。然而,与图像不同,在3D中没有规范表示,其在计算上和存储效率上都允许表示任意拓扑的高分辨率几何。因此,许多最先进的基于学习的3D重建方法仅可表示非常粗糙的3D几何形状或仅限于受限制的域。在本文中,我们提出了占用网络,这是一种基于学习的三维重建方法的新代表。占用网络明确地将三维表面表示为神经网络分类器的连续决策边界。与现有方法相比,我们的代表性在无限分辨率下编码3D输出的描述,而没有过多的内存占用。我们验证了我们的表示可以有效地编码3D结构,并且可以从各种输入中推断出来。我们的实验证明了对于单个图像,噪声点云和粗糙离散体素网格的3D重建的挑战性任务,定性和定量的竞争结果。我们相信,占用网络将成为各种基于学习的3D任务的有用工具。
translated by 谷歌翻译
Recent deep networks that directly handle points in a point set, e.g., PointNet, have been state-of-the-art for supervised learning tasks on point clouds such as classification and segmentation. In this work, a novel end-to-end deep auto-encoder is proposed to address unsupervised learning challenges on point clouds. On the encoder side, a graph-based enhancement is enforced to promote local structures on top of PointNet. Then, a novel folding-based decoder deforms a canonical 2D grid onto the underlying 3D object surface of a point cloud, achieving low reconstruction errors even for objects with delicate structures. The proposed decoder only uses about 7% parameters of a decoder with fully-connected neural networks, yet leads to a more discriminative representation that achieves higher linear SVM classification accuracy than the benchmark. In addition, the proposed decoder structure is shown, in theory, to be a generic architecture that is able to reconstruct an arbitrary point cloud from a 2D grid. Our code is available at http://www.merl.com/research/ license#FoldingNet
translated by 谷歌翻译
我们介绍了自回归隐式分位数网络(AIQN),这是一种与普遍使用的生成不同的生成建模方法,它们使用分位数回归隐式捕获分布。 AIQN能够实现卓越的感知质量和评估度量的改进,而不会导致样本多样性的损失。该方法可以应用于许多现有模型和体系结构。在这项工作中,我们使用AIQN扩展了PixelCNN模型,并使用感知分数,FID,非樱桃采样样本和修复结果展示了CIFAR-10和ImageNet上的结果。我们一致地观察到AIQN产生了一种高度稳定的算法,可以提高感知质量,同时保持高度多样化的分布。
translated by 谷歌翻译
本文通过合并来自两个现有数据集的不同类型的信息,介绍了DensePoint,一个密集采样和注释的点云数据集,包含16个类别的10,000多个单个对象。密集点中的每个点云包含40,000个点,每个点与两种信息相关联:RGB值和部分注释。此外,我们提出了一种利用生成对抗网络(GAN)进行点云着色的方法。通过仅给出点云本身,网络可以为单个对象的点云生成颜色。在DensePoints上的实验表明,在对象的不同部分之间的点云中存在明确的边界,这表明所提出的网络能够生成合理的良好颜色。我们的数据集可在项目页面上公开获取。
translated by 谷歌翻译
在很少或没有监督的情况下学习有用的表示是人工智能的关键挑战。我们提供了对表示学习中近期进展的深入回顾,重点是基于自动编码器的模型。为了组织这些结果,我们利用了对下游任务有用的元先验,例如解开和特征的层次组织。特别是,我们发现了强制执行此类属性的三种主要机制,即(i)规范(近似或汇总)后向分布,(ii)分解编码和解码分布,或(iii)引入结构化先验分布。虽然有一些有希望的结果,但隐性或显性监督仍然是关键推动因素,所有当前方法都使用强诱导偏差和建模假设。最后,我们通过速率 - 失真理论的分析提供了基于自动编码器的表示学习的分析,并确定了关于下游任务的现有知识量之间的明确权衡,以及该任务对于该任务的有用性。
translated by 谷歌翻译