随机视频预测模型采用一系列图像帧,并生成一系列连续的未来图像帧。这些模型通常以自回归方式生成未来帧,这种方式很慢并且要求输入和输出帧是连续的。我们通过从任意一组帧生成潜在表示来引入一个模型来克服这些缺点,然后可以使用这些表示在任意时间点同时有效地对时间上一致的帧进行采样。例如,我们的模型可以“跳转”并直接在视频结尾处对帧进行采样,而不对中间帧进行采样。合成视频评估确认了速度和功能方面的重要性,而不会损失保真度。我们还将框架应用于3D场景重建数据集。在这里,我们的模型是根据摄像机位置进行调整的,并且可以对3D场景的一个被遮挡的区域看起来像是一致的图像集,即使该区域可能包含多个可能性。重建和视频可在https://bit.ly/2O4Pc4R上找到。
translated by 谷歌翻译
自然语言处理通过分布式方法在学习单词语义方面取得了重大进展,但是通过这些方法表达的表示无法捕捉到现实世界中隐含的某些类型的信息。特别是,空间关系的编码方式与人类空间推理不一致,缺乏对观点变化的不变性。我们提出了一种系统,能够从自然语言中捕获诸如后面,左边等空间关系的语义。我们的关键贡献是一个新的多模态目标,它基于从文本描述生成图像的图像,以及一个新的数据集来训练它。我们证明内部表示对于意义保留描述的变换(释义不变性)是健壮的,而视点不变性是一个系统的紧急属性。
translated by 谷歌翻译
我们提出了一种视觉定位的公式,不需要以点云或体素的形式构建显式地图。目标是在更高,更抽象的层面上学习环境的隐式表示,例如对象的层次。为了研究这种方法,我们考虑程序生成的Minecraft世界,为此我们可以生成视觉上丰富的图像以及相机姿势坐标。我们首先表明,通过新颖的注意机制增强的遗传查询网络(GQN)可以捕捉到Minecraft中3D场景的视觉结构,如样本所示。然后,我们将模型应用于定位问题,研究生成和判别方法,并比较它们各自捕获任务不确定性的不同方式。我们的结果表明,具有隐式映射的模型能够捕获视觉复杂场景的基础3D结构,并使用它来准确定位新观察,为顺序定位中的未来应用铺平道路。补充视频可在https://youtu.be/iHEXX5wXbCI获得。
translated by 谷歌翻译
神经网络(NN)是参数化函数,可以通过梯度下降来调整以近似标记的高精度数据集合。另一方面,高斯过程(GP)是定义可能函数的分布的概率模型,并且通过概率推理的规则根据数据进行更新。 GP是概率性的,数据有效的和灵活的,但是它们也是计算密集型的,因此它们的适用性受到限制。我们介绍了一类神经潜变量模型,我们称之为神经过程(NPs),结合了两个世界中最好的。与GP类似,NP定义了函数的分布,能够适应新的观察,并且可以估计其预测中的不确定性。与NN一样,NP在培训评估期间具有计算效率,但也学会使其先验适应数据。我们展示了NP在一系列学习任务中的表现,包括回归和优化,并与文献中的相关模型进行比较和对比。
translated by 谷歌翻译
深度神经网络在函数逼近方面表现优异,但它们通常从头开始训练每个新函数。另一方面,贝叶斯方法,例如高斯过程(GP),利用先验知识在测试时快速推断新函数的形状。然而,GP在计算上是昂贵的,并且很难设计合适的先验。在本文中,我们提出了一系列神经模型,即条件神经过程(CNPs),它们结合了两者的优点。 CNP受到GP等随机过程灵活性的启发,但结构为神经网络,并通过梯度下降进行训练。 CNP仅在观察一些训练数据点后进行准确预测,然后扩展到复杂函数和大数据集。我们在一系列规范机器学习任务中展示了该方法的性能和多功能性,包括回归,分类和图像完成。
translated by 谷歌翻译
许多现实世界的视觉问题都存在固有的模糊性。例如,在临床应用中,单独的CT扫描可能不清楚哪个特定区域是癌组织。因此,一组评分者通常产生一组不同但可信的分割。我们考虑在给定输入的情况下学习分段的任务。为此,我们提出了一种基于U-Net与条件变分自动编码器组合的生成分割模型,该模型能够有效地产生无限数量的似是而非的假设。我们在肺部异常分割任务和城市景观分割任务上展示了我们的模型生成可能的分割变体以及它们发生的频率,这比已发表的方法明显更好。这些模型可能对实际应用产生很大影响,例如,用作临床决策算法,考虑多个合理的语义分段假设,以提供可能的诊断并推荐进一步的动作来解决当前的歧义。
translated by 谷歌翻译
在基于模型的强化学习中,可以利用环境的生成和时间模型来提高代理性能,或者通过在训练期间调整代理的表示,或者通过使用作为显式规划机制的一部分。然而,由于难以在较大的,可能部分观察的和3D环境中训练这些模型,它们在实践中的应用受限于简单的环境。在这项工作中,我们引入了这种挑战性环境的新型动作条件生成模型。该模型具有非参数空间记忆系统,其中我们存储学习的,解开的环境表示。低维空间更新使用状态空间模型计算,该模型利用关于移动代理的先前动态的知识和高维度视觉观察用VariationalAuto-Encoder建模。结果是一个可扩展的架构,能够在一系列部分观察到的2D和3D环境中执行数百个时间步长的相干预测。
translated by 谷歌翻译
计算机视觉的一个关键目标是从二维世界观测中恢复潜在的三维结构。在本文中,我们学习了强大的三维结构深度生成模型,并通过概率推理从三维和二维图像中恢复这些结构。我们在几个数据集(包括ShapeNet [2])上展示了高质量的样本和报告日志可能性,并建立了文献中的第一个基准。我们还展示了如何从2D图像端到端地训练这些模型及其参考网络。这首次证明了学习以纯粹无监督的方式推断世界的3D表示的可行性。
translated by 谷歌翻译
我们提出了一个框架,用于在结构化图像模型中进行有效推理,明确推理对象。我们通过使用循环神经网络执行概率推理来实现这一点,该神经网络参与场景元素并一次处理一个。至关重要的是,模型本身会学习选择适当数量的推理步骤。我们使用此方案可以在部分指定的2D模型(可变大小的变分自动编码器)和完全指定的3D模型(概率推导器)中执行推理。我们展示了这样的模型学习识别多个对象 - 对场景的元素进行计数,定位和分类 - 没有错误的监视,例如,在神经网络的单个前向传递中分解具有各种数量的对象的3D图像。我们进一步表明,与有监督的对应物相比,网络产生了准确的推论,并且它们的结构导致了改进的泛化。
translated by 谷歌翻译
由于机器学习工具的快速发展,特别是在各种计算机视觉和图像处理领域的深度网络,最近出现了用于水印的卷积神经网络的应用。在本文中,我们提出了一种深度端到端扩散水印框架(ReDMark),它可以适用于任何所需的变换空间。该框架由两个完全卷积神经网络组成,具有残余结构前置和提取。整个深度网络端到端训练,导致盲目安全水印。该框架可以根据稳健性与不可感知性进行定制。它还可以在容量和坚固性之间进行交换。所提出的框架将各种攻击模拟为可区分的网络层,以促进端到端训练。对于JPEG攻击,使用可微分近似,从而大大提高了对该攻击的水印鲁棒性。所提出的框架的另一个重要特征是其能够在相对较宽的图像区域内扩散水印信息,从而提高了安全性和鲁棒性。比较结果与最近的最新研究突出了所提出的框架在不可感知性和鲁棒性方面的优越性。
translated by 谷歌翻译