重要性加权变分推理(Burda et al。,2015)使用multiplei.i.d。样本具有更严格的变分下界。我们认为联合提案有可能减少冗余样本的数量,并引入层次结构来诱导相关性。希望是提案将协调以弥补彼此之间的错误,以减少重要性估计的方差。从理论上讲,我们分析了估计方差的收敛可以与下界的收敛相关联的条件。根据经验,我们确认下界的最大化确实隐含地使方差最小化。进一步分析表明,这是由提出的分层抽样方案引起的负相关的结果,并且当样本数量增加时推理的性能也得到改善。
translated by 谷歌翻译
预测视频序列的未来帧是具有挑战性的生成建模任务。有希望的方法包括概率潜变量模型,例如变分自动编码器。虽然VAE可以处理不确定性并模拟多种可能的未来结果,但它们倾向于产生预测。在这项工作中,我们认为这是欠拟合的标志。为了解决这个问题,我们建议增加潜在分布的表现力并使用更高容量的可能性模型。我们的方法依赖于潜在变量的层次结构,它定义了一系列灵活的priorand后验分布,以便更好地模拟未来序列的概率。我们通过一系列消融实验来验证我们的建议,并将我们的方法与当前最先进的潜变量模型进行比较。我们的方法在三个不同的数据集中的几个指标下表现良好。
translated by 谷歌翻译
音乐的机器学习模型通常将组合的任务分解为按时间顺序排列的过程,从开始到结束一次性组成一段音乐。相反,人类作曲家在这里和那里以非线性时尚,涂鸦的图案来写音乐,经常重新审视以前做出的选择。为了更好地近似这个过程,我们训练卷积神经网络来完成部分乐谱,并探索使用阻塞的吉布斯采样作为重写的类比。模型和生成过程都不是与组合的特定因果方向联系在一起。我们的模型是无序NADE的一个实例(Uria等,2014),它允许更直接的祖先采样。然而,我们发现Gibbs采样大大提高了样本质量,我们证明这是由于某些条件分布模型不佳所致。此外,我们表明,甚至廉价的近似阻止了来自Yao等人的Gibbs程序。 (2014)基于对数似然和人道评估,得出比祖先抽样更好的样本。
translated by 谷歌翻译
无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
构建能够生成结构化输出的模型是AI和机器人技术的关键挑战。虽然已经在许多类型的数据上探索了生成模型,但是在合成激光雷达扫描方面做的工作很少,这在机器人绘图和定位中起着关键作用。在这项工作中,我们展示了通过将激光雷达扫描解开为多通道2D信号,可以为这项任务进行深入的生成模型。我们的方法可以生成高质量的样本,同时学习有意义的潜在数据表示。此外,我们证明了我们的方法对噪声输入是鲁棒的 - 经过学习的模型可以从看似有效的数据中恢复潜在的激光雷达扫描。
translated by 谷歌翻译
最近提出了许多用于扎根语言理解的模型,包括(i)可以容易地适应任何给定任务的通用模型,几乎没有适应性;以及(ii)直观吸引人的模块化模型,其需要实例化背景知识。我们比较了两种类型的模型,它们将它们用于特定形式的系统泛化。使用合成VQA测试,我们评估哪些模型能够在仅针对它们的小部分训练之后对所有可能的对象进行推理。我们的研究结果表明,modularmodels的泛化更加系统化,并且对模块布局非常敏感,即模块的连接方式。我们进一步研究是否可以通过学习它们的布局和参数化来进行更好地概括的模块化模型。我们发现先前工作中的从头到尾的方法经常学习错误的布局和虚假的参数化,这不利于系统的泛化。我们的结果表明,除了模块性之外,语言理解中的系统泛化可能需要明确的正规化者或先验者。
translated by 谷歌翻译
我们证明了条件自回归生成模型(vanden Oord等,2016a)在离散潜在空间(van den Oord等,2017b)上的应用,用于MCTS的前向规划。为了测试这种方法,我们引入了一个具有不同难度级别的新环境,以及移动目标和障碍。高质量框架生成和经典规划方法的结合几乎与我们的任务的真实环境性能相匹配,证明了该方法在动态环境中基于模型的规划的有用性。
translated by 谷歌翻译
基于van den Oord等人(2017)提出的方法,我们展示了一种有效音乐分解的条件自回归流水线。分解(Casal&Casey,2010)着重于重新制作现有的音乐作品,坚持高水平的结构,同时也重新想象工作的其他方面。这可能涉及重用预先存在的主题或原始部分的部分,同时还需要灵活地在不同的粒度级别生成新内容。将上述建模管道应用于重构,我们在和弦序列注释上展示了多样化和结构化的生成条件。
translated by 谷歌翻译
最近使用深度学习的基于字符和音素的参数化TTS系统在自然语音生成中表现出强大的性能。然而,在实际部署中,字符或音素输入之间的选择会产生严重的限制,因为在某些情况下直接控制发音是至关重要的。我们演示了一种简单的方法,用于在单个编码器中组合多种类型的语言信息,称为表示混合,在推理期间实现字符,音素或混合表示之间的灵活选择。公共有声读物语料库的实验和用户研究显示了我们的方法的功效。
translated by 谷歌翻译
我们探讨了Embodied QuestionAnswering的盲目(仅限问题)基线。 EmbodiedQ​​A任务要求代理人通过在模拟环境中智能地导航来回答问题,在最终回答之前仅通过第一人称视觉收集必要的视觉信息。因此,忽略环境和视觉信息的盲目基线是一种退化解决方案,但我们通过我们在EQAv1数据集上的实验表明,在所有情况下,一个简单的仅问题基线可以在EmbodiedQ​​A任务中获得最先进的结果,除非该代理非常靠近该对象。
translated by 谷歌翻译